博鱼官方网页版-博鱼(中国)

近期中（zhōng）央（yāng）密集点名“新基建”,备（bèi）受（shòu）关注（zhù）。人工智能作为新基建核心领域之一，展现出（chū）强大（dà）成长（zhǎng）潜力，将成（chéng）为（wéi）产业数（shù）字化的重（chóng）要（yào）驱动。乘着东风，多模态融合发展或为人工智（zhì）能深入拓展场（chǎng）景、实现万物互联提供不竭动力。

近日（rì），由（yóu）蚂蚁金服牵（qiān）头制定的“生物特（tè）征识（shí）别多模态融（róng）合国际标准”正式立项，这（zhè）一标准的制定，对于多模（mó）态领域发展与技术规（guī）范产生了重大（dà）影（yǐng）响。

为此，笔（bǐ）者与眼神科技、云从、银河水滴等多个企（qǐ）业方，进行（háng）了关于多模态领域发展主题的对（duì）话。相（xiàng）较于多模态，我们应该先了解单模态。在对话中（zhōng）笔者了解到，对于（yú）指纹识别、人脸识别、虹膜识别、指静脉识别等每一（yī）种生物识（shí）别技术，通过（guò）每一种算法用（yòng）一个传感器去解（jiě）决一个问（wèn）题的模（mó）式，即为单（dān）模态（tài）。

后来，随着AI发展和信息化（huà）的迭（dié）代（dài），不同信息（xī）从不同方位（wèi）、不同传感器一拥而（ér）入，单一识别技术已（yǐ）经很（hěn）难满足（zú）这样的发展，在这（zhè）种情况下，多模态技术应场景而生。但多模态并（bìng）不是单模态的简单叠（dié）加或（huò）组（zǔ）合替代（dài），而是基（jī）于（yú）数（shù）据（jù）融合的算法融合、并依托平（píng）台决（jué）策为支撑（chēng），是单（dān）模态生（shēng）物识别技术的重大突破，也是识别技术的（de）未来发展方向（xiàng）。

目前，多模态技术主要应用于线（xiàn）上娱乐、身（shēn）份（fèn）认证、医疗健（jiàn）康、智（zhì）慧金融、安防、教育、军工、园（yuán）区等领域。

应（yīng）用驱动下，多（duō）模态（tài）成AI行业发展（zhǎn）新风（fēng）向

多模态（tài）从（cóng）2018年开始成为技术（shù）行业的（de）焦点。那时，很多国（guó）内（nèi）大企业，如华为（wéi）、腾讯、百度、阿里等公司，都开始逐（zhú）渐把目光瞄向多模态；很多创业公司，如眼神科（kē）技、云从、依（yī）图、银（yín）河水滴等也在思考这个方（fāng）向性的发展问（wèn）题。

腾讯AI Lab的博士（shì）俞栋曾说（shuō）“多模态是（shì）迈向（xiàng）通用人工智能的重要方向”，通用（yòng）人工智能是弱人工智能时（shí）代需要走的一个（gè）方向，弱人工智能是“见多（duō）识（shí）广”，解决的是感知（zhī）问（wèn）题。

在眼（yǎn）神科技创始人兼CEO周军看来：“通用人（rén）工（gōng）智能具有（yǒu）几（jǐ）个（gè）属性：自（zì）学（xué）习、增量学（xué）习（xí）、增强学（xué）习，这些内容结合在一块，是强人工智能。从弱人工智能到强人工智能的奇（qí）点，截（jié）止目前还没有突破。”“见少知多”、“不见而预知”的强人工智能时代，这（zhè）是国际前沿人工智能公司（sī）一（yī）直努力多年（nián）的（de）事情，但是技（jì）术遇到了天花板。

据了解，眼神科（kē）技从早（zǎo）期就已经完（wán）成了指（zhǐ）纹识（shí）别、人脸识别、虹膜识别技术的研发，形（xíng）成基（jī）础算法，其在面向市（shì）场（chǎng）推（tuī）广中（zhōng）发现，单一技术决策存（cún）在（zài）局限（xiàn），并在应用驱（qū）动下推出多模态融合（hé）生物识别技术（shù）。“多模态融合生物识别可以提升（shēng）识别精准度，也（yě）能在一（yī）定程（chéng）度提升生物识别（bié）技术的场（chǎng）景（jǐng）适应性和隐私安全性。”眼神科技表示。

简单来说，模态就是“感官”，多模态（tài）就（jiù）是将多种感官融合的方式。云从科技解（jiě）释道：“如（rú）果把‘模态’通俗地理解为感官，那么智能音箱就是（shì）一（yī）台只具备听觉（jiào）模态的物联网设（shè）备（bèi），而（ér）加（jiā）载（zǎi）AI分析能力（lì）的（de）摄像头可以视为视（shì）觉模态的物联（lián）网设备，把听觉、视觉甚（shèn）至（zhì）更多（duō）模态（tài）组（zǔ）合到（dào）一起，可诞生多模态（tài）物联网”。

与眼神科（kē）技（jì）、云（yún）从科技（jì）领域略有不同的步（bù）态（tài）识别企业银河水滴表示，“多模态技术在我国早已得到广泛应用，如（rú）在（zài）公共安防领（lǐng）域。另外，指纹（wén）和人脸识别等技（jì）术的配合使用（yòng）也比较成熟，目前（qián）正在（zài）向更深入更广泛的程（chéng）度迈进，在（zài）这个过程（chéng）中，步态识别（bié）技术越来越受到重（chóng）视”。

据悉，步（bù）态识别是一种新（xīn）兴（xìng）的生物特（tè）征识别（bié）技术，相较于其他（tā）识别方式，步态识别的（de）识别距（jù）离更远（yuǎn）。例如，普通高清摄像（xiàng）机下（xià）识（shí）别（bié）距（jù）离最（zuì）远可达50米，属于（yú）非（fēi）受（shòu）控识（shí）别，无（wú）需识别对（duì）象主动配合。步（bù）态（tài）识（shí）别是由体型、头型、肌肉力量（liàng）、运动神经（jīng）灵敏度、走路姿态等共（gòng）同决定，局部变化并不（bú）会影响识别结果。

因此，步态识别技（jì）术可以有（yǒu）效（xiào）弥补其他识别技术的不足，比（bǐ）如识别距（jù）离普（pǔ）遍较短、需要主动配（pèi）合或接触（chù）等（děng）问题。结合了步态（tài）识别的多模态（tài）技（jì）术将（jiāng）有更（gèng）广（guǎng）泛（fàn）的应用前景。

同时，银河水（shuǐ）滴也称：“每一种信（xìn）息的（de）来（lái）源都可以称为一种模态。就AI而言，步态（tài）、人脸（liǎn）、虹膜、指纹、语（yǔ）音等（děng）生（shēng）物特征（zhēng）模（mó）态是（shì）机器识别的依据，多模态识别即是（shì）一种结合以上多种识别技术的解决方案。任（rèn）何一种识别方式都（dōu）有（yǒu）一定的不足（zú），多种模式结（jié）合可以达到更（gèng）好的效果”。

新基建下（xià），多（duō）模（mó）态融合的（de）AI行业进入快车（chē）道

国家新基建政策的颁（bān）布，让AI行业拥有了更大（dà）的发展空间，加之（zhī）这次（cì）生物特（tè）征识别（bié）多模态融合标准的立项，更是让（ràng）AI有了更多的想（xiǎng）象空间。

新基建实际（jì）上是新时代（dài）下（xià），可促进物（wù）质（zhì）、能（néng）量、数据（jù）更（gèng）高（gāo）效产生和流动，使其朝着能够（gòu）产生（shēng）更大（dà）价值的地方（fāng）汇聚，这次新（xīn）冠疫情（qíng）已经切（qiē）身感（gǎn）受到基于AI技术（shù）下，新基建所带来的社会效应。

云从科技称，新基建（jiàn）下（xià）AI得到很好应（yīng）用，而多模态融合是AI技术发展必然结果（guǒ），因（yīn）为单点技（jì）术存在瓶颈，无（wú）法很好发挥AI的作用，容易导致（zhì）部分功能和体验感缺失（shī）。

而在多模态或（huò）AI技术闭环的支持下，AI可以在消费端与生产（chǎn）端（duān）更好服（fú）务社会。“AI是‘头雁’，解决的是问题本身，怎样让（ràng）能力（lì）提高（gāo），怎（zěn）么（me）去解决问题。让AI引领技术（shù）发展是（shì）整个行（háng）业，也是云（yún）从当前（qián）思考的（de）主要问题。”云从（cóng）科技补充道。

在消费者端，最能体现更好（hǎo）、更自然（rán）交互的是一（yī）位24小时的（de）个人助理（lǐ），它能知道用户什（shí）么时候想要什么，用户（hù）永（yǒng）远能得（dé）到自（zì）己期望的服务。

在生产者端，人（rén）机协（xié）同将能扩（kuò）展人类专（zhuān）家的能（néng）力（lì），比如现在（zài）医生一天（tiān）只能诊断（duàn）10个人，未来也许在AI的帮助下，通（tōng）过语音、AI诊（zhěn）断、视（shì）觉辅（fǔ）助（zhù）、大数据等技术可（kě）以一天诊断1000个人。

云从（cóng）科技总结了（le）目前（qián）AI设备技术（shù）闭环的（de）三种形（xíng）式（shì）：1、感知，包括语音（yīn）识别、语（yǔ）义理解、多轮对话、NLP、语（yǔ）音精准识别等（děng）领等；2、认知，包括（kuò）自然（rán）物体识别、人脸识别（bié）、肢体动（dòng）作识别（bié）等；3、决策，包括（kuò）AI对热量、红外捕捉信号、空（kōng）间信号的阅读与理解。

眼神科技则向笔者（zhě）表示（shì）：“新（xīn）基建的重要领域之一（yī）就是AI，乘着“新基建”的（de）东风，AI行（háng）业发展将加（jiā）速进入快车道（dào）。从这次（cì）新冠疫情（qíng）中可以看（kàn）到（dào），AI在公共安防、疫情防控、远（yuǎn）程办（bàn）公及服务中发挥了重要作用”。

此外，中国基础设施（shī）的“智能化（huà）”建设迫在眉（méi）睫，智慧（huì）城市、智慧（huì）安防、智能医（yī）疗（liáo）、智慧社区、智（zhì）慧教育等基础设（shè）施智能化建（jiàn）设进入全面爆发期，将（jiāng）为AI拓展更多创新应用场景和市场空间。在眼神科（kē）技看来，“在（zài）AI应用（yòng）场（chǎng）景不断深耕，以及5G、大数据、云计算（suàn）等（děng）新兴技术的融合推动下（xià），多模态融合生物识（shí）别是AI未来发展的必经之路”。

不过（guò），目前AI还（hái）处于一个初级阶段，更为（wéi）关注（zhù）的是（shì）更简单（dān）层（céng）次的交互（hù）。比（bǐ）如语音、人（rén）脸识别，这些只是感知（zhī）阶段。而且在信息（xī）化时代下，很多场景每（měi）天都会产生（shēng）海量的视频和图像数（shù）据，但（dàn）这些（xiē）信息并没有得到很好利用，大量值得挖（wā）掘的（de）潜在价值，被使用的（de）也仅是冰山一角。

对此，眼神（shén）科（kē）技称，“在实战应（yīng）用场（chǎng）景会有很多不（bú）可控的因素，比如遮挡、光照等，这些（xiē）会影响生物特征识别技术的应用，行业需要针对（duì）现（xiàn）有实际问题，对各种识别技术进行不断的研发和优（yōu）化（huà）算法（fǎ）”。

云从科技也表示，“现在AI仅处于初步发展阶段（duàn），解决的是简单层次的交互，更深层次（cì）的多（duō）模态融合交互，目前做得还远远不够（gòu），有待（dài）继续加强”。