近期中(zhōng)央(yāng)密集点名“新基建”,备(bèi)受(shòu)关注(zhù)。人工智能作为新基建核心领域之一,展现出(chū)强大(dà)成长(zhǎng)潜力,将成(chéng)为(wéi)产业数(shù)字化的重(chóng)要(yào)驱动。乘着东风,多模态融合发展或为人工智(zhì)能深入拓展场(chǎng)景、实现万物互联提供不竭动力。
近日(rì),由(yóu)蚂蚁金服牵(qiān)头制定的“生物特(tè)征识(shí)别多模态融(róng)合国际标准”正式立项,这(zhè)一标准的制定,对于多模(mó)态领域发展与技术规(guī)范产生了重大(dà)影(yǐng)响。
为此,笔(bǐ)者与眼神科技、云从、银河水滴等多个企(qǐ)业方,进行(háng)了关于多模态领域发展主题的对(duì)话。相(xiàng)较于多模态,我们应该先了解单模态。在对话中(zhōng)笔者了解到,对于(yú)指纹识别、人脸识别、虹膜识别、指静脉识别等每一(yī)种生物识(shí)别技术,通过(guò)每一种算法用(yòng)一个传感器去解(jiě)决一个问(wèn)题的模(mó)式,即为单(dān)模态(tài)。
后来,随着AI发展和信息化(huà)的迭(dié)代(dài),不同信息(xī)从不同方位(wèi)、不同传感器一拥而(ér)入,单一识别技术已(yǐ)经很(hěn)难满足(zú)这样的发展,在这(zhè)种情况下,多模态技术应场景而生。但多模态并(bìng)不是单模态的简单叠(dié)加或(huò)组(zǔ)合替代(dài),而是基(jī)于(yú)数(shù)据(jù)融合的算法融合、并依托平(píng)台决(jué)策为支撑(chēng),是单(dān)模态生(shēng)物识别技术的重大突破,也是识别技术的(de)未来发展方向(xiàng)。
目前,多模态技术主要应用于线(xiàn)上娱乐、身(shēn)份(fèn)认证、医疗健(jiàn)康、智(zhì)慧金融、安防、教育、军工、园(yuán)区等领域。
应(yīng)用驱动下,多(duō)模态(tài)成AI行业发展(zhǎn)新风(fēng)向
多模态(tài)从(cóng)2018年开始成为技术(shù)行业的(de)焦点。那时,很多国(guó)内(nèi)大企业,如华为(wéi)、腾讯、百度、阿里等公司,都开始逐(zhú)渐把目光瞄向多模态;很多创业公司,如眼神科(kē)技、云从、依(yī)图、银(yín)河水滴等也在思考这个方(fāng)向性的发展问(wèn)题。
腾讯AI Lab的博士(shì)俞栋曾说(shuō)“多模态是(shì)迈向(xiàng)通用人工智能的重要方向”,通用(yòng)人工智能是弱人工智能时(shí)代需要走的一个(gè)方向,弱人工智能是“见多(duō)识(shí)广”,解决的是感知(zhī)问(wèn)题。
在眼(yǎn)神科技创始人兼CEO周军看来:“通用人(rén)工(gōng)智能具有(yǒu)几(jǐ)个(gè)属性:自(zì)学(xué)习、增量学(xué)习(xí)、增强学(xué)习,这些内容结合在一块,是强人工智能。从弱人工智能到强人工智能的奇(qí)点,截(jié)止目前还没有突破。”“见少知多”、“不见而预知”的强人工智能时代,这(zhè)是国际前沿人工智能公司(sī)一(yī)直努力多年(nián)的(de)事情,但是技(jì)术遇到了天花板。
据了解,眼神科(kē)技从早(zǎo)期就已经完(wán)成了指(zhǐ)纹识(shí)别、人脸识别、虹膜识别技术的研发,形(xíng)成基(jī)础算法,其在面向市(shì)场(chǎng)推(tuī)广中(zhōng)发现,单一技术决策存(cún)在(zài)局限(xiàn),并在应用驱(qū)动下推出多模态融合(hé)生物识别技术(shù)。“多模态融合生物识别可以提升(shēng)识别精准度,也(yě)能在一(yī)定程(chéng)度提升生物识别(bié)技术的场(chǎng)景(jǐng)适应性和隐私安全性。”眼神科技表示。
简单来说,模态就是“感官”,多模态(tài)就(jiù)是将多种感官融合的方式。云从科技解(jiě)释道:“如(rú)果把‘模态’通俗地理解为感官,那么智能音箱就是(shì)一(yī)台只具备听觉(jiào)模态的物联网设(shè)备(bèi),而(ér)加(jiā)载(zǎi)AI分析能力(lì)的(de)摄像头可以视为视(shì)觉模态的物联(lián)网设备,把听觉、视觉甚(shèn)至(zhì)更多(duō)模态(tài)组(zǔ)合到(dào)一起,可诞生多模态(tài)物联网”。
与眼神科(kē)技(jì)、云(yún)从科技(jì)领域略有不同的步(bù)态(tài)识别企业银河水滴表示,“多模态技术在我国早已得到广泛应用,如(rú)在(zài)公共安防领(lǐng)域。另外,指纹(wén)和人脸识别等技(jì)术的配合使用(yòng)也比较成熟,目前(qián)正在(zài)向更深入更广泛的程(chéng)度迈进,在(zài)这个过程(chéng)中,步态识别(bié)技术越来越受到重(chóng)视”。
据悉,步(bù)态识别是一种新(xīn)兴(xìng)的生物特(tè)征识别(bié)技术,相较于其他(tā)识别方式,步态识别的(de)识别距(jù)离更远(yuǎn)。例如,普通高清摄像(xiàng)机下(xià)识(shí)别(bié)距(jù)离最(zuì)远可达50米,属于(yú)非(fēi)受(shòu)控识(shí)别,无(wú)需识别对(duì)象主动配合。步(bù)态(tài)识(shí)别是由体型、头型、肌肉力量(liàng)、运动神经(jīng)灵敏度、走路姿态等共(gòng)同决定,局部变化并不(bú)会影响识别结果。
因此,步态识别技(jì)术可以有(yǒu)效(xiào)弥补其他识别技术的不足,比(bǐ)如识别距(jù)离普(pǔ)遍较短、需要主动配(pèi)合或接触(chù)等(děng)问题。结合了步态(tài)识别的多模态(tài)技(jì)术将(jiāng)有更(gèng)广(guǎng)泛(fàn)的应用前景。
同时,银河水(shuǐ)滴也称:“每一种信(xìn)息的(de)来(lái)源都可以称为一种模态。就AI而言,步态(tài)、人脸(liǎn)、虹膜、指纹、语(yǔ)音等(děng)生(shēng)物特征(zhēng)模(mó)态是(shì)机器识别的依据,多模态识别即是(shì)一种结合以上多种识别技术的解决方案。任(rèn)何一种识别方式都(dōu)有(yǒu)一定的不足(zú),多种模式结(jié)合可以达到更(gèng)好的效果”。
新基建下(xià),多(duō)模(mó)态融合的(de)AI行业进入快车(chē)道
国家新基建政策的颁(bān)布,让AI行业拥有了更大(dà)的发展空间,加之(zhī)这次(cì)生物特(tè)征识别(bié)多模态融合标准的立项,更是让(ràng)AI有了更多的想(xiǎng)象空间。
新基建实际(jì)上是新时代(dài)下(xià),可促进物(wù)质(zhì)、能(néng)量、数据(jù)更(gèng)高(gāo)效产生和流动,使其朝着能够(gòu)产生(shēng)更大(dà)价值的地方(fāng)汇聚,这次新(xīn)冠疫情(qíng)已经切(qiē)身感(gǎn)受到基于AI技术(shù)下,新基建所带来的社会效应。
云从科技称,新基建(jiàn)下(xià)AI得到很好应(yīng)用,而多模态融合是AI技术发展必然结果(guǒ),因(yīn)为单点技(jì)术存在瓶颈,无(wú)法很好发挥AI的作用,容易导致(zhì)部分功能和体验感缺失(shī)。
而在多模态或(huò)AI技术闭环的支持下,AI可以在消费端与生产(chǎn)端(duān)更好服(fú)务社会。“AI是‘头雁’,解决的是问题本身,怎样让(ràng)能力(lì)提高(gāo),怎(zěn)么(me)去解决问题。让AI引领技术(shù)发展是(shì)整个行(háng)业,也是云(yún)从当前(qián)思考的(de)主要问题。”云从(cóng)科技补充道。
在消费者端,最能体现更好(hǎo)、更自然(rán)交互的是一(yī)位24小时的(de)个人助理(lǐ),它能知道用户什(shí)么时候想要什么,用户(hù)永(yǒng)远能得(dé)到自(zì)己期望的服务。
在生产者端,人(rén)机协(xié)同将能扩(kuò)展人类专(zhuān)家的能(néng)力(lì),比如现在(zài)医生一天(tiān)只能诊断(duàn)10个人,未来也许在AI的帮助下,通(tōng)过语音、AI诊(zhěn)断、视(shì)觉辅(fǔ)助(zhù)、大数据等技术可(kě)以一天诊断1000个人。
云从(cóng)科技总结了(le)目前(qián)AI设备技术(shù)闭环的(de)三种形(xíng)式(shì):1、感知,包括语音(yīn)识别、语(yǔ)义理解、多轮对话、NLP、语(yǔ)音精准识别等(děng)领等;2、认知,包括(kuò)自然(rán)物体识别、人脸识别(bié)、肢体动(dòng)作识别(bié)等;3、决策,包括(kuò)AI对热量、红外捕捉信号、空(kōng)间信号的阅读与理解。
眼神科技则向笔者(zhě)表示(shì):“新(xīn)基建的重要领域之一(yī)就是AI,乘着“新基建”的(de)东风,AI行(háng)业发展将加(jiā)速进入快车道(dào)。从这次(cì)新冠疫情(qíng)中可以看(kàn)到(dào),AI在公共安防、疫情防控、远(yuǎn)程办(bàn)公及服务中发挥了重要作用”。
此外,中国基础设施(shī)的“智能化(huà)”建设迫在眉(méi)睫,智慧(huì)城市、智慧(huì)安防、智能医(yī)疗(liáo)、智慧社区、智(zhì)慧教育等基础设(shè)施智能化建(jiàn)设进入全面爆发期,将(jiāng)为AI拓展更多创新应用场景和市场空间。在眼神科(kē)技看来,“在(zài)AI应用(yòng)场(chǎng)景不断深耕,以及5G、大数据、云计算(suàn)等(děng)新兴技术的融合推动下(xià),多模态融合生物识(shí)别是AI未来发展的必经之路”。
不过(guò),目前AI还(hái)处于一个初级阶段,更为(wéi)关注(zhù)的是(shì)更简单(dān)层(céng)次的交互(hù)。比(bǐ)如语音、人(rén)脸识别,这些只是感知(zhī)阶段。而且在信息(xī)化时代下,很多场景每(měi)天都会产生(shēng)海量的视频和图像数(shù)据,但(dàn)这些(xiē)信息并没有得到很好利用,大量值得挖(wā)掘的(de)潜在价值,被使用的(de)也仅是冰山一角。
对此,眼神(shén)科(kē)技称,“在实战应(yīng)用场(chǎng)景会有很多不(bú)可控的因素,比如遮挡、光照等,这些(xiē)会影响生物特征识别技术的应用,行业需要针对(duì)现(xiàn)有实际问题,对各种识别技术进行不断的研发和优(yōu)化(huà)算法(fǎ)”。
云从科技也表示,“现在AI仅处于初步发展阶段(duàn),解决的是简单层次的交互,更深层次(cì)的多(duō)模态融合交互,目前做得还远远不够(gòu),有待(dài)继续加强”。