今年3月,重庆(qìng)车企欧尚汽(qì)车智慧快(kuài)乐座舱(cāng)在渝(yú)发布,将(jiāng)人工智(zhì)能技术与(yǔ)汽车使用场景深度融合,打造了全球首发的车外(wài)语音交互系统。
这(zhè)一系统的成功发布,是一批批汽(qì)车研发(fā)人员的共同(tóng)努力。科大讯飞智能汽车重庆分中心总经(jīng)理马鸿鹏带领(lǐng)团队攻坚(jiān)克难乘(chéng)势而上,用人工智能(néng)赋能智能汽车发(fā)展,助力重庆汽车产业转型发展。
马鸿鹏(中)与(yǔ)团队进(jìn)行技术交(jiāo)流(liú)。科大讯飞供图
研发:技(jì)术攻坚开创(chuàng)人机交互新格局
马鸿鹏(péng)与重庆的结缘,从2018开始。
2018年(nián)智博会上,科大讯飞董事长刘庆峰宣布将西南总部落地重庆,同(tóng)时落地(dì)的还有科大讯飞(fēi)智能汽车的重庆分中心,马鸿鹏也(yě)成为该中心的总(zǒng)经理。与此同(tóng)时,科(kē)大讯飞还与长安汽(qì)车等重庆车(chē)企共(gòng)建联合实(shí)验室,在汽车电子智能化的(de)技术研发、产品设计、以及整车应用领域展开合(hé)作。
“小安你(nǐ)好,帮(bāng)我(wǒ)查一下(xià)北京的天气(qì)。”
“好的,北京天气晴,白天气温20度。”
“再帮(bāng)我订一(yī)张去那儿的机票。”
……
这样的对话,在人与人交流中再(zài)平常不过,但是对于人机互动而言(yán),想要和机器持续对话,并(bìng)让(ràng)机器(qì)理解“那儿”就是上文所指的北京,技术难度不(bú)言(yán)而喻。
“在车内一次唤醒实(shí)现多(duō)个指令(lìng),还要(yào)实现上下文(wén)理解,这种交互方(fāng)式是之前没有的,但却是用(yòng)户的(de)痛点。”马鸿鹏解释(shì)到,对于机器来说,机器需要记忆和理解(jiě)当前说话人的(de)意(yì)图和场(chǎng)景,就需要覆盖尽可能多的场景(jǐng)和(hé)可能问法(fǎ),这(zhè)种会(huì)呈(chéng)几何级数增(zēng)长的算(suàn)法复杂度,使软件的开发和维(wéi)护都有(yǒu)较大难度。
为了(le)实现(xiàn)这一智能操作,马鸿鹏带领着20多人组成的团(tuán)队入(rù)驻长安(ān)汽(qì)车,反复测试(shì)形成庞大的(de)场景知识库,“通(tōng)常车内常用指令不超(chāo)过2000种,但(dàn)我们在车机上内置了常(cháng)用指令近6000条,不常(cháng)用(yòng)指令(lìng)近2万条,才精准实现了用户指令。”马(mǎ)鸿鹏说。
另一项技术难(nán)点是,怎样才能(néng)让语音(yīn)控(kòng)制系统保持收音状态,同(tóng)时车内(nèi)对非(fēi)指令正常交流不作反馈(kuì)?马鸿鹏说,他们在车内研发设置了声(shēng)纹识别(bié)、声源定位等(děng)系统,能够准确识(shí)别指令发出者的指令,而非指令者和日常车内交流则不会被(bèi)接收进语音控制系统,让车(chē)内(nèi)语音操作更加(jiā)智能和人性化。
如今,搭(dā)载了这些技术(shù)的飞鱼OS已经在长(zhǎng)安CS95、CS75等车型(xíng)上使用(yòng),也加速了重庆汽车(chē)智能化发展(zhǎn)的进程。
马鸿鹏(右)与同事进行智能车载系统测试。科大讯(xùn)飞供图
攻坚:攻克关键技术助力重(chóng)庆造汽(qì)车走出去
随着智能汽车产业(yè)发展,不少重庆汽车品牌(pái)也走向国(guó)际市场。马鸿(hóng)鹏说,智能汽车在海外使用,必(bì)须适用(yòng)当地的语种(zhǒng),而在过去外语的车载(zǎi)语音识别及(jí)合成系统被国外企(qǐ)业垄(lǒng)断(duàn),国内车(chē)企只能(néng)使用国外企(qǐ)业的语音技术。“比如过去很长一段(duàn)时间(jiān)长(zhǎng)安汽车在面向中东、南美等海外发行(háng)的(de)车型(xíng)中,语音识别系统一直是采用的(de)国外技术(shù),安全(quán)问题是最大(dà)的考量(liàng)。”
为了(le)解决这一技术难(nán)题,马鸿(hóng)鹏团队联合(hé)科(kē)大讯飞(fēi)研究院展开(kāi)长安汽车车载(zǎi)外语语音识别及(jí)合成系(xì)统研发。
“做车载外语识别,不仅(jǐn)需(xū)要听懂,还要理(lǐ)解其(qí)他国家的语言(yán)文(wén)化习惯,甚至同一语种(zhǒng)不同地区的口音(yīn),这就需要有强大的识别(bié)模(mó)型和机器学(xué)习做支撑。”马鸿鹏解(jiě)释(shì)说,车(chē)载语音的“识别(bié)”分为“语音识别”和“语义(yì)识别”两(liǎng)个技术层次(cì),“语(yǔ)音(yīn)识别”相当于人的嘴巴和耳朵,负责(zé)表达和获取,而“语义识别”相当(dāng)于人的大脑,负责思考和信息处(chù)理。为此,团(tuán)队开创性地采用(yòng)实体抽取+动态模板(bǎn)、融(róng)合深度学习的框架,将语(yǔ)言和语义技术剥离,构建出云+端(duān)多语种语义平台(tái),基于该平台可(kě)快速实(shí)现(xiàn)多语种(zhǒng)的语(yǔ)义(yì)理解。
2021年,这套车载外语语音识别系(xì)统已成功(gōng)实现了国产化,长安汽车海外(wài)发行的车型均采(cǎi)用了(le)这一国产系统,“关键技术的国产化不仅更稳定(dìng)安(ān)全,在生产成(chéng)本上(shàng)也实现了降低(dī),助力国(guó)内自主品牌出海(hǎi)。”马(mǎ)鸿鹏说。
未来:“语音+视(shì)觉”开创人机交(jiāo)互新体验
“身居汽车行业内,我们在不断思考,如(rú)何(hé)发挥人工(gōng)智能优势(shì),通过(guò)‘AI+汽(qì)车’赋能(néng)重庆汽车制造开创新格(gé)局(jú)。”马鸿鹏说(shuō)。
“以前汽车的(de)语音交互都在(zài)车内,实际上(shàng)车外智能交互也是用户的需求,一门之隔下,研发道(dào)阻且长。”马(mǎ)鸿鹏(péng)举例说,以往用户在用车场景中,常会有开(kāi)门难(nán)、挪车难等(děng)痛(tòng)点,而(ér)这套车外语音(yīn)交互系(xì)统可(kě)以让车主在车外唤醒车(chē)辆,比如(rú)在拥(yōng)挤(jǐ)的停(tíng)车场,可以叫它“把车开出(chū)来”,车辆即可自动向前驶(shǐ)出(chū),购物归来双(shuāng)手不(bú)方便(biàn)开门,也可以说(shuō)一声(shēng)“打(dǎ)开后备箱”,后备(bèi)箱即(jí)可自动开启。
“车外语音交(jiāo)互相较(jiào)车内(nèi)语(yǔ)音交互来说(shuō),难点在于如(rú)何保障(zhàng)车外噪音等复杂环境下(xià),机器能(néng)听(tīng)清楚并执行指令。”马鸿鹏(péng)说,为了实现车外的(de)人车交互,他和团队(duì)独(dú)创了神(shén)经网络降噪(zào)算法(fǎ)和“冷启动”系统两项技术(shù),让车(chē)外语音交互系统做到360度语音降噪和无死(sǐ)角识别覆盖,实现稳定高效(xiào)的车外语音(yīn)交互。
未来,汽(qì)车智(zhì)能化转型升(shēng)级之路怎么走?
“汽车革命的下(xià)半场是智能化、网联化(huà)、共享化。”马鸿鹏说,他正在和团队(duì)开(kāi)发(fā)多模态交互的新技术,未来的智(zhì)能(néng)汽车除(chú)了在语音交互外,还将(jiāng)增加视觉感应交互。比如,当你看向(xiàng)左边车窗,发出“打(dǎ)开车窗”指令(lìng),那么车机将只打开左(zuǒ)侧车窗;正在通过中控(kòng)看地图,说放大一点(diǎn),车机将为用户放大地图。
汽车产业作(zuò)为重(chóng)庆重要的支柱产业,从车(chē)端(duān)、零(líng)部件、电池、软件等全产业(yè)链聚集,为重庆在智(zhì)能汽车领域弯(wān)道超车奠(diàn)定基础。马鸿鹏表示,科(kē)大讯飞将发(fā)挥(huī)人(rén)工智能优势,进一步从技术提供(gòng)商,向信(xìn)息娱乐系统(tǒng)、音响系统等迈进,走(zǒu)向(xiàng)软硬一体化发展,助力(lì)重(chóng)庆汽(qì)车产业智能制造。