自(zì)然语言处理(英文(wén)Natural Language Processing,简称(chēng)NLP)是人工智能(英文Artificial Intelligence,简称(chēng)AI)领域的重(chóng)要研(yán)究课题,被誉(yù)为人工智(zhì)能(néng)技(jì)术的一个掌上明珠;它(tā)研究能实现人与计(jì)算机之间用自然语言进行有效通信的各(gè)种(zhǒng)理论和方(fāng)法,涉及(jí)面极为广泛。国际知名学(xué)者周(zhōu)海中先生曾经(jīng)指出:“自然(rán)语(yǔ)言处(chù)理是极有(yǒu)吸引力的研究领域,它具有重大的(de)理论意义和实(shí)用价值。”目前,NLP已成为推动(dòng)科技发展的强大(dà)动力(lì),并(bìng)成为(wéi)世界(jiè)各国综合国力竞争(zhēng)的焦点。
NLP主(zhǔ)要研究能实(shí)现人与计算机之间用自然语(yǔ)言进行有效通信(xìn)的(de)各种理论(lùn)和方法。而用自然语言与计算(suàn)机进行通信,有着十分重要的实际应(yīng)用意义(yì),也有(yǒu)着(zhe)革命性的理论意义。实现人机(jī)间自然(rán)语言通信意味着(zhe)要使计算(suàn)机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图(tú)、思想等;前者称为自然语言理解(英文Natural Language Understanding,简称(chēng)NLU),后者称为自然语言生成(英文Natural Language Generation,简称NLG)。因此,NLP大体(tǐ)包(bāo)括(kuò)了NLU和NLG两个部分;因为处理自然语言的关(guān)键是要(yào)让计算机“理解”自然语言,所以通常(cháng)把NLU视为NLP,也称(chēng)为计算(suàn)语言学。
NLP是一门融语言学、计算机科学、数(shù)学于一(yī)体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的(de)语言,所以它(tā)与语言学的研究有着密(mì)切的联系,但又有重要的区(qū)别(bié)。NLP并不是一般地研(yán)究自(zì)然语言,而是(shì)研制能有效地实现自然(rán)语言(yán)通(tōng)信的计算(suàn)机系统(tǒng),特别是(shì)其中(zhōng)的软件(jiàn)系统。因而它是计算机(jī)科(kē)学的一部分(fèn)。可(kě)以说,NLP是计算机科学、语言学、AI等关注计(jì)算机和人类语言之间(jiān)的相互作用的(de)领(lǐng)域(yù)。目前,人们对AI的(de)需求也(yě)从计算智能(néng)、感知智(zhì)能到了以NLP为代表的认知智能(néng)的层面。没有成功的NLP,就不会有真正的认知智能。
由于AI包括感知智能(比如图像识(shí)别、语言识别和手势识别等)和(hé)认(rèn)知智能(主要(yào)是语言理解知识和推理),而(ér)语言在认知(zhī)智(zhì)能(néng)起(qǐ)到最核心的(de)作用。如果(guǒ)能(néng)把(bǎ)语言问题(tí)解决了(le),AI最难的部(bù)分也就基(jī)本解(jiě)决了。美国微软公司(sī)创始人比(bǐ)尔·盖茨先生曾经表示,“语言理解是人工智能领域皇冠上的明珠”。前微软公司全(quán)球执行副总裁沈向洋(yáng)先生也在公开(kāi)演讲时(shí)说:“懂语言者得天(tiān)下……下一个十(shí)年(nián),人(rén)工智能的(de)突破在自然语言的理(lǐ)解……人工智能对人类影(yǐng)响最(zuì)为深刻的就是自然(rán)语言(yán)方面”。由(yóu)于理解自然语言需要关于外在世界的广泛知识以及运用操作(zuò)这些知(zhī)识的(de)能(néng)力,所以NLP也被视为解决AI完备(bèi)(AI-complete)的核心问题(tí)之一。可以说,NLP目(mù)前(qián)是AI领(lǐng)域(yù)的重要(yào)研究课题(tí),对它的研究也是(shì)充满魅(mèi)力和挑(tiāo)战的。
当前AI技术在认知智(zhì)能层面仍面临诸多挑战。如果我们有所(suǒ)推进(jìn)的话,我们(men)的认知智(zhì)能就会进一步提升,包括语言的理解(jiě)水(shuǐ)平、推(tuī)理水平、回(huí)答问题能力、分析能力、解决问(wèn)题(tí)的能力、写作能力、对话能力等(děng)。然后再(zài)加上感(gǎn)知智能的进步,声(shēng)音、图象、文字的识别和生成的能力,以及多模(mó)态文、图交叉(chā)的能力,通过文字可(kě)以生成图象,根据(jù)图象可以生(shēng)成描述的文字等等(děng),我们就可以推进很多人类的(de)应用,包括搜索引擎、智能(néng)客服(fú),包括教育、财(cái)政(zhèng)、电子商务等各个方面(miàn)的(de)应用;也(yě)可以把AI技术用在我(wǒ)们(men)的产业上,帮助产业实现数字化转型(xíng)。
最(zuì)早的NLP研究(jiū)工作是机(jī)器翻译。1949年,美(měi)国知(zhī)名科(kē)学家沃伦·韦弗先生首先提(tí)出(chū)了机器翻译设计方案。20世纪60年代,许(xǔ)多(duō)科(kē)学家(jiā)对机器翻译曾有大(dà)规模的研究工作,耗费了(le)巨(jù)额(é)费(fèi)用;但他们显然(rán)是低估了(le)自然语言的(de)复杂性,语言处(chù)理的(de)理论和技术均不成熟,所以进展不大。当时的主要做法是存储(chǔ)两种语言(yán)的单词、短语对(duì)应译法(fǎ)的(de)大辞典,翻(fān)译时一一(yī)对(duì)应(yīng),技术(shù)上只是调(diào)整语言的同条(tiáo)顺序。但日(rì)常生(shēng)活中语言的翻(fān)译远不是(shì)如此简单(dān),很多时(shí)候(hòu)还要(yào)参考某句话前后的意思(sī),需(xū)要(yào)上下文联系起来才(cái)能正确翻译——这就是机译技(jì)术难度高之(zhī)所(suǒ)在。
大约20世纪90年代开(kāi)始,NLP领域发生了巨大的(de)变(biàn)化。这种变(biàn)化有两个明显(xiǎn)的特征:(1)对系统的输入(rù),要求研制(zhì)的NLP系统(tǒng)能处(chù)理大规模的(de)真实文本,而不是如以前的研究(jiū)性(xìng)系(xì)统那样,只能处理很少的词条(tiáo)和典型句子。只有这样,研制的系统才有真正的实用价值(zhí)。(2)对系(xì)统的输出,鉴于真实地理(lǐ)解自然语言是(shì)十分困难的(de),对系(xì)统并不(bú)要求能对自然语言文本进行深层的理解,但要(yào)能从(cóng)中抽取(qǔ)有(yǒu)用的信息。同时,由于强调了(le)“大规模”和“真实文本”,所以下面两方(fāng)面的基础性工作也得到了重视和加强:(1)大规模真实语料库的研(yán)制。大规模的(de)经过(guò)不同(tóng)深度(dù)加工的真实文本的(de)语料(liào)库,是研究自然语言(yán)统计性质的基础;如果没有这(zhè)样的语料库,统计(jì)方(fāng)法只能是无源之水。(2)大(dà)规模、信息丰富的词(cí)典的(de)编制工作(zuò)。因此规模(mó)为几万,十几万(wàn),甚至几十(shí)万词,含有丰富的信息(xī)(如包含词的搭配信息)的计(jì)算(suàn)机(jī)可用词典对NLP的重要性(xìng)是很明显的。
系(xì)统(tǒng)的输入与输出这两个特征(zhēng)在NLP的诸多领域都有所体现,其发展直接促(cù)进了计算机自动检(jiǎn)索技术的出现和兴起。实际上,随(suí)着计算(suàn)机技术的不断发展,以(yǐ)海量计算为基础的机器学习、数据挖掘、数据建模等技术(shù)的表现也愈发优异。NLP之所以能够度过“寒冬”,再次发(fā)展,也是因为计(jì)算机科(kē)学与统计(jì)科学的(de)不断结合(hé),才让(ràng)人类甚至机器能够(gòu)不断(duàn)从大量数据中发现“特征”并加以学习。不过(guò)要实现对自然语言真正意(yì)义上(shàng)的理解,仅仅从原始文本中进行学习是(shì)不够的,我们还(hái)需要新(xīn)的方(fāng)法和模(mó)型。
目前存在的问题主要有两个方面:一方面,迄今为止的语法都限于分析(xī)一个孤(gū)立的句子,上下文关系和谈(tán)话环境对本句的(de)约束和影响还缺乏系统的研究,因此(cǐ)分析(xī)歧义、词语省略、代词所指、同一句话(huà)在不同场合或由不同的人(rén)说(shuō)出来所具有的(de)不同含义等(děng)问题,尚无(wú)明确规律可(kě)循,需要加强语义(yì)学和(hé)语(yǔ)用学的研究才能逐步(bù)解决。另(lìng)一方面,人理解一个句(jù)子不(bú)是单凭语法,还运用了大(dà)量的有(yǒu)关(guān)知识,包括生活知识和(hé)专门知识,这些知识无法全部贮存在计算机里(lǐ)。因此(cǐ)一个书面(miàn)理解系统只能建立在(zài)有(yǒu)限的词汇、句型(xíng)和特定的主(zhǔ)题范围内(nèi);计算机的贮存量和运转速度大大提高(gāo)之后,才(cái)有可能适当扩大范围。
由于语言工程、认知科(kē)学等主要(yào)局限于(yú)实验室,目前来看数据处(chù)理可能是NLP应用场景(jǐng)最多的一个(gè)发展方向。实际(jì)上,自从进入大数据(jù)时(shí)代,各(gè)大平台就没有停止过对(duì)用户数据的深度(dù)挖掘。要想提(tí)取出有用的信息,仅(jǐn)提取关(guān)键词、统计词频等是远远(yuǎn)不够的,必须(xū)对用户数据(尤其是发言(yán)、评论等(děng))进(jìn)行(háng)语义上的理解。另外,利用离线大数据统(tǒng)计分析的方法进行NLP任务的研究是目前非常有(yǒu)潜力的一种研究(jiū)范(fàn)式,尤其是谷歌、推特、百度(dù)等大公(gōng)司在这(zhè)类应用上的成功经验,引领了目前大数据研(yán)究的浪潮。
NLP是(shì)为各类企业及开(kāi)发者提供的用于文本分析及挖掘(jué)的核心工具(jù),已(yǐ)经广泛应用在电商、金融(róng)、物流、医疗、文化(huà)娱乐等行业客(kè)户(hù)的(de)多项(xiàng)业(yè)务中。它可(kě)帮助(zhù)用户搭建内(nèi)容搜索、内容推荐、舆(yú)情识别及分析、文本结构化(huà)、对话机器人等智能产品(pǐn),也能够(gòu)通过合作(zuò),定制个性化的解决方案。由于(yú)理解自(zì)然语言,需要关于(yú)外(wài)在世(shì)界的广泛知识以及运用操作这(zhè)些知识的能力(lì),所以(yǐ)NLP也被(bèi)视为(wéi)解决强(qiáng)AI的核心问题之一,其未来(lái)一般也因此密切结合AI发展,尤其是设计一个模仿(fǎng)人脑的神经网(wǎng)络。
训练(liàn)NLP文本解析(xī)AI系统需要采集大量多源(yuán)头数(shù)据(jù)集(jí),对科学家来说(shuō)是一项持续的挑战:需要使(shǐ)用最新的深度学习模型,模仿人类(lèi)大脑中神(shén)经元的行为,在(zài)数百万甚(shèn)至数(shù)十亿的注释示例(lì)中(zhōng)进行(háng)训练来(lái)持续改进(jìn)。当下(xià)一种流(liú)行(háng)的NLP解决方案是预训练,它改进了对未标记文本进行(háng)训(xùn)练的通用语言模型,以执行(háng)特定任务;它的思想就是,该模型的参数不(bú)再是随机初始(shǐ)化,而是先有一个任务进行训练得到一(yī)套模型(xíng)参数,然后(hòu)用这(zhè)套参数对(duì)模型(xíng)进行初始化,再进行(háng)训(xùn)练(liàn),以(yǐ)获得(dé)更好的预测性见解(jiě)。
目前我们已经进入(rù)了以(yǐ)互联网(wǎng)为主要标志的海量信息时代,这(zhè)些信息大部分是以自然语言表示的。一方面(miàn),海量信息也为计算机学习人类语(yǔ)言提供了更(gèng)多的“素(sù)材(cái)”;另一方(fāng)面,这(zhè)也为(wéi)NLP提供了更加宽广(guǎng)的应用舞台。例如(rú),作为NLP的重要应用,搜索引擎(qíng)逐渐成为人们获取信息的重要工具,出现(xiàn)了以谷歌、百度(dù)等为(wéi)代表的搜索引擎巨(jù)头;机器翻译也(yě)从(cóng)实验室走入寻常百姓家;基于自然语(yǔ)言(yán)处理的中文输入法(如(rú)搜狗、微软、谷歌(gē)等(děng)输入(rù)法)成为计(jì)算机用户的必备(bèi)工具(jù);带有语(yǔ)音识别的计算机和手机也正大行其道(dào),协助用户更有效(xiào)地生活、工作(zuò)和学习(xí)。
现在,NLP领(lǐng)域已经有了大量(liàng)的人(rén)工标(biāo)注知识,而深度学习可以通过有监督学习得到相关的语义(yì)知(zhī)识,这种知识和人类总结的知识应该存在某种对应关系,尤其是在一些(xiē)浅(qiǎn)层(céng)语(yǔ)义方面。因为人工标注,本质上已经给深度学(xué)习提(tí)供了学习的目标;只是深度学习可以(yǐ)不眠不休地学习,这种逐(zhú)步靠(kào)拢学(xué)习目标的过程,可能(néng)远(yuǎn)比人类总(zǒng)结(jié)过程来得更快更好。这一点,从谷歌公司(sī)旗下(xià)DeepMind研究团队开发的(de)围棋软(ruǎn)件AlphaGo短时(shí)间(jiān)内连胜两位人类(lèi)围棋高手的事实,似乎能够得到验证。
深度学习在(zài)NLP中的应用非常广泛,可以说横扫NLP的各个应用,从底层的分词、语言模(mó)型、句法分(fèn)析、语音识别(bié)等到高层的语义理解、语用阐释(shì)、对(duì)话(huà)管理、知识问(wèn)答等方(fāng)面都(dōu)几(jǐ)乎都有深度学习的模型,并且取得了不(bú)错的效(xiào)果。有关研究已从传(chuán)统的(de)机器学(xué)习算法转变成更有表现(xiàn)力的深度学习模型,如卷积神经网络和(hé)回(huí)归神经(jīng)网络(luò)。不过(guò),目前的深度学习技术还不具(jù)备(bèi)理解和(hé)使用自然语(yǔ)言所必(bì)需(xū)的概(gài)念抽象和逻辑推理(lǐ)能(néng)力,还有待(dài)今后进一步的研究。
互联网(wǎng)搜索引擎已(yǐ)经有一段时间让人们使用会话语言(yán)和术(shù)语来在线搜索(suǒ)事物。现在,谷歌公(gōng)司的云端硬盘用户已经(jīng)可以使用这一功能。用户可以搜索(suǒ)存储(chǔ)在谷(gǔ)歌云端硬盘中的文件和内容,就像使(shǐ)用谷歌搜索提供的对云端硬盘内置NLP的新(xīn)支持一样(yàng)。该功能使用户可以使用通(tōng)常用词组表达的查(chá)询以及在实际对话中将要(yào)使用的查询来(lái)更轻(qīng)松地找到所需的内容。谷歌公司在(zài)在线和移动搜索(suǒ)、移动应用程序以及GoogleTranslate等服务中广泛使(shǐ)用NLP;该公司(sī)在这(zhè)一领域(yù)的研究是为提高机器(qì)阅读和理解人(rén)类语言能力所做的更广泛努力的一部分。随着谷(gǔ)歌调整(zhěng)其算法(fǎ),NLP应(yīng)该会随着时间的推移变得更好。
前不久,英国剑桥量子计算公司(sī)(CQC)宣布,他们利用自(zì)然(rán)语(yǔ)言的“固有量子”结(jié)构,开辟了一个全新的可能应用领域。其(qí)通过将语(yǔ)法句(jù)子翻译成量子线(xiàn)路,然后在量子计算机上实(shí)现生(shēng)成的程序,并(bìng)实(shí)际执行问答。这是第一次在量子(zǐ)计算机上执行NLP。通过使用CQC的一(yī)流的(de)、平台无关的可重定(dìng)目标编译(yì)器(qì)t|ket)™,这些(xiē)程序在IBM量子计算机上成功执行并(bìng)得到结果,整个(gè)突破朝着实现“意(yì)义感(gǎn)知”和“语(yǔ)法知悉”的NLP方向迈出了有意义的一大步——这是(shì)计算机时代早期(qī)以来计算机科学家及计(jì)算语言学家追寻的(de)梦想(xiǎng)。
美国(guó)哈(hā)佛大学医学院的研究人员借助NLP技术(shù)最(zuì)近开发出(chū)一(yī)种(zhǒng)工具(jù),可以评估新冠肺炎(COVID-19)患者的病(bìng)例(lì)、社交媒体和健康卫(wèi)生数(shù)据。他们率先努力通(tōng)过使(shǐ)用机器学(xué)习技术查(chá)看来自各种来源(yuán)的数据和信息(包(bāo)括患(huàn)者记(jì)录、社(shè)交(jiāo)媒体和公共卫生(shēng)数据(jù))来寻找新冠肺炎病毒的解决方案(àn)。借助NLP工具,他们还可以搜索有关新冠肺炎病毒的在线信息,并(bìng)了解爆发的(de)当前位置。另外,研究(jiū)人员还利用(yòng)NLP技(jì)术对新冠肺炎、药物和疫苗等(děng)密集展开研究(jiū),同(tóng)时包括临床(chuáng)诊断与治疗以及(jí)流行病学研究等。
中国阿里(lǐ)达摩院的NLP研究团队提出(chū)了(le)优化模型Struct BERT,能(néng)让机器更好地掌握人(rén)类语法,加深对自然语言的理解。使用该模型(xíng)好比给机器(qì)内(nèi)置一个(gè)“语法识别器”,使(shǐ)机器在面对语序错乱或不符合语法(fǎ)习(xí)惯的词句时(shí),仍能准(zhǔn)确理解并(bìng)给出正确的表(biǎo)达(dá)和回应,大大提高机器对(duì)词(cí)语、句(jù)子(zǐ)以及语言整体的理解力。这一(yī)技术已广泛使用于阿里旗下阿里小蜜、蚂(mǎ)蚁金服、优酷等(děng)业(yè)务。阿里达摩院(yuàn)的语言模型和阅读(dú)理解(jiě)技术也被用于行业赋能,推进AI技术(shù)在医疗、电力、金融等行业的落地(dì)。据悉,StructBERT模型在2020年被评为全球性能最强的NLP系(xì)统。
知名市场分析机构Mordor Intelligence的一份报告指(zhǐ)出,在(zài)过(guò)去的几年中,深度学习架构和算法在市场格局中取得(dé)了令人(rén)瞩目的进(jìn)步,而语音分(fèn)析(xī)解决方案正在主导(dǎo)着这一市场,因(yīn)为(wéi)传统的(de)基于文本的分析已不足以处理(lǐ)复杂的业务(wù)问题。据估(gū)计,2025年NLP市场规模将比2017年增长14倍,从30亿(yì)美元左右增长(zhǎng)到430亿美元以(yǐ)上。
总(zǒng)之,随着互联网的普及和海(hǎi)量信息的涌现,作为AI领域的(de)重要研(yán)究课题(tí)和(hé)掌(zhǎng)上明珠,NLP正在人(rén)们的生(shēng)活(huó)、工(gōng)作、学习中扮(bàn)演着越来越(yuè)重要的(de)角色,并将在(zài)科技进(jìn)步与社会发(fā)展(zhǎn)的(de)过程中发(fā)挥(huī)越(yuè)来越重要(yào)的作用。
文(wén)/林峰、李(lǐ)炎(作者(zhě)单位分别为美国波士顿大学工学(xué)院(yuàn)、普渡大(dà)学科技(jì)学院)