博鱼官方网页版-博鱼(中国)




  1. 咨询热线(xiàn):021-80392549

    博鱼官方网页版-博鱼(中国) QQ在线 博鱼官方网页版-博鱼(中国) 企业(yè)微信(xìn)
    博鱼官方网页版-博鱼(中国)
    博鱼官方网页版-博鱼(中国) 资讯 > AI挖掘技术(shù) > 正文

    自然(rán)语(yǔ)言(yán)处理入门教程

    2020/05/253517

    自(zì)然(rán)语言处理入(rù)门教程

    自然语言处(chù)理(NLP)是计算机科学领域和人工(gōng)智能领域(yù)中的(de)一个(gè)分(fèn)支,它(tā)与计算机和人类之间使用自然语言进(jìn)行互动密切相关(guān)。NLP的最终目标是(shì)使计算机能够(gòu)像(xiàng)人类一样(yàng)理(lǐ)解语言(yán)。它是虚拟助手、语音识别、情感分析、自动文本摘要、机器翻译等的驱动力。在这篇文章中,你将学习到自(zì)然语言处理的基(jī)础知识,深(shēn)入了解到(dào)它的一(yī)些(xiē)技术,了解(jiě)到NLP如何从深度学习的(de)最新进展。

    1.简介

    自然语言处理(NLP)是计算机科学、语言学和机(jī)器学习的交叉点,它(tā)关(guān)注计算(suàn)机(jī)与人(rén)类之间使用自然语言中的沟通交流。总之,NLP致(zhì)力(lì)于让计(jì)算机能够理解和(hé)生成(chéng)人类(lèi)语言。NLP技术应用于多个领域(yù),比(bǐ)如天(tiān)猫精灵和Siri这样的语音助手(shǒu),还有机器翻译(yì)和文本过滤等。机(jī)器学习是受NLP影响最深远的领域之一,尤为突出的是深度学习技术。该领域分为以下三个(gè)部分:

    1.语音识别:将口语翻译成(chéng)文(wén)本。

    2.自(zì)然语言理(lǐ)解:计算机理解人类的能力。

    3.自然(rán)语言(yán)生成:计(jì)算机生成自然(rán)语言。

    2.为什么(me)NLP很难

    人类语言有其特殊(shū)性。人类(lèi)语(yǔ)言专(zhuān)门用于传达讲话者和写作者的意(yì)思,即使小(xiǎo)孩子能够很快学会,它依然(rán)是一个复杂的(de)系统。它的另一个(gè)显(xiǎn)著之(zhī)处在于它完全与符(fú)号有(yǒu)关。Chris Manning(斯坦福教(jiāo)授)表示,它是一(yī)个离(lí)散的、象征性的、绝对的信号系统,这意味着人们(men)可以通过使用不同的方(fāng)式(shì)传达相同的(de)含义,比如演说,手势,信号等。人类大脑对(duì)这些符号的编码是持(chí)续的激(jī)活模式(shì),在这个模式中,符号通(tōng)过声音和视觉的连续信(xìn)号实现传输。

    由于(yú)其(qí)复(fù)杂性,理解人类语言被认(rèn)为是一项(xiàng)艰巨(jù)的任(rèn)务(wù)。例(lì)如,在句子(zǐ)中排(pái)列单词(cí)有无数(shù)种不同的方法(fǎ)。此外(wài),一个单词可以有多种含义,并且正(zhèng)确解(jiě)释句子需(xū)要恰当的语境信息。每(měi)种(zhǒng)语言或多或少都是独(dú)特且含糊的(de)。比如:“The Pope’s baby steps on gays”,这句(jù)话显然有两种截(jié)然(rán)不同的(de)解释,这是反映NLP中的困难(nán)之处的一个很好的例(lì)子(zǐ)。

    随着(zhe)计算机对语言的理解愈(yù)渐完美,将会产生可以处理(lǐ)互联网上全(quán)部(bù)信息(xī)的人工智能(AI),继而产(chǎn)生强人工智能(AGI)。

    3.句法(fǎ)和(hé)语义(yì)分析

    句法(fǎ)分析和语义分析是理解自然语言的(de)两种主要方法(fǎ)。语言是一(yī)组意义的语句,但(dàn)是什么使语(yǔ)句有(yǒu)意义(yì)呢?实际上,你(nǐ)可以(yǐ)将有效性分为(wéi)两类:句法和语义。术语“句(jù)法”是(shì)指文本的(de)语(yǔ)法结(jié)构,而术语“语义(yì)”是指由它表达的含(hán)义。但是,句法(fǎ)上正确的语句不必在语义上正确。只需看看下面(miàn)的例子。语句“cow kow supremely”在(zài)语法上是(shì)有效的(主语-动词-副词),但没有任何意义。

    句法(fǎ)分析(xī):

    自然语(yǔ)言处理入门(mén)教程

    句法分析,也称为语法分(fèn)析或解(jiě)析,是通(tōng)过遵(zūn)循正式语法规(guī)则来分(fèn)析自然语言的过程。语法规则适用于单词(cí)和(hé)词(cí)组,而不是单个单词。语法分(fèn)析(xī)主要(yào)为文本(běn)分配语义结构。

    语义分析:

    我们(men)理解他人的(de)语言(yán)是一种(zhǒng)无意识的(de)过程(chéng),依赖于直觉和对语言本身的(de)认识(shí)。因此,我们理解语言的方式很大程(chéng)度上取(qǔ)决于意义和语(yǔ)境。计算机却不能依(yī)赖上述方法,需要采(cǎi)用不同的途径。 “语义”这个(gè)词是一(yī)个语(yǔ)言术语,意思(sī)与意义或(huò)逻辑相近。

    因此,语义分析(xī)是理解单(dān)词、符(fú)号和语句结(jié)构的含义(yì)和解释的过(guò)程(chéng),这使计算机能够(gòu)以人类的方式理解部分涉(shè)及意义和语境的自然语言。为什么说只能部分理解呢?是因为语义分析是NLP中最棘手的部分之一,仍未完全解决。例如(rú),语(yǔ)音识(shí)别技术已非(fēi)常成熟,并且(qiě)工作近乎完美,但(dàn)仍然缺乏(fá)在(zài)自然语言理(lǐ)解(jiě)(例如语(yǔ)义)中的(de)熟练(liàn)程度。手机基本上可以理解我们所说的内(nèi)容,但通常无法用(yòng)它做任何事情,因为它不(bú)了(le)解其背后意义。

    4.理解文(wén)本的技(jì)巧(qiǎo)

    下面我(wǒ)们将讨论多种用(yòng)于(yú)自然语言处理的现行技术。

    什么是解析?首先,让我们看一下词典释义:

    解析—“将句子分解为(wéi)其组成(chéng)部分,并阐(chǎn)述各部分的句法角色。”

    实际(jì)上解释的(de)已经非常到位(wèi),但它可以更全面一些。解析是指(zhǐ)计算机对句子的(de)形式分析,其结果是一个解析树(shù),这个解析树可以(yǐ)可(kě)视化地显示句(jù)子成(chéng)分之间的句(jù)法(fǎ)关系,用于进一(yī)步处理和理解。

    在下面你可以看(kàn)到句子(zǐ)“The thief robbed the apartment”的(de)解(jiě)析树,以及(jí)由它传达(dá)的三种(zhǒng)不同信息(xī)类(lèi)型(xíng)的描述。

    自然语言处理入门(mén)教程

    我先看(kàn)单个单词正(zhèng)上方的字母(mǔ),它们用于显示每个单词的(de)词性(名词-N,动词-V和(hé)限(xiàn)定词-DT)。我们再(zài)看解析树中更(gèng)高的层级,一些单词进行层次分组组(zǔ)成(chéng)短语。例如,“the thief”是(shì)一个名词短语(NP),“robbed the apartment”是一个动词短语(VP),这些短语一起形成一(yī)个句子(S),在树中标(biāo)记(jì)在更(gèng)高的层级。

    这(zhè)些短语以(yǐ)名词为(wéi)主体,包含一个或多个单词,可能还包(bāo)含描述性词语、动词或副(fù)词,简言之,就是把把名词和与其相关的(de)单词组(zǔ)合在一起。

    从解(jiě)析树中还(hái)能看出,单(dān)词的表(biǎo)述结构影响其在句中的语法关系(xì)。例如,在此结构中(zhōng),“thief”是“robbed”的主语。

    结合结构来看,动(dòng)词“robbed”,上(shàng)方标有“V”,更上(shàng)一级(jí)标(biāo)有“VP”;主语“thief”,上方标有(yǒu)N和“NP”,通过“S”联(lián)系(xì)在(zài)一起。这就像主语—动词关系的(de)模板,同样还有许多其他类型的关系(xì)。

    词干提取:

    词干(gàn)提取是(shì)一种来自形(xíng)态(tài)学和信息检索的技术,在NLP中(zhōng)用于预处理和效率提升。但是,我们首(shǒu)先看一下词典中的释义:词干 — “起(qǐ)源于或由其引起。”

    基本上,“词干提取”是将单(dān)词(cí)进行(háng)缩减得(dé)到词干的过程,而“词干”的实际意义是是在删除单词的所(suǒ)有的(de)前(qián)缀后缀之后保留的一部分。例(lì)如(rú),“touched”,它的词干是“touch”,同时“touch”也是“touching”等词的词(cí)干。

    为什么需(xū)要词干(gàn)?因为我们会遇到(dào)不同的词汇变形,而实际上它们(men)具有相同的词(cí)干和意义。举例来说(shuō):

    # I was taking a ride in the car

    # I was riding in the car.

    这两个(gè)句子意(yì)思是一致(zhì)的,ride和riding的用法也是相同的。

    词(cí)汇表中所有的单词有(yǒu)不同的注释(shì),其中还包括大量实际意义相(xiàng)同的单词,要(yào)存储它(tā)们,需要一个庞大数据库,但是通过词干提取,仅(jǐn)关注(zhù)单词的词干,可以很(hěn)好地解决这(zhè)个问(wèn)题。现行的通(tōng)用算法之(zhī)一(yī)是(shì)1979年的“Porter Stemming Algorithm”(波特(tè)词干算法),非常使用便捷。

    文字分割:

    NLP中的(de)文(wén)本分(fèn)割是(shì)将文本转换为(wéi)有意义的(de)单(dān)元的过程,可(kě)以(yǐ)是单(dān)词(cí)、句子、也可(kě)以是(shì)不同的主(zhǔ)题或潜(qián)在的意(yì)图(tú)等。在文本(běn)分(fèn)割中,文(wén)本根据不同语种(zhǒng)被分割为成(chéng)份(fèn)单词,由于(yú)人类语(yǔ)言的复杂(zá)性,通常(cháng)比较(jiào)难。举(jǔ)个例(lì)子,在英(yīng)语中利(lì)用空格来分(fèn)隔单词,相对高效实用,但是也有像“ice box”这类词语的(de)例(lì)外,ice和box这两个由空格隔开的词合并一起使用才有原本(běn)含义的,所(suǒ)以人们有时把它写作“ice-box”,那么就给文字分(fèn)割带(dài)来(lái)了(le)难题。

    命名(míng)实(shí)体识(shí)别:

    命名(míng)实体识别(NER)用于确定文本(běn)中哪些词条(tiáo)属于(yú)命名实体,这些词(cí)条可(kě)以(yǐ)被定(dìng)位并归入预定义的(de)类别,类别的范围(wéi)包括人名,组(zǔ)织,地点,还有货(huò)币价值和百分比。

    看(kàn)下面的(de)例子(zǐ):

    NER之前:Martin bought 300 shares of SAP in 2016.

    NER之后:[Martin]Person bought 300 shares of [SAP]Organization in [2016]Time.

    关(guān)系抽取:

    关系提(tí)取采(cǎi)用“命名实体识(shí)别(NER)”的(de)命(mìng)名实(shí)体,并识别它们之间的语义关系。这可(kě)能意味(wèi)着它能够发现文本中词语之间的关联(lián)性,例(lì)如谁与谁结(jié)婚,某(mǒu)人在哪个公(gōng)司工作等。这个问题也(yě)可以转换(huàn)为分(fèn)类问(wèn)题,然后为(wéi)每种关系类型(xíng)训练(liàn)机器学习模型。

    情感分析(xī):

    通过情感分析,我们(men)想(xiǎng)要确定例如(rú)说话者或作者关于文档,互(hù)动或事件的态度(例(lì)如情(qíng)绪)。因此,需要理解文本以预测潜(qián)在意图是一种自然语言处(chù)理问题。情绪主要分为积极,消极和(hé)中性两类。通过使用(yòng)情感分析(xī),我们希望根据他撰写的关于(yú)产品的(de)评论来预测客户对产品的看法(fǎ)和态(tài)度。因此,情感(gǎn)分析广泛(fàn)应用于评论(lùn),调查,文档等等

    如果你对使用Python中的某些(xiē)技术感(gǎn)兴趣,可以(yǐ)查看我创建的Python的(de)自然语(yǔ)言工(gōng)具(jù)包(bāo)(NLTK)的Jupyter Notebook。你还可以查看(kàn)我的博客文章,了解如何使用(yòng)Keras构(gòu)建(jiàn)神(shén)经网络,我将训练神经网络进行情感分析(xī)。

    5.深度(dù)学(xué)习和NLP

    深度学习和(hé)自然语言的核心是“词义(yì)”,在(zài)这(zhè)里,单词用一个实(shí)数向量来表示。因此,通过向量来代表单词单(dān)词(cí),我(wǒ)们可以将单词置(zhì)于高(gāo)维度(dù)的(de)空间中,由(yóu)向量(liàng)表示(shì)的单词起到语义空间的作(zuò)用。这仅仅意味着(zhe)在该高维向量空间(jiān)中,形近意近的单(dān)词倾向于聚集在一起(qǐ)。下(xià)图中(zhōng),可以看到单词含(hán)义的直观展示:

    自然语言处理(lǐ)入(rù)门(mén)教程

    在此空间中,如果(guǒ)想要知(zhī)道某一组聚集成类的单(dān)词的(de)含义(yì),可以通过使用主(zhǔ)成分分(fèn)析法(PCA),也可以使用(yòng)降维法。但这些(xiē)方法(fǎ)太(tài)简单并且会(huì)遗漏了周(zhōu)边的大量信息,因而产(chǎn)生误差。在(zài)研究的初始阶段,这(zhè)些方法(fǎ)很好(hǎo)用,(如数(shù)据科(kē)学中的逻辑或线性回归(guī))但并不是前(qián)沿技术。

    我们还可以将单(dān)词的一(yī)部分当作(zuò)向量,这些向量可以代表单词(cí)的含义。想象一(yī)下“undesirability”这个词。使用“形态学方法”,它涉及一个词所具有的不同部分(fèn),我们认为(wéi)它由词素(单词部分(fèn))构成(chéng):“Un + desire + able + ity”。每个语素都有自己的向量。这(zhè)允许我(wǒ)们构建一(yī)个神经网络,它可以构(gòu)成(chéng)一个更大的单位(wèi)的意义,而更大的单位(wèi)又由所有这些语素组成。

    深度学(xué)习还可以通过创建句法分析器来理解句子的(de)结构,谷(gǔ)歌正在(zài)使用这样(yàng)的依赖解析技术,在他们的(de)“McParseface”和“SyntaxNet”(两种语言解(jiě)析器),不过(guò)更加(jiā)宏大,更加复杂。

    通过分(fèn)析句(jù)子结构,我们开始(shǐ)理解句子的意(yì)义,可以从单词的含(hán)义开(kāi)始,也(yě)可以从整个短语和句子开始(shǐ),无论单词的意义、短语还是句子,都用向量来表示。如(rú)果(guǒ)想(xiǎng)知道句子之间的关系,我们可以(yǐ)创(chuàng)建神经(jīng)网络来帮助分析。

    深度学习也适用于情(qíng)感分析。请看这个电影评论:“这部电影不在(zài)乎是不是(shì)巧(qiǎo)妙,也不在乎(hū)幽默与(yǔ)否”。传统的机器(qì)学(xué)习算法(fǎ)会认为(wéi)这是一个积(jī)极的评论,因为“聪明(míng)”和“幽默”是积极(jí)的词汇,但是神经网络能(néng)够(gòu)识(shí)别出它的真正(zhèng)含义(yì)。

    另外,深度学习算法实现(xiàn)的(de)机器翻译中,它(tā)从句子开始翻译,并生成一个向量,然后用另外一种语言生成(chéng)所需要的信息。

    总(zǒng)而言之,NLP与深度学(xué)习相结合,就(jiù)是表示单词、短语的向量,以及(jí)它们的含义。

    关键词: AI挖掘(jué)技(jì)术




    AI人工(gōng)智能网声(shēng)明:

    凡资讯(xùn)来源注明(míng)为其他(tā)媒(méi)体来源的信息,均为转(zhuǎn)载自其他媒体,并不代(dài)表本网站赞(zàn)同其观点,也不代表本网(wǎng)站对(duì)其真实性负责。您若对该文(wén)章内容有(yǒu)任何疑问或质疑,请立即与(yǔ)网站(zhàn)(www.baise.shiyan.bynr.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将迅速给您回应并做处理。


    联系(xì)电话:021-31666777   新闻、技术(shù)文章投稿(gǎo)QQ:3267146135   投稿邮(yóu)箱:syy@gongboshi.com

    工博士人工智能网(wǎng)
    博鱼官方网页版-博鱼(中国)
    扫描二维码(mǎ)关注微(wēi)信
    扫(sǎo)码(mǎ)反馈

    扫一扫,反馈当前页面

    咨(zī)询(xún)反(fǎn)馈(kuì)
    扫码关注

    微信公(gōng)众号

    返(fǎn)回顶部

    博鱼官方网页版-博鱼(中国)

    博鱼官方网页版-博鱼(中国)