自然语言处理(NLP)的一般处(chù)理流程(chéng)!
1. 什么是NLP
自然语言处理 (Natural Language Processing) 是人(rén)工智能(AI)的一(yī)个子领域。自然(rán)语言处理是研究在人与人交互中以及在(zài)人与计算机交互中(zhōng)的语(yǔ)言问题的(de)一门学科。为了建设和完(wán)善(shàn)语言模型,自(zì)然语言处理建立计算(suàn)框(kuàng)架,提(tí)出相应的方法来不断的完(wán)善设(shè)计各种实用系统,并探讨(tǎo)这些实用系统的评测(cè)方(fāng)法。
2. NLP主要研究方向(xiàng)
信息抽(chōu)取:从给定文本中抽取(qǔ)重要的信息,比如时间、地点、人(rén)物、事(shì)件、原因(yīn)、结(jié)果(guǒ)、数字、日期、货币(bì)、专有名(míng)词等等。通俗说(shuō)来,就(jiù)是要了解谁在什(shí)么(me)时候、什么原因、对谁、做了什(shí)么事、有什么结果。
文本生成(chéng):机器像人一样使(shǐ)用自然(rán)语言进行表达和(hé)写作(zuò)。依据输入的不同,文本生成技术主要包括(kuò)数(shù)据到文本生成和文本到文(wén)本生成(chéng)。数据到(dào)文本生成(chéng)是(shì)指将(jiāng)包含键值对(duì)的(de)数据(jù)转化为自然语(yǔ)言文本;文本到(dào)文本生成(chéng)对输入文本进行转化和处理从而产生新的文本。
问答系统(tǒng):对一个自然语言表达的问题,由问答系统给(gěi)出一(yī)个精准的答案。需(xū)要(yào)对自(zì)然语言查询语句(jù)进(jìn)行某种程度的语义分(fèn)析,包括(kuò)实体链接、关系识别,形成逻辑表达(dá)式,然后到知(zhī)识库中(zhōng)查找可能的候选答案并(bìng)通(tōng)过一个排序机制找出最佳的答案。
对话系统:系统(tǒng)通过一系列的对话,跟用户进行聊(liáo)天、回答、完成(chéng)某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对(duì)话管理等技术。此外,为(wéi)了体现(xiàn)上下文相关,要具备(bèi)多轮对(duì)话能力。
文本(běn)挖掘:包括文本聚类、分(fèn)类、情(qíng)感分析以及对(duì)挖掘的信息(xī)和知识的(de)可视化、交互式的表达界面。目前主(zhǔ)流的技术都(dōu)是基于统计机(jī)器学习的。
语(yǔ)音识别和(hé)生成:语音识别是将(jiāng)输入计算机(jī)的(de)语音符(fú)号识别转换成书面语表示(shì)。语音(yīn)生成又称文语转换、语音合成,它是指将书面文本自动转换成对应的语音(yīn)表征。
信息过滤:通过(guò)计算机系统自(zì)动(dòng)识别和过滤(lǜ)符合特定条件的文档信息。通常指网络(luò)有害信息(xī)的自动识别(bié)和过滤,主要(yào)用(yòng)于信息(xī)安全和防护,网(wǎng)络内容管理等。
舆(yú)情分析:是指(zhǐ)收集和处理(lǐ)海量信息,自动化地(dì)对网络舆情进行(háng)分析,以实现及时应对网络舆(yú)情(qíng)的目(mù)的。
信息检索:对(duì)大规(guī)模的(de)文档进行索引。可简单对文档(dàng)中的词汇,赋之以不同的(de)权重来建立索引,也可建立更加深层的(de)索引。在查询的(de)时候,对输入的查(chá)询表(biǎo)达式比如一个检索词或者一个句子(zǐ)进行分析,然后在(zài)索(suǒ)引里面查找匹(pǐ)配的候选文档(dàng),再根据一个排序(xù)机(jī)制把候选(xuǎn)文档(dàng)排序(xù),最后输出排序得(dé)分(fèn)最高的文档。
机器翻译:把输入的源语言(yán)文本通(tōng)过自动翻译获得另(lìng)外一种(zhǒng)语言的文本(běn)。机器翻译从(cóng)最早的基于规(guī)则(zé)的方法(fǎ)到二(èr)十(shí)年前的基于统计的方法,再到(dào)今天的基于(yú)神(shén)经(jīng)网络(编码(mǎ)-解码)的(de)方法,逐(zhú)渐形成了一套比较严谨的方法体系。
3. NLP的发展(zhǎn)
1950年前:图灵测(cè)试 1950年前阿兰·图灵图灵(líng)测试:人和机器进行交流,如果人无法判(pàn)断自己交流(liú)的对(duì)象是人还是机器,就说明这个(gè)机器具有智能。
1950-1970:主流:基(jī)于规则形式(shì)语言理论
乔(qiáo)姆斯基,根据数学中的公理化方法研究自然(rán)语言,采用代数和集合论把形式语言定义为符号(hào)的序列。他试(shì)图使用有限的(de)规则描述无限的语言现象(xiàng),发(fā)现(xiàn)人类(lèi)普遍的语(yǔ)言(yán)机制,建立所谓的普遍语(yǔ)法。
1970-至今(jīn):主流(liú):基于(yú)统计 谷歌、微软、IBM,20世纪70年代,弗里德里克·贾里尼克及其领导的IBM华生(shēng)实验室将语(yǔ)音(yīn)识别率从70%提升(shēng)到90%。 1988年,IBM的彼得(dé)·布朗提出了基于统计的机器翻译方(fāng)法。 2005年(nián),Google机器翻译打(dǎ)败(bài)基于规则的Sys Tran。
2010年以后:逆袭:机器学(xué)习
AlphaGo先后战胜(shèng)李(lǐ)世石、柯洁等(děng),掀起人工(gōng)智能热(rè)潮。深度学习(xí)、人工神经网络成为热词。领域:语音识别、图像识别、机器翻译(yì)、自动驾驶、智能家居。
4. NLP任(rèn)务的(de)一般步骤
下面图(tú)片看不清楚(chǔ)的(de),可以百(bǎi)度(dù)脑图查看,点击链(liàn)接
5. NLP、CV,选哪个?
NLP:自然语言处理,数据(jù)是文本。
CV:计算机视觉,数据(jù)是图像(xiàng)。
两者属于不同(tóng)的领域,在遇到这个问题的时候(hòu),我也是犹豫(yù)了很久,想了很多,于是(shì)乎得出一个结论:都(dōu)是(shì)利用深度学习去解决(jué)现实世界存在(zài)的问题,离开了CV,NLP存活不(bú)了;离(lí)开了(le)NLP,CV存活不了。两者(zhě)就像(xiàng)兄弟姐(jiě)妹一样,整个“家(jiā)庭”不能分割(gē)但个体(tǐ)又存在差异(yì)!
NLP/CV属于两个不同(tóng)的研(yán)究领域(yù),都是(shì)很好(hǎo)的(de)领域,可以根(gēn)据自(zì)己的爱好作出适合自(zì)己的选择(zé),人工智能是一个多(duō)学科交(jiāo)叉的领域,需要的(de)不仅仅是(shì)单方面的能力,而是多(duō)方面的能力(lì)。对于每个人来说都有自己的侧重(chóng)点,选择(zé)自己(jǐ)擅长的领域里持续深(shēn)耕,就会有所成就!