九游网页版-九游（中国）

自然语言处理(NLP)的一般处（chù）理流程（chéng）！

1. 什么是NLP

自然语言处理 (Natural Language Processing) 是人（rén）工智能（AI）的一（yī）个子领域。自然（rán）语言处理是研究在人与人交互中以及在（zài）人与计算机交互中（zhōng）的语（yǔ）言问题的（de）一门学科。为了建设和完（wán）善（shàn）语言模型，自（zì）然语言处理建立计算（suàn）框（kuàng）架，提（tí）出相应的方法来不断的完（wán）善设（shè）计各种实用系统，并探讨（tǎo）这些实用系统的评测（cè）方（fāng）法。

2. NLP主要研究方向（xiàng）

信息抽（chōu）取：从给定文本中抽取（qǔ）重要的信息，比如时间、地点、人（rén）物、事（shì）件、原因（yīn）、结（jié）果（guǒ）、数字、日期、货币（bì）、专有名（míng）词等等。通俗说（shuō）来，就（jiù）是要了解谁在什（shí）么（me）时候、什么原因、对谁、做了什（shí）么事、有什么结果。

文本生成（chéng）：机器像人一样使（shǐ）用自然（rán）语言进行表达和（hé）写作（zuò）。依据输入的不同，文本生成技术主要包括（kuò）数（shù）据到文本生成和文本到文（wén）本生成（chéng）。数据到（dào）文本生成（chéng）是（shì）指将（jiāng）包含键值对（duì）的（de）数据（jù）转化为自然语（yǔ）言文本；文本到（dào）文本生成（chéng）对输入文本进行转化和处理从而产生新的文本。

问答系统（tǒng）：对一个自然语言表达的问题，由问答系统给（gěi）出一（yī）个精准的答案。需（xū）要（yào）对自（zì）然语言查询语句（jù）进（jìn）行某种程度的语义分（fèn）析，包括（kuò）实体链接、关系识别，形成逻辑表达（dá）式，然后到知（zhī）识库中（zhōng）查找可能的候选答案并（bìng）通（tōng）过一个排序机制找出最佳的答案。

对话系统：系统（tǒng）通过一系列的对话，跟用户进行聊（liáo）天、回答、完成（chéng）某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对（duì）话管理等技术。此外，为（wéi）了体现（xiàn）上下文相关，要具备（bèi）多轮对（duì）话能力。

文本（běn）挖掘：包括文本聚类、分（fèn）类、情（qíng）感分析以及对（duì）挖掘的信息（xī）和知识的（de）可视化、交互式的表达界面。目前主（zhǔ）流的技术都（dōu）是基于统计机（jī）器学习的。

语（yǔ）音识别和（hé）生成：语音识别是将（jiāng）输入计算机（jī）的（de）语音符（fú）号识别转换成书面语表示（shì）。语音（yīn）生成又称文语转换、语音合成，它是指将书面文本自动转换成对应的语音（yīn）表征。

信息过滤：通过（guò）计算机系统自（zì）动（dòng）识别和过滤（lǜ）符合特定条件的文档信息。通常指网络（luò）有害信息（xī）的自动识别（bié）和过滤，主要（yào）用（yòng）于信息（xī）安全和防护，网（wǎng）络内容管理等。

舆（yú）情分析：是指（zhǐ）收集和处理（lǐ）海量信息，自动化地（dì）对网络舆情进行（háng）分析，以实现及时应对网络舆（yú）情（qíng）的目（mù）的。

信息检索：对（duì）大规（guī）模的（de）文档进行索引。可简单对文档（dàng）中的词汇，赋之以不同的（de）权重来建立索引，也可建立更加深层的（de）索引。在查询的（de）时候，对输入的查（chá）询表（biǎo）达式比如一个检索词或者一个句子（zǐ）进行分析，然后在（zài）索（suǒ）引里面查找匹（pǐ）配的候选文档（dàng），再根据一个排序（xù）机（jī）制把候选（xuǎn）文档（dàng）排序（xù），最后输出排序得（dé）分（fèn）最高的文档。

机器翻译：把输入的源语言（yán）文本通（tōng）过自动翻译获得另（lìng）外一种（zhǒng）语言的文本（běn）。机器翻译从（cóng）最早的基于规（guī）则（zé）的方法（fǎ）到二（èr）十（shí）年前的基于统计的方法，再到（dào）今天的基于（yú）神（shén）经（jīng）网络（编码（mǎ）-解码）的（de）方法，逐（zhú）渐形成了一套比较严谨的方法体系。

3. NLP的发展（zhǎn）

1950年前:图灵测（cè）试 1950年前阿兰·图灵图灵（líng）测试:人和机器进行交流，如果人无法判（pàn）断自己交流（liú）的对（duì）象是人还是机器，就说明这个（gè）机器具有智能。

1950-1970:主流:基（jī）于规则形式（shì）语言理论

乔（qiáo）姆斯基，根据数学中的公理化方法研究自然（rán）语言，采用代数和集合论把形式语言定义为符号（hào）的序列。他试（shì）图使用有限的（de）规则描述无限的语言现象（xiàng），发（fā）现（xiàn）人类（lèi）普遍的语（yǔ）言（yán）机制，建立所谓的普遍语（yǔ）法。

1970-至今（jīn）:主流（liú）:基于（yú）统计谷歌、微软、IBM，20世纪70年代，弗里德里克·贾里尼克及其领导的IBM华生（shēng）实验室将语（yǔ）音（yīn）识别率从70%提升（shēng）到90%。 1988年，IBM的彼得（dé）·布朗提出了基于统计的机器翻译方（fāng）法。 2005年（nián），Google机器翻译打（dǎ）败（bài）基于规则的Sys Tran。

2010年以后:逆袭:机器学（xué）习

AlphaGo先后战胜（shèng）李（lǐ）世石、柯洁等（děng），掀起人工（gōng）智能热（rè）潮。深度学习（xí）、人工神经网络成为热词。领域:语音识别、图像识别、机器翻译（yì）、自动驾驶、智能家居。

4. NLP任（rèn）务的（de）一般步骤

下面图（tú）片看不清楚（chǔ）的（de），可以百（bǎi）度（dù）脑图查看，点击链（liàn）接

5. NLP、CV，选哪个？

NLP：自然语言处理，数据（jù）是文本。

CV：计算机视觉，数据（jù）是图像（xiàng）。

两者属于不同（tóng）的领域，在遇到这个问题的时候（hòu），我也是犹豫（yù）了很久，想了很多，于是（shì）乎得出一个结论:都（dōu）是（shì）利用深度学习去解决（jué）现实世界存在（zài）的问题，离开了CV，NLP存活不（bú）了；离（lí）开了（le）NLP，CV存活不了。两者（zhě）就像（xiàng）兄弟姐（jiě）妹一样，整个“家（jiā）庭”不能分割（gē）但个体（tǐ）又存在差异（yì）！

NLP/CV属于两个不同（tóng）的研（yán）究领域（yù），都是（shì）很好（hǎo）的（de）领域，可以根（gēn）据自（zì）己的爱好作出适合自（zì）己的选择（zé），人工智能是一个多（duō）学科交（jiāo）叉的领域，需要的（de）不仅仅是（shì）单方面的能力，而是多（duō）方面的能力（lì）。对于每个人来说都有自己的侧重（chóng）点，选择（zé）自己（jǐ）擅长的领域里持续深（shēn）耕，就会有所成就！