九游网页版-九游(中国)



  • 咨询热线:021-80392549

    九游网页版-九游(中国) QQ在(zài)线 九游网页版-九游(中国) 企业微信
    九游网页版-九游(中国)
    九游网页版-九游(中国) 资(zī)讯(xùn) > AI挖掘技术 > 正(zhèng)文

    自然语言处理(NLP)的一般处理流程!

    2020/05/253633

    自然语言处理(NLP)的一般处(chù)理流程(chéng)!

    自然语言处理(NLP)的一般处(chù)理流程!


    1. 什么是NLP

    自然语言处理 (Natural Language Processing) 是人(rén)工智能(AI)的一(yī)个子领域。自然(rán)语言处理是研究在人与人交互中以及在(zài)人与计算机交互中(zhōng)的语(yǔ)言问题的(de)一门学科。为了建设和完(wán)善(shàn)语言模型,自(zì)然语言处理建立计算(suàn)框(kuàng)架,提(tí)出相应的方法来不断的完(wán)善设(shè)计各种实用系统,并探讨(tǎo)这些实用系统的评测(cè)方(fāng)法。

    2. NLP主要研究方向(xiàng)

    信息抽(chōu)取:从给定文本中抽取(qǔ)重要的信息,比如时间、地点、人(rén)物、事(shì)件、原因(yīn)、结(jié)果(guǒ)、数字、日期、货币(bì)、专有名(míng)词等等。通俗说(shuō)来,就(jiù)是要了解谁在什(shí)么(me)时候、什么原因、对谁、做了什(shí)么事、有什么结果。

    文本生成(chéng):机器像人一样使(shǐ)用自然(rán)语言进行表达和(hé)写作(zuò)。依据输入的不同,文本生成技术主要包括(kuò)数(shù)据到文本生成和文本到文(wén)本生成(chéng)。数据到(dào)文本生成(chéng)是(shì)指将(jiāng)包含键值对(duì)的(de)数据(jù)转化为自然语(yǔ)言文本;文本到(dào)文本生成(chéng)对输入文本进行转化和处理从而产生新的文本。

    问答系统(tǒng):对一个自然语言表达的问题,由问答系统给(gěi)出一(yī)个精准的答案。需(xū)要(yào)对自(zì)然语言查询语句(jù)进(jìn)行某种程度的语义分(fèn)析,包括(kuò)实体链接、关系识别,形成逻辑表达(dá)式,然后到知(zhī)识库中(zhōng)查找可能的候选答案并(bìng)通(tōng)过一个排序机制找出最佳的答案。

    对话系统:系统(tǒng)通过一系列的对话,跟用户进行聊(liáo)天、回答、完成(chéng)某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对(duì)话管理等技术。此外,为(wéi)了体现(xiàn)上下文相关,要具备(bèi)多轮对(duì)话能力。

    文本(běn)挖掘:包括文本聚类、分(fèn)类、情(qíng)感分析以及对(duì)挖掘的信息(xī)和知识的(de)可视化、交互式的表达界面。目前主(zhǔ)流的技术都(dōu)是基于统计机(jī)器学习的。

    语(yǔ)音识别和(hé)生成:语音识别是将(jiāng)输入计算机(jī)的(de)语音符(fú)号识别转换成书面语表示(shì)。语音(yīn)生成又称文语转换、语音合成,它是指将书面文本自动转换成对应的语音(yīn)表征。

    信息过滤:通过(guò)计算机系统自(zì)动(dòng)识别和过滤(lǜ)符合特定条件的文档信息。通常指网络(luò)有害信息(xī)的自动识别(bié)和过滤,主要(yào)用(yòng)于信息(xī)安全和防护,网(wǎng)络内容管理等。

    舆(yú)情分析:是指(zhǐ)收集和处理(lǐ)海量信息,自动化地(dì)对网络舆情进行(háng)分析,以实现及时应对网络舆(yú)情(qíng)的目(mù)的。

    信息检索:对(duì)大规(guī)模的(de)文档进行索引。可简单对文档(dàng)中的词汇,赋之以不同的(de)权重来建立索引,也可建立更加深层的(de)索引。在查询的(de)时候,对输入的查(chá)询表(biǎo)达式比如一个检索词或者一个句子(zǐ)进行分析,然后在(zài)索(suǒ)引里面查找匹(pǐ)配的候选文档(dàng),再根据一个排序(xù)机(jī)制把候选(xuǎn)文档(dàng)排序(xù),最后输出排序得(dé)分(fèn)最高的文档。

    机器翻译:把输入的源语言(yán)文本通(tōng)过自动翻译获得另(lìng)外一种(zhǒng)语言的文本(běn)。机器翻译从(cóng)最早的基于规(guī)则(zé)的方法(fǎ)到二(èr)十(shí)年前的基于统计的方法,再到(dào)今天的基于(yú)神(shén)经(jīng)网络(编码(mǎ)-解码)的(de)方法,逐(zhú)渐形成了一套比较严谨的方法体系。

    3. NLP的发展(zhǎn)

    1950年前:图灵测(cè)试 1950年前阿兰·图灵图灵(líng)测试:人和机器进行交流,如果人无法判(pàn)断自己交流(liú)的对(duì)象是人还是机器,就说明这个(gè)机器具有智能。

    1950-1970:主流:基(jī)于规则形式(shì)语言理论

    乔(qiáo)姆斯基,根据数学中的公理化方法研究自然(rán)语言,采用代数和集合论把形式语言定义为符号(hào)的序列。他试(shì)图使用有限的(de)规则描述无限的语言现象(xiàng),发(fā)现(xiàn)人类(lèi)普遍的语(yǔ)言(yán)机制,建立所谓的普遍语(yǔ)法。

    1970-至今(jīn):主流(liú):基于(yú)统计 谷歌、微软、IBM,20世纪70年代,弗里德里克·贾里尼克及其领导的IBM华生(shēng)实验室将语(yǔ)音(yīn)识别率从70%提升(shēng)到90%。 1988年,IBM的彼得(dé)·布朗提出了基于统计的机器翻译方(fāng)法。 2005年(nián),Google机器翻译打(dǎ)败(bài)基于规则的Sys Tran。

    2010年以后:逆袭:机器学(xué)习

    AlphaGo先后战胜(shèng)李(lǐ)世石、柯洁等(děng),掀起人工(gōng)智能热(rè)潮。深度学习(xí)、人工神经网络成为热词。领域:语音识别、图像识别、机器翻译(yì)、自动驾驶、智能家居。

    4. NLP任(rèn)务的(de)一般步骤

    下面图(tú)片看不清楚(chǔ)的(de),可以百(bǎi)度(dù)脑图查看,点击链(liàn)接


    5. NLP、CV,选哪个?

    NLP:自然语言处理,数据(jù)是文本。

    CV:计算机视觉,数据(jù)是图像(xiàng)。

    两者属于不同(tóng)的领域,在遇到这个问题的时候(hòu),我也是犹豫(yù)了很久,想了很多,于是(shì)乎得出一个结论:都(dōu)是(shì)利用深度学习去解决(jué)现实世界存在(zài)的问题,离开了CV,NLP存活不(bú)了;离(lí)开了(le)NLP,CV存活不了。两者(zhě)就像(xiàng)兄弟姐(jiě)妹一样,整个“家(jiā)庭”不能分割(gē)但个体(tǐ)又存在差异(yì)!

    NLP/CV属于两个不同(tóng)的研(yán)究领域(yù),都是(shì)很好(hǎo)的(de)领域,可以根(gēn)据自(zì)己的爱好作出适合自(zì)己的选择(zé),人工智能是一个多(duō)学科交(jiāo)叉的领域,需要的(de)不仅仅是(shì)单方面的能力,而是多(duō)方面的能力(lì)。对于每个人来说都有自己的侧重(chóng)点,选择(zé)自己(jǐ)擅长的领域里持续深(shēn)耕,就会有所成就!

    关键词: AI挖(wā)掘技术




    AI人工智能(néng)网(wǎng)声明:

    凡资讯来源注明为其(qí)他媒体来(lái)源的信息,均为转载自其(qí)他媒体,并不代表(biǎo)本(běn)网(wǎng)站赞同(tóng)其(qí)观点(diǎn),也不代表本网站对其(qí)真实性负责(zé)。您若对(duì)该文章内容(róng)有任(rèn)何(hé)疑问或(huò)质疑,请立即与网站(www.zhiguan.chaozhou.14842.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系(xì),本网站将迅速给您回应并做(zuò)处理。


    联系电话:021-31666777   新闻、技术文章投(tóu)稿QQ:3267146135   投稿(gǎo)邮箱:syy@gongboshi.com

    工博士(shì)人工智(zhì)能网
    九游网页版-九游(中国)
    扫描(miáo)二维码关注(zhù)微(wēi)信
    扫码反馈

    扫(sǎo)一扫,反馈当前页面

    咨询反(fǎn)馈
    扫码关(guān)注

    微(wēi)信公众号

    返回顶部

    九游网页版-九游(中国)

    九游网页版-九游(中国)