e-works数字化企业网  »  文章频道  »  基础信息化  »  大数据

最全面的百度NLP自然语言处理技术解析

2017/11/25    来源:36大数据    作者:田宁宁      
关键字:NLP  AI  
在AI时代,我们希望计算机能够拥有视觉、听觉、行动以及语言的智能,而相对于听和看以及行动,语言是我们人类区别于其他动物的最重要特征之一。
    在AI时代,我们希望计算机能够拥有视觉、听觉、行动以及语言的智能,而相对于听和看以及行动,语言是我们人类区别于其他动物的最重要特征之一。语言是我们思维的载体,也因此我们对于语言的理解和处理,变得尤为重要。而在计算机领域,自然语言处理(NLP, Natural Language Processing)就是研究如何让计算机理解并生成人类的语言,从而和人类平等流畅地沟通交流。自然语言处理技术 在百度已经有悠久的历史,早在百度诞生之时就成为搜索技术的重要组成部分,一直伴随着百度的发展而进步。从中文分词、词性分析、改写,到机器翻译、篇章分析、语义理解、对话系统等等,NLP技术已成功应用在百度各类产品中。
 
    近期由百度开发者中心主办、极客邦科技承办的75期百度技术沙龙上,百度NLP和AI开放平台的多位资深工程师和产品经理,针对开发者如何利用百度NLP技术更好解决实际应用问题,进行了具体分享。百度AI技术生态部高级运营顾问张扬,通过具体应用案例,让大家对百度NLP开放的核心技术有一个感性的认知;自然语言处理部主任架构师孙宇,针对NLP语义计算技术的具体问题深入分析;自然语言处理部资深研发工程师何伯磊,用大量场景详细解释了情感分析领域的技术应用;自然语言处理部资深研发工程师姜迪,详细阐述了概率图模型技术如何应用;百度AI技术生态部资深产品经理张晶晶,为大家现场指导百度AI开放平台的使用方法。
 
    NLP是什么?
 
    NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP由两个主要的技术领域构成:自然语言理解和自然语言生成。
 
  • 自然语言理解方向,主要目标是帮助机器更好理解人的语言,包括基础的词法、句法等语义理解,以及需求、篇章、情感层面的高层理解。
 
  • 自然语言生成方向,主要目标是帮助机器生成人能够理解的语言,比如文本生成、自动文摘等。
 
    NLP技术基于大数据、知识图谱、机器学习、语言学等技术和资源,并可以形成机器翻译、深度问答、对话系统的具体应用系统,进而服务于各类实际业务和产品。
 
    我们为什么需要NLP?
 
    在演讲中,为了让大家有更直观的感受,张扬首先举了个生活中的例子:人们在用百度搜索一个生僻字时,不知道拼音的情况下会搜索:“4个又念什么?”,我们发现,搜索结果一定是告诉你这个“叕”字念什么,而不是“4个又念什么”的这几个词表面的匹配结果,这其中已经用到自然语言理解的能力了,它帮助搜索引擎理解用户需要搜的是“由4个又组成的字”,而不是“4个又是什么”这几个孤零零的词。由此可见,NLP技术真正能够知道你所说的话的深层语义是什么,这项技术也把人工智能推向了一个新的高度。
 
    那么NLP究竟能能够干什么?如何帮助业务实现,张扬继续介绍了百度NLP开放的几项典型技术:
 
    情感倾向分析
 
    针对带有主观描述的中文文本,可自动判断该文本的情感极性类别并给出相应的置信度。情感极性分为积极、消极、中性。情感倾向分析能帮助企业理解用户消费习惯、分析热点话题和危机舆情监控,为企业提供有力的决策支持。
 
    最全面的百度NLP自然语言处理技术解析
 
    评论观点抽取
 
    自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持13类产品用户评论的观点抽取,包括美食、酒店、汽车、景点等,可帮助商家进行产品分析,辅助用户进行消费决策。
 
最全面的百度NLP自然语言处理技术解析
 
    词义相似度计算
 
    用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写、词性标注等常用技术的基础之一。
 
    大数据
 
    词法分析
 
    百度词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇标注和词汇的词性,并进一步识别出命名实体,百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型。
 
    大数据
 
    短文本相似度
 
    能够提供不同短文本之间相似度的计算,输出的相似度是一个介于-1到1之间的实数值,越接近1则相似度越高。这个相似度值可以直接用于结果排序,也可以作为一维基础特征作用于更复杂的系统。
 
    大数据
 
    DNN语言模型
 
    语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。
 
    大数据
 
    词向量表示
 
    词向量表示表示是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算。
 
    大数据
 
    依存句法分析
 
    利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系)
 
    并用树状结构来表示整句的的结构(如主谓宾、定状补等)。
 
    大数据
 

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐