e-works数字化企业网  »  文章频道  »  工业自动化控制  »  自动识别技术

什么是语音识别?

2005/5/30    来源:中国速记速录专家网    
本文介绍了语音识别的概念和方法,并说明了该技术的可能应用的几个方面。

    语音识别就是研究让机器最终能听懂人类口述的自然语言的一门学科。听懂有两种含意,第一种是将这种口述语言逐词(字)逐句地转换为相应的文字,例如对口授文章作听写;第二种则是对口述语言中所包含的要求或询问作出正确的相应,而不拘泥于所有词正确转换为书面文字。语音识别和语音合成相结合,即构成一个完整的"人-机对话通讯系统"。由于计算机的迅速应用和普及,通过键盘、鼠标等手段的传统人机对话模式已经不能适应人与机器之间的交互要求,人们非常希望能把人类之间快速、方便、直接和高效的通讯方式-自然语音用于人机通讯的媒介。语音识别可以从对发音方式和说话人的限制、所要识别的词表大小和说话内容范围等角度出发分类,识别难度不一。例如从最简单的小词表、认人、孤立发音识别到大词表、不认人连续语音的识别,从规范的书面朗读语言识别到完全不限领域的自然口语识别和理解,从安静的办公室环境到嘈杂的室外环境等。

    在语音识别方法中,目前占主导地位的是基于统计的方法。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。人类完善的语言听觉功能是在复杂的社会环境中逐步建立起来的,要让计算机具有同人类相当的听觉智能具有相当的困难。这些困难表现在对语音信号可变性和自然语言不规范性的建模上。在声学层面上,语音信号随着说话人个人的生理因素、社会因素,语音的上下文环境,背景和输入通道的差异而会产生很大的变化;在语言层面上,语言的的歧义性和语言结构的随意性在日常语言中随处可见,自然口语发音中的次序颠倒、重复、修正、非语言信号的插入等不规范现象给语言处理带来很大的困难。事实上,只有建立从声学、语音学到语言学的知识为基础的语音处理机制,才有可能获得能与人类相比的高性能的计算机语音识别系统。

    近年来,语音识别技术已经取得了巨大的进展。在大词表、不认人、连续语音的识别上,目前世界上先进的实验室系统对大多数说话人的词识别错误率已降低到5%-10%的水平。如果作一些说话人自适应的话,则对大多数人来说其错误率可进一步下降到5%以下,我国也已经研制成功了高水平的汉语听写机系统。目前语音识别的研究重点正转向特定应用领域的口语识别和理解上。而基于口语识别、机器翻译和语音合成的多语种口语互译系统的研究也受到了各方面的重视,它将对最终不同语种人类之间的自由通讯发挥更大的作用。

    语音识别技术可以应用于任何需要人进行操作的机器上,它具有快捷、高效、易用的特点,是一种最大众化的一种人机接口,具有很大的社会影响和经济效益。下面是一些可能的应用:

    1.命令控制和识别:在各种平台(PC,非PC),各种场合(消费类数字产品如HPC,家用电器控制,电信网络等)和各种方式(如独立、组合)的应用。可以是独立的产品,也可以融合在目标产品中。

    2.文字语音录入系统:所谓的听写机可以做到"君子动口不动手",采用先进的语音识别和语言理解技术能把你连续发音的口述语言转化为文字。进一步地,利用该技术能开发一些独立应用的录入系统,例如专用数字录入,专用术语录入,专用领域文章录入,表格填充等。

    3.无人值守电话服务:这是人机口语对话是语音识别未来应用的趋势,也是人类高度信息化的必然趋势。随着近几年语音识别技术的巨大进展,语音信号处理的研究已从识别转向理解。其中最重要的研究方向就是面向问题求解的人机口语对话系统,具有广阔的应用前景。

    4.专用语音直接翻译机:随着各国经济、社会和文化的日益全球化,不同母语人类之间的全球自由通讯变得越来越迫切。手持专用语音直接翻译机就可以使一个普通旅游者走遍天下而无语言障碍,例如你只需要对着该机说汉语,它就可以把它转化为英语并朗读出来。

责任编辑:江琦
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐