语音识别调查报告范文

时间:2021-08-31

  让计算机能听懂人的语言,是自计算机诞生以来人类便梦寐以求的,Intel创办人Gordon Moore曾说,语音技术是影响未来科技发展最关键的技术;IBM总裁Lou Gerstner指出,有朝一日,将有数十亿的人运用自然语言在Intern et上浏览、查询【’]。随着移动电话、掌上电脑、PDA等移动设备以及移动计算环境中各类智能设备的广泛应用,使用语音作为用户操作界面的要求越来越迫切,移动设备体积小,计算能力和存储空间有限,其使用场合又往往处于复杂、多变的噪声环境中,使得基于这类设备的语音识别实用技术面临许多挑战。如今语音识别的应用领域不断拓展,在军事、工业、家电、消费电子、交通等各方面都得到了广泛的应用。常见的应用有: (1>语音控制语音识别技术可实现这样的功能,利用声音来控制一台机器设备的运行。例如现在的智能家电,就可以通过语音控制其开关和其他功能的实现。语音控制一方面可以提高工作效率,另一方面也可以在人们手脚被占用的时候实现控制,解放人们的双手。

语音识别调查报告范文

  (2)语音输入利用语音识别技术,将人们的声音信号直接转换成相应的文字输入计算机系统,不仅可以代替键盘使文字的输入工作更加省力和高效,同时也为那些不熟悉键盘输入法的人们提供了一种新的文字输入途径。

  (3)身份识别和指纹类似,人们的声纹也具有较强的排他性,因此可以利用语音识别来进行身份的识别和确认工作。

  语音识别一般有广义和狭义之分。广义的语音识别指的是从语音信号中提取出任何人们感兴趣内容的技术,而我们通常所说的语音识别指的是狭义的语音识别,即从语音信号中提取出文本内容的技术。也就是通过算法,将语音转换成文本的过程[}2}根据识别的对象不同,语音识别大致分为3类:孤立词识别,连续语音识别,关键词识别。

  其中孤立词识别是识别事先己知的孤立词,如“开始”、“结束”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或者一段话;连续语音流中的关键词检测针对的也是连续语音,但它并不要求识别全部文字,而只是检测己知关键词在何处出现,如在一段话中检测“西安”、“中国”这两个词。根据语音识别系统所针对的发音人,可以将语音识别分为2类:特定人语音识别和非特定人语音识别。 其中前者只能识别特定的一个人或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面CPC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使发音的声学特性产生变形,因此需要构造各自的识别系统。

  虽然当前语音识别技术在实际应用中取得了较好效果,但我们也应清醒的认识到其中存在的问题并对其进行深入的分析。目前国内外对语音识别技术研究存在的主要问题有:

  (1>标准输入的问题缺乏标准输入是目前语音识别面临的主要难

  题之一。因为语言、方言之间的差异,

  所以很难确定一个标准的输入,导致实际使用时误识率过高,较难达到人们预期的效果。即使语言相同,我们每个人的发音习惯也不尽相同,这就导致了根据某些人的语音数据

  设计出来的语音识别系统很难适应所有的使用者。因此目前绝大多数的语音识别系统在使用前,都需要使用者对其进行适应性训练,使其习惯自己的发音,以提高识别的正确率。另外,对语音识别的输入设备缺乏统一标准也是导致语音输入不标准的重要方面。

  因为当前的录音设备都是以人能听清,听懂为标准进行设计的,至于如何调整输入设备的各项参数,使其适应计算机识别的特点,让识别系统能够更好的分辨,对此我们还需要做大量的数据收集,分析和研究工作。

  (2)环境噪声的问题环境噪声的干扰也是语音识别研究中一个不可回避的问题。在实际应用时,我们并不能保证识别系统始终处于一个安静的环境中工作。大多数的应用场景总是存在着环境噪声,且不同场景的噪声也各不相同。我们在语音识别系统开发时很难做到训练环境和真实环境的匹配,导致很多识别系统在实验室环境下识别效果很好,但是到了实际应用的场景,一旦遇到较强的环境噪声,识别的效果就大打折扣了。所以说,噪声环境中语音识别要比安静环境下困难很多。目前解决环境噪声干扰问题的途径主要有三个:一是在语音识别的前端,即语音输入环节,开发抗噪性能更好的语音输入设备,从源头上降低语音信号中的噪声分量;二是在对己经混入了噪声的语

  音信号进行特征提取时,选取抗噪性高的特征参数;三是在对语音识别系统进行训练时,充分考虑到噪声的干扰问题,进行针对性的训练以提高系统识别的鲁棒性。

  (3)协同发音现象:人们在交流时很少一个字一个字的孤立发音,多数情况下都是按照自己的习惯连续发音,这时原本孤立的声学单元就会受到上下文的影响而发生模糊、变异。因此无论在语音识别系统中选取何种建模单元(词、音节、声韵母、音素),都需要对这些单元之间的相互影响做细化处理,这样就会带来模型数目的剧增和训练数据的相对医乏。

  语音信号处理是以语音学和数字信号处理为基础,涉及语言学、模式识别、机器学习、人工智能、信息论等领域的一门综合性学科,它主要包括四个部分:语音识别(Speech Recognition)、语音合成(Speech Synthesis)、语音编码(SpeechCoding)和语音分类(Speech Classification)}4]。语音识别是指机器从语音信号中提取语言信息,从而使机器能够有效地理解和执行发声者的各种意图,其目的是要让机器听懂人类口述的语言,“听懂’,有两层含义,其一是指将语音转换为文本,其二是指理解语音包含的意义。通常所说的语音识别是指第一层含义,而第二层含义则属于语言理(LanguageUnderstanding)的范畴,让机器听懂我们的话语,是自动语音识别(Automatic Speech Recognition, ASR要研究的课题。ASR的最终目标是要将连续的语音自动地变换成文本字符,实现所谓的音字转换。在日常生活中,人们用数以万计的词语,组成连续的语句来进行交谈,在这种自然发音的

  语句中,由于协同发音以及语调、重音和抑扬顿挫等节律的影响,很多音素的声学特性跟单字念读时差别很大,这给ASR带来了许多挑战。

  在语音识别方法中,目前占主导地位的是基于统计的模式识别方法〔川。一段语音波形通过前端信号处理后可以得到一组特征序列。在给定观测序列Y的情况下识别系统采用最大后验概率准则决定输出词序列(2-1)其中,P(幼与词序列W无关,因此在式(2-1)中分母可以忽略,即 2-2式中,P(W)为语一言模型,表示特定词序列出现的先验概率,与观测语音信号无关;P(Y}W)为声学模型,表示给定词序列W情况下输出Y的概率,也就是给定声学模型输出Y的概率。如图所示,大词汇量连续语音识别系统是一般由语音信号处理、声学特征提取、声学模型、语言模型、解码器以及错误处理模块组成。从语音数据提取声学特征并输入到解码器,利用声学模型和语言模型,基于最大后验概率准则解码,并对解码输出进行错误处理,得到最终的识别结果