语音识别技术介绍 ICRoute

 

语音识别ASR现实意义:
ASR技术最重要的现实意义就在于提供了一种脱离按键,键盘,鼠标,触摸屏等GUI操作方式,基于语音的用户界面 VUI : Voice User Interface。 使得用户对于产品的操作更快速,更自然。

对于ICRoute的语音识别芯片LD332X,只需要在主控MCU的程序中设定好要识别的关键词语列表,并动态地把这些关键词语以字符的形式传送到芯片LD332X 内部,就可以对用户说出的关键词语进行识别。不需要用户作任何地录音训练。

用户可以下载基于PC机的语音识别Demo,来了解LD332X芯片可以完成的功能,避免对语音识别技术出现误解。

非特定人(SI:Speaker Independent ASR)语音识别功能:

非特定人语音识别技术ASR,是对几十G的语音数据(相当于对数千人采集的数万小时的有效声音数据)经语言学家语音模型分析,科学家建立数学模型,并经过反复训练提取基元语音的细节特征,以及提取各基元间的特征差异。可以得到在统计概率最优化意义上的各个基元语音特征。最后才由资深工程师将算法以及语音模型转化为硬件芯片以应用在嵌入式系统中。

对比旧有的“语音标签”技术:

语音标签实际上采用的是特定人语音识别技术(Speaker-Dependent ASR),就是针对某一用户的声音,进行录音和简单提取语音特征,作为识别匹配的基准。语音标签实用效果很差,对于不同的用户的声音不具有普适性的识别能力,即使对于同一用户,也会出现由于感冒,运动等原因造成的声音出现变声而导致识别失败。其主要原因在于语音标签技术的算法架构简单,语音模型粗略,搜索引擎简化,训练算法失真,无法提取真正有效的语音特征作为识别特征。

基于领先的语音识别核心引擎,经过在各大主流手机产品中三年来超过一千万份的量产检验,LD332X提供了可以真正实用的非特定人语音识别/声控功能。

ASR技术是基于关键词语列表识别的技术:
每次识别的过程,就是把用户说出的语音内容,通过频谱转换为语音特征,和这个关键词语列表中的条目进行一一匹配,最优匹配的一条作为识别结果。比如在手机的应用中,这个关键词语列表的内容就是电话本中的人名/手机的菜单命令/T卡中的歌曲名字。
不论这个列表的条目内容是什么,只需要用户设置相关的寄存器,就可以把相应的待识别条目内容以字符形式传递给识别引擎。

LD332X可以识别列表中的关键词,用户说的语音可以是这个列表中任意的关键词语,而且不需要用户在识别前进行任何训练。并且这个关键词语列表的内容是可以动态编辑的。
语音识别芯片不关心关键词语列表中的关键词语的内容,可以是命令,人名,歌曲名字,操作指令等等任何的汉字字符串。因此,用户可以在各种电子产品的应用场景中使用LD332X完成不同的语音应用。

ASR技术上的局限性在于:
ASR不是听写系统
ASR不能把人的声音转换为确定的拼音串
ASR 不能任意地识别人的说话内容
ASR不能识别关键词语列表中的某个关键词语的一部分内容,除非这一部分内容自身也是一个关键词语
ASR不可以识别与关键词语列表中列出的关键词语不相符的情况
比如,前后加了"嗯","阿"之类的语气词
比如,只说出了关键词语中的一部分而不是整个关键词语
比如,没有列在关键词语列表中的词语