ICRoute 语音识别芯片/声控芯片用声音去沟通芯片工作原理

芯片工作原理 ICRoute

购买开发板B-LD3320，模块M-LD3320, 芯片LD3320请发EMail联系Email : info@icroute.com

LD332X系列语音识别芯片的工作原理：

LD3320提供的语音识别技术，是基于"关键词语列表"的识别技术:ASR(Auto speech recognition )技术。
语音识别芯片完成的工作就是：把通过MIC输入的声音进行频谱分析->提取语音特征->和关键词语列表中的关键词语进行对比匹配->找出得分最高的关键词语作为识别结果输出。

语音识别芯片能在两种情况下给出识别结果：
1）外部送入预定时间的语音数据后（比如5秒钟的语音数据），芯片对这些语音数据运算分析后，给出识别结果
2）外部送入语音数据流，语音识别芯片通过端点检测VAD（voice activity detection）检测出用户停止说话，把用户开始说话到停止说话之间的语音数据进行运算分析后，给出识别结果

对于第一种情况，可以理解为设定了一个定时录音（比如为5秒钟），芯片在5秒钟后，会停止把声音送入识别引擎，并且根据已送入引擎的语音数据计算出一个识别结果。

对于第二种情况，需要了解VAD的工作原理：
VAD（Voice Activity Detection）技术是在一段语音数据流中，判断出哪个时间点是人声的开始，哪个时间点是人声的结束。判断的依据是，在背景声音的基础上有了语音发音，则视为声音的开始。而后，检测到一段持续时间的背景音（比如600毫秒），则视为人声说话结束。
通过VAD判断出人声说话的区域后，语音识别芯片会把这期间的声音数据进行识别处理后，计算出识别结果。

需要说明的是，除了以上两种情况外，语音识别算法无法"主动"地判断出是否识别出了一个结果。这是因为，在计算的过程中的任何时刻，语音识别器都会对已送入识别芯片的声音数据进行分析，并根据匹配程度为识别列表中的关键词语进行打分，最匹配的打分最高。
但是，由于识别算法不知道用户后面是否还继续说语音，所以无法"主动"地判断已经识别出一个结果。
比如，识别列表中有两个关键词语分别是"李晓"和"李晓明"，当用户说到"晓"这个音节时，在识别芯片内部是"李晓"的得分最高，但此时识别芯片是无法给出识别结果。随着用户说出"明"音节后，"李晓明"则成为得分最高。此时，用户停止说话，或者是定时录音已到，使得识别芯片可以判断出用户已经停止说话了，才能给出识别结果是"李晓明"。

用声音去沟通 VUI Voice User Interface

芯片工作原理 ICRoute

LD3321PC机模拟器

LD3320完全评估板
相关的一些论文资源

LD3321下一代芯片

快速开发M-LD3320模块

开发板B-LD3320

语音识别技术ASR

LD332X语音识别芯片

语音识别芯片应用场景

声控语音界面设计指南

联系我们咨询购买