LD3321PC机模拟器

 


 

在语音识别的产品开发过程中,最重要的工作实际上是调研现有的语音识别技术是否可以满足终端产品的需求。(这些与终端产品设计有关的问题在绘声电子的网页上有更详细的讨论。)
因为语音识别技术存在“误触发”“误识别”两类错误,同时,也牵涉到触发方式是否适合终端产品。比如“口令触发”在运行时是怎样的效果,以及在智能家居中引入语音识别需要考虑哪些问题。

 

这些问题,实际上是需要开发者在使用芯片开发之前,最好就可以体验到效果。开发者要么可以购买开发板或者产品模块进行体验,但是这需要花费一定的费用和精力。
ICRoute携手绘声电子,推出基于PC机平台的LD3321芯片仿真软件(VE3版本),供开发者直接在PC机上设计实现语音识别控制流程。
点击阅读VE3编辑器模拟器.pdf和下载VE3编辑器模拟器.pdfVE3编辑器模拟器.rar

仿真软件的主要特点为:


1. 提供基于PC的识别引擎
VE3可以直接在PC机上模拟运行整个VSR流程,也就意味着在模拟器里面提供了基于PC机的识别引擎,开发者可以直接对着PC的麦克风说出语音指令并获得识别结果。

2. 支持“可豆玩具”系统的LSR格式文件
VE3编辑器模拟器也可以直接打开LSR文件,使得大量基于“可豆玩具”(Luckyidol)的互动节目,LSR文件也可以直接在PC机上进行运行和模拟演示。
极大地方便了玩具早教行业的开发者进行开发和体验。

3. 可直接执行PC程序
VE3同时针对PC机平台提供了特殊指令,可以直接根据识别结果来执行PC机的程序和打开PC机的文件,使得整个模拟器的功能更加丰富实用。

4. 保密:生成不可编辑的演示文件VSG
VE3提供从VSR到VSG文件的生成功能。VSG文件是不可编辑修改的VSR流程文件,可以直接在“VUI演示工具盒(VP3.exe)”中打开和执行VSR流程。因此,开发者在开发完成一个VSR流程后,可以只把VSG文件发送给测试者和潜在客户来评估VSR的效果,而不需要把VSR源文件提供过去。


5. 识别效果与真实芯片模块的异同
Ve3仿真软件的识别算法精度是与LD3321芯片模块的识别算法是完全一致的。
Ve3仿真软件运行在PC机上,获得的语音输入是通过PC机的声卡以及用户的耳麦进行采集,因此,识别效果是会与实际的LD3321芯片产品模块有一定差距。

一般来说,决定识别效果的因素有:
识别算法的精度
采音的质量(送入识别引擎的声音质量)
周围噪声和主观说话人自己的口音

所以,同样的识别引擎,不去对AD和降噪进行仔细调教,是无法发挥识别引擎完全的算法精度的。

目前与绘声电子合作的基于LD3321芯片的产品模块(v280/v290/v291), 所有的硬件都是自己控制,包括咪头的匹配,LD芯片内部寄存器的匹配调教,PCB布线的考虑,AD与数字的隔离,电源的滤波等等。 从物理上保证了把LD芯片的识别效果发挥到最好。
同时,LD3321内置的降噪功能,会在同样的环境下更加地凸出人声,提高识别灵敏度和主观体验。
并且LD3321的录音功能,使得开发者更加方便地了解到真实产品中,你的声音再传递到识别引擎时的效果到底是怎样,可以作到有依据地去调整参数。
也就是说从硬件的客观效果上,达到了目前嵌入识别芯片所能达到的最好效果。

剩下的就是开发者根据自己的产品需求,通过VUI_Edit软件快速地完成ASR识别流程,并且方便地设置 识别距离/灵敏度/模糊度 等等。
在有说话人口音以及周围人声干扰的主观环境下,来看最终的识别效果是否可以满足产品的需求。


这个视频的 10:25 开始演示了如何通过ld3321产品模块方便地进行录音,从而掌握现场的语音环境,从而为开发者进行识别效果调试提供了最可靠的数据:

希望开发者在动手实际开发芯片或者产品模块之前,可以先基于PC机的仿真器进行识别功能和流程的试验,以期来设计和实现最适合自己终端产品的语音识别流程。