语音产品质量的评价方法和装置与流程

文档序号：19008121发布日期：2019-10-29 23:59阅读：201来源：国知局

本发明属于产品质量评价技术领域，具体涉及一种语音产品质量的评价方法和装置。

背景技术：

语音交互产品(例如智能音箱、智能电视)可获取用户的语音指令并将用户的语音指令转换为音频信号，通过对音频信号的处理分析做出相应反馈。快速、准确的响应用户的语音指令是语音交互的关键。因此，是否能对用户的语音指令进行高质量的收集，对语音交互产品有重要意义，可通过其对语音交互产品的质量进行评价。

通过人工对语音交互产品质量进行评价，耗费人力。同时由于人类能力和精力的限制，因此也造成了时间上的耗费。

技术实现要素：

本发明至少部分解决现有的语音产品质量的评价方法的耗费人力和时间问题，提供一种人力和时间耗费较少的语音产品质量的评价方法和装置。

本发明的一个方面提供一种语音产品质量的评价方法，所述语音产品包括麦克风阵列和声音播放单元，麦克风阵列包括多个设于不同位置的麦克风，所述评价方法包括：

使所述声音播放单元播放特定音频，通过所述麦克风阵列收集所述特定音频；

计算麦克风阵列收集到的声音转换成的音频信号的幅值以及回路信号的幅值，所述回路信号为用于驱动声音播放单元播放特定音频的信号；

通过所述幅值评价语音产品质量。

可选的，所述通过所述幅值评价语音产品质量包括：判断所有麦克风收集到的声音转换成的音频信号的幅值的最小值是否小于第一阈值，最大值是否截幅，若最小值小于第一阈值和/或最大值出现截幅，则评价不合格。

可选的，所述通过所述幅值评价语音产品质量包括：判断是否存在两路麦克风收集到的声音转换成的音频信号的幅值之间的差值大于第二阈值，若存在，则评价不合格。

可选的，所述通过所述幅值评价语音产品质量包括：判断回路信号的幅值最小值是否小于第三阈值，最大值是否截幅，若是最小值小于第三阈值和/或最大值出现截幅，则评价不合格。

可选的，所述通过所述幅值评价语音产品质量包括：声音播放单元包含多个声音播放元件，对应每个声音播放元件存在一路回路信号；判断是否存在两路回路信号的幅值的差值大于第四阈值，若存在，则评价不合格。

优选的，所述通过所述幅值评价语音产品质量包括：当以下条件全部满足时，则评价合格，否则评价不合格：所有麦克风收集到的声音转换成的音频信号的幅值的最小值大于第一阈值同时最大值不截幅；不存在两路麦克风收集到的声音转换成的音频信号的幅值之间的差值大于第二阈值；回路信号的幅值最小值大于第三阈值同时最大值不截幅；声音播放单元包含多个声音播放元件，对应每个声音播放元件存在一路回路信号，不存在两路回路信号的幅值的差值大于第四阈值。

可选的，所述使所述声音播放单元播放特定音频包括：使所述声音播放单元以音量最大值播放特定音频。

优选的，所述语音产品为语音交互产品。

可选的，所述计算麦克风阵列收集到的声音转换成的音频信号的幅值包括：过滤除去低于100hz以及高于10khz的音频信号；每40～60ms对转换到的音频信号取样1次，将每个麦克风此时收集到的声音转换成的音频信号的临时幅值分别进行记录；对每个麦克风对应的多个临时幅值求平均值作为该路麦克风的音频信号的幅值。

本发明的另一个方面提供一种语音产品质量的评价装置，其中，所述语音产品包括麦克风阵列和声音播放单元，麦克风阵列包括多个设于不同位置的麦克风，所述评价装置包括：

控制单元，用于控制所述语音产品的声音播放单元播放特定的音频，麦克风阵列收集声音播放单元播放的音频；

计算单元，用于根据所述语音产品的麦克风阵列转换到的声音转换成的音频信号和回路信号计算信号幅值，并根据所述幅值判断语音产品质量，所述回路信号为用于驱动声音播放单元播放特定音频的信号。

本发明的语音产品质量的评价方法不依赖人，故减少了人力的消耗；方法中的操作较为简单，机器可以快速实现，减少了时间的消耗；同时，其中由语音产品自己的声音播放单元发声，麦克风阵列接收声音，故发声效果统一，检测结果准确，无偶然，且也可间接的实现对声音播放单元的检测。

附图说明

图1为本发明实施例的一种语音产品质量的评价方法的流程示意图；

图2为本发明实施例的另一种语音产品质量的评价方法的流程示意图；

图3为本发明实施例的一种语音产品质量的评价装置的组成框图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

可以理解的是，此处描述的具体实施例和附图仅仅用于解释本发明，而非对本发明的限定。

可以理解的是，在不冲突的情况下，本发明中的各实施例及实施例中的各特征可相互组合。

可以理解的是，为便于描述，本发明的附图中仅示出了与本发明相关的部分，而与本发明无关的部分未在附图中示出。

可以理解的是，本发明的实施例中所涉及的每个单元、模块可仅对应一个实体结构，也可由多个实体结构组成，或者，多个单元、模块也可集成为一个实体结构。

可以理解的是，在不冲突的情况下，本发明的流程图和框图中所标注的功能、步骤可按照不同于附图中所标注的顺序发生。

可以理解的是，本发明的流程图和框图中，示出了按照本发明各实施例的系统、装置、设备、方法的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可代表一个单元、模块、程序段、代码，其包含用于实现规定的功能的可执行指令。而且，框图和流程图中的每个方框或方框的组合，可用实现规定的功能的基于硬件的系统实现，也可用硬件与计算机指令的组合来实现。

可以理解的是，本发明实施例中所涉及的单元、模块可通过软件的方式实现，也可通过硬件的方式来实现，例如单元、模块可位于处理器中。

名词解释

在本申请中，如无特殊说明，以下技术词语应按照下述的解释理解：

语音产品是指包含麦克风阵列和声音播放单元的可以播放声音和采集声音的产品，其中声音播放单元可通过信号控制播放对应的音频，麦克风阵列包括多个设于不同位置的麦克风。

实施例1：

如图1所示，本实施例提供一种语音产品质量的评价方法，其包括：

s101、使声音播放单元播放特定音频，通过麦克风阵列收集特定音频。

s102、计算麦克风阵列收集到的声音转换成的音频信号的幅值以及回路信号的幅值，回路信号为用于驱动声音播放单元播放特定音频的信号。

s103、通过幅值评价语音产品质量。

本实施例中，对语音产品质量的评价不依赖人，故减少了人力的消耗；操作较为简单，机器可以快速实现，减少了时间的消耗；同时，其中由语音产品自己的声音播放单元发声，麦克风阵列接收声音，故发声效果统一，检测结果准确，无偶然，且也可间接的实现对声音播放单元的检测。

实施例2：

如图2所示，本实施例提供一种语音产品质量的评价方法，语音产品包括麦克风阵列和声音播放单元，麦克风阵列包括多个设于不同位置的麦克风。

其中，声音播放单元是语音产品中接收相应信号，并将该信号转换为声音的设备(如喇叭)。麦克风阵列是多个不同位置的麦克风的排列，可以从不同位置对声音进行采集和处理。

麦克风阵列中的麦克风可成不同形状，如线性四麦、环形四麦、环形六麦。

可选的，语音产品为语音交互产品。

语音交互产品(如智能音箱)，是指基于语音输入进行交互的产品，用户通过说话就能得到反馈结果。由于在语音交互的过程中，产品即需要接收，也需要播放，故适用。

具体评价方法包括：

s201、使声音播放单元播放特定音频，通过麦克风阵列收集特定音频。

在测试过程中，不同的测试环境可能有不同的环境声，故麦克风阵列实际收集的声音中也可能包括环境声。环境声是环境中的包括噪声在内的除了声音播放单元播放的声音外的其他声音。

可选的，声音播放单元播放的特定音频为白噪声或者粉噪声。

其中，白噪声是在较宽的频率范围内，各等带宽的频带所含的噪声能量相等的噪声。粉噪声的频率分量功率主要分布在中低频段，在一定范围内粉噪声的音频数据具有相同或类似的能量。白噪声和粉噪声都是常用来进行声学测试的声音。

可选的，使声音播放单元播放特定音频包括声音播放单元以音量最大值播放特定音频。

声音播放单元(如喇叭)以音量最大值播放特定音频(如白噪声和粉噪声)确保声音播放单元播放出的声音音量是一致的。

s202、计算回路信号的幅值，回路信号为用于驱动声音播放单元播放特定音频的信号。

对回路信号进行幅值的计算。其中，回路信号为用于驱动声音播放单元播放特定音频的信号(如输入喇叭的电气信号)，即该回路信号并不是由声音转换得到的，而是直接驱动喇叭发声的电气信号。

s203、计算麦克风阵列收集到的声音转换成的音频信号的幅值。

在麦克风阵列收集到声音之后，对麦克风阵列收集到声音进行幅值的计算。

可选的，计算麦克风阵列收集到的声音转换成的音频信号的幅值，其具体可包括以下的步骤：

s2031、过滤除去低于100hz以及高于10khz的音频信号。

对音频信号和回路信号进行筛选，因为对音响设备的要求是：能播放出从100hz的低音直到10khz的高音，而且声音大小基本一样，因此除去低于100hz以及高于10khz的音频信号。

s2032、每40～60ms对转换到的音频信号取样1次，将每个麦克风此时收集到的声音转换成的音频信号的临时幅值分别进行记录。

即每隔特定时间对当前时刻音频信号的幅值进行记录。

麦克风阵列中的每个麦克风收集到的声音转换成的音频信号为一路麦克风信号。这样麦克风阵列中有多少麦克风就对应了多少路音频信号。对每路麦克风信号我们每隔一段时间进行取样并记录此时信号的临时幅值。

s2033、对每个麦克风对应的多个临时幅值求平均值作为该路麦克风的音频信号的幅值。

即在一段时间内经过多次记录之后，分别对每一路麦克风记录的所有幅值进行求平均值计算，求出的平均值作为该路麦克风的音频信号的幅值。

以上检测，最终作为该路麦克风信号幅值的数值是一段时间内的评价，误差小。

s204、通过幅值评价语音产品质量。

在计算出各路麦克风信号的幅值以及回路信号的幅值之后，通过幅值来判断语音产品的质量。

通过幅值也可以评价声音播放单元(如喇叭)的频响曲线以及失真。也可以评价麦克风阵列板一致性以及麦克风阵列板组装工艺。

可选的，作为本实施例的另一种方式，可判断所有麦克风收集到的声音转换成的音频信号的幅值的最小值是否小于第一阈值(例如为20分贝)，最大值是否截幅，若最小值小于第一阈值和/或最大值出现截幅，则评价不合格。

得到各路麦克风收集到的声音转换成的音频信号的幅值后，对比各路音频信号的幅值，找出幅值的最大值和最小值。判断最小值是否小于第一阈值，最大值是否截幅。若最小值小于第一阈值和/或最大值出现截幅，则评价不合格。

可选的，作为本实施例的另一种方式，也可判断是否存在两路麦克风收集到的声音转换成的音频信号的幅值之间的差值大于第二阈值(例如为5分贝)，若存在，则评价不合格。

得到各路麦克风收集到的声音转换成的音频信号的幅值后，计算所有不同路音频信号之间的差值，用这些差值与第二阈值进行对比，若存在差值大于第二阈值则判断不合格。

可选的，判断回路信号的幅值最小值是否小于第三阈值(例如为20分贝)，最大值是否截幅，若是最小值小于第三阈值和/或最大值出现截幅，则评价不合格。

得到回路信号的幅值之后，找出回路信号的最大值和最小值，判断最小值是否小于第三阈值，最大值是否截幅。若最小值小于第三阈值和/或最大值出现截幅，则评价不合格。

可选的，声音播放单元包含多个声音播放元件，对应每个声音播放元件存在一路回路信号；判断是否存在两路回路信号的幅值的差值大于第四阈值(例如为3分贝)，若存在，则评价不合格。

声音播放单元包含多个声音播放元件(如产品中有两个喇叭)，则对应于一个声音播放单元(喇叭)就存在一个回路信号，分别驱使相应的声音播放单元(喇叭)播放相应的音频。则计算所有不同路的回路信号幅值之间的差值，用这些差值与第四阈值进行对比，若存在差值大于第四阈值则判断不合格。

回路信号幅值的判断可以用于判断输入到声音播放单元的信号的质量。

优选的，作为本实施例的另一种方式，也可以是当以下条件全部满足时，则评价合格，否则评价不合格：

所有麦克风收集到的声音转换成的音频信号的幅值的最小值大于第一阈值同时最大值不截幅；

不存在两路麦克风收集到的声音转换成的音频信号的幅值之间的差值大于第二阈值；

回路信号的幅值最小值大于第三阈值同时最大值不截幅；

声音播放单元包含多个声音播放元件，对应每个声音播放元件存在一路回路信号，不存在两路回路信号的幅值的差值大于第四阈值。

只有当四个条件全部被满足的时候才可以评价产品合格，存在一个条件或多个条件不被满足则评价产品不合格，同时可以输出不满足的条件。

对多个条件进行判断，可以减少判断的偶然性，增加判断的准确性。

实施例3：

如图3所示，本实施例提供一种语音产品质量的评价装置，该评价装置包括：

控制单元，用于控制语音产品的声音播放单元播放特定的音频，麦克风阵列收集声音播放单元播放的音频；

计算单元，用于根据语音产品的麦克风阵列转换到的声音转换成的音频信号和回路信号计算信号幅值，并根据幅值判断语音产品质量，回路信号为用于驱动声音播放单元播放特定音频的信号。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：房德利;陈硕;蔡建松;李太亮;周志刚;肖向春
技术所有人：京东方科技集团股份有限公司
我是此专利的发明人