无需接口的语音识别测试装置、系统及方法与流程

文档序号：15938112发布日期：2018-11-14 02:43阅读：211来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及音频测试领域，具体涉及一种语音识别测试装置、系统及方法。

背景技术

智能终端如智能手机、智能音响等产品日新月异，随着科学技术的发展和用户服务需求的不断提升，市面上出现了越来越多的带有语音识别功能的智能终端。

目前测试智能终端的语音识别性能的测试的方式包括如下几种：

1、第一种方法，找几个人讲不同的测试词语，然后统计语音识别的性能；

2、第二种方法，需要通过待测智能终端上的接口来获取语音识别结果，从而来统计语音识别性能。

上述现有的方式存在以下的缺点：

1、人工介入较多，测试可重复性不好，不能精确保证每次都能精准重复，测试效率低。

2、随着社会发展，智能终端日新月异，一方面有些智能终端较难明确获悉其用于测试语音识别等各项功能的接口及相关指令；另一方面即使获得了相关接口和指令，测试过程亦需要根据不同的待测的智能终端进行定制化的通信交互和控制，给测试环境的搭建和实际测试过程的操作均带来了复杂性，通用性不佳，测试效率低下。

技术实现要素：

发明目的：为了克服现有技术中存在的不足，本发明提供一种无需接口的语音识别测试系统，同时提供一种无需接口的语音识别测试装置以及一种无需接口的语音识别测试方法。

技术方案：为解决上述技术问题，本发明提供的一种自动无需接口的语音识别测试系统，包括待测智能终端、测试平台以及与测试平台连接的音源，其中音源为用于播放测试语音以供待测智能终端进行语音识别测试的音源；该系统还包括文字识别装置，该文字识别装置包括设于待测智能终端屏幕前的摄像头，该文字识别装置与测试平台连接。

作为优选的，所述文字识别装置是用于对摄像头拍摄到的待测智能终端上显示的语音识别结果进行文字识别的装置。

作为另一种优选方案，所述文字识别装置是通过文字识别软件对摄像头拍摄到的待测智能终端上显示的语音识别结果进行文字识别的。

进一步优选的，该系统还包括设于摄像头与待测智能终端屏幕间的遮挡板，该遮挡板上设有与待测智能终端屏幕上的语音识别结果的显示区域相对应的非遮挡区。

作为其中一种优选方案，该系统还包括与测试平台连接的噪声源。

作为其中另一种优选方案，该系统还包括与测试平台连接的噪声源和麦克风。

优选的，所述测试平台包括存储器和处理器，以及存储在存储器上并可在处理器上运行的计算机程序，所述程序被处理器执行时能够实现包括以下的步骤：

a)通过音源播放语音识别测试所需要的测试语音；

b)通过文字识别装置的摄像头拍摄待测智能终端屏幕上显示的语音识别结果，并对该语音识别结果进行文字识别；

c)将通过文字识别得到的待测智能终端的语音识别结果，与通过音源播放的测试语音对应的文字进行比较，并统计语音识别性能指标；

d)判断本轮测试是否结束，如否，则进入步骤a)，如是，则输出包括各项语音识别性能指标的测试结果。

作为其中一种优选，上述步骤a)为：通过音源播放语音识别测试所需要的测试语音，通过噪声源播放语音识别测试所需要的环境噪声。

作为另一种优选方案，上述步骤a)为：通过音源播放语音识别测试所需要的测试语音，通过噪声源播放语音识别测试所需要的环境噪声，并根据麦克风接收到的音源和噪声源的声音信号反馈来调整包括信噪比在内的测试环境参数，从而调整通过音源播放的测试语音及通过噪声源播放的环境噪声的声音参数。

本发明同时提供了一种无需接口的语音识别测试装置，包括音源和放置待测智能终端的第二平台，还包括文字识别装置，该文字识别装置包括摄像头，该摄像头设于第二平台放置的待测智能终端的屏幕前方或上方位置处，该音源和文字识别装置均与测试平台连接。

作为优选的，其中文字识别装置是用于对摄像头拍摄到的待测智能终端上显示的语音识别结果进行文字识别的装置。

作为另一种优选，所述文字识别装置是通过文字识别软件对摄像头拍摄到的待测智能终端上显示的语音识别结果进行文字识别。

作为其中一种优选方案，该装置还包括与测试平台连接的噪声源。

作为另一种优选方案，该装置还包括与测试平台连接的噪声源和麦克风。

进一步优选的，该装置还包括设于摄像头与待测智能终端屏幕间的遮挡板，该遮挡板上设有与待测智能终端屏幕上的语音识别结果的显示区域相对应的非遮挡区。

本发明同时提供了一种无需接口的语音识别测试方法，其用于无需接口的语音识别测试装置或无需接口的语音识别测试系统，该方法包括如下步骤：

1)放置好可进行语音识别的待测智能终端；

2)通过音源播放语音识别测试所需要的测试语音；

3)处于语音识别模式下的待测智能终端在屏幕上显示语音识别结果；

4)通过文字识别装置的摄像头拍摄待测智能终端屏幕上显示的语音识别结果，并对该语音识别结果进行文字识别；

5)测试平台将通过步骤4)文字识别得到的待测智能终端的语音识别结果，与通过音源播放的测试语音对应的文字进行比较，并统计语音识别性能指标；

6)根据当前测试预设的测试参数，重复步骤2)至步骤5)，直到本轮测试完成，并输出包括各项语音识别性能指标的测试结果。

作为其中一种优选方案，所述步骤2)为：通过音源播放语音识别测试所需要的测试语音，通过噪声源播放语音识别测试所需要的环境噪声。

作为其中另一种优选方案，所述步骤2)为：通过音源播放语音识别测试所需要的测试语音，通过噪声源播放语音识别测试所需要的环境噪声，并根据麦克风接收到的音源和噪声源的声音信号反馈来调整包括信噪比在内的测试环境参数，从而调整通过音源播放的测试语音及通过噪声源播放的环境噪声的声音参数。

有益效果：本发明提供的无需接口的语音识别测试装置、系统及方法，相对现有技术而言，不需要通过待测智能终端设备上的语音识别测试接口(用于语音识别测试的测试接口)，也可以说是不需要待测智能终端上/内部的任何接口和指令，就可将通过文字识别装置对摄像头拍摄到的待测智能终端屏幕上显示的语音识别结果进行文字识别所得到的待测智能终端的语音识别结果，与通过音源播放的测试语音对应的文字进行比较，从而统计语音识别的相关性能指标。进一步的当本发明提供的装置和系统还具有噪声源时，可统计得到待测智能终端在各种噪声环境下的语音识别相关的各项性能指标，测试更加灵活、全面、有针对性。进一步的当本发明提供的装置和系统还包括与测试平台连接的麦克风时，测试平台可根据麦克风接收到的音源和噪声源的声音信号反馈来测量和控制测试语音及噪声大小，从而控制测试环境参数如信噪比等等，更加灵活可控、易用性更好，准确性更高。整体而言，本发明不需要通过待测智能终端设备上的接口得到其语音识别的结果，减少了对待测智能终端接口的占用，也减少了因待测智能终端种类/型号不同带来的测试接口和测试指令的不同所需要的定制化的测试用通信交互和控制，大幅提升了具有语音识别功能的智能终端语音识别性能测试的效率，最大程度上满足了自动化的测试需求，全程无人工参与，可重复性好，不仅易用性高，而且通用性佳，有效提升了智能终端语音识别性能测试的效率。

附图说明

图1是本发明提供的无需接口的语音识别测试系统的其中一种实施例的结构示意图；

图2是本发明提供的无需接口的语音识别测试系统的其中另一种实施例的结构示意图；

图3是本发明提供的无需接口的语音识别测试系统的其中又一种实施例的结构示意图；

图4是图3中遮挡板7的俯视结构示意图；

图5是本发明提供的无需接口的语音识别测试方法的其中一种实施例的流程示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明。

系统实施例1：

本实施例提供的其中一种无需接口的语音识别测试系统，如图1和图2所示，包括待测智能终端3、测试平台1以及与测试平台1均连接的音源2，其中音源2为用于播放测试语音以供待测智能终端进行语音识别测试的音源；该系统还包括文字识别装置5，该文字识别装置5包括设于待测智能终端屏幕前的摄像头6，该文字识别装置5与测试平台1连接。

如图1所示，其中摄像头6设于待测智能终端3的屏幕前，并与文字识别装置5连接。在本实施例中，待测智能终端3屏幕朝上水平放置，摄像头6设于待测智能终端3的屏幕上方，其中文字识别装置5是用于对摄像头拍摄到的待测智能终端上显示的语音识别结果进行文字识别的装置。

在某些系统实施例中，上述文字识别装置包括支架、文字识别模块，以及安装在支架上的、与文字识别模块连接的、设于待测智能终端屏幕前的摄像头。其中文字识别模块中安装有文字识别软件，其可安装在支架上或其他适合的位置，只要能实现对摄像头拍摄到的待测智能终端上显示的语音识别结果进行文字识别即可。

当然文字识别装置也可采用其他现有技术中的文字识别模块或装置或仪器实现，如具有文字识别功能的founder方正q1180a3高拍仪、成者科技et16智能扫描仪和指南者znz1000-a4cs高拍仪扫描仪等等，只要能实现对待测智能终端上显示的语音识别结果进行文字识别即可。

在本实施例中，音源设置在待测智能终端周边，音源与待测智能终端之间的具体物理位置关系，可根据实际测试环境所需灵活设定，如两者相距20cm、30cm、50cm、1m或2m等等。

该系统实施例中，音源2为人工头模拟器或人工嘴模拟器，即用于模拟人类头部或嘴部的、用来进行手机音频相关测试的人工头或人工嘴。当然在某些系统实施例中，也可以是扬声器。

在某些系统实施例中，如图2所示，该系统还包括与测试平台连接的噪声源4。在某些实施例中，该噪声源由一个或多个播放噪声的喇叭组成，用来测试在各种噪声环境下的语音识别性能。

该噪声源、音源与待测智能终端之间的物理位置关系，可根据实际测试环境所需灵活设定，通常待测智能终端位于噪声源与音源声音传播的范围内，即音源和噪声源均设置在待测智能终端周边。当噪声源由多个播放噪声的喇叭组成时，噪声源可周向均布地设置在音源四周。

在某些系统实施例中，该系统进一步如图2所示还包括与测试平台连接的、用于接收音源和噪声源的声音信号的麦克风8，以供测试平台测量和控制测试语音及噪声大小，从而控制测试环境参数，如信噪比等。该麦克风与音源、噪声源和待测智能终端的物理位置关系，同样可根据实际测试环境所需灵活设定，如设置在音源周边或噪声源周边或待测智能终端周边等等。

文中所述待测智能终端包括具有语音识别功能的智能手机、智能语音音箱、智能音响等。本实施例中，待测智能终端为智能手机。

在上述系统实施例中，音源2、文字识别装置5均与测试平台1连接，其连接方式在某些实施例中为电路连接，当然也可以部分或全部为无线通信连接。同样的，噪声源4、麦克风8也均与测试平台1连接，其连接方式在某些实施例中为电路连接，当然也可以部分或全部为无线通信连接。

系统实施例2：与系统实施例1结构和方法基本相同，相同之处不再累述，所不同的是：

在某些系统实施例中，其中文字识别装置5是通过文字识别软件对摄像头拍摄到的待测智能终端上显示的语音识别结果进行文字识别的装置。

该系统中，如图3所示，还包括设于摄像头6与待测智能终端3屏幕间的遮挡板7，该遮挡板7上设有与待测智能终端屏幕上的语音识别结果的显示区域相对应的非遮挡区8，非遮挡区之外均为遮挡区。相对摄像头而言待测智能终端被遮挡区遮挡的部位是不可见的，待测智能终端在非遮挡区对应的未被遮挡的部位是可见的。非遮挡区可以为开孔视窗，也可以是透明视窗。在此结构下，摄像头拍摄到的照片/图片上除了非遮挡区可见的待测智能终端屏幕上的语音识别结果之外，其余均为遮挡板上的遮挡区，照片/图片上无其他干扰信息，更利于文字识别装置/软件对待测智能终端屏幕上显示的语音识别结果进行文字识别。在本实施例中，遮挡板7紧贴待测智能终端3的屏幕上，当然也可以根据实际需要灵活设置。

在某些系统实施例中，文字识别软件是安装在文字识别装置上的，用以对摄像头拍摄到的待测智能终端上显示的语音识别结果进行文字识别。

在某些系统实施例中，文字识别软件也可以是直接安装在测试平台上的，此时也可以说文字识别装置5是软件集成在测试平台上的。

在上述系统实施例中，音源2和文字识别装置5均与测试平台1连接，其连接方式在某些实施例中为电路连接，当然也可以部分或全部为无线通信连接。同样的，噪声源4、麦克风8也均与测试平台1连接，其连接方式在某些实施例中为电路连接，当然也可以部分或全部为无线通信连接。测试平台用于音源、噪声源、文字识别装置之间的信息交互与控制，并安装有进行语音识别测试相关的测试软件/计算机程序。

装置实施例3：

本实施例提供的其中一种无需接口的语音识别测试装置，如图1、图2和图3所示，包括音源2、用于放置音源2的第一平台(图中未示出)和用于放置待测智能终端3的第二平台(图中未示出)，还包括文字识别装置5，该文字识别装置包括摄像头6，该摄像头6设于第二平台放置的待测智能终端3的屏幕前方或上方位置处，该音源2和文字识别装置5均与测试平台1连接。

在某些装置实施例中，上述文字识别装置5是用于对摄像头6拍摄到的待测智能终端3上显示的语音识别结果进行文字识别的装置。

在某些装置实施例中，上述文字识别装置包括支架、文字识别模块，以及安装在支架上的、与文字识别模块连接的、设于待测智能终端屏幕前的摄像头。其中文字识别模块为安装有文字识别软件、能实现对摄像头拍摄到的待测智能终端上显示的语音识别结果进行文字识别的模块，其可安装在支架上或其他适合的位置。当然文字识别装置也可采用其他现有技术中的文字识别模块或装置或仪器实现，只要能实现对待测智能终端上显示的语音识别结果进行文字识别即可。

在本实施例中，音源设置在待测智能终端或放置待测智能终端的第二平台周边，音源与待测智能终端之间的具体物理位置关系，可根据实际测试环境所需灵活设定，如两者相距20cm、30cm、50cm、1m或2m等等。

本装置实施例中，音源为播放测试语音的人工头模拟器或人工嘴模拟器，即用于模拟人类头部或嘴部的、用来进行手机音频相关测试的人工头或人工嘴。当然在某些装置实施例中，也可以是扬声器。

在某些装置实施例中，如图2所示，该系统还包括与测试平台连接的噪声源4。在某些实施例中，该噪声源由一个或多个播放噪声的喇叭组成，用来测试在各种噪声环境下的语音识别性能。

在某些装置实施例中，该系统进一步如图2所示还包括与测试平台连接的麦克风8，其用于接收音源和噪声源的声音信号，以供测试平台测量和控制测试语音及噪声大小，从而控制测试环境参数，如信噪比等。该麦克风与音源、噪声源和待测智能终端的物理位置关系，同样可根据实际测试环境所需灵活设定，如设置在音源周边或噪声源周边或待测智能终端周边等等。

文中所述待测智能终端包括具有语音识别功能的智能手机、智能语音音箱、智能音响等。

在上述装置实施例中，音源2、文字识别装置5均与测试平台1连接，其连接方式在某些实施例中为电路连接，当然也可以部分或全部为无线通信连接。同样的，噪声源4、麦克风8也均与测试平台1连接，其连接方式在某些实施例中为电路连接，当然也可以部分或全部为无线通信连接。

装置实施例4：

在某些装置实施例中，上述文字识别装置5是通过文字识别软件对摄像头6拍摄到的待测智能终端3上显示的语音识别结果进行文字识别的。

该装置中，如图3所示，还包括设于摄像头6与待测智能终端3屏幕间的遮挡板7，该遮挡板7上设有与待测智能终端屏幕上的语音识别结果的显示区域相对应的非遮挡区8，非遮挡区之外均为遮挡区。相对摄像头而言待测智能终端被遮挡区遮挡的部位是不可见的，待测智能终端在非遮挡区对应的未被遮挡的部位是可见的。非遮挡区可以为开孔视窗，也可以是透明视窗。在此结构下，摄像头拍摄到的照片/图片上除了非遮挡区可见的待测智能终端屏幕上的语音识别结果之外，其余均为遮挡板上的遮挡区，照片/图片上无其他干扰信息，更利于文字识别装置/软件对待测智能终端屏幕上显示的语音识别结果进行文字识别。在本实施例中，遮挡板7紧贴待测智能终端3的屏幕上，当然也可以根据实际需要灵活设置。

在某些装置实施例中，文字识别软件是安装在文字识别装置上的，用以对摄像头拍摄到的待测智能终端上显示的语音识别结果进行文字识别。

在某些装置实施例中，文字识别软件也可以是直接安装在测试平台上的，此时也可以说文字识别装置5是软件集成在测试平台上的。

在上述装置实施例中，音源2和文字识别装置5均与测试平台1连接，其连接方式在某些实施例中为电路连接，当然也可以部分或全部为无线通信连接。同样的，噪声源4、麦克风8也均与测试平台1连接，其连接方式在某些实施例中为电路连接，当然也可以部分或全部为无线通信连接。测试平台用于音源、噪声源、文字识别装置之间的信息交互与控制，并安装有进行语音识别测试相关的测试软件。

方法实施例5：

本实施例提供的其中一种无需接口的语音识别测试方法，如图3所示，其用于无需接口的语音识别测试装置或无需接口的语音识别测试系统，该方法包括如下步骤：

1)放置好可进行语音识别的待测智能终端；

2)通过音源播放语音识别测试所需要的测试语音；

3)处于语音识别模式下的待测智能终端在屏幕上显示语音识别结果；

4)通过文字识别装置的摄像头拍摄待测智能终端屏幕上显示的语音识别结果，并对该语音识别结果进行文字识别；

5)测试平台将通过步骤4)文字识别得到的待测智能终端的语音识别结果，与通过音源播放的测试语音对应的文字进行比较，并统计语音识别性能指标；

6)根据当前测试预设的测试参数，重复步骤2)至步骤5)，直到本轮测试完成，并输出包括各项语音识别性能指标的测试结果。

在上述方法实施例中，如图3所示，可在步骤5)后面增加判断本轮测试是否结束的步骤，如是，则测试结束，如否，则进入步骤2)。当然在某些方法实施例中，这一判断也可以放在步骤2)的前面，或其他适合的位置。只要满足根据当前测试预设的测试参数，重复步骤2)至步骤5)，直到本轮测试完成即可。

在某些方法实施例中，所述步骤2)为：通过音源播放语音识别测试所需要的测试语音，通过噪声源播放语音识别测试所需要的环境噪声。此时本发明提供的方法实施例可统计得到待测智能终端在各种噪声环境下的语音识别相关的各项性能指标，测试更加灵活、全面、有针对性。

在某些方法实施例中，所述步骤2)为：通过音源播放语音识别测试所需要的测试语音，通过噪声源播放语音识别测试所需要的环境噪声，并根据麦克风接收到的音源和噪声源的声音信号反馈来调整包括信噪比在内的测试环境参数，从而调整通过音源播放的测试语音及通过噪声源播放的环境噪声的音量等各声音参数。此时本发明提供的方法实施例可根据麦克风接收到的音源和噪声源的声音信号，供测试平台测量和控制测试语音及噪声大小，从而控制测试环境参数，如信噪比等等，从而更加灵活可控地统计待测智能终端在各种噪声环境下的语音识别相关的各项性能指标，可控性、易用性更好，准确性更高。

在某些方法实施例中，所述步骤5)中，测试平台统计的语音识别性能指标，包括正确识别率、误识率、删除率、插入率、词识别率、句子识别率中的一种以上的性能指标。

其中误识率为：原本正确的词(例如1234)被错误地识别成错误的词(例如7234)，例子中的1被错误地识别成7了，这种被错误识别的词统计起来即为误识率；

删除率为：原本有的词(例如1234，4个单独的字)识别出来的结果中漏掉了(例如124，变成3个字)，例子中的3被识别漏掉了，这种被漏掉的字统计起来即为删除率；

插入率为：原本有的词(例如1234，4个单独的字)识别出来的结果中被添加了原本没有的字(例如子12534，变成5个字)，例子中的5是多加出来/插入的，原本没有的，这种多加的/插入的字统计起来即为插入率；

句子识别率为：句子识别率是需要一整句子的所有字都全部识别正确，即不多字也不少字，换句话讲，句子识别率是当一条完整句子100％识别对了，才会统计进句子识别率。

词识别率为：词识别率不同于句子识别率，词识别率为对应的词被正确识别了，则统计成词识别率。

测试平台用于音源、文字识别装置之间的信息交互与控制。测试平台上安装有进行语音识别测试相关的测试软件(即计算机程序)。当还有噪声源和/或麦克风时，测试平台用于音源、文字识别装置、噪声源和/或麦克风之间的信息交互与控制。该测试软件用于控制音源播放语音识别测试所需要的测试语音、用于控制文字识别装置的摄像头拍摄待测智能终端屏幕上显示的语音识别结果并对该语音识别结果进行文字识别，用于控制将步骤4)文字识别得到的待测智能终端的语音识别结果与通过音源播放的测试语音对应的文字进行比较，并统计语音识别性能指标、以及判断本轮测试是否结束等。当还有噪声源和/或麦克风时，该测试软件还用于控制噪声源播放语音识别测试所需要的环境噪声、和/或根据麦克风接收到的音源和噪声源的声音信号反馈来调整包括信噪比在内的测试环境参数，从而调整通过音源播放的测试语音及通过噪声源播放的环境噪声的音量等各声音参数。在某些实施例中，测试平台即为电脑。

也可以说，上述各实施例中，测试平台包括存储器和处理器，以及存储在存储器上并可在处理器上运行的计算机程序(即测试软件或测试程序)，所述程序被处理器执行时能够实现包括以下的步骤：

a)通过音源播放语音识别测试所需要的测试语音；

b)待/等到处于语音识别模式下的待测智能终端在屏幕上显示语音识别结果时/后，或计时预设时长后，通过文字识别装置的摄像头拍摄待测智能终端屏幕上显示的语音识别结果，并对该语音识别结果进行文字识别；

c)将通过文字识别得到的待测智能终端的语音识别结果，与通过音源播放的测试语音对应的文字进行比较，并统计语音识别性能指标；

根据当前测试预设的测试参数，重复上述步骤直到本轮测试完成，并输出包括各项语音识别性能指标的测试结果。

也可以是，所述程序被处理器执行时能够实现包括以下的步骤：

a)通过音源播放语音识别测试所需要的测试语音；

b)待/等处于语音识别模式下的待测智能终端在屏幕上显示语音识别结果后，或计时预设时长后，通过文字识别装置的摄像头拍摄待测智能终端屏幕上显示的语音识别结果，并对该语音识别结果进行文字识别；

c)将通过文字识别得到的待测智能终端的语音识别结果，与通过音源播放的测试语音对应的文字进行比较，并统计语音识别性能指标；

d)判断本轮测试是否结束，如否，则进入步骤a)，如是，则输出包括各项语音识别性能指标的测试结果。

其中上述步骤b)具体为：待处于语音识别模式下的待测智能终端在屏幕上显示语音识别结果后，或计时预设时长后，通过文字识别装置的摄像头拍摄待测智能终端屏幕上显示的语音识别结果，并对该语音识别结果进行文字识别。预设时长可根据实际测试环境所需进行设置，如5秒或10秒或15秒等。

在某些实施例中，上述步骤a)还可以为：通过音源播放语音识别测试所需要的测试语音，通过噪声源播放语音识别测试所需要的环境噪声。

在某些实施例中，上述步骤a)还可以为：通过音源播放语音识别测试所需要的测试语音，通过噪声源播放语音识别测试所需要的环境噪声，并根据麦克风接收到的音源和噪声源的声音信号反馈来调整包括信噪比在内的测试环境参数，从而调整通过音源播放的测试语音及通过噪声源播放的环境噪声的音量等各声音参数。

以上实施列对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的多样变化和修改，均落在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张铭;张怀卫;宋伟
技术所有人：成都昊铭科技有限公司
我是此专利的发明人

上一篇：一种车身用原位纳米颗粒增强铝基复合材料的挤压工艺的制作方法
上一篇：一种重结晶实验辅助装置的制作方法