一种测评语音的方法、介质、装置及电子设备与流程

文档序号：13940958阅读：206来源：国知局

本发明涉及通信技术领域，特别涉及一种测评语音的方法、介质、装置及电子设备。

背景技术：

随着现今社会的进步以及通信技术的发展，不同国度的人也会经常进行生活和工作上的交流，尤其是利用口语来进行交流，例如，工作会议，出国旅游等等。也正是基于此种情况，越来越多的人会选择学习至少一种甚至多种不同的外语。

随着学习外语的深入，一般学习者会经常参加一些关于语言技能的考试，以此来评估自己的外语水平。通常，关于语言技能的考试中，测评一个人的语音技能水平都是需要应聘者与考官一对一的进行外语口语交流，而这种方法由于为人工测评，会存在一些因为主观的因素(例如考官的状态，水平，心理等)而导致测试结果不准确，从而影响测评者语言技能测试的真实结果。

技术实现要素：

本发明提供了一种测评语音的方法、介质、装置及电子设备，可以解决语言技能测试的真实结果准确率较低的问题。

在本上下文中，本发明的实施方式期望提供一种测评语音的方法、介质、装置及电子设备。

在本发明实施方式的第一方面中，提供了一种测评语音的方法，包括：提取目标用户的第一语音数据，所述第一语音数据为所述目标用户按照第一文本朗读的语音数据；

筛选所述第一语音数据，得到第一测评数据；

根据所述第一测评数据，生成测评结果。

在本发明的另一实施例中，所述筛选所述第一语音数据，得到第一测评数据，包括：

获取语音测试点，所述语音测试点为通过所述第一文本生成的用于测评的数据点；

筛选所述第一语音数据并将筛选后的所述第一语音数据与所述语音测试点进行匹配；

当两者之间的匹配度高于预定阈值时，确定筛选后的所述第一语音数据为所述第一测评数据。

在本发明的另一实施例中，在所述筛选所述第一语音数据并将筛选后的所述第一语音数据与所述语音测试点进行匹配之后，还包括：

当两者之间的匹配度低于所述预定阈值时，提取所述目标用户的第二语音数据，所述第二语音数据为所述目标用户按照第二文本朗读的语音数据；

筛选所述第二语音数据，得到第二测评数据；

根据所述第二测评数据，生成所述测评结果。

在本发明的另一实施例中，在所述提取所述目标用户的第二语音数据之前，还包括：

根据所述第一语音数据，选择所述第二文本。

在本发明的另一实施例中，所述获取语音测试点，包括：

根据语速语调规则，得到语速语调测试点，和/或，

根据语法规则，得到语法测试点，和/或，

根据时间间隔规则，得到间隔测试点，和/或，

根据发音规则，得到发音测试点。

在本发明的另一实施例中，所述根据所述第一测评数据，生成测评结果，包括：

使用语音评测算法对所述第一测评数据进行评测，生成所述测评结果。

在本发明的另一实施例中，还包括：

清除所述第一语音数据中除所述第一测评数据以外的数据；和/或，

清除所述第二语音数据中除所述第二测评数据以外的数据。

在本发明的另一实施例中，还包括：

提取所述第一文本，和/或，

提取所述第二文本。

在本发明实施方式的第二方面中，提供了一种介质，其上存储有程序，该程序被处理器执行时实现上述方法实施方式中的各步骤，例如，提取目标用户的第一语音数据，所述第一语音数据为所述目标用户按照第一文本朗读的语音数据；筛选所述第一语音数据，得到第一测评数据；根据所述第一测评数据，生成测评结果。

在本发明实施方式的第三方面中，提供了一种测评语音的装置，包括；提取模块，用于提取目标用户的第一语音数据，所述第一语音数据为所述目标用户按照第一文本朗读的语音数据；

筛选模块，用于筛选所述第一语音数据，得到第一测评数据；

生成模块，用于根据所述第一测评数据，生成测评结果。

在本发明的另一实施例中，所述筛选模块包括；获取单元，筛选单元，确定单元

所述获取单元，用于获取语音测试点，所述语音测试点为通过所述第一文本生成的用于测评的数据点；

所述筛选单元，用于筛选所述第一语音数据并将筛选后的所述第一语音数据与所述语音测试点进行匹配；

所述确定单元，用于当两者之间的匹配度高于预定阈值时，确定筛选后的所述第一语音数据为所述第一测评数据。

在本发明的另一实施例中，包括：

所述提取模块，还用于当两者之间的匹配度低于所述预定阈值时，提取所述目标用户的第二语音数据，所述第二语音数据为所述目标用户按照第二文本朗读的语音数据；

所述筛选模块，还用于筛选所述第二语音数据，得到第二测评数据；

所述生成模块，还用于根据所述第二测评数据，生成所述测评结果。

在本发明的另一实施例中，所述装置还包括：选择模块，

选择模块，用于根据所述第一语音数据，选择所述第二文本。

在本发明的另一实施例中，包括：

所述获取单元，还用于

根据语速语调规则，得到语速语调测试点，和/或，

根据语法规则，得到语法测试点，和/或，

根据时间间隔规则，得到间隔测试点，和/或，

根据发音规则，得到发音测试点。

在本发明的另一实施例中，包括：

所述生成模块，还用于使用语音评测算法对所述第一测评数据进行评测，生成所述测评结果。

在本发明的另一实施例中，所述装置还包括：清除模块，

所述清除模块，用于清除所述第一语音数据中除所述第一测评数据以外的数据；和/或，用于清除所述第二语音数据中除所述第二测评数据以外的数据。

在本发明的另一实施例中，包括：

所述提取模块，还用于提取所述第一文本，和/或，用于提取所述第二文本。

在本发明实施方式的第四方面中，提供了一种计算设备，主要包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，下述指令被运行：

提取目标用户的第一语音数据，所述第一语音数据为所述目标用户按照第一文本朗读的语音数据；

筛选所述第一语音数据，得到第一测评数据；

根据所述第一测评数据，生成测评结果。

在本发明的另一实施例中，所述计算设备还包括：

用于获取语音测试点，所述语音测试点为通过所述第一文本生成的用于测评的数据点的指令；

用于筛选所述第一语音数据并将筛选后的所述第一语音数据与所述语音测试点进行匹配的指令；

以及用于当两者之间的匹配度高于预定阈值时，确定筛选后的所述第一语音数据为所述第一测评数据的指令。

在本发明的另一实施例中，所述计算设备还包括：

用于当两者之间的匹配度低于所述预定阈值时，提取所述目标用户的第二语音数据，所述第二语音数据为所述目标用户按照第二文本朗读的语音数据的指令；

用于筛选所述第二语音数据，得到第二测评数据的指令；

以及用于根据所述第二测评数据，生成所述测评结果的指令。

在本发明的另一实施例中，所述计算设备还包括：

用于根据所述第一语音数据，选择所述第二文本的指令。

在本发明的另一实施例中，所述计算设备还包括：

用于根据语速语调规则，得到语速语调测试点的指令，和/或，

用于根据语法规则，得到语法测试点的指令，和/或，

用于根据时间间隔规则，得到间隔测试点的指令，和/或，

以及用于根据发音规则，得到发音测试点的指令。

用于使用语音评测算法对所述第一测评数据进行评测，生成所述测评结果。

在本发明的另一实施例中，所述计算设备还包括：

用于清除所述第一语音数据中除所述第一测评数据以外的数据的指令；和/或，

用于清除所述第二语音数据中除所述第二测评数据以外的数据的指令。

在本发明的另一实施例中，所述计算设备还包括：

用于提取所述第一文本的指令，和/或，

用于提取所述第二文本的指令。

本发明实施例提供的一种测评语音的方法、介质、装置和计算设备，通过提取目标用户的第一语音数据，所述第一语音数据为所述目标用户按照第一文本朗读的语音数据，筛选所述第一语音数据，得到第一测评数据，根据所述第一测评数据，生成测评结果。与现有技术中通过人工一对一的与测评者进行主观评测方法，导致语言技能测试的真实结果准确率较低的问题相比，本发明通过针对性的选取第一文本的重点内容以及测评者语音得到测评数据，进而通过该测评数据完成对测评者语音测评的方式从而极大减少了语音测试的复杂性，提高测评结果的准确性。

附图说明

图1示意性地示出了根据本发明一实施例的计算机实现的测评语音的方法的流程图；

图2示意性地示出了根据本发明另一实施例的计算机实现的测评语音的方法的流程图；

图3示意性地示出了根据本发明一实施例的介质的示意图；

图4示意性地示出了根据本发明一实施例的装置的结构示意图；

图5示意性地示出了根据本发明另一实施例的装置的结构示意图；

图6示意性地示出了根据本发明一实施例的计算设备的结构示意图。

具体实施方式

有鉴于现有技术中的问题，本发明提出了一种无需人工测评的自动测评语音来对测评者进行语言技能的评测方法，下面将结合本发明中的附图，对本发明中的技术方案进行清楚，完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

本发明实施例一提供一种对测评者进行自动测评的方法，该方法的执行主体是电子设备。

其中，该电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：pda、mid和umpc设备等，例如ipad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此服务器在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

示例性方法

下面结合图1至图2的应用场景，参考图1至图2来描述根据本发明示例性实施方式的用于基于神经网络的数据处理方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

如图1所示，该方法包括以下步骤：

步骤101，提取目标用户的第一语音数据，第一语音数据为目标用户按照第一文本朗读的语音数据。

随着通信技术和当今社会的发展，无论是在工作上还是生活中，越来越多的目标用户想要学习一门外语来方便与国外的目标用户进行沟通交流，而当目标用户想要进行口语测试以明确了解自身的外语水平时，通常，目标用户可以选择基于移动终端操作系统的口语测评应用程序(app，application)-交互平台进行语音测评。本发明以移动终端是手机为例进行描述。

当目标用户申请进行语音测评时，首先接收并确认目标用户选择的语种测试，之后提取目标用户的第一语音数据，其中，第一语音数据可以是在测评开始时目标用户根据第一文本的内容朗读的语音，也可以是目标用户根据系统中的第一文本语音朗读的语音，其中，关于第一文本的选择可以有以下几种方式的任意一种：

随机抽取的文本为第一文本。

根据目标用户的历史测评记录选择第一文本，

根据目标用户在测评开始前选择的语言测试等级选择第一文本。

步骤102，筛选第一语音数据，得到第一测评数据。

当提取到目标用户的第一语音数据之后，将对第一语音数据进行筛选，从而得到第一测评数据。

具体的，在提取到第一语音数据之后，首先可以先对第一语音数据中对测评工作没有帮助的数据进行过滤，例如目标用户在录制过程中的背景杂音，目标用户在录制过程中的非测试语种语言的声音(例如在英语测试中出现的中文声音)等等。

在确认对第一语音数据清洗完成后，获取第一文本的测试点，随后根据语音测试点与第一语音数据的匹配度得出第一测评数据。

需要说明的是，本发明实施例中，对于清洗第一语音数据和提取第一文本的测试点的顺序不做限定，即可以先提取第一文本的测试点随后进行对第一语音数据的清洗，也可以是先对第一语音数据进行清洗随后提取第一文本的测试点。

其中，本发明实施例中，对第一文本语音测试点的生成方式包括但不限于如下几种方法：

1、根据第一文本中的语速语调规则，得到语速语调测试点。

首先提取第一文本中所有语调为疑问句语调的数据，例如，第一文本为下面的内容：

tom:hijack，howareyoudoing？

jack:i’mok，andyou？

tom:notbad，wow！youaresohandsome！

其中，根据语速语调规则搜索到了疑问句语调的数据为“howareyoudoing”和“andyou？”，随后将搜索到的数据按照语速语调规则切分为正常语速的“howareyoudoing”和“andyou？”，也即，在第一文本中，语速语调测试点为，“how”的位置、“are”的位置、“you”的位置、“doing”的位置、“and”的位置、“you”的位置，也就是说，第一文本中出现了6个测试点，即：

tom:hijack，测试点1、测试点2、测试点3、测试点4

jack:i’mok，测试点5、测试点6？

tom:notbad，wow！youaresohandsome！

同样的，在本发明实施例中，还可以首先提取第一文本中所有语调为感叹句语调的数据。例如，根据语速语调规则搜索到了感叹句语调的数据为“wow”和“youaresohandsome”，随后将搜索到的感叹句语调数据按照语速语调规则切分为正常语速的“wow”和“youaresohandsome”，在第一文本中，语速语调测试点为，“wow”的位置、“you”的位置、“are”的位置、“so”的位置、“handsome”的位置，由此得出在第一文本中出现了5个测试点，即：

tom:hijack，howareyoudoing？

jack:i’mok，andyou？

tom:notbad，测试点1、测试点2、测试点3、测试点4、测试点5

值得注意的是，本发明实施例中，语速语调测试点可以选择为疑问句测试点和感叹句测试点的任意一种，也可以选择为疑问句测试点和感叹句测试点的多种结合，以上述内容为例，当选择语速语调测试点为疑问句测试点和感叹句测试点的多种结合时，第一文本的测试点为11个，即

tom:hijack，测试点1、测试点2、测试点3、测试点4

jack:i’mok，测试点5、测试点6？

tom:notbad，测试点7、测试点8、测试点9、测试点10、测试点11

需要说明的是，语速语调规则可以应用于文字形式的文本中，也可以应用于依照文本内容生成的音视频数据中，例如在文字形式的文本中，语速语调规则可以根据符号(例如问号，感叹号，省略号，空格)或是预先存储的关于语速语调的数据来判断文中出现的语调测试点(例如将所有出现的howareyoudoing设定为疑问句式)，而在依照文本内容生成的音视频数据中，可以根据语调的上升和下降来判断语调语速测试点(例如根据语调上升的具体值和变化参数来判断此句为疑问句)，本发明实施例对语速语调规则的应用方式不做限定。

2、根据第一文本中的语法规则，得到语法测试点，具体的，首先提取第一文本中所有语法为动词的数据，例如，第一文本为下面的内容：

tom:hijack，whereareyougoing？

jack:hi，i’mgoingtoschool，

tom:oh，henryarewaitingforyou。

其中，根据语法规则搜索到了动词的数据为“going”和“waiting”，随后将搜索到的动词数据以及出现该动词数据之前或之后的句式内容设为测试点，为了方便描述，本发明以搜索到的动词数据以及该动词数据之后的句式内容和语法形态设为测试点。也即，在第一文本中，语法测试点为，“going”的位置、“to”的位置、“school”的位置、“waiting”的位置、“for”的位置、“you”的位置，由此得出在第一文本中出现了7个测试点，即：

tom:hijack，whereareyou测试点1？

jack:hi，i’m测试点2、测试点3、测试点4

tom:oh，henryare测试点5、测试点6、测试点7

同样的，本发明实施例中，语法测试点可以选择为动词测试点和名词测试点的任意一种，也可以选择为动词测试点和名词测试点的多种结合。又或者，语法规则可以应用于文字形式的文本中，也可以应用于依照文本内容生成的音视频数据中，例如在文字形式的文本中，语法规则可以根据名词的拼写(例如人名，地名，物品名)或是预先存储的关于语法的数据来判断文中出现的语法测试点(例如将所有出现的地理位置的名称设定为名词数据)，而在依照文本内容生成的音视频数据中，可以根据词汇的发音来判断语法试点(例如当出现ing为后缀的词汇判定为动词，人名称等)，本发明实施例对语法规则的应用方式不做限定。

3、根据第一文本中的时间间隔规则，得到间隔测试点，具体的，首先提取第一文本中所有语句间隔大于第一预定时间的数据。当然本发明对第一预定时间不做强制限定，对第一预定时间的具体值的确认方式根据文本的具体情况来定，例如，第一预定时间可以为1s，也可以为1.5s。例如，第一文本为下面的内容：

tom:jack，howareyoudoing？

jack:i’mok，andyou？

其中，根据时间间隔规则搜索到了语句间隔大于第一预定时间的数据为“jack，howareyoudoing”，和“i’mok，andyou”，随后将搜索到的语句间隔大于第一预定时间的数据中的任意一组语句设为测试点，也即，在第一文本中，间隔测试点为，“jack”的位置、“how”的位置、“are”的位置、“you”的位置、“doing”的位置，或是“i’m”的位置、“ok”的位置、“and”的位置、“you”的位置，由此可以得出，在第一文本中出现了5个测试点或是4个测试点，即：

tom:测试点1、测试点2、测试点3、测试点4b测试点5

jack:i’mok，andyou？或是

tom:jack，howareyoudoing？

jack:测试点1、测试点2、测试点3、测试点4、

同样的，在本发明实施例中，还可以首先提取根据时间间隔规则搜索到了语句间隔小于预定时间的数据，例如，在“tom:jack，howareyoudoing？”根据时间间隔规则搜索到了语句间隔小于第一预定时间且大于第二预定时间的数据为“jack”和“howareyoudoing”，随后将搜索到的语句间隔小于第一预定时间且大于第二预定时间的数据中的任意一组语句设为测试点，也即，在第一文本中，发音测试点为，“jack”的位置，或是“how”的位置、“are”的位置、“you”的位置、“doing、”的位置。也就是说，第一文本中出现了1个测试点或是4个测试点，即：

tom:测试点1，howareyoudoing？，或

tom:jack，测试点1、测试点2、测试点3、测试点4

值得注意的是，本发明实施例中，间隔测试点可以选择为语句间隔大于第一预定时间的测试点和语句间隔小于第一预定时间且大于第二预定时间测试点的任意一种，也可以选择为语句间隔大于第一预定时间的测试点和语句间隔小于第一预定时间且大于第二预定时间测试点的多种结合，以上述内容为例，当选择间隔测试点为语句间隔大于第一预定时间的测试点和语句间隔小于第一预定时间且大于第二预定时间测试点的结合时，第一文本的测试点为5个或是8个，即

tom:测试点1，howareyoudoing？

jack:测试点2、测试点3、测试点4、测试点5，或

tom:测试点1、测试点2、测试点3、测试点4、测试点5

jack:i’mok，andyou？，或

tom:jack，测试点1、测试点2、测试点3、测试点4

jack:测试点5、测试点6、测试点7、测试点8，

需要说明的是，时间间隔规则可以应用于文字形式的文本中，也可以应用于依照文本内容生成的音视频数据中，例如在文字形式的文本中，时间间隔规则可以根据符号(例如逗号，句号，分号)来进行间隔测试点的判定，而在依照文本内容生成的音视频数据中，可以根据语句间隔与第一预定时间和第二预定时间的关系来判断发音测试点(例如当两个人对话的时候，两人对话的间隙时间)，本发明实施例对时间间隔规则的应用方式不做限定。

4，根据发音规则，得到发音测试点，具体的，首先提取第一文本中所有发音复杂的数据，例如，第一文本为下面的内容

tom：caniborrowyourdictionary？

jack：certainly，youcanhaveit。

进一步的，根据发音规则搜索到了发音复杂单词数据为“dictionary”和“certainly”，随后将搜索到的发音复杂单词数据设为测试点，其中，发音复杂规则可以依据该单词的字母和音节数量是否大于预定数值来进行判定，其中，预定数值可以为1，也可以为10，本发明对预定数值不做限定。也可以是检索到是否为预先存储的发音复杂单词来进行判定。也即，在第一文本中，语法测试点为，“dictionary”的位置、和“certainly”的位置，由此得出在第一文本中出现了2个测试点，即：

tom：caniborrowyour测试点1？

jack：测试点2，youcanhaveit。

需要说明的是，发音规则可以应用于文字形式的文本中，也可以应用于依照文本内容生成的音视频数据中，例如在文字形式的文本中，发音规则可以根据单词的拼写(例如字母数量超过预定数值，)或是预先存储的关于发音规则的数据来判断文中出现的发音测试点(比如预先将dictionary设为发音复杂单词)，而在依照文本内容生成的音视频数据中，可以根据单词的发音来判断发音测试点(例如当出现该单词音节大于预定数值的时候)，本发明实施例对发音规则的应用方式不做限定。

进一步的，当确定语音测试点后，由于在录制过程中可能出现目标用户的口误或是因为录音设备的不灵敏导致目标用户在根据第一文本录制语音时会出现个别词语没有录上，尤其当在语音测试点的位置上没有录上目标用户的语音时，会极大影响测评结果不准确。基于此种情况，当获取到语音测试点后，根据语音测试点得出在第一语音数据中测试点的位置，并通过优化算法筛选出第一语音数据中测试点位置的数据，例如，第一文本为

tom:jack，howareyoudoing？

jack:i’mok，andyou？

其中，语音测试点为

tom:测试点1、测试点2、测试点3、测试点4、测试点5

jack:yes，i’mok，andyou？

第一语音数据为：

tom:jack，howareyou___

jack:i’mok，andyou？

由此可知，当获取到语音测试点后，根据语音测试点得出在第一语音数据中测试点的位置，随后，对第一语音数据进行优化算法的筛选，得出在第一语音数据中测试点位置的数据为“jack”、“how”“are”、“you”，并用筛选出来的数据与语音测试点进行匹配，也即判断在第一语音数据中筛选出来的数据是否完全覆盖语音测试点的位置。以上述为例，在5个语音测试点中，第一语音数据只有4个语音数据可与语音测试点数据完全覆盖，即测试点1(“jack”)、测试点2(“how”)、测试点3(are)、测试点4(you)，也即第一语音数据与语音测试点的匹配度为80％。而当两者之间的匹配度高于预定阈值时，确定筛选后的第一语音数据为第一测评数据。

具体的，其中，由于测评者的能力或是选择的测评等级不同，可以自由选择预定阈值，也就是说，预定阈值可以是50％，也可以是80％，也可以是100％，本发明实施例对预定阈值不做限定。为了方便描述，本发明以预定阈值为50％为例进行说明，以上述为例，当第一语音数据与语音测试点的匹配度为80％时，第一语音数据与语音测试点的匹配度高于预定阈值，也即确定筛选后的第一语音数据为第一测评数据。

步骤103，根据第一测评数据，生成测评结果。

具体的，使用语音评测算法对第一测评数据进行评估，进而生成测评结果，其中，语音评测算法可以是深度神经网络(deepneuralnerwork)声学模型以及评测模型。

本发明实施例提供的一种测评语音的方法，通过提取目标用户的第一语音数据，所述第一语音数据为所述目标用户按照第一文本朗读的语音数据，筛选所述第一语音数据，得到第一测评数据，根据所述第一测评数据，生成测评结果。与现有技术中通过人工一对一的与测评者进行主观评测方法，导致语言技能测试的真实结果准确率较低的问题相比，本发明通过针对性的选取第一文本的重点内容以及测评者语音得到测评数据，进而通过该测评数据完成对测评者语音测评的方式从而极大减少了语音测试的复杂性，提高测评结果的准确性。

另外，通过本发明的根据第一文本语音测试点，可以针对性的选取第一文本的重要内容部分，并仅通过语音测试点对应的语音数据来进行语音评测，从而可以提高测评效率。

基于与上述方法同样的发明构思，本发明还提供一种语音测评的方法，如图2所示，该方法包括以下步骤：

步骤201，提取目标用户的第一语音数据，第一语音数据为目标用户按照第一文本朗读的语音数据。

步骤202，在提取目标用户的第一语音数据之后，提取第一文本。

当提取到目标用户根据第一文本朗读的第一语音数据之后，提取该第一文本。

步骤203，筛选第一语音数据。

步骤204，筛选第一语音数据并与语音测试点进行匹配。

步骤205，当两者之间的匹配度高于预定阈值时，确定筛选后的第一语音数据为第一测评数据。

首先需要说明的是，针对第一语音数据生成第一文本测试点的生成方式如上述所述，在此不再一一赘述。

其中，由于测评者的能力或是选择的测评等级不同，可以自由选择预定阈值，也就是说，测评等级与预定阈值成一定比例，如正比例，即当测评等级分为3级(1级-初级；2级-中级；3级-高级)，1级对应的预定阈值可以是50％，2级对应的可以是80％，3级对应的可以是100％。本发明实施例对预定阈值不做限定。当第一语音数据与语音测试点的匹配度高于预定阈值时，确定筛选后的第一语音数据做为第一测评数据。

在确定第一测评数据之后，继续执行步骤207。

步骤206，当两者之间的匹配度低于预定阈值时，提取目标用户的第二语音数据。

为了方便描述，本发明在此步骤中以预定阈值为100％举例说明，具体的，

例如，第一文本为

tom:jack，howareyoudoing？

jack:i’mok，andyou？

其中，语音测试点为

tom:测试点1、测试点2、测试点3、测试点4、测试点5

jack:yes，i’mok，andyou？

获取到的第一语音数据为：

tom:jack，howareyou____

jack:i’mok，andyou？

由此可知，当获取到语音测试点后，根据语音测试点得出在第一语音数据中测试点的位置，随后，对第一语音数据进行优化算法的筛选，得出在第一语音数据中测试点位置的数据为“jack”、“how”“are”、“you”，并用筛选出来的数据与语音测试点进行匹配，也即判断在第一语音数据中筛选出来的数据是否完全覆盖语音测试点的位置。以上述为例，在5个语音测试点中，第一语音数据只有4个语音数据可与语音测试点数据完全覆盖，即测试点1(“jack”)、测试点2(“how”)、测试点3(are)、测试点4(you)，也即第一语音数据与语音测试点的匹配度为80％。也就是说，第一语音数据与语音测试点的匹配度低于预定阈值，当确认两者之间的匹配度低于预定阈值时，选择第二文本，并提示目标用户根据第二文本朗读并生成第二语音数据，其中，选择第二文本的方式包括但是不限于以下方式：

第一种方式，根据所有语音测试点选择第二文本，即将所有文本中包含所有语音测试点的一条文本选择为第二文本，也即第二文本中包含了所有语音测试点数据。

第二种方式，根据第一语音数据与语音测试点不匹配的数据选择第二文本，其中以上述步骤为例，第一语音数据与语音测试点不匹配的数据为测试点4(“doing”)，即将所有文本中包含“doing”的一条文本选择为第二文本，也即第二文本中包含了第一语音数据与语音测试点所有不匹配的数据。

以第一种方式来讲，当选择第二文本时，如果检测到在包含了所有语音测试点的文本中的文本数量大于1时，根据目标用户的第一文本难易等级的高低，来选择不同难易等级的文本，例如检测到所有文本中包含“jack”、“how”“are”、“you”，“doing”的文本数量为5本，则在这5本文本中进行难易等级排序，当第一文本难易等级越高，选择的第二文本难易等级越高，或是当第一文本难易等级越高，选择的第二文本难易等级越低等。

第二种方式来讲，当选择第二文本时，如果检测到在包含了第一语音数据与语音测试点所有不匹配的数据的文本数量大于1时，根据目标用户的第一语音数据与语音测试点的实际匹配度的高低或者两者设定的预定阈值，来选择不同难易等级的文本。例如检测到所有文本中包含“doing”的文本数量为5本，则在这5本文本中进行难易等级排序，当目标用户的第一语音数据与语音测试点的实际匹配度越高，选择的第二文本难易等级越高，或是第一语音数据与语音测试点的匹配度越高，选择的第二文本难易等级越低等。

在提取第二语音数据之后，继续执行步骤209。

步骤207，在提取目标用户的第二语音数据之后，提取第二文本。

获取第二语音数据，并根据第一文本的语音测试点通过优化算法筛选出第二语音数据中在语音测试点位置的数据，得出第二测评数据，由于此步骤与步骤102相近，在此不再赘述。

步骤208，筛选所述第二语音数据，得到第二测评数据。

步骤209，清除语音数据中除测评数据以外的数据。

当确定第一测评数据后，清除第一语音数据中所有非第一测评数据的数据。

和/或，当确定第二测评数据后，清除第二语音数据中所有非第二测评数据的数据。

步骤210，根据测评数据，生成测评结果。

其中，测评数据可以包括第一测评数据或者包括第一测评数据和第二测评数据。

可选的，使用语音评测算法对第一测评数据进行评估，进而生成测评结果；或者，使用语音评测算法对第一测评数据、第二测评数据进行评估，进而生成测评结果。其中，语音评测算法可以是深度神经网络(deepneuralnerwork)声学模型以及评测模型。

本发明中当出现测评者的第一语音数据中出现个别数据没有录制清楚的情况下，为了不影响测评者的测评成绩，进而根据未录清内容针对性的选取第二文本并让测评者根据第二文本生成第二语音数据，从而可以极大的增加测评成绩的准确性。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图3对本发明示例性实施方式的、用于实现上述方法实施方式中所记载的各步骤的介质进行说明。

图3的介质为光盘500，其上存储有计算机程序(即程序产品)，该程序被处理器执行时，会实现上述方法实施方式中所记载的各步骤，例如，提取目标用户的第一语音数据，所述第一语音数据为所述目标用户按照第一文本朗读的语音数据；筛选所述第一语音数据，得到第一测评数据；根据所述第一测评数据，生成测评结果。各步骤的具体实现方式在此不再重复说明。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图4对本发明示例性实施方式的移动终端实现的基于测评语音的装置进行说明。

参见图4，示意性地示出了根据本发明实施例的移动终端实现的测评语音的装置的结构示意图，该装置通常设置于可以运行应用程序的设备中，例如，本发明实施例中的该装置可以设置于移动终端或者服务器等设备中，当然，该装置也可以设置于手机甚至平板电脑等设备中。

本发明实施方式的装置主要包括：提取模块401，筛选模块402，生成模块403。

提取模块401，用于提取目标用户的第一语音数据，所述第一语音数据为所述目标用户按照第一文本朗读的语音数据。

筛选模块402，用于筛选所述第一语音数据，得到第一测评数据。

生成模块403，用于根据所述第一测评数据，生成测评结果。

本发明实施例提供的一种测评语音的装置，与现有技术中通过人工一对一的与测评者进行主观评测方法，导致语言技能测试的真实结果准确率较低的问题相比，本发明通过针对性的选取第一文本的重点内容以及测评者语音得到测评数据，进而通过该测评数据完成对测评者语音测评的方式从而极大减少了语音测试的复杂性，提高测评结果的准确性。

进一步可选的，本发明实施例可以包括一种测评语音的装置，如图5所示，筛选模块402包括获取单元4021，筛选单元4022，确定单元403，以及，选择模块404，清除模块405。下面对该装置所包括的各个模块及单元分别进行说明。

获取单元4021，用于获取语音测试点，所述语音测试点为通过所述第一文本生成的用于测评的数据点；

其中，获取单元4021获取语音测试点的方法可以为根据语速语调规则，得到语速语调测试点，和/或，根据语法规则，得到语法测试点，和/或，根据时间间隔规则，得到间隔测试点，和/或，根据发音规则，得到发音测试点。

筛选单元4022，用于筛选所述第一语音数据并将筛选后的所述第一语音数据与所述语音测试点进行匹配。

在筛选单元4022筛选所述第一语音数据，由获取单元4021得到第一测评数据中并获取语音测试点，确定单元4023，用于当筛选单元4022筛选的所述第一语音数据与所述语音测试点之间的匹配度高于预定阈值时，确定筛选后的所述第一语音数据为所述第一测评数据。

另外，当筛选单元4022筛选的所述第一语音数据与所述语音测试点之间的匹配度低于预定阈值时，提取模块401，还用于当两者之间的匹配度低于所述预定阈值时，提取所述目标用户的第二语音数据。筛选模块402筛选所述第二语音数据，得到第二测评数据；生成模块403根据所述第二测评数据，生成所述测评结果。

其中，所述第二语音数据为所述目标用户按照第二文本朗读的语音数据。

所述生成模块403还用于，使用语音评测算法对所述第二测评数据进行评测，生成所述测评结果。

进一步可选的，在提取模块401提取目标用户的第一语音数据之后，选择模块404，用于根据所述第一语音数据，选择所述第二文本。

在筛选模块402得到第一测评数据之后，清除模块405，用于清除所述第一语音数据中除所述第一测评数据以外的数据；和/或，

清除所述第二语音数据中除所述第二测评数据以外的数据。

其中，在提取模块401提取目标用户的第一语音数据之后，所述提取模块401还用于，提取所述第一文本，和/或，提取所述第二文本。

各模块所执行的具体操作可以参见上述方法实施方式中的描述，在此不再重复说明。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图6对本发明示例性实施方式的、用于实现上述方法实施方式中所记载的各步骤的计算设备进行说明。图6显示的计算机系统/服务器60仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统/服务器60以通用计算设备的形式表现。计算机系统/服务器60的组件可以包括但不限于：一个或者多个处理器或者处理单元601，系统存储器602，连接不同系统组件(包括系统存储器602和处理单元601)的总线603。

计算机系统/服务器60典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器60访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器602可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)6021和/或高速缓存存储器6022。计算机系统/服务器60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，rom6023可以用于读写不可移动的、非易失性磁介质(图6中未显示，通常称为“硬盘驱动器”)。尽管未在图6中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom，dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线603相连。系统存储器602中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块6024的程序/实用工具6025，可以存储在例如系统存储器602中，且这样的程序模块6024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块6024通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器60也可以与一个或多个外部设备604(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(i/o)接口605进行。并且，计算机系统/服务器60还可以通过网络适配器608与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或者公共网络，例如因特网)通信。如图6所示，网络适配器608通过总线603与计算机系统/服务器60的其它模块(如处理单元601等)通信。应当明白，尽管图6中未示出，可以结合计算机系统/服务器60使用其它硬件和/或软件模块。

处理单元601通过运行存储在系统存储器602中的计算机程序，从而执行各种功能应用以及数据处理，例如，执行用于实现上述方法实施例中的各步骤的指令；具体而言，处理单元601可以执行系统存储器602中存储的计算机程序，且该计算机程序被执行时，下述指令被运行：

提取目标用户的第一语音数据，所述第一语音数据为所述目标用户按照第一文本朗读的语音数据；筛选所述第一语音数据，得到第一测评数据；根据所述第一测评数据，生成测评结果。

所述计算设备还包括：用于获取语音测试点，所述语音测试点为通过所述第一文本生成的用于测评的数据点的指令。以及用于筛选所述第一语音数据并将筛选后的所述第一语音数据与所述语音测试点进行匹配的指令；

其中，当两者之间的匹配度高于预定阈值时，用于确定筛选后的所述第一语音数据为所述第一测评数据的指令。

当两者之间的匹配度低于所述预定阈值时，所述计算设备还包括：用于筛选所述第二语音数据，得到第二测评数据的指令；以及，用于根据所述第二测评数据，生成所述测评结果的指令。

作为示例，当在所述提取所述目标用户的第二语音数据之前，所述计算设备还包括：用于根据所述第一语音数据，选择所述第二文本的指令。

其中，获取语音测试点的方式为根据语速语调规则，得到语速语调测试点，和/或，根据语法规则，得到语法测试点，和/或，根据时间间隔规则，得到间隔测试点，和/或，根据发音规则，得到发音测试点。

所述计算设备还包括：用于使用语音评测算法对所述第一测评数据进行评测，生成所述测评结果。

作为示例，在所述筛选所述第一语音数据，得到第一测评数据之后，所述计算设备还包括：

用于清除所述第一语音数据中除所述第一测评数据以外的数据的指令，和/或，用于清除所述第二语音数据中除所述第二测评数据以外的数据的指令。

作为示例，在所述提取目标用户的第一语音数据之后，所述计算设备还包括：

用于提取所述第一文本的指令，和/或，用于提取所述第二文本的指令。

其中，关于上述指令所包含的执行操作可以参见上述方法侧实施例中的描述，在此不再重复说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算设备上运行时，所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于显示提示信息的方法的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是一一但不限于一一电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。另外，随着技术的发展，可读存储介质也应进行相应解读。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言一诸如java、c++等，还包括常规的过程式程序设计语言一诸如“c”语言或类似的程序设计语言。程序代码可以完全地在服务端计算设备上执行、部分地在服务端计算设备上执行、作为一个独立的软件包执行、部分在目标用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络一一包括局域网(lan)或广域网(wan)—连接到目标用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯璟;李飞腾
技术所有人：上海流利说信息技术有限公司
我是此专利的发明人