语音输入法的识别准确率测试方法、装置和电子设备与流程

文档序号：12749346阅读：586来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及测试技术领域，尤其涉及用于语音输入法的识别准确率测试方法、装置和电子设备。

背景技术：

现有一般的计算语音识别准确率的方式为：识别准确率＝语音识别没有错误的字数/阅读的总字数。

现有技术存在以下缺点：由于字数较多，分母很大，现有计算方法并不能清晰的反映出准确率的不同。反而可能由于基数太大，导致结果非常趋近，难以区分。

技术实现要素：

本申请的目的在于克服现有技术的缺陷，提出一种能够解决语音输入法识别准确率计算难以区分的问题的技术方案。

本申请实施例第一方面提供了一种语音输入法的识别准确率测试方法，该方法包括：

获取测试样本集合的测试数据，所述测试数据包括语音数据和对应的正确文本；

通过语音输入法将所述语音数据识别为文本数据，将识别出的文本数据与所述语音数据对应的正确文本进行比对，确定识别失败的语句总数量；

根据所述正确文本的语句总数量与所述识别失败的语句总数量确定所述语音输入法的识别准确率。

优选地，所述测试样本集合包括一个或多个由至少一种口音阅读的至少一种语言风格的测试样本，所述测试样本包括一个或多个语句，所述语句包括短语、短句或长句。

优选地，所述语言风格包括书面语风格和日常用语风格；所述正确文本的语句总数量的获取方法包括根据所述正确文本的标点符号确定正确文本的语句总数量。

优选地，所述根据所述正确文本的标点符号确定正确文本的语句总数量包括：

获取正确文本中的逗号、句号、分号、问号以及感叹号出现的次数；

根据正确文本中的逗号、句号、分号、问号以及感叹号出现的次数确定正确文本的语句总数量。

优选地，所述确定识别失败的语句总数量包括：

针对获取的所述语音数据中的任一语音数据，获取对应的正确文本；

获取所述语音输入法识别所述任一语音数据后得到的待核定文本；

将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量；

根据识别所述任一语音数据中语句失败的数量确定识别所述测试样本集合的语音数据失败的语句总数量。

优选地，所述将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量包括：

若比对出待核定文本的任一语句与所述正确文本的对应语句之间非一致的比对单元的数量不低于第一阈值，则确定所述任一语句识别失败。

优选地，所述将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量包括：

确定所述待核定文本中任一语句对应的所述正确文本中对应语句的字数；

根据预设的字数与第二阈值的对应关系，确定与所述任一语句的字数对应的第二阈值；

若比对出所述待核定文本的任一语句与所述正确文本中对应语句之间非一致的比对单元的数量不低于所述对应的第二阈值，则确定所述任一语句识别失败。

优选地，根据所述正确文本的语句总数量与所述识别失败的语句总数量确定所述语音输入法的识别准确率包括：

按照如下公式计算所述语音输入法的识别准确率；

识别准确率＝(正确文本的语句总数量-识别失败的语句总数量)/正确文本的语句总数量。

本申请实施例第二方面提供了一种语音输入法的识别准确率测试装置，所述装置包括：

语音输入设备，用于输入测试样本集合的语音数据；

处理设备，用于获取测试样本集合的测试数据，所述测试数据包括语音数据和对应的正确文本，在语音输入法将语音数据识别为文本数据后，将识别出的文本数据与所述语音数据对应的正确文本进行比对，确定识别失败的语句总数量；根据所述正确文本的语句总数量与所述识别失败的语句总数量确定所述语音输入法的识别准确率。

优选地，所述语言风格包括书面语风格和日常用语风格；所述处理设备用于根据所述正确文本的标点符号确定正确文本的语句总数量。

优选地，所述处理设备用于根据所述正确文本的标点符号确定正确文本的语句总数量，包括：

获取正确文本中的逗号、句号、分号、问号以及感叹号出现的次数；

根据正确文本中的逗号、句号、分号、问号以及感叹号出现的次数确定正确文本的语句总数量。

优选地，所述处理设备用于确定识别失败的语句总数量，包括：

针对获取的所述语音数据中的任一语音数据，获取对应的正确文本；

获取所述语音输入法识别所述任一语音数据后得到的待核定文本；

将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量；

根据识别所述任一语音数据中语句失败的数量确定识别所述测试样本集合的语音数据失败的语句总数量。

优选地，所述处理设备用于将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量，包括：

若比对出待核定文本的任一语句与所述正确文本的对应语句之间非一致的比对单元的数量不低于第一阈值，则确定所述任一语句识别失败。

所述比对单元包括对语句进行成分划分或者通过分词的方式得到的最小单元。当然，也可以通过现有技术中的其它划分方式。但原则是至少以一个词为单位，词不能拆成一个一个的字进行比对，从而减少比对次数。

确定正确文本的所述任一语句的字数；

根据预设的字数与第二阈值的对应关系，确定与所述任一语句的字数对应的第二阈值；

当比对出的所述正确文本的任一语句与待核定文本的对应语句之间非一致的比对单元的数量不低于所述对应的第二阈值时，确定所述任一语句识别失败。

根据语句本身的长短等属性，设置识别时一句达到或超过设定错误数判断为失败的方法，更贴近用户的实际体验。

本申请实施例第三方面提供了一种电子设备，包括：语音输入设备、处理器、存储器、通信接口和总线；

所述语音输入设备、所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；

所述存储器存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如前面所述的方法。

本申请的有益效果如下：本提案中以语句为单位进行准确率的计算，能够更准确评价不同语音输入法的优劣。与现有按字进行准确率判断的方法相比，不仅大大减少了计算基数，而且可尽量保证能够真实地反映不同语音输入法的识别率高低。

附图说明

下面将参照附图描述本申请的具体实施例，其中：

图1示出了本申请实施例一中提供的语音输入法的识别准确率测试方法流程示意图；

图2示出了本申请实施例一中提供的步骤100的流程示意图；

图3示出了本申请实施例一中提供的步骤200的流程示意图；

图4示出了本申请实施例二中提供的一种语音输入法的识别准确率测试装置的结构示意图；

图5示出了本申请实施例三中提供的一种电子设备结构示意图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明中的实施例及实施例中的特征可以互相结合。

发明人在发明过程中注意到：现有技术中对语音输入的识别准确率的计算基本都是按字进行计算，识别准确率＝语音识别没有错误的字数/阅读的总字数。由于计算基数大(即分母大)，即便识别出来分子有差异，计算出来的结果都很接近，难以体现各语音输入法的识别准确率优劣。

另外，在实现本申请的过程中，发明人还发现现有的对语音输入的识别准确率测试后的结果显示一般是一个测试样本中有多少个字错误，对于比较长的段落用户没法快速判断究竟是哪一句错误，有几处错误，与用户的实际感官和体验存在差异。

针对上述问题，本申请中提供了一种语音输入法的识别准确率测试方法、装置和电子设备。该方案中以测试样本集合中的语句为单位，根据得到的测试样本集合中语句的总数量与语音输入法识别该测试样本集合中语句失败的总数量计算该语音输入法的识别准确率，使得能够更好、更直观地判断和比对不同输入法的识别准确率高低。并且在判断一个语句是否识别失败时，根据语句本身的属性，设置了阈值，从而能更直观地反映用户的直观体验。

本申请实施例的方案可以用于智能终端例如智能手机、IPAD或车载智能终端等的语音输入法测试，也可用于对笔记本或台式电脑上安装的语音输入法的测试，等等。

实施例一

图1为本申请实施例的语音输入法的识别准确率测试方法流程示意图。如图1所示，该语音输入法的识别准确率测试方法可以包括以下步骤：

步骤100：获取测试样本集合的测试数据，所述测试数据包括语音数据和对应的正确文本；

步骤200：通过语音输入法将所述语音数据识别为文本数据，将识别出的文本数据与所述语音数据对应的正确文本进行比对，确定识别失败的语句总数量；

步骤300：根据所述正确文本的语句总数量与所述识别失败的语句总数量确定所述语音输入法的识别准确率。

具体实施中，所述测试样本集合包括一个或多个由至少一种口音阅读的、至少一种语言风格的测试样本。换一句说，优选所述测试样本集合中包括多种口音、多种语音风格的语音数据。所述测试样本包括一个或多个语句，所述语句为短语、短句或长句。例如测试样本“基于三维引擎开发的手机桌面系统，酷炫的三维动效体验重新定义了安卓桌面。感受前所未有的独特交互和视觉体验，挑战速度极限，让你的手机从此与众不同。”中，包括逗号或者句号隔开的均认为是一个语句，该测试样本中总共包括有5个语句。阅读测试样本的人员则在出现逗号、句号时停顿，从而使得识别时语句与语句之间存在标点符号。优选地，一个测试样本中包括多种口音阅读的、多种风格的语音样本。多种口音阅读是指选取的阅读测试样本的人员中不是单一的标准普通话，而是包括有带四川口音普通话的阅读测试样本的人员，即测试样本中可能有川普、带广东口音的普通话，等等。对于带地方口音的普通话样本的识别能更真实地反映不同口音人员使用该测试的输入法时的识别准确率。

此外，测试样本中包括的语句可以是短语、短句或长句，例如“挑战速度极限”就是一个短句。短语例如“蒸蒸日上”，长句主要是指超过一个语句中字数超过某个设定值，例如一个超过25个字的语句认为是长句。

具体实施中，所述语言风格主要包括书面语风格和日常用语风格。例如，包括书面语风格：基于三维引擎开发的手机桌面系统，酷炫的三维动效体验重新定义了安卓桌面。日常用语风格：十点之前到。

具体实施中，先选取非公开出版物的阅读文字内容，此处选取非公开出版物作为阅读内容也主要是为了防止某些输入法记忆功能对语音识别准确率的影响。选取至少10人(有男有女)进行语音样本输入录制获取测试样本，所述测试样本中包括带地方口音的普通话样本。对带地方口音的普通话样本的识别与现有单一标准普通话的识别相比，更能反映不同区域不同地方用户的体验。选取的人员在进行阅读时，根据逗号、句号、分号等形成的语句进行停顿。在识别时，一般可根据停顿次数来判断语句数量。具体实施中，所述正确文本的语句总数量的获取方法包括根据所述正确文本的标点符号确定正确文本的语句总数量。此外，优选通过语音录制的方式获得测试样本，有助于避免对不同输入法进行测试时因语音测试样本差异带来的影响。

如图2所示，获取正确文本的语句总数量的流程示意图，具体包括：

步骤101：获取正确文本中的逗号、句号、分号、问号以及感叹号出现的次数；

步骤102：根据正确文本中的逗号、句号、分号、问号以及感叹号出现的次数确定正确文本的语句总数量。

具体实施中，对于一个测试样本集合一般只提供一个完整的正确文本，并按照正确文本的顺序对相应的语音数据进行顺序编号，识别时按照顺序标号将对应的语音数据识别为文本数据。可以理解的是，这种设置顺序标号进行语音识别的方式相比对较简单，而且属于现有技术，此处不再展开阐述。

例如选取10人进行录制的测试样本集合中，包括十个测试样本。每个测试一样中包括一个或多个语句。将十个测试样本的正确文本放到一个文件，而且按照正确文本的顺序对录制的十个语音数据进行顺序标号。识别时按照顺序标号进行识别，并与对应的正确文本进行比对。可以理解的是，为了比对时语句一一对应的需要，录制测试样本时每个语句的停顿都比较标准，而且不会出现漏掉一个语句或者多出来一个语句的情况。当然，即便是将十个测试样本的准确文件分开放置，先获取每一个测试样本对应的正确文本的语句数量，然后通过加和的方式得到正确文本的语句总数量也属于本申请保护的内容。

如图3所示，确定识别失败的语句总数量的流程示意图，具体包括：

步骤201：针对获取的所述语音数据中的任一语音数据，获取对应的正确文本；

步骤202：获取所述语音输入法识别所述任一语音数据后得到的待核定文本；

步骤203：将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量；

步骤204：根据识别所述任一语音数据中语句失败的数量确定识别所述测试样本集合的语音数据失败的语句总数量。通过将语音数据中语句失败的数量进行加和得到测试样本集合的语音数据失败的语句总数量。

实施中，所述将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量包括主要包括下面的两种方式，每次测试可选用其中一种。

一种方式是：若比对出待核定文本的任一语句与所述正确文本的对应语句之间非一致的比对单元的数量不低于第一阈值，则确定所述任一语句识别失败。

例如，预设第一阈值为1，若一个语句中识别不一致的数量不低于1处，则确定该语句识别失败。此方式中第一阈值是固定的，通常设定为1，也可设定为其他自然数。

另一种方式包括：

确定所述待核定文本中任一语句对应的所述正确文本中对应语句的字数；

根据预设的字数与第二阈值的对应关系，确定与所述任一语句的字数对应的第二阈值；

例如，可设定超过N个字的语句为长句，长句对应设定的第二阈值为2处。若识别出的一个长句中有3处不一致，则该语句确定为识别失败，相应的设定不超过N个字的语句为短句，短句对应设定的第二阈值为1，若一个短句中识别不一致的数量不低于1处，则确定该语句识别失败，例如其中N取25。另外，可以理解的是，第二种判定语句识别失败的方式(以下简称为第二种方式)与第一种判定语句识别失败的方式(以下简称为第一种方式)存在的主要差异在于，第二种方式按照语句字数多少可以对应的设置不同的第二阈值，而第一种方式则是采用的统一的阈值设定，因此第二种方式对不同字数的语句灵活对应设置不同的第二阈值，并根据语句对应的第二阈值来判断语句识别是否失败，即可以通过修改语句对应的第二阈值来调整识别准确的容错程度，从而适应不同使用环境或场景。

此外，以上两种判定语句识别失败方式中的比对单元是指，根据对语句进行成分划分或者通过分词的方式得到的最小单元。例如按照分词的方式，“我们”属于一个词，语句“我们今天没上课”被识别为“也门今天没上课”，虽然错误的是两个字，但是一个词错误，识别为一处错误。说明的是，对语句进行划分或者分词的方法属于现有技术，此处只是直接将该现有技术拿过来应用，因而不再展开阐述。

具体实施中，所述根据得到的测试样本集合中语句的数量与识别所述测试样本集合中语句失败的数量计算所述语音输入法的识别准确率包括：

按照如下公式计算所述语音输入法的识别准确率；

识别准确率＝(正确文本的语句总数量-识别失败的语句总数量)/正确文本的语句总数量。

实施例二

基于同一申请构思，本申请实施例中还提供了一种语音输入法的识别准确率测试装置，由于该装置解决问题的原理与实施例一中的数据处理的方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

图4示出了本申请实施例中的语音输入法的识别准确率测试装置结构示意图。如图4所示，该语音输入法的识别准确率测试装置主要包括：

语音输入设备401，用于输入测试样本集合的语音数据；

处理设备402，用于获取测试样本集合的测试数据，所述测试数据包括语音数据和对应的正确文本，在语音输入法将语音数据识别为文本数据后，将识别出的文本数据与所述语音数据对应的正确文本进行比对，确定识别失败的语句总数量；根据所述正确文本的语句总数量与所述识别失败的语句总数量确定所述语音输入法的识别准确率。

具体实施中，所述测试样本集合包括一个或多个由至少一种口音阅读的至少一种语言风格的测试样本，所述测试样本包括一个或多个语句，所述语句包括短语、短句或长句。

具体实施中，所述语言风格包括书面语风格和日常用语风格；所述处理设备402用于根据所述正确文本的标点符号确定正确文本的语句总数量。

具体实施中，所述处理设备402用于根据所述正确文本的标点符号确定正确文本的语句总数量，包括：

获取正确文本中的逗号、句号、分号、问号以及感叹号出现的次数；

根据正确文本中的逗号、句号、分号、问号以及感叹号出现的次数确定正确文本的语句总数量。

具体实施中，所述处理设备402用于确定识别失败的语句总数量，包括：

针对获取的所述语音数据中的任一语音数据，获取对应的正确文本；

获取所述语音输入法识别所述任一语音数据后得到的待核定文本；

将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量；

根据识别所述任一语音数据中语句失败的数量确定识别所述测试样本集合的语音数据失败的语句总数量。

在一个实施中，所述处理设备402用于将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量，包括：

若比对出待核定文本的任一语句与所述正确文本的对应语句之间非一致的比对单元的数量不低于第一阈值，则确定所述任一语句识别失败。

在另一个实施中，所述处理设备402用于将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量，包括：

确定正确文本的所述任一语句的字数；

根据预设的字数与第二阈值的对应关系，确定与所述任一语句的字数对应的第二阈值；

实施例三

本申请实施例还提供了一种电子设备，如图5所示，该电子设备500主要包括：语音输入设备505、处理器501、存储器502、通信接口503和总线504；

所述语音输入设备505、所述处理器501、所述存储器502和所述通信接口503通过所述总线504连接并完成相互间的通信；

所述存储器502存储可执行程序代码；

所述处理器501通过读取所述存储器502中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行一种语音输入法的识别准确率测试方法；其中，所述语音输入法的识别准确率测试方法主要包括：

获取测试样本集合的测试数据，所述测试数据包括语音数据和对应的正确文本；

通过语音输入法将所述语音数据识别为文本数据，将识别出的文本数据与所述语音数据对应的正确文本进行比对，确定识别失败的语句总数量；

根据所述正确文本的语句总数量与所述识别失败的语句总数量确定所述语音输入法的识别准确率。

优选地，所述根据所述正确文本的标点符号确定正确文本的语句总数量包括：

获取正确文本中的逗号、句号、分号、问号以及感叹号出现的次数；

根据正确文本中的逗号、句号、分号、问号以及感叹号出现的次数确定正确文本的语句总数量。

优选地，所述确定识别失败的语句总数量包括：

针对获取的所述语音数据中的任一语音数据，获取对应的正确文本；

获取所述语音输入法识别所述任一语音数据后得到的待核定文本；

将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量；

根据识别所述任一语音数据中语句失败的数量确定识别所述测试样本集合的语音数据失败的语句总数量。

优选地，所述将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量包括：

若比对出待核定文本的任一语句与所述正确文本的对应语句之间非一致的比对单元的数量不低于第一阈值，则确定所述任一语句识别失败。

优选地，所述将识别所述任一语音数据后得到的待核定文本与所述对应的正确文本进行逐语句比对确定识别所述任一语音数据中语句失败的数量包括：

确定所述待核定文本中任一语句对应的所述正确文本中对应语句的字数；

根据预设的字数与第二阈值的对应关系，确定与所述任一语句的字数对应的第二阈值；

优选地，根据所述正确文本的语句总数量与所述识别失败的语句总数量确定所述语音输入法的识别准确率包括：

按照如下公式计算所述语音输入法的识别准确率；

识别准确率＝(正确文本的语句总数量-识别失败的语句总数量)/正确文本的语句总数量。

本申请实施例还提供了一种应用程序，其中，该应用程序用于在运行时执行本申请实施例所述的一种语音输入法的识别准确率测试方法。

该应用程序可以运行于本申请实施例提供的电子设备中。

本申请实施例还提供了一种存储介质，其中，该存储介质用于存储应用程序，所述应用程序用于在运行时执行本申请实施例所述的语音输入法的识别准确率测试方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：戴龙飞;
技术所有人：北京金山安全软件有限公司;
我是此专利的发明人

上一篇：一种基于语音识别的农产品信息采集方法和系统与流程
上一篇：语音合成方法及装置与流程