一种语音识别结果的筛选方法及装置与流程

文档序号：11834559阅读：303来源：国知局

本申请涉及语音识别技术领域，尤其涉及一种语音识别结果的筛选方法及装置。

背景技术：

语音识别系统通常由声学模型和语言模型两部分组成其中声学模型的建立需要依赖大量的语音数据，以及语音数据对应的正确的文本信息，从而得到语音与文字的统计对应关系，积累语音数据以及语音数据对应的正确的文本信息这个过程也被称作模型的训练，将语音数据对应的正确的文本信息定义为该语音数据对应的标注数据，比如语音数据“bǐ’jì”对应的标注数据为“笔记”和“笔迹”；而“比既”不具备词语的意义，就不是标注数据。标注数据越多(包括同一语音数据对应越多的标注数据，和越多不同语音数据对应的标注数据)，语音识别的准确率就越高，全面性就越广。例如对不同技术领域的专业术语的识别、对地方方言描述相同事物所用不同词语的识别、对不同年龄段人群语言习惯的识别等问题，都依赖于声学模型；可以说，声学模型的优劣直接影响了语音识别系统的性能。

现有技术中积累标注数据的方法，是使用人工听写的方式将语音数据先转录为文本信息；再通过人工判断，结合语意语境等因素，挑选出正确的文本信息并确定为标注数据。但一般人脑可以利用生活经验直接将语音数据转录为标注数据，比如，有一段音频格式的标准普通话语音“míng’tiān’tiān’qì’zěn’me’yàng(明天天气什么样)”，工作人员利用生活经验可以直接将此段语音转录，得到标注数据“明天天气什么样”。语音数据“míng’tiān’tiān’qì’zěn’me’yàng”可以包含三个语音单元：“míng’tiān’tiān”、“tiān’qì”、“z ěn’me’yàng”，所以就对应了三个标注数据“明天”、“天气”、“怎么样”；也可以将整句话划分为一个语音单元“míng’tiān’tiān’qì’zěn’me’yàng”，所以就对应了一个标注数据，积累标注数据可以是积累一个语音数据的标注数据，也可以是积累语音单元的标注数据。由于该例很简单，所以很容易得到标注数据，但如果语意很复杂，人脑也会反应出很多词语，比如，听到“bǐ’jì”，就会反应出“笔记”和“笔迹”，如果“bǐ’jì”只作为语音数据中的一个语音单元，那么就需要再根据语音数据的语境语意等因素，确定出该语音数据的标注数据。但目前这种将语音数据进行识别，并挑选出标注数据的过程是一种依赖于人力劳动的活动，效率很低。

技术实现要素：

本申请实施例提供一种语音识别结果的筛选方法，用于提高筛选语音识别结果的效率。

本申请实施例提供一种语音识别结果的筛选装置，用于提高筛选语音识别结果的效率。

本申请实施例采用下述技术方案：

一种语音识别结果的筛选方法，包括：利用语音识别系统对语音数据进行识别，得到语音数据对应的文本信息；确定文本信息包含的信息单元的置信度；根据置信度，选取满足置信条件的信息单元。

一种语音识别结果的筛选装置，包括：识别单元，用于利用语音识别系统对语音数据进行识别，得到语音数据对应的文本信息；计算单元，用于确定文本信息包含的信息单元的置信度；选取单元，用于根据置信度，选取满足置信条件的信息单元。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

由于可以利用语音识别系统来对语音数据进行识别，再对识别结果进行筛选，所以可以代替人工对语音数据进行转录并挑选的工作，解决了目前依赖于人力劳动导致的效率低的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例1提供的一种语音识别结果的筛选方法的具体实现流程示意图；

图2为本申请实施例2提供的一种语音识别结果的筛选装置的具体结构示意图；

图3为本申请实施例3提供的一种补充本地声学模型标注数据的方法的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

实施例1

实施例1提供了一种语音识别结果的筛选方法，用于提高筛选语音识别结果的效率。该方法的具体流程示意图如图1所示，包括下述步骤：

步骤11，利用语音识别系统对语音数据进行识别，得到语音数据对应的文本信息；

其中，在语音数据的识别过程中，可以根据不同需求和目的，采用单个或多个不同领域的非本地识别系统，来得到识别结果，即语音数据对应的文本信息。比如，需要对本地声学模型中药物专业的标注数据库进行扩充，就需要先得到包含药物名称的语音数据，再利用单个或多个具备医学专业术语识别能力的语音识别系统对语音数据进行识别，得到对应的药物名称文本信息。类似的，对于地名、品牌、商品、生活、服务等领域的词汇和语句，需要具备相应的专业术语识别能力的语音识别系统。

具体而言，在一种实施方式中，利用语音识别系统对语音数据进行识别，得到语音数据对应的文本信息，可以包括：利用一个语音识别系统，对语音数据进行识别，得到语音数据对应的文本信息。

比如，利用一个具备医学专业术语识别能力的语音识别系统，对一些包含药物名称的语音数据进行识别，得到语音数据对应的文本信息，文本信息中包含若干药物名称。

在一种实施方式中，利用语音识别系统对语音数据进行识别，得到语音数据对应的文本信息，可以包括：利用至少两个语音识别系统，分别对语音数据进行识别，得到语音数据对应的文本信息。

比如，利用至少两个具备医学专业术语识别能力的语音识别系统，对一些包含药物名称的语音数据进行识别，得到语音数据对应的文本信息，文本信息中包含若干药物名称。

需要说明的是，一个语音数据中包含至少一个语音单元，如，语音数据“ā’sī’pǐ’lín’de’gōng’xiào(阿司匹林的功效)”。可以包括“ā’sī’pǐ’lín’de’gōng’xiào”这一个语音单元；也可以包括“ā’sī’pǐ’lín”“de”“gōng’xiào”这三个语音单元。具体语音单元的划分，可以由语音识别系统随机划分，也可以通过人工设定，在随机划分时，不同的语音识别系统可能也会出现划分出不同语音单元的情况。可以依据对语音数据的不同利用效果，进行设定。比如，随机划分时，两个语音识别系统把“ā’sī’pǐ’lín’de’gōng’xiào”分别划分为三个语音单元(“ā’sī’pǐ’lín”“de”“gōng’xiào”)和两个语音单元(“ā’sī’pǐ’lín”和“de’gōng’xiào”)，目的在于得到药物名称的标注数据；也可以人工设定为一个语音数据即为一个语音单元，目的在于得到对于一个业务请求的标注数据。

步骤12，确定文本信息包含的信息单元的置信度；

置信度表征了利用语音识别系统(后文简称识别系统)对语音单元进行识别，得到的信息单元的可信程度。每个识别系统都有输出置信度的能力，当识别系统中有包含越多的标注数据时，识别出的结果就越可信。置信度通常以数值的形式表达，在特定值域内，根据值域的两端代表的意义，可以将最大值(或最小值)设定为理想值，输出的置信度越接近理想值，表明识别结果越准确。识别系统对于置信度的计算是一种现有技术，可以近似认为计算结果能够准确的表征识别结果，具体算法不在本专利申请中描述。比如，某一识别系统具备丰富的识别地名的能力，即其声学模型中包含大量对于地名的标注数据，当该识别系统接收到语音数据“cháng’ān’jiē”时，可以识别出“长安街”这个文本信息，计算出的置信度为0.1，由于其置信度值域为[0,1]，且识别系统对于小于0.15置信度的识别结果有95％的把握是正确的，那么0.1的表示识别结果是可用的。

针对步骤12而言，可以利用语音识别系统，也可以利用特定的系统计算出文本信息包含的信息单元的置信度，。比如，利用语音识别系统A(后文简称A)和语音识别系统B(后文简称B)分别对语音数据进行识别，分别得到语音数据对应的文本信息后，可以再分别计算文本信息中包含的信息单元对于语音数据中包含的语音单元的置信度。再如，利用A和B分别对语音数据进行识别，分别得到语音数据对应的文本信息后，可以再由其它特定系统，分别计算文本信息中包含的信息单元对于语音数据中包含的语音单元的置信度。

步骤13，根据置信度，选取满足置信条件的信息单元。

在一种实施方式中，当利用一个语音识别系统，对语音数据进行识别，得到语音数据对应的文本信息时，且当信息单元的可信程度与置信度正相关时，根据置信度，选取满足置信条件的信息单元，可以包括：根据置信度，选取置信度大于预设的置信度第一阈值的信息单元。比如，一个语音识别系统计算出的置信度的值域为[0,1]，设定置信度第一阈值为0.85，选取置信度大于0.85的信息单元。

在一种实施方式中，当信息单元的可信程度与置信度负相关时，根据置信度，选取满足置信条件的信息单元，可以包括：根据置信度，选取置信度小于预设的置信度第二阈值的信息单元。比如，一个语音识别系统计算出的置信度的值域为[0,1]，设定置信度第二阈值为0.25，选取置信度小于0.25的信息单元。

当利用一个语音识别系统对语音数据进行识别，并且利用该语音识别系统计算信息单元的置信度时，计算出的置信度表征的准确性可以利用同一置信度阈值进行筛选。但当利用至少两个语音识别系统对语音数据进行识别，并且利用该至少两个语音识别系统分别计算信息单元的置信度时，会出现标准不一致的情况，对筛选造成不便，比如，A计算出的置信度值域为[0,1]，越接近0准确性越高，B计算出的置信度值域为[0,10]，越接近10准确性越高，由于标准不一致的情况，就会对筛选造成不便。

所以，在一种实施方式中，为了达到置信度标准化的效果，当利用至少两个语音识别系统，分别对语音数据进行识别，得到语音数据对应的文本信息时，且当信息单元的可信程度与归一化置信度正相关时，根据置信度，选取满足置信条件的信息单元，可以包括：将文本信息包含的信息单元的置信度做归一化处理，得到信息单元的归一化置信度；根据归一化置信度，选取满足归一化置信条件的信息单元。比如，把A和B的值域归一化到[0,100]的区间内，越接近100准确性越高；或把A和B的值域归一化到[0,5]的区间内，越接近0准确性越高，所以，可以根据归一化置信度，选取满足归一化置信条件的信息单元。

具体地，根据归一化置信度，选取大于预设的归一化置信度第一阈值的信息单元。比如，将A和B两个语音识别系统计算出的置信度值域归一化到[0,100]的区间内，选取大于归一化置信度第一阈值95的信息单元。

当信息单元的可信程度与归一化置信度负相关时，根据归一化置信度，选取小于预设的归一化置信度第二阈值的信息单元。比如，将A和B两个语音识别系统计算出的置信度值域归一化到[0,10]的区间内，选取小于归一化置信度第二阈值2的信息单元。

在实际应用中，当利用至少两个语音识别系统，分别对语音数据进行识别，分别得到语音数据对应的文本信息时，可能会出现文本信息包含信息单元有相同的情况。比如，A和B，对语音数据“ā’sī’pǐ’lín’de’gōng’xiào”中对语音单元“ā’sī’pǐ’lín”的识别结果分别都是“阿司匹林”这样的信息单元，且在[0,10]的区间内，归一化后置信度分别是1.1和1.3，设定归一化置信度第二阈值为2，则可以认为A和B分别识别得到的信息单元“阿司匹林”都是准确的。

所以，在一种实施方式中，根据归一化置信度，选取满足归一化置信条件的信息单元，可以包括：从满足归一化置信条件的信息单元中，选取信息单元；其中，选取的信息单元满足：由除该选取的信息单元外的其他满足归一化置信条件的信息单元构成的集合中，存在与该选取的信息单元的内容相同的至少一个信息单元，且所述至少一个信息单元与该选取的信息单元均对应语音数据中包含的同一语音单元。比如，依然以上文为例，两个信息单元“阿司匹林”构成了满足归一化置信条件的信息单元集合，该集合中，存在两个内容相同的信息单元，且均对应语音数据中包含的同一语音单元“ā’sī’pǐ’lín”。所以，从两个信息单元“阿司匹林”中选取其中一个信息单元即可。

在实际应用中，为了在各个领域都能提供高质量的服务，可以利用其它的识别系统来扩充本地识别系统的声学模型，所以，在一种实施方式中，为了完善本地识别系统的声学模型，方法还包括：将选取的信息单元确定为语音数据包含的语音单元对应的标注数据。比如，想要完善本地的识别系统对于医药名称的识别能力，可以先利用具备医学专业术语识别能力的语音识别系统，得到选取的信息单元，再把选取的信息单元，确定为语音数据包含的语音单元对应的标注数据，将语音单元和对应的标注数据补充到本地声学模型中，以便提升本地识别系统对于医药专业术语的识别能力，从而在该领域提供更好的服务。

采用实施例1提供的该方法，由于可以利用语音识别系统来对语音数据进行识别，再对识别结果进行筛选，所以可以代替人工对语音数据进行转录并挑选的工作，解决了目前依赖于人力劳动导致的效率低的问题。

需要说明的是，实施例1所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法的各步骤也可以由不同设备作为执行主体。比如，步骤11和步骤12的执行主体可以为设备1，步骤13的执行主体可以为设备2；又比如，步骤11的执行主体可以为设备1，步骤12和步骤13的执行主体可以为设备2；等等。

实施例2

基于相同的发明构思，实施例2提供了一种语音识别结果的筛选装置，用于提高筛选语音识别结果的效率。如图2所示，该语音识别结果的筛选装置包括：

识别单元21，可以用于利用语音识别系统对语音数据进行识别，得到语音数据对应的文本信息；

计算单元22，可以用于确定文本信息包含的信息单元的置信度；

选取单元23，可以用于根据置信度，选取满足置信条件的信息单元。

在一种实施方式中，该装置还包括：

确定单元24，可以用于将选取的信息单元确定为语音数据包含的语音单元对应的标注数据。

在一种实施方式中，识别装置21，可以用于：

利用一个语音识别系统，对语音数据进行识别，得到语音数据对应的文本信息。

在一种实施方式中，选取装置23，可以用于：

当信息单元的可信程度与置信度正相关时，根据置信度，选取置信度大于预设的置信度第一阈值的信息单元。

在一种实施方式中，选取装置23，可以用于：

当信息单元的可信程度与置信度负相关时，根据置信度，选取置信度小于预设的置信度第二阈值的信息单元。

在一种实施方式中，识别装置21，可以用于：

利用至少两个语音识别系统，分别对语音数据进行识别，得到语音数据对应的文本信息。

在一种实施方式中，选取装置23，可以用于：

将文本信息包含的信息单元的置信度做归一化处理，得到信息单元的归一化置信度；

根据归一化置信度，选取满足归一化置信条件的信息单元。

在一种实施方式中，选取装置23，可以用于：

当信息单元的可信程度与归一化置信度正相关时，根据归一化置信度，选取归一化置信度大于预设的归一化置信度第一阈值的信息单元。

在一种实施方式中，选取装置23，可以用于：

当信息单元的可信程度与归一化置信度负相关时，根据归一化置信度，选取归一化置信度小于预设的归一化置信度第二阈值的信息单元。

在一种实施方式中，选取装置23，可以用于：

从满足归一化置信条件的信息单元中，选取信息单元；其中，选取的信息单元满足：由除该选取的信息单元外的其他满足归一化置信条件的信息单元构成的集合中，存在与该选取的信息单元的内容相同的至少一个信息单元，且所述至少一个信息单元与该选取的信息单元均对应语音数据中包含的同一语音单元。

采用实施例2提供的该装置，由于可以利用语音识别系统来对语音数据进行识别，再对识别结果进行筛选，所以可以代替人工对语音数据进行转录并挑选的工作，解决了目前依赖于人力劳动导致的效率低的问题。

实施例3

基于相同的发明构思，实施例3提供了一种补充本地声学模型标注数据的方法，用于补充北京地区的住宅小区的标注数据，为导航软件提供更好的识别用户目的地的服务。该方法的示意图如图3所示，包括下述步骤：

步骤31，获取导航软件客户端的语音数据。

例如，“yīng’tè’gōng’yù”、“dōng’fēng’jiā’yuán”。

步骤32，利用具备识别地名地物类别能力的语音识别系统，对获取到的语音数据分别进行识别、得到文本信息。

例如，得到文本信息：“英特公寓”、“东风家园”。

步骤33，利用该语音识别系统，计算出文本信息的置信度，该语音识别系统对于置信度的说明为：文本信息的可信程度与置信度正相关时，值域为[0,1]，置信度阈值为0.9，大于0.9为准确范围。

例如，“英特公寓”的置信度为0.91、“东风家园”的置信度为0.96。

步骤34，选取“英特公寓”、“东风家园”这两个信息单元，并将这两个信息单元确定为“yīng’tè’gōng’yù”、“dōng’fēng’jiā’yuán”的标注数据。

步骤35，将语音数据“yīng’tè’gōng’yù”、“dōng’fēng’jiā’yuán”和语音数据对应的标注数据“英特公寓”、“东风家园”补充到本地的声学模型中。

采用实施例3提供的补充本地声学模型标注数据的方法，可以将获取到的语音数据，利用具备特定专业领域识别能力的语音识别系统，补充本地的语音识别系统的声学模型，提升特定专业领域的服务品质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈昊;李宏言;钱霄;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人