一种领域词的语音识别增强方法和装置与流程

文档序号：16929185发布日期：2019-02-22 20:07阅读：336来源：国知局

本发明涉及语音识别技术领域，具体涉及一种领域词的语音识别增强方法和装置。

背景技术：

近年来，随着大规模连续语音识别技术的发展，语音识别技术被运用在越来越多的应用场景上。随着应用场景的增多，用户对语音识别系统在不同领域上的领域词识别准确率要求越来越高。

现有技术中存在对领域词识别增强的方法，现有增强方法主要是采用基于类别的语言模型来解决领域词识别的问题，即将领域词预先划入不同的类别，比如可以将领域词划为歌名类、电器类、食品类等等，通过类别替换获取该类别内的领域语料，并训练得到类别语言模型，从而实现对领域词的识别。然而这种方法需要提前确定领域词的类别，处理过程较复杂，且对于那些不属于任一类别的领域词无法建模，无法进行识别，大大影响了用户体验。

技术实现要素：

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种领域词的语音识别增强方法和装置。

为实现以上目的，本发明采用如下技术方案：一种领域词的语音识别增强方法，包括：

通过收集的文本语料数据，训练生成第一语言模型；

将所述第一语言模型转换为第一解码图；

获取所述领域词与所述文本语料数据的相似度；

通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型；

根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图；

利用所述第二解码图对用户输入的语音进行语音识别处理。

可选的，所述通过收集的文本语料数据，训练生成第一语言模型，包括：

对所述文本语料数据进行清洗，过滤掉特殊字符；

将清洗后得到的数据进行分词处理；

对分词处理后的数据进行n元词频统计；

根据n元词频统计的结果生成第一语言模型。

可选的，所述第一解码图为fst图模型；

所述将所述第一语言模型转换为第一解码图是通过openfst转换工具实现的。

可选的，所述获取所述领域词与所述文本语料数据的相似度，包括：

对所述文本语料数据进行预处理，以去除掉特殊字符；

对所述文本语料数据进行分词处理；

分别获取所述领域词和分词处理后的词语的词向量；

计算所述领域词的词向量与所述文本语料分词处理后的词向量的相似距离。

可选的，所述通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型，包括：

获取所述第一解码图中，现有领域词w2的概率信息；

通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息，具体处理过程包括：

遍历领域词w2在第一解码图中的概率信息，p(w2|c1),p(w2|c2)…p(w2|cn)；

根据领域词w2的概率信息，计算领域词w1在上下文cn上的概率信息，具体计算公式为：

p(w1|cn)＝sim(w1,w2)*p(w2|cn)*alpha

其中，alpha为可调节权重，p(w2|cn)表示领域词w2在各个上下文的概率信息，sim(w1,w2)表示领域词w1与领域词w2的相似度。

本发明还提供了一种领域词的语音识别增强装置，包括：

第一语言模型生成模块，用于通过收集的文本语料数据，训练生成第一语言模型；

模型转换模块，用于将所述第一语言模型转换为第一解码图；

相似度获取模块，用于获取所述领域词与所述文本语料数据的相似度；

第二语言模型生成模块，用于通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型；

解码图扩展模块，用于根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图；

识别处理模块，用于利用所述第二解码图对用户输入的语音进行语音识别处理。

可选的，所述通过收集的文本语料数据，训练生成第一语言模型，包括：

对所述文本语料数据进行清洗，过滤掉特殊字符；

将清洗后得到的数据进行分词处理；

对分词处理后的数据进行n元词频统计；

根据n元词频统计的结果生成第一语言模型。

可选的，所述获取所述领域词与所述文本语料数据的相似度，包括：

对所述文本语料数据进行预处理，以去除掉特殊字符；

对所述文本语料数据进行分词处理；

分别获取所述领域词和分词处理后的词语的词向量；

计算所述领域词的词向量与所述文本语料分词处理后的词向量的相似距离。

可选的，所述通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型，包括：

获取所述第一解码图中，现有领域词w2的概率信息；

通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息，具体处理过程包括：

遍历领域词w2在第一解码图中的概率信息，p(w2|c1),p(w2|c2)…p(w2|cn)；

根据领域词w2的概率信息，计算领域词w1在上下文cn上的概率信息，具体计算公式为：

p(w1|cn)＝sim(w1,w2)*p(w2|cn)*alpha

其中，alpha为可调节权重，p(w2|cn)表示领域词w2在各个上下文的概率信息，sim(w1,w2)表示领域词w1与领域词w2的相似度。

本发明还提供了另一种领域词的语音识别增强装置，包括：

处理器和用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

通过收集的文本语料数据，训练生成第一语言模型；

将所述第一语言模型转换为第一解码图；

获取所述领域词与所述文本语料数据的相似度；

通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型；

根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图；

利用所述第二解码图对用户输入的语音进行语音识别处理。

本发明采用以上技术方案，所述领域词的语音识别增强方法，包括：通过收集的文本语料数据，训练生成第一语言模型；将所述第一语言模型转换为第一解码图；获取所述领域词与所述文本语料数据的相似度；通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型；根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图；利用所述第二解码图对用户输入的语音进行语音识别处理。本发明所述的语音识别增强方法利用领域词之间的相似度，通过对现有领域词的第一语言模型进行扩展，形成包含有待添加领域词的第二语言模型，从而增强了对待添加领域词(未出现的领域词和信息较少领域词)在语音识别中的识别准确率。本发明所述的方法处理过程简单，能够实现对未出现的领域词和信息较少领域词的快速添加和扩展，能够满足用户在更广泛的领域内进行语音识别，从而有利于提高用户体验，也有利于语音识别在更多领域的应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明领域词的语音识别增强方法的流程示意图；

图2是本发明利用openfst转换工具将所述第一语言模型转换为第一解码图的示意图；

图3是本发明根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图的示意图；

图4是本发明领域词的语音识别增强装置的结构示意图。

图中：1、第一语言模型生成模块；2、模型转换模块；3、相似度获取模块；4、第二语言模型生成模块；5、解码图扩展模块；6、识别处理模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

图1是本发明领域词的语音识别增强方法的流程示意图。

如图1所示，本实施例的方法包括：

s11：通过收集的文本语料数据，训练生成第一语言模型；

进一步的，所述通过收集的文本语料数据，训练生成第一语言模型，包括：

对所述文本语料数据进行清洗，过滤掉特殊字符；

将清洗后得到的数据进行分词处理；

对分词处理后的数据进行n元词频统计；

根据n元词频统计的结果生成第一语言模型。

s12：将所述第一语言模型转换为第一解码图；

进一步的，所述第一解码图为fst图模型；

所述将所述第一语言模型转换为第一解码图是通过openfst转换工具实现的。

s13：获取所述领域词与所述文本语料数据的相似度；

进一步的，所述获取所述领域词与所述文本语料数据的相似度，包括：

对所述文本语料数据进行预处理，以去除掉特殊字符；

对所述文本语料数据进行分词处理；

分别获取所述领域词和分词处理后的词语的词向量；

计算所述领域词的词向量与所述文本语料分词处理后的词向量的相似距离。

进一步的，所述相似距离可以是两个词向量的余弦距离、欧式距离或其他相似距离。

s14：通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型；

进一步的，所述通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型，包括：

获取所述第一解码图中，现有领域词w2的概率信息；

通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息，具体处理过程包括：

遍历领域词w2在第一解码图中的概率信息，p(w2|c1),p(w2|c2)…p(w2|cn)；

根据领域词w2的概率信息，计算领域词w1在上下文cn上的概率信息，具体计算公式为：

p(w1|cn)＝sim(w1,w2)*p(w2|cn)*alpha

其中，alpha为可调节权重，p(w2|cn)表示领域词w2在各个上下文的概率信息，sim(w1,w2)表示领域词w1与领域词w2的相似度。

s15：根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图；

s16：利用所述第二解码图对用户输入的语音进行语音识别处理。

下面举例说明本实施例所述的领域词的语音识别增强方法的处理过程。

比如，步骤s11根据现有收集的文本预料数据生成的第一语言模型中，包含各种分词，以及每个分词在各个上下文的概率信息，步骤s12利用openfst转换工具将所述第一语言模型转换为第一解码图(fst解码图)，比如得到的第一解码图如图2所示。

假设领域词w1为“副校长”，则步骤s13中，是获取所述领域词“副校长”与所述文本语料数据的相似度，具体处理过程包括：先对所述文本语料数据进行预处理，以去除掉特殊字符；再对所述文本语料数据进行分词处理；分别获取所述领域词和分词处理后的词语的词向量(可通过word2vec训练，获取词向量)；最后计算所述领域词的词向量与所述文本语料分词处理后的词向量的余弦距离。再执行步骤s14，通过所述第一解码图和所述相似度信息，计算信息较少的领域词或未出现在第一语言模型中的领域词w1相对应的第二语言模型的信息。计算具体流程如下：

获取所述第一解码图中，现有领域词w2的概率信息；

通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息，假设领域词w1和领域词w2相似，通过w2的信息增强w1的语言模型信息，包括：

遍历w2在语言模型中的信息，p(w2|c1),p(w2|c2)…p(w2|cn)；

根据w2的信息，计算w1在上下文cn上的概率信息，具体计算公式为：p(w1|cn)＝sim(w1,w2)*p(w2|cn)*alpha

其中，alpha为可调节权重，p(w2|cn)表示领域词w2在各个上下文的概率信息，sim(w1,w2)表示领域词w1与领域词w2的相似度。

以此类推，可以计算相似词汇对的概率信息。

再执行步骤s15，根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图：如下所示，校长和副校长是同义词(即w1副校长与所述文本语料数据中的所有分词中，与分词“校长”的相似度最高)，根据步骤s14的结果对第一解码图进行扩展，得到包含所述领域词w1“副校长”的第二解码图，如图3所示。

按照上述步骤得到扩展后的第二解码图后，再利用所述第二解码图对用户输入的语音进行语音识别处理。其中，所述用户输入的语音可能会包括领域词w1。当用户输入的语音中包括领域词w1时，由于通过本实施例所述的方法已经将领域词w1作为关键词增添到第二解码图中，增强了领域词w1的权重，所以，在后续对语音识别过程中，提高了对领域词的识别效果。

本实施例所述的语音识别增强方法利用领域词之间的相似度，通过对现有领域词的第一语言模型进行扩展，形成包含有待添加领域词的第二语言模型，从而增强了对待添加领域词(未出现的领域词和信息较少领域词)在语音识别中的识别准确率。本实施例所述的方法处理过程简单，能够实现对未出现的领域词和信息较少领域词的快速添加和扩展，能够满足用户在更广泛的领域内进行语音识别，从而有利于提高用户体验。

图4是本发明领域词的语音识别增强装置的流程示意图。

如图4所示，本实施例的装置包括：

第一语言模型生成模块1，用于通过收集的文本语料数据，训练生成第一语言模型；

模型转换模块2，用于将所述第一语言模型转换为第一解码图；

相似度获取模块3，用于获取所述领域词与所述文本语料数据的相似度；

第二语言模型生成模块4，用于通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型；

解码图扩展模块5，用于根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图；

识别处理模块6，用于利用所述第二解码图对用户输入的语音进行语音识别处理。

进一步的，所述通过收集的文本语料数据，训练生成第一语言模型，包括：

对所述文本语料数据进行清洗，过滤掉特殊字符；

将清洗后得到的数据进行分词处理；

对分词处理后的数据进行n元词频统计；

根据n元词频统计的结果生成第一语言模型。

进一步的，所述获取所述领域词与所述文本语料数据的相似度，包括：

对所述文本语料数据进行预处理，以去除掉特殊字符；

对所述文本语料数据进行分词处理；

分别获取所述领域词和分词处理后的词语的词向量；

计算所述领域词的词向量与所述文本语料分词处理后的词向量的相似距离。

可以理解的是，所述相似距离可以是两个词向量的余弦距离、欧式距离或其他相似距离。

进一步的，所述通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型，包括：

获取所述第一解码图中，现有领域词w2的概率信息；

通过所述现有领域词w2的概率信息增强领域词w1相对应的第二语言模型信息，具体处理过程包括：

遍历领域词w2在第一解码图中的概率信息，p(w2|c1),p(w2|c2)…p(w2|cn)；

根据领域词w2的概率信息，计算领域词w1在上下文cn上的概率信息，具体计算公式为：

p(w1|cn)＝sim(w1,w2)*p(w2|cn)*alpha

其中，alpha为可调节权重，p(w2|cn)表示领域词w2在各个上下文的概率信息，sim(w1,w2)表示领域词w1与领域词w2的相似度。

本实施例所述的领域词语音识别增强装置的工作原理与上文所述的语音识别增强方法的工作原理相同，在此不再赘述。

本实施例所述的语音识别增强装置利用所述相似度获取模块获取领域词之间的相似度，再通过所述解码图扩展模块对现有领域词的第一语言模型进行扩展，形成包含有待添加领域词的第二语言模型，从而增强了对待添加领域词(未出现的领域词和信息较少领域词)在语音识别中的识别准确率。本实施例所述的装置处理过程简单，能够实现对未出现的领域词和信息较少领域词的快速添加和扩展，能够满足用户在更广泛的领域内进行语音识别，从而有利于提高用户体验。

此外，本发明还提供了一种领域词的语音识别增强装置，包括：

处理器和用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：

通过收集的文本语料数据，训练生成第一语言模型；

将所述第一语言模型转换为第一解码图；

获取所述领域词与所述文本语料数据的相似度；

通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型；

根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图；

利用所述第二解码图对用户输入的语音进行语音识别处理。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张明;关磊;王东;刘荣
技术所有人：北京分音塔科技有限公司;清华大学
我是此专利的发明人

上一篇：一种具有净化功能的废旧电子产品塑料壳粉碎装置的制作方法
上一篇：一种黑木耳鱼肉泥面包制作方法与流程