一种语音识别的方法和装置与流程

文档序号：12678442阅读：232来源：国知局

本申请涉及信息技术领域，特别是涉及一种语音识别的方法和装置。

背景技术：

近年来，语音识别技术成为了信息技术领域中的重要的发展技术之一。语音识别技术使人们能够甩掉键盘，通过语音命令进行操作，使语音识别技术在众多领域得到广泛应用。

语音识别技术是将声音转变成文本的技术。目前采用语音模型和语言模型结合的方式，实现对语音的识别，其中，语音模型用来描述语音信号的分布特性，而语言模型用于识别语音信号对应的词序列，用以限制系统能识别的句子范围，语言模型基于一个系统词表，只有在词表中出现的词才有可能被识别出来。

随着信息社会的快速发展，新生的词汇不断涌现，例如：颜值、吐槽、洪荒之力等等，由于新的词汇不在语音识别的系统词表中，因此很难被识别出来。

技术实现要素：

本申请实施例提供了一种语音识别的方法和装置，以解决目前无法识别新词和新词快速添加的问题。

为了解决上述问题，本申请公开了一种语音识别的方法，包括：

将语言模型表示为有限状态转移机；

待识别的新词根据设定规则在所述有限状态转移机上获得所述新词对应的近义词；

将所述新词添加到所述有限状态转移机，获得更新后的有限状态转移机，使用所述更新后的有限状态转移机进行语音识别。

优选的，所述待识别的新词根据设定规则在所述有限状态转移机上获得所述新词对应的近义词的步骤包括：

根据静态配置获得新词对应的近义词。

优选的，所述待识别的新词根据设定规则在所述有限状态转移机上获得所述新词对应的近义词的步骤包括：

将所述新词映射到向量空间，获得第一向量；

将语言模型的词表中的词映射到向量空间，获得第二向量；

根据所述第一向量和所述第二向量利用余弦距离公式，获得新词和所述词表中的词之间的相似度；

将所述相似度高的所述词表中的词确定为新词对应的近义词。

优选的，将所述近似词添加到所述有限状态转移机，获得更新后的有限状态转移机的步骤包括：

将所述获得新词和所述词表中的词之间的相似度与近义词的权重的乘积作为新词的权重；

将所述新词和所述新词的权重并列添加在所述有限状态转移机中的近似词处，获得更新后的有限状态转移机图。

为了解决上述问题，本申请还公开了一种语音识别的装置，包括：

转换模块，用于将语言模型表示为有限状态转移机；

近义词模块，用于待识别的新词根据设定规则在所述有限状态转移机上获得所述新词对应的近义词；

更新模块，用于将所述近似词添加到所述有限状态转移机，获得更新后的有限状态转移机，使用所述更新后的有限状态转移机进行语音识别。

优选的，近义词模块包括：

配置子模块，用于根据静态配置获得新词对应的近义词。

优选的，近义词模块包括：

第一映射子模块，用于将所述新词映射到向量空间，获得第一向量；

第二映射子模块，用于将语言模型的词表中的词映射到向量空间，获得第二向量；

词间距离子模块，用于根据所述第一向量和所述第二向量利用余弦距离公式，获得新词和所述词表中的词之间的相似度；

确定子模块，用于将所述相似度高的所述词表中的词确定为新词对应的近义词。

优选的，所述更新模块具体用于：

将所述获得新词和所述词表中的词之间的相似度与近义词的权重的乘积作为新词的权重；

将所述新词和所述新词的权重并列添加在所述有限状态转移机中的近似词处，获得更新后的有限状态转移机。

与现有技术相比，本申请包括以下优点：

本申请通过将待识别的新词根据设定规则在有限状态转移机上获得所述新词对应的近义词，将所述近似词添加到所述有限状态转移机，获得更新后的有限状态转移机，使用所述更新后的有限状态转移机进行语音识别从而避免了重新训练语言模型，并且在不改变语言模型的前提下完成了对新词的识别和新词的添加，提高了识别效率。

当然，实施本申请的任一产品不一定需要同时达到以上所述的所有优点。

附图说明

图1是本申请实施例所述一种语音识别方法的流程图；

图2是本申请实施例将语言模型转换为有限状态转移机的示意图；

图3是本申请实施例所述一种语音识别方法的流程图；

图4是本申请实施例更新后有限状态转移机的示意图；

图5是本申请实施例所述一种语音识别装置的结构框图；

图6本申请实施例所述一种语音识别装置的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，其示出了本申请实施例所述一种语音识别方法的流程图，该方法包括：

步骤101：将语言模型表示为有限状态转移机。

语言模型中包括：词语和该词语的概率，将词语和该词语的概率表示为有限状态转移。

例如：语言模型中的词语为A，A的概率为1/A，词语B，B的概率为1/B，则转换的有限状态转移，如图2所示，有限状态转移机仅仅是示例，在实际应用中可以有多个输出结果，获得的有限状态转移机也不同，对此本申请不做具体限制。

步骤102：待识别的新词根据设定规则在所述有限状态转移机FST上获得所述新词对应的近义词。

待识别的新词可以理解为新生的词汇，也可以理解为在语言模型词表中不存在的词语。

待识别的新词以列表的形式进行保存，可以根据列表中存储新词获得新词对应的近义词，该近义词也可以采用列表的形式进行保存，也可以采用其他方式，对此本申请不做具体限制。

步骤103：将所述新词添加到所述有限状态转移机，获得更新后的有限状态转移机，使用所述更新后的有限状态转移机进行语音识别。

本实施例，通过将待识别的新词根据设定规则在有限状态转移机上获得所述新词对应的近义词，将所述近似词添加到所述有限状态转移机，获得更新后的有限状态转移机，使用所述更新后的有限状态转移机进行语音识别从而避免了重新训练语言模型，并且在不改变语言模型的前提下完成了对新词的识别和新词的添加，提高了识别效率。

参照图3，其示出了本申请实施例所述一种语音识别方法的流程图，该方法包括：

步骤301：将语言模型表示为有限状态转移机。

步骤302：根据静态配置获得新词对应的近义词。

静态配置获取新词对应的近义词，即静态配置也可以理解为人工定义获取新词对应的近义词，人工定义，可以充分利用人的知识，比较精确获取新词对应的近似词，但是繁琐，效率低，目前人工定义主要适用于小规模新词加入。

新词对应的近义词可以为一个或者多个，若为多个，可以人工选择最接近的词作为新词对应的近义词。

设有一个新词集X＝{x₁,x₂…，x_m}，对于每一个x_i∈X，都有一个近义词集S_i＝{y₁,y₂…，y_n}。对任意一个y_j∈S_i,在FST中寻找所为标注为y_j的边，并在y_j的边旁并列的加上x_i。在基线系统中，近义词集和近义词权重值均由人工确定。

作为其中一种实现方式，所述待识别的新词根据设定规则在所述有限状态转移机上获得所述新词对应的近义词的步骤包括：

将所述新词映射到向量空间，获得第一向量。

新词具有新词集，将新词映射到向量空间，获得多个第一向量。

将语言模型的词表中的词映射到向量空间，获得第二向量。

根据所述第一向量和所述第二向量利用余弦距离公式，获得新词和所述词表中的词之间的相似度。

对新词和词表中的词之间的相似度进行排序，例如从大到小的顺序排列或者按照从小到大的顺序进行排列，将词表中的词相似度高的词确定为新词对应的近义词。

将所述相似度高的所述词表中的词确定为新词对应的近义词。

通过将映射到向量空间，利用词向量空间的方式增加新词的加入解决了手动加入新词效率低的问题，同时也适用于大规模新词加入。

步骤303：将所述新词添加到所述有限状态转移机，获得更新后的有限状态转移机，使用所述更新后的有限状态转移机进行语音识别。

作为其中一种实现方式，所述将所述近似词添加到所述有限状态转移机，获得更新后的有限状态转移机的步骤包括：

将所述获得新词和所述词表中的词之间的相似度与近义词的权重的乘积作为新词的权重。

将所述新词和所述权重并列添加在所述有限状态转移机中的近似词处，获得更新后的有限状态转移机。

例如：语言模型中的词语为A，A的概率为1/A，词语B，B的概率为1/B，则生成的有限状态转移，如图2所示，当有新词C进行识别，获取C的近义词为A，权重为1/C，则将所述新词和所述新词的权重并列添加在所述有限状态转移机中的A处，如图4所示，

本实施例，通过将待识别的新词根据设定规则在有限状态转移机上获得所述新词对应的近义词，将所述近似词添加到所述有限状态转移机，获得更新后的有限状态转移机，使用所述更新后的有限状态转移机进行语音识别从而避免了重新训练语言模型，并且在不改变语言模型的前提下完成了对新词的识别和新词的快速添加，提高了识别效率。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请所必需的。

基于上述方法实施例的说明，本申请还提供了相应的屏幕截图装置实施例，来实现上述方法实施例所述的内容。

参照图5，其示出了本申请实施例所述一种语音识别装置的结构图，该装置具体包括：

转换模块501，用于将语言模型表示为有限状态转移机。

近义词模块502，用于待识别的新词根据设定规则在所述有限状态转移机上获得所述新词对应的近义词。

更新模块503，用于将所述近似词添加到所述有限状态转移机，获得更新后的有限状态转移机，使用所述更新后的有限状态转移机进行语音识别。

本实施例，通过将待识别的新词根据设定规则在有限状态转移机获得所述新词对应的近义词，将所述近似词添加到所述有限状态转移机，获得更新后的有限状态转移机，使用所述更新后的有限状态转移机进行语音识别从而避免了重新训练语言模型，并且在不改变语言模型的前提下完成了对新词的识别和新词的快速添加，提高了识别效率。

参照图6，其示出了本申请实施例所述一种语音识别装置的结构图，该装置具体包括：

转换模块601，用于将语言模型表示为有限状态转移机。

近义词模块602，用于待识别的新词根据设定规则在所述有限状态转移机上获得所述新词对应的近义词。

优选的，近义词模块包括：

配置子模块6021，用于根据静态配置获得新词对应的近义词。

优选的，近义词模块包括：

第一映射子模块，用于将所述新词映射到向量空间，获得第一向量；

第二映射子模块，用于将语言模型的词表中的词映射到向量空间，获得第二向量；

词间距离子模块，用于根据所述第一向量和所述第二向量利用余弦距离公式，获得新词和所述词表中的词之间的相似度；

确定子模块，用于将所述相似度高的所述词表中的词确定为新词对应的近义词。

更新模块603，用于将所述近似词添加到所述有限状态转移机，获得更新后的有限状态转移机，使用所述更新后的有限状态转移机进行语音识别。

优选的，所述更新模块具体用于：将所述获得新词和所述词表中的词之间的相似度与近义词的权重的乘积作为新词的权重。

将所述新词和所述新词的权重并列添加在所述有限状态转移机中的近似词处，获得更新后的有限状态转移机。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见所示方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本申请的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

本申请实施例可以实施在任何支持图形处理、互联网内容撷取和渲染的装置(或多个装置)上。这些装置包括但不限于个人计算机、集群服务器、移动电话、工作站、嵌入式系统、游戏机、电视、机顶盒，或任何其它支持计算机图形和内容显示的计算装置。这些装置可以包括但不限于拥有执行和储存指令的一个或多个处理器和存储器的装置。这些装置可以包括软件、固件和硬件。软件可以包括一个或多个应用程序和操作系统。硬件可以包括但不限于处理器、存储器及显示器。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本申请中，“组件”、“装置”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，组件可以、但不限于是运行于处理器的过程、处理器、对象、可执行组件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是组件。一个或多个组件可在执行的过程和/或线程中，并且组件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。组件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一组件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

而且，上文中的“和/或”表示本文既包含了“和”的关系，也包含了“或”的关系，其中：如果方案A与方案B是“和”的关系，则表示某实施例中可以同时包括方案A和方案B；如果方案A与方案B是“或”的关系，则表示某实施例中可以单独包括方案A，或者单独包括方案B。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

以上对本申请所提供的一种语音识别方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王东;马习;张之勇;张雪薇;张玥
技术所有人：清华大学
我是此专利的发明人

上一篇：一种旋转式挤压润滑油扳手的制作方法与工艺
上一篇：一种直燃式节能型树脂固化炉的制作方法与工艺