标点添加方法及装置与流程

文档序号：11097834阅读：216来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及语音识别技术领域，尤其涉及一种标点添加方法及装置。

背景技术：

在当前的语音识别过程中，大多是当语音识别时，中间有停顿的地方识别为逗号，结束时自动添加句号，整个句子都被视为陈述语气，这种方式在某些情形下并不能正确传达出讲话者语义和情感。

技术实现要素：

本发明实施例提供一种标点添加方法及装置，用以实现简单方便地实现标点符号的自动添加，并提高标点符号添加的准确性和灵活性。

根据本发明实施例的第一方面，提供一种标点添加方法，包括：

获取包含标点的预设训练语料信息；

利用所述预设训练语料信息和预设的网络模型结构进行训练，得到标点添加模型，其中，所述预设的网络模型结构包括编码器结构和解码器结构；

接收用户输入的语音数据信息；

对所述语音数据信息进行识别，得到所述语音数据信息对应的文本信息和停顿信息；

根据所述文本信息、所述停顿信息和所述标点添加模型，确定所述文本信息对应的标点信息。

在该实施例中，根据预设训练语料和预设的网络模型结构进行训练，得到包含编码器结构和解码器结构的标点添加模型，通过该标点添加模型为接收到的语音数据信息添加标点。这样，可以实现简单方便地实现标点符号的自动添加，并提高标点符号添加的准确性和灵活性。

在一个实施例中，所述编码器结构包括第一LSTM隐藏层，所述解码器结构包括第二LSTM隐藏层。

在一个实施例中，所述利用所述预设训练语料信息和预设的网络模型结构进行训练，得到标点添加模型，包括：

确定所述预设训练语料信息对应的语料文本信息、语料停顿信息和语料标点信息；

将所述语料文本信息和所述语料停顿信息确定为所述预设的网络模型结构的输入向量，将所述语料标点信息确定为所述预设的网络模型结构的输出向量，计算所述预设网络模型结构对应的目标模型参数；

根据所述目标模型参数和所述预设的网络模型结构确定所述标点添加模型。

在一个实施例中，所述将所述语料文本信息和所述语料停顿信息确定为所述预设的网络模型结构的输入向量，将所述语料标点信息确定为所述预设的网络模型结构的输出向量，计算所述预设网络模型结构对应的目标模型参数，包括：

利用所述语料文本信息、所述语料停顿信息、所述语料标点信息和所述预设的网络模型结构进行前向计算，确定所述预设网络模型结构对应的模型参数；

利用所述语料文本信息、所述语料停顿信息、所述语料标点信息和所述预设的网络模型结构进行后向计算，对所述模型参数进行修正，得到所述目标模型参数。

在该实施例中，分别利用语料文本信息、所述语料停顿信息、所述语料标点信息和所述预设的网络模型结构进行前向计算和后向计算，这样，可以保证得到的目标模型参数的准确性。

在一个实施例中，所述根据所述文本信息、所述停顿信息和所述标点添加模型，确定所述文本信息对应的标点信息，包括：

将所述文本信息和所述停顿信息作为所述标点添加模型的输入向量，得到所述标点添加模型的输出向量；

根据所述标点添加模型的输出向量确定所述文本信息对应的标点信息。

在该实施例中，标点添加模型的输出向量表示各标点可能的概率，这样，取输出向量中值最大的维度作为最终结果。

根据本发明实施例的第二方面，提供一种标点添加装置，包括：

获取模块，用于获取包含标点的预设训练语料信息；

训练模块，用于利用所述预设训练语料信息和预设的网络模型结构进行训练，得到标点添加模型，其中，所述预设的网络模型结构包括编码器结构和解码器结构；

接收模块，用于接收用户输入的语音数据信息；

识别模块，用于对所述语音数据信息进行识别，得到所述语音数据信息对应的文本信息和停顿信息；

确定模块，用于根据所述文本信息、所述停顿信息和所述标点添加模型，确定所述文本信息对应的标点信息。

在一个实施例中，所述编码器结构包括第一LSTM隐藏层，所述解码器结构包括第二LSTM隐藏层。

在一个实施例中，所述训练模块包括：

第一确定子模块，用于确定所述预设训练语料信息对应的语料文本信息、语料停顿信息和语料标点信息；

计算子模块，用于将所述语料文本信息和所述语料停顿信息确定为所述预设的网络模型结构的输入向量，将所述语料标点信息确定为所述预设的网络模型结构的输出向量，计算所述预设网络模型结构对应的目标模型参数；

第二确定子模块，用于根据所述目标模型参数和所述预设的网络模型结构确定所述标点添加模型。

在一个实施例中，所述计算子模块用于：

在一个实施例中，所述确定模块包括：

处理子模块，用于将所述文本信息和所述停顿信息作为所述标点添加模型的输入向量，得到所述标点添加模型的输出向量；

第三确定子模块，用于根据所述标点添加模型的输出向量确定所述文本信息对应的标点信息。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种标点添加方法的流程图。

图2是根据一示例性实施例示出的一种标点添加模型的示意图。

图3是根据一示例性实施例示出的一种标点添加方法中步骤S102的流程图。

图4是根据一示例性实施例示出的一种标点添加方法中步骤S105的流程图。

图5是根据一示例性实施例示出的一种标点添加装置的框图。

图6是根据一示例性实施例示出的一种标点添加装置中训练模块的框图。

图7是根据一示例性实施例示出的一种标点添加装置中确定模块的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种标点添加方法的流程图。该标点添加方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音识别功能的设备。如图1所示，该方法包括步骤S101-S105：

在步骤S101中，获取包含标点的预设训练语料信息；

在步骤S102中，利用预设训练语料信息和预设的网络模型结构进行训练，得到标点添加模型，其中，预设的网络模型结构包括编码器结构和解码器结构；

在步骤S103中，接收用户输入的语音数据信息；

在步骤S104中，对语音数据信息进行识别，得到语音数据信息对应的文本信息和停顿信息；

在步骤S105中，根据文本信息、停顿信息和标点添加模型，确定文本信息对应的标点信息。

在一个实施例中，编码器结构包括第一LSTM隐藏层，解码器结构包括第二LSTM隐藏层。

下面以一个具体实施例详细说明本发明的技术方案。

如图2所示，本发明的标点添加模型包括编码器encoder结构和解码器decoder结构，其中，输入序列为X₁，X₂……X_N，其中，每个输入包括文字信息和停顿信息，输出序列为标点符号ID或者为空。其中，输入序列中，文字信息可以为200维的特征向量，停顿信息可以为1维的特征向量，将两个特征向量做拼接，则得到201维的特征向量，而输出序列的维度可以为5维，分别为无标点、逗号、句号、分号、顿号。编码器结构对应一个隐藏层，解码器结构对应一个隐藏层，即本发明中有两个隐藏层，每一层的计算方式可以相同。

图3是根据一示例性实施例示出的一种标点添加方法中步骤S102的流程图。

如图3所示，在一个实施例中，上述步骤S102包括步骤S301-S303：

在步骤S301中，确定预设训练语料信息对应的语料文本信息、语料停顿信息和语料标点信息；

在步骤S302中，将语料文本信息和语料停顿信息确定为预设的网络模型结构的输入向量，将语料标点信息确定为预设的网络模型结构的输出向量，计算预设网络模型结构对应的目标模型参数；

在步骤S303中，根据目标模型参数和预设的网络模型结构确定标点添加模型。

在一个实施例中，上述步骤S302包括：

利用语料文本信息、语料停顿信息、语料标点信息和预设的网络模型结构进行前向计算，确定预设网络模型结构对应的模型参数；

利用语料文本信息、语料停顿信息、语料标点信息和预设的网络模型结构进行后向计算，对模型参数进行修正，得到目标模型参数。

在该实施例中，分别利用语料文本信息、语料停顿信息、语料标点信息和预设的网络模型结构进行前向计算和后向计算，这样，可以保证得到的目标模型参数的准确性。

图4是根据一示例性实施例示出的一种标点添加方法中步骤S105的流程图。

如图4所示，在一个实施例中，上述步骤S105包括步骤S401-S402：

在步骤S401中，将文本信息和停顿信息作为标点添加模型的输入向量，得到标点添加模型的输出向量；

在步骤S402中，根据标点添加模型的输出向量确定文本信息对应的标点信息。

在该实施例中，标点添加模型的输出向量表示各标点可能的概率，这样，取输出向量中值最大的维度作为最终结果。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图5是根据一示例性实施例示出的一种标点添加装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图5所示，该标点添加装置包括：

获取模块51，用于获取包含标点的预设训练语料信息；

训练模块52，用于利用所述预设训练语料信息和预设的网络模型结构进行训练，得到标点添加模型，其中，所述预设的网络模型结构包括编码器结构和解码器结构；

接收模块53，用于接收用户输入的语音数据信息；

识别模块54，用于对所述语音数据信息进行识别，得到所述语音数据信息对应的文本信息和停顿信息；

确定模块55，用于根据所述文本信息、所述停顿信息和所述标点添加模型，确定所述文本信息对应的标点信息。

在一个实施例中，所述编码器结构包括第一LSTM隐藏层，所述解码器结构包括第二LSTM隐藏层。

图6是根据一示例性实施例示出的一种标点添加装置中训练模块的框图。

如图6所示，在一个实施例中，所述训练模块52包括：

第一确定子模块61，用于确定所述预设训练语料信息对应的语料文本信息、语料停顿信息和语料标点信息；

计算子模块62，用于将所述语料文本信息和所述语料停顿信息确定为所述预设的网络模型结构的输入向量，将所述语料标点信息确定为所述预设的网络模型结构的输出向量，计算所述预设网络模型结构对应的目标模型参数；

第二确定子模块63，用于根据所述目标模型参数和所述预设的网络模型结构确定所述标点添加模型。

在一个实施例中，所述计算子模块62用于：

图7是根据一示例性实施例示出的一种标点添加装置中确定模块的框图。

如图7所示，在一个实施例中，所述确定模块55包括：

处理子模块71，用于将所述文本信息和所述停顿信息作为所述标点添加模型的输入向量，得到所述标点添加模型的输出向量；

第三确定子模块72，用于根据所述标点添加模型的输出向量确定所述文本信息对应的标点信息。

在该实施例中，标点添加模型的输出向量表示各标点可能的概率，这样，取输出向量中值最大的维度作为最终结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈峰
技术所有人：北京云知声信息技术有限公司
我是此专利的发明人

上一篇：斜底式铜棒预热炉炉体的制造方法与工艺
上一篇：一种增强蜜胺泡绵的制备方法与制造工艺