转换文本的方法和设备与流程

文档序号：12748011阅读：208来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明实施例涉及信息技术领域，并且更具体地，涉及转换文本的方法和设备。

背景技术：

口语，作为非正式场合(例如，日常对话、非正式的发言、非正式的文书写作等)中使用的口头语言，具有非正式、灵活等特点。书面语，作为正式场合(例如，正式的演讲、正式的文书写作等)中使用的语言，具有规范、简洁等特点。

由于口语没有书面语具备的简洁、规范等特点，因此在一些场合中，使用口语是不利于传播和交流的。例如，在进行机器翻译时，由于口语的不规范等特点，输入的口语文本可能不能被准确地翻译。

但有时不可避免的会接收到口语文本。例如，当应用语音识别技术将语音转化为文字时，语音识别技术会严格将输入的语音转换为对应的文字。如果输入的语音是口语语音，那么对应的识别结果也是口语本文。

因此，如何将口语文本转换为书面语文本是一个亟待解决的问题。

技术实现要素：

本发明实施例提供的转换文本的方法和设备，能够提高口语文本到书面语文本转换的准确率。

第一方面，本发明实施例提供一种转换文本的方法，该方法包括：获取目标口语文本，该目标口语文本包括非口语语素和口语语素，该非口语语素为文本在正确表达意思时必不可少的语素，该口语语素为文本在表达正确意思时非比不可少的语素，该口语语素的类别包括：插入语素、重复语素、修改语素以及错误开始语素；确定该目标口语文本的文本特征，该文本特征包括：词或词组的语言概率、词汇特征、词性信息、语义信息、语法信息以及相邻词语条件概率；根据该目标口语文本的文本特征，确定该目标口语文本的口语语素的类别；根据该目标口语文本的口语语素的类别，确定对应于该目标口语文本的书面语文本，该书面语文本为消除该目标口语文本中的口语语素的文本。

结合第一方面，在第一方面的第一种可能的实现方式中，该根据该目标口语文本的文本特征，确定该目标口语文本的口语语素的类别，包括：将该目标口语文本的文本特征输入到口语语素分类模型，确定该目标口语文本的口语语素的类别，其中该口语语素分类模型是通过提取N个口语训练文本中的每个口语训练文本的文本特征进行训练确定的，该每个口语训练文本包括该口语语素和该非口语语素，N为大于1的正整数。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，该口语语素分类模型是通过以下方式确定的：确定该每个口语训练文本的口语语素的类别；确定该每个口语训练文本的文本特征；根据该N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征确定该口语语素分类模型。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，根据该N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征确定该口语语素分类模型，包括：使用分类算法对该N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征进行训练以确定该口语语素分类模型。

结合第一方面或第一方面的上述任一种可能的实现方式，在第一方面的第四种可能的实现方式中，该根据该目标口语文本的口语语素的类别，确定对应于该目标口语文本的书面语文本，包括：根据该目标口语文本的口语语素的类别，使用以下任一种或多种方式确定对应于该目标口语文本的书面语文本：基于该口语语素的类别的删除操作；使用基于该口语语素的类别的加权有限状态传导WFST模型；使用基于该口语语素的类别训练的机器翻译模型。

第二方面，本发明实施例提供一种转换文本的设备，该设备包括：获取单元，用于获取目标口语文本，该目标口语文本包括非口语语素和口语语素，该非口语语素为文本在正确表达意思时必不可少的语素，该口语语素为文本在表达正确意思时非比不可少的语素，该口语语素的类别包括：插入语素、重复语素、修改语素以及错误开始语素；确定单元，用于确定该目标口语文本的文本特征，该文本特征包括：词或词组的语言概率、词汇特征、词性信息、语义信息、语法信息以及相邻词语条件概率；该确定单元，还用于根据该目标口语文本的文本特征，确定该目标口语文本的口语语素的类别；该确定单元，还用于根据该目标口语文本的口语语素的类别，确定对应于该目标口语文本的书面语文本，该书面语文本为消除该目标口语文本中的口语语素的文本。

结合第二方面，在第二方面的第一种可能的实现方式中，该确定单元，具体用于将该目标口语文本的文本特征输入到口语语素分类模型，确定该目标口语文本的口语语素的类别，其中该口语语素分类模型是通过提取N个口语训练文本中的每个口语训练文本的文本特征进行训练确定的，该每个口语训练文本包括该口语语素和该非口语语素，N为大于1的正整数。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，该确定单元，还用于确定该每个口语训练文本的口语语素的类别，确定该每个口语训练文本的文本特征，根据该N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征确定该口语语素分类模型。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，该确定单元，具体用于使用条件随机场对该N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征进行训练以确定该口语语素分类模型。

结合第二方面或第二方面的上述任一种可能的实现方式，在第二方面的第四种可能的实现方式中，该确定单元，具体用于根据该目标口语文本的口语语素的类别，使用以下任一种或多种方式确定对应于该目标口语文本的书面语文本：基于该口语语素的类别的删除操作；使用基于该口语语素的类别的加权有限状态传导WFST模型；使用基于该口语语素的类别训练的机器翻译模型。

上述技术方案在进行口语到书面语的转换时，利用文本的文本特征确定文本中的口语语素的类别，进而利用口语语素的类别将口语文本转换为书面语文本。上述技术方案考虑到了多种文本特征，使得确定出的口语语素的类别更为准确，进而可以更准确地将口语文本转换为书面语文本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的转换文本的方法的示意性流程图。

图2是WFST模型示意图。

图3是根据本发明实施例提供的转换文本的设备的结构框图。

图4是根据本发明实施例提供的应用于会议的文本转换系统的示意图。

图5是根据本发明实施例提供的转换文本的设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1是根据本发明实施例提供的转换文本的方法的示意性流程图。

101，获取目标口语文本，该目标口语文本包括非口语语素和口语语素，该非口语语素为文本在正确表达意思时必不可少的语素，该口语语素为文本在表达正确意思时非必不可少的语素，该口语语素的类别包括：插入语素、重复语素、修改语素以及错误开始语素。

102，确定该目标口语文本的文本特征，该文本特征包括：词或词组的语言概率、词汇特征、词性信息、语义信息、语法信息以及相邻词语条件概率。

103，根据该目标口语文本的文本特征，确定该目标口语文本的口语语素的类别。

104，根据该目标口语文本的口语语素的类别，确定对应于该目标口语文本的书面语文本，该书面语文本为消除该目标口语文本中的口语语素的文本。

根据图1所示的方法，在进行口语到书面语的转换时，利用文本的文本特征确定文本中的口语语素的类别，进而利用口语语素的类别将口语文本转换为书面语文本。上述技术方案考虑到了多种文本特征，使得确定出的口语语素的类别更为准确，进而可以更准确地将口语文本转换为书面语文本。

本文中所称的文本是完整的句子。本文中所称的语素可以是有一个或多个字、一个或多个词、一个或多个字和词组成的元素。本文中所称的语素可以是能够表达完整意义的元素，也可以是不能表达完整意义的元素。文本中的语素可以分为口语语素和非口语语素。非口语语素是指文本在正确表达意思时必不可少的语素，口语语素是指文本在表达正确意思时非比不可少的语素。也就是说，如果去除文本中的口语语素，该文本的所要表达的意思并不会发生改变；如果去除文本中的非口语语素，该文本则不能表达完整的意思或者该文本所表达的意思会发生改变。例如，文本“所以呢我们不会发生混淆”中，“呢”为口语语素，而“所以”、“我们”、“不会”、“发生”、“混淆”为非口语语素。

类别为插入语素的口语语素是指一些无实际意义的插入语，例如，“嗯”、“啊”、“哦”、“呃”等。如果相同的语素重复出现两次或两次以上，且这种重复并无实际意义，则可以认为这样的重复出现的语素中的其中一个可以是具有重复语素特征的口语语素。例如，“我我”中，“我”重复出现了两次，并且这种重复并没有实际意义，则可以确定“我我”中的一个“我”为口语语素。又如，文本“采用采用”中，“采用”重复出现了两次，并且这种重复并没有实际意义，则可以确定“采用采用”中的一个“采用”为口语语素。惯用搭配的重复的语素并不属于类别为重复语素的口语语素。惯用搭配的重复的语素可以是叠词(例如“亮晶晶”)或者一些惯用词或惯用短语(如“栩栩如生”)等。具有“语素1+修改词+语素2”这种搭配的语素要表示的真实意思是“修改词”后的语素，即“语素2”，其中“语素1”和“语素2”可以是名词、动词、量词等，“修改词”可以是否定词或者能够表示修改意思的词。在此情况下，可以将具有“语素1+修改词+语素2”这种搭配的口语语素中的“语素1+修改词”确定为类别为修改语素的口语语素。例如，“明天不后天”中的语素“明天”和“不”为类别是修改语素的口语语素。类别为错误开始语素(英文：false start)的口语语素是指文本是以错误的表达开始的。例如“我们运动，我们打篮球得了第一名”。该本文本意是想表达“我们打篮球得了第一名”。但是，该文本的却是以“我们运动”作为开始的。“我们运动”与该文本表达的本意没有关系，是一个错误的开始。因此“我们运动”为该文本的错误开始语素。

具体地，该根据该目标口语文本的文本特征，确定该目标口语文本的口语语素的类别，包括：将该目标口语文本的文本特征输入到口语语素分类模型，确定该目标口语文本的口语语素的类别，其中该口语语素分类模型是通过提取N个口语训练文本中的每个口语训练文本的文本特征进行训练确定的，该每个口语训练文本包括该口语语素和该非口语语素，N为大于1的正整数。

具体地，该口语语素分类模型是通过以下方式确定的：确定该每个口语训练文本的口语语素的类别；确定该每个口语训练文本的文本特征；根据该N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征，确定该口语语素分类模型。

可选的，作为一个实施例，该根据该N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征确定该口语语素分类模型，包括：使用分类算法对该N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征进行训练以确定该口语语素分类模型。该分类算法可以是支持向量机、条件随机场或者深度神经网络。

具体地，该根据该目标口语文本的口语语素的类别，确定对应于该目标口语文本的书面语文本，包括：根据该目标口语文本的口语语素的类别，使用以下任一种或多种方式确定对应于所述目标口语文本的书面语文本：基于该口语语素的类别的删除操作；使用基于该口语语素的类别的加权优先状态传导(英文：Weighted Finite-State Transducers，简称：WFST)模型；使用基于该口语语素类别训练的机器翻译模型。

可选的，作为一个实施例，可以根据该目标口语文本的口语语素的类别，使用基于该口语语素的类别的删除操作，确定对应于该目标口语文本的书面语文本。举例来说，若确定该目标口语文本的口语语素的类别包括插入语素，则可以直接将该目标口语文本中类别为插入语素的口语语素删除。此时，如果该目标口语文本中仅包括类别为插入语素的口语语素，那么删除操作后得到的文本就是对应于该目标口语文本的书面语文本。

可选的，作为另一个实施例，可以根据该目标口语文本的口语语素的类别，使用基于该口语语素的类别的WFST模型，确定对应于该目标口语文本的书面语文本。举例来说，WFST模型数据库中的WFST模型在设计时将插入语素、重复语素、修改语素以及错误开始语素的输出设置为空。这样，当确定该目标口语文本包括有口语语素的情况下，可以从WFST模型数据库中确定出对应于该目标口语文本的WFST模型，根据对应于该目标口语文本的WFST模型输出文本。由于该WFST模型中的插入语素、重复语素、修改语素以及错误开始语素的输出被设置为空，因此使用对应于该目标口语文本的WFST模型输出的文本即为对应于该目标口语文本的书面语文本。

可选的，作为另一个实施例，可以根据该目标口语文本的口语语素的类别，使用基于该口语语素的类别训练的机器翻译模型，确定对应于该目标口语文本的书面语文本。在本实施例中，该机器翻译模型在训练是考虑到了口语语素的类别。也就是说，该机器翻译模型的参数中增加了口语语素的类别。因此，在确定对应的书面语文本时，可以考虑到输入的目标口语文本的口语语素的类别，去查找相应的概率最大的输出来确定对应于该目标口语文本的书面语文本。

可选的，作为另一个实施例，还可以使用基于该口语语素的类别的删除操作、基于该口语语素的类别的WFST模型以及基于该口语语素类别的机器翻译模型中的任意两个或全部，确定对应于该目标口语文本的书面语文本。例如，可以先通过基于该口语语素类别的删除操作删除该目标口语文本中特定类别的口语语素(例如插入语素)，得到第一转换文本。然后，从WFST模型数据库中确定对应于该第一转换文本的WFST模型，利用对应于该第一转换文本的WFST模型，将该第一转换文本中的口语语素删除，确定第二转换文本。可以理解的是，由于该实施例中可以通过删除操作将目标口语文本中的插入语素删除，因此该WFST模型数据库中的WFST模型在确定过程中可以仅考虑重复语素、修改语素以及错误开始语素并将这些口语语素的输出设置为空。再如，可以先通过基于该口语语素类别的删除操作删除该目标口语文本中特定类别的口语语素(例如插入语素)，得到第一转换文本。然后，从WFST模型数据库中确定对应于该第一转换文本的WFST模型，利用对应于该第一转换文本的WFST模型，将该第一转换文本中的口语语素删除，得到第二转换文本。最后，可以使用基于该口语语素类别的机器翻译模型，将该第二转换文本转换为第三转换文本。

可以理解的是，当使用基于该口语语素的类别的删除操作、基于该口语语素的类别的WFST模型以及基于该口语语素类别的机器翻译模型中的任意两个或全部确定对应于该目标口语文本的书面语文本时，可能出现以下情况：假设该目标口语文本中仅包括类别为插入语素的口语语素，那么如果使用删除操作以及WFST模型来确定书面语文本，则仅通过删除操作就可以确定出对应于该目标口语文本的书面语文本。但是，此时通过删除操作的文本依然需要经过WFST模型来确定最终的输出文本。

通过使用基于该口语语素的类别的删除操作、基于该口语语素的类别的WFST模型以及基于该口语语素类别的机器翻译模型中的任意两个或全部来确定对应于目标口语文本的书面语文本，可以在最大程度上避免因为通过一种方式来实现口语文本到书面语文本转换过程中出现的不能完全移除口语语素的情况。

为了帮助本领域技术人员更好地理解本发明，下面将结合具体实施例对本发明进行描述。可以理解的是，该具体实施例仅是为了帮助理解本发明的技术方案，而并非对本发明技术方案的限定。

口语训练文本1：“我们明天哦不不后天去上海”为N个口语训练文本中的一个口语训练文本。对应于文本1的书面语训练文本1，为“我们后天去上海”。

可以通过提取口语训练文本1的语言模型，例如N-gram模型，来确定口语训练文本1中的词或词组的语言概率。确定每个词汇的词汇特征，例如每个词汇的词汇特征可以是每个词汇在文本中的位置。每个词汇在文本中的位置可以通过以下方式确定：首先，确定该文本中的词汇的总数；然后，确定每个词汇是该文本中的第几个词汇。举例来说，口语训练文本1中共有“我们”、“明天”、“哦”、“不”、“不”、“后天”、“去”、“上海”共8个词汇，“我们”是位于口语训练文本1中的第一个词汇，因此“我们”在口语训练文本1中的位置为1/8；“哦”是位于口语训练文本1的中的第三个词汇，因此“哦”在口语训练文本1中的位置为3/8。确定每个词汇的词性信息。每个词汇的词性信息可以是每个词汇的词性。例如“我们”为代词，可以用“PN”表示；“明天”为普通名词，可以用“NN”表示。确定每个词汇的语义信息。例如，语义信息可以是语义角色。确定每个词汇的语法信息。例如，词汇的语法信息可以是词汇的语法树祖先。

除了上述提取上述文本特征外，还可以进一步提取以下的一种或多种文本特征：词汇所在句子的总字数；当前不连贯字在口语训练文本中的位置百分比；当前不连贯字到下一个相同和不同类型的不连贯字的距离；在一棵语法树中，若当前不连贯字不在叶子节点中，确定该不连贯字的父节点的词以及父节点的词的词性信息；谓语-状语语义路径；当前不连贯字所在句子中谓语的个数。

在口语训练文本1中，句子的总字数为12。不连贯字是指类别为插入语素、重复语素和修改语素的语素。例如，在口语训练文本1中的不连贯字包括：“明天”、“哦”、“不”、“不”。当前不连贯字到下一个相同或不同类型的不连贯字的距离可以通过两个不连贯字之间的位置确定，即不连贯字1的位置与不连贯2的位置的差值。例如，口语训练文本1中，“明天”到“哦”的距离为1/8，即3/8减去2/8。口语训练文本1中的谓语-状语路径为“后天去”，谓语个数为1。

此外，还需要确定口语训练文本1中相邻词语条件概率。具体地，可以确定口语训练文本1中的每个词汇到相邻词汇的条件概率，或者确定口语训练文本1中的每个短语到相邻短语的条件概率。在计算N-gram中，一个词的概率是uni-gram，两个词的概率是bi-gram，三个词的概率是tri-gram。可以有多个词的概率，统计出来得到所有的语言模型的概率。例如“我们”到“明天”的条件概率就可以通过计算bi-gram的概率得到。可选的，作为另一个实施例，还可以确定该口语训练文本1中的每个短语到相邻短语的条件概率。

此外，还需要确定出口语训练文本1中每个口语语素的类别。在口语训练文本1中，存在类别为插入语素的口语语素(即“哦”)、类别为重复语素(即“不不”)的口语语素以及类别为修改语素(即“明天不”)的口语语素。

对于N个口语训练文本中的每个口语训练文本均执行相同的步骤。根据确定的结果(即N个口语训练文本的文本特征和N个口语训练文本的口语语素的类别)，通过使用条件随机场进行训练以得到口语语素分类模型。这样，当获取到一个待转换的目标口语文本后，可以根据该口语语素分类模型以及该目标口语文本的文本特征，确定该目标口语文本的口语语素的类别，进而可以根据该目标口语文本的口语语素的类别，确定对应于该目标口语文本的书面语文本，以移除该目标口语文本中的口语语素。

举例来说，假设输入的目标口语文本为“嗯我先介绍介绍背景技术”。可以先提取该目标口语文本的文本特征。具体文本特征的提取过程与口语训练文本的文本特征的提取过程类似，在此就不必赘述。在确定了该目标口语文本的文本特征后，可以通过事先确定的口语语素分类模型，确定出该目标口语文本的口语语素的类别。在本例中，该目标口语语素的类别包括插入语素和重复语素。在确定了口语语素的类别之后就可以确定出对应于该目标口语文本的书面语文本。

具体地，可以通过以下三种方式中的任一种或多种的结合来确定对应于该目标口语文本的书面语文本：

方式1，基于该口语语素的类别的删除操作；

方式2，使用基于该口语语素的类别的WFST模型；

方式3，使用基于该口语语素类别训练的机器翻译模型。

可选的，该基于口语语素的类别的删除操作，可以是将类别为插入语素的口语语素删除，以及将类别为重复语素的口语语素删除。这样，当使用方式1处理目标口语文本后得到的文本可以是“我先介绍背景技术”。

可选的，该基于口语语素的类别的删除操作，还可以是仅将类别为插入语素的口语语素删除。这样，当使用方式1处理目标口语文本后得到的文本为“我先介绍介绍背景技术”(为方便描述，该文本简称文本1)。在此情况下，还可以通过方式2或方式3来进一步对文本1进行后续处理。例如，可以通过查找对应于文本1的WFST模型来进行文本转换。图2是确定的对应于文本1的WFST模型。图2中“：”前的元素表示状态的输入，“：”后的元素表示状态的输出，<eps>表示状态的输出为空。可以看出，该WFST模型中的一个“介绍”的输出为空。这样，根据该WFST模型得到的文本为“我先介绍背景技术”(为方便描述，该文本简称文本2)。可以看出，根据该WFST模型得到的文本2中不含有任何口语语素。当然，还可以通过方式3来实现文本1到文本2的转换。或者，还可以在使用完方式2得到文本2后，在利用方式3对文本2进行处理。可以理解的是，该例子中文本2得到的已经是书面语文本了，因此使用方式3处理文本2后得到的文本依然为文本2。但是，在一些情况下，使用方式2处理后的文本可能还会包括一些口语语素。这样，可以再通过方式3将剩余的口语语素移除，以得到书面语文本。

口语文本到书面语文本的转换可以应用于多种场景。例如，可以应用于会议场景。会议的发言者通常是使用口语进行发言的。可以通过语音识别技术，将发言者的口语转换为口语文本。然后，可以利用本发明实施例提供的口语文本到书面语文本进行转换的方法，将口语文本转换为符合语法规则的书面语文本。与具有随意性的口语文本相比，生成的符合语法规则的书面语文本更利于机器翻译设备进行翻译。此外，如果是视频会议，还可以根据该书面语文本生成字幕。进一步，还可以根据书面语文本生成发言者的发言摘要。

图3是根据本发明实施例提供的转换文本的设备的结构框图。如图3所示，设备300包括获取单元301和确定单元302。

获取单元301，用于获取目标口语文本，该目标口语文本包括非口语语素和口语语素，该非口语语素为文本在正确表达意思时必不可少的语素，该口语语素为文本在表达正确意思时非比不可少的语素，该口语语素的类别包括：插入语素、重复语素、修改语素以及错误开始语素。

确定单元302，用于确定该目标口语文本的文本特征，该文本特征包括：词或词组的语言概率、词汇特征、词性信息、语义信息、语法信息以及相邻词语条件概率。

确定单元302，还用于根据该目标口语文本的文本特征，确定该目标口语文本的口语语素的类别。

确定单元302，还用于根据该目标口语文本的口语语素的类别，确定对应于该目标口语文本的书面语文本，该书面语文本为消除该目标口语文本中的口语语素的文本。

图3所示的设备300在进行口语到书面语的转换时，利用文本的文本特征确定文本中的口语语素的类别，进而利用口语语素的类别将口语文本转换为书面语文本。上述技术方案考虑到了多种文本特征，使得确定出的口语语素的类别更为准确，进而可以更准确地将口语文本转换为书面语文本。

确定单元302，具体用于将该目标口语文本的文本特征输入到口语语素分类模型，确定该目标口语文本的口语语素的类别，其中该口语语素分类模型是通过提取N个口语训练文本中的每个口语训练文本的文本特征进行训练确定的，该每个口语训练文本包括该口语语素和该非口语语素，N为大于1的正整数。

确定单元302，还用于确定该每个口语训练文本的口语语素的类别，确定该每个口语训练文本的文本特征，根据该N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征确定该口语语素分类模型。

可选的，作为一个实施例，确定单元302，具体用于使用分类算法对该 N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征进行训练以确定该口语语素分类模型。该分类算法可以是支持向量机、条件随机场或者深度神经网络。

具体地，确定单元302，具体用于根据该目标口语文本的口语语素的类别，使用以下任一种或多种方式确定对应于该目标口语文本的书面语文本：基于该口语语素的类别的删除操作；使用基于该口语语素的类别的加权有限状态传导WFST模型；使用基于该口语语素的类别训练的机器翻译模型。

图4是根据本发明实施例提供的应用于会议的文本转换系统的示意图。如图4所示，系统400可以包括语音识别设备410、转换文本设备420。系统400还可以包括以下中的一个或多个：机器翻译设备430、字幕生成设备440和摘要生成设备450。

语音识别设备410，用于将输入的语音信号转换为文本。

转换文本设备420，用于将语音识别设备410转换的文本转换为书面语文本。

机器翻译设备430，用于将转换文本设备420转换的书面语文本翻译为另一语言的文本。

字幕生成设备440，用于生成转换文本设备420转换的书面语文本的字幕，并在相应的显示屏幕上显示生成的字幕。

摘要生成设备450，用于根据转换文本设备420转换的书面语文本生成对应的摘要。

可选的，字幕生成设备440还可以生成机器翻译设备430翻译的另一语音的字幕，并在相应的显示屏幕上显示生成的字幕。类似的，摘要生成设备450也可以根据机器翻译设备430翻译的另一语言的文本生成对应的另一语言的摘要。

可以理解的是，若转换文本设备420确定出语音识别设备410转换的文本已经是书面语文本，则转换文本设备420可以直接输出书面语文本。

可选的，转换文本设备420可以是采用如图1所示的方法的设备，即可以是如图3所示的设备300。

系统400可以提供更方便的会议系统，帮助与会人员更高效地理解会议内容，并且便于会议内容的总结。

图5是根据本发明实施例提供的转换文本的设备的结构框图。图5所示的设备500包括：处理器501和存储器502。

设备500中的各个组件通过总线系统503耦合在一起，其中总线系统503除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统503。

上述本发明实施例揭示的方法可以应用于处理器501中，或者由处理器501实现。处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read-Only Memory，ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的指令，结合其硬件完成上述方法的步骤。

处理器501，用于获取目标口语文本，该目标口语文本包括非口语语素和口语语素，该口语语素的属性包括：插入语素、重复语素、修改语素以及错误开始语素。

处理器501，用于获取目标口语文本，该目标口语文本包括非口语语素和口语语素，该非口语语素为文本在正确表达意思时必不可少的语素，该口语语素为文本在表达正确意思时非比不可少的语素，该口语语素的类别包括：插入语素、重复语素、修改语素以及错误开始语素。

处理器501，还用于确定该目标口语文本的文本特征，该文本特征包括：词或词组的语言概率、词汇特征、词性信息、语义信息、语法信息以及相邻词语条件概率。

处理器501，还用于根据该目标口语文本的文本特征，确定该目标口语文本的口语语素的类别。

处理器501，还用于根据该目标口语文本的口语语素的类别，确定对应于该目标口语文本的书面语文本，该书面语文本为消除该目标口语文本中的口语语素的文本。

图5所示的设备500在进行口语到书面语的转换时，利用文本的文本特征确定文本中的口语语素的类别，进而利用口语语素的类别将口语文本转换为书面语文本。上述技术方案考虑到了多种文本特征，使得确定出的口语语素的类别更为准确，进而可以更准确地将口语文本转换为书面语文本。

进一步，处理器501，具体用于将该目标口语文本的文本特征输入到口语语素分类模型，确定该目标口语文本的口语语素的类别，其中该口语语素分类模型是通过提取N个口语训练文本中的每个口语训练文本的文本特征进行训练确定的，该每个口语训练文本包括该口语语素和该非口语语素，N为大于1的正整数。

处理器501，还用于确定该每个口语训练文本的口语语素的类别，确定该每个口语训练文本的文本特征，根据该N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征确定该口语语素分类模型。

处理器501，具体用于使用分类算法对该N个口语训练文本的口语语素的类别和该N个口语训练文本的文本特征进行训练以确定该口语语素分类模型。该分类算法可以是支持向量机、条件随机场或者深度神经网络。

具体地，处理器501，具体用于根据该目标口语文本的口语语素的类别，使用以下任一种或多种方式确定对应于该目标口语文本的书面语文本：基于该口语语素的类别的删除操作；使用基于该口语语素的类别的加权有限状态传导WFST模型；使用基于该口语语素的类别训练的机器翻译模型。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些属性可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，因此本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马林;冯雁;王林林;张伟彬;
技术所有人：华为技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。