面向智能机器人系统的多语言文本混合朗读方法及系统与流程

文档序号：13761606阅读：401来源：国知局

本发明属于智能机器人领域，尤其涉及一种面向智能机器人系统的多语言文本混合朗读方法及系统。

背景技术：

随着智能机器人的广泛应用，其被越来越多的用于多语言混合交叉次序朗读的应用中。

智能机器人的语音输出主要通过文本转语音(Text To Speech，TTS)技术来实现。现有的多语种混合交叉次序朗读，大部分都是通过一个TTS引擎来实现，例如常见的中英文混合朗读。

上述方案中存在的问题是，为了实现中英文混合朗读，必须选用支持中文、英文朗读TTS引擎，同时这种支持多语言混合朗读的引擎往往会发生交叉朗读错误的现象，因此缺乏灵活性。另外，支持混合朗读的语种较少，例如中英混合TTS引擎常见、但是中俄、中日等混合TTS引擎较少。并且支持TTS混合朗读的引擎成本较高。

技术实现要素：

本发明所要解决的技术问题之一是需要提供一种用于实现多语言文本的多语言混合朗读的方法。

为了解决上述技术问题，本申请的实施例首先提供了一种面向智能机器人系统的多语言文本混合朗读方法，包括智能机器人端将获取的待混合朗读输出的多语言文本发送至云服务器；云服务器根据所述多语言文本的语言类型标注不同的语音合成引擎的类型，并将标注的结果反馈回至智能机器人端；智能机器人端根据反馈的信息调用相应的语音合成引擎对所述多语言文本进行朗读输出。

优选地，所述云服务器根据所述多语言文本的语言类型标注不同的语音合成引擎的类型，包括：根据所述多语言文本的语言类型将文本划分为至少一个文本段；基于各文本段的语言类型标注与该段文本相对应的语音合成引擎的类型。

优选地，所述语音合成引擎为单一语种的语音合成引擎。

优选地，所述将标注的结果反馈回至智能机器人端，包括：将所述各文本段及与该段文本相对应的语音合成引擎的类型封装为数组，其中，每个文本段对应于数组中的一个数组元素；将所述数组反馈回至智能机器人端。

优选地，所述智能机器人端根据反馈的信息调用相应的语音合成引擎对所述多语言文本进行朗读输出，包括：依次读取所述数组的各数组元素，并对所述数据元素进行解析；根据解析结果中标注的语音合成引擎的类型调用相应的语音合成引擎；利用调用的语音合成引擎对所述多语言文本进行朗读输出。

本申请的实施例还提供了一种面向智能机器人系统的多语言文本混合朗读系统，包括：传输模块，位于智能机器人端，其将获取的待混合朗读输出的多语言文本发送至云服务器；标注反馈模块，位于云服务器，其根据所述多语言文本的语言类型标注不同的语音合成引擎的类型，并将标注的结果反馈回至智能机器人端；朗读输出模块，位于智能机器人端，其根据反馈的信息调用相应的语音合成引擎对所述多语言文本进行朗读输出。

优选地，所述标注反馈模块在根据所述多语言文本的语言类型标注不同的语音合成引擎的类型时，根据所述多语言文本的语言类型将文本划分为至少一个文本段，并基于各文本段的语言类型标注与该段文本相对应的语音合成引擎的类型。

优选地，所述语音合成引擎为单一语种的语音合成引擎。

优选地，所述标注反馈模块在将标注的结果反馈回至智能机器人端时，将所述各文本段及与该段文本相对应的语音合成引擎的类型封装为数组，其中，每个文本段对应于数组中的一个数组元素；并所述数组反馈回至智能机器人端。

优选地，所述朗读输出模块在根据反馈的信息调用相应的语音合成引擎对所述多语言文本进行朗读输出时，依次读取所述数组的各数组元素，并对所述数据元素进行解析；根据解析结果中标注的语音合成引擎的类型调用相应的语音合成引擎；利用调用的语音合成引擎对所述多语言文本进行朗读输出。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

通过根据语言类型对待朗读输出的多语言文本进行分段，并针对划分得到的文本段分别调用不同的单一语种的语音合成引擎来完成多语言的混合朗读输出，解决了现有技术中混合朗读灵活性低，成本高以及准确性低的问题，改善了用户体验。

本发明的其他优点、目标，和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书，权利要求书，以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为根据本发明第一实施例的面向智能机器人系统的多语言文本混合朗读方法的流程示意图；

图2为根据本发明第二实施例的面向智能机器人系统的多语言文本混合朗读方法的流程示意图；

图3为根据本发明第三实施例的面向智能机器人系统的多语言文本混合朗读方法的流程示意图；

图4为根据本发明第四实施例的面向智能机器人系统的多语言文本混合朗读系统的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

第一实施例：

图1为根据本发明一实施例的面向智能机器人系统的多语言文本混合朗读方法的流程示意图，如图所示，该方法包括：

步骤S110、智能机器人端将获取的待混合朗读输出的多语言文本发送至云服务器。

步骤S120、云服务器根据多语言文本的语言类型标注不同的语音合成引擎的类型，并将标注的结果反馈回至智能机器人端。

步骤S130、智能机器人端根据反馈的信息调用相应的语音合成引擎对多语言文本进行朗读输出。

在步骤S110中，通过智能机器人端接收待混合朗读输出的多语言文本，可以通过内部的数据库获取，也可以由用户通过智能机器人端的接收装置输入。在本发明实施例中，对多语言文本的处理是在云服务器中完成的，因此智能机器人端随后将待混合朗读输出的多语言文本发送至云服务器。

在步骤S120中，云服务器对接收到的多语言文本进行处理。通过对多语言文本进行分析得到文本中所包含的语言类型，并对应多语言文本的语言类型标注不同的语音合成引擎的类型。

假设在本实施例的多语言文本中包含至少两种以上的语言的文字，现有技术中，一般通过调用对应于支持多种语言朗读的TTS混合合成引擎来实现的。而在本发明的实施例中，在调用TTS合成引擎对多语言文本进行朗读之前，先对多语言文本的内容进行分析。

具体为，根据多语言文本的语言类型将文本划分为至少一个文本段，再基于各文本段的语言类型标注与该段文本相对应的TTS语音合成引擎的类型。通过划分得到的对多语言文本，每个文本段内部都只包含单一的一种语言类型，因此分别对各文本段进行朗读，可以只调用单一语种的TTS语音合成引擎来完成朗读。由于不再需要调用多语言语音合成引擎，因此有利于改善TTS语音合成的准确度以及提高朗读质量。

进一步地，在步骤S120中，在云服务器完成多语言文本的文本段的划分以及语音合成引擎的标注之后，将标注的结果反馈回至智能机器人端。具体为，云服务器将划分得到的各文本段及与该段文本相对应的语音合成引擎的类型封装为数组，其中，每个文本段对应于数组中的一个数组元素。再将由多语言文本的全部文本段以及与该段文本相对应的语音合成引擎的类型所组成的数组反馈回至智能机器人端。

在本发明的实施例中，以数组的形式返回文本段及对应的语音合成引擎的类型信息，可以方便接下来的查询与执行朗读，有利于提高TTS语音合成的合成效率。

在步骤S130中，智能机器人端接收从云服务器反馈回来的数组，并通过对数组进行解析来对多语言文本实施朗读输出。具体为，依次读取反馈回来的数组中的每个数组元素，并对各数组元素进行解析。通过解析数组元素获取标注的语音合成引擎的类型，再根据语音合成引擎的类型调用相应的语音合成引擎对多语言文本进行朗读输出。

由于已经对多语言文本进行了分段，且每个文本段都只包含单一的语言类型，因此根据标注信息调用的语音合成引擎为单一语种的语音合成引擎。单一语种的语音合成引擎较混合语音合成引擎稳定，且成本更低。本发明实施例在降低TTS语音合成成本的同时有利于增加语音合成的准确度，提高朗读质量，改善用户体验。

第二实施例：

图2为根据本发明第二实施例的面向智能机器人系统的多语言文本混合朗读方法的流程示意图，在本实施例中，进一步对如何将多语言文本划分为不同的文本段进行说明，以下仅针对其与第一实施例中的不同之处详细说明。

在步骤S210中，智能机器人端将待混合朗读输出的原始文本信息发送至云服务器，该步骤执行与第一实施例中步骤S110相同的操作，不再赘述。

接下来，云服务器根据多语言文本的语言类型对多语言文本进行分段。具体的，根据多语言文本的自然段落划分文本段。

依次读取多语言文本中的各自然段落，并通过分析判断该段落内是否为同一种语言类型，如图2的步骤S220所示。如果该自然段落内仅包含一种语言类型，则根据该语言类型标注对应的语音合成引擎的类型，如步骤S230所示。如果该自然段落内包含两种或两种以上的语言类型，则对该自然段落进行进一步划分，如步骤S240所示。

在对包含两种或两种以上的语言类型的段落进行进一步划分时，可以采用以固定长度的段对多语言文本进行划分的方式。具体的，在步骤S240中，首先从段落中划分出一个与预设的段落的长度一致的新的段落，这样，原段落被划分为两个段落。然后依次考察这两个段落，即判断划分的各段落内是否为同一种语言类型，如图步骤S250所示。

如果按照预设的段落的长度划分得到的段落中仅包含一种语言类型，则执行步骤S230，根据该语言类型标注对应的语音合成引擎的类型。

如果按照预设的段落的长度划分得到的段落中仍包含两种或两种以上的语言类型，则返回步骤S240，对该段落再按照预设的段落长度进行划分，需要注意的是，再次划分时所使用的预设的段落长度小于前一次划分时的预设的段落的长度，分别记为第一预设段落长度与第二预设段落长度。如果此处还需要多次划分，则分别采用第三预设段落长度、第四预设段落长度等来表示每次划分的长度标准。

然后再考察除去按照预设的段落的长度划分得到的段落后剩下的段落，考察方法相同，不再赘述。

需要注意的是，对段落进行划分，在段落的结尾处，当剩余的未划分的段落的长度小于预设的段落的长度时，将剩余的未进行划分的内容作为一个文本段，再分别判断上述每个新的段落中是否包含单一的语言类型。

在步骤S260中，在完成一个段落的语音合成引擎的类型的标注后，判断该段是否为最后一个段落，如果不是最后一个段落，则返回步骤S220对下一个段落继续考察，如果已经为最后一个段落，则结束标注过程。

在完成多语言文本中最后一个段落的语音合成引擎的类型的标注后，由云服务器将标注的结果反馈回至智能机器人端。智能机器人端根据反馈的信息调用相应的语音合成引擎对多语言文本进行朗读输出。

本发明实施例的方法，通过参考多语言文本中的自然段落信息来对多语言文本进行划分，自然段落的边界易于确定，且由于自然段落内部一般只包含有一种语言类型，因此该方法有利于提高分段的速度，同时降低分段与标注语言合成引擎的类型的操作的复杂度。

该实施例可以用于不同语言类型的分布较复杂的多语言文本的划分。

第三实施例：

图3为根据本发明第三实施例的面向智能机器人系统的多语言文本混合朗读方法的流程示意图，在本实施例中，采用了与第二实施例中不同的对多语言文本进行分段的方式，以下仅针对其与第二实施例中的不同之处详细说明。

如图3所示，如果通过判断得出被考察的自然段落内为同一种语言类型，则转入步骤S330执行。在步骤S330中，继续判断该段落与前一段落所包含的语言类型是否相同，如果该段落与前一段落所包含的语言类型相同，则将该段落与前一段落合并为一个段落，合并后的段落使用已经针对前一段落标注的同一种语音合成引擎。如果该段落与前一段落所包含的语言类型不相同，则根据该段落所包含的语言类型标注对应的语音合成引擎。

合并段落或标注语音合成引擎之后，判断该段落是否为最后一个段落，如果不是最后一个段落，则返回步骤S320对下一个段落继续考察，如果已经为最后一个段落，则结束标注过程。

又如图3所示，当通过判断得出被考察的段落内不只包含一种语言类型时，执行与第二实施例的步骤S240相同的操作，从段落中划分出一个与预设的段落的长度一致的新的段落，再将新划分得到的段落作为当前考察的段落，直到通过判断得出被考察的段落内只包含一种语言类型时，转至步骤S330执行，即进入图3中右边分支的循环。

通过上述操作，能够实现以多语言文本中的真实的不同语言类型之间的分界来划分文本段，有利于减少标注项目。特别是当多语言文本较大，所包含的语言类型较少，且分布较为集中的时候，本发明实施例的方法能够显著地减少最终标注的项目。

在本实施例中，语音合成引擎的标注结果也是以数组的形式返回，当标注项目减少的时候，对应的数据元素也相应地减少，可以简化反馈结果，利于数据的传输。另外，记录标注结果的数组得到简化后，根据数组元素获取对应的语音合成引擎并对文本段进行朗读输出时，其操作也得到简化，有利于提高朗读输出的效率，减少朗读过程中的停滞与不连贯的情形，改善用户体验。

以上第二实施例与第三实施例中的划分文本段的方法仅用于说明对多语言文本进行分段时的可操作性，并不构成对本发明的限定，能够实现将需要混合语音合成引擎朗读输出的多语言文本划分为利用单一语种的语音合成引擎朗读输出的多个文本段的方法，均在本发明的保护范围内。

第四实施例：

图4为根据本发明第四实施例的面向智能机器人系统的多语言文本混合朗读系统的结构示意图，如图所示，该系统包括：

传输模块41，位于智能机器人端，其将获取的待混合朗读输出的多语言文本发送至云服务器。

标注反馈模块42，位于云服务器，其根据多语言文本的语言类型标注不同的语音合成引擎的类型，并将标注的结果反馈回至智能机器人端。

朗读输出模块43，位于智能机器人端，其根据反馈的信息调用相应的语音合成引擎对多语言文本进行朗读输出。

具体的，标注反馈模块42在根据多语言文本的语言类型标注不同的语音合成引擎的类型时，根据多语言文本的语言类型将文本划分为至少一个文本段，并基于各文本段的语言类型标注与该段文本相对应的语音合成引擎的类型。

标注反馈模块42在将标注的结果反馈回至智能机器人端时，将各文本段及与该段文本相对应的语音合成引擎的类型封装为数组，其中，每个文本段对应于数组中的一个数组元素，并得到的数组反馈回至智能机器人端。

朗读输出模块43在根据反馈的信息调用相应的语音合成引擎对所述多语言文本进行朗读输出时，依次读取所述数组的各数组元素，并对数据元素进行解析，根据解析结果中标注的语音合成引擎的类型调用相应的语音合成引擎，利用调用的语音合成引擎对多语言文本进行朗读输出。

进一步地，标注反馈模块42也可以采用如第二实施例和第三实施例中提出的不同的分段方法对多语言文本进行分段，此处不再赘述。

本发明实施例的多语言文本混合朗读系统，解决了现有技术中在对多语言文本进行朗读输出的时候不够灵活的问题。本实施例中的系统只需要调用多个单一语种的语音合成引擎即可完成多语言的混合朗读输出，系统构成简单，成本显著降低。

由于单一语种的语音合成引擎已经较为成熟，且类型较为丰富，因此本发明实施例的多语言文本混合朗读系统能够支持现有技术中由于缺乏混合语音合成引擎而朗读输出的文本，应用更加广泛。

本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王合心;
技术所有人：北京光年无限科技有限公司;
我是此专利的发明人

上一篇：稳定音色的音乐语音变调方法与流程
上一篇：基于分形声学超材料的宽带声聚焦透镜及其制备方法与流程