用于语音翻译的方法、装置、电子设备和存储介质与流程

文档序号：16236738发布日期：2018-12-11 22:40阅读：164来源：国知局

本公开的实施例一般地涉及信息处理技术领域，并且更特别地，涉及一种用于语音翻译的方法、装置、电子设备和计算机可读存储介质。

背景技术

语音翻译是指将一种语言(也称为源语言)的语音转换为另一种语言(也称为目标语言)的语音，其可以解决使用不同语言的人们跨语言的沟通问题。传统的语音翻译设备的主要工作原理是首先进行语音识别，然后调用机器翻译系统得到译文，最后调用语音合成将译文输出为语音。

然而，这种传统的语音翻译方案仅利用了用户输入的语音信息，而没有利用其他可能的相关信息。这可能导致语音翻译的效果不佳，在许多语音翻译的场景中将无法满足用户的需求。

技术实现要素：

本公开的实施例涉及一种用于语音翻译的方法、装置、电子设备和计算机可读存储介质。

在本公开的第一方面，提供了一种用于语音翻译的方法。该方法包括：确定与来自用户的、源语言形式的源语音数据中的命名实体相对应的音素序列，音素序列包括源语言形式的至少一个音素。该方法还包括：基于音素序列和用户的地理位置，确定命名实体的目标语言形式的目标文字表示。该方法进一步包括：基于目标文字表示，生成与源语音数据相对应的、目标语言形式的目标语音数据。

在本公开的第二方面，提供了一种用于语音翻译的装置。该装置包括：第一确定模块，被配置为确定与来自用户的、源语言形式的源语音数据中的命名实体相对应的音素序列，音素序列包括源语言形式的至少一个音素。该装置还包括：第二确定模块，被配置为基于音素序列和用户的地理位置，确定命名实体的目标语言形式的目标文字表示。该装置进一步包括：生成模块，被配置为基于目标文字表示，生成与源语音数据相对应的、目标语言形式的目标语音数据。

在本公开的第三方面，提供了一种电子设备。该电子设备包括一个或多个处理器；以及存储装置，用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现第一方面的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其他特征通过以下的描述将变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施例，其中：

图1示出了本公开的一些实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的用于语音翻译的方法的示意性流程图；

图3示出了根据本公开的实施例的用于语音翻译的装置的示意性框图；以及

图4示出了一种可以被用来实施本公开的实施例的设备的示意性框图。

贯穿所有附图，相同或者相似的参考标号被用来表示相同或者相似的组件。

具体实施方式

下面将参考附图中所示出的若干示例性实施例来描述本公开的原理和精神。应当理解，描述这些具体的实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开，而并非以任何方式限制本公开的范围。

如上文指出的，传统的语音翻译方案仅利用了用户输入的语音信息，而没有利用其他可能的相关信息。这可能导致语音翻译的效果不佳，在很多语音翻译的场景中将无法满足用户的需求。

作为具体的示例，如果用户需要翻译的语音是“请问youming地铁站怎么走？”时，传统的语音翻译方案可能出现翻译错误。例如，由于不具有与用户相关的地理位置信息和知识，传统的语音翻译方案可能将用户的上述语音中的地名“youming”误识别为形容词“有名”，进而导致翻译错误，最终给出错误的翻译语音“howtogotothefamousstation？”。

作为另外的示例，在可能的其他语音翻译场景中，读音相同的多个地点可能实际上具有不同的名称，因此具有不同的语音翻译。例如，对于汉语拼音的发音“dongchong”，深圳有一个地方名为“东冲”，而香港也有一个名为“东涌”的地方。又例如，对于汉语拼音的发音“zhongguo”，日本有一个地区也叫“中国”。在另外的场景中，相同的地名在不同的地理位置可能具有完全不同的读音，例如“汉堡王”在澳大利亚习惯上称为“hungryjack’s”，等等。

发明人通过研究发现，传统的语音翻译方案在上述语音翻译场景中无法取得令人满意的翻译结果。主要原因在于，在进行语音翻译的过程中，传统的方案没有考虑到与用户有关的地理位置信息，从而导致对用户语音的识别和翻译都会存在不准确的问题。

发明人通过研究还发现，用户的地理位置信息对于提高语音翻译的准确性有非常大的帮助。例如，对于命名实体，诸如人名、地名、机构名、专有名词等，在语音翻译的过程中引入用户的地理位置信息，可以提高对用户语音中所提及的命名实体的翻译准确性。在上文描述的场景中，考虑到用户所在的地理位置可以消除命名实体的歧义，获得更准确的译文。

鉴于发明人的以上分析和研究，本公开的实施例提出了一种用于语音翻译的方法、装置、电子设备和计算机可读存储介质，以改进语音翻译的准确性。本公开的实施例通过利用用户的地理位置信息，可以消除语音识别和语音翻译中存在的歧义，进而提高语音翻译准确性。本公开的实施例尤其适合用于出境旅游等场景，可以应用在移动电话的翻译应用程序、翻译机等产品中。下面结合附图来描述本公开的若干实施例。

图1示出了本公开的一些实施例能够在其中实现的示例环境100的示意图。如图1所示，在示例环境100中，用户110使用一种语言(也称为源语言)向计算设备120发出语音而产生语音数据，也称为源语音数据115。在该示例中，源语言为中文，并且用户110以中文说出“请问，去有明地铁站怎么走？”。例如，用户110可能正在日本进行出境旅游，而需要计算设备120将上述源语音数据115翻译成另一种语言，也称为目标语言。

计算设备120获取源语音数据115，并将源语音数据115转换为目标语言的语音数据，称之为目标语音数据125。在该示例中，目标语言是英语。应当理解，上述示例仅仅是为了说明的目的，而无意限制本公开的实施例的范围。例如，在其他实施例中，源语言也可以是英语、法语、日语等任何语言，目标语言也可以是中文、法语、日语等任何语言。

将理解，计算设备120可以是任意类型的移动终端、固定终端或便携式终端，包括移动电话、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(pcs)设备、个人导航设备、个人数字助理(pda)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还预见到的是，计算设备120能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

此外，应当注意，在本公开的上下文中，术语“语音”是指具有语言属性的音频。尽管图1示出了由用户110来发出语音，但这仅仅是示例性的。在其他实施例中，语音也可以由扬声器等电子设备发出。因此，除非上下文另外明确指出语音仅可以由用户110发出，否则由用户110发出的“语音”不限于源自用户110，而是也可以由其他设备或装置发出。

图2示出了根据本公开的实施例的用于语音翻译的方法200的示意性流程图。在一些实施例中，方法200可以由图1的计算设备120来实现，例如可以由计算设备120的处理器或处理单元来实现。在其他实施例中，方法200的全部或部分也可以由独立于计算设备系统120的计算设备来实现，或者可以由示例环境100中的其他单元来实现。为便于讨论，将结合图1来描述方法200。

在210处，计算设备120确定与来自用户110的、源语言形式的源语音数据115中的命名实体相对应的音素序列，该音素序列包括源语言形式的至少一个音素。例如，在图1示出的示例场景中，计算设备120确定命名实体“有明”的音素序列“youming”。

一般性地，在本文的上下文中，所谓的音素序列中的音素可以是表示源语言的声音的单位。例如，在源语言是中文时，音素可以对应于拼音，在源语言是英文时，音素可以对应于音标，等等。应当理解，上述示例仅仅是为了说明的目的，而无意限制本公开的实施例的范围。

在一些实施例中，为了确定与命名实体相对应的音素序列，计算设备120可以首先将源语音数据115识别为源语言形式的源文本。例如，在图1的示例场景中，计算设备120可以将用户110发出的源语音数据115识别为以源语言形式的源文本“请问，去有明地铁站怎么走？”

接着，计算设备120可以对该源文本进行分词以确定命名实体的源语言形式的源文字表示。例如，计算设备120可以通过分词而识别出源文本“请问，去有明地铁站怎么走？”中的“有明”。然后，计算设备120可以将命名实体的源文字表示转换为源语言形式的音素序列。例如，计算设备120可以将“有明”转换为拼音表示的“youming”，从而获得与命名实体相对应的音素序列。通过这样的方式，计算设备120可以高效而准确地识别出源语音数据115中包括的命名实体的音素序列。

在其他实施例中，计算设备120也可以先对源语音数据115进行读音标注得到“qingwen，quyoumingditiezhanzanmezou？”，然后再进行分词，从而确定与命名实体相对应的音素序列“youming”。在另外的实施例中，计算设备120可以使用任何适当的方式从用户110的源语音数据115中确定与命名实体相对应的音素序列。

如上文提及的，在对源语音数据115进行语音识别的过程中，利用用户110的地理位置信息可以改进语音识别的准确性。例如，计算设备120通过用户110的地理位置信息可以获取用户110所在的地点，而该地点可能与多个命名实体(例如，地名)相关联。用户110在需要翻译的源语音数据115中可能提到这些地名，例如“有明”。在这种情况下，如果在上述分词的过程中不考虑用户110的地理位置，可能将无法准确地识别出用户110所提到的地名。

因此，在一些实施例中，在对源语音数据115的源文本进行分词时，计算设备120可以确定与用户110的地理位置相关联的、源语言形式的命名实体集合。例如，在图1的示例场景中，用户110的地理位置是日本，而与日本相关联的命名实体集合可能是“东京、大阪、横滨、有明……”，等等。然后，计算设备120可以基于该命名实体集合对源语音数据115的源文本进行分词，从而可以避免将地名“有明”误识别为形容词“有名”。通过这样的方式，计算设备120可以改进语音识别(特别是分词操作)的准确性。

在一些实施例中，用户110的地理位置例如可以通过具有定位功能的移动终端或者其他带有定位装置的仪器来获取。在其他实施例中，与用户110有关的地理位置也可以通过任何其他适合的方式来获取，例如，可以由用户110向计算设备120输入所在的地理位置，或者用户110需要查询的地理位置。此外，应当理解，在本文的上下文中提到的特定地理位置仅仅是为了说明的目的，而无意限制本公开的实施例的范围。

在220处，计算设备120基于命名实体的音素序列和用户110的地理位置，确定命名实体的目标语言形式的目标文字表示。例如，在图1示出的示例场景中，计算设备120可以通过定位系统(诸如gps)确定用户110当前的地理位置是日本。进而，计算设备120基于命名实体的音素序列“youming”和地理位置“日本”，确定命名实体的目标语言(例如，英文)形式的目标文字表示“ariake”。

在一些实施例中，为了确定命名实体的目标语言形式的目标文字表示，计算设备120可以利用命名实体的音素序列和用户110的地理位置为索引，在预定词典中查找与命名实体相关联的条目。该预定词典的条目可以包括命名实体的音素序列、目标文字表示和地理位置。换言之，该预定词典提前建立了命名实体的地理位置、源语言的音素序列、目标语言的目标文字表示之间的映射关系。因此，计算设备120可以从该条目获得命名实体的目标文字表示。

通过查找词典的方式，计算设备120可以快速而准确地确定出命名实体的目标语言形式的目标文字表示。在一些实施例中，该预定词典中的条目还可以包括命名实体的源语言形式的源文字表示和命名实体的类型等其他信息，以便对词典的条目进行更有效的管理，并且增加条目的索引方式。

作为非限制性的示例，该预定词典中的每个数据条目可以是一个五元组(s，y，t，p，k)，其中s是指命名实体在源语言中的文字表示，y是指命名实体在源语言中的音素序列，t是命名实体在目标语言中的文字表示，p是与命名实体有关的地理位置，k是命名实体的类型。

例如，该预定词典中的词条可能是(有明，youming，ariake，日本|东京，loc)，(汉堡王，hanbaowang，hungryjack’s，澳大利亚，restraunt)，等等。条目中的数据类型可以依据实际需求定义，例如可以是地点(loc)、饭店(restraunt)、酒店(hotel)、医院(hospital)，等等。

在这样的情况下，对于图1的示例场景，计算设备120可以通过命名实体“有明”的音素序列“youming”以及用户110的地理位置信息(例如，日本)，从该预定词典中检索到匹配词条“有明，youming，ariake，日本，loc”，从而确定命名实体“有明”的目标语言形式的目标文字表示“ariake”。

应当理解，上文描述的通过查找预定词典来确定目标文字表示的方式仅是说明性的，无意限制本公开的实施例的范围。例如，在其他实施例中，计算设备120也可以通过任何适当的其他方式从命名实体的音素序列和用户110的地理位置来确定出命名实体的目标语言形式文字表示。

在230处，计算设备120基于命名实体的目标文字表示，生成与源语音数据115相对应的、目标语言形式的目标语音数据125。例如，在图1的示例场景中，计算设备120基于确定得出的“有明”的英文文字表示“ariake”来生成目标语音数据125，例如“excuseme,howtogototheariakesubwaystation？”。

在一些实施例中，为了生成目标语言形式的目标语音数据125，计算设备120可以将源语音数据115的源文本翻译为目标语言形式的目标文本(例如，英文文本)。接着，计算设备120可以利用所确定得出的命名实体的目标文字表示来调整该目标文本，进而将经调整的目标文本转换为目标语音数据。通过这样的方式，计算设备120可以充分利用已有的语音翻译流程和工具，而仅需要进行有限的调整，从而节省了计算设备120的操作负担。

继续以图1的场景为示例，计算设备120可以初始地将中文形式的“请问，去有明地铁站怎么走？”翻译为“excuseme,howtogotothefamoussubwaystation？”。接着，计算设备120利用所确定得出的“有明”的英文表示“ariake”来调整上述译文。例如，该调整可能包括将译文中的单词“famous”替换为“ariake”。然后，计算设备120可以通过从文本到语音(tts)的转换技术将上述英文本文转换为英文语音。

在其他实施例中，计算设备120也可以利用命名实体的目标文字表示对源语音数据115的源文本进行后处理，例如使用“有明”在预定词典中的词条形式来替换源文本中对应的词语，并同时标记出命名实体的目标文本和类型，诸如可以得到文本“请问，去有明|ariake|loc地铁站怎么走？”。

此后，计算设备120可以调用机器翻译系统对上述文本进行翻译。例如，使用目前的基于神经网络的机器翻译，可以对源语言文本的句子进行强制解码，将标记的词语或者短语强制输出为正确的结果，也即“excuseme,howtogototheariakesubwaystation？”。

通过上述示例可知，本公开的实施例通过在语音翻译的过程中引入与用户有关的地理位置信息，可以正确地识别出用户的语音中的命名实体，进而可以得到与命名实体相关联的正确语音翻译，因此消除了语音识别和翻译的歧义，提高了语音翻译准确性。

图3示出了根据本公开的实施例的用于语音翻译的装置300的示意性框图。在一些实施例中，装置300可以被包括在图1的计算设备120中或者被实现为计算设备120。

如图3所示，装置300包括第一确定模块310、第二确定模块320和生成模块330。第一确定模块310被配置为确定与来自用户的、源语言形式的源语音数据中的命名实体相对应的音素序列，音素序列包括源语言形式的至少一个音素。第二确定模块320被配置为基于音素序列和用户的地理位置，确定命名实体的目标语言形式的目标文字表示。生成模块330被配置为基于目标文字表示，生成与源语音数据相对应的、目标语言形式的目标语音数据。

在一些实施例中，第一确定模块310还包括：第一识别模块，被配置为将源语音数据识别为源语言形式的源文本；分词模块，被配置为对源文本进行分词以确定命名实体的源语言形式的源文字表示；以及第一转换模块，被配置为将源文字表示转换为源语言形式的音素序列。

在一些实施例中，分词模块还包括：第三确定模块，被配置为确定与地理位置相关联的、源语言形式的命名实体集合；并且分词模块还被配置为基于命名实体集合对源文本进行分词。

在一些实施例中，第二确定模块320还包括：查找模块，被配置为以音素序列和地理位置为索引，在预定词典中查找与命名实体相关联的条目，条目包括音素序列、目标文字表示和地理位置；以及获得模块，被配置为从条目获得目标文字表示。

在一些实施例中，条目还包括以下至少一项：命名实体的源语言形式的源文字表示、以及命名实体的类型。

在一些实施例中，生成模块330还包括：第二识别模块，被配置为将源语音数据识别为源语言形式的源文本；翻译模块，被配置为将源文本翻译为目标语言形式的目标文本；调整模块，被配置为利用目标文字表示来调整目标文本；以及第二转换模块，被配置为将经调整的目标文本转换为目标语音数据。

图4示意性地示出了一种可以被用来实施本公开的实施例的设备400的框图。如图4中所示出的，设备400包括中央处理单元(cpu)401，其可以根据存储在只读存储设备(rom)402中的计算机程序指令或者从存储单元408加载到随机访问存储设备(ram)403中的计算机程序指令，来执行各种适当的动作和处理。在ram403中，还可存储设备400操作所需的各种程序和数据。cpu401、rom402以及ram403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。

设备400中的多个部件连接至i/o接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200可由处理单元401来执行。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由rom402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序被加载到ram403并由cpu401执行时，可以执行上文描述的方法200的一个或多个步骤。

如本文所使用的，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。本文还可能包括其他明确的和隐含的定义。

如本文所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可以包括运算、计算、处理、导出、调查、查找(例如，在表格、数据库或另一数据结构中查找)、查明等。此外，“确定”可以包括接收(例如，接收信息)、访问(例如，访问存储器中的数据)等。此外，“确定”可以包括解析、选择、选取、建立等。

应当注意，本公开的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。

此外，尽管在附图中以特定顺序描述了本公开的方法的操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤组合为一个步骤执行，和/或将一个步骤分解为多个步骤执行。还应当注意，根据本公开的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

虽然已经参考若干具体实施例描述了本公开，但是应当理解，本公开不限于所公开的具体实施例。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等效布置。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何中军;吴华;王海峰
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人