现场维护语音到语音翻译的系统和方法

文档序号:6593645阅读:379来源:国知局
专利名称:现场维护语音到语音翻译的系统和方法
技术领域
本发明涉及一种跨语种交流的语音到语音翻译系统,更具体地说,涉及一种现场 维护方法和设备,所述方法和设备使用户能够增加新的词条,及在现场改进和修改其系统 的内容和使用,而不需要语言或技术知识或专长。
背景技术
自动语音识别(ASR)和机器翻译(MT)技术已成熟到可用于为限定领域和非限定 领域开发膝上型计算机或移动设备上的实用语音翻译系统的程度。特别地,关于各种应用 领域(包括旅游、医疗部署和军事应用),在研究领域和研究实验室中开发了领域限定的 语音到语音翻译系统。以前在 A. Waibel,C. Fugen 的 “Spoken language translation,,, Signal Processing Magazine, IEEE,2008 年 5 月;25(3) :70-79, In Proc. HLT,2003 ;和
Nguyen Bach, Matthias Eck, Paisarn Charoenpornsawat, Thilo Kdhleri ▲ Sebastian
Stiiker, ThuyLinh Nguyen, Roger Hsiao, Alex Waibel, Stephan Vogel, Tanja Schultz 禾口 Alan W. Black 的“The CMU TransTac 2007 eyes-free and hands-free two-way speech-to-speech translation system,,,In Proc. of the IWSLT, Trento, Italy, 2007 年10月中看到了这样的系统。不过,这些系统受到限制,因为它们借助有限的词汇表工作, 所述词汇表由系统开发人员预先定义,并且由应用领域以及预想的使用所述系统的场所确 定。从而,词汇表和语言用法主要是根据例证情形、并由在这种情形下收集或假定的数据确 定的。不过,在现场(field)情况下,实际的单词和语言用法偏离实验室的预期情形。即 使在诸如旅游之类的简单领域中,当用户旅行到不同的地点,与不同的人互动,和追求不同 的目的和需要时,语言用法也会在现场发生显著变化。从而,总是会出现新的单词和新的措 辞。这种生词-用语音识别的话来说“集外词(00V)”会被误识别为集内词,从而被错误翻 译。用户可尝试释义,不过如果不能输入或者表达关键单词或者概念(例如,人名或城市名 称),那么单词或措辞的缺乏会导致交流中断。尽管需要用户可修改的语音到语音翻译系统,不过迄今为止一直未提出实际的解 决方案。虽然在系统中添加单词看起来容易,不过事实证明进行这种修改格外困难。必须 对整个系统内的许多组件模块进行适当的修改,必须重新训练多数模块,以恢复组件的平 衡和综合功能。事实上,为了学习生词,必须修改或者重新优化大约20个不同模块。这种 修改要求关于语音翻译系统的组件的专门知识和经验,结果,基于发明人的理解,迄今为止 只由专家在实验室中进行了这样的修改,它需要专家经验,时间和成本。
例如,如果为欧洲用户设计的系统在词汇表中不包含地名“Hong Kong",那么一旦 说话者说出句子“Let' s go to Hong Kong”,系统就会识别词典中发音最近似的单词,从 而产生“Let' s go to home call”。此时,并不明显该错误是识别错误的结果,还是整个语 音到语音翻译系统中缺少该单词的结果。用户于是着手校正系统。这可用几种校正技术之 一来实现。最简单的可能是复述或者键入,不过更有效的是利用如其它公开文献和现有技 术描述的交叉模式纠错技术(Waibel等,美国专利5855000)来实现。一旦确定了期望的单 词序列的正确拼写(“Let' s go to Hong Kong”),系统就进行翻译。如果“Hong Kong” 在词典中,那么系统会根据词典正常继续进行翻译和合成。不过,如果识别和翻译词典中没 有“Hong Kong”,那么系统需要确定该单词是否是命名实体。最后并且最重要的是,即使通 过用户的干预,名称或单词可被正确地翻译成输出语言,但如果不学习所述名称或单词,那 么当用户下次说出相同的单词时,系统会再次失败。不幸的是,仅仅通过在单词表中键入生词,并不能解决学习生词的问题,相反它需 要在语音翻译系统的大约20个不同点,和在语音翻译系统的所有层面做出改变。目前,它 还涉及词条的人工标注和编辑,涉及所需单词的庞大数据库的收集,语言模型概率和翻译 模型概率的再训练,和整个系统的重新优化,以便重新建立所有组件和组件的词典之间的 一致性,以及恢复系统中单词、短语和概念之间的统计平衡(概率必须总和为1,从而单个 单词的添加会影响到所有单词)。结果,现有语音翻译系统的即使微小的修改通常也要求使用研究实验室中的高级 计算工具和语言学资源。不过对实际的现场应用来说,要求每种修改都在实验室中进行是 不可接受的,因为它花费太多的时间,努力和成本。改为需要学习和定制模块,所述学习和 定制模块使用户无法察觉所有的复杂性,在后台半自主地或者自主地进行所有关键的操作 和语言处理步骤,并借助简单的直观界面,以可能的干扰最小的方式与人类用户交互作用, 从而完全消除现场对语言或技术专长的需要。在本发明中,我们提供满足这些需要的学习 和定制模块的详细说明。不幸的是,翻译系统通常复杂得惊人,以致用户访问是不实际的,或者用户访问不 被使用。从而,需要使用机器翻译技术、并且赋予用户修改能力以能够提供跨语种交流,而 不需要语言或技术知识或专长的系统和方法,从而使得能够克服语言障碍和使人们更亲
r t [ ο

发明内容
在各个实施例中,本发明通过提供一种更新语音翻译系统的词汇的方法和设备, 解决了上述问题。在各个实施例中,提供一种更新把第一语言翻译成第二语言的语音到语 音翻译系统的、包括书面单词和口语单词的词汇表的方法。所述方法包括把第一语言中的 生词添加到第一语言的第一识别字典中,和把描述与所述生词联系起来,其中所述描述包 含发音和单词类别信息。随后在与第一语言相关的第一机器翻译模块中更新所述生词和描 述。第一机器翻译模块包括第一标注模块、第一翻译模型和第一语言模块,并被配置成把生 词翻译成第二语言中的对应翻译单词。可选的是,对双向翻译来说,所述方法另外包括下述步骤把翻译后的单词从第二 语言回译成第一语言的生词,使所述生词与第二语言中对应的翻译的单词关联,并把翻译的单词及其描述添加到第二语言的第二识别字典中。随后用翻译的单词和描述更新与第二 语言相关的第二机器翻译模块。第二机器翻译模块包含第二标注模块、第二翻译模型和第 ~‘语曰丰旲块ο在实施例中,所述方法还包括下述步骤把第一单词输入与第一语言相关的文本 到语音发音字典中,把第二单词输入与第二语言相关的文本到语音发音字典中。输入信号 可以是不同的模式(例如,说话和非言语的(norwertal)拼写,说话和言语拼写,书写和说 话等)(这里称为“交叉模式”),或者可以是相同的模式(说话和复述,书写和重写,等)。本发明的一个实施例目的在于一种现场可维护的语音到语音翻译系统,用于在第 一语言和第二语言之间交流。所述系统包括两个语音识别单元和两个对应的机器翻译单 元,每个语音识别单元被配置成接受包括第一或第二语言的口语单词的声音和产生与口语 对应的文本,每个机器翻译单元被配置成从语音识别单元之一接收文本,和输出所述文本 到另一种语言的文本的翻译。所述系统还包括使系统能够与用户合作学习生词的用户现场 定制模块。用户现场定制模块被配置成接受用户选择的输入,所述用户选择的输入包括与 第一语言和/或第二语言对应的声音或文本,和用用户选择的输入恰当地更新机器翻译单兀。在一个实施例中,四个主要的特征装备系统,以提供一种现场可维护的基于类别 的语音到语音翻译系统。第一个特征包括语音翻译架构,所述语音翻译架构能够实现生词 到当前系统词汇表的添加,或者在特定于位置或任务的词汇表之间的切换。这便于动态地 把单词添加到语音识别模块中,而不需要重新启动该模块。基于单语言标注器和借助源于 已知标注语言的并行库、采用对齐方法的新语言中的单词类别标注的组合,系统在跨语音 到语音翻译设备中的所有系统组件中使用多语言系统词典和与语言无关的单词类别,基于 类别的机器翻译(基于短语的统计MT,句法的,基于例子的,等等)和在模型训练期间的多 语言单词类别标注。其次,多模式交互式接口使非专家能够把生词添加到系统中。第三,系 统被设计成利用用户提供的多模式反馈,提供ASR和SMT模型自适应。第四,系统具有连网 能力,从而能够实现校正或单词的共享。在另一个实施例中,公开一种使用户能够现场把生词添加到语音到语音翻译设备 中,而不需要技术专长的多模式交互式接口。例子包括(1)自动对待添加到系统中的单词 或单词-短语的类别进行分类,并自动生成所述单词的发音和翻译的方法;(2)通过说话、 键入、拼写、书写、浏览、释义中的一个或多个,交叉模式地输入生词的方法;(3)帮助语言 上未经训练的用户确定语音音译和翻译是否恰当的多模式反馈多种文本形式(即,罗马 化形式,以及另一种语言的文字的书面形式)和借助文本到语音(TTS ;即,它听起来是否正 确)的声音形式;(4)设定生词的语言模型和翻译概率的方法,和( 根据与用户活动、兴 趣和使用历史的关联性,提高或减小学习的生词的语言模型和翻译概率。在另一个实施例中,公开一种借助现场的多模式用户反馈,进行校正的在线系统。 例子包括(1)使用户能够校正自动语音识别结果,和使用所述反馈信息修改语音识别组 件的接口和方法;( 使用户能够校正机器翻译假设,和使用所述反馈信息来改进机器翻 译组件的接口和方法;和(3)根据用户校正,自动调整(提高或减小)正确或校正的单词的 语言模型、词典和翻译模型概率的方法。在另一个实施例中,公开一种允许用户跨设备共享现场进行的校正或生词添加的因特网应用。例子包括(1)通过万维网上传、下载和编辑供语音到语音翻译设备之用的模 型的方法;( 在整个用户社区内核对现场生词添加和校正的方法;和( 上传、下载和编 辑供语音到语音翻译设备之用的特定于场所或任务的词汇表的方法。


附解说明本发明的实施例的例子。在附图中图1是图解说明按照本发明的一个实施例构成的语音到语音翻译系统的方框图;图2图解说明通过平板电脑接口,向用户显示的图形用户界面的例子;图3是图解说明按照图1中的本发明的一个实施例进行的语音到语音翻译的步骤 的流程图;图4是图解说明系统向用户进行的校正学习的步骤(校正和修复模块)的流程 图;图5是图解说明用户能够向系统增加生词的步骤(用户现场定制模块)的流程 图;图6是图解说明设备自动生成用户希望增加到系统中的生词的翻译和发音的方 法的一个例子的流程图;图7是图解说明通过多模式接口,核实生词输入的方法的一个例子的流程图;图8图解说明显示自动生成的单词信息的可视界面的例子;图9是图解说明训练基于类别的MT模型所需的步骤的流程图;图10是图解说明把基于类别的MT应用于输入的句子的步骤的流程图;图11是图解说明在借助统计或机器学习方法的单词类别标注期间使用的可能特 征的示图。
具体实施例方式本发明的各个实施例说明语音到语音翻译方法和系统。实施例可被用于通过模型 自适应,适应用户的话音和讲话风格。在另外的实施例中,用户能够校正识别错误,系统能 够从用户校正的错误中学习,从而使得未来不太可能再次发生这些错误。本发明使用户能 够通过或者把生词增加到系统中,或者选择为特定场所或任务优化的预定词典,按照他或 她个人的需要和环境定制词汇表。当增加生词时,多模式接口允许用户校正和核实自动生 成的翻译和发音。当用户不了解另一种语言时,这也允许用户把生词增加到系统中。在一 个实施例中,系统还被配置成把用户输入的任何新词汇传给用户社区。核对该数据,并自动 生成随后可被任何用户下载的词典。图1图解说明按照本发明的现场可维护的语音到语音翻译系统的例子的方框图。 在这个例子中,系统在两种语言之间工作。这是涉及双向语音到语音翻译(从1^到 Lb和从Lb到La)的语音对话系统的典型实现。不过,这种结构的双向性不是本公开的先决 条件。从La到Lb的单向系统,或者涉及几种语言L1. . . Ln的多向系统同样可受益于本发明。 所述系统具有两个ASR模块2和9,ASR模块2和9分别识别La和Lb的语音,并且分别利用 声学模块18,ASR基于类别的语言模型19和识别字典模型20 (示于图3中)分别产生与La 和Lb对应的文本。在本例中,我们使用在Mobile Technologies, LLC开发的“Ninja”语音识别器系统。可以使用的其它种类的ASR模块包括由IBM公司,SRI,BBN或者在Cambridge 或Aachen开发的语音识别器。系统还包括两个机器翻译模块3和8,机器翻译模块3和8分别把文本从La翻译 成Lb,和从Lb翻译成La(模块11)。本例中使用的MT是在Mobile Technologies, LLC开发 的“PanDoRA”系统。可以使用其它MT模块,比如由IBM公司,SRI,BBN或者在Aachen大学 开发的那些MT模块。分别对应于机器翻译模块3和8之一的两个文本到语音引擎4和7被配置成接收 从对应的ASR单元产生的文本。输出的文本被传送给相应的MT模块3或8,MT模块3或8 分别把文本从La翻译成Lb,和从Lb翻译成La。TTS模块产生音频输出,从而分别借助输出装 置5 (比如扬声器),把La的至少一个文本单词转换成语音,和借助装置5或者另一输出装 置(比如扬声器6)把Lb的至少一个文本单词转换成语音。对这个例子来说,使用C印stral TTS模块。也可采用支持Windows SAPI (语音应用编程接口)约定的任何TTS模块。校正和修复模块11允许用户通过多种模式包括语音、手势、书写、触觉、触敏和 键盘接口,校正系统输出,并使系统能够从用户的校正中学习。校正和修复模块可以是诸如 在美国专利No. 5855000中公开的那种校正和修复模块。用户现场定制模块12向用户提供 把新词汇表增加到系统中的接口,还能够为用户的当前情况选择适当的系统词汇表。例如, 由位置的变化(由指示设备的当前位置的GPS坐标确定)或者用户对任务或场所的明确选 择所触发。用户能够访问用户现场定制模块12,并通过显示在设备13的屏幕(或者使用中的 触摸屏)上的图形用户界面和指示装置14(包括鼠标或笔)与系统交互作用。图2中表示 了图形用户界面的一个例子。在这个例子中,设备13把音频输入La的文本和对应文本显 示在窗口 15中。文本La在第二种语言Lb中的机器翻译被显示在窗口 16中。在一个实施例中,相同的麦克风和扬声器可被用于两种语言。从而,麦克风1和麦 克风10可以是单个物理设备,扬声器5和6可以是单个物理设备。图3中表示了图解说明本发明方法的例子的操作的流程图。首先,用户在步骤15b 启动语音识别系统。例如,可在图形用户界面(图2,项目15b)或者在外部物理按钮(未示 出)上,选择按钮。用户的语音(项目25)随后在步骤27被ASR模块之一识别;如果用户 说La,那么是模块2,如果用户说Lb,那么是模块9。ASR模块2和9应用三种模型声学模 型18,ASR基于类别的语言模型19和识别字典模型20。这些模型是语言特有的,每个ASR 模块包含它自己的一组模型。在步骤观,所得到的用户语音的文本通过GUI被显示在设备 屏幕13上。随后根据输入的语言,借助MT模块3或8应用翻译(步骤29)。MT模块3和8 应用三种主要模型识别单词类别的标注或解析[CollinS02]模型(模型22),基于类别 的翻译模型(模型2 和基于类别的语言模型(模型24)。标注模型22可以是任何适当 种类的标注或解析模型,比如在J. Lafferty, A. McCallum禾口 F. Pereira的“Conditional random fields !Probabilistic models for segmenting and labeling sequence data", Proceedings of 18th International Conference on Machine Learning, 第 沘2-289 页,2001 年(“LaffertyOl”)或者 Michael Collins 的 “Parameter estimation for statistical parsing models :Theory and practice of distribution-freemethods,,(2004 年),编辑为 Harry Bunt, John Carroll 禾口 Giorgio Satta, New Developments in Parsing Technology,Kluwer中描述的那些种类的标注或解析模型。在 机器翻译期间应用的其它模型包括约束在翻译中单词如何被重新排序的调序模型,以及句 子长度模型。下面给出基于类别的机器翻译的详细说明。所得到的翻译通过GUI被显示在 设备13上,如步骤30中所示。为了帮助用户确定翻译输出是否适当,自动生成的翻译(图2,项目16)通过MT 模块3或8被回译成输入语言,并带括号地显示在初始输入的下面,如图2中的项目1 所 示。如果由ASR模型2或9,和MT模块3或8确定的语音识别和翻译的置信度都较高(步 骤31),那么借助扬声器5或6,借助TTS模块4或7生成口语输出(项目沈)(步骤33)。 否则,系统借助GUI,音频和/或触觉反馈指示该翻译可能是错误的。在步骤33中使用的具 体TTS模块是根据输出语言选择的。之后,如果用户不满意生成的翻译,那么用户可在语音到语音翻译过程期间,在步 骤27-33任意之一中,或者在完成该过程之后进行干预。这将在步骤35调用校正和修复模 块11。校正和修复模块11录制和记录用户可能做出的任何校正,所述校正稍后可被用于更 新ASR模块2和9,以及MT模块3和8,如本文中下面更详细所述。如果所述校正包含新词 条(步骤36),或者如果用户在步骤15c中进入明确把生词增加到系统中的现场定制模式, 或者在步骤15d中,利用置信度量度或生词模型(比如在Thomas khaaf的“Detection of 00V words using generalized word models and a semantic class language model,,, Proc. of Eurospeech,2001年中描述的方法)在输入音频中自动探测到生词;那么调用用 户现场定制模块12。模块12提供使用户能够把生词增加到当前系统词汇表中的多模式接 口。当用户增加生词或短语时,根据需要更新ASR、MT和TTS模型(项目17、21和33a)。下 面关于两种语言进一步说明该模块的功能。对于两种语言,在ASR和MT中使用公共的一组类别(例如,人名、地名和机构名 称)。这提供一种允许把生词增加到系统中的一组全系统语义槽。出现在这些类别内的名 称、专用词和措辞是根据不同用户的部署、位置、文化、习惯和任务,最易变的单词,从而它 们最需要用户定制。在优选例子中,使用的特定类别取决于系统的应用领域。类别可包括命名实体;人 名、地名和机构名称;或者特定于任务的名词短语;例如食品、疾病或药物的名称的语义 类别;和不符合任意预定类别的单词或短语的另一种开放式类别。也可以使用句法类别或 单词等效类别,比如同义词。应用领域的例子包括(但不限于)旅游、医学、维和等。在一 个例子中,在旅游应用领域中需要的类别包括人名、城市名称、食品名称等。在另一个例子 中,对医学专业应用来说,需要的类别包括疾病名称、药物名称、解剖学名称等等。在另一个 例子中,维和应用所需的类别包括武器名称,车辆名称等等。为了能够实现可现场定制的语 音到语音翻译,通过与用户现场定制模块12结合的校正和修复模块11的操作,系统允许纠 错,和稍后从这些错误中学习。校正和修复模块校正和修复模块11使用户能够在任何时候干预语音到语音翻译过程。用户可以 识别和记录错误,或者如果他/她希望的话,可以校正语音识别或翻译输出中的错误。这种 用户干预是相当有价值的,因为它提供人-人交流过程中的即时校正,和为系统提供适应用户需要和兴趣以及从错误中学习的机会。图4中表示了这种错误反馈功能的流程图。如 果用户不满意话语的翻译(即,出现错误),那么用户可记录当前输入(步骤40)。系统将把 当前话语的音频以及其它信息保存到日志文件。所述日志文件稍后可被用户访问和校正, 或者可被上传到社区数据库,以允许专家级用户识别和校正错误。用户还可借助多种模式,校正语音识别或机器翻译输出。用户能够通过复述整个 话语,或者通过键盘或书写接口输入句子,校正整个话语。另一方面,用户可借助触摸屏、鼠 标或光标键,突出显示输出的假设中的错误部分,并利用键盘、手写、语音或者明确地逐个 字母地拼出单词,只校正该短语或单词。用户还能够通过触摸屏,选择输出假设中的错误部 分,并通过在自动生成的下拉列表中选择竞争假设,或者通过用语音重新输入错误部分,或 者用任何其它补充模式(例如,手写、拼写、释义等),校正所述错误部分。这些方法和如何 恰当地组合补充修复措施建立在Waibel等在美国专利No. 5855000中关于多模式语音识别 校正和修复提出的方法之上。这里,把它们应用于交互式语音到语音翻译系统的语音识别 和翻译模块。如果用户校正语音识别输出(步骤43),那么系统首先确定所述校正是否包含生 词(步骤44)。这种确定是通过在与每种语言La和Lb相关的识别字典模型20中查找该单 词实现的。如果未找到单词,那么系统提示用户把该生词增加到当前系统词汇表中(如果 需要的话)(图5,步骤50)。否则,更新ASR模型(图3,项目17)中的概率,以降低再次出 现相同错误的可能性。这可按照差别化方式来进行,其中校正的单词序列的概率被增大,密 切竞争假设的概率被降低。如果用户具有足够的语言专长,那么他们还能够校正机器翻译输出。可以使用和 在ASR情况下使用的模式相同的模式。如果机器翻译输出被用户校正(步骤45),并且所述 校正包含生词,那么用对话框提示用户,从而使他们能够把该生词增加到当前系统词汇表 中(图5,步骤50)。如果所述校正只包含已在当前系统词汇表中的单词,那么机器翻译模 型(图3,项目21)被更新。具体地说,可以使用一种实现,其中从校正的句子对中提取短 语,并把这些短语混入翻译模型中。可按照与ASR情况类似的方式更新使用的目标语言模 型。用户现场定制模块用户现场定制模块12使系统能够与用户合作地学习生词。现有系统不允许用户 修改语音到语音翻译系统中的词汇表。不同于现有系统,用户现场定制模型12使用户能够 在运行系统中进行对具有极少或者没有计算机语音和语言处理技术知识或者语言知识的 非专业人员来说,相对容易实现的递增修改。模型12通过提供和接受来自用户的某些易于 理解的反馈,并根据所述反馈自主得到所有必需的参数和系统配置,来提供这样的现场定 制。现场定制模块12通过1)用户定制用直观界面,和幻自动估计用户定制所需的所有 内部参数和设置,从而减轻用户在这方面的负担的内部工具实现这一点。对单向翻译来说,系统处理最少四条关于单词或短语的信息,以把生词或短语增 加到当前系统词汇表中。这些信息包括·类别(即,新词条的语义或句法类别)·语言La的单词(S卩,La的书写形式) 单词的La发音
12
·单词的Lb翻译(SP,Lb的书写形式)对双向翻译来说,系统还需要生词的Lb发音。Lb使TTS能够生成音频输出和Lb的 ASR模,以反过来识别该生词。在图5中表示了图解说明用户现场定制模型12的操作步骤的流程图。当系统遇 到生词时,根据前一节中借助校正和修复模型11的校正干预,系统将提示用户(图5,步骤 50)确定该单词是否应被“学习”,即,增加到当前的系统词汇表中。如果是,那么激活单词 学习模式,现场定制模块12开始行动。注意现场定制或生词学习不仅需要源自纠错对话的 结果。而且用户还可专门选择从下拉菜单进入单词学习模式,预先增加一个生词或生词表。 生词学习还可由导致对不同单词(比如专用词、名称、地点等)的突然需要的外部事件触 发。不过,在所有这样的情况下,系统必须收集上述信息。在用户指示他/她希望向系统词汇表中增加生词之后(步骤50),系统首先查阅大 型外部词典,所述大型外部词典或者本地包含在设备上,或者是能够通过因特网访问的词 典服务,或者是这两者的组合。外部词典由单词翻译对的词条组成。每个词条包含使生词 能够容易地被增加到当前系统词汇表中的发音和单词类别信息。每个词条还包含每个单词 对的用两种语言的描述。即使用户不了解目标语言,这也将允许用户选择单词的恰当翻译。 如果生词包含在外部词典中(步骤51),那么系统显示该单词的备选翻译的列表,以及每种 翻译的描述(步骤52)。如果用户从词典中选择预定翻译之一(步骤53),那么用户能够核 实由词典提供的发音和其它信息(步骤53a),并对其进行编辑(如果需要的话)。该生词 随后被增加到当前系统词汇表中。为了把生词增加到当前系统词汇表中,需要三个步骤(步骤59,59a,59b)。首先, 把生词及其翻译增加到模块2和9的ASR识别字典模型中(步骤59)。该单词连同由词典 给出的发音一起被增加到识别字典模型20中。由于用户刚刚输入该单词,因此该单词的出 现概率被设定成大于ASR基于类别的语言模型19内的相同类别的竞争单词的概率。这将使 用户专门增加的单词似乎更合适。随后,该单词及其翻译被增加到MT模型(图3,项目21) 中,使系统能够沿两个翻译方向翻译该生词。最后,向TTS发音模型(图3,模型33a)登记 该单词,这使系统能够用两种语言正确地发出该单词的读音。当在外部词典中未找到用户输入的生词时,系统将自动生成为把该单词记录到当 前系统词汇表中而需要的信息,并将和用户核实该信息。首先,利用周围的单词上下文(如 果存在的话),借助标注模型(图3,模型22)估计生词的类别(步骤54)。随后,借助基于 规则的模型,或者借助统计模型,自动生成该生词的发音和翻译(步骤55)。随后通过多模 式接口向用户显示所得到的信息(步骤58)。系统提示用户核实(步骤58)或校正(步骤 57)自动生成的翻译或发音。最后,在用户核实该信息之后,该生词被增加到当前系统词汇 表中(步骤59,59a,59b)。为了动态地把生词(具体地说,“单词+发音+单词类别”)增加 到ASR词汇表中(步骤59),搜索并且随后更新识别字典模型20 (它通常以树状结构的形式 保存在ASR模块2或9内),以包括该生词。这使生词能够被动态地增加到识别词汇表中, 并且如果在接下来的话语中说出该生词,那么该生词能够立即被识别。不需要像现有系统 中那样,重新初始化或者重新启动ASR系统。类似地,生词(具体地说,“单词+翻译+单词类别”)可被附加到MT翻译模型 (59a),搜索翻译模型23 (它可以哈希图的形式保存在MT模块3和/或8内),附加包含生词和其翻译以及单词类别的新的翻译对。这使生词能够被动态地增加到MT模块3和/或8 中,并且在继续进行的话语中,该生词能够被正确翻译。不需要像现有工作中那样,重新初 始化或者重新启动MT系统。自动估计所有该信息是必不可少的,以致现场的非专家用户能够完成定制任务。 下面,我们详细说明如何自动估计关于单词的关键信息,随后如何从用户那里直观地获得 或核实所述关键信息。生词的发音和翻译的生成由于语音到语音翻译系统的用户通常具有有限的或不具有语音学,语言学,语言 技术的知识,并且通常甚至不知道另一种语言中的该单词及其使用,因此不能期望他们提 供他们希望增加到系统中的每个生词的翻译和所有有关信息(发音,正确拼字,单词使用 等)。从而,当用户输入生词时,系统估计单词类别,并自动生成该单词在两种语言中的翻译 和发音信息。为了把生词记录到当前系统词汇表中,需要该单词的翻译,和该单词及其翻译的 发音。可以如图6中所示的三步处理的形式,实现这种信息的生成。首先,生成单词的发 音(步骤60)。根据单词的字符序列及其发音,生成翻译(步骤61)。随后,利用在前面的 步骤中生成的信息,生成该生词在目标语言中的发音(步骤62)。在图6的右手侧表示了 在日语-英语现场可维护S2S翻译系统内,使用不同的技术生成该信息的两个例子。为了 把新的英语单词“Wheeling”(项目64)增加到系统中,首先通过机器学习,生成英语发音 (步骤65)。可利用任何适当的技术,比如Damper, R. I.(编辑),Data-Driven Techniques in Speech Synthesis. Dordrecht, The Netherlands :Kluwer Academic Publishers(2001 年)描述的那些技术,进行机器学习。随后,借助统计机器音译自动生成该单词在日语中的 音译(步骤66),随后借助人工定义的规则生成日语发音(步骤67)。可利用任何适当的统 计机器音译引擎完成音译。例子包括K. Knight和J. Graehl的Machine transliteration, Computational Linguistics 24 4 (1998 ^-),% 599-612 M Bing Zhao, Nguyen Bach, Ian Lane 禾口 Stephan Vogel 的"A Log-linear Block Transliteration Model based on Bi-Stream HMMs”(将出版在HLT/NAACL-2007中)讨论的那些统计机器音译引擎。所得到 的信息(项目68)随后由用户利用声音重放和借助语音串核实,之后把该单词记录到当前 系统词汇表中。类似地,为了把新的日语单词“Wakayama”(项目70)增加到系统中,首先,借助人 工定义的规则生成日语发音(步骤71)。随后,借助基于规则的音译,自动生成该单词的日 语音译(步骤7 ,随后借助人工定义的规则,生成英语发音(步骤7 。可利用Mansur Arbabi, Scott M. Fischthal, Vincent C. Cheng 禾口 Elizabeth Bar 的方法("Algorithms for Arabic name transliteration",IBM Journal of research and Development,38(2) 183-193,1994年),进行基于规则的音译。所得到的信息(项目74)随后由用户核实,之后 把该单词记录到当前系统词汇表中。用户能够借助发声输出,核实生成的翻译和发音。另一方面,在已知用户的母语的 情况下,如果认为更适合于用户的话,那么可以使用书面形式(即,如果用户是说英语者, 那么用汉语的“汉语拼音”,或者日语的“罗马字”)。如果需要的话,用户可编辑翻译和/或 发音。一旦得到用户的认可,单词和单词特征就被增加到多语言系统词典中。
通过在交互式用户输入的帮助下自动生成所需的信息,系统还消除了对增加到词 典中的每个生词的翻译的需要。图8中表示了用户界面的一个例子。交互式用户界面之后,系统咨询用户,以确认和核实估计的语言信息。这是直观地进行的,以致不 利用任何特殊的语言或技术知识。从而,使用适当的界面。下面,我们说明生词学习期间的 用户交互作用。在该界面中,用户可从菜单选择“生词”模式,或者在用户校正已产生新的/未知 单词之后,可调用生词学习模式。在出现的窗格中,他/她现在能够键入期望的新单词,名 称,专用词,概念,措辞。根据用户语言的拼字正确的输入(这可以是不同于英语的字符集, 例如,汉语、日语、俄语等的字符集)。系统随后生成采用罗马字母的音译,和单词的预测发 音。这是利用或者手写的,或者从现有的语音词典提取的,或者从音译的语音数据中学习的 变换规则进行的。用户随后查看自动变换,并且能够借助TTS播放生成的发音的声音。用 户可重述和修改这些表示之一(两种语言任意之一的文字,罗马化音译,标音(phonetic transcription)及其声音),另一个对应的条目将类似地重新生成(从而,一种语言中的修 改的标音会修改另一种语言中的标音)。系统还根据其它单词(具有已知类别)在类似句子上下文中的同现 (co-occurrence)统计数字,自动选择该生词最可能属于的单词类别。不过,生词窗格也允 许这种类别身份的人工选择(和/或校正),以致用户能够超越任何这种估计的类别评估。总之,已知来自用户的生词/短语,系统将·自动分类词条的语义类别(由ASR和MT组件使用)·自动生成单词的发音(由L1的ASR和TTS使用)·自动生成单词的翻译(由两个MT组件使用)·自动生成翻译的发音(由L2的ASR和TTS使用)·允许用户根据需要校正/编辑自动生成的数据 向用户提供其它模式来核实自动生成的翻译是否恰当(S卩,通过TTS听该单词的 发首)O如果用户输入不和系统内的任意预定类别匹配的单词,那么用户可把该单词分配 给‘未知’类别。对ASR来说,‘未知’类别由出现在训练数据中,而不出现在识别字典中的 单词定义。对SMT来说,不出现在翻译字典中的双语词条被设定成目标语言模型中的未知 标签。类内概率和关联性提高(Boosting)这些输入方法都不需要语言训练,向用户提供判断生词是否得到恰当表示的直观 方式。随后通过把该单词添加到“多语言系统词典”,即用户的个人字典中,用户可接受该生 词。整个系统把标准化的字典和定制的字典合并到用户的运行时词典中。除了上面的五条之外,还定义类内概率P(w|C)。按照这种方式,系统能够区分属于 相同类别的单词。从而,更接近用户的任务、爱好和习惯的单词将是优先选用的,并且被分 配较高的类内概率。较高的类内概率的这种提高是根据与用户的关联性确定的,其中关联 性是通过观察下述内容评估的·生词词条及其新近性。
ο输入的生词自然更可能在不远的将来被使用,因为用户通过输入所述生词,指 示他/她需要所述生词,从而比起备选的现有类别条目来,类内概率被提高(增大)。·生词与用户活动、兴趣和任务之间的相关性,包括ο诸如城市名称、地标、关心的地方之类的场所的距离。ο过去的使用历史ο同现统计数字(与和Bogota相关相比,Sushi更与Tokyo相关) 生词的一般显著性(general saliency),包括ο城市人口ο媒体中的最近提及根据用户的观察位置,历史或活动,和/或另一方面,通过观察系统的生词在大背 景语言资源(比如因特网)中的出现,收集这种观察和关联性统计数字。可单一语言地在 数据丰富的语言中收集这种统计数字,并用在翻译词典和翻译语言模型中。提升的单词的关联性也会随着时间而衰退,因为用户的新活动和任务使这样的单 词随着时间而变得不太可能,和/或如果新信息(当到达不同的城市时)使单词的子类别 不太关联的话。交叉模式输入可选的是,用下述之一输入生词·说话用户说出生词。如前面那样,不过基于声学输入,用生词模型,翻译模型, 背景词典估计所有信息,比如发音和音译。系统可以参加口头对话,以选择类别身份和其它 有关信息。 拼写用户发声拼写生词。与说出生词相比,这种输入方法通常提高正确音译的 可能性。它还可被互补地用于说话和其它输入模式。 手写用户通过手写输入生词。与说出生词相比,这种输入方法通常提高正确音 译的可能性。它还可被互补地用于说话、拼写或者其它输入模式。 浏览也可利用交互式浏览选择生词。这里,通过搜索因特网,寻找统计概况与用 户的最近使用历史和/或最近选择输入的生词类似的文本,系统可提出有关的关联生词。通过因特网的远程生词学习和共享字典形成前面各节中描述的方法目的都在于允许个体用户按照他/她自己在现场的个人 需要和任务,定制语音翻译系统。不过,许多这样的用户定制对其它用户也是有用的。在一 个实施例中,用户定制被上传到全社区数据库,在该数据库,在感兴趣的各方间共享名称、 专用词或者措辞。收集词汇表词条,翻译和类别标签,并与同样感兴趣的社区相联系。后续 用户能够下载这些共享的社区资源,并作为资源添加到他们自己的系统中。另一方面,用户可以选择只上传翻译较差的句子,以向社区请求人工翻译。对于这 种不正确或者不完整的源单词或者句子,以及它们的遗漏或者不正确的翻译,其他用户能 够自愿(或者收费)地提供在线校正和翻译。所得到的校正和翻译再次被重新提交到更新 的共享社区翻译数据库。无人管理的自适应在校正、修复和生词学习之后,最后,我们获得校正后的假设,从而获得口语句子 的正确标音或翻译。语音到语音翻译设备或系统能够自动利用这种基本事实已被提供的实情,进一步使ASR模块(图1,模块2或9)适合于所述设备的主要用户。设计这种自适应是 为了提高设备的准确性和可用性。执行两种具体的自适应方法。首先,更好地识别用户的 话音的系统的自适应;声学模型和发音模型自适应,其次,利用语言模型自适应,适合于用 户的讲话风格。简表被用于保存特定用户的自适应数据,并且能够在现场被切换。基于类别的机器翻译在前面的各节中,我们说明了错误修复和生词学习。在这些模块中,提到了基于类 别的机器翻译。下面,我们说明这种基于类别的机器翻译的详细功能。方法现有技术的机器翻译系统在单词层面进行翻译。根据现有的翻译系统,包 括在下面三篇文献中描述的那些翻译系统,这是显而易见的;(I)P. Koehn, H. Hoang, A. Birch, C. Cal1ison—Burch, Μ. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R.Zens, C. Dyer, 0. Bo jar, A. Constantin 禾口 Ε· Herbst 的"Moses:0pen source toolkit for statistical machine translation", Proc.ACL,2007 ( “[Koehn07") ; (2) D. Chiang, A. Lopez, N. Madnani, C. Monz, P. Resnik 禾口 Μ· Subotin 的“The Hiero machine translation system-extensions,evaluation, and analysis", Proc. Human Language Technology and Empirical Methods in Natural Language Processing, 779-786 Jlt 2005 年("Chiang05”);和(3) K. Yamada 和 K. Knight 的"A decoder for syntax-based statistical MT,,,Proc. Association for Computational Linguistics, 2002 年 (“Yamada02”)。逐个单词地进行对齐;在单词层面匹配翻译例子,或者短语对;并应用基 于单词的语言模型。通过引入中间结构,分级翻译模块,比如Chiang05中的分级翻译模块, 和基于语法的翻译模型,比如Yamada02中的翻译模型对此进行扩展。不过,这些方法仍然 要求精确的单词匹配。由于每个单词被看作独立的实体,因此这些模型不能普及到不可见 的单词。基于类别的机器翻译的一个实施例是基于类别的统计机器翻译,其中通过搜索具 有最大似然的假设^11,外语句子= fi;f2,.. .,fT被翻译成另一种语言= ei,e2,..., 巧,假定"e1! = argmax P(G1Jfj1) = argmax P(^Je11) · P(e\)类别可以是语义类别,比如命名实体,句法类别或者由同义词或单词短语组成的 类别。作为一个例子,我们说明当把命名实体合并到系统中时的情况。在翻译期间应用的两个最信息丰富的模型是目标语言模型P(e\)和翻译模型 PM1Ie11^在基于类别的统计机器翻译架构中,P(^le11)是基于类别的翻译模型(图3, 模型23) ,P(G11)是基于类别的语言模型(图3,模型24)。利用图9中所示的程序,可训练统计机器翻译架构的基于类别的模型。首先,使句 子对的训练库标准化(步骤100),并使用标注模型(图3,模型2 来标注该训练库(步骤 101)。在LaffertyOl中说明了这样做的一种方法。在该步骤中,组合形成训练对的句子可 被独立标注,一起被标注,或者源自一种语言的标签可被投射到另一种语言。在标注整个训 练库之后,对齐句子对内的单词(步骤102)。可利用目前的方法,比如Franz Josef Och, Christoph Tillmann, Hermann Ney 的“Improved Alignment Models for Statistical Machine Translation";第 20-28 页;Proc. of the Joint Conf. of Empirical MethodsCol iege Park,MD,1999年6月;和Brown,Peter F,Stephen A.Del la Pietra,Vincent.T.Della Pietra矛口R.L.Mercer在1993的“The mathematics of statistical machinetranslationParameter estimation”,C。mputati。nal Linguistics,vol 19(2) 263—3l l中的方法,完成所述对齐。在该步骤中,被标注实体内的多词短语(即,“New York”)被看作单一标志。随后利用诸如Koehn07之类的方法提取短语(步骤103),从而生成基于类别的翻译模型(图3,模型23)。标注的训练库还被用于训练基于类别的目标语言模型(图3,模型24)。可利用例如在B.Suhm和W.Waibel的“Towards better language models forspontaneous speech”(Proc.ICSLP一1994,1994年(“Suhm94”))中描述的方法之类的方法完成所述训练(步骤104)。
为了翻译输入的句子,应用在图lo中图解说明的方法。首先,使输入的句子标准化(步骤106),并利用和对训练库应用的方法类似的方式标注输入的句子(步骤107)。利用单一语言标注器(图3,模型22)标注输入的句子。随后,利用基于类别的MT模型(图3,模型23和24)解码输入的句子(步骤108)。对于基于类别的统计机器翻译解码来说,利用和在标准的统计机器翻译中使用的程序相同的程序进行解码,不过,短语对是在类别层面匹配的,而不是在单词层面匹配的,如在下面的例子中所示。
已知标注的输入句子
下述短语可被匹配
权利要求
1.一种更新把第一语言翻译成第二语言的语音翻译系统的、包括书面单词和口语单词 的词汇表的方法,所述方法包括把第一语言中的生词添加到第一语言的第一识别字典中;把描述与所述生词联系起来,其中所述描述包含发音和单词类别信息;和在与第一语言相关的第一机器翻译模块中更新所述生词和描述,其中第一机器翻译模 块包括第一标注模块、第一翻译模型和第一语言模块,并被配置成把生词翻译成第二语言 中的对应翻译单词。
2.按照权利要求1或2所述的方法,其中在不重新初始化或重新启动语音识别组件的 情况下,把生词及其描述添加到第一语言的识别字典中,和更新所述生词在与第一语言相 关的基于类别的语言模型的类别内的相对单词概率。
3.按照前述任意权利要求所述的方法,其中在不重新初始化或重新启动机器翻译组件 的情况下,把生词及其描述添加到第一语言的翻译字典中,和更新所述生词及其译文的翻 译概率。
4.按照前述任意权利要求所述的方法,还包括下述步骤把翻译的单词从第二语言回译成第一语言的生词,使所述生词与第二语言中对应的翻 译的单词关联,和把翻译的单词及其描述添加到第二语言的第二识别字典中;和用翻译的单词及描述更新与第二语言相关的第二机器翻译模块,其中第二机器翻译模 块包括第二标注模块、第二翻译模型和第二语言模块。
5.按照前述任意权利要求所述的方法,还包括把翻译的单词输入与第二语言相关的文 本到语音发音字典中的步骤。
6.按照权利要求4或5所述的方法,还包括把生词输入与第一语言相关的文本到语音 发音字典中的步骤。
7.按照前述任意权利要求所述的方法,其中系统把第一语言的生词翻译成第二语言和 一种或多种其它语言的对应单词,所述关联包括使生词分别与一种或多种其他语言的对应 第三单词或更多单词关联,把一种或多种其它语言的第三单词或更多单词添加到与一种或 多种其它语言中的每种相关的识别字典中;和更新与一种或多种其它语言相关的机器翻译模块,其中机器翻译模块都包括相应的标 注模块、翻译模型和语言模块。
8.按照前述任意权利要求所述的方法,其中在校正系统产生的识别错误的处理中输入 生词;校正后的生词是由第一识别字典、第一语言模型和第一翻译模型组成的一组模型之 一所没有的。
9.按照权利要求1-7任意之一所述的方法,其中添加生词包括利用置信度度量和生词 模型来估计生词,其中所述生词是由第一识别字典,第一语言模型和第一翻译模型组成的 一组模型之一所没有的。
10.按照权利要求8所述的方法,其中输入一个或多个另外的生词作为单词表,其中所 述单词表提供第一语言和第二语言中的所述生词和所述一个或多个另外的词、所述单词表 中的每个生词的相应发音、描述和翻译信息。
11.按照权利要求10所述的方法,其中依据外部信息、源或事件的出现,选择第一语言 的生词的列表。
12.按照权利要求11所述的方法,其中外部事件包括系统的地理定位应用检测到的位 置的改变,作为位置改变的结果提供生词。
13.按照前述任意权利要求所述的方法,其中把所述生词添加到第一语言的识别字典 中还包括增大所述生词在与第一语言相关的基于类别的语言模型的类别内的相对单词概 率,从而提高随后更鲁棒地识别所述生词的可能性。
14.按照权利要求4-12任意之一所述的方法,其中把翻译的单词添加到第二识别字典 中还包括增大所述生词在与第二语言相关的基于类别的语言模型的类别内的相对单词概 率,从而提高随后更鲁棒地识别所述生词的可能性。
15.按照权利要求7-12任意之一所述的方法,其中把一种或多种其它语言的第三单词 或更多单词添加到与所述一种或多种其它语言中的每种相关的识别字典中还包括增大生 词在与第三语言或更多语言相关的基于类别的语言模型的类别内的相对单词概率,从而提 高随后更鲁棒地识别第三单词或更多单词的可能性。
16.按照权利要求13-15任意之一所述的方法,其中增大与第一语言相关的生词的相 对单词概率是通过把所述生词与未知类别联系起来,并增大所述生词在未知单词类别内的 概率,在已知类别之外进行的。
17.按照权利要求13所述的方法,其中把生词添加到第一语言的翻译字典中还包括增 大所述生词及其译文的翻译概率,从而提高随后为用户更恰当地翻译所述生词的可能性。
18.按照任意前述权利要求所述的方法,其中联系描述包括接受用户提供的描述。
19.按照任意前述权利要求所述的方法,其中联系描述包括从词典中选择一个或多个 可能的描述,和显示所述一个或多个可能的描述供用户接受,其中词典存在于本地或者可 通过因特网访问。
20.按照任意前述权利要求所述的方法,其中联系描述包括利用用户现场定制模块自 动生成假设。
21.按照权利要求20所述的方法,其中利用手写的或者从现有的语音词典提取的变换 规则,执行所述生成。
22.按照权利要求20所述的方法,其中通过从音译的语音数据中学习所述生成。
23.按照权利要求20所述的方法,其中系统还根据具有相似的已知类别的其它单词的 同现统计数字,自动为所述生词选择最可能的单词类别。
24.按照权利要求1-17任意之一所述的方法,其中联系描述包括从可通过因特网访问 的人类语言信息提供者的外部来源,识别一个或多个可能的描述。
25.按照权利要求I-M任意之一所述的方法,其中用户通过接口添加生词,系统根据 用户语言的拼字正确的输入,假定第二语言中的翻译单词、描述和单词的预测发音。
26.按照权利要求25所述的方法,其中借助可听的声音重放,在所述接口中检查和确 认第一语言中的生词的描述中的标音和其它语言中的对应单词。
27.按照权利要求25所述的方法,其中根据来自用户的例证口语输入,选择第一语言 中的生词的描述中的标音。
28.一种把第一语言翻译成第二语言的机器翻译方法,包括把第一语言的句子翻译成第二语言的句子,其中第一机器翻译模块包含第一标注模 块、第一翻译模型和第一语言模块,并被配置成把句子翻译成第二语言的对应翻译句子,其中在翻译过程中,单词或单词短语被看作类别,其中类别包括选自由语义类别,句法类别和 等同的单词或单词短语构成的组中的类别。
29.按照权利要求观所述的方法,还包括为用于训练在权利要求观中应用的翻译模型 和语言模型的训练库生成类别标签,其中在应用类别标签集在句子对之间必须等同的约束 条件时,联合标注翻译句子对中的两个句子。
30.按照权利要求四所述的方法,其中通过跨训练库中的句子对,把标签从其中标签 已知的第一语言投射到非注解语言,生成类别标签。
31.按照权利要求观-30任意之一所述的方法,其中用户对语音识别假设的校正被用 于更新语言模型中的概率,以通过增大校正的单词序列的语言模型概率和降低密切竞争假 设的语言模型概率,降低发生相同错误的可能性。
32.按照权利要求观-31任意之一所述的方法,其中用户对机器翻译假设的校正被用 于更新翻译和语言模型中的概率,以通过增大校正的单词序列的翻译和语言模型概率及降 低密切竞争假设的翻译和语言模型概率,降低发生相同错误的可能性。
33.一种现场可维护的基于类别的翻译设备,包括配置成接受包含第一语言的生词的声音和把描述与所述生词联系起来的第一语言的 识别字典,其中所述描述包含发音和单词类别信息;和与第一语言相关的第一机器翻译模块,所述第一机器翻译模块包括标注模块、翻译模 型和语言模块,并被配置成用所述生词和描述更新。
34.按照权利要求33所述的设备,其中第一机器翻译模块产生所述生词到对应于第二 语言的翻译单词的翻译,其中输出包括第二文本的显示。
35.按照权利要求33或34所述的设备,还包括与第二语言相关的第二机器翻译模块, 用于用第二翻译单词翻译第二语言中的第二生词,其中第二机器翻译模块包含标注模块、 翻译模型和语言模块。
36.按照权利要求33-35任意之一所述的设备,还包括与第一语言相关,并被配置成接 受生词的文本到语音发音字典。
37.按照权利要求33-36任意之一所述的设备,还包括与第二语言相关、并被配置成接 受翻译单词的文本到语音发音字典。
38.按照权利要求33-37任意之一所述的设备,其中识别字典产生与第一语言中的生 词对应的第一文本。
39.按照权利要求33-38任意之一所述的设备,还包括关联和修复模块,所述关联和修 复模块确认生词对应于口语第一语言,翻译单词对应于第一文本在第二语言中的翻译,其 中所述关联和修复模块根据所述确认产生低或高置信度分级;其中所述关联和修复模块识 别用来自确认模块的低置信度分级识别的错误,并用用户插入的修复文本替换所述错误。
40.按照权利要求33-39任意之一所述的设备,其中通过从可通过因特网访问的人类 语言信息提供者的外部来源识别一个或多个可能的描述,把描述与生词联系起来。
41.按照权利要求33-40任意之一所述的设备,还包括配置成接受用户输入的生词的 接口,其中所述输入包括用用户语言的拼字正确的输入,并提供假定第二语言中的翻译单 词、描述和单词的预测发音的基础。
42.按照权利要求33-41任意之一所述的设备,其中借助可听的声音重放,在所述接口中检查和确认第一语言中的生词的描述中的标音和其它语言中的对应单词。
43.按照权利要求33-42任意之一所述的设备,其中通过跨训练库中的句子对,把标签 从其中标签已知的第一语言投射到非注解语言,生成类别标签。
44.按照权利要求33-43任意之一所述的设备,其中根据对语音识别假设做出的校正 更新第一语言模型,其中所述更新包括更新语言模型中的概率,以通过增大校正的单词序 列的语言模型概率和降低密切竞争假设的语言模型概率,降低发生相同错误的可能性。
45.按照权利要求33-44任意之一所述的设备,其中根据对机器翻译假设做出的校正 更新第一机器翻译模块,其中所述更新包括更新翻译和语言模型中的概率,以通过增大校 正的单词序列的翻译和语言模型概率,及降低密切竞争假设的翻译和语言模型概率,降低 发生相同错误的可能性。
全文摘要
提供一种更新把第一语言翻译成第二语言的语音到语音翻译系统的、包括书面单词和口语单词的词汇表的方法和设备。所述方法包括把第一语言中的生词添加到第一语言的第一识别字典中,和把描述与所述生词联系起来,其中所述描述包含发音和单词类别信息。随后在与第一语言相关的第一机器翻译模块中更新所述生词和描述。第一机器翻译模块包括第一标注模块、第一翻译模型和第一语言模块,并被配置成把生词翻译成第二语言中的对应翻译单词。可选的是,本发明可被用于双向或多向翻译。
文档编号G06F17/28GK102084417SQ200980118837
公开日2011年6月1日 申请日期2009年4月15日 优先权日2008年4月15日
发明者A·魏贝尔, I·R·莱恩 申请人:移动技术有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1