一种文本注音方法及装置制造方法

文档序号:6491052阅读:142来源:国知局
一种文本注音方法及装置制造方法
【专利摘要】本发明公开了一种文本注音方法及装置。一种文本注音方法包括:获得待注音的源语言文本序列根据预设的对应关系;获得与具有音译关系的目标语言文本序列候选;根据目标语言的语言模型,选取具有较高模型评分的候选作为源语言文本序列的注音结果。上述方案利用机器翻译技术中的音译模型,可以在没有专业翻译人员的情况下,实现对用户输入的外文文本的进行自动“本地注音”。同时,结合本地语言的语言模型对多个相似读音的注音结果进行进一步筛选,可以令注音结果尽量符合本地语言的习惯,从而达到便于用户记忆的目的。
【专利说明】一种文本注音方法及装置
【技术领域】
[0001]本发明涉及自然语言处理【技术领域】,特别是涉及一种文本注音方法及装置。
【背景技术】
[0002]随着国际化交流的日益广泛,日常生活中涉及到的外语的场合也越来越多,外语学习的重要性也不言而喻。在语言学习过程中,“说”是一个很重要的环节,为了掌握正确的外语发音,一般需要先整体了解该门语言的发音体系,然后按照字、词、句的顺序逐渐学习及曰。
[0003]以上属于比较正统的学习方式,然而这种学习方式的成本较高,对于一些希望在短时间内掌握某些内容发音的用户来说,是不现实的。在这种需求下背景下,可以很自然地想到一种“捷径”的学习方式:使用母语的发音来标注外语的发音。
[0004]例如,对于高龄老人而言,已经很难有精力系统去学习外语的发音,但是有些老人却可以利用“使用母语的发音来标注外语的发音”的方式,学习一些基本的英语表达。典型的例如“玩奈特(one night)”,“好嘛吃(howmuch)”等等,尽管发音并不算特别标准,但是结合特定的场景,已经能够达到与其他国家的人基本交流的目的了。另一个典型的例子是歌剧演唱。很多中国的歌剧演唱者并不懂意大利语,但在演唱意大利歌剧时,这些演唱者也唱得有模有样。很多人选择的方式就是使用中文对意大利语的歌词进行注音,他们在演唱时,唱的实际上是中文的注音结果。
[0005]可见,使用母语发音来标注外语发音的学习方式,尽管并不正统,却能够在某些情况下取得简单快捷的学习效果,因此还是可以在一定范围内推广,例如针对老年人等等。目前,推广这种方式的主要问题在于:“注音”的工作需要由人工完成,即至少需要一个懂得外语的人,知道相应的外文该如何发音,并在此基础上标注本国语言的发音。如果没有懂得外语的人,那么标注工作也难以完成。

【发明内容】

[0006]为解决上述技术问题,本发明实施例提供一种文本注音方法及装置,以实现利用本地语言对外语文本进行发音标注,技术方案如下:
[0007]本发明实施例提供一种文本注音方法,该方法包括:
[0008]获得待注音的源语言文本序列P;
[0009]根据预设的对应关系,获得与P具有音译关系的目标语言文本序列候选丨(i=l, 2,3…N,N > 1);
[0010]根据目标语言的语言模型选取具有较高模型评分的Ii作为P的注音结果。
[0011]根据本发明的一种【具体实施方式】,所述根据预设的对应关系,获得与P具有音译关系的目标语言文本序列候选丨$丨,包括:
[0012]根据预先建立的模型获得与,具有音译关系的目标语言文本序列候选[0013]其中
【权利要求】
1.一种文本注音方法,其特征在于,该方法包括: 获得待注音的源语言文本序列P 根据预设的对应关系,获得与P具有音译关系的目标语言文本序列候选(i=l, 2,3…N,N > I); 根据目标语言的语言模型,选取具有较高模型评分的Ii'作为P的注音结果。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的对应关系,获得与声具有音译关系的目标语言文本序列候选丨总丨,包括: 根据预先建立的模型P(Pjf),获得与P具有音译关系的目标语言文本序列候选{島}; 其中/3CPl互)为:源语言文本与目标语言文本之间的音译模型。
3.根据权利要求2所述的方法,其特征在于,所述根据目标语言的语言模型选取具有较高模型评分的g作为#的注音结果,包括: 根据P(卢同P(互广的计算结果,选择能够令P(Pp)P(句“得到较高取值的一个或多个I作为P的注音结果,其中α为预设的语言模型权重系数。
4.根据权利要求1所述的方法,其特 征在于,所述根据预设的对应关系,获得与,具有音译关系的目标语言文本序列候选丨島丨,包括: 根据预先建立的模型,P(^\E)、P(^7|W),获得与卢具有音译关系的目标语言文本序列候选丨fa; 其中 P(F\phf)'J^:源语言音素与源语言文本之间的音译模型; P(pJie\E)'J^j:目标语言文本与目标语言音素之间的音译模型; P(p/i/|p/ie)为:目标语言音素与源语言音素之间的音译模型。
5.根据权利要求4所述的方法,其特征在于,所述根据目标语言的语言模型选取具有较高模型评分的1(作为P的注音结果,包括:根据的计算结果,选择能够令P(Fjphf)P (phf I p/ie) Z3 (p/ie I £ ) P (£) ?'Ι到较高取值的一个或多个名,作为f的注音结果,其中α为预设的语言模型权重系数。
6.根据权利要求1所述的方法,其特征在于,所述根据预设的对应关系,获得与P具有音译关系的目标语言文本序列候选丨氧丨,包括: 根据预先建立的模型P(PlW)、ρ(3^7|互),茯得与P具有音译关系的目标语言文本序列候选丨武}; 其中
7.根据权利要求6所述的方法,其特征在于,所述根据目标语言的语言模型
8.根据权利要求1所述的方法,其特征在于,所述根据预设的对应关系,获得与卢具有音译关系的目标语言文本序列候选丨|丨,包括: 根据预先建立的模型
9.根据权利要求8所述的方法,其特征在于,所述根据目标语言的语言模型
10.一种文本注音装置,其特征在于,该装置包括: 输入单元,用于获得待注音的语言文本序列卢; 音译处理单元,用于根据预设的对应关系,获得与P具有音译关系的目标语言文本序列候选{总}(1=1,2>> I);结果选取单元,用于根据目标语言的语言模型
11.根据权利要求10所述的装置,其特征在于,所述音译处理单元,具体用于: 根据预先建立的模型
12.根据权利要求11所述的装置,其特征在于,所述结果选取单元,具体用于: 根据
13.根据权利要求所述10所述的方法装置,其特征在于,所述音译处理单元,具体用于: 根据预设的对应关系,获得与P具有音译关系的目标语言文本序列候选
14.根据权利要求13所述的装置,其特征在于,所述结果选取单元,具体用于: 根据
15.根据权利要求10所述的装置,其特征在于,所述音译处理单元,具体用于: 根据预先建立的模型
16.根据权利要求15所述的装置,其特征在于,所述结果选取单元,具体用于:根据的计算结果,选择能够令句P(互)?到较高取值的一个或多个P作为P的注音结果,其中α为预设的语言模型权重系数。
17.根据权利要求10所述的装置,其特征在于,所述音译处理单元,具体用于:根据预先建立的模型互),获得与P具有音译关系的目标语言文本序列候选{总}; 其中
18.根据权利要求17所述的装置,其特征在于,所述结果选取单元,具体用于:根据
【文档编号】G06F17/21GK103810993SQ201210457266
【公开日】2014年5月21日 申请日期:2012年11月14日 优先权日:2012年11月14日
【发明者】李伟, 沈文竹 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1