双语语料库的数据扩充方法和装置制造方法

文档序号:6517990阅读:216来源:国知局
双语语料库的数据扩充方法和装置制造方法
【专利摘要】本发明公开了一种双语语料库的数据扩充方法和装置。所述双语语料库的数据扩充方法包括:在源语言-枢轴语言语料库中查找与第一源语言短语语义匹配的至少一个第一枢轴语言短语;在源语言-枢轴语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第二源语言短语;在枢轴语言-目标语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第一目标语言短语;将所述源语言短语集合中的第二源语言短语与所述目标语言短语集合中的第一目标语言短语进行组合;将组合形成的源语言短语与目标语言短语之间的短语对存储至源语言-目标语言语料库。本发明对双语语料库中的数据进行扩充,解决了双语语料库中的数据稀疏问题。
【专利说明】双语语料库的数据扩充方法和装置
【技术领域】
[0001]本发明涉及机器翻译【技术领域】,尤其涉及一种双语语料库的数据扩充方法和装置。
【背景技术】
[0002]机器翻译系统可以分为基于规则的机器翻译系统、基于实例的机器翻译系统以及基于统计的机器翻译系统。基于统计的机器翻译系统是20世纪90年代兴起的一种机器翻译系统,也是当前最为主要的机器翻译系统。它不需要人工编写规则,并且对所有语言都适用,因此应用比较广泛。
[0003]基于统计的机器翻译系统的翻译质量很大程度上取决于语料库的质量。即语料库中的数据数量越多,质量越高,则基于统计的机器翻译系统的翻译质量就越高。而语料库建立之初,大多数语料库都面临语料库中数据稀疏的问题。

【发明内容】

[0004]有鉴于此,本发明提出一种双语语料库的数据扩充方法和装置,以解决双语语料库的数据稀疏问题。
[0005]第一方面,本发明实施例提供了一种双语语料库的数据扩充方法,所述方法包括:
[0006]在源语言-枢轴语言语料库中查找与第一源语言短语语义匹配的至少一个第一枢轴语目短语;
[0007]在源语言-枢轴语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第二源语言短语,并由各所述第二源语言短语组成源语言短语集合;
[0008]在枢轴语言-目标语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第一目标语言短语,并由各所述第一目标语言短语组成目标语言短语集合;
[0009]将所述源语言短语集合中的第二源语言短语与所述目标语言短语集合中的第一目标语言短语进行组合,形成至少一个源语言短语与目标语言短语之间的短语对;
[0010]将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语目语料库。
[0011]第二方面,本发明实施例提供了一种双语语料库的数据扩充装置,所述装置包括:
[0012]枢轴语言短语查找模块,用于在源语言-枢轴语言语料库中查找与第一源语言短语语义匹配的至少一个第一枢轴语言短语;
[0013]源语言短语集合建立模块,用于在源语言-枢轴语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第二源语言短语,并由各所述第二源语言短语组成源语H短语集合;
[0014]目标语言短语集合建立模块,用于在枢轴语言-目标语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第一目标语言短语,并由各所述第一目标语言短语组成目标语言短语集合;
[0015]短语对组合模块,用于将所述源语言短语集合中的第二源语言短语与所述目标语言短语集合中的第一目标语言短语进行组合,形成至少一个源语言短语与目标语言短语之间的短语对;
[0016]短语对存储模块,用于将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语言语料库。
[0017]本发明实施例提供的双语语料库的数据扩充方法和装置,通过对源语言-枢轴语言语料库以及枢轴语言-目标语言语料库进行双向挖掘,对双语语料库中的数据进行扩充,解决了双语语料库中的数据稀疏问题。
【专利附图】

【附图说明】
[0018]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0019]图1是本发明第一实施例提供的双语语料库的数据扩充方法的流程示意图;
[0020]图2是本发明第一实施例提供的双语语料库的数据扩充方法中源语言短语集合建立的流程示意图;
[0021]图3是本发明第一实施例提供的双语语料库的数据扩充方法中目标语言短语集合建立的流程示意图;
[0022]图4是本发明第二实施例提供的双语语料库的数据扩充装置的结构示意图。【具体实施方式】
[0023]下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0024]图1示出了本发明的第一实施例。
[0025]图1是本发明第一实施例提供的双语语料库的数据扩充方法的流程示意图。该方法适用于以源语言-枢轴语言语料库和枢轴语言-目标语言语料库为基础,对源语言-目标语言语料库这一双语语料库进行扩展的情况,具体可以由双语语料库的数据扩充装置来实现,该装置可以配置于任意具有数据处理能力的设备中,与各语料库能进行数据交互处理即可。参见图1,所述双语语料库的数据扩充方法包括:
[0026]步骤S110,在源语言-枢轴语言语料库中查找与第一源语言短语语义匹配的至少一个第一枢轴语言短语。
[0027]枢轴语言也称作中介语言,是在多种语言之间进行翻译时用作中间语言的人工语言或者自然语言。
[0028]所述源语言-枢轴语言语料库是存储了由源语言短语及与其语义匹配的枢轴语言短语的短语对的数据库。在本实施例中,源语言-枢轴语言语料库用于提供与源语言短语语义匹配的枢轴语言短语,并且对枢轴语言与源语言之间的语义匹配关系进行深层次挖掘。[0029]所述第一源语言短语是属于源语言的短语,它是进行源语言-目标语言语料库扩充的数据源。也就是说,本实施例提供的双语语料库的数据扩充方法利用源语言短语对源语目-目标语目语料库进行扩充。
[0030]所述第一枢轴语言短语是属于枢轴语言的短语。它的语义与源语言短语匹配,用于对源语言-枢轴语言语料库及枢轴语言-目标语言语料库进行挖掘。语义匹配的具体实现方式可以根据需要进行设定,例如可将语义相同的短语确定为匹配短语,或者将相似度达到设定阈值的短语作为匹配短语。
[0031 ] 示例的,给出对汉语-西班牙语双语语料库进行扩充的例子。在对汉语-西班牙语进行扩充时,以英语作为枢轴语言。其中,源语言短语是汉语短语“非常好吃”。使用源语言短语“非常好吃”在汉语-英语语料库中查找得到了英语短语“very tasty”以及“reallydelicious,,。 [0032]步骤S120,在源语言-枢轴语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第二源语言短语,并由各所述第二源语言短语组成源语言短语集合。
[0033]查找得到第一枢轴语言短语后,利用得到的所述第一枢轴语言短语在源语言-枢轴语言语料库中查找与所述第一枢轴语言短语匹配的第二源语言短语。所述第二源语言短语的数量为至少一个。可以对每个第一枢轴语言短语分别进行匹配,也可以是从中筛选部分第一枢轴语言短语进行匹配。例如,可根据统计的短语使用频率,选择使用频率高的短语进行匹配。
[0034]在上述对汉语-西班牙语双语语料库进行扩充的例子中,以英语短语“verytasty”以及“really delicious”在汉语-英语语料库中查找与英语短语语义匹配的汉语短语。查找的结果在下表中显示:
[0035]汉语-英语语料库查找结果表
[0036]
【权利要求】
1.一种双语语料库的数据扩充方法,其特征在于,包括: 在源语言-枢轴语言语料库中查找与第一源语言短语语义匹配的至少一个第一枢轴语H短语; 在源语言-枢轴语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第二源语言短语,并由各所述第二源语言短语组成源语言短语集合; 在枢轴语言-目标语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第一目标语言短语,并由各所述第一目标语言短语组成目标语言短语集合; 将所述源语言短语集合中的第二源语言短语与所述目标语言短语集合中的第一目标语言短语进行组合,形成至少一个源语言短语与目标语言短语之间的短语对; 将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语H语料库。
2.根据权利要求1所述的方法,其特征在于,在源语言-枢轴语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第二源语言短语,并由各所述第二源语言短语组成源语言短语集合包 括: 利用所述至少一个第一枢轴语言短语中的每一个在所述源语言-枢轴语言语料库中查找与之语义相同的第二源语言短语; 在查找到的第二源语言短语中去除重复的源语言短语; 将去除重复后的第二源语言短语组成源语言短语集合。
3.根据权利要求1所述的方法,其特征在于,在枢轴语言-目标语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第一目标语言短语,并由各所述第一目标语言短语组成目标语言短语集合包括: 利用所述至少一个第一枢轴语言短语中的每一个在所述枢轴语言-目标语言语料库中查找与之语义相同的第一目标语言短语; 在查找到的第一目标语言短语中去除重复的目标语言短语; 将去除重复后的第一目标语言短语组成目标语言短语集合。
4.根据权利要求1所述的方法,其特征在于,将所述源语言短语集合中的第二源语言短语与所述目标语言短语集合中的第一目标语言短语进行组合,形成至少一个源语言短语与目标语言短语之间的短语对包括: 将所述源语言短语集合中的每一个第二源语言短语作为键,并将所述目标语言短语集合中的每一个第一目标语言短语作为值,形成至少一个源语言短语与目标语言短语之间的短语对。
5.一种双语语料库的数据扩充装置,其特征在于,包括: 枢轴语言短语查找模块,用于在源语言-枢轴语言语料库中查找与第一源语言短语语义匹配的至少一个第一枢轴语言短语; 源语言短语集合建立模块,用于在源语言-枢轴语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第二源语言短语,并由各所述第二源语言短语组成源语言短语集合; 目标语言短语集合建立模块,用于在枢轴语言-目标语言语料库中查找与各所述第一枢轴语言短语语义匹配的至少一个第一目标语言短语,并由各所述第一目标语言短语组成目标语言短语集合; 短语对组合模块,用于将所述源语言短语集合中的第二源语言短语与所述目标语言短语集合中的第一目标语言短语进行组合,形成至少一个源语言短语与目标语言短语之间的短语对; 短语对存储模块,用于将形成的至少一个源语言短语与目标语言短语之间的短语对存储至源语言-目标语言语料库。
6.根据权利要求5所述的装置,其特征在于,所述源语言短语集合建立模块包括: 源语言短语查找子模块,用于利用所述至少一个第一枢轴语言短语中的每一个在所述源语言-枢轴语言语料库中查找与之语义相同的第二源语言短语; 源语言短语去重子模块,用于在查找到的第二源语言短语中去除重复的源语言短语; 源语言短语集合建立子模块,用于将去除重复后的第二源语言短语组成源语言短语集口 ο
7.根据权利要求5所述的装置,其特征在于,所述目标语言短语集合建立模块包括: 目标语言短语查找子模块,用于利用所述至少一个第一枢轴语言短语中的每一个在所述枢轴语言-目标语言语料库中查找与之语义相同的第一目标语言短语; 目标语言短语去重子模块,用于在查找到的第一目标语言短语中去除重复的目标语言短语; 目标语言短语集合建立子模块,用于在查找到的第一目标语言短语中去除重复的目标再古紹五P 口口 Ml P 口 ο
8.根据权利要求5所述的装置,其特征在于,所述短语对组合模块具体用于将所述源语言短语集合中的每一个第二源语言短语作为键,并将所述目标语言短语集合中的每一个第一目标语言短语作为值,形成至少一个源语言短语与目标语言短语之间的短语对。
【文档编号】G06F17/28GK103577399SQ201310544597
【公开日】2014年2月12日 申请日期:2013年11月5日 优先权日:2013年11月5日
【发明者】朱晓宁, 何中军, 吴华, 王海峰 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1