中文地址的翻译方法及系统的制作方法

文档序号:9471361阅读:250来源:国知局
中文地址的翻译方法及系统的制作方法
【技术领域】
[0001 ] 本发明涉及一种中文地址的翻译方法及系统。
【背景技术】
[0002]目前,很多翻译引擎都可以将中文翻译为英文,但是这些翻译引擎在将中文地址翻译为英文时,普遍存在着翻译不准确的问题,出现这种问题的主要原因在于,现有翻译引擎在进行翻译时通过都是基于统计数据,也就是说,翻译引擎先收集大量中英文对照的地址,然后在翻译时,从收集到的地址中查找需要翻译的中文地址,再找到与之对应的英文地址作为翻译结果。由于很难保证收集的数据的准确性,所以就更难保证翻译结果的准确性。

【发明内容】

[0003]本发明要解决的技术问题是为了克服现有的翻译引擎在翻译地址时不准确的缺陷,提供一种能够准确翻译的中文地址的翻译方法及系统。
[0004]本发明是通过以下技术方案解决上述技术问题的:
[0005]本发明提供一种中文地址的翻译方法,其特点是,所述翻译方法包括:
[0006]S1、预设特征词,将中文地址按照特征词划分为多个地址单元,每个地址单元均以特征词作为结尾;
[0007]S2、将每个地址单元中的非特征词翻译为拼音,并将每个地址单元中的特征词翻译为英文;
[0008]S3、将翻译后的地址单元调整顺序后输出。
[0009]其中,特征词可以包括表示地址等级的词,如省、市、区、县、路、镇、村、花园;还可以包括数字和字母等,经过步骤S1中文地址被划分成多个地址单元,如地址XX省XX市X X县划分后有3个地址单元,分别为X X省、X X市和X X县。
[0010]本技术方案通过将中文地址进行划分并逐一进行翻译,得到准确的翻译结果,并且考虑到中文和英文在地址的表达习惯的不同,本技术方案还自动将翻译好的地址调整为符合英文表达习惯的地址,进一步提高了翻译结果的准确性。
[0011]较佳地,所述翻译方法还包括在Sii后且在s 2之前执行以下步骤:
[0012]Sn、检查每个地址单元的组成结构,若存在组成结构符合第一规则的待处理地址单元,则对所述待处理地址单元执行S12,若每个地址单元的组成结构均不符合第一规则,贝Ij执行S2;
[0013]S12、将所述待处理地址单元与相邻的地址单元连接,并重新划分地址单元。
[0014]由于第一次划分的地址单元可能存在错误,所以本技术方案通过预设的第一规则检查每个地址单元的组成结构,在小范围内对组成结构符合第一规则的待处理地址单元进行调整,进一步保证后续翻译结果的准确性。
[0015]较佳地,地址单元的组成结构包括以下几种:名称和特征词、名称和方位词及特征词、只包括特征词和只包括方位词及特征词;
[0016]所述第一规则为地址单元的组成结构为只包括特征词,或者只包括特征词和方位词;
[0017]S12包括将所述待处理地址单元与所述待处理地址单元的前一个地址单元或所述待处理地址单元的后一个地址单元连接,以形成一个新的地址单元。
[0018]考虑到一些地名可能就是由几个特征词组成的,为了防止这些地名被误分为几个地址单元,本技术方案将被误分的地址单元重新连接起来,进一步提高了翻译结果的准确性。
[0019]较佳地,S12包括通过以下标准中的一种或几种衡量将所述待处理地址单元与所述前一个地址单元连接还是与所述后一个地址单元连接:
[0020]第一标准为,在所述待处理地址单元、所述前一个地址单元和所述后一个地址单元中,将所述待处理地址单元与所述前一个地址单元连接或与后一个地址单元连接后,剩余的地址单元的组成结构是否符合第一规则;
[0021]第二标准为,与所述待处理地址单元连接的地址单元的组成结构是否符合第一规则;
[0022]第三标准为,将所述待处理地址单元与所述前一个地址单元连接或与后一个地址单元连接后所形成的新的地址单元的名称的字符数是否多于一阈值;
[0023]第四标准为,若所述待处理地址单元为字母或数字,将所述待处理地址单元与后一个地址单元连接,以形成一个新的地址单元。
[0024]较佳地,S12通过打分机制计算将所述待处理地址单元与所述前一个地址单元连接的分数和将所述待处理地址单元与所述后一个地址单元连接的分数,若分数不同,则采用分数相对较高的连接方式形成新的地址单元,若分数相同,则将所述待处理地址单元与所述前一个地址单元连接形成新的地址单元。
[0025]若采用上述标准,则:
[0026]所述第一标准中,在所述待处理地址单元与所述前一个地址单元连接后,若后一个地址单元的组成结构不符合第一规则,则加分;在所述待处理地址单元与所述后一个地址单元连接后,若前一个地址单元的组成结构不符合第一规则,则加分;
[0027]所述第二标准中,若与所述待处理地址单元连接的地址单元的组成结构本身就不符合第一规则,则扣分;
[0028]第三标准中,若将所述待处理地址单元与所述前一个地址单元连接或与后一个地址单元连接后所形成的新的地址单元的名称的字符数多于所述阈值,则扣分。
[0029]通过设定上述各标准加减分的数值,可以制定出一套考虑周全且合理的打分机制,选出最优的连接方式。
[0030]如:xx区花园路,被划分成3个地址单元,分别为X X区、花园和路。其中,地址单元“花园”只包括了特征词,即名字的部分为空;对“花园”,分别尝试向前和向后连接:
[0031](I)xx区花园和花园路都是合理的地址单元,所以都加分。
[0032](2)因为XX区花园使用了本身就不符合第一规则的“XX区”,所以适当性地扣分;又因为花园路中,“路”本身是就符合第一规则,所以不扣分。
[0033](3)xx区花园和花园路的字数都在合理范围,所以都不扣分。
[0034]最终结果:XX区花园的分数低于花园路的分数,将“花园”和“路”连接成“花园路”作为一个新的地址单元。此时,XX区、花园和路变成XX区,花园路。步骤S11和S12结束。
[0035]较佳地,所述翻译方法还包括在Sii后且在S 2之前执行以下步骤:
[0036]T1、通过匹配地址词库,将地址单元拆分成一个或多个地址单元;
[0037]T2、检查拆分后的每个地址单元的组成结构,若存在组成结构符合第一规则的地址单元,则将拆分后的地址单元还原为拆分前,若每个地址单元的组成结构均不符合第一规则,则执行S2。
[0038]地址词库收录有中国国内的地名和路名等;将地址单元拆分成一个地址单元,是针对通过匹配地址词库发现地址单元不能被拆分的情况,如果地址单元没有被拆分,也就不需要执行步骤T2T ;所述将拆分后的只包括特征词的地址单元还原为拆分前,是指将只包括特征词的那一个地址单元重新与前一个地址单元连接,而不是指T1中被拆分的地址单元全部还原成未被拆分的状态。SJP T i都是将地址单元拆分,但是两者采用了不同的拆分方式,S1是利用特征词进行拆分,T i是利用地址词库进行拆分,其中T i的拆分主要是针对有些地址可能会省略特征词的情况,通过本技术方案,可以对这类的地址进一步划分,方便后续的翻译步骤。另外,在?\?T 2与S S 12同时存在时,优先执行S S 12。
[0039]如中国江苏南京市,通过匹配地址词库,利用最大正向匹配原则,可以划分为3个地址单元,分别为中国、江苏和南京市,由于这3个地址单元均不出现只包括特征词的情况,所以上述划分是合理的;又如南京东路,通过匹配地址词库,利用最大正向匹配原则,可以划分为2个地址单元,分别为南京和东路,由于地址单元“东路”只包括特征词和方位词,所以又将“南京”和“东路”重新连接起来,最后得到地址单元“南京东路”。
[0040]较佳地,所述翻译方法还包括在1~2之后且在S 2之前执行以下步骤:
[0041]T3、在通过1\和T 2得到的且不包括特征词的地址单元中添加对应的特征词。
[0042]如上文将中国江苏南京市划分为中国、江苏和南京市后,本技术方案会在地址单元“江苏”中加入特征词“省”,得到地址单元“江苏省”。这样有利于后续步骤进行翻译。
[0043]较佳地,T1包括:通过匹配地址词库,分别将前N个地址单元拆分成一个或多个地址单元,N为整数。
[0044]本技术方案可以提高处理效率,避免重复劳动,防止地址单元被反复拆分和连接。
[0045]较佳地,33包括以下内容中的一种:
[0046]将翻译后的地址按照逆序输出;
[0047]将翻译后的地址单元按照特征词由小到大的顺
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1