一种英文信件地址的中文自动批译方法

文档序号:6482297阅读:199来源:国知局

专利名称::一种英文信件地址的中文自动批译方法
技术领域
:本发明属于邮政处理自动化
技术领域
,尤其涉及一种英文信件地址的中文自动批译方法。
背景技术
:在国际邮件处理
技术领域
,所述的批译是指将国际邮件上的地址、单位名称、收件人名等投递信息翻译成中文批注到邮件上,以便邮件下一步的分拣和投递。国际邮件的投递信息中涉及到的文种主要有中文、英文、日文、法文、俄文、德文、西班牙文、意大利文等,其中英文站总量的90%。邮政部门的专业批译人员将国际寄达中国的英文信件的收信人地址翻译成中文,并批注在信封上,以便于投递人员送达目的地。批译人员除了要熟悉英文,还要熟悉邮件分拣业务,具有行政区划的地理常识,掌握主要国家机关、外事单位、公共服务机构和大型企业的地址,因此对于批译人员的要求非常之高达到了几乎不可能的程度。幸运的是,随着计算机技术的发展和普及,出现了机器自动翻译批译处理系统,随着需求的演变,采用打印地址的商业信函的数量急剧增加,占到了通常信件数量的主要部分,商业信函的地址的重复性高,运用字符识别技术和机器翻译技术的地址批译系统针对此种情况更使得信件的批译处理效率倍增。然而,现有的英文信件地址的自动批译系统由于固有的技术上的限制仍然存在不少缺点,具体说,有以下几种情况1)、字符识别技术的缺点目前印刷体的字符识别率可以达到99%以上,但是误识率是所有识别技术无法避免的。比如将"H"错误识别为"M",将"I"错误识别为"1"等等。这就增加了批译系统的拒翻率(即无翻译结果的概率)和误翻率(即错误翻译的概率)。2)机器翻译技术的问题1.地址中使用的语言是自然语言的一个子集,但对自然语言中字词句类型的定义和规则却不能直接用在批译系统中,需要针对地址的用语下新的定义,提取新的规则。2.地址书写的不规范目前还没有统一规定中国地址如何确切地用英文表示。如"南京西路"的英文表示方法就可以写为以下几种Nanjingxilu,NanjingWestRoad,WestNanjingRoad等。3.地址书写错误有些用户口」—能对中文拼音小是很熟悉,小会区分前后鼻音或者平翘舌音,在书写地址时凭印象或或者信手写上一个。比例如把"linglinglu"(零陵路)写成"linlinlu"。虽然识别出来的字符是正确的,但是对照标准的地址库时却无法翻译出结果。
发明内容本发明的目的是提供一种英文信件地址的中文自动批译方法,解决目前由于OCR误识、地址书写不规范或者书写错误对翻译性能的影响所造成的英文信件地址批译中误翻或者拒翻的问题。本发明的技术方案是,一种英文信件地址的中文自动批译方法,其特征在于,包括以下步骤Al、自动识别以英文印刷字符书写的信件地址;A2、按照地址信息库的形式结构化所述的信件地址,得到信件地址信息集;A3、对所述信件地址信息集与地址信息数据库中的记录做相似度计算,以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。所述的步骤A3中的相似度计算过程由以下步骤组成Bl、将所述信件地址信息集记为AddrX(Seco,SeCl,...,Sec1()),其中Secj(l《j《10)分别表示地址信息集中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容;B2、将所述地址信息数据库中某一地址记录记为DBk(Itenn,Item2,...,Item10,CIteiiM,CItem2,...,CItem10),其中Itertij(1《j《10)分别表示地址信息项中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容,Cltemj(l《j《10)是对应于Itemj的中文表述,1《k《N,N为数据库中的记录总数;B3、将地址AddrX和数据库中某记录DBk的相似度定义为2sim(SeCy,Item乂)&(AddrX,DBJ=^——^-其中Sim(Secj,Itemj)是Secj和Item」两个字符串之间的相似度,&表示某个地址信息项是否为空,空则为O,非空则为l;B4、令a=^(AddrX,DBJ,若》;i则认为AddrX与DBj相匹配,DBi(CItenn,CItem2,...,Cltem9)为AddrX的中文表述,其中;i是相似度阈值,取值在0~1之间。所述步骤B4中的相似度阈值义取为0.85。所述步骤B3中的两个字符串之间的相似度Sim(Secj,Itemj)的取得过程由以下步骤组成Cl、设八=Itemj为标准字符串,有m个字符组成,用["/,"2,^]表示;B:Secj为字符识别结果,有"个字符串组成,用[~》2,...,Zg表示;C2、以编辑距离的比对法来计算B与A之间的相似度,用一个(m+l)X("+l)的矩阵F记录比较结果,即令矩阵F初始化印,》=0'"""'《肌,^U/)的值按如下i,j双循环计算印',》=max<印-,》其中^7(^)表示字符化与字符4是否相同,定义为:(2a,.=6y,—2a,化那么字符串B与A的比较结果定义为-Sim(B,A)=其中^=mxcr(a,,fl,.)=2w,是A与其本身的比较结果,取一定的阈值S,7当Sim(B,A)大于^时,则判定两个字符串是相同的。前述的英文信件地址的中文自动批译方法,还包括以下步骤Dl、根据预定义的词类建立地址常用词词典,每个词有四个属性词、匹配阈值、词类以及词类规则序号,其中匹配阈值是根据字符模糊比较方法判断待定词与词典中的词是否一致的参数,词类属性表示本词所属的类别,同一个词可以属于多种词类,词又分为单类词和兼类词,词类规则序号属性这是用序号来表示确定本词的类别的词类规则;D2、计算待定词和词典中所有词的比较结果,假设最高值为S/MA^(X,其对应词的匹配阈值的值为^,如果57MM4X^0,则按照该词后两个属性词类和词类规则序号来确定词的类别,关键词的匹配阈值设置为1.0,不包括关键词的其他的词的匹配阈值设置为0.9;D3、对于无法定义于词典中的词标为"字母串"。本发明的方法是以字符识别技术获得的收信人地址作为自动批译的输入,针对识别错误不可避免的误识率以及地址中的用语规律,创建了具有容错性地址结构化转换方法,将非结构化的地址文本转化为结构化的地址信息集;再应用一种模糊匹配的方法与地址库中的中英文地址信息进行比较,自动翻译出对应的中文地址。整个批译过程是一个全自动过程,无须人工干预。图1是本发明一实施例中以向前搜索确定路名前缀的有限状态自动机DFA1状态图图2是本发明一实施例中以向后搜索确定路名后缀的有限状态自动机DFA2状态图图3是本发明一实施例中各个不同地址信息项的有限状态自动机具体实施例方式以下结合附图详细说明本发明技术方案的具体实施方式。本发明的实施中首先需要完成具有容错性的地址结构化转换,具体说,这个过程主要是一种将非结构性的文本地址转换为结构化的地址信息集。地址信息集有以下几个信息项构成市、行政区、路名、门牌号、大楼名、居民小区、收信人、公司、邮编、邮箱等。针对地址的行文语言的特殊性,定义了专门的词类和词类规则。本发明的一实施例将词的类别归纳为18种大类,个别大类又细分为若干子类,参见表l。表l词类(Tag)<table>tableseeoriginaldocumentpage9</column></row><table><table>tableseeoriginaldocumentpage10</column></row><table>根据定义的词类建立地址常用词词典,每个词有四个属性词,匹配阈值,词类以及词类规则序号。其中匹配阈值是根据字符模糊比较方法判断待定词与词典中的词是否一致的参数。计算待定词和词典中所有词的比较结果,假设最高值为SIMMAX,其对应词的匹配阈值的值为^,如果SIMMAX>^,则按照该词后两个属性词类和词类规则序号来确定词的类别。一般,关键词的匹配阈值设置为l.O,而其它设置为0.9。词类属性表示本词所属的类别,同一个词可以属于多种词类。将词分为单类词(只有属于一种词类)和兼类词(属于多种词类)。词类规则序号属性这是用来表示采用那条词类规则来确定本词的类别。对于不存在于词典中的词标为"字母串"。大部分由英文单词构成的关键词的词类是唯一的,而由拼音构成的关键词则具有多种词类,因此词类规则主要是用于确定拼音构成的词的类别。词类规则是根据前后相邻的词的词类以及在文本行中的位置确定当前词的词类,其表示形式如下啤2〉…〈/"cow必/owA7,/"cow必/owA^7,啤w〉〈啤0〉/"com/衍o"X7是关于词类的逻辑组合,即±togi|±tog2|...|±togm,其中"-"表示非,"I"表示逻辑或,。若当前词前一个词的词类符合co"J衍o"7且后一个词的词类符合com/衍OMr,则当前词的词类为tog7。如果前面条件都不满足,则该词的词类togO。具体有如下<01〉<shi><CityRegion,,Ck-c><Number,,NK3-c〉<CharacterString><02><qu〉<DistrictKeyword,,DK-c><CharacterString〉<03><lu><CharacterString,Number|Punctuation|NumberKeyword,RoadKeywordxCharacterString><04><e><RoadKeyword,-NK,OrientalWoad><CharacterString,RoadKeyword,OrientalWoad〉<SingleDigital><05〉<hao><Number,Number|Punctuation|NumberKeyword,NK2-c〉<CharacterString><06><nong〉<Number,Number|Punctuation|NumberKeyword,NKl-c><CharacterString><07><Iou><Number,Number|Punctuation|NumberKeyword,NK2-c><CharacterString><08〉<cun><Number,,AK-c〉<CharacterString>以<04>号规则为例,解释为若当前词"e"的前一个词是RoadKeyword且后一个词不是NK,则该词的词类为OrientalWoad;若前一个词是CharacterString且后一个词为RoadKeyword,贝l」"e"的词类为OrientalWoad;若都不成立,则"e"的词类为SingleDigital。地址结构化转换方法可以采用有限自动机从标注了词类的非结构化的收信人地址转中提取各个地址信息项。路名是一个地址中比较的重要的信息。常见的路名有以下6种形式A.C7zara"eriS,/7'"g…C7zaractenSr/"g/oa涨e,ora如CenturyBoulevard(世纪大道)如ZhongShanNorthRoad(中山北路)C.C7zarac/eCn'"g...C7zaracferSfn'wg條附6erioa涨e戸orc如RuiJinlLu(瑞金一路)如WestNanJingRoad(南京西路)E.CTzarac&nSWMg...C7zarac敏SW"gioa涨e戸orafOr/ewta/恥rc/如GuangYuanRoadWest(广元西路)如ZhongShanNo2RoadSouth.(中山南二£各)11将一个完整的路名定义为三个部分前缀、路名关键词和后缀,其中后缀可缺省。以"GuangYuanRoadWest"为例,"GuanYuan"为前缀,"Road"为路名关键词,"West"为后缀。采用有限状态自动机的方法,对路名前后缀进行确定。图1、图2分别给出了用于确定前缀和后缀的有限状态自动机DFA1和DFA2。将词类标定好后的地址以路名关键词为界,分为两个部分,前部分作为DFA1的输入串,从路名关键词开始向前逐词输入,以DFA1可以接受的最大子串为路名的前缀,再将地址后半部分作为DFA2的输入串,向后逐词输入,同样以DFA2可接受的最大子串为路名后缀,合并前缀、路名关键词和后缀可等到完整的路名。对于收信人姓名、公司、小区/园区名、大楼等地址信息项,同样可以由有限状态自动机获得,它们对应的有限状态自动机如图3所示。对于门牌号码串,首先标识出地址中的号码,数字串、单字母和序数词。对于长度超过5的数字串和路名中长度为1的数字不作处理。对用'-'或V'连接的多个号码作为一个号码处理。对中间没有空格隔开的单个字符和单个数字也作为一个号码处理。号码关键词(或者路名)与号码存在对应的词组关系,举例如下G.A^7-e和M/附6w组成一级号码词组,如Lane1885(1885弄)H.7VA^-e和A^m6er组成二级号码词组,如No9(9号)I.A^-e和M^6w组成三级号码词组,如Room502(502室)J.M/m6er和A^7-c组成一级号码词组,如1885Nong(1885弄)K.M^6er和A^2-c组成二级号码词组,如9hao(9号)L.M/w6er和iViO-c组成三级号码词组,如502shi(502室)M.iVww6er和F/oo^Te戸oW组成楼层号码词组,如5/F(5层)N.^^附6^和^《/^组成一级号码词组,如1885Lane(1885弄)O.M/m6"和路名组成一级号码词组,如161EASTLUJIAZUILU(陆家嘴东路161号)P.路名和M/附6er组成一级号码词组,如ZhongShanNorth3663(中山北路3663号)将词组按一级号码、二级号码、楼层、三级号码排序,即得到地址的号码串。对于邮政编码这一项,直接由词类为户OWCO^的词得到。对于邮箱这一项,紧接着词类为P仍AoxKe;woW的词的后一个号码为邮箱号码。对于市这一项,根据C/(y《e戸oW和a/)Wame构成的词组得到市名。对于区这一项,根据Z)/W《e戸wt/和D/WiVowe构成的词组得到区名。这样,非格式化的文本地址转换为由市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名等多个地址信息项构成的信息集。其次,完成基于模糊比较的地址翻译。地址信息库中的地址按照地址信息集的形式放置,且每个地址信息项有其对应的中文表述。计算转换后的地址信息集与地址库中的记录进行的相似度,若得到的最高相似度满足一定判断条件,则对应记录中的中文表述就是信件地址的翻译结果。将地址信息集记为Addrf(Seco,SeCl,...,Sec1()),其中Secj(l《j《10)分别表示地址信息集中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容。将数据库中某一地址记录记为DBk(Iteim,Item2,...,Item!o,CItem1;CItem2,...,CItem1()),其中Itemj(Kj《10)分别表示地址信息项中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容,Cltemj(l《j《10)是对应于Itemj的中文表述,1《k《N,N为数据库中的记录总数。将地址AddrX和数据库中某记录DBk的相似度定义为9ZSim(Sec乂,Item^)%(AddrX,)=^^-其中Sim(Secj,Itemj)是Sec」和Itemj两个字符串之间的相似度;^表示某个地址信息项是否为空,空则为0,非空则为l。假设^^(AddrX,DBJ。若^^;i则认为AddrX与DBi相匹配,DBi(CIteim,CItem2,...,Cltem9)为AddrX的中文表述,其中;i是相似度阈值,取值在0~1之间。通过大量实验后得到/1取0.85比较适合。在上述的方法中,字符串的模糊比较非常关键,也是本发明的技术方案基础和关键。设A为标准字符串,有附个字符组成,用[&,…,^vl表示;B为字符识别结果,有"个字符串组成,用[^》2,...,6]表示。如何计算B与A之间的相似度是本发明的基础和关键。这里采用的是编辑距离的比对法来计算B与A之间的相似度,用一个(m+l)X("+l)的矩阵F记录比较结果c矢巨阵F初始化F(7'》=ft0S/S"'0SySm.T〃,'"的/古始亡门"FT翁T7:;+宣.For1S/2w,1S_/Sw印.,》=max.印-,》其中a(^^)表示字符",与字符"是否相同,定义为f2—~、'^1~2"乂.那么字符串B与A的比较结果定义为Sim(A,B)=:'、其中巳=WXCT(a,,fl,)=2m,是A与其本身的比较结果。取一定的阈值^,当Sim(A,B;)(也可以写作Sim(B,A))大于^时,则认为两个字符串是相同的。由此本发明公开了一种英文信件地址的自动批译方法,将识别得到的非结构化文本地址转换为结构化的地址信息集,运用模糊匹配方法与地址库中的进行比较,从而获得中文结果。本方法具有一定的容错性,降低了字符误识、书写不规范和书写错误对翻译性能的影响。权利要求1、一种英文信件地址的中文自动批译方法,其特征在于,包括以下步骤A1、自动识别以英文印刷字符书写的信件地址;A2、按照地址信息库的形式结构化所述的信件地址,得到信件地址信息集;A3、对所述信件地址信息集与地址信息数据库中的记录做相似度计算,以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。2、如权利要求1所述的英文信件地址的中文自动批译方法,其特征在于,所述的步骤A3中的相似度计算过程由以下步骤组成Bl、将所述信件地址信息集记为AddrX(Seco,SeCl,...,Sec1()),其中Secj(l《j《10)分别表示地址信息集中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容;B2、将所述地址信息数据库中某一地址记录记为DBk(Iteim,Item2,...,Itermo,CItem!,CItem2,...,CItem10),其中Itenij(1《j《10)分别表示地址信息项中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容,Cltemj(l《j《10)是对应于Itemj的中文表述,1《k《N,N为数据库中的记录总数;B3、将地址AddrX和数据库中某记录DBk的相似度定义为9ZSim(Sec"Item》%(AddrX,DB4)=^~~^-其中Sim(Secj,Itemj)是Secj和Itemj两个字符串之间的相似度,^表示某个地址信息项是否为空,空则为O,非空则为l;B4、令p,=%(AddrX,DBJ,若p,>;i则认为AddrX与DBi相匹配,DBi(CIteim,CItem2,...,Cltem9)为AddrX的中文表述,其中;i是相似度阈值,取值在01之间。3、如权利要求2所述的英文信件地址的中文自动批译方法,其特征在于,所述步骤B4中的相似度阈值A取为0.85。4、如权利要求2所述的英文信件地址的中文自动批译方法,其特征在于,所述步骤B3中的两个字符串之间的相似度Sim(Secj,Itemj)的取得过程由以下步骤组成Cl、设A=Item」为标准字符串,有w个字符组成,用[",…,^]表示;B-Secj为字符识别结果,有"个字符串组成,用[67》2,...,Zvl表示;C2、以编辑距离的比对法来计算B与A之间的相似度,用一个(w+l)X(w+l)的矩阵r记录比较结果,即令矩阵f初始化^r/'》=o,o^/s"'os/$w.,KfU)的值按如下i,j双循环计算印.,》=max'其中O"(fl,.A)表示字符",与字符h是否相同,定义为印力,+印"cr(a,A)=[2a,=~-2化那么字符串B与A的比较结果定义为-Sim(B,A)=z巳其中^=WX(7(fl,,a,)=2m,是A与其本身的比较结果,取一定的阈值^,当Sim(B,A)大于e时,则判定两个字符串是相同的。5、如权利要求1所述的英文信件地址的中文自动批译方法,其特征在于,还包括以下步骤Dl、根据预定义的词类建立地址常用词词典,每个词有四个属性词、匹配阈值、词类以及词类规则序号,其中匹配阈值是根据字符模糊比较方法判断待定词与词典中的词是否一致的参数,词类属性表示本词所属的类别,同一个词可以属于多种词类,词又分为单类词和兼类词,词类规则序号属性这是用序号来表示确定本词的类别的词类规则;D2、计算待定词和词典中所有词的比较结果,假设最高值为S/MM4X,其对应词的匹配阈值的值为^,如果S/MM4Z》《,则按照该词后两个属性词类和词类规则序号来确定词的类别,关键词的匹配阈值设置为1.0,不包括关键词的甘/Wi的;a的r7T而口湖/古"Ui"罢头no.D3、对于无法定义于词典中的词标为"字母串"。全文摘要本发明涉及邮政处理自动化
技术领域
中的一种英文信件地址的中文自动批译方法,其特征在于,包括以下步骤自动识别以英文印刷字符书写的信件地址;按照地址信息库的形式结构化所述的信件地址,得到信件地址信息集;对所述信件地址信息集与地址信息数据库中的记录做相似度计算,以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。本发明将识别得到的非结构化文本地址转换为结构化的地址信息集,运用模糊匹配方法与地址库中的进行比较,从而获得中文结果。本发明方法具有一定的容错性,降低了字符误识、书写不规范和书写错误对翻译性能的影响。文档编号G06F17/28GK101482862SQ20091004558公开日2009年7月15日申请日期2009年1月20日优先权日2009年1月20日发明者岳吕,晓屠申请人:上海邮政科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1