多文种国际邮件微机批译系统的制作方法

文档序号:5067500阅读:255来源:国知局
专利名称:多文种国际邮件微机批译系统的制作方法
技术领域
本发明涉及一种微机控制的多文种国际邮件的批译系统。
所述的多文种邮件批译即为将国际邮件上的多国文字包括地址、单位名称、收件人名等翻译成中文批注到邮件上,以便邮件的下一步分拣和投递。
国际邮件涉及的主要文种有中文、英文、日文、法文、俄文、德文、西班牙文、意大利文等,其中英文占总量的90%。批译人员除了需要熟悉多种外国文字外,还需要熟悉国内邮件分拣业务、市内邮件分拣业务,具有国内行政区域划分的地理常识,还要掌握国家领导人、驻华主要外交官、记者的工作单位,掌握国家主要企业、科研、学校、机场、车站、旅游场所等的地址,还要随时掌握单位地名、人名的变更情况。由于大部分国际邮件用英文书写,而且地名、单位名、收件人名等信息齐全正确,因此一般批译人员可以较熟练地人工完成大部分国际邮件的批译工作。
但在下述情况下,则成为疑难邮件书写正确的非中文、英文文种的国际邮件,批译人员首先需要知道该邮件的文种,然后查阅相应的字典才能批译;
书写不正确、不规范、丢字母、错字母的多文种国际邮件;
用拼音书写或用拼音、外文混合书写的不常见的单位名街巷名,由于中文的同音字多,难以确定正确的对应汉字;
照字面直译而找不到实际的地名、单位名;
新旧地名、单位名、人名同时使用;
单位搬迁而无法投递的邮件;
单位、地址、收件人等信息不齐全;
无规律的缩写、易混国籍造成误发的邮件。
凡此种种,造成批译人员必须查阅大量的资料,甚至多次试投才能完成部分批译工作,工作效率很低,也易出错,况且要求一个批译人员同时掌握多国文字,多个语种,也不现实。
本发明的目的就是为了解决生产中的现实问题并结合国情而设计的利用微型计算机对国际疑难邮件进行处理的批译系统,即一个不具备多文种语言知识的批译人员利用一台微型计算机能批译多文种邮件的系统,以减轻批译人员的脑力劳动,提高工作效率,减少差错,而且有利于建立、健全进口邮件的批译资料,有利于邮政业务人员培训。
本发明的现有技术状况是1)一种将词组从第一种语言翻译成第二种语言的翻译系统。如CN87106964A《语言翻译系统》其特征是包括有存储一批第二种语言词组的存储器,以第一种语言输入词组,以第二种语言输出相应词组。2)能处理世界各种文字信息,而不管操作者认识与否的多文种电脑,如CN85100868《多文种电脑》;中国科学院计算所的联想式汉卡及其支持软件与IBM-PC及其兼容机组合成的联想式汉字微型机LX-PC,可以支持任意多种汉字输入方法,旦都有联想功能支持,允许任意造字或更换字库,可以处理多国文字等,因而可以直接从拼音转换为中文词,也可以从英文或其他任何一种编码变换为中文词。上述技术成为多文种邮件批译系统的开发基础。
本发明以商用的IBM-PC系列微型机作为系统主机;选配国内开发的商品化联想式汉卡作汉字系统;采用国际上通用的标准字母数字键盘并对其键名软件赋予新的定义;将批译人员使用的检索资料及其长期积累的知识、经验等,通过集中、分类整理,建立起多文种国际邮件批译综合信息库,国内、市内分拣信息库等,作为批译多文种国际疑难邮件的依据;任意一个操作员,不管他是否懂得多国文字,也不管他是否懂得邮件上地址、单位等信息的中文函义,只要按本发明设计的适于疑难邮件批译的编码规则输入邮件上的若干信息,系统即可屏幕显示单位名称、地址、收件人姓名、信刷包裹投递局、邮政编码等,并可打印出中文批条。


图1.批译系统硬件配置附图2.批译过程总流程图,包括图2-a和图2-b。
下面结合附图详细说明本发明的技术。
附图1为多文种邮件批译系统的硬件配置图。系统处理主机1采用通用微机,如AST-286型微型机,汉卡2选用中国科学院开发的联想式汉卡,作为多文种开发基础,键盘3选择国际上通用的数字字母键盘,通过软件对键名赋予新的定义,解决多文种的输入,显示器4为彩色高分辨率CRT显示器,打印机5为普通24×24或16×16点阵打印机,通过打印驱动程序解决多文种的打印。
多文种邮件批译系统的批译过程如附图2-a和附图2-b所示。
批译人员通常较易分辨中文、俄文、日文、英文字母,而法文、德文、西班牙文、意大利文字的共同特点是都使用拉丁字母,但每一种文字却又有自己特有的区别于其他文种的特别字母、字母的外加符号或辅助词,也有跟其他文种相类似的语言表音特点。操作人员根据实际邮件上的某一种信息,不管该信息是哪一国文字,也不管是否懂得该信息的中文涵义,在批译前应首先选择相应的批译方式,即按何种方式查询的问题。本系统立足于批译疑难邮件而设置了多种查询方式,其中主要的查询方式包括1)按外交官姓名代码查询;2)按单位地址代码查询;3)按单位名称代码查询;4)按缩写字母查询;5)按邮政信箱号码查询;6)按邮政编码号查询;7)按模糊方式查询。模糊方式是相对于精确方式而言的,如邮件上的单词由于错误书写而连成一片时,就要采用模糊方式查询,输入前2至10个字母,即可将这些字母打头的资料分页显示出来,输入的字母越多,则搜索范围越小。本系统还设置了五种辅助的查询方式,包括1)按(文种+单位性质)查询,该查询方式根据邮件上信息的文种、(由基本分类号确定)和信息的性质(如工厂、学校、公司、医院等),将同一文种同一性质的批译信息逐屏显示在屏幕上。表1为本发明实施例中的基本分类起止号与分类内容对照表,操作人员查表获得分类号码,如7023为英文、公司性质的全部单位,7223为德文公司性质的全部单位……,输入分类号码,即可查询。
2)按(文种+单位性质+类字)查询,该查询方式在第一种辅助查询方式的基础上增加了一个类字即关键字母,如邮件信息的首字母,可缩小某一单位性质信息的查找范围。3)按修改历史查询,系统设置修改历史库,对修改前后的批译信息均予以存储保留,因而当按修改历史查询时,可通过改前的旧代码查出修改情况。4)按删除历史查询,系统对批译信息库做删除时,删去的信息仍存于删除历史库中,按删除历史查询时,可通过旧代码查出删除信息。5)按多文种词组方式查询,可根据中、外文代码从多文种专用词组库中查出相应多文种词组信息。
设置多种查询方式的目的之一是能对一个邮件上可能出现的任何有用信息,都有对应的查询方式,因而特别适用于批译疑难邮件,使一种方式查询不到时还可以按其他方式查询。设置多种查询方式的目的之二是允许邮件上全部信息都有错,但只要有一条信息的错误不发生在按本编码规则提取的输入代码字母上,最终都能正确批译,因而提高了批译疑难邮件的成功率。
事实上,批译国际疑难邮件的过程就是使用一、二种主要查询方式或与其他查询方式联合起来交叉使用的过程。
不同查询方式的查询内容分别存储于俄文信息库、日文信息库和拉丁语系综合信息库中。拉丁语系综合库内混合存放着英文、德文、法文、西班牙文、意大利文的批译信息。这些信息可通过不同的索引文件(有些是组合索引文件),组成不同需要的专用批译信息库,以适应不同需要。
操作人员可根据显示屏提示通过功能键F2-F10或不同的功能选择提示键选择批译方式,打开多文种综合信息库相应索引文件,到相应的专业数据库中去查询。本系统实施例中,各信息库内存有北京市所有机关、企事业单位、部队、邮政信箱和村庄、街巷胡同的中文信息和涉外部门的多种外文信息,使馆人员、外国记者、外企、外企驻京办事处工作地点,国内县以上地名、大型骨干企业、科研院校、机场车站、旅游胜地、港台常见地名、路名、国家缩写对照表、相近国名、城市名对照表,国名地名的沿革及批译专家长期积累的工作经验资料信息二十几类计3万7千条。
如果选择按地址名、单位名代码、外交官姓名代码查询的批译方式(最常用的方式),则系统等待键入地址名或单位名的代码。如果需要屏幕提示俄文、日文的键盘对照表,则可通过操作功能键找出。否则直接按本发明的编码规则,通过标准字母数字键盘键入代码。除日文、俄文、中文外的其他西文包括英文、法文、德文、意大利文、西班牙文是综合在一起按西文代码共同索引的,因此可不必事先区分是哪国文字,由查询结果给出国籍语种。
本系统多文种单位名、地址名、外交官姓名编码规则分为中文编码规则和外文编码规则两种。其中中文的编码规则则可简单总结为取每个汉字汉语拼音字头代表该汉字,其组合即构成该单位名称、地名的中文代码。允许最长拼音组合代码长度为+位,超过+位的部分省略不编码。其编码细则还包括1.对某些常用单位名称采用简称编码,如首都钢铁公司-首钢,体育运动委员会-体委,房地产管理局-房管局,环境卫生管理局-环卫局,中国人民政治协商会议-政协……。
2.对某些常用词组或字不编码,如中国、中央、中华、中国共产党、全国、国家、首都、北京、北京市、区、县、中国人民解放军、中国人民武装警察部队,第……。
3.汉字型的数字如一、二、三……一律用阿拉伯数字代替,如三里屯东街的代码为3LTDJ。
4.如果街巷、胡同、村庄名称中有4个以内的汉字(含4个)时,则取前2个汉字(数字不算)的全部拼音作为代码,如福祥胡同的代码为FUXIHHT。
5.汉字拼音输入规则简化对照表,见表2。
外文编码规则可简单总结为1-六,2-三,3-二原则,即用外文书写的地址、单位、外交官姓名为一个单词时,取该单词的前六个字母作为该词的代码;为2个单词时,各取前三个字母组合为代码;为3个单词时,各取前二个字母组合为代码。单词超过3个时,取各单词的第一个字母组合为代码,允许最长组合为+位,超过+位的省略。其编码细则还包括1.对某些常用英文单词、词组及缩写,省略不编码(除英文外的其他外文不省略)。如China或Chinese(中国),Beijing(北京),Communittee或Commision(委员会),Ministry(部),Bureau(局),institute(院、所),Corp或CO.(公司),Hotel(饭店),University(大学),College(学院),Association或Society(学会、协会),PublishingHouse(出版社),Embassy(使馆),Factory、plant、mill(工厂),Hospital(医院),school(学校),National、state(国家),of、and、for、a、an、the、or(介词、冠词),P.L.A(中国人民解放军),P.R.C(中华人民共和国)2.经省略后的英文单位名称,地址或未经省略的其他文种的单位名称、地址只有一个单词且其总字母数不足6个时,则取该单词的全部字母作为代码。如ChinaDaily(中国日报),代码为DAILY。
3.经省略后的英文单位地址名,无剩余单词时,则取简化前的最后一个英文单词的前六个字母作代码,不足六个时则取全部。如BeijingUniversity(北京大学),代码为UNIVER。
4.形同英文字母但带特殊注音的西文(含德文、法文、意大利文、西班牙文)字母,则去掉注音进行编码,详见表3。
如意大利文IstitútodàlleLinguaèstero。
译成中文北京外国语学院,代码IDLE5.不能在标准数字字母键盘上找到的特殊西文字母或字符,则省略不编码。如β(德文)。
由于系统在存储器内已事先按上述编码规则将带特殊注音的西文字母去掉注音并和其他字母编成西文代码存入,在批译查询时,根据邮件上的信息仍按此规则编出代码键入查询,通过精确对照关系将结果查出。查询出的结果中特殊注音字母保持着原型。这些原型是在事先存入时通过ALT+×+特殊西文字母或字符的标准ASCII值键入的,详见表4。
6.系统处理俄文或日文时,可用屏幕显示键盘提示对照表,并按前述总则和细则编码,从对应字母键键入输入代码,但日文中的汉字省略不编码,键盘提示对照表及其操作如下1、俄文输入代码
翻下一页(AIL+
)翻上一页(AIL+
)俄文输入代码
俄文МΝНЦСТЕРТВОЗДРАВАФРАНЕНИЯ(卫生部)其代码为МИНЭДР。日本文朝阳广济堂ユ′ルフ俱乐部(朝阳广济堂高尔夫俱乐部)其代码为ユ′ルフ。
操作人员根据前述多文种编码规则,在普通键盘上键入相应代码,到多文种信息库中进行相应代码的检索,如果没找到,则给出屏幕提示,重新键入代码;如果检索到,人工核实屏幕显示内容,结果唯一则启动打印程序打印批条。输出后,系统回到等持批译方式状态,准备接收下一个邮件的批译。
多文种综合信息库基本单元的信息结构见表5,表5中例举的是中国机械设备进出口总公司的各基本单元信息在信息库中的结构。
表中基本分类的概念详见表1;西文类字的概念详见辅助查询方式2的说明。资料集号为正规、非正规资料的标记。“1”为非正规资料,空白为正规资料。查询批译时不必区分正规与非正规资料,仅在打印资料时使用。西文代码、西文址码指英、德、法、西班牙、意大利等拉丁字母文种的单位名称、地址按西文编码规则编出的代码。中文代码、中文址码为中文单位名称、地址按中文编码规则编出的代码。模糊代码存储的是按西文编码规则省略后的前十个字母。单位名缩写为该单位对外标准缩写。
表6为英文外交官信息库结构。(内容保密)
上面两个信息库结构中的各项信息,包括了在一个国际邮件上可能出现的全部信息,操作人员只要键入综合信息库和英文外交官信息库中的任何一条信息,则系统可给出全部基本单元信息。进一步说,操作员键入的信息,只要有一条的代码是正确的,则可找出其余信息,因而特别适用于批译疑难邮件。
前述多文种批译编码方案的基本设计思想是先压缩整条信息,省略大部分非关键性常见单词,这样做除了可以减少击键次数外还可减少由于这部分单词的错误而将批译引入岐途的机会,对压缩后的信息采用加长短码、缩短长码的1-六,2-三、3-二原则,综合解决短码重码多、长码键入次数多的矛盾,同时也大量减少了出错机会,在多文种综合信息库和多种查询方式的配合下,使批译国际疑难邮件的复杂业务处理过程,利用微机得到了解决。它不同于一般情况的使用,不是多个只懂各自语言的人使用同一台微机各自做自己的工作,而是不懂多种语言的同一个人使用一台微机同时处理多个文种的国际疑难邮件。
本发明的优点是除了可用于疑难邮件的批译、提高工作效率减少重大差错事故外,还可以完成其他多种功能。例如编印业务资料的功能,既可方便职工培训,也可编制文字汇编资料,如按单位性质编印邮政编码薄,按邮政信箱顺序号码编印信箱分拣资料等;统计功能可对资料库所存各项资料进行统计和打印报表;改寄功能,系统设计的增、删、改功能可方便地对资料库内容进行扩充和更新,保持资料库的相对完整性和正确性;维护功能,系统设计的禁止非操作人员对资料库进行操作或删除等功能,可以保证资料内容的安全完整。
微机多文种邮件批译系统用于批译业务人员挑出的待查阅资料或作为瞎信无法投递处理的邮件,占总邮件(国际)的30%。操作人员无需熟悉除中文外的其他文种的词组和语法,只要能认清字母并掌握编码规则和键盘的简单使用,便可以上机处理各文种的国际邮件,特别是批译特殊文种和按外交官姓名查询,效率比人工处理提高几百倍至上千倍。
权利要求
1.一种多文种国际邮件的微机批译系统,以IBM-PC系列微型机作系统主机,以国内开发的为扩充多文种提供条件和手段的商品化联想式汉卡作为汉字系统,以国际上通用的字母数字键盘输入待批译邮件的信息,以CRT显示器屏幕显示批译结果和采用普通打印机打印中文批条,其特征在于1)对邮件上的任一整条中文单位名称、地址信息,采用先省略大部分非关键性常见词或常见词组的压缩法,后采用顺序取剩余汉字的汉语拼音字母字头组合为代码,键盘输入,2)对邮件上的任一整条英文单位名称、地址、外交官姓名信息,采用先省略大部分非关键性常见词或常见词组的压缩法,后采用加长短码,缩短长码的1-六、2-三、3-二编码原则,对剩余单词编码组合为代码,键盘输入,3)对邮件上的任一整条日文、俄文单位名称、地址信息,按加长短码,缩短长码的1-六,2-三,3-二编码原则,对单词编码组合为代码,通过屏幕显示键盘提示对照表键盘输入对应字母键,4)对邮件上的任一整条法文、德文、意大利文、西班牙文的单位名称、地址信息,按加长短码缩短长码的1-六,2-三,3-二编码原则,对单词编码组合为代码,形同英文字母但带特殊注音的字母,去掉注音进行编码,通用键盘上无对应字母键的各文种特殊字母,则省略不编码,5)对邮件上除单位名称、地址信息外的其他信息,可采用按外交官姓名,按缩写字母,按邮政信箱号码,按邮政编码号码,按模糊方式查询的主要查询方式和按(文种+单位性质),按(文种+单位性质+类字),按修改历史,按删除历史,按多文种词组方式查询和辅助查询方式输入。
2.根据权利要求书1所述的多文种国际邮件的微机批译系统,其特征在于所述的中文地址信息中,街巷、胡同、村庄名称中有4个以内的汉字,则取除数字以外的前二个汉字的全部拼音字母和其余汉字的拼音字头组成代码。
3.根据权利要求书1所述的多文种国际邮件的微机批译系统,其特征在于压缩后英文单位名称、地址信息中,或经压缩后的日文、俄文、法文、德文、意大利文、西班牙文的单位名称、地址信息中单词超过三个时,取每个单词的第一个字母组合为代码。
4.根据权利要求1所述的多文种国际邮件的微机批译系统,其特征在于压缩后的英文单位名称、地址信息中或未经压缩的日文、俄文、法文、德文、意大利文、西班牙文的单位名称、地址信息中,只有一个单词且不足六个字母时,取该单词的全部字母为代码。
5.根据权利要求1所述的多文种国际邮件的微机批译系统,其特征在于压缩后的英文单位名称、地址信息中无剩余单词时,则取简化前的最后一个英文单词的前六个字母为代码。
6.根据权利要求1或3所述的多文种国际邮件的微机批译系统,其特征在于代码长度限定为十位,超过部分省略。
全文摘要
本发明涉及一种多文种国际邮件的微机批译系统,特别适用于批译中、英、日、俄、法等八个文种的疑难邮件。本系统以IBM-PC系列机为系统主机,以联想式汉卡作为汉字系统,采用通用键盘并对其键名软件赋予新的定义,以建立的多文种综合信息库作批译依据,以设置的多种查询方式作批译途径,不管操作者是否认识多国文字只要选择一种查询方式并按本发明的编码方案输入代码,即可完成多文种的批译,打印出中文批条。
文档编号B07C3/12GK1042254SQ8910265
公开日1990年5月16日 申请日期1989年4月29日 优先权日1989年4月29日
发明者孙步新, 赵炳谦, 孟宪民, 段红峰, 张伟建, 祝俊华, 郝愈夔 申请人:北京市邮政科学研究所, 北京国际邮电局
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1