表意构件识别提取和基于表意构件的机译人校互动翻译方法

文档序号:6399034阅读:342来源:国知局
专利名称:表意构件识别提取和基于表意构件的机译人校互动翻译方法
表意构件识别提取和基于表意构件的机译人校互动翻译方法
技术领域
本发明涉及一种自然语言的处理或转换的方法;特别涉及一种表意构件识别提取和基于表意构件的机译人校互动翻译方法。
背景技术
计算机语言文字的信息处理领域,机器翻译是技术难度的至高点。机器翻译如《自然语言的计算机处理》冯志伟著,上海外语教育出版社1996年10月出版,其中第八章第一节机器翻译中写道:“1964年,美国ALPAC报告指出的机器翻译遇到的‘语义障碍’至今仍然存在,机器翻译技术至今似乎仍然没有突破性的进展”。“机器翻译系统的实用化和商品化问题面临着严峻的考验”。大众软件,2004年第二期,作者王槊,采访业界多位专家后报道,《机器翻译,路在何方》一文中指出MT (machine translation) “机器翻译技术本身存在的问题是阻碍其发展的硬伤。目前不仅在中国,整个世界范围内机器翻译技术都没有很大的突破。试图用机器通过有限的规则和语料提高翻译准确性,在短期内无法实现。在语言智能化研究理论不成熟的情况下,MT软件研究在技术上碰到瓶颈,无法解决一个单词在不同语言环境下的词义选择问题,同样也无法在复杂多变的语境中正确选择语法规则,因此,翻译水平无法实现明显提高”。这也是为什么现在的机器翻译软件无法满足人们的需求,翻译出来的结果往往
令人啼笑皆非的原因......JMCTranslation Memory,翻译记忆),面向专业翻译人员和机构
设计,要求使用者具备独立的翻译能力。它的原理是基于数据库,将翻译过的所有材料以句子为单位存入数据库。翻译时系统自动对电子文档进行分析,100%匹配的句子可以自动替换,不足100%匹配的句子可 根据匹配度提出翻译建议,新句子完全依靠人工翻译。最后作者指出:“机器翻译技术本身存在的问题是阻碍其发展的硬伤。目前不仅在中国,整个世界范围内机器翻译技术都没有很大的突破”。外语研究,2007年第五期,作者苏明阳,在《翻译记忆系统的现状及其启示》一文中指出翻译记忆技术本身的局限,“相同的句子永远不需要翻译第二遍”。然而“现实中的翻译活动大多缺乏重复性,只有在某些特定的领域中,文本的重复才能达到一定的比例”。湖南医科大学学报,2010年3月第二期,作者傅彦夫,在《翻译记忆理论及几款计算机辅助翻译软件评介》一文中回顾并分析了 MT经历了 70多年的发展,至今译文质量确实不能令人欣慰。“难怪人们把人工智能能列为二十一世纪人类科技十大难题之一。在这种情况下,采用基于翻译记忆(MT)技术的辅助翻译系统应运而生”。“翻译记忆软件一般都提供翻译记忆、术语库管理、翻译项目管理、语料库加工与应用等翻译工具”。语料库加工是使翻译过的语料进行句对齐,以双语或多语语义对齐后的句对建库,称“句库”或“记忆库”。CN200910002334.1公开了一种基于实例短语的机器翻译方法,将基于实例和基于短语结合。虽然翻译粒度比基于字、词和基于句更为适中,但仅是利用算法临时获得,没有人脑校正质量难以保证;没有建库,不能累积也不能长期使用。
现有技术存在不足,MT①译文质量差;TM②要求操作者具独立翻译能力。本发明人认为:现有技术存在不足关键在于一味让电脑模仿人脑,对语言文字的认识不够透切。不能站在语际的高度认识语言文字的本质是表意;不能根据表意将不同语言文字进行关联,更不能将这些关联建库,长期使用。没有认识和利用“不同语言文字的表意通过四种共同的表意构件实现”的规律,自然就不能使语言文字以表意构件为单元,在计算机内、网络间进行运作而难以逾越“语义障碍”;不能以表意构件组建数据库对机器翻译以及其它语言文字信息处理应用进行支持。在计算机语言文字信息处理领域,现有技术都是面向字符进行编码,以字符内码生成文本;在计算机内存贮、传输,以至不同语言文字间的机器翻译,包括支持机器翻译的电子词典、句库,也都是基于字符。它们③没有不同语言文字之间任何表意的关联;在从字符、字、词,成分以至句意的多节点④处理过程中无法反悔地丢失词义、语意。综上所述,现有技术存在着上述四个不足,早已成为桎梏的四个技术问题。

发明内容本发明申请的总体构思是:站在语际的高度认识语言文字的本质是表意;挖掘不同语言文字的句子可以表达相同语意。以表意将不同语言文字进行关联,不同语言文字的表意通过四种共同的表意构件实现。利用人机互动的方式从多语种句对语料中识别提取出这四种表意构件;组建表意构件数据库。基于表意构件及其数据库产生机译人校互动翻译等语意文字信息处理领域的应用。以表意将不同语言 文字进行关联,首先是利用相同内容的多语种或双语文字版本的语料为样本进行识别提取表意构件。识别提取表意构件每轮选取A、B两种语言文字,第一轮选最具代表性的中文汉语和英文英语,进行核心的第一轮识别提取;第二轮开始每轮新增一种语言文字,另一种是已经识别提取过并且表意构件达到足够多(满足应用)的程度。第二轮开始识别提取的方式与第一轮两者都空白不同;而是以已经识别提取过的为模板,识别提取出新加语种的表意构件,添加于与模板句表意构件同库同记录的相应语种构件子段。以表意将不同语言文字进行关联,进一步的措施就是具体识别提取出多种语言文字共同的表意构件,并将它们存贮于相应的构件库,使每个库同记录的不同语种表意构件语意相同且相互映射。基于表意构件及其数据库产生机译人校互动翻译方法。是基于表意构件及其数据库在语意文字信息处理领域应用的一个实例;仿此类推,还可以开发更多的应用。切底改变现有语言文字信息处理基于字符,难以逾越“语义障碍”的现状。本发明要解决的技术问题是:本发明提供一种人机交互的多语种表意构件识别提取方法,提取表意构件;并使不同语言文字的同类具体表意构件语意相等且相互映射;解决现有技术基于字符的③没有不同语言文字之间任何表意的关联之技术问题。进一步提供一种机译人校互动翻译的方法,解决现有技术①译文质量差,②要求操作者具独立翻译能力,④处理过程中无法反悔地丢失词义、语意之技术问题。
本发明解决其技术问题所采用的技术方案是:一种表意构件识别提取方法,利用相同内容的多语种或双语文字版本的语料作句对齐后生成双语句对库,其特征是进一步根据不同语言文字的句子可以表达相同语意,以表意将不同语言文字进行关联,不同语言文字的表意通过四种共同的表意构件实现,识别提取出这四种表意构件包括如下步骤:S1.读句配骼102,句子由句骼和句舱两部分组成,识别提取表意构件每轮选取A、B两种语言文字,计算机读取双语句对库一个AB双语句对,以当前双语句对之一查询句骼库进行配句骼运作,有匹配句骼将双语句对套入,并显示“舱检测”、“查配标”按钮,当套入后各句舱匀称、无残缺、无堆叠现象且“舱检测”按钮被单击,为肯定,已有匹配句骼,接续S3舱检测,若套入后各句舱不匀称、有残缺、或有堆叠现象且“查配标”按钮被单击,为否定,表示对套入结果否定需要提取新句骼,系统进入查配标运作,用A语句词串查询传统电子词典据B语句是否含有语义对应词串生成当前句对语意匹配表,舱计数N = 0准备提取新句骼;S2.识别及标注句舱103,机器以数量串、专名串、冠名串双语同时依次识别、以先后为序用N = N+1将它们预标为句舱,预标句舱使骼例比由100%逐步降低,这三种词串标注句舱结束后,如骼例比高于50%,以所述语意匹配表为据将无冠名串或其它语义匹配串在有间隔的前提下逐个接续标为句舱,接受操作者认可、或更正或使用意群对齐运作增补语意匹配词串,继续识标句舱,直至上述识别及标注句舱条件缺失且骼例比在15-50%之间,识标句舱结束,进行句骼格式检查,整理前述预标为正式标注这是第一轮识别提取的步骤,第二轮识别提取开始不用识别词性而是以已标语种句为模板识别、标出未标语种句的句舱,当N = > I时,当前句对移去句舱所剩部分为句骼构件,将它们存贮于句骼库105相应语种构件字段,当N = 0当前句对为习语构件,习语构件是一些分不出句骼句舱的特殊句对,将它们存贮于习语库104相应语种习语字段,将当前双语句例对号入座地套回当前句骼成为骼例式备续;S3.舱检测及提取舱模106,逐个句舱检测,第一轮识别提取以A语拼音文字句的句舱所含词串计数,=> 5个原有词串要进入组复词运作,=>原有8个词串的以当前句舱作“查配标”运作生成当前句舱语意匹配表以备进一步提取舱模为有模句舱,提取舱模,以数量串、专名串、冠名串双语同时依次识别、预标为舱眼,模例之比由100%逐步降低,若预标完这三种词串还大于70%,再以无冠名串或其它语意匹配串在有间隔的前提下在标为舱眼,接受操作者认可、更正,或使用意群对齐运作增补语意匹配词串,继续预标舱眼,当预标条件不存在且模例比在50-70%之间,预标舱眼操作结束,以英语句舱从左到右为序修改舱眼预杯为正式标注,第二轮提取开始不同,是以已标语种句舱为模板识别、标出未标语种舱眼,当舱眼数N = > I ;当前句舱对移去舱眼所剩部分为舱模构件,保存到舱模库107相应语种舱模字段,继续其它句舱的检测直到全句对句舱检测完毕;S4.收存意群串108,将当前双语例对号入座地套回当前提取的句骼,有舱模的句舱再套回相应舱模,再逐个句舱或舱眼搜索,参照语意匹配表,相应内容在匹配表里A语字段和B语字段不空的记录是A、B语言文字语意对齐的,确定为意群串构件,将它们逐记录取出,分别存贮到意群串库109同记录相应语种字段内,当前句对的识别提取结束。上述方法中,步骤S2所述以数量串、专名串、冠名串双语同时依次识别、标注步骤,具体为:机器查询当前句对语意匹配表,首先识别搜索数量串,如有则同样将它们在A、B语句子中同时据N = N+1以“A、B、C……”加预标,如无或识别搜索数量串完成后,识别搜索专名串,如有则同样将它不们在A、B语句子中同时据N = N+1以“A、B、C......”预标,如无或识别搜索专名串结束后,识别搜索冠名串,如有则同样将它不们在A、B语句子中同时据N = N+1以“A、B、C......”预标,如无或识别搜索冠名串结束后,显示符号“ I ”且在两侧分别显示“一” “一”命令按钮、计算并显示骼例比、以及“ V ”命令按钮,接受操作者更正或认可。上述方法中,步骤S2所述以无冠名串或其它语意匹配串在有间隔的前提下逐个接续标为句舱,具体为:当骼例比高于50%,以匹配表为据搜索词性字段是名词且A语词B语词字段不空的为语意匹配的无冠名串,或者不是名词而A语词B语词字段不空的为其它语意匹配串,同上且加显当前句对语意匹配表、“I它|”、“V”、“<n”、“格式检查”按钮,并接受操作者使用组复词、延 伸词义、粘带前引或后随字词的意群对齐方法修改匹配表,增补语意匹配词串,继续预标句舱直至识标句舱条件缺失且骼例比在15-50%之间,识标句舱结束,然后,进行句骼格式检查,第一轮识别提取以英语句从左到右为序整理预标舱序号为正式舱序号,第二轮识别提取开始以已标语种句为模板识别、标出未标语种句的句舱。上述方法中,所述利用双语句对提取出表意构件,具体为:每轮识别提取选AB两种语言文字,第一轮选中英双语为优选例,其中A语是英文、B语是中文,第二轮开始每轮识别提取新增一种语言文字,另一种为已经识别提取过的语言文字,A语分配给已经识别提取过的语言文字,B语分配给新加入的语言文字;第二轮识别提取开始每轮新加一种语言文字;识别提取过程先以已识别句查询句骼库进行配句骼运作、套入,然后以已识别提取句为模板,在新增语种句子上识别出语意相同部分标为相同标号的句舱,若有相同重复部分,以同样的标号标为重复句舱,重复句舱适应各语种句子的重复成份,两语种句子被识别标注的重复句舱不一定都有、数量也不一定一致、也不影响句舱标出数;含舱模的句舱,同样以已经识别句的句舱套入舱模作为模板识别标出新加语种句相应句舱的舱眼。上述方法中,所述配句骼运作具体为:事先按句骼词串与句舱之空穴生成句骼串表并索引,配句骼时把句例从左到右英逐单词中逐字取下搜索句骼串表的骼首字段并存于临时表,再逐记录取出临时表内容,以句骼词段查询句对例,句骼串的每段都可以在句对例中查到且次序相同为匹配,再根据句骼串表取出相应语种句骼;所述查配标运作具体为:机器利用至少含有词性、A语词、B语词字段的匹配表,先以A语句单词串为单元切分、依次填入匹配表A语词字段,随后逐记录取出查询传统电子词典,以查得的相应B语解释搜索B语句是否含有,含有且是最长串填入B语词字段同时将其词性填入词性字段,无含有B语词字段为空;所述意群对齐运作具体为:①以当前句对、句舱为依据,延伸或增补B语解释填人匹配表B语字段,②粘带附随字、词或字符,③有词形变化的另作词条入库,在匹配表中根据当前句对句舱参考传统词典填入B语解释,④组复词(下款);所述组复词运作具体为:根据当前句对、句舱语意判断,如其一需要原有两个词条或更多词条合并,语意才等于另一时,前者以将它们相连合并为一个词条,称为复词,在匹配表作为一个记录分别填入AB语字段,添加到意群串库之复词库,没有这种情况的空运作,没有改变。上述方法中,基于所获得的表意构件以及相应的表意构件库,能产生和支持多种语言文字信息处理的应用,机译人校互动翻译是其应用之一;表意构件是不同语言文字以表意进行关联的具体体现,是大小不等形态结构不同的语义块,它们也是多种语言文字表意的对等和统一,表意构件包括句骼构件、舱模构件、意群串构件和习语构件四种,贮存它们的句骼库、舱模库、意群串库和习语库是表意构件分库,共同构成表意构件数据库,四个分库之间相互独立,分库内同记录的成员语意相同且相互影射;从一个句对提取出来的句骼可以被其它句对所套用,舱模可以被其它句舱所套用,句骼所含有的句舱个数、语意内容相同,是跨语种的,句舱在具体句骼中的位置、次序和用以填充的意群串是面向各自语言文字的,不跨语种;句骼库用以存贮句骼构件,有句骼码、英句骼、中句骼字段,同记录的各语种句骼字段存贮相应语种句骼,它们的语义相同且相互影射,句骼码是它们语义和库中位次的表示;舱模库用以存贮舱模构件,有舱模码、英舱模、中舱模字段,同记录的各语种舱模字段存贮相应语种舱模,它们的语义相同,舱模码是它们语义和库中位次的表示;意群库用以存贮意群串构件,有意群码、英群串、中群串字段,同记录的各语种意群串字段存贮相应语种意群串,它们的语义相同,意群串码是它们语义和库中位次的表示;习语库用以存贮习语构件,有习语码、英习语、中习语字段,同记录的各语种习语字段存贮相应语种习语,它们语义相同,习语码是它们语义和库中位次的表示;第二轮识别提取开始每轮新加一种语言文字,事先应在这四个分库内分别增设新加语种的构件字段。本发明还提供一种基于表意构件的机译人校互动翻译方法,其特征在于,包括如下步骤:S5.读句配骼、源语句套入202,读入源语句子,以源语句搜索句骼库,获得唯一匹配的源、目语句骼,若有多对匹配句骼自动隐含选取最长的为唯一匹配句骼,然后将源语句子对号入座地套入源语句骼,舱检测若是有模句舱再搜索舱模库有再套入舱模,使成为源语句骼例结合形式;S6.句舱或舱眼内容转移203,从源语句骼例结合式中逐个取出句舱或舱眼内容,转移到目语句骼、舱模相应的句舱或舱眼里,使之成为源、目语过渡式;S7.存查得项、预选给出目语待校句204,逐个取出源、目语过渡式中句舱或舱眼的源语词串,查询意群串库,无词间间隔的表意文字则以从左到右可能的排列作为词串查询意群库,二者所有查得项存于更正表;利用预选模块402选出查得项当中最大适配的目语串生成待校句并在更正表中换位到词串段之首,最后给出301预选后的保留句舱舱眼标志标号的目语待校句和“返回”、“继后”、“一移”、“移一”、“▲”、“八”、“修辞”命令按钮以及相应的源语参考句;S8.语意校正、自学习205,当用户读到目语待校句和相应的源语参考句时开始校正操作,同时系统的校正模块借更正表进行语意校正运作,自学习模块401与之联动,对校正过程的人机互动进行学习、记忆且为预选模块提供数据,当当前待校句的语意校正运作结束后,接受用户单击“返回”按钮接续S5运作。上述方法中,步骤S8所述及语意校正和校正模块,其进一步的特征是:语意校正有待校句完全正确无需更正和需要更正两种情况,无需更正时接受用户单击“返回”按钮接续S5,需要更正的有如下状态与步骤,更正结束后再接受单击“返回”接续S5:A)不妥词串的替换302—当用户认为待校句某词串不妥时,单击它系统搜索更正表,弹出下拉列表给出全部相关查得项待选,然后以被单击选中的查得项替换译句不妥词串,同时置换为词串段之首;B)连续句舱的切分303——当遇到没有参照无法自动进行切分的连续句舱给出待切,当被单击后以被单击点为切分点将两个句舱内容分开;C)干预另选句骼304—当遇到句舱和舱眼不匀称、有残缺、或堆叠之错选句骼表现时,或用户不认可当前译句时单击“继后”按钮,系统把多对匹配句骼给出待选,以单击选取后的句骼重新套入接续S6继续运作;D)补加意群串305—当不妥词串另选替换而缺失时,接受用户使用延伸词义、粘带前引或后随字词方法补加意群串,以补加串进行替换并补加于意群串相应语种构件字段;E)组选复串306—当不妥词串另选替换而缺失时,接受用户使用组复词或改选复词的方法补加复词串,以补加串进行替换并补加于意群串的复词库相应语种构件字段;F)句舱词序307—当译句句舱有词序错误时,接受用户单击其中串,再单击“一移”或“移一”命令按钮,将单击串前移或后移一个串位;G)编词替换308—当连续多串不妥,不能用单击选中时,用拖放操作选中选中串时,然后在编词替换处填上其它词串、编辑或为空,再单击“ A ”按钮时,系统以后者置换前者;H)修辞309—当出现不能用上述步骤解决的修辞现象时,接受用户单击“修辞”按钮,然后将当前待校句复制到编辑框,接受用户使用编辑的方法进行修辞操作;I)舱转换310——当中译英时接受用户单击某句舱或舱眼内容,搜索更正表所有当前句舱或舱眼含有的查得项,列表 给出等待用户多次有序的单击选取,将它们置换待校句相应句舱或舱眼内容;J)补量词311—当英译中时由于英语无量词而中文有量词因而需要在待校句需要之处补上量词,接受用户单击待校句的需补加处,系统搜索最接近单击点的数串后中心名词,当“▲”按钮同时被单击,以中心名词搜索量词库,取出相应量词补加到待校句;如果量词库查无,给出对话接受输入给以补加且录入量词库;K)补冠它312-当中译英时由于中文没有而英文有冠词、动词to/be、to/have
等,这些需要补加,在系统给出保留句舱标志标号的目语待校句时,已经显示了 “a/an”、“the”、“t0/be”、“t0/haVe”,当它们之一被单击,待校句也被单击时,系统将它们之一在待校句被单击处加上适当形式的词串;以上A-H状态步骤与语言文字的种类无关,具共性特点,可以出现在多语种之间A译B或B译A的双向翻译的过程中;1状态步骤与语言文字的种类相关,用于无词间间隔表意文字的翻译之中;J_K状态步骤与语言文字种类密切相关,它们具个性特点根据具体语种设置。上述方法中,步骤S8述及的自学习模块联动,对校正过程的人机互动进行学习、记忆且为预选模块提供数据,如图4所示,具体为:A、经验选词,在英译中语意校正运作过程中当用户单击待校句的不妥词串后403,系统搜索更正表,列表给出全部相关查得项待选的同时,将所有相关待选项以空格相隔生成经验串,末尾把相应的英词串附后;当用户选取列表之一置换的同时,用选中词条和英串查询“经验选词”库,查有频度=频度+1,查无,将选中词条移到经验串之首且压栈式存入该库405的中解释字段,英串从经验串取下存入英串字段,当前句骼号存入句骼号字段;B、中文词序,在 英译中语意校正运作过程中将生成的中文待校句给出时备份于“给出句”,当测得用户使用“一移”或“移一”按钮移动句舱或舱眼词序时406,记下被移句舱的舱标号或舱眼号,当语意校正结束,“返回”命令按扭被单击时搜索经过移位调整词序的句舱或舱眼,是,以句舱为单位将移位前、后结果分别存于中词序库408的“原序”、“正序”字段,且清除当前句舱或舱眼在经验选词库405中的相关记录;C、舱经验,在中译英语意校正的“舱转换”运作时409备存当前句舱、舱眼标号,当“返回”命令按钮被单击,将当前句所有经过舱转换的转前转后内容查舱经验库411,查有频度+1 ;查无压栈式存入该库。上述方法中,步骤S7述及将所有查得项存于更正表,利用预选模块402选出查得项当中最大适配的目语串生成待校句并在更正表中换位到词串段之首,如图4所示,其进一步的特征是:更正表至少有词串段、搜索串、解释、串首位字段,预选模块与语言文字种类密切相关;英译中的预选412是①用当前句舱或舱眼内英文词串查询“经验选词”库,查有取出解释字段内容的首条中文词串为413最大适配的目语串给出,查无以更正表本词串段首记录为最大适配的目语串给出;②用当前句舱或舱眼已经获得的中文内容414查询“中词序”库的原序字段,查有以正序字段内容替换为最大适配的目语串415给出,查无不变;中译英的预选以源、目语过渡式中句舱或舱眼的源语内容查询更正表搜索串字段,有全等的以同记录解释字段内容为最大适配的目语串给出,无全等时417的再查询“舱经验”库中舱字段,有418以英舱字段内容为最大适配的目语串给出,查“舱经验”库无以当前句舱或舱眼中文内容为最大适配的目语串给出;凡预选模块选用了更正表某查得项改变了原给出内容的,同时在更正表中将它换位到本词串段之首。与现有技术相比,本发明的有益效果是:1)与传统机器翻译(MT)相比,可以获得高质量译文的技术效果;2)与翻译记忆(TM)相比,可获得无需独立翻译能力的人士也可操作,译文质量且与专业译员相当的技术效果。3)与现有计算机语言文字信息处理基于字符相比,本发明基于表意构件更优越。现有电子词典与纸上词典一样,词条间只有不同语言文字的解释,适合人脑理解与参考;不能用以拆分句子,也不能拼接句子;不适合计算机语言文字信息处理。而本发明的表意构件及其数据库,更适合计算机语言文字信息处理;可以用以拆分句子,也可以用以拼接句子;并可社会性积累长期使用。4)机译人校互动翻译,在搜索表意构件数据库给出待校目语句的过程中,诸如一词多义的所有解释都备份于更正表,一但人工智能不力产生偏差,操作者可以简捷另选置换。这种有益效果的获得,在当今人工智能不够完善、正处成熟过程之中来说意义重大,也是译文质量的保证之一。

图1表意构件识别提取流程图;图2机译人校互动翻译流程图;图3语意校正模块流程图;图4自学习模块和预选模块流程示意具体实施方式下文参照附图、利用实施例将本发明的内容进一步说明如下:一、一种表意构件识别提取方法一种表意构件识别提取方法,面向多语种相同语意的双语句对,利用软件方法,人机交互进行句对齐操作,将语意相同的A、B双语分别存贮在句对库的A语字段和B语字段(该部分与现有技术翻译记忆相似)。本申请对于表意构件提取的样本,要求规范,取课文、范文、专业参考资料等发表文章或作品。操作原则是:表意构件识别提取的操作者以及句对整理的语义对齐者。不能修改被操作句对内容。下文结合附图1,表意构件提取流程,以中英双语为例,将本表意构件提取方法进一步说明如下。如附图1所示,本方法分如下四大步骤:(一)、读句配骼102:这里将涉及的具特别意义的概念定义及提要如下:句子一在语言文字里,表达完整语意的基本单位为句子;不同语言文字的句子可以表达相同的语意。句子可分为句骼、句舱两部分,一个句骼至少包含一个句舱。
句骼——移去句舱后句子的剩下部分为句骼。句骼是句子的骨骼和框架;它出自一类句子的抽象,在句子中相对稳定,体现句子基本语意及类属;构成该类句子基本结构框架部分。句骼体现句子基本语意及类属是面向全人类的、跨语种的;而其基本结构框架是面向具体自然语言。句舱——镶嵌在句骼这个基本结构框架上的那些灵活的常替换部分为句舱。句舱接受句骼的选择和制约;句舱可用意群串填充或替换,形成丰富多彩的、具体的句子。句舱个数、其语意内容是面向全人类的、跨语种的;但其在句骼基本结构框架中的位置、次序和用以填充的意群串是面向具体自然语言的。小习语——过于简短不足以分出句骼、句舱,或因语种、习俗而难以比对分出句骼、句舱的为小习语;它们是一类特殊的句子。因语种、习俗而难以分出句骼、句舱的如一个和尚挑水喝,二个和尚抬水喝,三个和尚没水喝。”;“one boy is a boy, two boys half a boy, three boys no boy.”;“兵不厌诈”;“There can never be too much deception in war.” 等等;没有词义相等的词串,难以挖去或标注出句舱。中文还有的成语、俗语、谤语、歇后语等是小习语。句骼和句舱好比填空题,句骼是题干,句舱是题空。它们好比数学公式;句舱是变量,句骼是算式。句舱由意群统领的意群串填充或组成。但句舱的大小有较大差别。最小的句舱只包含一个意群串;最大的句舱可以包含一个从句或分句。句舱分为简单句舱和复杂句舱两类。当向双语句对库101读入一个句对之后,需要为句对匹配句骼,有句骼且套入后各句舱和舱眼匀称、无残缺、无堆叠现象的跳过;无匹配句骼的句对才需要提取句骼。首先进行配句骼运作。配句骼事先按句骼词串与句舱之空穴生成句骼串表并索弓丨,例如句豁“IknoW+[l]+got crush on+[2]+, +[3]+you could+[4]+.”、“我知道+[I]+喜欢上+ [2]+了,+[3]+你+[4] +看。”等使之成为句骼词串 “I know...got crush on...,...youcould....”、“我知道...喜欢上...了,...你...看。”;和句骼码、骼首共同制表索引。句骼词串被句舱分割成句骼词段如“Ikn0W”、“g0tcrUSh0n”、“,”、“you could”、' ”;“我知道”、“喜欢上”、“了,”、“你”、“看。”;注意“”与“got crush on”等同也是一个句骼词段。配句骼运作——事先按句骼词串与句舱之空穴生成句骼串表并索引,配句骼时把句例从左到右英逐单词中逐字取下搜索句骼串表的骼首字段(英含句骼词串第一个单词或符号;中含第一个字或标点符号)并存于临时表,再逐记录取出临时表内容,以句骼词段查询句对例,句骼串的每段都可以在句对例中查到且次序相同为匹配句骼,再根据句骼串表的句骼码字段取出相应语种句骼。配句骼运作搜索到匹配句骼,将当前句对例套入并显示给出“舱检测”和“查配标”按钮,当操作者读到后认为各句舱和舱眼匀称、无残缺、无堆叠现象(这是一个意外的收获,一瞥便知语意合适与否)且语意正确时单击“舱检测”按钮,表示认可,系统接续舱检测步骤。如果不是这样,不认可,单击“查配标”按钮,系统进入查配标运作,用A语词串查询传统电子词典看B语句是否含有生成当前句对语意匹配表。查配标运作一查配标运作机器利用含有词性、A语词、B语词字段的匹配表,先以A语句子单词串为单元切分、依次填入匹配表A语词字段,随后逐记录取出查询传统电子词典,以查得的相应B语解释搜索B语句是否含有,含有且是最长串填入B语词字段同时将其词性填入词性字段,无含有B语词字段为空。这就作好了识别标注句舱的准备,将N = O,句舱计数器清零。(二)、自动识别并标注句舱103:下文将涉及的具特别意义的概念定义及提要如下:简单句舱一以拼音文字计不超过5个原有词串;或除不表意虚词外不超过三个意群串的句舱为简单句舱。重复句舱——句舱内容、标号完全相同的句舱为重复句舱,在句对当中,两句的重复句舱数量位置不一定相等。连续句舱——前后两个句舱相连,中间缺乏间隔词串(或字符)的为连续句舱;在句对中严卡,仅仅允许2连;两个句子任何哪个出现3连必须返工重新操作。复杂句舱一大于简单句舱的为复杂句舱,其中含有舱模的句舱称有模句舱,通常等于大于8个原有词串;介于简单句舱和有模句舱之间常常含有复词串为组串句舱。舱模和舱眼一进一步剖析复杂句舱;得出如同框架结构部分称舱模;镶嵌在舱模框架结构上的可替换部分称舱眼。句舱和舱眼是上、下位概念;但简单句舱和舱眼的大小相等。自动识别面向上述匹配表,自动识别的内容特征如下:数量串:凡表示“数”和“量”的中英词串收录于数量表,表中有英数、中数、计算值、词性等字段;其中词性含有“计算串”、“数位串”、“基数”、“序数”、“量”等;如果需要计算,将数串从左至右以单词切下, 查该表词性标有“计算串”的以计算值加入结果数A ;其中如果是数位串,将它与结果数A相剩;操作完成加入结果数B。判断是否数量串据该表已登录的识别为数量串。在匹配表数串之后如果是名词并且数量表有登录识别为量词,二者合并为数量串。专名串:利用英文首字母大写入手,排外其它大写情况识别为专名串;冠名串:利用英文冠词识别,冠后跟随名词,或者插有形容词的“冠形名”者识别为诞名串;无冠名串:无冠词引带而词性字段是名词,且A语词、B语解释字段不空识别为语意相等的无冠名串;其它匹配串:其它词类,只要它们的A语词、B语解释字段不空的识别为语意相等的其它匹配串。续上:机器以数量串、专名串、冠名串双语同时依次识别、以先后为序用N = N+1将它们预标为句舱。自动识别预标句舱的运作,例如句对例:“In Hengtung County, its per_mu_grain_yield surpassed800j in inl970,double that beforel965.
衡东县在1970年每亩产量超过800斤,是1965年以前的两倍。”机器查询当前句对语意匹配表,首先搜索识别数量串,有、将它不们在A、B语句子中同时据N = N+1以“A、B、C……”预标;本例有3对数量串,预标为“A、B、C” 3个句舱,例如:
“In Hengtung County, its p er~mu_gra i n_y i eId surpassed A{800j in}inB{1970}, double that before C{1965}.
衡东县在B{1970年}每亩产量超过A{800斤},是(:{1965年}以前的两倍。”无或识别搜索完全句数量串后识别搜索专名串,有、同样将它不们在A、B语句子中同时据N = N+1以“A、B、C……”预标;本例有I对专名串,接续预标为句舱“D”例如:“In D{Hengtung County}, its per~mu_grain_yieId surpassed A{800jin}inB{1970}, double that before C{1965}.
D{衡东县}在B {1970年}每亩产量超过A{800斤},是C{1965年}以前的两倍。”无或识别搜索完全句专名串后识别搜索冠名串,有、同样将它不们在A、B语句子中同时据N = N+1以“A、B、C……”预标。本例无;无或识别搜索完全句冠名串后显示符号“ I ”且在两侧分别显示“一”、“一”命令按钮、计算并显示骼例比、以及“ V ”命令按钮,接受操作者更正或认可;同时显示骼例比为“64%”;本例因没有达到15-50%的指标,需要继续识别标注句舱;接受操作者单击“ V”按钮,继续识别标注。以上是双语依次同时识别数量串、专名串、冠名串;这三种词串识别之后,计算骼例比,连同预标结果,一些命令按钮一同显示给出。如果需要更正可以接受用户(即操作者,下同)更正,无需更正而骼例比超标,如同本例,则继续识别标注。如果骼例比高于15-50%,以匹配表为据搜索词性字段是名词且A语词B语词字段不空的为语意匹配的无冠名串,或者不是名词而A语词B语词字段不空的为其它语意匹配串。同上且加显当前句对语意匹配表、“I手I”、“V”、“<n”、“格式检查”按钮。本例继续识别无冠名串和其它语意匹配串,注意,现在开始是每识别预标一个句舱即暂停,等待交互认可或更正。如本例从左向右搜索无冠名串,有“per-mu_grain_yield”、“每亩产量”, 且与前、后的己标句舱都有词串相隔,因而进一步预标句舱“E”,如:“In D{Hengtung County}, its E{per-mu_grain_yield}surpassed A{800jin}inB{1970}, double that before C{1965}.
D{衡东县}在B{1970年}E{每亩产量}超过A{800斤},是C{1965年}以前的
两倍。”(待续)这时骼例比为“42%”已经达标,但没有=< 15%由操作者根据语意情况可结束识别,单击“格式检查”按钮;也可再识别预标单击“ V ”按钮;也可以使用其它命令按钮进行更正。更正操作和上述显示的命令按钮相关联,逻列如下:“一 I — ”按钮:当待校句被单击在单击点插入显示“ I ”然后判别“一”、“一”按钮是否被单击;当“一”被单击,将“ I ”左边的词串左移,如果“ I ”在句舱内则将其左边词串移出句舱;如果“ I ”在句舱外则将其左边词串移入句舱。当“一”被单击,将“ I ”右边的词串右移,如果“ I ”在句舱内则将其右边词串移出句舱;如果“ I ”在句舱外则将其右边词串移入句舱。借此更正句舱内容的多寡。“ V ”按钮:认可当前识别已预标句舱,继续识别预标新句舱。“|手|”按钮:手工标识句舱,同时在A、B语待校句各单击欲标句舱的首尾,然后单击“I手I”按钮,将它们再预标一对句舱,自动修改骼例比。“< n ”按钮:每次单击反悔最后识别预标的句舱,还原到最后预标前状态以及骼例比;可重复直到完全删去。“格式检查”按钮:结束当前句对的更正操作,进行格式检查运作。格式检查进行返工性检测、标注格式检测、正式标注三个步骤,具体运作如下:1.返工性检查:句骼限长英句<=200字符;中<=150字符(2字节一汉字计);连续句舱限2个句舱相连。一但发现句骼超长或3个句舱相连即刻报告;立即返工。2.标注格式检测:上文述及的自动识别句舱预标是以下文的“句骼句舱标注规则”进行的。这里标注格式检查也是根据这个规则进行检测。有不符之处,能自动修改的自动修改;不能自动修改的提示用户修改。检测完成之后,搜索是否有A、B语句子同时同号连续句舱,有给出对话框获得操作者认可后合并为一个句舱。同时同号连续句舱,如A、B语句子都含有“C、D”或“D、C”相连的句舱应交互后合并(当然由操作者决定)。然后,进入下一步骤。3.正式标注中、英文是第一个识别比对提取的语种对,也是核心双语对。依英句从左到右升序编排;句舱标号以“1、2、3……”正式标注。第三个语种开始以已经标注句为样本复制,识别标注;不需要预标。句骼句舱标注规则:①句骼含句骼词、句舱、标点符号三种成份;句舱与其它两种成份之间,句舱与句舱之间须以“ + ”相隔;标点符号的标注等同句骼词。如:[I] +dared not+ [2] + [3] +, much less+[4] + [5]+.
[I]+不相信+[2] + [3]+不会来。②标点符号等同句骼词。句末、句中符号英有空格隔开;中无。如:hearing+[I]+, they immediately+[2] +.
听到了+[1]+,他们立刻+[2]+。③英句骼词首不大写(“I”例外),句骼中部可以大写,包括不规则词、词尾变化等(应与例句一致)。如:no+[I]+and No+[2]+any more+.再不要+[I]+,不要+[2]+。did you+[l]+, or Did+[2]+ 是您+[I]+,还是+[2] + [l]+ I did not know whether to send+[I]+ [2]+or not.我不知道+[I]+是否要以+ [2]+发出。④所有紧缩式无论在句骼或句例中都转换成展开形式;“Aren,t” 转换成 “Are not” ;“ aren t ”转换成“are not”等。⑤句舱编号,中英文是第一个语种对,依英句从左到右升序编排;中文以及随后语种均据语意与之相应。分句骼式和骼例式两种款式,前者用方括号,后者用花括号:a)在句骼式中如句骼263:英文句豁:[I]+couldnot afford+[2]+, not to speak of+[3]+.
中文句骼:[I] +不能维持+ [2] +,更不要说+ [3] +。
b)在骼例式中,仅句舱标号位置稍有区别,如句骼263的骼例式为:I{at_that_time they}could not afford2{the ordinary comforts of I i fe},not tospeak of3{luxuries}.
1{那时他们}不能维持2 {普通的生活},更不要说5 {奢侈品了 }。⑥重复句舱的句舱标号、句舱内容相同;语种间不一定对应;标注也一样。如:Whatl{he}has once heardl{he}2{never forgets}.
凡是1{他}听到过的,再也2{不会忘记}。⑦舱模标注与句骼标注一致,也有相应两种款式;舱模号置园括号“0”内,位于本句舱之首。如下例:Thel{nsherman}consents to return2 {the feather suit}, on conditionthat3{(00205)I[fairy]2[dance]and3[play heavenly music]for him}.
在3{(00205) 1[仙女]为他2[跳舞]并3[演奏天上乐曲]}的条件下,1{渔夫}答应归还2 {羽衣}。⑧上述用以标注的园括号、方括号和花括号中英及其它文种都使用单字节续前:当前句对例识别句舱,标注全部完成。如:“Inl{Hengtung County}, its2{per-mu_grain_yield}surpassed3{800j in}in4{1970}, double that before5{1965}.
1{衡东县}在4{1970年}2{每亩产量}超过3 {800斤},是5 {1965年}以前的
两倍。”本例暂停(再举一例后接续)。

当前句对例识别句舱,预标句舱有部份内容还未涉及,再举例说明如下:例如读入句对“for three years,there is been a running fight between theTory and Labour members of the Housing Committee about rai sing counci I hohouse rents.”、“3年来,住房供给委员会的保守党成员和工党成员就提高社团房租事宜互相进行了追击战。”如上述自动依次同时识别数量串、专名串、冠名串;其中有提示:“冠名串‘running’不匹配! ”;当这三种词串识别预标句舱之后,显示骼例比为59%,预标结果:“for A{three years}, there is been a running fight between B{the Tory}and C{Labour members}of D{the Housing Committee}about raising council houserents.” ;“八{3年}来,D{住房供给委员会}的B{保守党成员}和C{工党成员}就提高社团房租事宜互相进行了追击战。”本例出现上例未曾涉及的内容:同上且加显当前句对语意匹配表、“ I手I ”、“V”、“<n”按钮;接受操作者使用组复词、延伸词义、粘带前引或后随字词方法等意群对齐方法修改匹配表,增补语意匹配词串,继续预标句舱。数、专、冠三种词串识别预标中有提示“冠名串‘running’不匹配! ”;看匹配表,语种A中的“running”相应的语种B字段为空所以还未匹配;查传统电子词典“running”的解释有:“n,奔跑;赛跑;运转;转动;流出;adj,奔跑的;不断的;连接的;流动的;赛跑的”。它们都在搜索B语句中不含有而没有匹配。根据当前句对例的语意,它表达了“追击”之意;是“奔跑”、“赛跑”的词义延伸。符合“意群对齐”的操作要求(详后)。所以在语种B字段增补“追击”(词性字段填入“t”示其它补加词类,下同)^“running”、“追击”匹配成为意群串。然而冠名串“a running fight”与“追击战”匹配;被识别预标为句舱“E”;骼例比为48%。如:“for A {three years}, there is been E{a running fight}between B {the Tory}and C{Labour members}of D{the Housing Committee}about raising council houserents.” ;“八{3年}来,D{住房供给委员会}的B{保守党成员}和C{工党成员}就提高社团房租事宜互相进行了 E{追击战}。”看句对的后部一大段,没有句舱,同时骼例比48% ;可以继续识别预标句舱。因而看匹配表,后的“raising courcil house rents”与“提高社团房租事宜”其中由于“council”未能匹配。传统词典它有“n,参议会;顾问班子;理事会;讨论会议;立法班子;委员会;政务会;议员”等词义;在这里表达了 “社团”之意,是原有词串的词义延伸。符合“意群对齐”的操作要求。所以在语种B字段增补“社团”解释;当用户单击“ V ”按钮,继续自动识别、预标为:for A{three years}, there is been E{a running fight}between B{the Tory}and C{Labour members}of D{the Housing Committee}about F{raising council houserents}.
々{3年}来,D{住房供给委员会}的B{保守党成员}和(:{工党成员}就F{提高社团房租事宜}互相进行了 E{追击战}。这时骼例比为26%;句舱分布合理(舱间间隔一般为1-5串的)。识别预标结束;搜索接受“格式检查”按钮被单击。进行格式检查运作。然后正式标注为:fori{three years}, there i s been2{a running fight}between3{the Tory}and4{Labour members }of5{the Housing Committee}about6{raising council houserents}.
1{3年}来,5{住房供给委员会}的3{保守党成员}和4{工党成员}就6 {提高社团房租事宜}互相进行了 2{追击战}。上为列举了两个句对例子,都在正式标注后暂停。这里接续:续上句对例I,正式标注后为:I{In Hengtung County},2 {its per-mu grain_yield}surpassed3{800j in}in4{1970}, double that before5{1965}.
1{衡东县}在4 {1970}年2{亩产量}超过3 {800斤},是5 {1965}年以前的两倍。此时句舱数=5,符合“N = > I”的要求;然后移去句舱内容所剩部分为句骼构件,如:In+[I]+, its+ [2] +surpassed+ [3] +in+ [4] +, double that before+[5]+.
[I] + 在 +[4] + [2] + 超过 +[3] +,是 +[5] + 以如的两倍。将句骼构件分别存贮于句骼库相应语种构件字段;这里如将英文句骼“In+[1]+,its+ [2] +surpassed+ [3] +in+ [4] +, double that before+[5]+.”存忙于句豁库的“英句豁”字段;将中文句骼“ [I]+在+[4] + [2]+超过+[3]+,是+[5]+以前的两倍。”存贮于句骼库的“中句骼”字段。下文XXXX构件存贮于XXXX库相应语种构件字段如此类推。句骼库105有“英句骼”、“中句骼”、“俄句骼”等多语种句骼字段,分别存贮相应语种句骼;同记录的多语种句骼语意相同。第二轮语意比对提取句骼以已标语种句为模板识另IJ、标注句舱,获得新加语种句骼后,以已标语种句骼搜索句骼库,在相同记录与新加语种相应的字段存入。续上句对例2,正式标注后为:fori{three}years, there is been2{a running fight}between3 {the Tory}and4{Labour}members of5{the Housing Committee}about6{raising council houserents}.
I {3}年来,5{住房供给委员会}的3{保守党}成员和4{工党}成员就6{提高社团房租事宜}互相进行了 2{追击战}。此时句舱数=6,符合“N = > I”的要求;然后移去句舱内容所剩部分为句骼构件,如:for+[l]+, there is been + [2] +between +[3] +and +[4] +membersof+[5]+about+[6]+.
[I] +来,[5]+的+[3] +成员和+[4] +成员就+[6]+互相进行了 +[6]+。如同上例,将它们分别存入句骼库同一记录的“英句骼”、“中句骼”字段。句对例3:many things grow in the garden that were never sown there.
有心栽花花不发,无心插柳柳成荫。配句骼运作没有匹配句骼;然而进入查配标运作。查配标运作后的匹配表有12记录,语种A字段依次是英 语句 各单词和句号;语种B字段全空。查配标没有匹配串。再进入识别、标注句舱运作,没有可标句舱。符合N = 0 ;为小习语构件;将它们分别存贮于习语库同一记录的“英习语”、“中习语”字段。习语库104有“英习语”、“中习语”、“俄习语”等多语种习语字段,分别存贮相应语种习语;同记录的多语种习语语意相同。第二轮语意比对提取的习语以已标语种句为模板识别、标注习语,获得新加语种习语后,以已标语种习语搜索习语库,在相同记录与新加语种相应的字段存入。识别、标注句舱步骤完成,已获得的句骼构件,小习语构件分别存贮于句骼库、习语库。(三)、舱检测、提取舱模图106:依次逐个句舱检测,第一轮比对以英语句舱所含词串计数,小于原有8个词串的句舱视需要组复词,不需组复词的跳过。等于大于原有8个词串的以当前句舱作查配标运作生成当前句舱语意匹配表以备进一步提取舱模为有模句舱。如当前例:I{the American}2{economic}system is, organized around3{a basicallyprivate-enterprise},4{market-oriented economy}in which5{consumers}largelydetermine6{what shall be produced}by7{spending their money in the marketplacefor those goods and services that they want most}.
1{美国的}2{经济}是以3{基本的私有企业}和4{市场导向经济}为架构的,在这种2 {经济}中,5{消费者}很大程度上通过7 {在市场上为那些他们最想要的货物和服务付费}来决定6 {什么应该被制造出来}。依次逐个句舱检测,1-6号句舱都没有超过8个原有串;句舱7 {spending theirmoney in the marketplace for those goods and services that they want most}超过8个原有词串,作查配标运作生成当前句舱语意匹配表以备进一步提取舱模为有模句舱。提取舱模,也以数量串、专名串、冠名串双语同时依次识别、预标为舱眼,例如当前舱被标注为:spending their money in A[the marketplace]for those goods and servicesthat they want most在A[市场上]为那些他们最想要的货物和服务付费这时模例比81%;大于50-70%,再以无冠名串或其它语意匹配串在有间隔的前提下逐个标为舱眼,操作者除认可更正外,还可以使用组复词、延伸词义、粘带前引或后随字词等意群对齐的方法修改匹配表,增补语意匹配词串,继续预标舱眼B。spending their money in A [the marketplace]for those B [goods andservices]that they want most在A[市场上]为那些他们最想要的B [货物和服务]付费这时模例比65% ;模例比在50-70%之间;看语意需要,可以结束也可以再预标句舱C:spending their money in A [the marketplace]for those B [goods andservices]that C[they want most]在A[市场上]为那些C[他们最想要]的B[货物和服务]付费这时模例比53% ;低于50-70%不能再标,反悔还原。标眼结束,以英语句舱从左到右为序修改舱眼预标为正式标注,例如当前句舱正式标注为:spending their money ini [the marketplace] for those2 [goods andservices]that3[they want most]在I [市场上]为那些他们最想要的2 [货物和服务]付费当前句舱提取舱模含有舱眼数=2;符合舱模N = > I条件。将舱眼内容移去所剩部分为舱模构件。如:spending their money in+[I]+for those+[2]+that+[3]在+[I]+为那些+[3]+的+[2]+付费将当前提取所得舱模保存到舱模库107相应语种构件字段。舱模库107有“英舱模”、“中舱模”、“俄舱模”等多语种舱模字段,分别存贮相应语种舱模;同记录的多语种舱模语意相同。第二轮语意比对提取的舱模以已标语种句为模板识别、标注舱模,获得新加语种舱模后,以己标语种舱模搜索舱模库,在相同记录与新加语种相应的字段存入。继续其它句舱的检测直到全句对句舱检测完毕。当前舱模是当前句对例最后一个句舱,因而全句对句舱检测完毕,当前句舱套回当前舱模,全句对的骼例式如下:I{the American}2{economic}system is, organized around3{a basicallyprivate-enterprise},4{market-oriented economy}in which5{consumers}largelydetermine6{what shall be produced}by7{(2301)spending their money ini[themarketplace]for those2[goods and services]that3[they wantmost]}.
1{美国的}2{经济}是以3{基本的私有企业}和4{市场导向经济}为架构的,在这种2{经济}中,5{消费者}很大程度上通过7 {(2301)在I[市场上]为那些3[他们最想要]的2 [货物和服务]付费}来决定6 {什么应该被制造出来}。(四)、收存意群串108:这里将涉及的具特别意义的概念定义及提要如下意群一意群是自然语言的字、词、词组或短语之“意”的对等和统一;是人类思维活动的基本单元。意群无语种之限,属于全人类;也随人类社会发展而代谢着。意群串一意群在语言文字里相应的表示称意群文字串,简称意群串。拼音文字的意群串分单串、复串两种;只含有一个原有词串的为单串;由两个或两个以上原有词串组成,并用“”相连为复串。意群对齐一意群对齐方法是利用意群的跨语种特征,将多语种的字、词、词组或短语等在当前句对实例支持下进行语义对齐,对齐之后它们便成为意群串,就有资格存贮于意群串库。主要有如下一些方法:①组复词一根据当前句对、句舱语意判断,如其一需要原有两个词条或更多词条合并,语意才等于另一时,前者以将它们相连合并为一个词条,称为复词。或者说:当两个或两个以上原有词串的总语义不能由词串义相加获得的以”相连成复词(复串):knew_nothing_about_it 一无所知compel Ied_to_go 非去不可Late_at_night 深夜works_little 工作懒散其中“works little” “工作懒散”,虽然“works”有“工作”之义,但“ little”没有“懒散”之意;它们的总语义不能由词串义相加获得,以“_”相连,组为复词。②依照当前句对例、延伸或增补词义Nothing can bel{wholly beautiful}that is not2{useful}.
凡是未经2 {应用的}就不可能I {完美}。其中"useful"词义有“有用的、有帮手的、有益的”;在该句对确实表达了 “应用的”语义;同时“应用的” 和“有用的”词义接近,增补或延伸词义项“应用的”。I{She}was2{strong}, for allI{she}was so3{small}.
1{她}虽然3{瘦小},但很2{结实}。其中“small小的”,据该句对例增补“瘦小”词义项。③不改变原有字、单词的前提下加减串长度,便于拼接I ask you to teach me every other day.我请你每隔一天来教我。其中"teach" v有“讲授、教授”词义;减词串长为“教”,增加“教”词义项。④粘带附随词串如“good好”粘带成“好处、好事、好心”等。如“word词”粘带成“词儿”等。⑤词形变化另作词条录入于库(分词,比较级等表达的语意,增加词条和相应词义)。
been增补“还是、怎么样”词义;puniShed增补“受处分”词义;意群对齐方法与配句骼运作、查配标运作一样重要,也是本技术方法不可或缺的内容之一。意群串库与传统的词典、电子词典有重合之处,原有词汇基本上都被收录;不同之处就与意群对齐相关,有词形变化的词汇以新词条登录,意群对齐使得相对词条数量增力口,并为可拼接贡献很大。其中复词,术语都能被涵盖。续前;参照经上述识别、句舱标注后的语意匹配表,将句舱或舱眼中已经语意对等的双语词串确定为意群串,逐对存贮于意群串库109相应语种构件字段。当前句对的比对提取结束,接续SI ;读句配骼。以句舱和舱眼标号为序,逐对句舱或舱眼搜索,参照语意匹配表,相应内容在匹配表里A语字段和B语字段不空的记录是A、B语言文字语意对等的,已经成为意群串,将它们逐记录取出,分别存贮到意群串库109同记录相应语种字段内。如经上述处理后的骼例式句对例:I{dyslexia}first was recognized in2{Europe}and3{the United_States}morethan4{80years}ag0.
4{80多年}以前在2{欧洲}和3{美国}第一次发现I {读写困难症}。逐对句舱或舱眼搜索,参照语意匹配表,相应内容在匹配表里A语字段和B语字段不空的记录是A、B语言文字语意对等的。例如其中“dyslexia读写困难症”、“Europe欧洲”、“UnitecLStates美国”、“years多年”,它们是意群在不同语言文字里的表示,是自然语言的字、词、词组或短语之“意”的对等和统一;所以是意群串,即意群串构件。然后逐记录(逐对)将它们保存到意群串库109相应语种构件字段。意群串库109由于拼首文字的意群串分单串、复串两种;有相应的单串库和复串库。表意文字据语义随拼音文字的串被存放在单串库或复串库;存入前先搜索,查无再加入免重。单串库有“英单串”、“中单串”、“俄单串”等多语种单串字段,分别存贮相应语种意群单串;同记录的多语种单串语意相同。如“dyslexia读写困难症”、“Europe欧洲”等等。复串库有“英复串”、“中复串”、“俄复串”等多语种复串字段,分别存贮相应语种意群复串;同记录的多语种复串语意相同。如“United_States美国”、“ lose_touch_with互不来往”、“strike_a_balance衡量得失”等等。第二轮语意比对提取的意群串以已标语种句为模板,获得新加语种意群串后,以已标语种意群串搜索单串库或复串库,在相同记录与新加语种相应的单串或复串字段存入。当前句对例的句舱、舱眼内,所有语意匹配(语意对齐)后的意群串,贮存于意群串库之后,当前句对例语意比对提取表意构件结束,接续步骤(一)、读句配骼;读入下一个句对例,继续上述运作。上文表意构件提取方法是以中英双语为例、面向双语句对库进行。进行语意比对、识别、提取若干表意构件。每轮比对、识别、提取工作选取A、B两个语种;语种A分配给拼音文字或已经比对、识别、提取过的语种。语种B分配给表意文字,也可分配给拼音文字或新加入的语种。第一轮比对、识别、提取工作取中英双语句对,为核心对;A语种是英语,B语种是汉语。从第二轮开始,每轮增加一个新语种,另一个必须是已经经过比对、识别、提取过的语种。然而,第二轮开始,比对、识别、提取工作的运作有所不同。是以已经经过比对、识另IJ、提取过的A语为模板,进行识别、标注句舱,获取句骼等。例例如第二轮新加语种是俄语为语种B ;语种A是已经经过比对、识别、提取的中文汉语。取中俄句对:约翰象亨利一样努力工作吗?Pa 6 O T a eT^iKOHTaKyc epHOKaKTeHJiH 然而以中文句搜索句骼库,获得匹配句骼“ [I]+象+[4]+ —样+[3] + [2]+吗? ” ;将中文句例套入成为骼例式,如:1{约翰}象4{亨利} 一样3{努力}2{工作}吗?接着根据相应查配标运作后的匹配表,逐句舱取出,如取出句舱I的“约翰”,通过匹配表找到俄语相应的“ P a 6 0 T a e T ”,将它标注为句舱1,如:
l{Pa SoTa eTjfliKOHTaKyc epHO KaKTeHJTH 同样的方法取出句舱4的“亨利”,通过匹配表找到俄语相应的“reHJTH”,将它标注为句舱4,如:l{Pa60TaeT}JIiKOHTaKyc e pho k a k4{T eHJin} 同样的方法取出句舱3的“努力”,通过匹配表找到俄语相应的“ y c e p H 0 ”,将它标注为句舱 3, $P:l{Pa 6 0 T a e t},H;>koht a K3{y c e pho}KaK4{reHJTH} 最后取出句舱2的 “工作”,通过匹配表找到俄语相应的“JI* O H”,将它标注为句舱2,如:l{Pa 6 o t a e t } 2 { JI * o h } t a k 3 { y c e pho}KaK4{reHJTH} 然而移去句舱所剩部分为句骼构件。获得新语种俄语句骼: “ [I] + [2] + T a K + [3] + KaK+ [4] + ”利用A语句骼“ [I] +象+ [4] + —样+ [3] + [2] +吗? ”查询句骼库,然后在A语句骼所在记录的“俄句骼”字段,填入新得的俄文句骼“[1] + [2]+t a k+[3] + k a K+[4]+ ”。当前句骼库的“英、中、俄”三个语种句骼分别是:Does+[I]+[2]+as+[3]+as+[4]+ [I] +象+[4]+ —样+[3] + [2]+吗 [I] + [2] + t a k+[3] + k a k + [4] + 其它表意构件的比对、识别、提取如此类推。在上文所述表意构件提取方法的运作过程中,提取出句骼、舱模、意群串、小习语四种表意构件,被分别存贮在相应的句骼库、舱模库、意群串库、习语库里面。它们的特征是:I)句骼构件是移去句舱后留下的句子的骨骼和框架部分,句骼库用以存贮句骼构件,有句骼码、英句骼、中句骼、俄句骼字段,同记录的各语种句骼字段存贮相应语种句骼,它们的语义相同,句骼码是它们语义和位次的表示。同记录的各语种句骼,它们的语义相同决定于每轮比对、识别、提取利用一个语种对,第二轮开始,每次增加一个语种,句骼库增设相应语种构件字段;比对、识别、提取出来的新句骼存放到相应语种构件字段,如此的比对、识别、提取方法以及软件运作保证同记录的表意构件语义相同。加之数据库的特点,使得同记录的各成分之间互相影射,包括各语种构件字段以及句骼码,只要搜索到其中之一,就可以取出相应语种构件字段内容。2)舱模构件是移去舱眼后留下的句舱的骨骼和框架部分,舱模库用以存贮舱模构件,有舱模码、英舱模、中舱模、俄舱模字段,同记录的各语种舱模字段存贮相应语种舱模,它们的语义相同,舱模码是它们语义和位次的代表。舱模库具句骼库相同的同记录语种构件字段语义相同且相互影射的特征。3)意群串构件是填充句舱或舱眼的成分,意群库用以存贮意群串构件,有意群码、英群串、中群串、俄群串字段,同记录的各语种意群串字段存贮相应语种意群串,它们的语义相同,意群串码是它们语义和位次的代表。意群串库也具句骼库相同的同记录语种构件字段语义相同且相互影射的特征。4)小习语构件是一类不能划分出句骼句舱的特殊句子,习语库用以存贮小习语构件,有习语码、英习语、中习语、俄习语字段,同记录的各语种习语字段存贮相应语种习语,它们的语义相同,习语码是它们语义和位次的表示。习语库也具句骼库相同的同记录语种构件字段语义相同且相互影射的特征。5)表意构件是不同语言文字以表意进行关联的具体体现,是大小不等形态结构不同的语义块,它们也是多种语言文字表意的对等和统一。同时,表意构件是大小不等结构不同的可以拆卸、组装、拼接的语义块。包括句骼构件、舱模构件、意群串构件和小习语构件四种;有相应的句骼库、舱模库、意群串库和习语库,它们共同构成表意构件数据库,四库之间相互独立。6)第二轮开始的识别提取,事先应在上述这四个库内分别增设新语种的构件字段。7)以表意构件及其数据库支持语言文字信息处理;可以获得不同语言文字之间以表意进行关联的信息;利于语言文字信息处理逾越“语义障碍”的有益效果。可以支持语言文字信息处理多种场合。用形象化语言描述,句骼构件如同汽车底盘,给驾驶室、车轮、动力系统、供油系统等等留有恰到好处的空间和接洽件。舱模构件如同驾驶室,里面还包括其它小系统和部件。意群串构件如同车轮、其它种种小系统、集合件、组件等等;可以装配的任何需要的部位。小习语则是一类特殊的、仅具基本车特性的它种车,以至人力车、手推车等等。二、一种基于表意构件的机译人校互动翻译方法:结合附图2,机译人校互动翻译流程图,以英译中为例,将本机译人校互动翻译方法进一步说明如下。读入源语待译文件201,存于缓存区。随后进入如下四大模块步骤:(一)、读句、配骼、源语句套入202,读入源语句子,以源语句搜索句骼库,进入如同上文的配句骼运作:例如读入源语一个待译句子:Oliver Twist was born in workhouse ;there were no aunts,no sisters,nocousins,no grand—mothers.
把当前句例从左到右英逐单词中逐字取下搜索句骼串表(含骼首、句骼、句骼码字段)的骼首字段(英含句骼词串第一个单词或符号;中含第一个字)并存于临时表,再逐记录取出临时表内容,以句骼词段查询句对例,句骼串的每段都可以在句对例中查到且次序相同为匹配句骼,再根据句骼串表的句骼码字段取出相应语种句骼。句骼码以句骼库标志码加记录号组成;其它索引表类推。如本例再根据句骼码字段到句骼构件库取出源、目语句骼如下:“[l]+was born in+[2]+ ;there were no+[3]+,no+[4]+,no+[5]+,no+[6]+.,,“ [I] + 出生于 + [2] + ;没有 + [3] +,没有 + [4] +,没有 + [5] +,没有 + [6] +。”然后将源语句子对号入座地套入源语句骼,所谓对号入座如该例第一个句骼词段“wasborn in”与句例中的相应段“was born in”对号,句豁词段“;there were no”与句例中的相应段“ ;there were no”对号等等如“黑体”部分:
[I]+was born in+[2]+; there were no+[3]+,no+[4] +, no+[5]+, no+[6]+.0liver Twist was born in workhouse ; there were no aunts,no sisters, no cousins,no grand—mothers.
句例中的相应段之外部分(斜体)分别入座到相应句舱去(即成为骼例式),如“ O/imr7Vi对”入座到句舱[I]入座到句舱[2]入座到句舱[3];
等,使成为源语句骼例结合形式。如:
I {Oliver Twist} was born in 2{workhouse} ; there were no 3{aunts} , no 4{sisters},no 5 {cousins} , no 6{grand—mothers} 将源语句子对号 入座地套入源语句骼后,进行舱检测,若是有模句舱再搜索舱模库、套入舱模并纳入句骼,使成为源语句骼例结合形式。该步骤结束。( 二)、句舱或舱眼内容转移203,从源语句的骼例式中逐个取出句舱或舱眼内容,转移到目语句骼相应的句舱或舱眼里,使之成为源、目语过渡式:用前面含有模句舱之例,其源语的骼例式如:I{the American}2{economic}system is, organized around3{a basicallyprivate-enterprise},4{market-oriented economy}in which5{consumers}largelydetermine6{what shall be produced}by7{(2301)spending their money ini[themarketplace]for those2[goods and services]that3[they want most]}.
目语句骼相应的句舱或舱模如:{1}⑵是以{3}和{4}为架构的,在这种⑵中,{5}很大程度上通过7 {(2301)在[I]为那些[3]的[2]付费}来决定{6}。然后从源语句的骼例式中逐个取出句舱或舱眼内容,转移到目语句骼相应的句舱或舱眼里。如取出句舱I的内容“theAmerican”,转移到目语句骼相应的句舱I “{I}”里;取出句舱2的内容“economic”,转移到目语句骼相应的句舱2 “⑵”里;……;取出句舱7中舱眼I的内容“the marketplace”,转移到目语句骼相应句舱7的相应舱眼I “[I]”里,等等如此类推。使之成为源、目语过渡式如:I{the American}2{economic}是以 3 {a basically private-enterprise}和4 {market-oriented economy}为架构的,在这种 2 {economic}中,5 {consumers}很大程度上通过7 {(2301)在I [the marketplace]为那些3 [他们最想要]的2 [goods andservices]付费}来决定 6 {what shall be produced}。如此,使之成为源、目语过渡式。该步骤结束。(三)、存查得项、预选、给出目语待校句204,逐个取出目语过渡式中句舱或舱眼的源语词串,查询意群串库,无词间间隔的表意文字则以从左到右可能的排列作为词串查询意群库,二者所有查得项存于更正表。更正表至少有词串段、搜索串、解释、串首位字段。续上例,如取出“American”,查询意群串库,获得“美国”、“美国人”、“美洲人”、“美国的”、“美洲的”;“American”存入搜索串字段;“美国”、“美国人”等存入解释字段;词串段字段填I ;串首位字段填8 (包括空格居第8个字符位)。共有5个解释,有5个记录。再取出“economic”并存入搜索串字段,查询意群串库,获得“经济的”、“经济学的”、“产供销的”等并存入解释字段(更正表又增加了 3个记录);词串段字段填2(它们是第2段);串首位字段填22;以下如此类推。利用预选模块402搜索,若有改选记录的将其在更正表中换位到词串段之首。如上例,机器运作到预选模块之前目语句为(注意斜体字):1 {美国} 2 {经济}是以3 {基本上私有企业}和4 {市场导向经济}为架构的,在这种2 {经济}中,5 {消费者}很大程度上通过7 {(2301)在1 [市场上]为那些3[他们 想要 最的2 [货物和服务]付费}来决定6 {什么应该被制造出来}。预选模块402之中要搜索经验选词库405 (含英串、中解释字段)和中文词序库408 (含原序、更正序字段);其中句舱I “American”在经验选词库405记录有改选“美国的”的记录;这时更正表“美国的”处第4个记录,是第I个词串段,该段首是“美国”,因而将“美国的”置换“美国”(因最后给出的只是段首记录)。类似,句舱3中的“basically”有改选“基本的”的记录;句舱7的舱眼3内容在中词序库408有更正序为“她们最想要”的记录;然而,经预选模块运作后,相应句舱、舱眼自动更正之后,预选后的保留句舱舱眼标志标号的目语待校句;显示待校句416,如:1{美国的}{经济}是以3{基本的私有企业}和4{市场导向经济}为架构的,在这种2{经济}中,5{消费者}很大程度上通过7{(2301)在1[市场上]为那些3[他们 最,想要]的2 [货物和服务]付费}来决定6 {什么应该被制造出来}。相应的源语参考句如:l{theAmerican} 2 {economic} system is, organizedaround3 {abasically private-enterprise},4{market-oriented economy}inwhich5{consumers}largely determine6{what shall be produced}by7{(2301)spendingtheir money ini [the marketplace]for those2[goods and services]that they wantmost}.
显示给出待校句同时,显示“返回”、“继后”、“←移”、“移→”、“ ▲”、“∧”、“修辞”命
令按钮以及相应的源语参考句;作好接受用户更正操作的准备。本模块步骤结束。以上(一)到(三)模块步骤都在计算机全自动状态下完成,也就是本方法名称“一种机译人校互动翻译方法”的“机译”部分;接着,下文模块步骤(四)是“人校”部分,人校之中也是互动、交互,确保获得快捷简便的使用效果。(四)、语意校正,自学习205;又如图3语意校正模块流程图所示,上文模块步骤运作后,给出了目语待校句、按钮以及源语参考句301,为语意校正作好了准备。当用户读到目语待校句和相应的源语参考句后开始校正操作,系统的校正模块借更正表进行语意校正运作,自学习模块401联动,对校正过程的人机互动进行学习、记忆且为预选模块提供数据。下文根据实例进一步说明如下:A)不妥词串的替换302:例如,当用户读到的待校句及相应的源语参考如:“如果你I {买到那一栋房子},你是否将在3 {那里}渡过2 {你的晚年} ”“if youl {buy that home} , will you spend2 {the_rest_of_your_life} 3{there} ”当用户认为待校句某词串“那一”不妥时,单击它系统搜索更正表,弹出下拉列表给出全部相关查得项待选。根据被击词串,及其所在待校句的字符位置数查询搜索串、串首位字段,符合记录以下拉列表给出;如“那个、由于、那、那么”等等。当列表某项被用户单击,例如“那”被单击,以“那”置换待校句当前不妥词串“那个”;并在更正表中将“那”和“那个” 2记录内容换位;由于“那”、“那个”不等长,还要修改以后记录“串首位”字段之值。当“返回”按钮被单击,将上述更正相关信息记录于经验选词库备预选模块搜索使用;最后返回,进行下一句的翻译运作。B)连续句舱的切分303——当遇到没有参照无法自动进行切分的连续句舱给出、等待操作者干预,例如连续句舱含2个词串,两个句舱各取其一,自动切分。又例如两个句舱相连,其中之一又是重复句舱,参考重复句舱的另一个,将连续句舱内容划出与重复句舱相同部分,剩下部分即属于连续句舱之中的另一个。例如待译句“When will he go there, tomorrow or some_other_day ” 运作时半途停下,出现连续句舱“I {2 {he go there}”,没有参照无法自动切分;所以显示“连续句舱,请单击切分点:”:“I {2 {he go there} ” 以及如下信息:when willl{2{he go there},3{tomorrow}or4{some_other_day} [I] +什么时候 +[2]+,+[3]+还是+[4]+ 显然,应将“he go there”切分为“he”, “go there” ;分别被放到[I] +什么时候+ [2]中去。当“he gothere”被单击后以被单击点为切分点将两个句舱内容分开;成为:“when willl {he} 2 {go there}, 3 {tomorrow} or4 {some_other day} ,,继续运作。C)干预另选句骼304—当遇到句舱和舱眼不匀称、有残缺、或堆叠之错选句骼表现时,或用户不认可当前译句时单击“继后”按钮,系统把多对匹配句骼给出待选,以单击选取后的句骼重新套入接续S6继续运作;例如待译句:I went to see_my_doctor for a check-up yesterday.
自动给出待校句为:我去看I {我去了 ■请医生的■体格检查昨天}。I{I went to see_my_d octor for a check-up yesterday}.
参考句全部内容堆叠到一个句舱;起码的“句子有句骼、句舱两个部分”都不支持;自动选句骼有误,“继后”按钮接受到用户单击;把多对匹配句骼给出待选;当用户另选一个句骼后,继续运作给出待校句以及相应源语参考句为:3{昨天}我去I {请医生}作了 2 { ■体格检查}。Iwent toI{see_my_doctor}for2{a check-up}3{yesterday}.
根据上述命令按钮被用户单击由判别和后续313接续相应后续运作。D)补加意群串305——当不妥词串另选替换而缺失时,接受用户使用延伸词义、粘带前引或后随字词等意群对齐方法补加意群串,以补加串进行替换并补加于意群串相应语种构件字段。例如待译句:·
Now doctors have di scovered a cause of u I cers.
自动给出的待校句为:I {现在doctors}发现了一种导致2 {溃疡}的原因。当用户单击“doctors”时更正表中找不到待选项;当用户选中查词典时给出“doctors是名复或动3”提示。本方法规定,凡有词形变化的作为新词登录。然而接受用户输入“医生们”为“doctors”和“医生们”补加为意群串,存入意群串库。同时待译句更换成:1{现在医生们}发现了一种导致2{溃疡}的原因。根据上述命令按钮被用户单击由判别和后续313接续相应后续运作。E)组选复串306——当不妥词串另选替换而缺失时,接受用户使用组复词或改选复词的方法补加复词串,以补加串进行替换并补加于意群串的复词库相应语种构件字段;例如待译句:It usually happens before eating or during the night.
自动给出的待校句和相应源语句参考为:它通常出现在I {以前吃饭}或2 {在...的期间■夜晚}。it usually happensI{before eating}or2{during the night}.
当用户单击这两个句舱之一词串时,更正表列出的备选项用户没有选取,而是用拖放方法选中“before eating”接受用户使用组复词的方法将它们组成复串“饭前”,这里更换且补加于复词库。接着用户又用拖放方法选中“during the night”自动查询复词有“duringthe night夜里”给出;接受用户单击选用,这时的待校句更正为:它通常出现在1{饭前}或2{夜里}。根据上述命令按钮被用户单击由判别和后续313接续相应后续运作。F)句舱词序307——当译句句舱有词序错误时,接受用户单击其中串,再单击“一移”或“移一”命令按钮,将单击串前移或后移一个串位;例如待译句:Doctors have been able to help lessen the pain of ulcers.
自动给出的待校句和相应源语句参考为:1{医生们}早已能够帮助2 {减轻■疼痛的溃疡}。I{Doctors}have been able to help2{lessen the pain of ulcers}.
如果用户单击“疼痛”,再连续2次单击“移一”按钮,右移2次,待校句变成:1{医生们}早已能够帮助2{减轻■的溃疡疼痛}。
接着用户单击“的”后单击“移一”按钮,待校句更正为:1{医生们}早已能够帮助2 {减轻■溃疡的疼痛}。当用户单击“返回”按钮时,先判别用户使用“一移”或“移一”按钮移动了词序,启动自学习模块,将当前移动过的句舱,移前、移后内容保存到“中词序”库。然后返回。G)编词替换308——当连续多串不妥,不能用单击选中时,用拖放操作选中选中串后,然后在编词替换处填上其它词串、编辑或为空,再单击“ Λ ”按钮时,系统以后者置换前者。例如待译句:Alfred Herman, he shared thel91INobel Peace Prize for his work towardworld peace.
自动给出的待校句和相应源语句参考为:I {阿尔弗雷德赫尔曼},因2 {他}为4 {世界和平}所做的贡献,获得3 {19儿诺贝尔 Peace Prize}。I{Alfred Herman},2{he}shared3{thel911Nobel Peace Prize}for his worktoward4{world peace}.
当用户认为“诺贝尔Peace Prize” ;并用拖放操作选中,系统将它们显示于“选中串”和“编词替换”字样下的文本框;接受编辑为“年诺贝尔和平奖”。当“Λ”按钮补单击,以后者替换前者,更正待校句为:I {阿尔弗雷德赫尔曼},因2 {他}为4 {世界和平}所做的贡献,获得3 {1911年诺贝尔和平奖}。 根据上述命令按钮被用户单击由判别和后续313接续相应后续运作。H)修辞309—当出现不能用所列其它步骤处理的修辞现象时,接受用户单击“修辞”按钮,然后将当前待校句复制到编辑框,接受用户使用编辑的方法进行修辞操作。例如待译句或经其它所列步骤处理后的修辞现象时,如:Dickens’ language, at once rich colourful and varied, is like fine andsensitive musical instrument.
自动给出的待校句和相应源语句参考为:I {狄更斯的语言}既2{丰富多采}又3{变化多端},很象4 {精美而动人的音乐的工具}。I(Dickensj language}, at once2{rich colourful}and3{varied},is like4{fineand sensitive musical instrument}.
当用户单击“修辞”按钮时,将当前待校句复制到编辑框,接受用户使用编辑的方法进行修辞操作。操作后的目语待校句为:I {狄更斯的语言}既2{丰富多采}又3{变化多端},很象4{精美而动人的乐器}。“返回”命令按钮除上文所述功能外,它在返回之前还会扫描专为修辞所设的编辑框;当该编辑框不空时,取该框内容返回;要不取待校句返回。J)补量词311—当英译中时由于英语无量词而中文有量词因而需要在待校句需要之处补上量词,接受用户单击待校句的需补加处,系统搜索最接近单击点的数串后中心名词,当“▲”按钮同时被单击,以中心名词搜索量词库,取出相应量词补加到待校句;如果量词库查无,给出对话接受输入给以补加并录入量词库。例如待译句:On Apri 124,1970,China successful Iy launched i ts first man-made earthsatellite.
自动给出的待校句和相应源语句参考为:1 {在四月24},2 {1970,中国}成功发射了 3 {第一人造地球卫星}。1 {on April24},2 {1970, China}successfully launched its3{first man-madeearth satellite}.
当用户把数字串或数串之后的中心名词利用拖放操作选中。例如用户选中“人造地球卫星”;系统将它们显示于“选中串”和“编词替换”下;当用户单击命令按钮“▲”时,以中心名词(这里是“卫星”)搜索量词库,取出相应量词,“颗”补加到待校句;这时的待校句变成:2 {1970}年1{在四月24},3 {中国}成功发射了 4 {第一颗人造地球卫星}。如果量词库查无,给出对话提示:“查无;可在编词替换下以‘量/名’形式加入。”如该例输入“颗/卫星”即可。根据上述命令按钮被用户单击由判别和后续313接续相应后续运作。以上A-H状态步骤与语言文字的种类无关,具共性特点,可以出现在多语种双向翻译之间;如英译中或中译英的双向翻译的过程中。J状态步骤与语言文字种类密切相关,用于英译中或其它语种译成中文时使用。下文还有1、K状态步骤与语言文字的种类相关。I状态步骤用于无词间间隔表意文字的翻译之中,例如中译英洱状态步骤用于中译英。1-K都具个性特点根据具体语种设置。上文以英译中为例说明;下文Ι、κ出现在中译英过程中。所以下文以相应中译英实例说明:I)舱转换310——当中译英时接受用户单击某句舱或舱眼内容,搜索更正表所有当前句舱或舱眼含有的查得项,列表给出等待用户多次有序的单击选取,将它们置换待校句相应句舱或舱眼内容;例如待译句:“理论在本质上是对认识了的现实的一种抽象和符号化的表达。”自动给出的待校句和相应源语句参考为:1 {essentially}, a2 {theory} is an3 {abstract}, 4 {符号化的表达} of what isconceived to be5{real ity}.
2 {理论}在I {本质上}是对认识了的5 {现实}的一种3 {抽象}和4 {符号化的表达}。待校句有4个句舱;其中3个句舱都已经译成英文;仅句舱4还保留着源语句舱内容“4{符号化的表达}”当用户单击该舱内容“符号化的表达”时,由于查询意群库生成更正表的过程中,无词间间隔的表意文字从左到右可能的排列作为词串查询意群库,所有查得项存于更正表。“符号化的表达”被分为“符号”、“符号化”、“符号化的”、“的”、“表达”等中文词串,查得项包含它们以及它们的相关英文解释。供用户根据英文习惯依次选取。这里用户应先选取“symbolic符号化的”;再选取“representation表达”;然而当前句舱处理完毕,当前待校句为:I{essentially},a2{theory}is an3{abstract},4{symbolic representation}ofwhat i s conceived to be5{reality}.
不管有无其它更正;系统都检测上述命令按钮和给出的相关框、表是否被用户单击来判别后续313,接续相应后续运作。K)补冠它312-当中译英时由于中文没有冠词、动词to/be、to/have区分等,在
中译英时,这些需要补加;在系统给出保留句舱标志标号的目语待校句时,已经显示了 “a/an”、“the”、“t0/be”、“t0/haVe”、“###”,当它们之一被单击(“###”除外是结束标志),待校句也被单击时,系统将它们之一在待校句被单击处加上适当形式的词串;例如待译句:我们累了,这是有目共睹的。自动给出的待校句和相应源语句参考为:1{我们累了 },as anyone can see.
1{我们累了 },这是有目共睹的。系统以“我们累了”可能排列查询意群串库,将所有查得项保存于更正表备用户选取。这里用户会选取“we我们”和“tired累了” ;这时的待校句变成:I {we tired}, as anyone can see.
这样的显然不符合英语的要求。用户会单击“补冠它”下方列出的“a/an the to/be to/have###”其中的“to/be”;并且再单击“we tired”中间的空格。系统判定这里需要“补冠它”操作,并且根据“to/be”的要求,这里应插入动词“are”;然而当前待校句变成为:I {we are tired},as anyone can see.
不管有无其它更正;系统都检测上述命令按钮和给出的相关框、表是否被用户单击来判别后续313,接续相应后续运作。上文逻列并说明了需要更正的状态步骤。还有一种情况,给出的待校句完全正确,操作者没有单击任何上述按钮以及相关给出显示的页面控件,就单击“返回”按钮;即给出的待校句完全正确,无需更正的情况;这种情况并且会越用越多。需要补充说明的是,上文所提及的待校句都是以保留了句舱、舱眼标志、标号的目语待校句形式给出的。当“返回”命令按钮被单击返回,这些句舱、舱眼标志、标号以及不需要的空格都将弃去,与传统方式一样:如:“1 {we are tired}, as anyone can see.”;“ 2 {1970}年I {在四月24},3 {中国}成功发射了 4 {第一颗人造地球卫星}。”等等变成:“we are tired, as anyone can see.
在1970年四月24日,中国成功发射了第一颗人造地球卫星。”等等返回;给出到译文框,以至最后生成目标译文输出206。实施本发明所产生的软件系统可以在现有的中型、小型、微、巨型计算机,笔记本电脑、掌上电脑等单独的或者相连成网的计算机上运行实施。可以在各种计算机网络,特别是在因特网上运行实施。还可以在诸如“个人数字助理”,PDA(PerSonal DigitalAssistant),平板电脑、手机等装置上运行实施。本发明实施后的产品,可以应用于需要和其它语种的人们进行交流的工作、 学习、休闲、旅游等等场合;可以用于家庭、机关、学校以及各行各业涉及外文的场合。
权利要求
1.一种表意构件识别提取方法,利用相同内容的多语种或双语文字版本的语料作句对齐后生成双语句对库,其特征是进一步根据不同语言文字的句子可以表达相同语意,以表意将不同语言文字进行关联,不同语言文字的表意通过四种共同的表意构件实现,识别提取出这四种表意构件包括如下步骤:句配骼102,句子由句骼和句舱两部分组成,识别提取表意构件每轮选取A、B两种语言文字,计算机读取双语句对库一个AB双语句对,以当前双语句对之一查询句骼库进行配句骼运作,有匹配句骼将双语句对套入,并显示“舱检测”、“查配标”按钮, 当套入后各句舱匀称、无残缺、无堆叠现象且“舱检测”按钮被单击,为肯定,已有匹配句骼,接续S3舱检测, 若套入后各句舱不匀称、有残缺、或有堆叠现象且“查配标”按钮被单击,为否定,表示对套入结果否定需要提取新句骼,系统进入查配标运作,用A语句词串查询传统电子词典据B语句是否含有语义对应词串生成当前句对语意匹配表,舱计数N = 0准备提取新句骼;别及标注句舱103,机器以数量串、专名串、冠名串双语同时依次识别、以先后为序用N = N+1将它们预标为句舱,预标句舱使骼例比由100%逐步降低,这三种词串标注句舱结束后, 如骼例比高于50%,以所述语意匹配表为据将无冠名串或其它语义匹配串在有间隔的前提下逐个接续标为句舱,接受操作者认可、或更正或使用意群对齐运作增补语意匹配词串,继续识标句舱, 直至上述识别及标注句舱条件缺失且骼例比在15-50%之间,识标句舱结束,进行句骼格式检查,整理前述预标为正式标注这是第一轮识别提取的步骤,第二轮识别提取开始不用识别词性而是以已标语种句为模板识别、标出未标语种句的句舱, 当N = >1时,当前句对移去句舱所剩部分为句骼构件,将它们存贮于句骼库105相应语种构件字段,当N = 0当前句对为习语构件,习语构件是一些分不出句骼句舱的特殊句对,将它们存贮于习语库104相应语种习语字段, 将当前双语句例对号入座地套回当前句骼成为骼例式备续;检测及提取舱模106,逐个句舱检测,第一轮识别提取以A语拼音文字句的句舱所含词串计数,=> 5个原有词串要进入组复词运作, = >原有8个词串的以当前句舱作“查配标”运作生成当前句舱语意匹配表以备进一步提取舱模为有模句舱, 提取舱模,以数量串、专名串、冠名串双语同时依次识别、预标为舱眼,模例之比由100%逐步降低,若预标完这三种词串还大于70%,再以无冠名串或其它语意匹配串在有间隔的前提下在标为舱眼,接受操作者认可、更正,或使用意群对齐运作增补语意匹配词串,继续预标舱眼, 当预标条件不存在且模例比在50-70%之间,预标舱 眼操作结束,以英语句舱从左到右为序修改舱眼预杯为正式标注,第二轮提取开始不同,是以已标语种句舱为模板识别、标出未标语种舱眼, 当舱眼数N = > 1 ;当前句舱对移去舱眼所剩部分为舱模构件,保存到舱模库107相应语种舱模字段, 继续其它句舱的检测直到全句对句舱检测完毕;S4.收存意群串108,将当前双语例对号入座地套回当前提取的句骼,有舱模的句舱再套回相应舱模,再逐个句舱或舱眼搜索,参照语意匹配表,相应内容在匹配表里A语字段和B语字段不空的记录是A、B语言文字语意对齐的,确定为意群串构件,将它们逐记录取出,分别存贮到意群串库109同记录相应语种字段内,当前句对的识别提取结束。
2.根据权利要求1所述的表意构件识别提取方法,其特征在于:S2所述以数量串、专名串、冠名串双语同时依次识别、标注步骤,具体为: 机器查询当前句对语意匹配表,首先识别搜索数量串,如有则同样将它们在A、B语句子中同时据N = N+1以“A、B、C......”加预标, 如无或识别搜索数量串完成后,识别搜索专名串,如有则同样将它不们在A、B语句子中同时据N = N+1以“A、B、C……”预标, 如无或识别搜索专名串结束后,识别搜索冠名串,如有则同样将它不们在A、B语句子中同时据N = N+1以“A、B、C……”预标, 如无或识别搜索冠名串结束后,显示符号“ I ”且在两侧分别显示“一” “一”命令按钮、计算并显示骼例比、以及“ V ”命令按钮,接受操作者更正或认可。
3.根据权利要求1所述的表意构件识别提取方法,其特征在于:S2所述以无冠名串或其它语意匹配串在有间隔的前提下逐个接续标为句舱,具体为:当骼例比高于50%,以匹配表为据搜索词性字段是名词且A语词B语词字段不空的为语意匹配的无冠名串,或者不是名词而A语词B语词字段不空的为其它语意匹配串,同上且加显当前句对语意匹配表、“它n “V”、“< n ”、“格式检查”按钮,并接受操作者使用组复词、延伸词义、粘带前引或后随字词的意群对齐方法修改匹配表,增补语意匹配词串,继续预标句舱直至识标句舱条件缺失且骼例比在15-50%之间,识标句舱结束, 然后,进行句骼格式检查,第一轮识别提取以英语句从左到右为序整理预标舱序号为正式舱序号,第二轮识别提取开`始以已标语种句为模板识别、标出未标语种句的句舱。
4.根据权利要求1所述的表意构件识别提取方法,其特征在于: 所述利用双语句对提取出表意构件,具体为:每轮识别提取选AB两种语言文字,第一轮选中英双语为优选例,其中A语是英文、B语是中文,第二轮开始每轮识别提取新增一种语言文字,另一种为已经识别提取过的语言文字,A语分配给已经识别提取过的语言文字,B语分配给新加入的语言文字;第二轮识别提取开始每轮新加一种语言文字; 识别提取过程先以已识别句查询句骼库进行配句骼运作、套入,然后以已识别提取句为模板,在新增语种句子上识别出语意相同部分标为相同标号的句舱,若有相同重复部分,以同样的标号标为重复句舱,重复句舱适应各语种句子的重复成份,两语种句子被识别标注的重复句舱不一定都有、数量也不一定一致、也不影响句舱标出数; 含舱模的句舱,同样以已经识别句的句舱套入舱模作为模板识别标出新加语种句相应句舱的舱眼。
5.根据权利要求1所述的表意构件识别提取方法,其特征在于: 所述配句骼运作具体为:事先按句骼词串与句舱之空穴生成句骼串表并索引,配句骼时把句例从左到右英逐单词中逐字取下搜索句骼串表的骼首字段并存于临时表,再逐记录取出临时表内容,以句骼词段查询句对例,句骼串的每段都可以在句对例中查到且次序相同为匹配,再根据句骼串表取出相应语种句骼;所述查配标运作具体为:机器利用至少含有词性、A语词、B语词字段的匹配表,先以A语句单词串为单元切分、依次填入匹配表A语词字段,随后逐记录取出查询传统电子词典,以查得的相应B语解释搜索B语句是否含有,含有且是最长串填入B语词字段同时将其词性填入词性字段,无含有B语词字段为空; 所述意群对齐运作具体为:①以当前句对、句舱为依据,延伸或增补B语解释填人匹配表B语字段,②粘带附随字、词或字符,③有词形变化的另作词条入库,在匹配表中根据当前句对句舱参考传统词典填入B语解释,④组复词(下款); 所述组复词运作具体为:根据当前句对、句舱语意判断,如其一需要原有两个词条或更多词条合并,语意才等于另一时,前者以将它们相连合并为一个词条,称为复词,在匹配表作为一个记录分别填入AB语字段,添加到意群串库之复词库,没有这种情况的空运作,没有改变。
6.根据权利要求1所述的表意构件识别提取方法,其特征在于: 表意构件包括句骼构 件、舱模构件、意群串构件和习语构件四种,贮存它们的句骼库、舱模库、意群串库和习语库是表意构件分库,共同构成表意构件数据库,四个分库之间相互独立,分库内同记录的成员语意相同且相互影射; 从一个句对提取出来的句骼可以被其它句对所套用,舱模可以被其它句舱所套用,句骼所含有的句舱个数、语意内容相同,是跨语种的,句舱在具体句骼中的位置、次序和用以填充的意群串是面向各自语言文字的,不跨语种; 句骼库用以存贮句骼构件,有句骼码、英句骼、中句骼字段,同记录的各语种句骼字段存贮相应语种句骼,它们的语义相同且相互影射,句骼码是它们语义和库中位次的表示; 舱模库用以存贮舱模构件,有舱模码、英舱模、中舱模字段,同记录的各语种舱模字段存贮相应语种舱模,它们的语义相同,舱模码是它们语义和库中位次的表示; 意群库用以存贮意群串构件,有意群码、英群串、中群串字段,同记录的各语种意群串字段存贮相应语种意群串,它们的语义相同,意群串码是它们语义和库中位次的表示; 习语库用以存贮习语构件,有习语码、英习语、中习语字段,同记录的各语种习语字段存贮相应语种习语,它们语义相同,习语码是它们语义和库中位次的表示; 第二轮识别提取开始每轮新加一种语言文字,事先应在这四个分库内分别增设新加语种的构件字段。
7.一种基于表意构件的机译人校互动式翻译方法,其特征在于,包括如下步骤:句配骼、源语句套入202,读入源语句子,以源语句搜索句骼库,获得唯一匹配的源、目语句骼,若有多对匹配句骼自动隐含选取最长的为唯一匹配句骼,然后将源语句子对号入座地套入源语句骼,舱检测若是有模句舱再搜索舱模库有再套入舱模,使成为源语句骼例结合形式;舱或舱眼内容转移203,从源语句骼例结合式中逐个取出句舱或舱眼内容,转移到目语句骼、舱模相应的句舱或舱眼里,使之成为源、目语过渡式;查得项、预选给出目语待校句204,逐个取出源、目语过渡式中句舱或舱眼的源语词串,查询意群串库,无词间间隔的表意文字则以从左到右可能的排列作为词串查询意群库,二者所有查得项存于更正表;利用预选模块402选出查得项当中最大适配的目语串生成待校句并在更正表中换位到词串段之首,最后给出301预选后的保留句舱舱眼标志标号的目语待校句和“返回”、“继后”、“一移”、“移一”、“ ▲”、“Λ”、“修辞”命令按钮以及相应的源语参考句; S8.语意校正、自学习205,当用户读到目语待校句和相应的源语参考句时开始校正操作,同时系统的校正模块借更正表进行语意校正运作,自学习模块401与之联动,对校正过程的人机互动进行学习、记忆且为预选模块提供数据,当当前待校句的语意校正运作结束后,接受用户单击“返回”按钮接续S5运作。
8.根据权利要求7所述的机译人校互动式翻译的方法,其中S8述及语意校正和校正模块,其进一步的特征是: 语意校正有待校句完全正确无需更正和需要更正两种情况,无需更正时接受用户单击“返回”按钮接续S5,需要更正的有如下状态与步骤,更正结束后再接受单击“返回”接续S5: A)不妥词串的替换302—当用户认为待校句某词串不妥时,单击它系统搜索更正表,弹出下拉列表给出全部相关查得项待选,然后以被单击选中的查得项替换译句不妥词串,同时置换为词串段之首; B)连续句舱的切分303——当遇到没有参照无法自动进行切分的连续句舱给出待切,当被单击后以被单击点为切分点将两个句舱内容分开; C)干预另选句骼304——当遇到句舱和舱眼不匀称、有残缺、或堆叠之错选句骼表现时,或用户不认可当前译句时单击“继后”按钮,系统把多对匹配句骼给出待选,以单击选取后的句骼重新套入接续S6继续运作; D)补加意群串305——当不妥词串另选替换而缺失时,接受用户使用延伸词义、粘带前引或后随字词方法补加意群串,以补加串进行替换并补加于意群串相应语种构件字段; E)组选复串306—当不妥词串另选替换而缺失时,接受用户使用组复词或改选复词的方法补加复词串,以补加串进行替换并补加于意群串的复词库相应语种构件字段; F)句舱词序307—当译句句舱有词序错误时,接受用户单击其中串,再单击“一移”或“移一”命令按钮,将单击串前移或后移一个串位; G)编词替换308——当连续多串不妥,不能用单击选中时,用拖放操作选中选中串时,然后在编词替换处填上其它词串、编辑或为空,再单击“ Λ ”按钮时,系统以后者置换前者; H)修辞309—当出现不能用上述步骤解决的修辞现象时,接受用户单击“修辞”按钮,然后将当前待校句复制到编辑框,接受用户使用编辑的方法进行修辞操作; I)舱转换310——当中译英时接受用户单击某句舱或舱眼内容,搜索更正表所有当前句舱或舱眼含有的查得项,列表给出等待用户多次有序的单击选取,将它们置换待校句相应句舱或舱眼内容; J)补量词311—当英译中时由于英语无量词而中文有量词因而需要在待校句需要之处补上量词,接受用户单击待校句的需补加处,系统搜索最接近单击点的数串后中心名词,当“▲”按钮同时被单击,以中心名词搜索量词库,取出相应量词补加到待校句;如果量词库查无,给出对话接受输入给以补加且录入量词库; K)补冠它312—当中译英时由于中文没有而英文有冠词、动词to/be、to/have等,这些需要补加,在系统给出保留句舱标志标号的目语待校句时,已经显示了“a/an”、“the”、“t0/be”、“t0/haVe”,当它们之一被单击,待校句也被单击时,系统将它们之一在待校句被单击处加上适当形式的词串; 以上A-H状态步骤与语言文字的种类无关,具共性特点,可以出现在多语种之间A译B或B译A的双向翻译的过程中;1状态步骤与语言文字的种类相关,用于无词间间隔表意文字的翻译之中J-K状态步骤与语言文字种类密切相关,它们具个性特点根据具体语种设置。
9.根据权利要求7所述的机译人校互动式翻译的方法,其中S8述及的自学习模块联动,对校正过程的人机互动进行学习、记忆且为预选模块提供数据,其特征是: A、经验选词,在英译中语意校正运作过程中当用户单击待校句的不妥词串后403,系统搜索更正表,列表给出全部相关查得项待选的同时,将所有相关待选项以空格相隔生成经验串,末尾把相应的英词串附后; 当用户选取列表之一置换的同时,用选中词条和英串查询“经验选词”库,查有频度=频度+1,查无,将选中词条移到经验串之首且压栈式存入该库405的中解释字段,英串从经验串取下存入英串字段,当前句骼号存入句骼号字段; B、中文词序,在英译中语意校正运作过程中将生成的中文待校句给出时备份于“给出句”,当测得用户使用“一移”或“移一”按钮移动句舱或舱眼词序时406,记下被移句舱的舱标号或舱眼号,当语意校正结束,“返回”命令按扭被单击时搜索经过移位调整词序的句舱或舱眼,是,以句舱为单位将移位前、后结果分别存于中词序库408的“原序”、“正序”字段,且清除当前句舱或舱眼在经验选词库405中的相关记录; C、舱经验,在中译英语意校正的“舱转换”运作时409备存当前句舱、舱眼标号,当“返回”命令按钮被单击,将当前句所有经过舱转换的转前转后内容查舱经验库411,查有频度+1 ;查无压栈式存入该库。
10.根据权利要求7所述的`机译人校互动式翻译的方法,其中S7述及将所有查得项存于更正表,利用预选模块402选出查得项当中最大适配的目语串生成待校句并在更正表中换位到词串段之首,其进一步的特征是: 更正表至少有词串段、搜索串、解释、串首位字段,预选模块与语言文字种类密切相关; 英译中的预选412是①用当前句舱或舱眼内英文词串查询“经验选词”库,查有取出解释字段内容的首条中文词串为413最大适配的目语串给出,查无以更正表本词串段首记录为最大适配的目语串给出;②用当前句舱或舱眼已经获得的中文内容414查询“中词序”库的原序字段,查有以正序字段内容替换为最大适配的目语串415给出,查无不变; 中译英的预选以源、目语过渡式中句舱或舱眼的源语内容查询更正表搜索串字段,有全等的以同记录解释字段内容为最大适配的目语串给出,无全等时417的再查询“舱经验”库中舱字段,有418以英舱字段内容为最大适配的目语串给出,查“舱经验”库无以当前句舱或舱眼中文内容为最大适配的目语串给出; 凡预选模块选用了更正表某查得项改变了原给出内容的,同时在更正表中将它换位到本词串段之首。
全文摘要
本发明提供一种表意构件识别提取方法及其机译人校互动式翻译方法,其中的表意构件识别提取方法为利用相同内容的多语种或双语文字版本的语料作句对齐后生成双语句对库,以表意将不同语言文字进行关联,不同语言文字的表意通过四种共同的表意构件实现,识别提取出这四种表意构件包括读句配骼、识别及标注句舱、舱检测及提取舱模和收存意群串。本发明还提供了基于表意构件的机译人校互动式翻译方法,包括读句配骼、源语句套入、句舱或舱眼内容转移、存查得项、预选给出目语待校句以及语意校正、自学习。本发明解决了现有技术存在的译文质量差,要求操作者具独立翻译能力,处理过程中无法反悔地丢失词义、语意之技术问题。
文档编号G06F17/27GK103106195SQ20131004205
公开日2013年5月15日 申请日期2013年1月21日 优先权日2013年1月21日
发明者刘树根 申请人:刘树根
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1