中英英中rcs句典的制作方法

文档序号:6574905阅读:175来源:国知局
专利名称:中英英中rcs句典的制作方法
技术领域
本发明属于IT自然语言理解领域,提供了一种中英和英中语句级电子句典的构造方 法。它可应用于英文学习、机器翻译等领域,特别适用于应用在手机等存储空间较小的移动 电子设备中。
背景技术
目前关于中英或英中翻译的辅助工具有字典和词典,但是没有句典,也就是说,没有 一种工具能够提供语句级句典,实现中英或英中句子的对照与解释。没有句典的主要原因是 句子是无限的,不能使用穷举的方法,而使用机器翻译的方法却受到目前自然语言理解理论 发展水平限制,不能做到完全正确,作为工具典更无从谈起。本发明(RCS替换法、RCS 压縮法和RCS检索法)可以翻译(中英或英中)几乎所有常用句子,正确率为100%,它能 给出句子的语法结构和使用特征。发明内容本发明构造了一种中英和英中语句级电子句典的方法,它包括三个主要方法RCS替换法、RCS压缩法和RCS检索法。本发明包含了约五万个中文和英文对照的格式句子(或 子句),通过RCS替换法可以派生出数百倍的中文和英文对照的句子;RCS压縮法不仅将 所有数据压縮在2兆字节,而且实现了快速语句翻译;RCS检索法允许语句査找时只输入句 中的关键词,结果是按使用频度排序的中英对照的多个句子,并且可以给出句子的语法结构 和使用特征。 1.词的分类 1.1词的分类所有的中文和英文的词按五级划分成约10,000类。第一级共分13类,用一个大写英文字母表示,称之为一级类号A.名词;B.动词; C.形容词;D.数词;E.量词;F.代词;G.副词;H.介词;I.连词;丄助词;K.象声 词;L.叹词;M.其它词。对第一级的各类分别划分第二级,用两个大写英文字母表示,称之为二级类号,其中 第一个字母是其所属的第一级的类号。A类(名词)的二级词类有AA.人;AB.物;AC.事;AD.集体名词;AE.时间词; AF.空间词;AG.专有名词;AH.抽象名词;Al.方位词;A丄处所词;AK.其它名词。B类(动词)的二级词类有BA.体宾动词;BB.谓宾动词;BC.主谓短语动词;BD. 双宾动词;BE.不及物动词;BF.系动词;BG.助动词;BH.情态动词;AL其它动词。C类(形容词)的二级词类有CA.外形;CB.表象;CC.颜色;CD.味道;CE.性 质;CF.德才;CG.境况;CH.心理;CI.自然现象;C丄生理现象;CK.表情;CL.其 它。D类(数词)的二级词类有DA.基数词;DB.序数词。E类(量词)的二级词类有EA.专用量词EB.借用量词;EC.专用动量词ED.借 用动量词;AE.其它量词。F类(代词)的二级词类有FA.人称代词;FB.指示代词;FC.疑问代词;AD.其它代词。G类(副词)的二级词类有GA.时间副词;GB.范围副词;GC.频率副词;GD.程 度副词;GE.语气副词;GF.肯定副词;GG.情态副词;AD.其它副词。H类(介词)的二级词类有HA.空间介词;HB.时间介词;HC.对象介词;HD.依 据介词;HE.缘由介词;HF.其它介词。l类(连词)的二级词类有IA.词连词;旧.短语连词;IC.句子连词;AD.其它连词。J类(助词)的二级词类有JA.结构助词;;JB.动态助词JC.语气助词;AD.其它 助词。K类(象声词)的二级词类有KA.动物;KB.人;KC.物;KD.自然;KE.其它。 L类(叹词)的二级词类有LA.高兴叹词;LB.哀伤叹词;LC.赞叹叹词;LD.惊讶 叹词;LE.埋怨叹词;LF.轻蔑叹词;LG.领会叹词;LH.应答叹词;LI.追问叹词;L丄其它叹词。M类(其它词)的二级词类有MA.其它词。同理划分第三级,第三级用两个大写英文字母和三位数字表示,称之为三级类号,其 中前两个字母是其所属的上一级的类号,三位数的数字是其在第三级的编号。若二级的类再划分成N类,则其三级的编号分别为001 — N。同理划分第四级,第四级用两个大写英文字母和六位数字表示,称之为四级类号,其 中前两个字母和三位数字是其所属的上一级的类号,后三位数的数字是其在第三级的编号。若三级的类再划分成M类,则其三级的编号分别为001 — M。所有的词都排放在第四级中,第四级中的词编号为1-n (n为该四级中词的总数)。 例AA002018: A是第一级类号,AA是所属A类的第二级类号,AA002是所属M类的第三级类号,AA002018是所属AA002类的第四级类号。在AA002018类中共有14个词如下老夫;老汉;老朽;老拙;小老儿;老可;老躯;老身;朽人;decrepitude;dotage; senescence; old buffer; old man。分另'J编号为1-14。多义词认为是多个词,分别划分在相应的类中。中文词和英文词根据词义相同划分在 相同的类中。类中的词可能是一个词组,本发明统称类中的词或词组为词。同一个词不同的词形变化(包括时态、语态、格等)划分在不同的类中。 1.2类的属性一到四级类的属性指该类所包含的词所具有的共同属性,包括语法属性、语义属性、 空间属性、时间属性、地域属性、外在属性、内在属性和关系属性。语法属性指该词类的词法,包括词的构成、词的词性、词形变化等。例如是名词则 标明可数不可数,可被哪种代词替代等。语义属性指该词类与其它词类的关系,例如是可数名词则标明可被哪种量词修饰等。空间属性指该词类在句中应用时的空间因素。例如鱼在水中生存等。 时间属性指该词类在句中应用时的时间因素。例如旧称等。 地域属性指该词类在句中应用时的地域因素。例如适合某国或某地区等。 外在属性指该词类在句中应用时的对外表现的属性。例如可视、颜色、大小等。 内在属性指该词类在句中应用时的内在的属性。关系属性指该词类在句中应用时与其它事物之间相互作用、相互影响的状态。 1.3词的属性对词类中的每个词定义其与该类中其它词的差异属性,词的属性包括词的编号、二义 属性和应用属性。编号指词的五级编号。二义属性就是一个语句有两种(或多种)意思。应用属性指出该五级词类中的词哪些是在何种情况下不可相互替换。四级类中的所 有的五级词中有一个是主词,这词的五级编号为1。应用属性指四级类中非主词与主词的不 可替换性。例如AA002018类中有老夫和朽人两词。词"老夫"有两个意思, 一个是指老的丈夫, 另一个是自谦。所以标出该词是多义词。应用属性中标出"朽人"当被判断为年迈衰老之人时 不可与该词类中主词替换。2.替换规则 2. l格式句子库本发明包含了约50,000个中文和英文对照的格式句子(或短语)库,它来自于《英华 大词典》和各专业(如日常用语、谚语、成语、习惯用语、贸易、体育、金融、保险、医学 等)经典的句子,经过格式化加工形成。例如,原句是"你打哪儿来的?",改成标准句为"你 从哪儿来的?"。其原因是在词的分类时,每一个五级的类都定义了主词。将普通句子进行 格式化加工,就是将句中的每一个词都替换为主词。 2.2句式本发明按三级定义了约38,000个句式和8,000个短语句式。这些句式是根据格式句子 总结获得。一级句式为CAm CAn2 . . . CAnm 0 (. . . EAxi ...)。其中,i为自 然数;CAmCAn2 . . . CAnm是中文句式;(...EAw ...)是对应的英文句式, (...EAxi ...)中排列的是EBxi EBx2 . . . EBxy共y个符号,但它们不是顺序 排列的,若1 <= i <= m,则每一个EAxi对库中文句式中的CAni; m n2 . . . nm, xi X2 . . . xy至少有一个为二级类号。从句式中可以看出中文句子中的词和英文句子中的词 顺序不是一样的,词的个数也不一定是一样的。二级句式为CBm CBn2 . . . CBnm o (, . . EBxi ...)。其中,CBm CBn2 . . CBnm是中文句式,(,..EBxi ...)是对应的英文句式,m n2 . . . nm, X1X2 . . . xy至少有一个三级类号且无二级类号。三级句式为CCmCCn2 . . . CCnm o (. . . EC ...)。其中,CCni CCn2 . . . CCnm是中文句式,(...EC ...)是对应的英文句式,ni ri2 . . . nm, X1X2 . . . xy皆为四级类号。例1:中文句子为"我是学生。",对应的英文句子为"l am a student."对应的三级句式为CC0052 CC3125 CC0623 O EC0023 EC3012 EC5238 EC0428,其 中0052是词"我"的四级类号对应的内码,3125是词"是"四级类号对应的四级内码,0623是词 "学生"的四级类号对应四级内码,0023是词T的四级类号对应的内码,3012是词"am"的四级 类号对应的内码,5238是词"a"的四级类号对应的内码,0428是词"student"的四级类号对应的内码。例2:英文句子为"l am a student.",对应的中文句子为"我是学生。"或"我是一个学 生"。也就是说一个句子可能会对应多个翻译,那么对应的就是多个句式。三级句式由程序自动生成,人工校对。二级句式和一级句式都是通过对上一级句式的分析统计后合并而成,若能合并则定义二级(一级)句式,并且删除对应的所有下一级句式, 最终得出一级句式表、二级句式表、三级句式表,句式表中存放的是所有对应的句式。 2. 3替换规则所有格式句子在替换时分为两类, 一类是不进行替换的,主要包括一些成语、谚语 等;另一类是进行替换的,根据句式找出对应的词加以替换。替换规则是有三级句式则根据 三级句式加以替换,否则根据二级、 一级。例1:翻译的中文句子为"饥不择食"。"饥不择食"是不进行替换的句子,在系统中给出了中英文对照全文,对应的英文是"Agood appetite is a good sauce.",直接得到译文。例2:翻译的中文句子为"他是学生"。"他是学生。"是要进行替换的句子,在系统中没有给出中文和英文对照全文,只有"我 是学生"。要通过替换得到对应的译文。根据替换规则,首先在三级句式中找出对应的句式 "CC0232 CC3125 CC0623",査找三级句式表,没有对应的句式,然后查找二级句式表,找 到对应的句式为"CBK1 CBK2 CBK3",该句式对应的英文句式为"EBL1 EBL2 EBl_4 EBL3",按词直接翻译,加入英文句式,得到的译文为"He is a student"(注:词"am" 、 "is" 、 "are"在分类时不属于一类)。2. 4歧义判别规则有些词是多义词,多义词有多个类号,判别当前句子中的多义词属于哪一类,也就是 当前的词义,本发明定义了一些判别规则。中文和英文的单词有哪些已经知道,多义词是哪些也己经知道,在分类时对这些多义 词进行了标记,为了区别多义词,在它们的属性中给予了较多的定义,用于区别多义词在当 前句子中的语义。歧义判别规则是根据歧义词在格式句子中出现的可能性由人工逐一制定 的。3. RCS压縮法本发明主要的原始数据有*词典电子格式的《英华大词典》。数据格式举例如下-pep.per [、pep3/ 、p口p口]1. 胡椒;胡椒粉;(P-)胡椒属。2. 刺激性;尖锐的批评。3. 暴躁,急性子。4. 〔美俚)活力,精力;劲头;勇气。 white ~白胡椒。beaten [ground] ~胡椒粉。the Chinese [Japanese] ~秦椒。the water ~黎。take ~ in the nose = grow ~发怒,动气。II1. 加胡椒粉于;撒(胡椒),用胡椒调(味〉。2. 乱发(质问、子弹);美拳接连速击。3. 〔罕)嘲笑;痛骂;重罚。*格式句子本发明包含的约50,000个中文和英文对照的格式句子(或短语)。 *词库包含了词的分类信息、类的属性信息、词的属性信息等。 *句式表本发明定义的一级句式表、二级句式表、三级句式表。主要要压缩的数据是词典和格式句子,这些数据是不变的,词典的每个词目后和每个格式句子后插入一个间隔符。RCS压缩法首先采用LZW压缩算法的思想,找出所有使用的字串的长度(间隔符不含在字符串中);然后通过统计和分析定义出最佳的字串表(压縮比高并且字串表小);最后通过改良的算术编码方法分别压缩词典和格式句子。与LZW和算术 编码方法最大的不同是RCS压缩法可以对指定的任意一段压縮码进行快速还原。对于词典,通过对词目建立索引,可以找出该词目所对应的词目译义内容压縮码。 对于格式句子,通过对首单词和句式编号建立索引,可以找出该句式所对应的内容压 縮码,中英对照的句子可通过解码获得。 同理压縮词库和句式表。4. RCS检索法RCS检索法分两个部分,第一部分是输入整句,RCS检索法通过RCS替换找出对应的 中文(或英文)句子。第二部分是输入要查找的句子中的关键词,这时通过关键词和建立的 索引库给出包含关键词的格式句子,第二部分的检索法描述如下-以每个中(英)文句子为建立索引的基本对象,在建立索引时需要记录句子的编号、内 容信息(即由已经做了切分的词语组成的词串)和该句子对应的中(英)文句子的编号。我们采用了四级索引机制实现了节省存储空间、加快检索速度、易于扩充索引信息等 目标。这四级索引分别为-第一级,句子索引级,是一个连续存放的链表(positions),链表中的每个单元是长度 为4个字节的指针,对应一个中(英)文句字,指向第二索引级中对应的单元的起始位置;第二级,句子级(sentences), 一个连续存放的链表,链表中的每个单元对应一个句 子,共存储了三项内容,第一项是句子的编号(从1开始,长度为4个字节),第二项是该 句子对应的中(英)文句子的编号(长度为4个字节),第三项是句子的内容,不定长第三级,词语级(terms), 一个连续存放的链表,链表中的每个单元对应一个词,并按 照词的词典序排序,每个单元存储了四项内容,第一项是包含该词的句子的总数(长度为4 个字节),第二项是该词的词频信息在词频表中的位置(长度为4个字节),第三项是该词 的位置信息在词位置表中的位置(长度为4个字节),第四项是该词本身,不定长。第四级,词频信息(freqs)和词位置信息(prxs)级,由两个链表来存储,分别为词频链表 和词位置链表,其中词频链表中的每个单元记载着每个词在多个句子中出现的频率,并按照 第三级词顺序排序,每个单元又分为多个子单元,记录着包含该词的句子的编号(长度为4 个字节)和出现的频率(长度为4个字节),子单元按句子编号排序;词位置链表中的每个 单元记载着每个词在多个句子中出现的位置,并按照第三级词顺序排序,每个单元又分为多 个子单元,记载着在一个句子中出现的多次的位置信息,子单元按句子编号排序,而每个子 单元又被划分成多项,每一项记录着该词在一个句子中出现的每个位置(长度为4个字节)。
权利要求
1. 一种中英和英中语句互查的构造方法,其特征在于包括RCS替换法、RCS压缩法和RCS检索法。
2. 根据权利要求l, RCS替换法特征在于包括词的分类和替换规则。
3. 根据权利要求2词的分类,其特征在于包括词的分类所有的中文和英文的词按五级划分成10, 000类;类的属性对每级词类定义该类所包含的词所具有的共同属性,类的属性包括语法属性、语义属性、空间属性、时间属性、地域属性、外在属性、内在属性和关系 属性。词的属性对词类中的每个词定义其与该类中其它词的差异属性,词的属性包括词的编 号、二义属性和应用属性。
4. 根据权利要求2替换规则,其特征在于包括格式句子50,000个中文和英文对照的格式句子;句式按三级定义的38, 000个句式和8, 000个短语句式。替换规则按三级定义的20,000个中英(英中)语句替换规则和4,000个中英(英中)短语替换规则; 歧义判别规则对多义词定义的当前词义判别规则。
5. 根据权利要求l,RCS压縮法特征在于通过建立索引和可定位字典压縮法将所有数据压縮 在4兆字节,而且实现快速解压縮。
6. 根据权利要求l,RCS检索法特征在于通过综合搜索引擎技术,建立四级索引库,可根据 语句査找时输入的关键词,快速找出相关的中英对照的句子。
全文摘要
本发明构造了一种中英和英中语句互查的方法,它包括三个主要方法RCS替换法、RCS压缩法和RCS检索法。本发明包含了约五万个中文和英文对照的不同领域的常用句子(或子句),通过RCS替换法可以派生出数百倍的中文和英文对照的句子;RCS压缩法不仅将所有数据压缩在4兆字节,而且实现了快速语句翻译;RCS检索法允许语句查找时只输入句中的关键词,结果是按使用频度排序的中英对照的多个句子,并且可以给出句子的语法结构和使用特征。本发明可以翻译(中英或英中)几乎所有常用句子,正确率为100%,它可应用于英文学习、机器翻译等领域,特别适用于应用在手机等存储空间较小的移动电子设备中。
文档编号G06F17/28GK101261625SQ20081008968
公开日2008年9月10日 申请日期2008年4月14日 优先权日2008年4月14日
发明者杨耀武, 蒋贤春, 蓝德康, 珑 郑 申请人:北京中易中标电子信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1