一种基于智能匹配的机器翻译装置及其方法

文档序号:6374654阅读:219来源:国知局
专利名称:一种基于智能匹配的机器翻译装置及其方法
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种基于智能匹配的机器翻译装置及其方法。
背景技术
随着技术、经济全球化趋势,克服语言障碍以利国际交流日趋迫切。具体说,一方面令用户直接阅读和理解非母语资料;另ー方面,辅助翻译人员更准确、省力和高效地完成笔头翻译工作。机器翻译技术被寄予厚望,其主要包括语料库(句库/词库)建设和句子翻译两个部分。显然,人工建语料库成本高而效率低。目前,机器建句库时,平行语料比对区域的划分比较机械和繁琐,例如需反复划分比对区域,此外因两种语言句子不一一对应而出现遗漏匹配句并造成语料资源浪费、效率和准确度较低的问题;机器建词库时,对ー词多译情况(即同义词问题)不能很好处理;机器翻译主要分规则机器翻译和统计机器翻译,前者繁琐且耗时费力,后者因统计建模过程中完全依赖于对平行语料的概率统计,翻译效果欠佳;模板机器翻译的模板构造是以具体词作基础,使用的灵便性和通配性不够好,且只能解决ー些常用固定句型;此外,动词固定搭配这一翻译难点,目前机器翻译尚未很好解決。通过对机器翻译装置及其方法的现有技术的检索,发现在中国发明专利公开号为CN 101271452A中公开了ー种生成译文和机器翻译的方法及其装置,该专利文献(下文中称为Dl)具有以下特征①对待翻译句进行片段分割在例句库中查找与所述每个片段对应的ー个或多个译文片段;③根据多个特征函数计算片段组合综合得分得出最优片段组合;(多个特征函数指基于双语例句的机器翻译系统的译文生成模型中包含的多种翻译知识(在模型中翻译知识被称为特征函数,例如待翻译句和例句之间的相似度,例句可信度,译文流利度)。然而该专利文献(Dl)存在以下缺点(I)根据特征函数在句库中寻找最优片段组合,而所述特征函数指基于双语例句的机器翻译系统的译文生成模型中包含的多种翻译知识,例如待翻译句和例句之间的相似度,例句可信度,译文流利度。所述“翻译知识”多是基于统计和概率得出,而非从语言特点(尤其是中文)出发,因此准确性不够;(2)D1的译文生成是基于句库中与待翻译句相对应的片段最优组合,所述“片段最优组合”是基于特征函数(翻译知识),而特征函数多是基于统计和概率得出,有较大不确定性,并因此导致ー些片段翻译的不确定,造成词汇翻译前后不一致。同时在另ー篇中国发明专利公开号为CN 10174137A中公开了ー种评价、选择例句对,构建通用句库,机器翻译的方法及装置,该专利文献(下文中称为D2)具有以下特点①根据给定例句对的第一语种例句在双语语料库中的覆盖率和/或给定例句对的第一语种和第二语种例句之间的一致性,计算所述给定例句对的得分来构建通用例句库,即例句对的筛选;②机器翻译方法,从所构建的通用例句库中查找第一语种与待翻译句子相似的例句,为两者第一语种区分部分准备相应译文,然后结合两者相似部分和区别部分的译文组合生成參考译文。然而该专利文献(D2)存在以下缺点D2从所构建的通用例句库中查找第一语种与待翻译句子相似的例句,为两者第一语种区分部分准备相应译文,然后结合两者相似部分和区别部分的译文组合生成參考译文。所述句子第一语种相似部分和区别部分限于文字本身意思的层面,而对语言特点(如构成句子的关键要素)较为忽略,准确性不够。

发明内容
为克服现有技术的上述缺陷,本发明设计了ー种基于智能匹配的机器翻译装置及其方法。该技术主要是基于句子构架匹配和智能组句的汉英机器翻译技木。相对于D1、D2而言,本发明具有以下优点首先,本申请从语言特点出发,根据短语节点组成的短语框架及其构成规则以及中文核心动词识别规则(预先制定),在句子构架模板库寻找与待翻译句子构架(核心动词十短语框架)匹配的句子进行套译,若未找到匹配句,则按规则(预先制定)进行翻译;充分考虑了构成句子的关键要素即核心动词和短语,准确性较高。其次,本申请的译文生成基于句子构架模板库与待翻译句子构架(核心动词+短语框架)的匹配,或按基于句子构架的规则(预先制定)进行翻译,词语按预先建成的词库翻译,前后一致,准确性好。最后,本申请则通过计算例句对的第一语种与第二语种的匹配率构建句库,并在此基础上根据中文短语节点和短语框架构成规则(预先制定)以及英文核心动词特征生成句子 构架模板库,不仅质量较高、容量合理,而且更加科学和智能。根据本发明的ー个方面,提出了ー种智能匹配的机器翻译方法,该方法包括以下步骤:A步骤进行语料预处理步骤,对分领域语料进行词频统计并标注;B步骤进行句库建设步骤,利用分领域英译汉语料建设句库;C步骤进行词库建设步骤,根据所述语料预处理步骤和句库建设步骤,建设词库;D步骤进行机器翻译步骤,首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句;其中,如果待译中文句与某一构架模板相匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句,进行智能组句机器翻译。根据本发明的另一方面,提出了ー种智能匹配的机器翻译装置,其包括语料预处理模块,该模块对分领域语料进行词频统计并标注;句库建设模块,该模块利用分领域英译汉语料建设句库;词库建设模块,该模块根据所述语料预处理步骤和句库建设步骤,建设词库;机器翻译模块,该模块首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句;其中,该机器翻译模块如果确定待译中文句与某一构架模板相匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句,按进行智能组句机器翻译通过该技术本发明可以取得以下有益效果(I)采用段落对齐和“动态比对域”句对齐方法,在各段落同时进行英文逐句与“动态比对域”内的若干中文句比对,句库生成效率高,比对精准性好,方法简单,解决了现有句库生成方法繁复、精确性低、语料浪费及效率和效果之间的矛盾。(2)通过词语语法标识(主要是动词标识)、中文句核心动词识别规则以及短语节点构成的短语框架及其翻译规则,自动生成句子构架模板库,改基于词语概率的句子匹配为基于核心动词和短语框架的构架匹配,未匹配的待译句按一定规则(预先制定)智能组句,提高了句子匹配率及非匹配句翻译效果。


图I是根据本发明实施例的基于句子构架匹配和智能组句的机器翻译方法的实现流程图;图2A是根据本发明实施例的机器翻译方法中的语料预处理具体流程图;图2B是根据本发明实施例的机器翻译方法中的句库建设具体流程图;图2C是根据本发明实施例的机器翻译方法中的词库建设具体流程图;图2D是根据本发明实施例的机器翻译方法中的机器翻译具体流程图;
图3是根据本发明实施例的句对齐步骤的中文“动态可调比对域”示意图;图4是根据本发明实施例的机器翻译装置的内部结构示意图。如图所示,为了能明确实现本发明的实施例的结构,在图中标注了特定的结构和器件,但这仅为示意需要,并非意图将本发明限定在该特定结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。
具体实施例方式下面结合附图和具体实施例对本发明提供的ー种智能匹配的机器翻译装置及其方法进行详细描述。同时在这里做以说明的是,为了使实施例更加详尽,下面的实施例为最佳、优选实施例,对于ー些公知技术本领域技术人员也可采用其他替代方式而进行实施;而且附图部分仅是为了更具体的描述实施例,而并不g在对本发明进行具体的限定。如图I所示,图I提供了一种句子构架匹配和智能组句的汉英机器翻译方法总体技术方案实现流程图,该方法包括以下步骤首先进程行进至A步骤,在A步骤中进行语料预处理,对分领域语料进行词频统计并标注,针对具有细分类的语料(如专利文献)根据词频与分类的关系,对在某分类具有突出高频率的词汇加注相应分类标识。接着进程行进至B步骤,在B步骤进行句库建设,利用分领域(细分类)英译汉语料建设句库。接着进程行进至C步骤,在C步骤中进行词库建设,根据所述语料预处理步骤和句库建设步骤,利用英文词典中词性(动词)标注和英文谓语动词的特征,建立含同义词,动词、主语等语法标识和分类标识的词库。接着进程行进至D步骤进行机器翻译,在D步骤中主要包括以下步骤首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点(核心动词)的规则;利用所述句库、语法标识和短语框架自动生成由核心动词(虚拟)和短语节点组成的句子构架模板库;寻找构架匹配句。如果待译中文句与某一构架模板相匹配,即中文核心动词(虚拟)和短语节点完全匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句进行智能组句机器翻译,即,按〈主语+核心动词+短语 > 格式及所述短语框架翻译规则进行翻译。接下来,通过參照图2A-图2D,来更加详细的描述本发明的汉英机器翻译方法的具体步骤的流程图。对需要翻译的文本首先进行语料预处理,具体流程图如图2A所示。在步骤AOl中,选取英译中分领域语料,本实施例选取专利领域语料。在步骤A02中,首先进行分领域的语料预处理(A0201),用词频统计单元对英文语料进行词频统计并做出词频标注(A0202),针对具有细分类的语料(如专利文献),对在某分类具有突出高频率的英文词后加注分类号作分类标识(A0203)。在这里需要说明的是词频统计单元为本领域的现有技术,既可以通过软件来实现,也可以采用专用的硬件来实现。本实施例语料具有国际分类,如电通信技术分类号为H04,根据所述对英文语料进行的词频统计,英文词delay在H04分类中比其它分类具有突出高的频率,故在delay后加注分类标识H04 ;句库建设步骤的具体流程图如图2B所示。 在步骤BOl中执行分句步骤,根据分句符分别将中、英文语料划分为多个语句,中、英文句号、逗号、分号和冒号(引号忽略)都作为各自语料的分句符,另外,中、英文中表示时间分隔的冒号和数字分隔的逗号,英文中的縮写和小数点不作为分句符处理;在步骤B02中执行分词步骤,将分好的每个语句根据词典划分为多个词段组合,对于中文语句,将会影响对齐效果的介词或助词,如“之,乎,者,也”等,从语句中隐去,对于英文语句,将会影响对齐效果的介词,如“to, of, for, from”等从语句中隐去;在步骤B03中执行段落与语句的对齐步骤,首先通过段落比对单元进行段落对齐,若中英文语料对应段落的首句和尾句相互匹配,执行段落对齐操作,否则放弃。再通过语句比对单元进行句对齐,找出相互匹配的中、英文句子,执行句对齐操作,具体地,以英文句为基准(一句英文句比对一句或多句中文句),利用词典逐句与中文语料的ー个区域的句子进行比对,该比对区域的句字数可在设定范围内动态调节(如I 一 10句),且新的比对区域总以前比对区域中最下方的比对成功的中文语句为中心(參见图3)。在这里需要说明的是段落比对单元、语句比对单元可以构成为同一単元,同时,该段落比对単元、语句比对单元对于本领域技术人员而言可以通过现有的技术手段来实现,既可以采用同一软件来执行,也可以采用同一专用的硬件来实现。其中,所述两种语句的相互匹配是通过计算匹配率来确定,在该优选实施例中,通过查词典将英文语句逐词翻译成中文(含同义词),再将英文语句的词与中文语句的词逐一比对,匹配成功的词语数乘以2后,除以两个语句的词语总个数,即为这两个语句的匹配率,当匹配率大于设定值时,这两个语句相互匹配并存入匹配链表,该匹配链表存储在机器翻译装置内部的存储器中。然而,需要说明的是,上述匹配率的计算仅用于说明的目的,而并不在于将本发明限定于此,对于本领域技术人员也可以采用其它的计算方式来确定匹配率。在对齐结束后形成的句库中,对齐的语句存储方式是,一条记录分为三个字段,分别为中文语句、英文语句和两语句的匹配率。最后将形成的句库存储在机器翻译装置内部的存储器中,该存储器可以为读/写存储器(ROM)或随机存取存储器(RAM),对于本领域技术人员也可以理解,该存储器也可以独立于该机器翻译装置而存在。词库建设步骤的具体流程图如图2C所示。如果句对齐,则在词库建设步骤中,进程先行进至步骤C01,在步骤COl中进行单词串抽取步骤,包括对在句对齐步骤中收集的对齐的中英文句对,利用自动对齐软件获取中英文句对中单词之间的对齐关系,再用短语抽取工具从单词级对齐好的语料中抽取短语并形成短语表,所述短语不是语言学上的短语,是连续的单词串; 在步骤C02中进行语法标识步骤,包括基于所述步骤B03和步骤COl,利用英文词典的词性(仅指动词)标注、英文谓语动词特征〈如动词形式是词尾s或es,be +过去分词 > 以及动词搭配特征〈如动词+距该动词最近介词 > 将英文句的相关动词加注“动词或核心动词标识”以及“动词搭配标识” < 动词标识+介词 > ;此外,对谓语动词前长度受限(如6个以下单词)的词语(串)加注“主语标识”,再将所述标识映射到与之相匹配的中文词语(串);在步骤C03中进行匹配词处理步骤,包括在所述分句、分词、句对齐和语法标识步骤基础上,将相互匹配的中、英文词语对中的中文词语用词典翻译成英文(一般有若干个英文同义词),所述同义词作为机器辅助翻译时的备选词,将这些同义词根据步骤AOl所述英文语料词频统计按照相应的词汇频率从高到低进行排序,同一中文词具有不同英文匹配词时,合并为ー组中、英文词语对,词库中英文词的排列顺序为英文匹配词一词频一同义词 —词频;如果句未对齐,则在词库建设步骤中,进程先行进至步骤C04,在步骤C04中进行非匹配词处理步骤,包括根据所述分句、分词和句对齐步骤,对未匹配成功的中文词用词典翻译成英文,一般为若干英文同义词,这些同义词根据步骤AOl所述英文语料词频统计按照相应的词汇频率从高到低进行排序,这些同义词与所述非匹配中文词形成中、英文词语对,最前英文词为首词,其余为备选词;在步骤C05中进行词库形成步骤,主要包括根据所述句对齐步骤、有关标识步骤以及匹配词、非匹配词处理步骤,将包含中文匹配词、英文匹配词和相关英文同义词的词语组合,以及包含非匹配中文词及其英文同义词的词语组合,连同所述词语的相关标识形成词库。机器翻译步骤的具体流程图如图2D所示在步骤DOl中,进行中文短语框架制作步骤,包括根据分领域中文语料,人工制作由节点(中文字或词)构成该领域通用中文短语框架;例1. <用于导管的 > 操纵机构具有〈限定水流量的 > 管状部件。2.每个泡囊〈由一层封闭物气密地封闭>。其中,〈用干…的>/く动词…的>/く由…动词 > 即为所述短语框架,节点“用干”和“由”等为具体型节点,“动词”为通配型节点;在步骤D02中,制定所述短语框架在待译中文句中的结成方法及翻译规则步骤,包括制定中文句中短语框架的结成方法及翻译规则;例如按短语节点顺次结成短语框架,两节点较近者优先结成,框架中包含其它框架(内框架)的为外框架,翻译时外框架优先;例I: ー种防护针装置,包括①〈具有②《从其前端伸出的》穿刺尖端的 > 针套管。(外框架①/内框架②,翻译顺序① > ②);A shield&bie needle device includes a needle cannula Cl) having apuncture tip ② extending from a forward end thereof.
例2:这可①〈通过②《在注射器运动吋》③《随其一起运动的》脱离元件的相互作用来实现〉。(外框架①,内框架②/③,翻译顺序为①> ②/③)mis may be achieved⑴by interaction between a moving component and adecoupling component that ② moves with the syringe ③ as it is advanced.在步骤D03中,进行句子构架模板库生成步骤,根据步骤C02所述核心动词标识以及D01/D02所述短语框架及其结成方法,并利用步骤B03所述句库生成核心动词(虚拟)和短语框架组成的中英文句子构架模板库;在步骤D04中待译中文句核心动词识别步骤,根据步骤C02所述动词或核心动词标识、主语标识,步骤DOl所述的中文短语框架,以及中文句子语法特性识别中文标准句(以句号划分)核心动词非开头动词一非短语中动词一非主语中动词一之前和之后均无 “的”一最先出现的带动词标识的词,所述“主语”包括带主语标识的词语(串)、之前帯“该”、“本”、“一种”等特征词、之后帯“装置”、“设备”、“器”等特征词以及末尾无“的”的词;例I :ー种防护针装置,包括套筒和针套管。其中,“ー种防护针装置”带主语“特征词”,即之前帯“ー种”、之后帯“装置”,除此,最先出现的动词“包括”为核心动词;例2 :形成材料层的线状体的缠绕在顶端部是紧密的。其中,动词(带动词标识)“形成”位于句子开头、动词“缠绕”之前帯“的”,除此,最先出现的动词“是”为该句的核心动词。在步骤D07中寻找与待译中文句相匹配的句子构架模板。在步骤D05中构架匹配的句子翻译步骤,包括根据所述中文核心动词识别步骤和短语框架结成方法,在句子构架模板库中找出与待译中文句构架完全匹配的中文句,即两中文句构架的支点(核心动词语法位置)及各短语框架完全匹配,则套用句子模板翻译;选词顺序针对具有细分类文献的机器或机助翻译,选词顺序是匹配词一分类标识一词频标识一同义词一分类标识一词频标识;在步骤D06中智能组句翻译步骤,包括根据步骤D05所述构架匹配句翻译步骤以及步骤D02所述短语框架的结成和翻译规则,对在句子构架模板库中未找到构架匹配句的待译中文句,按〈主语+核心动词+短语〉格式翻译,非核心动词均用非谓语形式,其中有被动特征(如被十动词)的用过去分词,其它用现在分词;选词顺序针对具有细分类文献的机器或机助翻译,选词顺序是匹配词一分类标识一词频标识一同义词一分类标识一词频标识。根据本发明实施例的机器翻译装置的内部结构示意图如图4所示,其中该机器翻译装置包括语料预处理模块,该模块对分领域语料进行词频统计并标注;句库建设模块,该模块利用分领域英译汉语料建设句库;词库建设模块,该模块根据所述语料预处理步骤和句库建设步骤,建设词库;机器翻译模块,该模块首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句;其中,该机器翻译模块如果确定待译中文句与某一构架模板相匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句,按进行智能组句机器翻译。该机器翻译装置中的上述模块,也分别根据它们的相应功能来执行上述方法中如图2A-图2D中的具体步骤,在这里不在赞述。此外,该机器翻译装置还包括存储器,该存储器用于存储上述方法中获得的最終句库;同时该机器翻译装置还包括所述段落比对单元以及所述语句比对单元。同时,对于本领域技术人员应当理解当段落比对单元、语句比对单元采用同一软件来执行时,也可以存储在存储器中。本发明涵盖任何在本发明的精髄和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。另外,为了避免对本发明的实质造成不必要的混淆,并没有详细说明众所周知的方法、过程、流程、元件和电路
坐寸ο
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。
权利要求
1.一种基于智能匹配的机器翻译方法,该方法包括以下步骤A步骤进行语料预处理,对分领域语料进行词频统计并标注;B步骤进行句库建设,利用分领域英译汉语料建设句库;C步骤进行词库建设,根据所述语料预处理和句库建设,建设词库;D步骤进行机器翻译,首先根据所述句库建设和词库建设,制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句;其中,如果待译中文句与某一构架模板相匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句,进行智能组句机器翻译。
2.根据权利要求I所述的方法,其中在所述A步骤的进行语料预处理步骤中,具体包括AOl步骤选取英译中分领域语料;A02步骤首先进行分领域的语料预处理(A0201),用词频统计单元对英文语料进行词频统计并做出词频标注(A0202),针对具有细分类的语料,对在某分类具有突出高频率的英文词后加注分类号作分类标识(A0203)。
3.根据权利要求2所述的方法,其中在所述B步骤的进行句库建设步骤中,具体包括以下步骤BOl步骤执行分句步骤;B02步骤执行分词步骤;B03步骤执行段落与语句的对齐步骤。
4.根据权利要求3所述的方法,其中在所述B03步骤的执行段落与语句的对齐步骤中,具体包括以下步骤首先通过段落比对单元进行段落对齐,若中英文语料对应段落的首句和尾句相互匹配,执行段落对齐操作,否则放弃;再通过语句比对单元进行句对齐,找出相互匹配的中、英文句子,执行句对齐操作。
5.根据权利要求4所述的方法,其中所述段落比对单元、所述语句比对单元可以构成为同一単元。
6.根据权利要求4所述的方法,其中对齐结束后形成的句库中,对齐的语句存储方式是,一条记录分为三个字段,分别为中文语句、英文语句和两语句的匹配率;最后将形成的句库存储在机器翻译装置内部的存储器中。
7.根据权利要求3所述的方法,其中在所述C步骤的进行词库建设步骤中,具体包括以下步骤如果句对齐,则在词库建设步骤中,进程先行进至步骤C01,在步骤COl中进行单词串抽取步骤;在步骤C02中进行语法标识步骤;在步骤C03中进行匹配词处理步骤;如果句未对齐,则在词库建设步骤中,进程先行进至步骤C04,在步骤C04中进行非匹配词处理步骤;在步骤C05中进行词库形成步骤。
8.根据权利要求7所述的方法,其中在所述D步骤的进行机器翻译步骤中,具体包括以下步骤在步骤DOl中,进行中文短语框架制作步骤;在步骤D02中,制定所述短语框架在待译中文句中的结成方法及翻译规则步骤;在步骤D03中,进行句子构架模板库生成步骤;在步骤D04中,进行待译中文句核心动词识别步骤;在步骤D07中,寻找与待译中文句相匹配的句子构架模板;在步骤D05中,构架匹配的句子翻译步骤;在步骤D06中,进行智能组句翻译步骤。
9.一种基于智能匹配的机器翻译装置,其包括语料预处理模块,该模块对分领域语料进行词频统计并标注;句库建设模块,该模块利用分领域英译汉语料建设句库;词库建设模块,该模块根据所述语料预处理步骤和句库建设步骤,建设词库;机器翻译模块,该模块首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句;其中,该机器翻译模块如果确定待译中文句与某一构架模板相匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句,进行智能组句机器翻译。
10.根据权利要求9所述的机器翻译装置,其特征在于该机器翻译装置还包括存储器,该存储器用于存储句库;同时该机器翻译装置还包括所述段落比对单元以及所述语句比对单元。
全文摘要
本发明设计了一种智能匹配的机器翻译装置及其方法,该方法包括以下步骤A步骤进行语料预处理步骤,对分领域语料进行词频统计并标注;B步骤进行句库建设步骤,利用分领域英译汉语料建设句库;C步骤进行词库建设步骤,根据所述语料预处理步骤和句库建设步骤,建设词库;D步骤进行机器翻译步骤,首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句。
文档编号G06F17/28GK102831109SQ201210281280
公开日2012年12月19日 申请日期2012年8月8日 优先权日2012年8月8日
发明者俞莲 申请人:中国专利信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1