一种基于有机物命名实体的机器翻译方法及翻译系统与流程

文档序号:11202220阅读:779来源:国知局
一种基于有机物命名实体的机器翻译方法及翻译系统与流程
本发明涉及机器翻译技术,尤其涉及基于有机物命名实体的机器翻译方法及翻译系统。

背景技术:
机器翻译是使用计算机实现从一种自然语言文本到另一种自然语言文本的翻译。对于日常生活方面的文本来说,机器翻译的准确率较高,但对于专业的领域的翻译来说,比如在有机物相关的翻译中,翻译的准确率还不高。例如,“本发明涉及一种3-甲基-3-乙基戊烷的制备方法。”这句,现有的机器翻译会翻译成“Thisinvention3-methylinvolvesonekindof-3-ethylpentanethepreparationmethod.”,但正确的译文应该是“Theinventionrelatestopreparationof3-ethyl-3-methylpentane.”,可见,对于专业领域的翻译来说,传统的机器翻译的准确率很低。另外,对于复杂的特定短语,在句法分析的时候,会由于上下语境的不同而产生不同的短语分词结果,这会造成同一篇文本中译文前后不一致,也会降低翻译的准确性。公开号为CN103116578A的专利申请,公开一种融合句法树和统计机器翻译技术的机器翻译方法与装置,该方法首先建立不同语种语言之间的词典库、语法规则库、短语翻译概率表以及目标语语言模型,然后对原文输入句子进行切分、词性消兼和语法分析,生成句法树,然后采用自顶向下的策略遍历该句法树,对单个节点和部分跨句法的连续节点,取其叶节点的原文与统计机器翻译所训练出的短语翻译概率表进行智能匹配,利用短语有机物命名实体译文库的译文和目标语言的语言模型来达到提高输出译文流利度和准确度的目的。此方法对短语的提取不是基于全文的,因此会存在同样的短语翻译不一致以及多次分析、翻译的情况。因此,在针对有机物相关的文本的翻译中,有机物的翻译准确性低、一致性低。同时,同一有机物被多次地分析、翻译,耗时费力。

技术实现要素:
为了克服现有技术的上述缺陷,本发明提出一种基于有机物命名实体的机器翻译方法和系统。根据本发明的一个方面,提出了一种机器翻译方法,该方法包括以下步骤:A步骤:对翻译文本全文进行分句、初始分词和词性标注,如果翻译文本是专利文献,获取所述翻译文本的国际专利分类号;B步骤:以句为单位识别有机物命名实体,用NEOC标签标注识别出的有机物命名实体的起始位置,所述有机物命名实体是翻译文本中表示特定有机物名称的实体;C步骤:在识别出的有机物命名实体的基础上重新分词并进行词性标注,对识别出的有机物命名实体词性标注为NP;D步骤:翻译由NEOC标签标注起始位置的有机物命名实体,并在有机物命名实体译文库中保存所述的有机物命名实体及对应的翻译结果;E步骤:对翻译文本全文以句为单位进行翻译,句法分析中,对于由NEOC标签标注起始位置的有机物命名实体不再分析,译文从有机物命名实体译文库中选取。根据本发明的另一方面,提供了一种机器翻译系统,包括:输入、预处理模块,用于接收并分析待翻译文本,进行分句、初始分词和词性标注,判断翻译文本是否为专利文献,如果是则获取所述翻译文本的国际专利分类号;识别模块,用于以句为单位识别有机物命名实体,用NEOC标签标注识别出的有机物命名实体的起始位置;有机物命名实体翻译模块,该有机物命名实体翻译模块在识别出的有机物命名实体的基础上重新分词并进行词性标注,对识别出的有机物命名实体词性标注为NP,有机物命名实体翻译模块用于翻译由NEOC标签标注起始位置的有机物命名实体,并在有机物命名实体译文库中保存所述的有机物命名实体及对应的翻译结果;全文翻译模块,用于对翻译文本以句为单位进行翻译,句法分析中,对于由NEOC标签标注起始位置的有机物命名实体不再分析,译文从有机物命名实体译文库中选取;输出模块,用于根据识别和翻译的结果提供识别输出、翻译输出,识别输出是显示识别出的有机物命名实体名称,翻译输出是输出全文翻译的结果。本发明的方法提高了有机物命名实体的识别率,提高了出现有机物的语句的句法分析和翻译的准确性,同时,多次出现的有机物命名实体只进行一次翻译,也提高了系统的翻译速度。附图说明本发明的上述及其它方面和特征将从以下结合附图对实施例的说明清楚呈现,在附图中:图1是基于有机物命名实体的机器翻译方法流程图;图2是基于有机物命名实体的机器翻译系统的结构图;图3是合并过程示意图;图4是句法树示意图;图5是翻译过程示意图。具体实施方式下面结合附图和具体实施例对本发明提供的机器翻译方法和系统进行详细描述。图1提供了基于有机物命名实体的机器翻译方法流程图,该方法包括以下步骤:A步骤:对翻译文本全文进行分句、初始分词和词性标注,如果翻译文本是专利文献,获取所述翻译文本的国际专利分类号;B步骤:以句为单位识别有机物命名实体,用NEOC标签标注识别出的有机物命名实体的起始位置,所述有机物命名实体是翻译文本中表示特定有机物名称的实体;C步骤:在识别出的有机物命名实体的基础上重新分词并进行词性标注,对识别出的有机物命名实体词性标注为NP;D步骤:翻译由NEOC标签标注起始位置的有机物命名实体,并在有机物命名实体译文库中保存所述的有机物命名实体及对应的翻译结果;E步骤:对翻译文本全文以句为单位进行翻译,句法分析中,对于由NEOC标签标注起始位置的有机物命名实体不再分析,译文从有机物命名实体译文库中选取。在A步骤中,用常用分词工具对翻译文本进行分句、句法分析、词法分析,获得分词和词性标注信息。常见分词工具有ICTCLAS、CWS等,常见的词性标注方法为基于SVM、条件随机场、HMM的词性标注方法等。如果翻译文本是专利文献,则通过分析著录项目信息获取IPC分类号,比如通过分析XML标签或使用正则匹配等方式获取国际专利分类(IPC)号。在B步骤中,包括以下步骤:B01步骤:使用国际专利号+模板法、触发词法或词频法或其任意组合获取候选名称种子;B02步骤:记录种子在文献中的位置,如果有两个种子处在相邻位置则将两个种子合并为一个候选名称种子,并标注CNS标签;B03步骤:删除与有机物不相关的词素;B04步骤:使用规则合并法或/和分类器标注法获得有机物命名实体。候选名称种子是组成有机物命名实体名称的单个或多个词素。在B01步骤中,国际专利号+模板法包括如下步骤:如果翻译文本是专利文献,判断A步骤中获取的国际专利分类号是否属于有机物相关分类号,如果A步骤中获取的国际专利分类号属于有机物相关分类号,则使用模板进行全文匹配。然后,将匹配的短语设置为候选名称种子并在候选名称种子位置标注CNS标签。有机物相关分类是预先人工对IPC分类表中与有机物相关的分类进行整理收集而得到的。例如,模板为:[string:一种]+[string:UW]+[string:化合物]如果句中出现字符串的上下文为“一种”、“化合物”,则提取UW(unknownword)为候选名称种子。在提取出的候选名称种子位置标注CNS(chemicalnameseed)标签。在B01步骤中,触发词法包括如下步骤:预先在一定规模的专利文档库中人工标注有机物名称,标注规模优选标注5000篇以上专利文献,专利文献可以为各技术领域专利文献,优选有机物、化学等相关技术领域专利文献。统计上述标记的有机物名称的词素信息、数字、字母信息,作为提取候选名称种子的触发词。在分析时在待翻译文献中以句为单位,采用正向查找或逆向查找的方法,在句中搜索触发词,若匹配成功,则将匹配的词设置为候选名称种子并在该位置标注CNS标签。常见触发词举例如下:(1)化学常见词素【例】代、聚、缩、并、杂、亚、过、偏、次、酯、烯、醛...(2)数字结构【例】10-、-2-、-2,3-、...(3)中文数字【例】一、二、...(4)天干地支【例】甲、乙、丙、丁...(5)拉丁字母结构【例】a、b、c....(6)希腊字母结构【例】α、β...在B01步骤中,词频法的原理是,与发明点或主题有关的名称通常会在专利文献(翻译文本)中重复多次,因此可以通过统计全文中字符串的频率来寻找候选名称种子。统计字符串频率时以初步分词后的词为单位进行n-gram模型组合,并过滤预先建立的停用词表中的停用词,选取字符串频率大于5且字符串中有2个或2个以上分词结果为单字词的词素的字符串为候选名称种子,并在候选名称种子位置标注CNS标签。优选的,仅统计字符串长度大于3的字符串的频率。n-gram在计算语言学领域是指按文本的顺序排列的n个项,所述的项可以是语素、字母、词。当n=1时为一元模型,当n=2时为二元模型,依次类推。n-gram一般是从文本中获得。n-gram模型基于这样一种假设:第n个词的出现只与前面第n-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。在B02步骤中,记录种子在文档中的位置,如果有两个种子处在相邻位置则将两个种子合并。另外,种子在文档的位置还用于在以下步骤有机物实体识别过程中,如果识别的有机物实体出现位置重叠,则将两个有机物实体合并。在步骤B03中,对于在候选名称获取的过程中,需要删除可能误获取的与有机物不相关的词素,例如时间日期等。优选的,使用预先建立的普通词词表排除非有机物名称的词,例如机械、电子词典等;可以使用正则匹配等去除时间时期等数字形式的词;还可以通过无机物词表过滤无机物命名实体,例如:三氧化二铁。在步骤B04中,从已选出的候选名称种子标签CNS向上下文扩展,判明有机物命名实体名称的边界,从而完成有机物命名实体的识别,具体方法有:(1)规则合并法:规则合并法是利用规则对相邻的有机物命名实体词素进行合并最终得到完整有机物命名实体名称的过程。使用的规则可以为人工撰写的规则,也可以是利用机器学习预先从人工标注的有机物名称中学习而生成的规则。机器学习自动生成规则的方法可以为决策树方法、遗传算法、基于转换的错误驱动学习方法、SVM法、神经网络算法、线性判别方法、K-近邻算法等。以下以TBL(transformation-basedlearning)为例说明自动生成规则的方法,但本发明不限于这种方法。利用现有的TBL工具,以与上述人工标注有机物相同的未标注专利文本为训练语料,使用TBL工具进行初始标注,使用人工标注的结果作为参照语料,规则学习器使用规则模板学习合并规则,规则选择器根据评价标准对规则进行排名和选择,训练直到合并操作正确率不再提高。规则选择器根据统计信息对规则进行选择,具体方式为计算合并的二者之间的共现(cooccurence)、互信息MI、VMI(variantofmutualinformation)等统计值。具体公式为:Co-occurrence(L,R)=f(L,R)VMI(L,R)=f(L,R)MI(L,R)训练结束后所有规则根据上述计算的统计信息值进行排序存储。经过一次或以上规则合并后组成的字串临时标注为C...
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1