一种基于有机物命名实体的机器翻译方法及翻译系统与流程

文档序号:11202220阅读:来源:国知局
一种基于有机物命名实体的机器翻译方法及翻译系统与流程

技术特征:
1.一种基于有机物命名实体识别的机器翻译方法,包括:A步骤:对翻译文本全文进行分句、句法和词法分析,获得初始分词和词性标注信息,如果翻译文本是专利文献,获取所述翻译文本的国际专利分类号;B步骤:以句为单位识别有机物命名实体,用NEOC标签标注识别出的有机物命名实体的起始位置,所述有机物命名实体是翻译文本中表示特定有机物名称的实体;C步骤:在识别出的有机物命名实体的基础上重新分词并进行词性标注,对识别出的有机物命名实体词性标注为NP;D步骤:翻译由NEOC标签标注起始位置的有机物命名实体,并在有机物命名实体译文库中保存所述的有机物命名实体及对应的翻译结果;E步骤:对翻译文本全文以句为单位进行翻译,句法分析中,对于由NEOC标签标注起始位置的有机物命名实体不再分析,译文从有机物命名实体译文库中选取。2.根据权利要求1所述的方法,所述B步骤包括:B01步骤:使用国际专利号+模板法、触发词法或词频法或其任意组合获取候选名称种子;B02步骤:记录种子在文献中的位置,如果有两个种子处在相邻位置则将两个种子合并为一个候选名称种子,并标注CNS标签;B03步骤:删除与有机物不相关的词素;B04步骤:使用规则合并法或/和分类器标注法获得有机物命名实体。3.根据权利要求2所述的方法,其中,B01步骤中:国际专利号+模板法包括,如果翻译文本是专利文献,判断专利文献的国际专利分类号是否属于有机物相关分类号,如果是,则使用模板进行全文匹配,然后将匹配的短语设置为候选名称种子并在候选名称种子位置标注CNS标签;触发词法包括,预先在一定规模的专利文献库中人工标注有机物名称,统计标记的上述有机物名称的词素信息、数字、字母信息,作为提取候选名称种子的触发词,在待翻译文献中以句为单位,在句中搜索触发词,若匹配成功,则将匹配的词设置为候选名称种子,并在候选名称种子位置标注CNS标签;词频法包括,以初步分词后的词为单位进行n-gram模型组合,并过滤预先建立的停用词表中的停用词,选取字符串频率大于5且字符串中有2个或2个以上分词结果为单字词的词素的字符串为候选名称种子,并在候选名称种子位置标注CNS标签。4.根据权利要求3所述的方法,其中,所述词频法中仅统计字符串长度大于3的字符串的频率。5.根据权利要求2所述的方法,其中,B03步骤中,所述删除与有机物不相干的词素的方法包括:使用预先建立的普通词词表排除非有机物名称的词,或者通过无机物...
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1