一种确定多义词词义的方法

文档序号:8258507阅读:196来源:国知局
一种确定多义词词义的方法
【技术领域】
[0001] 本发明属于翻译技术领域,尤其是一种确定多义词词义的方法。
【背景技术】
[0002] 由于大量的词汇都具有多义性,对于此类词汇的准确翻译,即便是具有扎实的语 言和专业基础的翻译人员也难免在翻译过程中出现疏漏。以往为提高此类词汇翻译的准确 率,需通过提高翻译人员的翻译水平和增加审校、质检来实现,不但提高了翻译门槛,降低 了翻译效率,而且依然无法完全杜绝该类词汇的翻译错译。

【发明内容】

[0003] 本发明的目的之一是提供一种确定多义词词义的方法,以解决现有技术中对于多 义词的翻译效率低的问题。
[0004] 在一些说明性实施例中,所述确定多义词词义的方法,包括:获取待判定词义的多 义词w的关联文本,并从所述关联文本中找出其具有的词汇w的特征词;以找出的所述特征 词在用于判定词义的决策树中,按照所述决策树的生成顺序依次进行判定;根据判定结果, 确定所述词汇w当前应采用的词义。
[0005] 与现有技术相比,本发明的说明性实施例包括以下优点:
[0006] 本发明提高了多义词在不同文体和语境下的翻译准确性,降低了多义词类文本翻 译的门槛,提升了翻译效率,大大节省了人力物力。
【附图说明】
[0007] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0008] 图1是按照本发明的说明性实施例的流程图;
[0009] 图2是按照本发明的说明性实施例的流程图;
[0010] 图3是按照本发明的说明性实施例的决策树示例图;
[0011] 图4是按照本发明的说明性实施例的决策树示例图;
[0012] 图5是按照本发明的说明性实施例的决策树示例图。
【具体实施方式】
[0013] 在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是, 本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详 细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
[0014] 如图1所示,公开了一种确定多义词词义的方法,包括:
[0015] S11、获取待判定词义的多义词w的关联文本,并从所述关联文本中找出其具有的 词汇w的特征词;
[0016]S12、以找出的所述特征词在用于判定词义的决策树中,按照所述决策树的生成顺 序依次进行判定;
[0017]S13、根据判定结果,确定所述词汇w当前应采用的词义。
[0018] 本发明提高了多义词在不同文体和语境下的翻译准确性,降低了多义词类文本翻 译的门槛,提升了翻译效率,大大节省了人力物力。
[0019] 在一些说明性实施例中,所述获取待判定词义的多义词w的关联文本,并从所述 关联文本中找出其具有的词汇w的特征词之前,还包括:从语料库中随机选取一定数量的、 包含词汇w的特定段落;对选取的所述特定段落进行至少一次数据筛选,筛选确定出所述 词汇w的所述特征词。
[0020] 其中,所述特定段落为词汇W在语料库中的所在句、所在的自然段或词汇w在语料 库中如后一定枢围的词汇集合。
[0021] 如图2所示,在一些说明性实施例中,所述对选取的所述特定段落进行至少一次 数据筛选,筛选确定出所述词汇w的所述特征词,具体包括:
[0022]S21、对选取的每个特定段落进行分词处理,去除其中的停用词,将剩余的词汇作 为候选关联词;
[0023] 具体包括:保留为名称、动词、形容词、副词、习语或缩略语的词汇。
[0024] 其中,通过对停用词的去除,降低了不相关词汇对特征词的选取的噪声影响,提高 了得到的特征词的可靠性和准确性。
[0025]S22、保留出现概率高于第一阈值的候选关联词作为关联词,并计算出每个所述关 联词与词汇w的每个词义的互信息;
[0026] 其中,通过去除词频低的词汇,可以有效的确定针对于词汇w的更加相关的词汇, 进一步提高了得到的特征词的可靠性和准确性。
[0027]S23、将得到的所述互信息高于第二阈值的关联词作为与该词义具有对应关系的 所述特征词。
[0028] 其中,互信息是计算语言学模型分析的常用方法,可以更有效的筛选出与词汇w 的词义更加相关联的词汇,确定特征词,大大提高了得到的特征词的可靠性和准确性。
[0029] 在一些说明性实施例中,所述计算出每个所述关联词与词汇w的每个词义为互信 息,具体包括:
[0030] 按照如下公式计算出第i个词义叫和第j个关联词w」的互信息I(mi,Wj):
[0031]
【主权项】
1. 一种确定多义词词义的方法,其特征在于,包括: 获取待判定词义的多义词W的关联文本,并从所述关联文本中找出其具有的词汇W的 特征词; 以找出的所述特征词在用于判定词义的决策树中,按照所述决策树的生成顺序依次进 行判定; 根据判定结果,确定所述词汇W当前应采用的词义。
2. 根据权利要求1所述的方法,其特征在于,所述获取待判定词义的多义词w的关联文 本,并从所述关联文本中找出其具有的词汇w的特征词之前,还包括: 从语料库中随机选取一定数量的、包含词汇w的特定段落; 对选取的所述特定段落进行至少一次数据筛选,筛选确定出所述词汇W的所述特征 。
3. 根据权利要求2所述的方法,其特征在于,所述对选取的所述特定段落进行至少一 次数据筛选,筛选确定出所述词汇w的所述特征词,具体包括: 对选取的每个特定段落进行分词处理,去除其中的停用词,将剩余的词汇作为候选关 联词; 保留出现概率高于第一阈值的候选关联词作为关联词,,并计算出每个所述关联词与 词汇w的每个词义的互信息; 将得到的所述互信息高于第二阈值的关联词作为该词义的所述特征词。
4. 根据权利要求3所述的方法,其特征在于,所述计算出每个所述关联词与词汇w的每 个词义为互信息,具体包括: 按照如下公式计算出第i个词义叫和第j个关联词wj的互信息I(mi,Wj):
其中,POiO为词汇w的第i个词义叫的先验概率,P(Wj)为第j个关联词%在所述选 取的所述特定段落中的出现概率,P(miWp为第i个词义%和第j个关联词同时出现的 概率;i为词汇w的词义序号,,j为关联词的序号。
5. 根据权利要求3所述的方法,其特征在于,在所述以找出的所述特征词在用于判定 词义的决策树中,按照所述决策树的生成顺序依次进行判定之前,还包括: 根据确定的所述特征词,利用ID3算法或C4. 5算法构建词汇w用于判定词义的决策 树。
6. 根据权利要求5所述的方法,其特征在于,所述利用ID3算法或C4. 5算法构建词汇 w用于判定词义的决策树的过程中,包括: 将每个词义的对应特征词作为所述决策树的判定结点上的特征项; 根据所述特征项的信息增益或信息增益比从大到小的顺序生成所述决策树; 其中,每个所述特征项对应有判定其取值结果的第三阈值。
7. 根据权利要求6所述的方法,其特征在于,所述根据判定结果,确定所述词汇w当前 应采用的词义,具体包括: 以所述关联文本中找出的特征词,在所述决策树上按该决策树的生成顺序依次进行判 定; 结果满足该决策树上叶子结点的判定,则将该决策树对应的词义作为所述词汇W当前 应采用的词义。
8. 根据权利要求3所述的方法,其特征在于,所述对选取的每个特定段落进行分词处 理,去除其中的停用词,将剩余的词汇作为候选关联词,具体包括: 保留为名称、动词、形容词、副词、习语或缩略语的词汇。
9. 根据权利要求2所述的方法,其特征在于,所述特定段落为词汇w在语料库中的所在 句、所在的自然段或词汇w在语料库中前后一定范围的词汇集合。
【专利摘要】一种确定多义词词义的方法,包括:获取待判定词义的多义词w的关联文本,并从所述关联文本中找出其具有的词汇w的特征词;;以找出的所述特征词在用于判定词义的决策树中,按照所述决策树的生成顺序依次进行判定;根据判定结果,确定所述词汇w当前应采用的词义。本发明提高了多义词在不同文体和语境下的翻译准确性,降低了多义词类文本翻译的门槛,提升了翻译效率,大大节省了人力物力。
【IPC分类】G06F17-28
【公开号】CN104572633
【申请号】CN201410821314
【发明人】江潮, 张芃
【申请人】语联网(武汉)信息技术有限公司
【公开日】2015年4月29日
【申请日】2014年12月25日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1