本发明涉及一种翻译方法,尤其是涉及一种基于人工智能知识图谱的一词多义翻译方法。
背景技术:
在翻译过程中,经常遇到一词多义,一词在不同专业背景下有不同翻译称谓和解读的情况,通常需要人工干预完成翻译,成为机器翻译质量保证的一个瓶颈,同时,因为人工干预译员水平不同,经常导致一词多义翻译失真不准确,无法保证翻译质量,带来损失。
目前国内外翻译软件平台通常采用调用多个行业术语库,把翻译匹配结果全部罗列出来供译员选择,或者根据译文使用频率调整翻译提示的顺序,都没有一个很好的解决,依赖人工干预,较多的翻译选项降低了翻译处理效率,也增加了信息干扰和数据冗余,使得翻译品质无法保障。
技术实现要素:
本发明主要解决的技术问题是提供一种基于人工智能知识图谱的一词多义翻译方法,能够大幅度提高一词多义翻译的准确性。
为解决上述技术问题,本发明采用的一个技术方案是:一种基于人工智能知识图谱的一词多义翻译方法,具体工作步骤包括:
1)对目标文本进行编码处理,统一为标准字符;
2)采用标点符号拆分方法对目标文本进行分句;
3)采用分词与词性标注工具对步骤2)分句后的目标文本进行分词与词性标注;
4)采用词汇依存与聚类分析工具在步骤3)所完成的分词与词性标注的基础上对具有特殊词性的词语进行依存与聚类分析;
5)在步骤4)的基础上引入权重指数,生成知识图谱并计算知识图谱权重值;
6)将步骤5)建立的知识图谱与一词多义的词汇所涉及的不同领域专业术语库进行图谱比对,确定最合适的翻译选项。
在本发明一个较佳实施例中,所述步骤1)中统一标准字符的标准号为gb2312—1980以及unicodeutf8,utf16字符编码标准。
在本发明一个较佳实施例中,所述步骤2)中标点符号拆分方法遵循国家标准(gb/t15834-2011)《标点符号用法》。
在本发明一个较佳实施例中,所述步骤3)中分词与词性标注工具为中科院自动化研究所模式识别国家重点实验室的urheen中文分词与词性标注系统。
在本发明一个较佳实施例中,所述步骤3)中分词标注标准采用美国宾州中文树库标记集合及解释。
在本发明一个较佳实施例中,所述步骤4)中采用中科院自动化研究所模式识别国家重点实验室的句法依存分析系统完成词汇的依存与聚类分析。
在本发明一个较佳实施例中,所述步骤5)中权重能够根据实际情况,设定不同的权重指数。
在本发明一个较佳实施例中,所述步骤5)中知识图谱的种类包括以待翻译的一词多义的词汇为标记点的知识图谱、本句关联术语的知识图谱、本段的知识图谱和全文的知识图谱。
在本发明一个较佳实施例中,所述步骤6)中将与所述步骤5)建立的知识图谱相比,图谱重合的权重值最高的领域专业术语库认定为最合适的翻译选项。
在本发明一个较佳实施例中,所述步骤6)中采用可视化的方法进行图谱比对,将知识图谱关联映射为标记、连线、点分布、不同颜色和面积,然后通过饼状图、柱状图、甘特图和雷达图的形式进行图谱吻合的直观显示。
本发明的有益效果是:本发明一种基于人工智能知识图谱的一词多义翻译方法,该方法摈弃以往基于术语文本的匹配,采用知识图谱的匹配,通过人工智能知识图谱技术,建立术语依存聚类的知识图谱,与不同行业术语库的知识图谱进行图谱权重比对,自动选择一词多义词语的准确翻译,大幅度提高一词多义翻译的准确性。
具体实施方式
下面对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
一种基于人工智能知识图谱的一词多义翻译方法,具体工作步骤包括:
1)对目标文本进行编码处理,统一为标准字符,统一标准字符的标准号为gb2312—1980以及unicodeutf8,utf16字符编码标准。
2)采用标点符号拆分方法对目标文本进行分句,标点符号拆分方法遵循国家标准(gb/t15834-2011)《标点符号用法》。
3)采用分词与词性标注工具对步骤2)分句后的目标文本进行分词与词性标注,分词与词性标注工具为中科院自动化研究所模式识别国家重点实验室的urheen中文分词与词性标注系统,分词标注标准采用美国宾州中文树库标记集合及解释,如表1所示。
表1美国宾州中文树库标记集合及解释
4)采用词汇依存与聚类分析工具在步骤3)所完成的分词与词性标注的基础上对具有特殊词性的词语进行依存与聚类分析,本实施例中,所述特殊词汇为nn(名词,单数或单数)、nns(名词复数)、nnp(专有名词,单数)和nnps(专有名词复数)。
采用中科院自动化研究所模式识别国家重点实验室的句法依存分析系统完成词汇的依存与聚类分析。
5)在步骤4)的基础上引入权重指数,生成知识图谱并计算知识图谱权重值,权重可以根据具体情况,设置不同的权重指数。
具体步骤包括:首先设定权重,
以待翻译的一词多义的词汇为标记点,本句nn、nns、nnp、nnps权重为1;
以待翻译的一词多义的词汇为圆心,前后一句nn、nns、nnp、nnps权重为0.8;
以待翻译的一词多义的词汇为圆心,前后两句nn、nns、nnp、nnps权重为0.6;
以待翻译的一词多义的词汇为圆心,前后三句nn、nns、nnp、nnps权重为0.4;
以待翻译的一词多义的词汇为圆心,前后四句nn、nns、nnp、nnps权重为0.3;
以待翻译的一词多义的词汇为圆心,前后五句nn、nns、nnp、nnps权重为0.2;
以待翻译的一词多义的词汇为圆心,前后六句nn、nns、nnp、nnps权重为0.1;
文中标题,章节标题的nn、nns、nnp、nnps权重为1;
文章第一段,最后一段的nn、nns、nnp、nnps权重为0.9;
然后以待翻译的一词多义的词汇为标记点,建立关联词汇nn、nns、nnp、nnps的权重知识图谱。
知识图谱的种类包括以待翻译的一词多义的词汇为标记点的知识图谱、本句关联术语的知识图谱、本段的知识图谱和全文的知识图谱。
6)将步骤5)建立的知识图谱与一词多义的词汇所涉及的不同领域专业术语库进行图谱比对,将与步骤5)建立的知识图谱相比,图谱重合的权重值最高的领域专业术语库认定为最合适的翻译选项。
采用可视化的方法进行图谱比对,将知识图谱关联映射为标记、连线、点分布、不同颜色和面积,然后通过饼状图、柱状图、甘特图和雷达图等不同形式进行图谱吻合的直观显示。
实施例1
一词多义dog-leg具有以下含义:
1.狗腿(动物)
2.狗腿子(俚语)
3.狗腿地形(高尔夫)
4.转折(股指)
5.塔式高层(建筑)
6.石油塔架(采油)
7.板材双向折弯(机械加工)
8.飞行转向(航空)
例句:
fournewlyacquiredacresallowedtheclubtostretchthepar-418thto495yards,uphillandblindofftheteebeforeitdoglegsdownhilltoagreen.thisisgenerallyastrangelayoutwithamixtureoftoughholes,easyholes,blindgreens,doglegsandevenathaifavoritepar6.maybethegolfcoachisrightaboutwantingtotoughenupsomeofthepar-4holeswithmorelengthanddoglegsandbunkering.theyhaveputsomenewbunkersontherightforteeshots,butthereisdangerofroughontheothersideifyougoforthedirectlineonthisleftdogleg.
标准译文:新获得的四英亩土地使俱乐部能够将18杆495码的标准杆场地拓展,上坡并在开球时将球从盲球处拉下来,然后将球从下坡转到果岭。这通常是一种奇特的布局,混合了硬洞,软洞,盲果岭,狗腿地形,甚至是泰国人喜欢的6杆。也许高尔夫教练的想法就是想锻炼不同洞孔长度和狗腿地形和沙坑。他们在发球区增加了一些新的沙坑,但是如果你在左边狗腿地形上打直线,则会有个严峻的险情。
待翻译句子为第三句“maybethegolfcoachisrightaboutwantingtotoughenupsomeofthepar-4holeswithmorelengthanddoglegsandbunkering.”
其中有一词多义的术语为dogleg。
第一步,对目标文本进行编码处理,统一为标准字符。
第二步,采用标点符号拆分方法对目标文本进行分句。
1.fournewlyacquiredacresallowedtheclubtostretchthepar-417thto495yards,uphillandblindofftheteemarkbeforeitdoglegsdownhilltoagreen.
2.thisisgenerallyastrangelayoutwithamixtureoftoughholes,easyholes,blindgreens,doglegsandevenathaifavoritepar6.
3.maybethegolfcoachisrightaboutwantingtotoughenupsomeofthepar-4holeswithmorelengthanddoglegsandbunkering.
4.theyhaveputsomenewbunkersontherightforteeshots,butthereisdangerofroughontheotherside,ifyougoforthedirectlineonthisleftdogleg.
第三步,采用分词与词性标注工具对步骤2)分句后的目标文本进行分词与词性标注。
four/nnnewly/nnacquired/nnacres/nnallowed/pthe/dtclub/nnto/pstretch/nnthe/dtpar/nn-/pu4/cd18/cdth/nnto/p495/cdyards/nn,/puuphill/nnand/ccblind/jjoff/nnthe/dtteemark/nnbefore/jjit/nndoglegs/nndownhill/nnto/pa/nngreen/nr./pu
this/nris/nngenerally/nna/nnstrange/nnlayout/nnwith/nna/nnmixture/nnof/ptough/nnholes/nn,/pueasy/nnholes/nn,/publind/jjgreens/nn,/pudoglegs/nnand/cceven/nra/nnthai/nrfavorite/nrpar/nn./pu
maybe/pthe/dtgolf/nncoach/nnis/nnright/nnabout/nnwanting/nrto/ptoughen/nrup/nnsome/nnof/pthe/dtpar/nn-/pu4/cdholes/nnwith/nnmore/nnlength/nnand/ccdoglegs/nnand/ccbunkering/jj./pu
第四步,采用词汇依存与聚类分析工具在步骤3)所完成的分词与词性标注的基础上对具有特殊词性的词语进行依存与聚类分析,提取关键词(nn、nns、nnp、nnps),进行语义依存聚类。
1.fournewlyacquiredacres
a)allowedtheclub
i.tostretchthepar-417thto495yards,
1.uphillandblindofftheteemark
2.beforeitdoglegsdownhill
3.toagreen.
2.strangelayout
a)withamixtureof
i.toughholes
ii.easyholes,
iii.blindgreens,
iv.doglegs
v.evenathaifavoritepar6.
3.thegolfcoach
a)isrightaboutwantingto
i.toughenupsomeof
1.thepar-4holes
2.morelength
3.doglegs
4.bunkering.
4.they
a)haveputsomenewbunkers
i.ontherightforteeshots,
1.butthereisdangerofroughontheotherside,
2.ifyougoforthedirectlineonthisleftdogleg.
第五步,在第四步的基础上引入权重指数,生成知识图谱并采用哈希算法计算知识图谱权重值。
具体步骤包括:首先设定权重,以待翻译的一词多义的词汇为标记点,本句nn、nns、nnp、nnps权重为1;
以待翻译的一词多义的词汇为圆心,前后一句nn、nns、nnp、nnps权重为0.8;
以待翻译的一词多义的词汇为圆心,前后两句nn、nns、nnp、nnps权重为0.6;
以待翻译的一词多义的词汇为圆心,前后三句nn、nns、nnp、nnps权重为0.4;
以待翻译的一词多义的词汇为圆心,前后四句nn、nns、nnp、nnps权重为0.3;
以待翻译的一词多义的词汇为圆心,前后五句nn、nns、nnp、nnps权重为0.2;
以待翻译的一词多义的词汇为圆心,前后六句nn、nns、nnp、nnps权重为0.1;
文中标题,章节标题的nn、nns、nnp、nnps权重为1;
文章第一段,最后一段的nn、nns、nnp、nnps权重为0.9;
权重可以根据具体情况,设置不同的权重参数。
1.fournewlyacquiredacres
a)allowedtheclub(俱乐部)
其中club(俱乐部)权重值0.6
i.tostretchthepar-418th(18杆)to495yards(码),
其中thepar-418th(18杆)权重值0.6和yards(码)权重值0.6,
1.uphillandblindoff(盲球点)theteemark(发球标记)
其中blindoff(盲球点)权重值0.6和teemark(发球标记)权重值0.6
2.beforeitdoglegsdownhill(下坡)
其中downhill(下坡)权重值0.6
3.toagreen(果岭).
其中green(果岭)权重值0.6
总分:0.6×7=4.2
2.strangelayout(布局)
其中green(果岭)权重值0.8
a)withamixtureof
i.toughholes,(硬洞)
其中toughholes,(硬洞)权重值0.8
ii.easyholes,(软洞)
其中easyholes,(软洞)权重值0.8
iii.blindgreens,(盲果岭)
其中blindgreens,(盲果岭)权重值0.8
iv.doglegs
v.evenathaifavoritepar6.(6杆)
其中par6.(6杆)权重值0.8
总分:5×0.8=4.0
3.thegolfcoach(高尔夫教练)
其中golfcoach(高尔夫教练)权重值1
a)isrightaboutwantingto
i.toughenupsomeof
1.thepar-4holes(4杆洞)
其中par-4holes(4杆洞)权重值1
2.morelength
3.doglegs
4.bunkering.(沙坑)
其中bunkering.(沙坑)权重值1
总分:3×0.1=3.0
4.they
a)haveputsomenewbunkers(沙坑)
其中bunkers(沙坑)权重值0.8
i.ontherightforteeshots,(发球点)
其中teeshots,(发球点)权重值0.8
1.butthereisdangerofroughontheotherside,
2.ifyougoforthedirectline(直线球)onthisleftdogleg.
其中directline(直线球)权重值0.8
总分:3×0.8=2.4
整个知识图谱权重值为4.2+4.0+3.0+2.4=13.6
第六步,将第五步建立的知识图谱与一词多义的词汇所涉及的不同领域专业术语库进行图谱比对,将图谱重合的权重值最高的领域专业术语库认定为最合适的翻译选项确定最合适的翻译选项。
备选术语库为下列
(动物)(俚语)(高尔夫)(股票)(建筑)(石油)(机械加工)(航空)
经过不同术语库图谱权重数值对比计算
(动物)0分,(俚语)0分,(高尔夫)13.6分,(股票)0分,(建筑)0分,(石油)0分,(机械加工)0分,(航空)0分。
该段话与高尔夫领域术语的图谱重合的权重值最高,一词多义的翻译选项为高尔夫球领域,翻译结果为狗腿地形。
maybethegolfcoachisrightaboutwantingtotoughenupsomeofthepar-4holeswithmorelengthanddoglegsandbunkering.
也许高尔夫教练的想法就是想锻炼不同标准杆,洞孔长度和狗腿地形和沙坑。
原文中与术语库中图谱吻合的术语用√标出来,如表2所示。
表2原文中与术语库中图谱吻合的术语标注表
与现有技术相比,本发明一种基于人工智能知识图谱的一词多义翻译方法,该方法摈弃以往基于术语文本的匹配,采用知识图谱的匹配,通过人工智能知识图谱技术,建立术语依存聚类的知识图谱,与不同行业术语库的知识图谱进行图谱权重比对,自动选择一词多义词语的准确翻译,大幅度提高一词多义翻译的准确性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。