双语平行语料同义词匹配方法、装置、设备和介质与流程

文档序号:36630754发布日期:2024-01-06 23:20阅读:26来源:国知局
双语平行语料同义词匹配方法、装置、设备和介质与流程

本技术涉及语义匹配领域,例如涉及双语平行语料同义词匹配方法、装置、设备和介质。


背景技术:

1、同义词及同义短语在自然语言处理领域占据重要位置,可用于信息检索、人机对话、情感分析等诸多场景。目前高质量的同义词依然来自于人工整理的同义词典,而借助于分布式表征方法或者基于人工特征的统计方法所获得的同义词经常出现语义漂移或者语义不准确的问题。另外,目前的技术主要围绕同义词提取这个场景,对于同义短语提取涉及较少。语义漂移指的是两种语言的词和短语翻译经常出现多对多的关系,例如:“like”与“喜爱”、“喜欢”、“似乎”等互为翻译;“似乎”与“appear”互为翻译;“appear”与“出现”互为翻译,虽然“喜爱”与“喜欢”互为同义词,但是他们与“似乎”以及“出现”并不是同义词,“like”与“appear”也不属于同义词,这种现象即语义漂移问题。语义不准确指的是上下文相似的词,其语义也相似;这即造成一定程度的语义不准确现象,比如“喜爱”和“讨厌”的上下文用词常常比较相似,但是他们不是同义词,而是反义词。


技术实现思路

1、本技术目的在于:提供双语平行语料同义词匹配方法、装置、设备和介质,其结合词对齐神经网络和分布式表征语义相似度来提取同义词和同义短语,能够解决语义漂移及语义不准确的问题。

2、为达到上述目的,本技术提供了双语平行语料同义词匹配方法,包括:

3、获取目标语料和源语料;其中,所述目标语料和所述源语料为不同语种;

4、使用词对齐神经网络获取所述目标语料到所述源语料的正向词对齐关系,使用词对齐神经网络获取所述源语料到所述目标语料的反向词对齐关系;

5、根据所述正向词对齐关系和所述反向词对齐关系得到融合词对齐关系;根据所述融合词对齐关系提取短语对齐关系;

6、根据所述融合词对齐关系和所述短语对齐关系,使用分布式表征相似度构建双语无向图;

7、根据所述双语无向图获取同义词匹配结果和同义短语匹配结果。

8、所述使用词对齐神经网络获取所述目标语料到所述源语料的正向词对齐关系,包括:

9、通过所述词对齐神经网络对第t个源语料词向量进行n次源语料处理,每一次所述源语料处理为通过所述词对齐神经网络的自注意力层根据当前输入得到自注意力层输出;其中,所述当前输入为所述第t个源语料词向量或上一次所述词对齐神经网络的前馈层输出;

10、通过所述词对齐神经网络的编解码注意力层根据所述自注意力层输出和表征矩阵得到编解码注意力权重;其中,所述表征矩阵由所述源语料经过编码得到;

11、通过所述前馈层根据所述编解码注意力权重得到第t个目标语料词向量;

12、从所述第t个源语料词向量的第n次源语料处理的所述编解码注意力权重中筛选出最大注意力权重,将所述最大注意力权重作为第t-1个目标语料词向量与第s个源语料词向量的正向词对齐关系。

13、所述使用词对齐神经网络获取所述源语料到所述目标语料的反向词对齐关系,包括:

14、通过所述词对齐神经网络对第s个目标语料词向量进行n次目标语料处理,每一次所述目标语料处理为通过所述词对齐神经网络的自注意力层根据当前输入得到自注意力层输出;其中,所述当前输入为所述第s个目标语料词向量或上一次所述词对齐神经网络的前馈层输出;

15、通过所述词对齐神经网络的编解码注意力层根据所述自注意力层输出和表征矩阵得到编解码注意力权重;其中,所述表征矩阵由所述目标语料经过编码得到;

16、通过所述前馈层根据所述编解码注意力权重得到第s个源语料词向量;

17、从所述第s个目标语料词向量的第n次源语料处理的所述编解码注意力权重中筛选出最大注意力权重,将所述最大注意力权重作为第s-1个源语料词向量与第t个源语料词向量的反向词对齐关系。

18、所述根据所述正向词对齐关系和所述反向词对齐关系得到融合词对齐关系,包括:

19、根据所述正向词对齐关系和所述反向词对齐关系,使用grow-diag-final启发式策略进行双向词对齐,得到融合词对齐关系。

20、所述根据所述融合词对齐关系和所述短语对齐关系,使用分布式表征相似度构建双语无向图,包括:

21、度量所述融合词对齐关系的词分布式表征相似度;

22、度量所述短语对齐关系的短语分布式表征相似度;

23、根据所述词分布式表征相似度和所述短语分布式表征相似度构建所述双语无向图。

24、所述根据所述词分布式表征相似度和所述短语分布式表征相似度构建所述双语无向图,包括:

25、依次选取所述融合词对齐关系或短语对齐关系(yt,xs);

26、判断yt与xs是否都在某个子图节点中,若是,则取yt对应的第一子图节点和xs对应的第二子图节点;

27、计算所述第一子图节点和所述第二子图节点之间的分布式表征相似度;

28、取分布式表征相似度中的最小值作为子图相似度,若所述子图相似度大于相似度阈值,则建立yt与xs的无向边,得到所述双语无向图;若所述子图相似度小于或等于相似度阈值,则建立xs对应的新第一子图节点,建立yt对应的新第二子图节点,在所述新第一子图节点和所述新第二子图节点之间建立无向边。

29、进一步地,所述判断yt与xs是否都在某个子图节点中之后,还包括:

30、若否,则判断yt是否不在任意子图节点且xs不在任意子图节点;

31、若yt不在任意子图节点且xs不在任意子图节点,则建立yt对应的所述第一子图节点,建立xs对应的所述第二子图节点,根据所述第一子图节点和所述第二子图节点建立所述无向边;

32、若yt在所述第一子图节点或xs在所述第二子图节点,则计算xs与yt对应的所有所述子图节点的词向量或短语向量的相似度,得到所述子图相似度;

33、判断所述子图相似度是否大于相似度阈值;

34、若所述子图相似度大于所述相似度阈值,则建立与xs对应的所述第二子图节点,建立xs对应的所述第二子图节点与yt对应的所述第一子图节点之间的所述无向边;

35、若所述子图相似度小于或等于所述相似度阈值,则建立yt对应的所述新第一子图节点和xs对应的所述新第二子图节点,建立所述新第一子图节点和所述新第二子图节点之间的无向边。

36、所述根据所述双语无向图获取同义词匹配结果和同义短语匹配结果,包括:

37、提取所述双语无向图的无向子图;

38、提取所述无向子图的所有无向子图节点;

39、根据所述无向子图节点得到所述同义词匹配结果或所述同义短语匹配结果。

40、本技术还提供了双语平行语料同义词匹配装置,包括:

41、语料获取模块,用于获取目标语料和源语料;其中,所述目标语料和所述源语料为不同语种;

42、正向词对齐关系计算模块,用于使用词对齐神经网络获取所述源语料到所述目标语料的正向词对齐关系;

43、反向词对齐关系计算模块,用于使用词对齐神经网络获取所述目标语料到所述源语料的反向词对齐关系;

44、融合词对齐关系计算模块,用于根据所述正向词对齐关系和所述反向词对齐关系得到融合词对齐关系;

45、短语结果提取模块,用于根据所述融合词对齐关系提取短语对齐关系;

46、双语无向图构建模块,用于根据所述融合词对齐关系和所述短语对齐关系,使用分布式表征相似度构建双语无向图;

47、匹配结果获取模块,用于根据所述双语无向图获取同义词匹配结果和同义短语匹配结果。

48、本技术还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的双语平行语料同义词匹配方法和/或上述任一项所述的双语平行语料同义词匹配方法的步骤。

49、本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的双语平行语料同义词匹配方法和/或上述任一项所述的双语平行语料同义词匹配方法的步骤。

50、本技术的双语平行语料同义词匹配方法,获取目标语料和源语料,通过词对齐神经网络得到初步的正向词或反向词对齐关系。再将正向词对齐关系和反向词对齐关系进行融合,得到的融合词对齐关系更为准确。根据所述融合词对齐关系提取短语对齐关系。根据所述融合词对齐关系和所述短语对齐关系,使用分布式表征相似度构建双语无向图,从双语无向图中得到同义词或同义短语。分布式表征相似度结合词对齐神经网络能够保证具有对齐关系的词向量和短语向量具有较高的相似度,从而解决语义漂移及语义不准确的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1