一种基于词向量的联想词生成方法及装置与流程

文档序号:19376226发布日期:2019-12-10 23:53阅读:602来源:国知局
一种基于词向量的联想词生成方法及装置与流程

本发明涉及计算机应用技术领域,尤其涉及一种基于词向量的联想词生成方法及装置。



背景技术:

人们记单词的时候,经常需要有更多辅助自己联想记忆的方法。其中把单词读音跟中文读音和语义进行关联的方法,目前应用于很多记忆方法之中。甚至很多培训机构都采用这种方法来辅助人们记住单词。例如:economy经济([ɪ'kɔnəmi]依靠农民)、pregnant怀孕(['preɡnənsi]

扑来个男的)、pest害虫([pest]拍死它)。很多单词的记忆可以依靠把一个读音制造成与其发音相似的另一个读音或相似的一句话,通过相似读音与相近语义来辅助人们更好的记忆。通过该方法生成的词可以称为该单词的联想词,也叫做该单词的空耳或谐音词。目前只有一小部分单词已经被人们设计了相关的辅助记忆的读音,例如上面已经列举的pregnant怀孕(['preɡnənsi]扑来个男的)等词,是人们设计好的。而如何对任意单词的空耳或谐音词进行自动生成或合成,目前还没有人提出比较好的方法。本发明可以对任意单词生成跟它的中文读音相近的谐音词。实现了英文的对于中文联想词生成的自动化。帮助人们更好的记忆单词。



技术实现要素:

本发明提供了一种基于词向量的联想词生成方法及装置,用于在记忆单词时生成该单词对应的中文的联想词。

本发明提供了一种基于词向量的联想词生成方法主要包括以下步骤:

获取要进行谐音生成的单词,其中,所述单词含有音标;

将所述音标分解为音节,其中,所述音节根据元音数量进行分解,并进行音节划分;

根据音节发音作为前缀,查询声母韵母组合表,获取包含所述音节发音的拼音,获取所述拼音所对应的中文汉字;

针对所述汉字,合成组合词,验证所述组合词,获得候选词;

获取所述候选词的词性,根据词性对侯选词进行优先挑选;

根据词向量技术,获取搭配候选词,根据词语之间的相似度,对搭配相似度进行排序;

获取英文单词中文解释及候选词之间的词语相似度,对搭配相似度进行重新排序,最终得到所述单词的联想词。

进一步可选地,如上所述的方法中,所述对音标分解为音节主要包括:

针对音标中的元音数量进行统计。根据一个元音两个元音还是多个元音,划分为单音节,双音节和多音节。

当两个元音之间只有一个辅音字母时,将这个辅字母划分在后面的音节里。

当两个元音之间有多个辅音字母时,将两个辅音字母分别划分在前后两个音节里。

进一步可选地,如上所述的方法中,所述根据音节的发音作为前缀,查询声母韵母组合表,获取包含所述音节发音的拼音,获取所述拼音所对应的中文汉字,主要包括:

将每个音节,对应到拼音中的相同发音,作为音节的发音前缀,在声母韵母组合表上进行搜索匹配;将匹配结果作为候选拼音。

其中,所述获取音节对应拼音对应的中文汉字,包括:通过所述发音前缀,对字典中存在所述发音前缀的字进行筛选匹配,把匹配到的字作为该元音的候选发音字。

进一步可选地,如上所述的方法中,所述针对所述汉字,合成组合词,验证所述组合词,获得候选词,主要包括:

根据所述候选发音字,进行前后的依次两两组合,获得组合词。若前后两字可以组合成为一个正确的中文词组,则获取该中文词组;

若前后两字无法组合成为一个正确的中文词组,则用拼音进行相似度计算获取词组。

进一步可选地,如上所述的方法中,所述用拼音进行相似度计算获取词组,主要包括:

计算所述组合词与词表的拼音的相似度,获取拼音最高相似度的n个词,作为该发音的词。组合过程中,有的音没有词可以搭配,可以跳过,自己组成单字词。

进一步可选地,如上所述的方法中,所述获取所述候选词的词性,根据词性对侯选词进行优先挑选,主要包括:

对词语进行词性标注,获取词的词性,挑选更实体形象的词。包括图形、物体、动作词,把名词、动词作为更优选的词语。

进一步可选地,如上所述的方法中,所述根据词向量技术,获取搭配候选词,词语之间的相似度,对搭配相似度进行排序,主要包括:

通过word2vec词向量技术,将各个候选词进行语义相似度计算。得到两两之间的语义关联度,对该关联度进行排序。

进一步可选地,如上所述的方法中,所述获取英文单词中文解释,与候选词之间的词语相似度,对搭配相似度进行重新排序,包括:

获取单词翻译,计算翻译词与该列表的语义相关度。对该列表进行重新排序,获取最相近语义的第一个词,作为该单词的联想词。

本发明提供了一种基于词向量的联想词生成装置,主要包括:

获取模块,用于获取要进行联想词生成的单词,根据该单词音标分解为音节;

第一生成模块,用于把音节发音作为前缀,查表获取该音节的拼音,获取拼音对应的中文汉字;

第二生成模块,用户根据所述汉字,合成组合词,验证组合词,获得候选词;

挑选模块,用于根据所述候选词的词性,根据词向量技术,及单词中文解释,计算与候选词之间的词语关联性,挑选出最合适的联想词;

本发明实施例提供的技术方案可以包括以下有益效果:

在人们记忆英语单词时,通过生成该单词对应的中文联想词,帮助记忆。该方法产生联想词精准有效,考虑到了语音搭配、翻译搭配、语音搭配等各个维度的关系,能够比人工去设计联想词更加高效,并且效果也很好。

附图说明

图1为本发明的联想词生成方法实施例的流程图;

图2为本发明的联想词生成装置实施例的结构图;

图3为本发明的声母韵母及声母韵母相互搭配的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的基于词向量的联想词生成方法实施例的流程图。如图1所示,本实施例基于词向量的联想词生成方法,具体可以包括如下步骤:

步骤101,获取单词,获取该单词音标。音标可以通过单词字典或相关软件,例如有有道词典等获取。对音标进行分解,分解为音节。

根据英文国际音标,总共元音20个,辅音28个。

根据有多少音节来确定该读音将由多少中文字组合而成。对单词音标进行分解为音节,主要是对音标中的元音数量进行统计。根据一个元音两个元音还是多个元音,划分为单音节,双音节和多音节。

依据英语发音惯例,当两个元音之间只有一个辅音字母时,将这个辅字母划分在后面的音节里。

当两个元音之间有多个辅音字母时,将两个辅音字母分别划分在前后两个音节里。

通过该方法,可以将一个单词的音标划分为不同的音节。例如:

economy[ɪ'kɒnəmi]

通过上面的规律,总共有四个元音。属于多音节词。根据前面的方法,该单词将会被分解为ɪ'、kɒ、nə、mi四个音节。可以理解,现有的人们已经构建的单词谐音‘依靠农民’也是由四个字组成的,可以看出,将单词分解为音节有利于最初步的构建出该单词构成汉字的字数。

步骤102,针对每个音节,确定其对应的拼音发音前缀。所述拼音发音前缀是指,包含有该音节的声母或韵母或者声母韵母相互搭配形成的发音。

要获得拼音发音前缀,可以将每个音节,对应的相同拼音发音,在声母韵母搭配表中进行搜索匹配,将匹配到的拼音作为所述音节的拼音发音前缀。

例如,在步骤101中,单词economy分解之后,第一个发音是i发音,通过搜索拼音的声母韵母表,以及声母韵母两两搭配表,该表如图3所示。可以搜索匹配到yi,它属于相同发音,然后还可以进一步匹配到di,ti,ni,li,bi,pi,mi等发音也携带着i音,因此di,ti,ni,li,bi,pi,mi都可以作为i发音的拼音发音前缀。声母韵母搭配图表,是学习拼音的工具,它可以在网上获取更加完整的版本。

步骤103,根据所述拼音发音前缀,对应到字典中,筛选匹配出存在所述拼音发音前缀的字。把该字作为该元音的候选发音字。例如根据前面的样例,economy中的发音i可以筛选出衣、义、已、依等字,kɒ音可以筛选出,口、靠、扩、看等字,它们都是包含有该元音的字。所述筛选或者查询的字典可以采用新华字典,也可以是通过网络接口调用电子版的中文字典查询系统。

步骤104,针对字组合成词,组合不了的,通过拼音相似度获得词语。主要步骤为,获取中文词表,中文常用词表可以采用现代汉语词典的电子版,通过网络接口进行调用。中文常用词的量大概20万词以上,几乎可以涵盖绝大部分的字。接着,再对该词表进行拼音转换;例如,词语农民转化为nongmin,依靠yikao,整部词典都可以转化为拼音。

对前面依次生成的所有的字,进行依次前后的两两组合。例如,经过前面的处理economy可以被转化为四个字的拼音相连,假如连起来的读音是这样:yikaonongmin,那么两两组会就是yikao、kaonong、nongmin,通过匹配词典中的拼音,可以发现,有两个词yikao、nongmin是可以被匹配上的,即它们可以组合为一个词;如果前后两字可以组合成为一个中文词组,则该词被获取,即这两个字的搭配,可以用该词语来转化为这两个字的谐音。

如果所有的字,都无法被组合为词。则对这些字转化为拼音。计算与词表拼音对相似度,获取拼音最高相似度的n个词,作为该发音的词。组合过程中,有的音没有词可以搭配,可以跳过,自己组成单字词。例如假设通过上面的方法,economy获取到的字的读音也可以是yikuangnuomi,这时yikuang是不存在这样的词语拼音跟它一样,无法匹配到词典中的词的,因此可以对这个拼音计算跟该拼音相似度最高的词,例如yikuan,它就能转化为‘一款’这样的词语了。这样的词也是有利于记忆的。

步骤105,获取词的词性,挑选更实体形象的词。因为图形或物体或动作,比虚词形容词等更容易被人们记忆,因此对词语进行词性标注,获取该词性,抽取名词、动词作为优选词语。

例如在多个字转化为词的这个过程中,每两个字都读音都可以组成很多不同的词,需要对这些词进行排序。那么获取名词、动词作为更优的词。例如pest转化为‘拍死’就比转化为‘帕斯’更好,因为拍死更容易被记忆,它属于动词,而且形象。因此将名词动词,排在更前面,供谐音词的筛选。

步骤106,根据字或词的词向量,获取词语搭配的语义关联度,实现最佳搭配。通过word2vec词向量技术,将各个候选词进行语义相似度计算。得到两两之间的语义关联度。对该关联度进行排序。例如,economy这个单词,经过前面步骤的转换后,可以得到‘依靠、农民’,‘一款、农民’,‘艺考、糯米’等,不同的组合词。这时,如果通过将这些词语通过转换为词向量,就能计算词语直接的连接相似度,根据语义之间的关联度,很容易就能得到‘依靠’‘农民’的这个搭配,更加能使两个词相互关联,而‘艺考’、‘糯米’这两个词的词向量离得很远,搭配起来就没有‘依靠农民’好,应该排在‘依靠农民’的后面。

步骤107,获取合成词与单词翻译的文本相似度。增进联想。

获取单词翻译,计算翻译词与该列表的语义相关度。对该列表进行重新排序。获取最相近语义的第一个词,作为该单词的联想词。

例如,单词economy翻译成‘经济’,那么跟它更加关联的词语,农民这个词,就比糯米这个词更经济的语义相关度近相关,因此‘农民’还是排在‘糯米’的前面。语义相关度,依然可以通过词向量技术或者同义词词林、知网词典等进行计算。

通过上述从音到字,再从字到词,再对词进行多次优选排序的方式,最终选择排名最靠前,排名最佳的词语,作为记忆该单词的联想词或者谐音词。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1