句子相似度计算方法及装置的制造方法

文档序号:9432535阅读:241来源:国知局
句子相似度计算方法及装置的制造方法
【技术领域】
[0001]本发明涉及自动批改技术领域,特别涉及一种句子相似度计算方法及装置。
【背景技术】
[0002]在英语作文自动批改中,有一项重要因素是计算作文的切题程度。现有的技术方法主要是通过作文各段的主旨句和作文的题目进行英文字符的匹配,出现相同英文字符的多少反映了主旨句和题目的近似程度的大小,从而反映了作文切题程度的大小。但统计相同英文字符不具有一般性,同一种语义可以用不同的词语来表达,因此现在更前沿的方法是建立近义词表,结合近义词表进行匹配。
[0003]但现有技术中,句子之间的匹配是把句子看作孤立词的单词来进行匹配的,没有考虑到句子结构,这导致对句子的语义的把握不准确。例如:英文句子“My mother has acat with four legs.”(句子 I)和“My mother has four legs.”(句子 2)。如果不考虑句子结构,从孤立的单词来比较,两个句子只差两个重要单词“with”和“cat”,但是从实际语义来看,两个句子相差很大,导致句子相似度准确率过低。

【发明内容】

[0004]为提高计算句子相似度的准确率,本发明提供了一种句子相似度计算方法,所述方法包括:
[0005]获取各词语对应的向量;
[0006]对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
[0007]计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
[0008]根据所述第一余弦距离确定所述两个句子之间的相似度。
[0009]其中,所述获取各词语对应的向量,进一步包括:
[0010]对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。
[0011]其中,所述对自然语言语料通过词向量工具进行训练,进一步包括:
[0012]对自然语言语料通过词向量工具采用三层神经网络模型进行训练。
[0013]其中,所述对待比较的两个句子进行句法分析,以获得所述两个句子组成各成分的词语,进一步包括:
[0014]对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。
[0015]其中,所述根据所述第一余弦距离确定所述两个句子之间的相似度,进一步包括:
[0016]将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。
[0017]本发明还公开了一种句子相似度计算装置,所述装置包括:
[0018]向量获取单元,用于获取各词语对应的向量;
[0019]句法分析单元,用于对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
[0020]距离计算单元,用于计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
[0021]相似度确定单元,用于根据所述第一余弦距离确定所述两个句子之间的相似度。
[0022]其中,所述向量获取单元,进一步用于对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。
[0023]其中,所述向量获取单元,进一步用于对自然语言语料通过词向量工具采用三层神经网络模型进行训练。
[0024]其中,所述句法分析单元,进一步用于对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。
[0025]其中,所述相似度确定单元,进一步用于将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。
[0026]本发明通过对句子进行句法分析,从结构方面把握句子的语义,从而更加准确地计算句子之间的近似度,另外,采用了基于神经网络模型的词向量来表示词语,从而更加准确计算词语之间的近似程度,而且摆脱了近义词字典的限制。
【附图说明】
[0027]图1是本发明一种实施方式的句子相似度计算方法的流程图;
[0028]图2是两个英语句子的句法树的结构示意图;
[0029]图3是本发明一种实施方式的句子相似度计算装置的结构框图。
【具体实施方式】
[0030]下面结合附图和实施例,对本发明的【具体实施方式】作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0031]图1是本发明一种实施方式的句子相似度计算方法的流程图;参照图1,所述方法包括:
[0032]SlOl:获取各词语对应的向量;
[0033]在现有技术中,近义词表的建立基本是靠字典进行手工整理,工作量大,而且存在覆盖面不广的问题,词语之间的近似程度也很难量化,为克服该问题,并快速获取各词语对应的向量,从而便于通过词语对应向量之间的余弦距离来反映词语之间的近似程度,本实施方式中,可对自然语言语料通过词向量工具(例如:w0rd2VeC等工具)进行训练,以获取各词语对应的向量。
[0034]在训练后训练之后,每个词语可以用一个向量来表示(通常为50维),两个词语之间的近似程度通过对应的向量之间的余弦距离来衡量。余弦距离越小,代表两个词语近似程度越小;余弦距离越大,代表两个词语近似程度越大。
[0035]为了保证词语对应的向量的准确性,所述词向量工具可采用三层神经网络模型进行训练,当然,还可采用其他模型进行训练,本实施方式对此不加以限制。
[0036]S102:对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
[0037]为便于比较这两个句子,可对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分(即主语、谓语、宾语、从句等成分)的词语,参照图 2,以英文句子 “My mother has a cat with four legs”(句子 I)和 “My motherhas four legs”(句子2)为例可知;
[0038]句子I中组成各成分的词语为:组成主语(SBJ)的词语为my mother,组成谓语(VB)的词语为has,组成宾语(OBJ)的词语为a cat,以及宾语补足语(NC)的词语为fourlegs ;
[0039]句子2中组成各成分的词语为:组成主语(SBJ)的词语为m
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1