句子相似度计算方法及装置的制造方法_2

文档序号:9432535阅读:来源:国知局
y mother,组成谓语(VB)的词语为has,组成宾语(OBJ)的词语为four legs。
[0040]S103:计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
[0041]需要说明的是,在计算第一余弦距离时,需要针对相同成分的词语进行计算,以上述两个句子为例,则计算两个句子的组成主语的词语对应向量之间的第一余弦距离,组成谓语的词语对应向量之间的第一余弦距离,以及组成宾语的词语对应向量之间的第一余弦距离。
[0042]S104:根据所述第一余弦距离确定所述两个句子之间的相似度。
[0043]在具体实现中,获得各第一余弦距离后,即可确定所述两个句子之间的相似度,但为了进一步提高相似度的正确性,本实施方式中,将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度,当然,在计算第二余弦距离时,还可采用其他方式,例如,不考虑加权,直接进行平均计算,本实施方式对此不加以限制。
[0044]可理解的是,所述第二余弦距离即可衡量两个句子之间的近似程度,第二余弦距离越小,则代表两个句子之间近似程度越小;第二余弦距离越大,则代表两个句子之间近似程度越大。
[0045]本实施方式通过对句子进行句法分析,从结构方面把握句子的语义,从而更加准确地计算句子之间的近似度,另外,采用了基于神经网络模型的词向量来表示词语,从而更加准确计算词语之间的近似程度,而且摆脱了近义词字典的限制。
[0046]图3是本发明一种实施方式的句子相似度计算装置的结构框图;参照图3,所述装置包括:
[0047]向量获取单元301,用于获取各词语对应的向量;
[0048]句法分析单元302,用于对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
[0049]距离计算单元303,用于计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
[0050]相似度确定单元304,用于根据所述第一余弦距离确定所述两个句子之间的相似度。
[0051]可选地,所述向量获取单元,进一步用于对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。
[0052]可选地,所述向量获取单元,进一步用于对自然语言语料通过词向量工具采用三层神经网络模型进行训练。
[0053]可选地,所述句法分析单元,进一步用于对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。
[0054]可选地,所述相似度确定单元,进一步用于将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。
[0055]以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
【主权项】
1.一种句子相似度计算方法,其特征在于,所述方法包括: 获取各词语对应的向量; 对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语; 计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离; 根据所述第一余弦距离确定所述两个句子之间的相似度。2.如权利要求1所述的方法,其特征在于,所述获取各词语对应的向量,进一步包括: 对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。3.如权利要求2所述的方法,其特征在于,所述对自然语言语料通过词向量工具进行训练,进一步包括: 对自然语言语料通过词向量工具采用三层神经网络模型进行训练。4.如权利要求1?3中任一项所述的方法,其特征在于,所述对待比较的两个句子进行句法分析,以获得所述两个句子组成各成分的词语,进一步包括: 对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。5.如权利要求1?3中任一项所述的方法,其特征在于,所述根据所述第一余弦距离确定所述两个句子之间的相似度,进一步包括: 将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。6.一种句子相似度计算装置,其特征在于,所述装置包括: 向量获取单元,用于获取各词语对应的向量; 句法分析单元,用于对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语; 距离计算单元,用于计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离; 相似度确定单元,用于根据所述第一余弦距离确定所述两个句子之间的相似度。7.如权利要求6所述的装置,其特征在于,所述向量获取单元,进一步用于对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。8.如权利要求7所述的装置,其特征在于,所述向量获取单元,进一步用于对自然语言语料通过词向量工具采用三层神经网络模型进行训练。9.如权利要求6?8中任一项所述的装置,其特征在于,所述句法分析单元,进一步用于对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。10.如权利要求6?8中任一项所述的装置,其特征在于,所述相似度确定单元,进一步用于将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。
【专利摘要】本发明公开了一种句子相似度计算方法及装置,涉及自动批改技术领域,所述方法包括:获取各词语对应的向量;对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;根据所述第一余弦距离确定所述两个句子之间的相似度。本发明通过对句子进行句法分析,从结构方面把握句子的语义,从而更加准确地计算句子之间的近似度,另外,采用了基于神经网络模型的词向量来表示词语,从而更加准确计算词语之间的近似程度,而且摆脱了近义词字典的限制。
【IPC分类】G06F17/27
【公开号】CN105183714
【申请号】CN201510536882
【发明人】唐聪, 宋文略, 杨晓昊, 许轶, 肖迪
【申请人】北京时代焦点国际教育咨询有限责任公司
【公开日】2015年12月23日
【申请日】2015年8月27日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1