句子相似度计算方法及装置的制造方法_3

文档序号:9375576阅读:来源:国知局
高。
[0085] 在准确度测试实验中,设定S頂(A,B)的匹配阈值是0. 7,即大于等于0. 7则认为两 个句子是整体相似的,小于〇. 7则认为是整体不相似的。对大量两个句子的组合运用本发 明的句子相似度计算方法计算,然后进行人工标注,发现本发明的准确度高达92%。
[0086] 图2是根据本发明实施例的句子相似度计算装置的主要部件的示意图。如图2所 示,该句子相似度计算装置20主要包括确定模块21、第一计算模块22和第二计算模块23。
[0087] 确定模块21用于针对第一句子和第二句子确定重复词、第一孤存词和第二孤存 词。其中,重复词既属于第一句子又属于第二句子,第一孤存词仅属于第一句子,第二孤存 词仅属于第二句子。
[0088] 第一计算模块22用于根据所有第一孤存词和所有第二孤存词,计算孤存词相似 度总贡献值G, &,其中,G,&多0,并且所有第一孤存词与所有第二孤存词之间的相似程度越 高,G, &数值越大。
[0089] 第二计算模块23用于根据公式
t算S頂(A,B),其中 SIM(A,B)表不第一句子和第二句子的句子相似度,A表不第一句子对应的第一句向量, S表示第二句子对应的第二句向量。
[0090] 可选地,第一计算模块22还用于:将所有第一孤存词在所有第二孤存词进行语义 匹配,以得到匹配孤存词对以及该匹配孤存词对的相似度贡献值G ;将所有的匹配孤存词 对的相似度贡献值G求和,得到孤存词相似度总贡献值G,&。
[0091] 可选地,第一计算模块22还用于将所有第一孤存词按照词权重降序排列 得到第一集合,依次针对第一集合中的各个元素进行以下处理:确定当前所有所述 第一孤存词和所有第二孤存词的并集集合中的词权重最大词X ;根据公式G(X)= max {WxXWYiX similarity (X,Yi) I Yi e 集合 U}计算 G(X),其中 G(X)表示针对词语 X 进行 语义配对得到的匹配孤存词对的相似度贡献值,所述集合U在所述X是第一孤存词的情况 下表示当前所有所述第二孤存词构成的集合,所述集合U在所述X是第二孤存词的情况下 表示当前所有所述第一孤存词构成的集合,Yi表示所述集合U中的元素,1 :!表示词语X的 词权重,Wyi表示词语Yi的词权重,similarity (X,Yi)表示X与Yi的词义相似度且取值范 围为[0,1];判断G (X)是否大于0,如果G(X) >0,则确认X和所述G (X)对应的Yi两个词 成功地匹配为孤存词对,记录该孤存词对相似度贡献度G = G (X),并且将该孤存词对从所 述并集集合中删除,如果G (X) = 0,将所述X从所述并集集合中删除;判断所述并集集合是 否为空集,如果否,重复执行以上处理。
[0092] 可选地,词权重可以采用词频-逆文档频率。
[0093] 由上可知,根据本发明实施例的句子相似度计算装置,考虑了重复词之外的孤存 词之间的语义相似性质对句子相似度的贡献,因此具有考虑全面周到,计算结果准确度高 的优点。
[0094] 上述【具体实施方式】,并不构成对本发明保护范围的限制。本领域技术人员应该明 白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何 在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围 之内。
【主权项】
1. 一种句子相似度计算方法,其特征在于,包括: 步骤S1 :针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其中,所述 重复词既属于所述第一句子又属于所述第二句子,所述第一孤存词仅属于所述第一句子, 所述第二孤存词仅属于所述第二句子; 步骤S2 :根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值,其 中,多0,并且所有所述第一孤存词与所有所述第二孤存词之间的相似程度越高,所述 数值越大; 步骤S3 :根据公式计算S頂(A,B),其中S頂(A,B)表示所述第 一句子和第二句子的句子相似度,_人::表不所述第一句子对应的第一句向量,g:表不所述第 二句子对应的第二句向量。2. 根据权利要求1所述的句子相似度计算方法,其特征在于,所述步骤S2包括: 步骤S21 :将所有所述第一孤存词在所有所述第二孤存词进行语义匹配,以得到匹配 孤存词对以及所述匹配孤存词对的相似度贡献值G; 步骤S22 :将所有的所述匹配孤存词对的相似度贡献值G求和,得到所述孤存词相似度 总贡献值G,&。3. 根据权利要求2所述的句子相似度计算方法,其特征在于,所述为步骤S21包括: 步骤S211 :确定当前所有所述第一孤存词和所有第二孤存词的并集集合中的词权重 最大词X; 步骤S212 :根据公式G(X) =max{ffxXWYiXsimilarity(X,Yi)|YiG集合U}计算G(X), 其中G(X)表示针对词语X进行语义配对得到的匹配孤存词对的相似度贡献值,所述集合U 在所述X是第一孤存词的情况下表示当前所有所述第二孤存词构成的集合,所述集合U在 所述X是第二孤存词的情况下表示当前所有所述第一孤存词构成的集合,Yi表示所述集合 U中的元素,胃)!表示词语X的词权重,WYi表示词语Yi的词权重,similarity(X,Yi)表示X 与Yi的词义相似度且取值范围为[0, 1]; 步骤S213 :判断G(X)是否大于0,如果G(X) > 0,则确认X和所述G(X)对应的Yi两 个词成功地匹配为孤存词对,记录该孤存词对相似度贡献度G=G(X),并且将该孤存词对 从所述并集集合中删除,如果G(X) = 0,将所述X从所述并集集合中删除; 步骤S214 :判断所述并集集合是否为空集,如果否,跳至步骤S211。4. 根据权利要求3所述的句子相似度计算方法,其特征在于,所述词权重采用词频-逆 文档频率。5. -种句子相似度计算装置,其特征在于,包括: 确定模块,用于针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其 中,所述重复词既属于所述第一句子又属于所述第二句子,所述第一孤存词仅属于所述第 一句子,所述第二孤存词仅属于所述第二句子; 第一计算模块,根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G,其中,0,并且所有所述第一孤存词与所有所述第二孤存词之间的相似程度越高,所 述G,&数值越大; 第二计算模块,用于根据公式_计算SIM(A,B),其中SIM(A,B)表 不所述第一句子和第二句子的句子相似度,iV表不所述第一句子对应的第一句向量,B表 示所述第二句子对应的第二句向量。6. 根据权利要求5所述的句子相似度计算装置,其特征在于,所述第一计算模块还用 于: 将所有所述第一孤存词在所有所述第二孤存词进行语义匹配,以得到匹配孤存词对以 及该匹配孤存词对的相似度贡献值G; 将所有的所述匹配孤存词对的相似度贡献值G求和,得到所述孤存词相似度总贡献值 G总。7. 根据权利要求5所述的句子相似度计算装置,其特征在于,所述第一计算模块还用 于: 确定当前所有所述第一孤存词和所有第二孤存词的并集集合中的词权重最大词X; 根据公式G(X) =max{ffxXWYiXsimilarity(X,Yi)|YiG集合U}计算G(X),其中G(X) 表示针对词语X进行语义配对得到的匹配孤存词对的相似度贡献值,所述集合U在所述X 是第一孤存词的情况下表示当前所有所述第二孤存词构成的集合,所述集合U在所述X是 第二孤存词的情况下表示当前所有所述第一孤存词构成的集合,Yi表示所述集合U中的元 素,胃)!表示词语X的词权重,WYi表示词语Yi的词权重,similarity(X,Yi)表示X与Yi的 词义相似度且取值范围为[〇, 1]; 判断G(X)是否大于0,如果G(X) > 0,则确认X和所述G(X)对应的Yi两个词成功地 匹配为孤存词对,记录该孤存词对相似度贡献度G=G(X),并且将该孤存词对从所述并集 集合中删除,如果G(X) = 0,将所述X从所述并集集合中删除; 判断所述并集集合是否为空集,如果否,重复执行以上处理。8. 根据权利要求5所述的句子相似度计算装置,其特征在于,所述词权重采用词频-逆 文档频率。
【专利摘要】本发明提供一种准确度高的句子相似度计算方法及装置。该句子相似度计算方法,包括:针对第一句子和第二句子确定重复词、第一孤存词和第二孤存词,其中,重复词既属于第一句子又属于第二句子,第一孤存词仅属于第一句子,第二孤存词仅属于第二句子;根据所有第一孤存词和所有第二孤存词,计算孤存词相似度总贡献值G总,其中,G总≥0,并且所有第一孤存词与所有第二孤存词之间的相似程度越高,G总数值越大;根据公式计算SIM(A,B),其中SIM(A,B)表示第一句子和第二句子的句子相似度,表示第一句子对应的第一句向量,表示第二句子对应的第二句向量。
【IPC分类】G06F17/27
【公开号】CN105095188
【申请号】CN201510502241
【发明人】刘佳
【申请人】北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
【公开日】2015年11月25日
【申请日】2015年8月14日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1