一种跨领域文档相似度计算方法及装置的制造方法_4

文档序号:8412495阅读:来源:国知局
; 根据所述任意一个话题在所述检索文档中出现的概率、所述任意一个话题在任意一 个相应文档中出现的概率,以及所述任意一个话题针对所述检索文档所在领域与所述任意 一个相应文档所在领域匹配的权重,计算所述检索文档与所述任意一个相应文档间的相似 度。
7. 如权利要求6所述的所述,其特征在于,所述根据所述任意一个话题在所述检索文 档中出现的概率、所述任意一个话题在任意一个相应文档中出现的概率,以及所述任意一 个话题针对所述检索文档所在领域与所述任意一个相应文档所在领域匹配的权重,计算所 述检索文档与所述任意一个相应文档间的相似度之后,所述方法还包括: 将所述检索文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排 序; 在所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与所 述检索文档匹配的相应文档间的相似度; 将所述选取的相似度存储为与所述检索文档匹配的相应文档间的相似度列表; 根据所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档匹配 的相应文档的文档列表。
8. -种跨领域文档相似度计算装置,其特征在于,包括: 第一存储单元,用于存储不同领域的文档,以及存储不同领域的任意两个文档间的关 系;其中,所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的 匹配关系或未确定的匹配关系,所述确定的匹配关系包括已知的匹配关系或已知的非匹配 关系; 处理单元,用于将所述第一存储单元存储的所述不同领域的文档分别进行分词和去停 用词处理,得到所述不同领域的文档的词汇数据集; 构建单元,用于根据所述第一存储单元存储的所述不同领域的任意两个文档间的关系 构建所述不同领域的文档间的关联矩阵; 第一获得单元,用于根据所述处理单元得到的所述词汇数据集,获得所述不同领域的 文档的话题聚类; 第二获得单元,用于根据所述构建单元构建的所述关联矩阵和所述第一获得单元获得 的所述话题聚类,获得所述话题聚类中任意一个话题在任意一个文档中出现的概率,以及 所述任意一个话题针对任意两个不同领域匹配的权重; 第一计算单元,用于根据所述第二获得单元获得的所述话题聚类中任意一个话题在不 同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档所在 领域匹配的权重,计算所述任意两个文档间的相似度。
9. 如权利要求8所述的装置,其特征在于,所述处理单元包括: 处理子单元,用于将所述第一存储单元存储的所述不同领域的文档分别进行分词和去 停用词处理,分别得到所述不同领域文档对应的词汇数据包; 存储子单元,用于将所述处理子单元得到的所述词汇数据包存储在一起得到所述不同 领域的文档的词汇数据集。
10. 如权利要求8或9所述的装置,其特征在于,所述第一计算单元包括: 第一乘积子单元,用于将所述第二获得单元获得的所述话题聚类中任意一个话题在不 同领域的任意两个文档中出现的概率相乘,获得概率积; 第二乘积子单元,用于将所述第一乘积子单元获得的所述概率积乘以所述第二获得单 元获得的所述任意一个话题针对所述任意两个文档所在领域匹配的权重,得到所述任意两 个文档针对所述任意一个话题的相似度; 累加子单元,用于将所述第二乘积子单元得到的所述任意两个文档针对所述话题聚类 中每一个话题的相似度进行累加,得到所述任意两个文档间的初始相似度; 归一子单元,用于将所述累加子单元得到的所述任意两个文档间的所述初始相似度进 行归一化处理,得到所述任意两个文档间的相似度。
11. 如权利要求8或9所述的装置,其特征在于,所述装置还包括: 第一排序单元,用于将所述第一计算单元计算的任意一个文档与相应文档间的相似度 按照相似度从高到低的顺序进行相似度排序,所述相应文档与所述任意一个文档所在领域 不同; 第一选取单元,用于在所述第一排序单元排序的所述相似度排列中从最高的相似度 开始,选取大于等于预设阈值的相似度作为与所述任意一个文档匹配的相应文档间的相似 度; 第二存储单元,用于将所述第一选取单元选取的相似度存储为与所述任意一个文档匹 配的相应文档间的相似度列表。
12. 如权利要求11所述的装置,其特征在于,所述装置还包括: 检测单元,用于检测用户输入的检索文档; 判断单元,用于判断所述检测单元检测到的所述检索文档是否在所述第一存储单元存 储的所述不同领域的文档内; 查询单元,用于当所述判断单元的判断结果为是时,从所述第二存储单元存储的相似 度列表中查询与所述检索文档匹配的相应文档间的相似度列表; 第一输出单元,用于根据所述查询单元查询的所述与所述检索文档匹配的相应文档间 的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
13. 如权利要求12所述的装置,其特征在于,所述装置还包括: 统计单元,用于当所述判断单元的判断结果为否时,统计所述检索文档中与所述第一 获得单元获得的所述话题聚类中任意一个话题相关的词语出现的概率; 第二计算单元,用于根据所述统计单元统计的所述任意一个话题相关的词语出现的概 率,计算所述任意一个话题在所述检索文档中出现的概率; 第三计算单元,用于根据所述第二计算单元计算的所述任意一个话题在所述检索文档 中出现的概率、所述第二获得单元获得的所述任意一个话题在任意一个相应文档中出现的 概率,以及所述第二获得单元获得的所述任意一个话题针对所述检索文档所在领域与所述 任意一个相应文档所在领域匹配的权重,计算所述检索文档与所述任意一个相应文档间的 相似度。
14.如权利要求13所述的装置,其特征在于,所述装置还包括: 第二排序单元,用于将所述第三计算单元计算的所述检索文档与相应文档间的相似度 按照相似度从高到低的顺序进行相似度排序; 第二选取单元,用于在所述第二排序单元排列的所述相似度排列中从最高的相似度开 始,选取大于等于预设阈值的相似度作为与所述检索文档匹配的相应文档间的相似度; 第三存储单元,用于将所述第二选取单元选取的相似度存储为与所述检索文档匹配的 相应文档间的相似度列表; 第二输出单元,用于根据所述第三存储单元存储的所述与所述检索文档匹配的相应文 档间的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
【专利摘要】本发明公开了一种跨领域文档相似度计算方法及装置,该方法包括:存储不同领域文档和不同领域任意两个文档间的关系;将不同领域文档进行分词和去停用词处理,得到不同领域文档的词汇数据集;根据不同领域任意两个文档间的关系构建不同领域文档间的关联矩阵;根据词汇数据集,获得不同领域文档的话题聚类;根据关联矩阵和话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率和任意一个话题针对任意两个不同领域匹配的权重;根据话题聚类中任意一个话题在不同领域任意两个文档中出现的概率和任意一个话题针对任意两个文档所在领域匹配的权重,计算任意两个文档间的相似度。本发明实施例,可以提高跨领域文档间相似度的准确度。
【IPC分类】G06F17-30
【公开号】CN104731828
【申请号】CN201310722866
【发明人】王靓伟, 梁颖琪, 杨洋
【申请人】华为技术有限公司, 清华大学
【公开日】2015年6月24日
【申请日】2013年12月24日
【公告号】WO2015096468A1
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1