一种跨领域文档相似度计算方法及装置的制造方法_2

文档序号:8412495阅读:来源:国知局
定的匹配关系包括已知的匹配关系或已知的非 匹配关系;
[0040] 处理单元,用于将所述第一存储单元存储的所述不同领域的文档分别进行分词和 去停用词处理,得到所述不同领域的文档的词汇数据集;
[0041] 构建单元,用于根据所述第一存储单元存储的所述不同领域的任意两个文档间的 关系构建所述不同领域的文档间的关联矩阵;
[0042] 第一获得单元,用于根据所述处理单元得到的所述词汇数据集,获得所述不同领 域的文档的话题聚类;
[0043] 第二获得单元,用于根据所述构建单元构建的所述关联矩阵和所述第一获得单元 获得的所述话题聚类,获得所述话题聚类中任意一个话题在任意一个文档中出现的概率, 以及所述任意一个话题针对任意两个不同领域匹配的权重;
[0044] 第一计算单元,用于根据所述第二获得单元获得的所述话题聚类中任意一个话题 在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档 所在领域匹配的权重,计算所述任意两个文档间的相似度。
[0045] 在本发明实施例第二方面的第一种可能的实现方式中,所述处理单元包括:
[0046] 处理子单元,用于将所述第一存储单元存储的所述不同领域的文档分别进行分词 和去停用词处理,分别得到所述不同领域文档对应的词汇数据包;
[0047] 存储子单元,用于将所述处理子单元得到的所述词汇数据包存储在一起得到所述 不同领域的文档的词汇数据集。
[0048] 在本发明实施例第二方面的第二种可能的实现方式中,所述第一计算单元包括:
[0049] 第一乘积子单元,用于将所述第二获得单元获得的所述话题聚类中任意一个话题 在不同领域的任意两个文档中出现的概率相乘,获得概率积;
[0050] 第二乘积子单元,用于将所述第一乘积子单元获得的所述概率积乘以所述第二获 得单元获得的所述任意一个话题针对所述任意两个文档所在领域匹配的权重,得到所述任 意两个文档针对所述任意一个话题的相似度;
[0051] 累加子单元,用于将所述第二乘积子单元得到的所述任意两个文档针对所述话题 聚类中每一个话题的相似度进行累加,得到所述任意两个文档间的初始相似度;
[0052] 归一子单元,用于将所述累加子单元得到的所述任意两个文档间的所述初始相似 度进行归一化处理,得到所述任意两个文档间的相似度。
[0053] 结合本发明实施例第二方面或本发明实施例第二方面的第一种可能的实现方式, 在本发明实施例第二方面的第三种可能的实现方式中,所述装置还包括:
[0054] 第一排序单元,用于将所述第一计算单元计算的任意一个文档与相应文档间的相 似度按照相似度从高到低的顺序进行相似度排序,所述相应文档与所述任意一个文档所在 领域不同;
[0055] 第一选取单元,用于在所述第一排序单元排序的所述相似度排列中从最高的相似 度开始,选取大于等于预设阈值的相似度作为与所述任意一个文档匹配的相应文档间的相 似度;
[0056] 第二存储单元,用于将所述第一选取单元选取的相似度存储为与所述任意一个文 档匹配的相应文档间的相似度列表。
[0057] 结合本发明实施例第二方面的第三种可能的实现方式,在本发明实施例第二方面 的第四种可能的实现方式中,所述装置还包括:
[0058] 检测单元,用于检测用户输入的检索文档;
[0059] 判断单元,用于判断所述检测单元检测到的所述检索文档是否在所述第一存储单 元存储的所述不同领域的文档内;
[0060] 查询单元,用于当所述判断单元的判断结果为是时,从所述第二存储单元存储的 相似度列表中查询与所述检索文档匹配的相应文档间的相似度列表;
[0061] 第一输出单元,用于根据所述查询单元查询的所述与所述检索文档匹配的相应文 档间的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
[0062] 结合本发明实施例第二方面的第四种可能的实现方式,在本发明实施例第二方面 的第五种可能的实现方式中,所述装置还包括:
[0063] 统计单元,用于当所述判断单元的判断结果为否时,统计所述检索文档中与所述 第一获得单元获得的所述话题聚类中任意一个话题相关的词语出现的概率;
[0064] 第二计算单元,用于根据所述统计单元统计的所述任意一个话题相关的词语出现 的概率,计算所述任意一个话题在所述检索文档中出现的概率;
[0065] 第三计算单元,用于根据所述第二计算单元计算的所述任意一个话题在所述检索 文档中出现的概率、所述第二获得单元获得的所述任意一个话题在任意一个相应文档中出 现的概率,以及所述第二获得单元获得的所述任意一个话题针对所述检索文档所在领域与 所述任意一个相应文档所在领域匹配的权重,计算所述检索文档与所述任意一个相应文档 间的相似度。
[0066] 结合本发明实施例第二方面的第五种可能的实现方式,在本发明实施例第二方面 的第六种可能的实现方式中,所述装置还包括:
[0067] 第二排序单元,用于将所述第三计算单元计算的所述检索文档与相应文档间的相 似度按照相似度从高到低的顺序进行相似度排序;
[0068] 第二选取单元,用于在所述第二排序单元排列的所述相似度排列中从最高的相似 度开始,选取大于等于预设阈值的相似度作为与所述检索文档匹配的相应文档间的相似 度;
[0069] 第三存储单元,用于将所述第二选取单元选取的相似度存储为与所述检索文档匹 配的相应文档间的相似度列表;
[0070] 第二输出单元,用于根据所述第三存储单元存储的所述与所述检索文档匹配的相 应文档间的相似度列表,输出与所述检索文档匹配的相应文档的文档列表。
[0071] 本发明实施例中,存储不同领域的文档和存储不同领域的任意两个文档间的关系 之后,将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的词汇数据 集,并根据不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵,之 后根据词汇数据集,获得不同领域的文档的话题聚类,并根据关联矩阵和话题聚类,获得话 题聚类中任意一个话题在任意一个文档中出现的概率,以及任意一个话题针对任意两个不 同领域匹配的权重,然后根据话题聚类中任意一个话题在不同领域的任意两个文档中出现 的概率,以及该任意一个话题针对该任意两个文档所在领域匹配的权重,计算该任意两个 文档间的相似度。与现有技术相比,本发明实施例中是根据不同领域两个文档针对相关话 题的相关性计算两个文档间的相似度,因此,可以提高跨领域文档间相似度的准确度,以便 根据相似度提高跨领域文档间匹配的准确度。
【附图说明】
[0072] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
[0073] 图1是本发明实施例公开的一种跨领域文档相似度计算方法的流程图;
[0074] 图2是本发明实施例公开的另一种跨领域文档相似度计算方法的流程图;
[0075] 图3是本发明实施例公开的一种
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1