一种跨领域文档相似度计算方法及装置的制造方法_2

文档序号：8412495阅读：来源：国知局

定的匹配关系包括已知的匹配关系或已知的非匹配关系；
[0040] 处理单元，用于将所述第一存储单元存储的所述不同领域的文档分别进行分词和去停用词处理，得到所述不同领域的文档的词汇数据集；
[0041] 构建单元，用于根据所述第一存储单元存储的所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵；
[0042] 第一获得单元，用于根据所述处理单元得到的所述词汇数据集，获得所述不同领域的文档的话题聚类；
[0043] 第二获得单元，用于根据所述构建单元构建的所述关联矩阵和所述第一获得单元获得的所述话题聚类，获得所述话题聚类中任意一个话题在任意一个文档中出现的概率，以及所述任意一个话题针对任意两个不同领域匹配的权重；
[0044] 第一计算单元，用于根据所述第二获得单元获得的所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率，以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重，计算所述任意两个文档间的相似度。
[0045] 在本发明实施例第二方面的第一种可能的实现方式中，所述处理单元包括：
[0046] 处理子单元，用于将所述第一存储单元存储的所述不同领域的文档分别进行分词和去停用词处理，分别得到所述不同领域文档对应的词汇数据包；
[0047] 存储子单元，用于将所述处理子单元得到的所述词汇数据包存储在一起得到所述不同领域的文档的词汇数据集。
[0048] 在本发明实施例第二方面的第二种可能的实现方式中，所述第一计算单元包括：
[0049] 第一乘积子单元，用于将所述第二获得单元获得的所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘，获得概率积；
[0050] 第二乘积子单元，用于将所述第一乘积子单元获得的所述概率积乘以所述第二获得单元获得的所述任意一个话题针对所述任意两个文档所在领域匹配的权重，得到所述任意两个文档针对所述任意一个话题的相似度；
[0051] 累加子单元，用于将所述第二乘积子单元得到的所述任意两个文档针对所述话题聚类中每一个话题的相似度进行累加，得到所述任意两个文档间的初始相似度；
[0052] 归一子单元，用于将所述累加子单元得到的所述任意两个文档间的所述初始相似度进行归一化处理，得到所述任意两个文档间的相似度。
[0053] 结合本发明实施例第二方面或本发明实施例第二方面的第一种可能的实现方式，在本发明实施例第二方面的第三种可能的实现方式中，所述装置还包括：
[0054] 第一排序单元，用于将所述第一计算单元计算的任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序，所述相应文档与所述任意一个文档所在领域不同；
[0055] 第一选取单元，用于在所述第一排序单元排序的所述相似度排列中从最高的相似度开始，选取大于等于预设阈值的相似度作为与所述任意一个文档匹配的相应文档间的相似度；
[0056] 第二存储单元，用于将所述第一选取单元选取的相似度存储为与所述任意一个文档匹配的相应文档间的相似度列表。
[0057] 结合本发明实施例第二方面的第三种可能的实现方式，在本发明实施例第二方面的第四种可能的实现方式中，所述装置还包括：
[0058] 检测单元，用于检测用户输入的检索文档；
[0059] 判断单元，用于判断所述检测单元检测到的所述检索文档是否在所述第一存储单元存储的所述不同领域的文档内；
[0060] 查询单元，用于当所述判断单元的判断结果为是时，从所述第二存储单元存储的相似度列表中查询与所述检索文档匹配的相应文档间的相似度列表；
[0061] 第一输出单元，用于根据所述查询单元查询的所述与所述检索文档匹配的相应文档间的相似度列表，输出与所述检索文档匹配的相应文档的文档列表。
[0062] 结合本发明实施例第二方面的第四种可能的实现方式，在本发明实施例第二方面的第五种可能的实现方式中，所述装置还包括：
[0063] 统计单元，用于当所述判断单元的判断结果为否时，统计所述检索文档中与所述第一获得单元获得的所述话题聚类中任意一个话题相关的词语出现的概率；
[0064] 第二计算单元，用于根据所述统计单元统计的所述任意一个话题相关的词语出现的概率，计算所述任意一个话题在所述检索文档中出现的概率；
[0065] 第三计算单元，用于根据所述第二计算单元计算的所述任意一个话题在所述检索文档中出现的概率、所述第二获得单元获得的所述任意一个话题在任意一个相应文档中出现的概率，以及所述第二获得单元获得的所述任意一个话题针对所述检索文档所在领域与所述任意一个相应文档所在领域匹配的权重，计算所述检索文档与所述任意一个相应文档间的相似度。
[0066] 结合本发明实施例第二方面的第五种可能的实现方式，在本发明实施例第二方面的第六种可能的实现方式中，所述装置还包括：
[0067] 第二排序单元，用于将所述第三计算单元计算的所述检索文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序；
[0068] 第二选取单元，用于在所述第二排序单元排列的所述相似度排列中从最高的相似度开始，选取大于等于预设阈值的相似度作为与所述检索文档匹配的相应文档间的相似度；
[0069] 第三存储单元，用于将所述第二选取单元选取的相似度存储为与所述检索文档匹配的相应文档间的相似度列表；
[0070] 第二输出单元，用于根据所述第三存储单元存储的所述与所述检索文档匹配的相应文档间的相似度列表，输出与所述检索文档匹配的相应文档的文档列表。
[0071] 本发明实施例中，存储不同领域的文档和存储不同领域的任意两个文档间的关系之后，将不同领域的文档分别进行分词和去停用词处理，得到不同领域的文档的词汇数据集，并根据不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵，之后根据词汇数据集，获得不同领域的文档的话题聚类，并根据关联矩阵和话题聚类，获得话题聚类中任意一个话题在任意一个文档中出现的概率，以及任意一个话题针对任意两个不同领域匹配的权重，然后根据话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率，以及该任意一个话题针对该任意两个文档所在领域匹配的权重，计算该任意两个文档间的相似度。与现有技术相比，本发明实施例中是根据不同领域两个文档针对相关话题的相关性计算两个文档间的相似度，因此，可以提高跨领域文档间相似度的准确度，以便根据相似度提高跨领域文档间匹配的准确度。
【附图说明】
[0072] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0073] 图1是本发明实施例公开的一种跨领域文档相似度计算方法的流程图；
[0074] 图2是本发明实施例公开的另一种跨领域文档相似度计算方法的流程图；
[0075] 图3是本发明实施例公开的一种

完整全部详细技术资料下载

当前第2页1 2 3 4