一种跨领域文档相似度计算方法及装置的制造方法

文档序号：8412495阅读：279来源：国知局

一种跨领域文档相似度计算方法及装置的制造方法
【技术领域】
[0001] 本发明涉及通信技术领域，具体涉及一种跨领域文档相似度计算方法及装置。
【背景技术】
[0002] 用户在检索文档时，有时需要检索与其匹配的其它领域的文档。目前，主要有两种跨领域文档匹配的方式，方式一是：根据不同领域文档中语句的文本字符串的相似度进行不同领域文档匹配；方式二是：统计不同领域文档中词汇的相似度，并根据不同领域文档中用词的相似性进行不同领域文档匹配。
[0003] 在方式一中，由于不同文档中对同一事情的描述在语句上不一定相同，而在不同领域文档中对同一事情的描述在语句上的差距更大，因此，用字符串的相似度无法正确进行跨领域文档匹配。上述方式二是根据统计的不同领域文档的词汇相似度进行不同领域文档匹配，但是由于不同领域文档中对同一事情的描述在用词上差距很大，因此，仅仅根据词汇的相似度不能准确的进行文档的匹配。

【发明内容】

[0004] 本发明实施例公开了一种跨领域文档相似度计算方法及装置，用于提高跨领域文档间相似度的准确度，以便根据相似度提高跨领域文档间匹配的准确度。
[0005] 本发明实施例第一方面提供一种跨领域文档相似度计算方法，包括：
[0006] 存储不同领域的文档，以及存储不同领域的任意两个文档间的关系；其中，所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确定的匹配关系，所述确定的匹配关系包括已知的匹配关系或已知的非匹配关系；
[0007] 将所述不同领域的文档分别进行分词和去停用词处理，得到所述不同领域的文档的词汇数据集；
[0008] 根据所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵；
[0009] 根据所述词汇数据集，获得所述不同领域的文档的话题聚类；
[0010] 根据所述关联矩阵和所述话题聚类，获得所述话题聚类中任意一个话题在任意一个文档中出现的概率，以及所述任意一个话题针对任意两个不同领域匹配的权重；
[0011] 根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率，以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重，计算所述任意两个文档间的相似度。
[0012] 在本发明实施例第一方面的第一种可能的实现方式中，所述将所述不同领域的文档分别进行分词和去停用词处理，得到所述不同领域的文档的词汇数据集，包括：
[0013] 将所述不同领域的文档分别进行分词和去停用词处理，分别得到所述不同领域文档对应的词汇数据包；
[0014] 将所述词汇数据包存储在一起得到所述不同领域的文档的词汇数据集。
[0015] 在本发明实施例第一方面的第二种可能的实现方式中，所述根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率，以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重，计算所述任意两个文档间的相似度，包括：
[0016] 将所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘，获得概率积；
[0017] 将所述概率积乘以所述任意一个话题针对所述任意两个文档所在领域匹配的权重，得到所述任意两个文档针对所述任意一个话题的相似度；
[0018] 将所述任意两个文档针对所述话题聚类中每一个话题的相似度进行累加，得到所述任意两个文档间的初始相似度；
[0019] 将所述任意两个文档间的所述初始相似度进行归一化处理，得到所述任意两个文档间的相似度。
[0020] 结合本发明实施例第一方面或本发明实施例第一方面的第一种可能的实现方式，在本发明实施例第一方面的第三种可能的实现方式中，所述根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率，以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重，计算所述任意两个文档间的相似度之后，所述方法还包括：
[0021] 将任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序，所述相应文档与所述任意一个文档所在领域不同；
[0022] 在所述相似度排列中从最高的相似度开始，选取大于等于预设阈值的相似度作为与所述任意一个文档匹配的相应文档间的相似度；
[0023] 将所述选取的相似度存储为与所述任意一个文档匹配的相应文档间的相似度列表。
[0024] 结合本发明实施例第一方面的第三种可能的实现方式，在本发明实施例第一方面的第四种可能的实现方式中，所述将所述选取的相似度存储为与所述任意一个文档匹配的相应文档间的相似度列表之后，所述方法还包括：
[0025] 检测用户输入的检索文档；
[0026] 判断所述检索文档是否在所述不同领域的文档内；
[0027] 若是，则从所述存储的相似度列表中查询与所述检索文档匹配的相应文档间的相似度列表；
[0028] 根据所述与所述检索文档匹配的相应文档间的相似度列表，输出与所述检索文档匹配的相应文档的文档列表。
[0029] 结合本发明实施例第一方面的第四种可能的实现方式，在本发明实施例第一方面的第五种可能的实现方式中，所述方法还包括：
[0030] 若所述检索文档不在所述不同领域的文档内，则统计所述检索文档中与所述话题聚类中任意一个话题相关的词语出现的概率；
[0031] 根据所述任意一个话题相关的词语出现的概率，计算所述任意一个话题在所述检索文档中出现的概率；
[0032] 根据所述任意一个话题在所述检索文档中出现的概率、所述任意一个话题在任意一个相应文档中出现的概率，以及所述任意一个话题针对所述检索文档所在领域与所述任意一个相应文档所在领域匹配的权重，计算所述检索文档与所述任意一个相应文档间的相似度。
[0033] 结合本发明实施例第一方面的第五种可能的实现方式，在本发明实施例第一方面的第六种可能的实现方式中，所述根据所述任意一个话题在所述检索文档中出现的概率、所述任意一个话题在任意一个相应文档中出现的概率，以及所述任意一个话题针对所述检索文档所在领域与所述任意一个相应文档所在领域匹配的权重，计算所述检索文档与所述任意一个相应文档间的相似度之后，所述方法还包括：
[0034] 将所述检索文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序；
[0035] 在所述相似度排列中从最高的相似度开始，选取大于等于预设阈值的相似度作为与所述检索文档匹配的相应文档间的相似度；
[0036] 将所述选取的相似度存储为与所述检索文档匹配的相应文档间的相似度列表；
[0037] 根据所述与所述检索文档匹配的相应文档间的相似度列表，输出与所述检索文档匹配的相应文档的文档列表。
[0038] 本发明实施例第二方面提供一种跨领域文档相似度计算装置，包括：
[0039] 第一存储单元，用于存储不同领域的文档，以及存储不同领域的任意两个文档间的关系；其中，所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确定的匹配关系，所述确

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王靓伟;梁颖琪;杨洋;
技术所有人：华为技术有限公司;清华大学;
我是此专利的发明人

上一篇：一种网络图片的互动方法和装置的制造方法
上一篇：快速分布式文件系统文件元数据的生成方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。