一种跨领域文档相似度计算方法及装置的制造方法_3

文档序号:8412495阅读:来源:国知局
跨领域文档相似度计算装置的结构图;
[0076] 图4是本发明实施例公开的另一种跨领域文档相似度计算装置的结构图;
[0077] 图5用Variational EM算法获得话题聚类、概率和匹配权重的示意图。
【具体实施方式】
[0078] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0079] 本发明实施例中提供了一种跨领域文档相似度计算方法及装置,可以提高跨领域 文档间相似度的准确度,以便根据相似度提高跨领域文档间匹配的准确度。以下分别进行 详细说明。
[0080] 请参阅图1,图1是本发明实施例公开的一种跨领域文档相似度计算方法的流程 图。图1所示的跨领域文档相似度计算方法适用于具有显示屏的手机、平板电脑等终端设 备,本发明实施例不作限定。如图1所示,该跨领域文档相似度计算方法可以包括以下步 骤。
[0081] S101、存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中, 该不同领域的任意两个文档间的关系用于描述任意两个文档间的确定的匹配关系或未确 定的匹配关系,该确定的匹配关系包括已知的匹配关系或已知的非匹配关系。
[0082] 本发明实施例中,终端设备存储不同领域的文档,以及存储不同领域的任意两个 文档间的关系,其中,该不同领域的任意两个文档间的关系用于描述任意两个文档间的确 定的匹配关系或未确定的匹配关系,该确定的匹配关系包括已知的匹配关系或已知的非匹 配关系。
[0083] 本发明实施例中,用户可以定期存储当前不同领域的文档以及不同领域的任意两 个文档间的关系。两个文档间的确定的匹配关系表明在用户存储文档时,已经明确知道这 两个文档间的关系;其中,两个文档间的已知的匹配关系表明这两个文档有相同或相关的 话题,两个文档间的已知的非匹配关系表明这两个文档没有相同或相关的话题。两个文档 间的未确定匹配关系表明在用户存储文档时,还不知道这两个文档间有没有相同或相关的 话题。
[0084] S102、将不同领域的文档分别进行分词和去停用词处理,得到不同领域的文档的 词汇数据集。
[0085] 本发明实施例中,终端设备将不同领域的文档分别进行分词和去停用词处理,得 到不同领域的文档的词汇数据集。
[0086] 本发明实施例中,终端设备将不同领域的文档分别进行分词和去停用词处理,得 到不同领域的文档的词汇数据集,可以包括以下步骤。
[0087] 步骤A、终端设备将不同领域的文档分别进行分词和去停用词处理,分别得到不同 领域文档对应的词汇数据包。
[0088] 本发明实施例中,终端设备将每个文档分别切分为一个个单独的词,然后去掉每 个文档中匹配价值不大的词,得到每个文档的词汇数据包。
[0089] 步骤B、终端设备将词汇数据包存储在一起得到不同领域的文档的词汇数据集。 [0090] 举例来说,假设不同领域的文档总共为η个,则有η个文档的词汇数据包,词汇数 据集可以如表1所示,每个文档的词汇数据包可以在词汇数据集中占据一行,第一列可以 是每个文档的名称、也可以是每个文档对应的编号,只要能够与相应的文档对应起来即可, 本发明不作限定,第二列为第一列文档对应的词汇数据包。其中,词汇数据包不仅包括文档 中出现的词语,还包含文档中词语出现的次数,如:"根据5",即根据这个词在文档中出现 了 5次。
[0091] 表1词汇数据包
[0092]
【主权项】
1. 一种跨领域文档相似度计算方法,其特征在于,包括: 存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中,所述不同领 域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确定的 匹配关系,所述确定的匹配关系包括已知的匹配关系或已知的非匹配关系; 将所述不同领域的文档分别进行分词和去停用词处理,得到所述不同领域的文档的词 汇数据集; 根据所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩 阵; 根据所述词汇数据集,获得所述不同领域的文档的话题聚类; 根据所述关联矩阵和所述话题聚类,获得所述话题聚类中任意一个话题在任意一个文 档中出现的概率,以及所述任意一个话题针对任意两个不同领域匹配的权重; 根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及所 述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档间的 相似度。
2. 如权利要求1所述的方法,其特征在于,所述将所述不同领域的文档分别进行分词 和去停用词处理,得到所述不同领域的文档的词汇数据集,包括: 将所述不同领域的文档分别进行分词和去停用词处理,分别得到所述不同领域文档对 应的词汇数据包; 将所述词汇数据包存储在一起得到所述不同领域的文档的词汇数据集。
3. 如权利要求1或2所述的方法,其特征在于,所述根据所述话题聚类中任意一个话题 在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档 所在领域匹配的权重,计算所述任意两个文档间的相似度,包括 : 将所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘,获得 概率积; 将所述概率积乘以所述任意一个话题针对所述任意两个文档所在领域匹配的权重,得 到所述任意两个文档针对所述任意一个话题的相似度; 将所述任意两个文档针对所述话题聚类中每一个话题的相似度进行累加,得到所述任 意两个文档间的初始相似度; 将所述任意两个文档间的所述初始相似度进行归一化处理,得到所述任意两个文档间 的相似度。
4. 如权利要求1或2所述的方法,其特征在于,所述根据所述话题聚类中任意一个话题 在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档 所在领域匹配的权重,计算所述任意两个文档间的相似度之后,所述方法还包括: 将任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度排序, 所述相应文档与所述任意一个文档所在领域不同; 在所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为与所 述任意一个文档匹配的相应文档间的相似度; 将所述选取的相似度存储为与所述任意一个文档匹配的相应文档间的相似度列表。
5. 如权利要求4所述的方法,其特征在于,所述将所述选取的相似度存储为与所述任 意一个文档匹配的相应文档间的相似度列表之后,所述方法还包括: 检测用户输入的检索文档; 判断所述检索文档是否在所述不同领域的文档内; 若是,则从所述存储的相似度列表中查询与所述检索文档匹配的相应文档间的相似度 列表; 根据所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档匹配 的相应文档的文档列表。
6. 如权利要求5所述的方法,其特征在于,所述方法还包括: 若所述检索文档不在所述不同领域的文档内,则统计所述检索文档中与所述话题聚类 中任意一个话题相关的词语出现的概率; 根据所述任意一个话题相关的词语出现的概率,计算所述任意一个话题在所述检索文 档中出现的概率
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1