信息管理方法和装置制造方法

文档序号:6635557阅读:190来源:国知局
信息管理方法和装置制造方法
【专利摘要】信息管理方法和装置。本发明提出一种文本聚类方法,所述方法包括:计算输入的预设数量的搜索文档与数据库中的文档的相似度;将数据库中与所述搜索文档的相似度达到阈值的文档分别进行聚类得到第一集合簇;将所述第一集合簇中同一文档下的集合进行聚类,得到聚类结果。本发明一改传统的聚类思路,不指定初始聚类中心的个数,不进行初始划分,而是通过搜索的方式完成聚类,因此通用性更强;同时本发明在聚类过程中不需要对聚类中心进行不断的调整,因此开销小,可扩展性更好。
【专利说明】信息管理方法和装置

【技术领域】
[0001] 本公开涉及视频【技术领域】,尤其用户文本聚类方法和装置。

【背景技术】
[0002] 聚类分析,是数据挖掘的主要任务之一。所谓数据挖掘,通常与计算机科学相关, 通过统计、在线分析处理、情报检索、机器学习、和模式识别等诸多方法,从大量的数据中通 过算法搜索隐藏于其中的信息。
[0003] 目前,数据挖掘领域常用的聚类算法为K-MEANS算法,K-MEANS算法通过从N个文 档随机选取K个文档作为质也,对剩余的每个文档测量其到每个质也的距离,并把它归类 到最近的质也,然后再重新计算已经得到的各个类的质也,然后不断重复该一过程,直至新 的质也与原质也相等或小于指定阀值时,算法结束。
[0004] 然而,在K-means算法中,K值用于描述初始聚类中也的个数,为预先指定的值,通 常难W估计,因此并不能预先获知给定的数据集应该聚类成多少个类别才最合适。其次,在 K-means算法中,需要根据初始聚类中也来确定一个初始划分,然后对初始划分进行优化, 因此初始聚类中也的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得 到有效的聚类结果。另外,K-MEANS算法需要不断地进行样本分类调整,不断地计算调整后 的新的聚类中也,因此当数据量非常大时,算法的时间开销非常大。


【发明内容】

[0005] 为克服相关技术中存在的问题,本公开提供一种文本聚类方法和装置。
[0006] 根据本公开实施例的第一方面,提供一种文本聚类方法,所述方法包括:
[0007] 计算输入的预设数量的搜索文档与数据库中的文档的相似度;
[0008] 将数据库中与所述搜索文档的相似度达到阔值的文档分别进行聚类得到第一集 合簇;
[0009] 将所述第一集合簇中同一文档下的集合进行聚类,得到聚类结果。
[0010] 可选的,所述计算输入的预设数量的搜索文档与数据库中的文档的相似度包括:
[0011] 对所述搜索文档W及所述数据库中的文档进行文字切分;
[0012] 根据预设算法分别计算文字切分后的所述搜索文档与所述数据库中的文档的相 似度。
[0013] 可选的,所述对所述搜索文档W及所述数据库中的文档进行文字切分包括:
[0014] 采用单字切分或者单字切分与词组切分结合的方式对所述搜索文档W及所述数 据库中的文档进行文字切分。
[0015] 可选的,所述将所述第一集合簇中同一文档下的集合进行聚类包括:
[0016] 将所述第一集合簇中包含同一搜索文档的集合分别进行聚类,得到第二集合簇;
[0017] 将所述第二集合簇中同一文档下的集合进行聚类。
[0018] 可选的,所述将所述第二集合簇中同一文档下的集合进行聚类包括:
[0019] 统计所述第二集合簇中各集合之间的相同元素数;
[0020] 分别计算所述各集合中所述相同元素数占集合簇中元素总数的比值;
[0021] 将所述第二集合簇中具有相同元素,并且所述比值达到阔值的集合作为同一文档 下的集合进行聚类。
[0022] 可选的,所述方法还包括:
[0023] 对所述聚类结果进行去重处理。
[0024] 可选的,所述方法还包括:
[0025] 当所述聚类结果中包含所述第一集合簇中的所有集合时,停止针对所述第一集合 簇的聚类。
[0026] 根据本公开实施例的第二方面,提供一种文本聚类装置,所述装置包括:
[0027] 计算模块,用于计算输入的预设数量的搜索文档与数据库中的文档的相似度;
[0028] 第一聚类模块,用于将数据库中与所述搜索文档的相似度达到阔值的文档分别进 行聚类得到第一集合簇;
[0029] 第二聚类模块,用于将所述第一集合簇中同一文档下的集合进行聚类,得到聚类 结果。
[0030] 可选的,所述计算模块包括:
[0031] 切分子模块,用于对所述搜索文档W及所述数据库中的文档进行文字切分;
[0032] 计算子模块,用于根据预设算法分别计算文字切分后的所述搜索文档与所述数据 库中的文档的相似度。
[0033] 可选的,所述切分子模块包括:
[0034] 文字切分子模块,用于采用单字切分或者单字切分与词组切分结合的方式对所述 搜索文档W及所述数据库中的文档进行文字切分。
[00巧]可选的,所述第二聚类模块包括:
[0036] 第一聚类子模块,用于将所述第一集合簇中包含同一搜索文档的集合分别进行聚 类,得到第二集合簇;
[0037] 第二聚类子模块,用于将所述第二集合簇中同一文档下的集合进行聚类。
[0038] 可选的,所述第二聚类子模块包括:
[0039] 元素统计子模块,用于统计所述第二集合簇中各集合之间的相同元素数;
[0040] 比值计算子模块,用于分别计算所述各集合中相同元素数占集合簇中元素总数的 比值;
[0041] 元素聚类子模块,用于将所述第二集合簇中具有相同元素,并且所述比值达到阔 值的集合作为同一文档下的集合进行聚类。
[0042] 可选的,所述装置还包括:
[0043] 去重模块,用于对所述聚类结果进行去重处理。
[0044] 可选的,所述装置还包括:
[0045] 停止模块,用于在所述聚类结果中包含所述第一集合簇中的所有集合时,停止针 对所述第一集合簇的聚类。
[0046] 根据本公开实施例的第H方面,提供一种文本聚类装置,包括:
[0047] 处理器;
[0048] 用于存储处理器可执行指令的存储器;
[0049] 其中,所述处理器被配置为:
[0050] 计算输入的搜索文档与数据库中的文档的相似度;
[0051] 当所述搜索文档为多个时,将数据库中与所述搜索文档的相似度达到阔值的文档 分别进行聚类得到第一集合簇;
[0052] 将所述第一集合簇中同一文档下的集合进行聚类,得到聚类结果
[0053] 本公开的实施例提供的技术方案可W包括W下有益效果:
[0054] 本公开的W上实施例中,提出一种新的聚类方法,通过计算输入的预设数量的搜 索文档与数据库中的文档的相似度,将数据库中与搜索文档的相似度达到阔值的文档分别 进行聚类得到第一集合簇,然后再对第一集合簇中同一文档下的集合进行聚类得到聚类结 果。本公开一改传统的聚类思路,不指定初始聚类中也的个数,不进行初始划分,而是通过 搜索的方式完成聚类,因此通用性更强;同时本公开在聚类过程中不需要对聚类中也进行 不断的调整,因此开销小,可扩展性更好。
[0055] 应当理解的是,W上的一般描述和后文的细节描述仅是示例性和解释性的,并不 能限制本公开。

【专利附图】

【附图说明】
[0056] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施 例,并与说明书一起用于解释本公开的原理。
[0057] 图1是根据一示例性实施例示出的一种文本聚类方法的流程示意图;
[0058] 图2是根据一示例性实施例示出的另一种文本聚类方法的流程示意图;
[0059] 图3是根据一示例性实施例示出的对数据库中的文档进行初步聚类的示意图;
[0060] 图4是根据一示例性实施例示出的一种文本聚类装置的示意框图;
[0061] 图5是根据一示例性实施例示出的另一种文本聚类装置的示意框图;
[0062] 图6是根据一示例性实施例示出的另一种文本聚类装置的示意框图;
[0063] 图7是根据一示例性实施例示出的另一种文本聚类装置的示意框图;
[0064] 图8是根据一示例性实施例示出的另一种文本聚类装置的示意框图;
[0065] 图9是根据一示例性实施例示出的另一种文本聚类装置的示意框图;
[0066] 图10是根据一示例性实施例示出的另一种文本聚类装置的示意框图;
[0067] 图11是根据一示例性实施例示出的一种用于文本聚类装置的一结构示意图。

【具体实施方式】
[0068] 该里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及 附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。W下示例性实施例 中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附 权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0069] 在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。 在本公开和所附权利要求书中所使用的单数形式的"一种"、"所述"和"该"也旨在包括多 数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语"和/或"是指 并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0070] 应当理解,尽管在本公开可能采用术语第一、第二、第H等来描述各种信息,但该 些信息不应限于该些术语。该些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离 本公开范围的情况下,第一信息也可W被称为第二信息,类似地,第二信息也可W被称为第 一信息。取决于语境,如在此所使用的词语"如果"可W被解释成为"在……时"或"当…… 时"或"响应于确定"。
[0071] 如图1所示,图1是根据一示例性实施例示出的一种文本聚类方法,该方法用于服 务端中,所述服务端可W是服务器,所述方法包括W下步骤:
[0072] 在步骤101中,计算输入的预设数量的搜索文档与数据库中的文档的相似度;
[0073] 在本实施例中,输入的搜索文档的数量取决于服务端实际的性能,例如,在实现时 如果输入的搜索文档的数量超过某阔值,会造成服务端在后续的计算相似度的过程中整体 性能下降的话,那么在设置输入的搜索文档的数量时,尽可能将搜索文档的数量限制在该 阔值W内。
[0074] 服务端在计算输入的搜索文档与数据库中的文档的相似度之前,通常会对输入的 搜索文档W及数据库中的文档进行中文分词。中文分词是自然语言处理的基本过程,通常 可W基于一定的规则或者通过统计的方式进行分词。
[00巧]然而在实际应用中,对于一些短文本,基于规则或者通过统计的方式进行分词, 处理意义不大,而且由于在本实施例中分词后的搜索文档后续要进行相似度计算,而基于 规则或者统计的方式对输入的短文本进行分词,通常会因为上下文的关系引起切分上的不 同,因此基于规则或者统计的方式对搜索文档进行分词,对后续的相似度计算影响很大。因 此,在本实施例中,服务器可W采用单字切分或者采用单字切分与词组切分相结合的方式 对输入的搜索文档进行文字切分.
[0076] 在本实施例中,对于文字切分后的文档,可W进行索引存储,W方便后续的快速检 索。其中对文字切分后的文档进行索引存储,可W参考现有实现中的介绍,例如,可W采用 B+tree的方式对文字切分后的文档进行索引存储,在公开中不再进行详述。
[0077] 在本实施例中,服务端在计算输入的搜索文档与本地数据库中的文档的相似度 时,可W基于特定的相似度算法来进行;例如,在实现时,所述相似度计算所采用的相似度 算法可W是基于LCS的相似度算法或BM25算法。
[0078] 在步骤102中,将数据库中与所述搜索文档的相似度达到阔值的文档分别进行聚 类得到第一集合簇;
[0079] 在本实施例中,在完成了相似度计算后,可W基于相似度的计算结果对数据库中 的文档进行初步的聚类。在实现时,可W基于相似度的计算结果进行阔值化处理,在已经索 引存储的数据中进行快速检索,将数据库中与输入的搜索文档的相似度达到阔值的文档分 别进行聚类最终形成一个第一集合簇。
[0080] 例如,假设输入的搜索文档分别为query 1、query2和query3,文档ID分别为 1001、1033和1338,所述阔值为85%,此时可W在已经索引存储的数据中进行快速检索,输 出的文档即为数据库中分别与queryl、query2和query3的相似度达到85%的文档集合。 假设数据库中与queryl的相似度达到85 %的文档ID的集合为Sl = [1001,1031,2098, 7896,8876];与query2的相似度达到85 %的文档ID的集合为S2 = [1033,1868, 2768, 8896,8976];与query2的相似度达到85 %的文档ID的集合为S3 = [1338,1878, 2798, 8196,8076];那么所述第一集合簇则为一个包括集合Sl?S3的集合簇,Sl?S3中的任意 一个集合都是该集合簇中的元素。
[0081] 在本实施例中,所述第一集合簇中的内容,即为服务端根据输入的搜索文档对数 据库中的文档进行聚类后形成的初步聚类结果。
[0082] 在步骤103中,将所述第一集合簇中同一文档下的集合进行聚类,得到聚类结果。
[0083] 在本实施例中,对于所述第一集合簇中的内容,可W由服务端进行统计聚类,形成 最终的聚类结果。在实现时,服务端可W对所述第一集合簇中包含同一搜索文档的集合再 次分别进行聚类,形成一个第二集合簇。
[0084] 例如,假设第一集合簇包括集合S1、S2-Sn,输入的搜索文档分别为queryl、 query2,文档ID分别为1033和1338 ;假设此时:
[0085] Sl = [1001,1031,2098,7896,8876]
[0086] S2 = [1033,1868,2768,8896,8976]
[0087] S3 = [1338,1878,2798,8196,8076]
[0088] ......
[0089] 那么服务端将第一集合簇中分别包含搜索文档1031的集合再次聚类后可W得到 集合1031 = [S 1,S8, S9.其中该集合表示文档ID为1031的文档在集合分别在Sl、 S8、S9等集合中出现过;服务端将第一集合簇中分别包含搜索文档1033的集合再次聚类后 得到集合1033 = [S2, S10, S21...];其中该集合表示文档ID为1033的文档在集合分别在 S2、S10、S21等集合中出现过。此时所述第二集合簇则为一个包括上述集合1031和1033 的集合簇,集合1031和1033中的任意一个集合都是该集合簇中的元素。
[0090] 在本实施例中,对于所述第二集合簇中的内容,还可W由服务端将第二集合簇中 隶属于同一文档下的集合进行再次聚类,生成最终的聚合结果。其中,在判断所述第二集合 簇中的集合是否隶属于同一文档下,可W基于第二集合簇中各集合之间的相同元素数占元 素总数的比值来判断。在实现时,服务端可W逐个统计所述第二集合簇中的集合与该集合 簇中的其它集合的相同元素数,然后计算各集合中统计出的相同元素数占当前集合簇中元 素总数的比值,在进行聚类时,可W将具有相同元素数,并且上述比值达到阔值的集合作为 同一文档下的集合进行聚类。其中,所述元素总数,在实现时也可W为第二集合簇中单个集 合的元素总数,在本公开不进行特别限定。
[0091] 例如,假设所述第二集合簇包含100U1031两个集合,其中:
[0092] 1001 = [SI, S2, S3, S8]
[0093] 1031 = [SI, S2, S3, S9, S11]
[0094] 服务端在进行相同元素数计算时,集合1001与集合1031的相同元素数为3,集合 簇中元素总数为6 (不重复的元素数),此时相同元素数占集合簇中元素总数的比值为0. 5 ; 假设此时阔值为0. 5,所述相同元素数占集合簇中元素总数的比值达到了阔值,此时可W认 为集合1001U031为同一文档下的集合,因此可W对集合1001、和1031进行聚类,最终形成 聚类结果 Xl = [SI, S2, S3, S8, S9, S11]。
[0095] 在本实施例中,由于最终的聚类结果中,各集合之间可能会存在相同的文本,因此 为了防止聚类结果中的兀余数据对信息造成干扰,还可W对聚类结果进行去重处理,去除 聚类结果中兀余的内容。
[0096] 例如,假设最终形成聚类结果Xl = [S 1,S2];假设该聚类结果中Sl = [1001, 1031,1033,10:34,1035] ;S2 = [1001,1031,1036,1037,103引,此时 Sl 和 S2 具有相同的文 本1001和1031,因此对聚类结果Xl进行去重处理后Xl = [1001,1031,1033,1034,1035, 1036,1037,103引。
[0097] 通过W上描述可知,本公开提出了一种新的聚类方法,通过计算输入的预设数量 的搜索文档与数据库中的文档的相似度,将数据库中与搜索文档的相似度达到阔值的文档 分别进行聚类得到第一集合簇,然后再对第一集合簇中同一文档下的集合进行聚类得到聚 类结果。本公开一改传统的聚类思路,不指定初始聚类中也的个数,不进行初始划分,而是 通过搜索的方式完成聚类,因此通用性更强;同时本公开在聚类过程中不需要对聚类中也 进行不断的调整,完全基于搜索文档与数据库中文档的相似度进行初步聚类,并在此初步 聚类的基础上,再对同一文档下的数据进行聚类,因此开销小,可扩展性更好。
[0098] 如图2所示,图2是根据一示例性实施例示出的一种文本聚类方法,该方法用于服 务端中,所述服务端可W是服务器,所述方法包括W下步骤:
[0099] 在步骤201中,计算输入的预设数量的搜索文档与数据库中的文档的相似度;
[0100] 在本实施例中,输入的搜索文档的数量取决于服务端实际的性能,例如,在实现时 如果输入的搜索文档的数量超过某阔值,会造成服务端在后续的计算相似度的过程中整体 性能下降的话,那么在设置输入的搜索文档的数量时,尽可能将搜索文档的数量限制在该 阔值W内。
[0101] 在本实施例中,服务端在计算输入的搜索文档与数据库中的文档的相似度之前, 通常会对输入的搜索文档W及数据库中的文档进行中文分词。中文分词是自然语言处理的 基本过程,通常可W基于一定的规则或者通过统计的方式进行分词。
[0102] 然而在实际应用中,对于一些短文本,基于规则或者通过统计的方式进行分词, 处理意义不大,而且由于在本实施例中分词后的搜索文档后续要进行相似度计算,而基于 规则或者统计的方式对输入的短文本进行分词,通常会因为上下文的关系引起切分上的不 同,因此基于规则或者统计的方式对搜索文档进行分词,对后续的相似度计算影响很大。
[0103] 例如,假设输入的搜索文档分别为"北京市海淀区清河镇批发市场"和"北京海淀 清河批发市场",采用基于规则或者通过统计的方式进行分词,搜索文档"北京市海淀区清 河镇批发市场"的切分结果是"北京市海淀区清河镇批发市场";搜索文档"北京海淀清河 批发市场"的切分结果是"北京海淀清河批发市场",对于上述两种切分结果,在计算相似度 时,由于分词后类似于"北京市"和"北京"会被认为是不相似的词组,因此W上两种切分结 果计算出的相似度仅为0. 25,而通过对比后发现W上两种切分结果在语义表达上为完全相 同的两个文本。
[0104] 因此,在本实施例中,服务器可W采用单字切分的方式对输入的搜索文档进行文 字切分;例如,仍W输入的搜索文档分别为"北京市海淀区清河镇批发市场"和"北京海淀 清河批发市场"为例,采用单字切分后,搜索文档"北京市海淀区清河镇批发市场"的切分结 果是"北京市海淀区清河镇批发市场";搜索文档"北京海淀清河批发市场"的切分结果可能 是"北京海淀清河批发市场",对于上述两种切分结果,在计算相似度时,是通过比较单字的 相似度来进行的,因此上述两种切分结果中,"北、京、海、淀、清、河、批、发、市、场"等10个单 字均可认为是相似的文本,因此最终计算出的相似度,远高于对采用基于规则或者通过统 计的方式进行分词后的切分结果进行相似度计算得出的相似度。可见,采用单字切分的方 式对搜索文档进行文字切分,可W最大程度的避免因为上下文的关系引起切分上的不同对 最终计算出的相似度的影响。
[0105] 当然,在实际应用中,如果想要进一步提升文字切分的准确性,还可W采用单字切 分与词组切分相结合的方式对所述搜索文档进行文字切分,即在对搜索文档进行文字切分 时,对一些词组和非词组的单字均可W进行单独切分。例如,假设搜索文档为"北京市海淀 区清河镇批发市场",采用单字切分与词组切分相结合的方式进行文字切分的结果可W是 "北京市海淀区清河镇批发市场",即在切分时将词组和非词组的单字均进行单独切分。
[0106] 在本实施例中,对于文字切分后的文档,可W进行索引存储,W方便后续的快速检 索。其中对文字切分后的文档进行索引存储,可W参考现有实现中的介绍,例如,可W采用 B+tree的方式对文字切分后的文档进行索引存储,在公开中不再进行详述。
[0107] 在本实施例中,服务端在计算输入的搜索文档与本地数据库中的文档的相似度 时,可W基于特定的相似度算法来进行;例如,在实现时,所述相似度计算所采用的相似度 算法可W是基于LCS的相似度算法或BM25算法。
[0108] 其中,所述LCS是指是指最长公共子序列。一个序列,如果是两个或多个已知序列 的子序列,且是所有子序列中最长的,则为最长公共子序列。当所述输入的搜索文档为短文 本时,LCS可W作为其相似度的一个衡量。
[0109] 例如,假设需要基于LCS来计算"北京海淀清河批发市场"和文档"北京海淀清河 海鲜市场"该两个文档的相似度,如果均采用单字切分,那么该两个文档的最长公共子序列 则为"北京海淀清河市场",一共8个单字,在求相似度时,可W用最长公共子序列的单字数 8除W该两个文档的单字总数12,最终求出的相似度为0. 67。
[0110] 所述BM25算法,是搜索引擎用来对搜索文档和匹配文档(即数据库中的文档)进 行相关度计算和排序的排序函数。由于在本公开中,后续在做检索的时,需要考虑到排序的 问题,因此,BM25是一个很好的相似度算法。
[011。 BM25算法的具体计算公式如下,假设给定一个包含ql,q2…qn的搜索文档Q,一个 匹配文档D,
[0112]

【权利要求】
1. 一种文本聚类方法,其特征在于,所述方法包括: 计算输入的预设数量的搜索文档与数据库中的文档的相似度; 将数据库中与所述搜索文档的相似度达到阈值的文档分别进行聚类得到第一集合 簇; 将所述第一集合簇中同一文档下的集合进行聚类,得到聚类结果。
2. 如权利要求1所述的方法,其特征在于,所述计算输入的预设数量的搜索文档与数 据库中的文档的相似度包括: 对所述搜索文档以及所述数据库中的文档进行文字切分; 根据预设算法分别计算文字切分后的所述搜索文档与所述数据库中的文档的相似度。
3. 如权利要求3所述的方法,其特征在于,所述对所述搜索文档以及所述数据库中的 文档进行文字切分包括: 采用单字切分或者单字切分与词组切分结合的方式对所述搜索文档以及所述数据库 中的文档进行文字切分。
4. 如权利要求1所述的方法,其特征在于,所述将所述第一集合簇中同一文档下的集 合进行聚类包括: 将所述第一集合簇中包含同一搜索文档的集合分别进行聚类,得到第二集合簇; 将所述第二集合簇中同一文档下的集合进行聚类。
5. 如权利要求4所述的方法,其特征在于,所述将所述第二集合簇中同一文档下的集 合进行聚类包括: 统计所述第二集合簇中各集合之间的相同元素数; 分别计算所述各集合中所述相同元素数占集合簇中元素总数的比值; 将所述第二集合簇中具有相同元素,并且所述比值达到阈值的集合作为同一文档下的 集合进行聚类。
6. 如权利要求1所述的方法,其特征在于,所述方法还包括: 对所述聚类结果进行去重处理。
7. 如权利要求1所述的方法,其特征在于,所述方法还包括: 当所述聚类结果中包含所述第一集合簇中的所有集合时,停止针对所述第一集合簇的 聚类。
8. -种文本聚类装置,其特征在于,所述装置包括: 计算模块,用于计算输入的预设数量的搜索文档与数据库中的文档的相似度; 第一聚类模块,用于将数据库中与所述搜索文档的相似度达到阈值的文档分别进行聚 类得到第一集合簇; 第二聚类模块,用于将所述第一集合簇中同一文档下的集合进行聚类,得到聚类结果。
9. 如权利要求8所述的装置,其特征在于,所述计算模块包括: 切分子模块,用于对所述搜索文档以及所述数据库中的文档进行文字切分; 计算子模块,用于根据预设算法分别计算文字切分后的所述搜索文档与所述数据库中 的文档的相似度。
10. 如权利要求9所述的装置,其特征在于,所述切分子模块包括: 文字切分子模块,用于采用单字切分或者单字切分与词组切分结合的方式对所述搜索 文档以及所述数据库中的文档进行文字切分。
11. 如权利要求8所述的装置,其特征在于,所述第二聚类模块包括: 第一聚类子模块,用于将所述第一集合簇中包含同一搜索文档的集合分别进行聚类, 得到第二集合簇; 第二聚类子模块,用于将所述第二集合簇中同一文档下的集合进行聚类。
12. 如权利要求11所述的装置,其特征在于,所述第二聚类子模块包括: 元素统计子模块,用于统计所述第二集合簇中各集合之间的相同元素数; 比值计算子模块,用于分别计算所述各集合中相同元素数占集合簇中元素总数的比 值; 元素聚类子模块,用于将所述第二集合簇中具有相同元素,并且所述比值达到阈值的 集合作为同一文档下的集合进行聚类。
13. 如权利要求8所述的装置,其特征在于,所述装置还包括: 去重模块,用于对所述聚类结果进行去重处理。
14. 如权利要求8所述的装置,其特征在于,所述装置还包括: 停止模块,用于在所述聚类结果中包含所述第一集合簇中的所有集合时,停止针对所 述第一集合簇的聚类。
15. -种文本聚类装置,其特征在于,包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为: 计算输入的搜索文档与数据库中的文档的相似度; 当所述搜索文档为多个时,将数据库中与所述搜索文档的相似度达到阈值的文档分别 进行聚类得到第一集合簇; 将所述第一集合簇中同一文档下的集合进行聚类,得到聚类结果。
【文档编号】G06F17/30GK104331510SQ201410682157
【公开日】2015年2月4日 申请日期:2014年11月24日 优先权日:2014年11月24日
【发明者】于亮, 王海洲, 韩爱君 申请人:小米科技有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1