文档聚类的方法及装置的制造方法

文档序号:9375663阅读:168来源:国知局
文档聚类的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及统计技术领域,特别涉及一种文档聚类的方法及装置。
【背景技术】
[0002] 随着统计技术的不断发展及文档数量的快速增长,对文档进行聚类成为人们关注 的问题。文档聚类是根据文档中的词的种类、出现频率等将相似的文档划分为一类,通过对 文档进行聚类可使用户更加方便地查找文档,获取感兴趣的信息。
[0003] 现有技术对文档进行聚类的过程,具体包括:根据待聚类的文档获取检索词-文 档矩阵,并根据检索词-文档矩阵获取初始化的检索词-主题矩阵及初始化的主题-文档 矩阵;根据检索词-文档矩阵、初始化的检索词-主题矩阵及初始化的主题-文档矩阵确定 目标函数;确定使目标函数最小化的检索词-主题矩阵及主题-文档矩阵,并根据使目标函 数最小化的主题-文档矩阵对文档进行聚类。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005] 由于根据检索词-文档矩阵获取到的初始化的检索词-主题矩阵及初始化的主 题-文档矩阵中的元素可能存在负值,而负值元素在实际应用中没有意义,因而导致现有 技术提供的文档聚类的效率不高。

【发明内容】

[0006] 为了解决现有技术的问题,本发明实施例提供了一种文档聚类的方法及装置。所 述技术方案如下:
[0007] 第一方面,提供了一种文档聚类的方法,所述方法包括:
[0008] 根据待聚类的文档获取检索词-文档矩阵,根据所述检索词-文档矩阵中的检索 词获取初始化的非负检索词-主题矩阵,并根据所述检索词-文档矩阵中的文档获取初始 化的非负主题-文档矩阵;
[0009] 对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行正则化,得到正则 化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
[0010] 根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所述非负主题-文档矩 阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数; [0011] 确定使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,并 根据使所述目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对所述待聚类 的文档进行聚类。
[0012] 第二方面,提供了一种文档聚类的装置,所述装置包括:
[0013] 第一获取模块,用于根据待聚类的文档获取检索词-文档矩阵;
[0014] 第二获取模块,用于根据所述检索词-文档矩阵中的检索词获取初始化的非负检 索词-主题矩阵,并根据所述检索词-文档矩阵中的文档获取初始化的非负主题-文档矩 阵;
[0015] 正则化模块,用于对所述非负检索词-主题矩阵及所述非负主题-文档矩阵进行 正则化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
[0016] 第一确定模块,用于根据所述检索词-文档矩阵、所述非负检索词-主题矩阵、所 述非负主题-文档矩阵、所述正则化的非负检索词-主题矩阵及正则化的非负主题-文档 矩阵确定目标函数;
[0017] 第二确定模块,用于确定使所述目标函数最小化的非负检索词-主题矩阵及非负 主题-文档矩阵;
[0018] 聚类模块,用于根据使所述目标函数最小化的非负检索词-主题矩阵及非负主 题-文档矩阵对所述待聚类的文档进行聚类。
[0019] 本发明实施例提供的技术方案带来的有益效果是:
[0020] 通过根据检索词-文档矩阵获取初始化的非负检索词-主题矩阵及初始化的非负 主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、 正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数,并根据使 目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进行聚 类,由于检索词-主题矩阵及主题-文档矩阵均非负,使得文档聚类的效率较高,并且通过 对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,避免了非负检索词-主题矩 阵及非负主题-文档矩阵出现稀疏化及过拟合的问题,优化了文档聚类的结果。
【附图说明】
[0021] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0022] 图1是本发明实施例提供的文档聚类的方法的流程图;
[0023] 图2是本发明另一实施例提供的文档聚类的方法的流程图;
[0024] 图3是本发明另一实施例提供的文档聚类的装置的结构示意图;
[0025] 图4是本发明另一实施例提供的正则化模块的结构示意图;
[0026] 图5是本发明另一实施例提供的第二确定模块的结构示意图;
[0027] 图6是本发明另一实施例提供的聚类模块的结构示意图;
[0028] 图7是本发明另一实施例提供的服务器的结构示意图。
【具体实施方式】
[0029] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0030] 针对文档聚类过程中根据检索词-文档矩阵获取到的检索词-主题矩阵及主 题-文档矩阵中元素可能存在负值的情况,本发明实施例提供了 一种文档聚类的方法,参 见图1,方法流程包括:
[0031] 101 :根据待聚类的文档获取检索词-文档矩阵,根据检索词-文档矩阵中的检索 词获取初始化的非负检索词-主题矩阵,并根据检索词-文档矩阵中的文档获取初始化的 非负主题-文档矩阵;
[0032] 102 :对非负检索词-主题矩阵及非负主题-文档矩阵进行正则化,得到正则化的 非负检索词-主题矩阵及正则化的非负主题-文档矩阵;
[0033] 作为一种可选实施例,对非负检索词-主题矩阵及非负主题-文档矩阵进行正则 化,得到正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵,包括 :
[0034] 根据正则化中的第一范数Ll对非负检索词-主题矩阵进行正则化,得到正则化的 非负检索词-主题矩阵;
[0035] 根据正则化中的第二范数L2对非负主题-文档矩阵进行正则化,得到正则化的非 负主题-文档矩阵。
[0036] 103 :根据检索词-文档矩阵、非负检索词-主题矩阵、非负主题-文档矩阵、正则 化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定目标函数;
[0037] 作为一种可选实施例,根据检索词-文档矩阵、非负检索词-主题矩阵、非负主 题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档矩阵确定的目 标函数为:
[0038]
[0039] 其中,D为检索词-文档矩阵,D =[屯]e R_ ;U为非负检索词-主题矩阵,U =
[ulk] e r*;V为非负主题-文档矩阵,V= [vk]] e 为正则化的非负检索 词-主题矩阵;为正则化的非负主题-文档矩阵;m表示检索词数,I I I IF表示弗罗 贝尼乌斯范数,K表示主题数,η表示文档数,(!彡0, β彡0。
[0040] 104 :确定使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵,并 根据使目标函数最小化的非负检索词-主题矩阵及非负主题-文档矩阵对待聚类的文档进 行聚类。
[0041] 作为一种可选实施例,确定使目标函数最小化的非负检索词-主题矩阵及非负主 题-文档矩阵,包括:
[0042] 根据上一次得到的非负检索词-主题矩阵获取更新的非负检索词-主题矩阵,并 根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档矩阵;
[0043] 对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检索 词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负检索 词-主题矩阵;
[0044] 根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主题-文档矩 阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩阵确定目标 函数是否已最小化;
[0045] 如果目标函数未最小化,则重新根据上一次得到的非负检索词-主题矩阵获取更 新的非负检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主 题-文档矩阵;对更新的非负检索词-主题矩阵进行正则化,得到正则化的更新的非负检 索词-主题矩阵,并对更新的非负主题-文档矩阵进行正则化,得到正则化的更新的非负 检索词-主题矩阵;根据检索词-文档矩阵、更新的非负检索词-主题矩阵、更新的非负主 题-文档矩阵、正则化的更新的非负检索词-主题矩阵、正则化的更新的非负主题-文档矩 阵确定目标函数是否已最小化,直至得到使目标函数最小化的非负检索词-主题矩阵及非 负主题-文档矩阵。
[0046] 作为一种可选实施例,根据上一次得到的非负检索词-主题矩阵获取更新的非负 检索词-主题矩阵,并根据上一次得到的非负主题-文档矩阵获取更新的非负主题-文档 矩阵,包括:
[0047] 根据上一次得到的非负检索词-主题矩阵按照公式卜^ =max((U/; 获取 更新的非负检索词-主题矩阵;
[0048] 根据上一次得到的非负主题-文档矩阵按照公式获取更 新的非负主题-文档矩阵;
[0049] 其中,t+Ι代表当前更新,t代表上一次更新或初始化,η表示非负检索词-主 题矩阵的更新步长,ξ表示非负主题-文档矩阵的更新步长

,Dt表示D的转置矩阵,01%1 e R1*"为全零向量,D'TSD'的转置矩 \ J 阵
》Vt表示V的转置矩阵,e R1?为全1向量,ν'τ表示V'的
转置矩阵, 、,,. ^ , Oiwn为Κ*η的全零矩阵,
\? F - ? >/ ?v 2(J!/ U V Im(为Κ*Κ的单位矩阵,U'T为U'的转置矩阵。
[0050] 作为一种可选实施例,根据使目标函数最小化的非负检索词-主题矩阵及非负主 题-文档矩阵对待聚类的文档进行聚类,包括:
[0051] 对使目标函数最小化的非负检索词-主题矩阵进行归一化;
[0052] 根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵 进行归一化;
[0053] 根据归一化的非负主题-文档矩阵对待聚类的文档进行聚类。
[0054] 作为一种可选实施例,对使目标函数最小化的非负检索词-主题矩阵进行归一 化,包括:
[0055] 按照如下公式对使目标函数最小化的非负检索词-主题矩阵进行归一化,得到归 一化的非负检索词-主题矩阵U 1.,'' :
[0056]
[0057] 根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负主题-文档矩阵 进行归一化,包括:
[0058] 按照如下公式根据归一化的非负检索词-主题矩阵对使目标函数最小化的非负 主题-文档矩阵进行归一化,得到归一化的非负主题-文档矩阵V ld ' :
[0059]
[0060] 其中,Uik为使目标函数最小化的非负检索词-主题矩阵,为使目标函数最小 化的非负主题-文档矩阵。
[0061] 本发明实施例提供的方法,通过根据检索词-文档矩阵获取初始化的非负检索 词-主题矩阵及初始化的非负主题-文档矩阵后,根据检索词-文档矩阵、非负检索词-主 题矩阵、非负主题-文档矩阵、正则化的非负检索词-主题矩阵及正则化的非负主题-文档 矩阵确定目标函数,并根据使目标函数
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1