一种基于改进lda模型的互联网话题在线挖掘方法_2

文档序号:9417497阅读:来源:国知局
,不但超参数δ、I 的取值随既往挖掘信息而动态更新,而且在时刻^生成k个话题对所有词语的概率分布 时,不同话题采用不同的超参数(即f的k个不同分量虑、戾、…局这比传统LDA模 型中始终采用固定的、预设的超参数沒、身要合理得多。
[0029] 有益效果:基于改进LDA模型(On-LDA模型)的互联网话题在线挖掘方法,从根本 上改变了传统LDA模型在话题挖掘过程中关于超参数δ 的赋值方式和使用效果。它充 分利用网页内容所属的分类信息来对模型超参数泛,I赋初值,使超参数的初值完全依赖 于待挖掘网页内容本身(而不是预先选定的语料库),既简化了计算过程又更具合理性。
[0030] 同时,模型超参数5、/5的值随已经处理过的网页内容而动态改变(而不是在话 题挖掘过程中保持不变),因此能够更加准确和及时地反映互联网中话题的演化过程。上述 特征,使本发明的应用领域不再局限于静态、离线的话题挖掘环境,尤其在互联网话题在线 检测和挖掘方面比传统话题挖掘方法表现出更优越的时效性、计算效率和准确度。
【附图说明】
[0031] 图1是改进LDA模型(On-LDA模型)的概率图模型,描述了 On-LDA模型如何生成 所有文档的对应词集。其中5是Dirichlet分布的超参数,在不同时刻有相应的具体取 值,而義是当前超参数/1针对第S(KsSk)个话题的第s维列向量。假定在某一时刻t 对η个网页内容进行话题挖掘,生成k个话题,则I.为第i个网页Cl(l < i Sn)的话题分 布,式表示第s (I < s < k)个话题的词语分布,triy表示网页c i的第r个词所分配到的话 题编号,Wy表示网页c i的第r个词。
[0032] 图2是On-LDA模型超参数这,卢的动态更新过程。
[0033] 图3是基于On-LDA模型进行话题挖掘的吉布斯采样过程。其中Zw是话题集合Z 1 的初始值,》(〇:)表示词语< Π?)Τ )出现在话题4 (l?k)中的次数,K) 表示话题< ( 出现在网页< (1句矣η)中的次数。概率尸(气,.表示 在排除网页< 的第r个词的当前所分配话题编号的前提下,利用网页集合C1和词语集合W1 的信息,计算网页< 的第r个词对其余各个话题的概率分布。Θ表示由网页 的语义特征向量I作为行向量所组成的矩阵。Φ表示由k个话题对W1中所有词语的概率 分布作为行向量所组成的矩阵。
【具体实施方式】
[0034] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明 而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。
[0035] (1)采用On-LDA模型作为基础,对互联网中大量网页资源所包含的话题进行在 线挖掘。On-LDA模型是一个支持动态、在线话题挖掘的改进LDA模型,其概率图模型如 图1所示,涵义为:对η个网页(文档)挖掘生成k个话题的过程,本质上可看作一个网 页(文档)词语集合的生成过程,即先用当前超参数S对每一个网页 Cl(l < i Sn)采 样生成其话题分布$,再依据I采样生成网页(^的每一个词的话题编号triy;同时,利用 当前超参数#的每一维列向量ft .s<k;采样生成对应话题(即第s个话题)的词 语分布A ;最后,通过采样生成网页C1的每一个词w v,即得到网页C1的词语集合。基于 On-LDA模型的互联网话题在线挖掘方法对应一个持续的、流式的、逐段进行的话题挖掘过 程,它每次处理n(多1)个网页,这些网页通常由网络爬虫以在线、实时的方式从互联网 采集得到,对这些网页的内容进行挖掘的结果生成k(多1)个话题。在处理完当前η个网 页后,对新采集到的η个网页继续进行该过程。假定在初始时刻t。对由η个网页构成的 网页资源集合C= ..,<丨进行话题挖掘,集合(:°中所有网页包含的不同词语构 成集合,挖掘生成由k个话题构成的话题集合#=以, I. 而在时刻tJiX))对网页资源集合C=料,cj, 进行话题挖掘,此时考虑集合 " >:0 中所有网页所包含的不同词语所构成的集合》挖掘生成话题集合 Zi= {冬 4,…,<}。在上述 W°和 W1 中,v°= IwTv1= Iw1I。
[0036] 基于改进LDA模型(On-LDA模型)的互联网话题在线挖掘方法,主要涉及3个计 算过程,包括On-LDA模型超参数的初始化、On-LDA模型超参数的动态更新、基于On-LDA模 型的互联网话题挖掘等。
[0037] (2) On-LDA模型超参数的初始化。On-LDA模型主要利用网页内容的分类信息,来 对超参数5、衣赋初值。对于互联网中给定领域(如新闻领域)的网页资源,每个网页的内 容对应该领域的一个分类信息(如时政、军事、科技等),它是网页的内容元数据。假设给定 领域中所有网页资源内容的全部分类信息用集合G = Icat1, cat2,…,catg}表示,其中g = IGI,而cats (I < s < g)代表一个具体的分类信息(如时政)。首先用集合G的大小来设 定参数k的取值,即k = g = IGI,它决定了 On-LDA模型每次挖掘产生的话题数。在此基础 上,对On-LDA模型中的超参数,、.I进行初始化,得到初始时刻t。的超参数值和|β (上 标T表示矩阵转置):
[0038]
[0039]
[0040] 在5"和中,对于1彡8彡1^有:
[0041]
其中count_doc (cats)表示网页资源集合C°中内容属于 分类信息cats(l彡s彡k)的网页总数;
[0042] 冲把,.(IsX V0)取值如下:
[0043] 其中count_doc (cats)表示词语^^其中出现在C° 中具有分类信息cats的所有网页中的总次数。
[0044] (3) On-LDA模型超参数的动态更新。On-LDA模型在持续、流式的话题挖掘过程中, 当每次话题挖掘完成后会及时利用统计信息动态更新超参数5 . #,并采用更新后的超参 数进行下一次话题挖掘,这与经典LDA模型有显著的差别。On-LDA模型超参数的更新过程 如图2所示。在初始时刻t。,On-LDA模型中的超参数忒、异分别取初始化值遂。和/i'假设 在时刻tji彡1)超参数δ、扃分别取值斤和据此对网页资源集合4, 进行话题挖掘,生成话题集合幺=丨冬Z:;,...,心。紧接着,对超参数#、#进行更新,具 体方法如下。首先,采用如下公式更新超参数5为;
[0045]
[0046] 其中尤U和C/的取值如下:
[0047]
[0048]
[0049] 矩阵,的第j (0彡j彡i)列为-., ,它表示在网页资源集合Ci 的所有网页中,包含有话题集合Z1中各个话题相应词语的频度,即< (0 表示C1中 所有网页包含有被标记为话题的词语的数量。
[0050] 考虑到距离当前时刻U1)越久的网页内容对当前话题挖掘的影响越小,所以在更 新On-LDA模型的超参数时,可使用指数衰减函数来表示既往各时刻的网页内容对当前话 题挖掘的影响权重,形成时间权重矩阵。其中,λ为衰减因子,n。为归一化常数。
[0051] 接着,采用如下公式更新超参数#为|i+S
[0052]
[0053] 其中,对1彡s彡k有:
[0054]
[0055] 矩阵的第j (〇 < j < i)列为,,敗丨,它表示以话 题 < 的各个词语做参照,词语集合W1中的所有词语在时刻q时出现的次数。若话题4包含 词语<,则尽^等于在时刻h时词语%出现在C1的所有网页中的总次数;若话题4不包含 词语<,则故^>等于0。是与前面一样的时间权重矩阵。
[0056] (4)基于On-LDA模型的互联网话题挖掘。假设在时刻h (i彡0)需对网页资源集 合C = g, C0·进行话题挖掘。此时,首先确定On-LDA模型的超参数5、1的取值。如 果是在时刻t。对最先采集到的网页资源集合(:°进行话题挖掘,此时先按照On-LDA模型超 参数的初始化过程,计算超参数沒、#的初始值#和歹、如果是在时刻t (i彡1)对采集到 的网页资源集合C1进行话题挖掘,则超参数d /1的取值为在上一时刻U1 J话题挖掘结 束时,经On-LDA模型超参数动态更新后得到的Ji和歹。接着,按照如图1所示的On-LDA概 率图模型,并采用如图2所示的吉布斯采样(Gibbs Sampling)方法,对网页资源集合C1进 行话题挖掘,生成话题集合# = {z丨,z〗,…,〇,并且得到C1中每个网页< (1矣对 应于话题集合Zi的语义特征向量祀=(片"山,4,2,,叫其中片糾(1? k)为 网页4属于话题zj的概率。
[0057] 需要说明的时,在基于On-LDA模型的互联网话题挖掘过程中,不但超参数J I 的取值随既往挖掘信息而动态更新,而且在时刻^生成k个话题对所有词语的概率分布 时,不同话题采用不同的超参数(即#%k个不同分量汊、戾、…/? ),这比传统LDA模型 中始终采用固定的、预设的超参数这、I要合理得多。
[005
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1