一种基于改进lda模型的互联网话题在线挖掘方法_2

文档序号：9417497阅读：来源：国知局

，不但超参数δ、I 的取值随既往挖掘信息而动态更新，而且在时刻^生成k个话题对所有词语的概率分布时，不同话题采用不同的超参数（即f的k个不同分量虑、戾、…局这比传统LDA模型中始终采用固定的、预设的超参数沒、身要合理得多。
[0029] 有益效果：基于改进LDA模型（On-LDA模型）的互联网话题在线挖掘方法，从根本上改变了传统LDA模型在话题挖掘过程中关于超参数δ 的赋值方式和使用效果。它充分利用网页内容所属的分类信息来对模型超参数泛,I赋初值，使超参数的初值完全依赖于待挖掘网页内容本身（而不是预先选定的语料库），既简化了计算过程又更具合理性。
[0030] 同时，模型超参数5、/5的值随已经处理过的网页内容而动态改变（而不是在话题挖掘过程中保持不变），因此能够更加准确和及时地反映互联网中话题的演化过程。上述特征，使本发明的应用领域不再局限于静态、离线的话题挖掘环境，尤其在互联网话题在线检测和挖掘方面比传统话题挖掘方法表现出更优越的时效性、计算效率和准确度。
【附图说明】
[0031] 图1是改进LDA模型（On-LDA模型）的概率图模型，描述了 On-LDA模型如何生成所有文档的对应词集。其中5是Dirichlet分布的超参数，在不同时刻有相应的具体取值，而義是当前超参数/1针对第S(KsSk)个话题的第s维列向量。假定在某一时刻t 对η个网页内容进行话题挖掘，生成k个话题，则I.为第i个网页Cl(l < i Sn)的话题分布，式表示第s (I < s < k)个话题的词语分布，triy表示网页c i的第r个词所分配到的话题编号，Wy表示网页c i的第r个词。
[0032] 图2是On-LDA模型超参数这，卢的动态更新过程。
[0033] 图3是基于On-LDA模型进行话题挖掘的吉布斯采样过程。其中Zw是话题集合Z 1 的初始值，》(〇:)表示词语< Π?)Τ )出现在话题4 (l?k)中的次数，K) 表示话题< ( 出现在网页< (1句矣η)中的次数。概率尸(气,.表示在排除网页< 的第r个词的当前所分配话题编号的前提下，利用网页集合C1和词语集合W1 的信息，计算网页< 的第r个词对其余各个话题的概率分布。Θ表示由网页的语义特征向量I作为行向量所组成的矩阵。Φ表示由k个话题对W1中所有词语的概率分布作为行向量所组成的矩阵。
【具体实施方式】
[0034] 下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0035] (1)采用On-LDA模型作为基础，对互联网中大量网页资源所包含的话题进行在线挖掘。On-LDA模型是一个支持动态、在线话题挖掘的改进LDA模型，其概率图模型如图1所示，涵义为：对η个网页（文档）挖掘生成k个话题的过程，本质上可看作一个网页（文档）词语集合的生成过程，即先用当前超参数S对每一个网页 Cl(l < i Sn)采样生成其话题分布$，再依据I采样生成网页(^的每一个词的话题编号triy;同时，利用当前超参数#的每一维列向量ft .s<k;采样生成对应话题（即第s个话题）的词语分布A ;最后，通过采样生成网页C1的每一个词w v，即得到网页C1的词语集合。基于 On-LDA模型的互联网话题在线挖掘方法对应一个持续的、流式的、逐段进行的话题挖掘过程，它每次处理n(多1)个网页，这些网页通常由网络爬虫以在线、实时的方式从互联网采集得到，对这些网页的内容进行挖掘的结果生成k(多1)个话题。在处理完当前η个网页后，对新采集到的η个网页继续进行该过程。假定在初始时刻t。对由η个网页构成的网页资源集合C= ..，<丨进行话题挖掘，集合(：°中所有网页包含的不同词语构成集合，挖掘生成由k个话题构成的话题集合#=以， I. 而在时刻tJiX))对网页资源集合C=料，cj, 进行话题挖掘，此时考虑集合 " >：0 中所有网页所包含的不同词语所构成的集合》挖掘生成话题集合 Zi= {冬 4，…，<}。在上述 W°和 W1 中，v°= IwTv1= Iw1I。
[0036] 基于改进LDA模型（On-LDA模型）的互联网话题在线挖掘方法，主要涉及3个计算过程，包括On-LDA模型超参数的初始化、On-LDA模型超参数的动态更新、基于On-LDA模型的互联网话题挖掘等。
[0037] (2) On-LDA模型超参数的初始化。On-LDA模型主要利用网页内容的分类信息，来对超参数5、衣赋初值。对于互联网中给定领域（如新闻领域）的网页资源，每个网页的内容对应该领域的一个分类信息（如时政、军事、科技等），它是网页的内容元数据。假设给定领域中所有网页资源内容的全部分类信息用集合G = Icat1, cat2，…，catg}表示，其中g = IGI，而cats (I < s < g)代表一个具体的分类信息（如时政）。首先用集合G的大小来设定参数k的取值，即k = g = IGI，它决定了 On-LDA模型每次挖掘产生的话题数。在此基础上，对On-LDA模型中的超参数，、.I进行初始化，得到初始时刻t。的超参数值和|β (上标T表示矩阵转置）：
[0038]
[0039]
[0040] 在5"和中，对于1彡8彡1^有：
[0041]
其中count_doc (cats)表示网页资源集合C°中内容属于分类信息cats(l彡s彡k)的网页总数；
[0042] 冲把,.（IsX V0)取值如下：
[0043] 其中count_doc (cats)表示词语^^其中出现在C° 中具有分类信息cats的所有网页中的总次数。
[0044] (3) On-LDA模型超参数的动态更新。On-LDA模型在持续、流式的话题挖掘过程中，当每次话题挖掘完成后会及时利用统计信息动态更新超参数5 . #，并采用更新后的超参数进行下一次话题挖掘，这与经典LDA模型有显著的差别。On-LDA模型超参数的更新过程如图2所示。在初始时刻t。，On-LDA模型中的超参数忒、异分别取初始化值遂。和/i'假设在时刻tji彡1)超参数δ、扃分别取值斤和据此对网页资源集合4, 进行话题挖掘，生成话题集合幺=丨冬Z:;,...，心。紧接着，对超参数#、#进行更新，具体方法如下。首先，采用如下公式更新超参数5为;
[0045]
[0046] 其中尤U和C/的取值如下：
[0047]
[0048]
[0049] 矩阵,的第j (0彡j彡i)列为-., ，它表示在网页资源集合Ci 的所有网页中，包含有话题集合Z1中各个话题相应词语的频度，即< (0 表示C1中所有网页包含有被标记为话题的词语的数量。
[0050] 考虑到距离当前时刻U1)越久的网页内容对当前话题挖掘的影响越小，所以在更新On-LDA模型的超参数时，可使用指数衰减函数来表示既往各时刻的网页内容对当前话题挖掘的影响权重，形成时间权重矩阵。其中，λ为衰减因子，n。为归一化常数。
[0051] 接着，采用如下公式更新超参数#为|i+S
[0052]
[0053] 其中，对1彡s彡k有：
[0054]
[0055] 矩阵的第j (〇 < j < i)列为,，敗丨，它表示以话题 < 的各个词语做参照，词语集合W1中的所有词语在时刻q时出现的次数。若话题4包含词语<，则尽^等于在时刻h时词语％出现在C1的所有网页中的总次数；若话题4不包含词语<，则故^>等于0。是与前面一样的时间权重矩阵。
[0056] (4)基于On-LDA模型的互联网话题挖掘。假设在时刻h (i彡0)需对网页资源集合C = g, C0·进行话题挖掘。此时，首先确定On-LDA模型的超参数5、1的取值。如果是在时刻t。对最先采集到的网页资源集合(：°进行话题挖掘，此时先按照On-LDA模型超参数的初始化过程，计算超参数沒、#的初始值#和歹、如果是在时刻t (i彡1)对采集到的网页资源集合C1进行话题挖掘，则超参数d /1的取值为在上一时刻U1 J话题挖掘结束时，经On-LDA模型超参数动态更新后得到的Ji和歹。接着，按照如图1所示的On-LDA概率图模型，并采用如图2所示的吉布斯采样（Gibbs Sampling)方法，对网页资源集合C1进行话题挖掘，生成话题集合# = {z丨，z〗，…，〇，并且得到C1中每个网页< (1矣对应于话题集合Zi的语义特征向量祀=(片"山，4,2,,叫其中片糾（1? k)为网页4属于话题zj的概率。
[0057] 需要说明的时，在基于On-LDA模型的互联网话题挖掘过程中，不但超参数J I 的取值随既往挖掘信息而动态更新，而且在时刻^生成k个话题对所有词语的概率分布时，不同话题采用不同的超参数（即#%k个不同分量汊、戾、…/? )，这比传统LDA模型中始终采用固定的、预设的超参数这、I要合理得多。
[005

完整全部详细技术资料下载

当前第2页1 2 3