一种基于改进lda模型的互联网话题在线挖掘方法

文档序号:9417497阅读:419来源:国知局
一种基于改进lda模型的互联网话题在线挖掘方法
【技术领域】
[0001] 本发明属于互联网技术领域,具体涉及一种基于改进LDA模型的互联网话题在线 挖掘方法,该方法能够克服传统LDA模型对于动态挖掘互联网话题的不适应性,可以实时 地对大量网页资源中所包含的话题进行在线检测和挖掘。
【背景技术】
[0002] 互联网的高速发展和广泛普及,使它逐渐成为人们快速获取、发布和传递信息的 重要媒介。尤其近年来移动互联网得到长足发展,它充分结合了移动通信和互联网二者的 优势,使人们获取信息的途径更加便捷。互联网中来源众多、立场各异的大量信息资源不 断涌现,它们所反映的一些热点和敏感话题往往借助于网络而以极快的速度进行传播和扩 散,对社会产生重大影响。因此,如何对大量网页信息资源中所包含的话题进行实时检测和 挖掘,快速发现和捕捉网络热点话题,和(或)按照话题归集聚类互联网信息资源,对于实 时跟踪监测网络舆情、理顺互联网内容大数据、以及导引读者快速找到自己感兴趣的信息 等,都具有十分重要的作用。
[0003] 关于复杂网络的研究表明,互联网已经演化为服从幂律的无标度(scale-free) 网络。其无标度特征的一个主要表现是,少数网站拥有远高于普通网站成千上万倍的连接 访问数,它们形成万维网(Web)中的集散结点(hubs),成为互联网内容访问流量的主要源 头。充分利用这种特征,通过对主流及热门网站采取基于网络爬虫的信息采集技术,可以在 较高的覆盖度上动态、高效地汇集大量网页信息资源,为互联网话题的实时检测和挖掘提 供前提基础。然而,动态汇集的网页信息资源量大义繁,并且这些网页内容一般具有很强的 时效性,所反映的话题及其热度常常随时间动态变化。考察目前已有的一些针对话题挖掘 和检测的算法模型,其中较有影响的如PLSA(Probabilistic Latent Semantic Analysis) 模型和LDA(Latent Dirichlet Allocation)模型等。分析表明,PLSA模型关于话题的多 项分布概率模型不够完善(它只关注于似然函数却忽略了参数的先验分布),并且当文档 数及词语量增大时模型复杂度及迭代计算量显著增加。而LDA模型依赖于两个Dirichlet 分布超参数S和它们在初始时通常按照经验进行取值,或者先对某个特定语料库进行 实验,然后按照实验结果最优来进行取值,并且超参数的值设定后在整个话题挖掘过程中 保持不变。另外,LDA模型在生成所有话题对各个词语的概率分布时采用同一个超参数彦,: 这种做法也不尽合理。所以,PLSA和LDA等话题挖掘和检测模型,一般适用于语料库相对静 态的离线话题挖掘环境,而对于互联网话题的实时、流式在线挖掘需求,在合理性、时效性、 计算效率及准确度等方面大打折扣。

【发明内容】

[0004] 发明目的:针对现有技术中存在的问题,本发明提供一种基于改进LDA模型的互 联网话题在线挖掘方法。该方法的基础是一个改进的LDA模型(简记On-LDA),它初始时利 用待挖掘网页内容的分类信息来对超参数d、/〗赋初值,然后在每次话题挖掘完成后利用 相关统计信息动态更新On-LDA模型的超参数。基于改进LDA模型(On-LDA模型)的互联 网话题在线挖掘方法可有效克服PLSA、LDA等传统模型受制于静态、离线话题挖掘环境的 局限性,它能够更加准确和及时地反映当前互联网中"话题"随不断涌现的新网页而动态演 化的实际情况,从而支持对大量网页内容资源中所包含的话题进行在线检测和挖掘。
[0005] 本发明中的"话题"是指从给定网页集合的内容中提取出的、经过规范化处理的、 可反映网页内容的主旨和要义等深层语义特征的主题词或短语的集合。本发明采用On-LDA 模型作为基础,对互联网中大量网页资源所包含的话题进行在线挖掘。On-LDA模型是一个 支持动态、在线话题挖掘的改进LDA模型。
[0006] 技术方案:一种基于改进LDA模型的互联网话题在线挖掘方法,对应一个持续的、 流式的、逐段进行的话题挖掘过程,每次处理n(多1)个网页,这些网页通常由网络爬虫以 在线、实时的方式从互联网采集得到,对这些网页的内容进行挖掘的结果生成1)个话 题。在处理完当前η个网页后,对新采集到的η个网页继续进行该过程。假定在初始时刻 t。对由η个网页构成的网页资源集合Cfl=_ c〗]·进行话题挖掘,集合(:°中所有网 页包含的不同词语构成集合…,,挖掘生成由k个话题构成的话题集合 ,={44...,而在时刻MiX))对网页资源集合C i= {c(,4…,〇进行话题挖掘, 7 此时考虑集合UC7>所有网页所包含的不同词语所构成的集合JT = {4, Wp,挖 J-O 掘生成话题集合^''_=丨:4,4^...,-,..0。.在上述评°和评1中,'^°=1'^°1,'^ 1=1评11。
[0007] 基于改进LDA模型(On-LDA模型)的互联网话题在线挖掘方法,主要涉及3个计 算过程,包括On-LDA模型超参数的初始化、On-LDA模型超参数的动态更新、基于On-LDA模 型的互联网话题挖掘等。
[0008] On-LDA模型超参数的初始化。On-LDA模型主要利用网页内容的分类信息,来对超 参数d、/1赋初值。对于互联网中给定领域(如新闻领域)的网页资源,每个网页的内容对 应该领域的一个分类信息(如时政、军事、科技等),它是网页的内容元数据。假设给定领域 中所有网页资源内容的全部分类信息用集合G= Icat1, Cat2,…,catg}表示,其中g= |G|, 而cats (I < s < g)代表一个具体的分类信息(如时政)。首先用集合G的大小来设定参 数k的取值,即k = g = |G|,它决定了 On-LDA模型每次挖掘产生的话题数。在此基础上, 对On-LDA模型中的超参数这.、声进行初始化,得到初始时刻t。的超参数值#和(上标 T表示矩阵转置):
[0011] 在和,中,对于1彡s彡k有:
[0009]
[0010] CN 105138665 A 说明书 3/9 页
[0012]
'其中count_doc(cats)表示网页资源集合C°中内容属于 分类信息cats(l彡s彡k)的网页总数;
[0013]
[0014] 中具有分类信息cats的所有网页中的总次数。
[0015] On-LDA模型超参数的动态更新。On-LDA模型在持续、流式的话题挖掘过程中,当 每次话题挖掘完成后会及时利用统计信息动态更新超参数?、^,并采用更新后的超参数 进行下一次话题挖掘,这与经典LDA模型有显著的差别。On-LDA模型超参数的更新过程:在 初始时刻t Q,0n-LDA模型中的超参数J、I分别取初始化值,和卢%假设在时刻tji彡1) 超参数5、肩分别取值纪和歹,据此对网页资源集合0进行话题挖掘,生 成话题集合Zf =(<;,ζ丨。紧接着,对超参数g、肩进行更新,具体方法如下。首先, 采用如下公式更新超参数J为5~ :
[0016]
[0017]
[0018]
[0019]
[0020] 矩阵的第列为,它表示在网页资源集合〇]的所 有网页中,包含有话题集合Z1中各个话题相应词语的频度,即《? 0)£、::1、)表示〇]中所有网 页包含有被标记为话题4的词语的数量。
[0021] 考虑到距离当前时刻U1)越久的网页内容对当前话题挖掘的影响越小,所以在更 新On-LDA模型的超参数时,可使用指数衰减函数来表示既往各时刻的网页内容对当前话 题挖掘的影响权重,形成时间权重矩阵。其中,λ为衰减因子,n。为归一化常数。
[0022] 接着,采用如下公式更新超参数#为及+1:
[0023] CN 105138665 A 说明书 4/9 页
[嶋]矩阵的第J(0^i)列为(Ο监,,4?,,…,從;J,它表示以话题
[0024]
[0025] 4的各个词语做参照,词语集合W1中的所有词语在时刻h时出现的次数。若话题泌包含词 语<,则嶸;.;.,等于在时刻h时词语4出现在C]的所有网页中的总次数;若话题Z;不包含 词语w:,则磁^等于0。是与前面一样的时间权重矩阵。
[0027] 基于On-LDA模型的互联网话题挖掘。假设在时刻h (i彡0)需对网页资源集合 C = W, 进行话题挖掘。此时,首先确定On-LDA模型的超参数这、I的取值。如 果是在时刻t。对最先采集到的网页资源集合(:°进行话题挖掘,此时先按照On-LDA模型超 参数的初始化过程,计算超参数:?...、J的初始值iie和身~如果是在时刻tji彡1)对采集 到的网页资源集合C1进行话题挖掘,则超参数彦、的取值为在上一时刻U1 D话题挖掘 结束时,经On-LDA模型超参数动态更新后得到的淀和〇接着,按照On-LDA概率图模型,并 采用如图2所示的吉布斯采样(Gibbs Sampling)方法,对网页资源集合C1进行话题挖掘, 生成话题集合
,并且得到C1中每个网页4 (对应于话题集合 Z1的语义特征向量,其中< s) (1分众)为网页<属于话题2丨 的概率。
[0028] 需要说明的时,在基于On-LDA模型的互联网话题挖掘过程中
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1