基于at的时间模型构建方法与网络突发事件预警方法

文档序号:9929642阅读:499来源:国知局
基于at的时间模型构建方法与网络突发事件预警方法
【技术领域】
[0001] 本发明属于数据挖掘、自然语言处理和信息检索领域,设及网络突发事件模型构 建和发展分析,用于对网络文档流进行建模,并通过对模型计算得到的结果做进一步处理, 对可能的突发事件进行预警。具体讲,设及基于AT的时间模型构建方法与网络突发事件预 警方法。
【背景技术】
[0002] 文本分类技术首次出现在上世纪50年代末,Luhn提出了一种基于词频的文本自动 分类方法。随着近年来信息技术的迅猛发展,文本分类已经成为信息检索领域内的研究热 点。
[0003] 话题检测与跟踪(Topic Detection and Tracking,TDT)与文本分类技术一脉相 承,是文本分类技术的一种更为具体的应用,它最早由美国国防高级研究计划署(DARPA)提 出,是一种能在没有人工干预的情况下自动判断新闻数据流的主题的新技术。主要设及准 确地进行话题检测和跟踪已知话题的动态演化过程。
[0004] 为话题和文档建立计算机可W表示的模型是TDT中最为基础的研究内容,目前文 本表示模型主要有向量空间模型(Vector Space Model,VSM)、概率检索模型(Probability Retrieval Model)、词汇链模型和图模型(Gra地S Models,GM)。
[0005] 在文本表示模型中需要对文档进行特征提取,而权重计算是特征提取的最重要一 环,目前最为广泛的权重计算方法为TF-IDF(词频-逆文档频率)。近年来,研究人员在其基 础上改进,提出了解决短期内热点发现的TF-PDF方法。
[0006] 话题检测算法在本质上是对文档库中的文档进行聚类,将描述较为相似的、很可 能属于同一个话题的文档聚类到一个文本簇中,而运个文本簇就是话题的原型。文本聚类 是一种无监督的机器学习方法,其主要依据运样一个著名的聚类假设:同类的文档相似度 较大,不同类的文档相似度较小,也就是说,两个文档的相似度越大,它们属于同一个类的 概率越大,反之亦然。在话题检测技术中常用的文本聚类方法包括层次聚类方法,基于划分 的聚类方法W及增量聚类方法。
[0007] 生物成长理论(Aging化eo巧,AT)可W使用微生物在培养基上的生长情况为代表 来进行说明。如图2所示,为微生物的生长曲线。微生物的生长需要经历四个过程,首先是调 整期,此时微生物刚刚接种到培养基之上,其代谢系统需要适应新的环境,同时要合成酶、 辅酶、其他代谢中间代谢产物等,所W此时期的细胞数目没有明显增加;然后进入对数增长 期,经过调整期的准备,为此时期的微生物生长提供了足够的物质基础,同时外界环境也是 最佳状态;第=个阶段是稳定期,由于营养的消耗使营养物比例失调、有害代谢产物积累、 PH值EH值等理化条件不适宜,使得细胞数目保持相对稳定,总细菌数达到最高水平,细胞代 谢产物积累达到最高峰;最后是衰亡期,在此阶段,主要是外界环境对继续生长越来越不 利、细胞的分解代谢大于合成代谢、继而导致大量细菌死亡。类似于生物生长的自然规律, 一个事件在网络中被讨论的热度,也会随着时间的推移呈现出类似于微生物生长的趋势变 化曲线。

【发明内容】

[0008] 为克服现有技术的不足,本发明旨在:
[0009] (1)利用最前沿的话题检测技术,改进检测方案,选取符合需求的聚类方法,从而 得到较为准确的聚类结果。
[0010] (2)改进的生长理论为话题构建生命周期模型,考虑诸多因素使得事件模型更契 合实际情况。
[0011] (3)在已构建的生命周期模型的基础上进行热点事件W及突发事件的检测及预警 并保证较高的准确率。
[0012] 本发明采用的技术方案是,基于AT的时间模型构建方法与网络突发事件预警方 法,步骤如下:
[0013] 步骤一:定制网络爬虫,爬取网络新闻文档;
[0014] 步骤二:对爬取的网络新闻文档进行中文分词和其它预处理;
[0015] 步骤=:对文档中的词语进行词语权重计算;
[0016] 步骤四:文本表示及相似度计算;
[0017] 步骤五:对文档进行聚类;
[0018] 步骤六:选取营养转换因子和营养衰减因子.
[0019] 步骤屯:突发事件检测与预警。
[0020] 步骤二在步骤一的基础上对爬取的网络新闻文档进行中文分词和其它预处理,具 体步骤如下:降噪处理,删除爬取到的垃圾信息;去重处理,去除完全相同的新闻报道;去停 用词,停用词没有任何实际意义,对此进行过滤处理;中文分词处理,将中文句子分成单独 的一个一个词。
[0021] 步骤=在步骤二的基础上对文档中的词语进行词语权重计算,具体步骤如下:
[0022] 在增量TF-IDF计算词语W的权重时,需要对在i时刻包含W的文档个数壯i(W) W及 当前获取的文档总数Ni进行更新,其更新的公式如1和2所示;其中成'(vr)表示在第i个时间 段内新加入的包含W的文档个数,W,,表示在第i个时间段内新加入的总的文档个数,dfi(W) 表示前i个时间窗内包含词语W的文档数,壯i-i(w)表示前i-1个时间窗内包含词语W的文档 数,N康示前i个时间窗内文档总数:
[0023] (1)
[0024] (2)
[0025] 利用公式(3)计算词语W的增量TF-IDF值,其中tfidf/ (w,d)表示文档d中词语W的 权重,count (W,d)表示文档d中词语W出现的次数,count (,d)表示文档d中词语W'出现的 次数,IogO是WlO为底的对数函数:
[0026]
(引'
[0027] 将词语的位置信息考虑到词语的权重计算中,对表示地点、人物等名词加大权重, 得到加权TF-IDF计算方法,如公式4所示。其中tf idf" (W,d)表示词语W在文档d中的加权权 重,Wheadline和Wentity权重因子。
[002引
(4)
[00巧]Wheadline和Wentity计算方式如公式5所不。
[0030]

[0031] 加入时间距离因子,时间距离因子TIF的计算方法如公式8所示,其中doc证Ublish 代表当前文档的发布时间,topic化date则表示话题中的文档集合最后一次更新的时间,时 间单位为秒,
[0032] 微
[0033] 结合时间距离因子后,计算文档和话题的相似度Sim(d,t)的方法如公式9所示:
[0034] Sim(d,t) =Similarity'(d,t)*TIF (9)。
[0035] 步骤四在步骤=的基础上对文档中的词语进行词语权重计算,具体步骤如下:
[0036] 采用空间向量模型来表示话题和文档,对每一个文档D,都可W将其表示为一个由 n个关键词组成的n维向量,而后就可W将文档中的内容转换为向量空间中的向量进行运 算,在将话题和文档使用向量空间模型表示为向量W后,就可W使用向量夹角来对文档与 话题之间的相似度进行量化;在将话题和文档使用向量空间模型表示为向量W后,使用向 量夹角来对文档与话题之间的相似度进行量化,如公式7所示,其中SimiIarit/ (d,t)表示 文档d和话题t的相似度,tfi壯(w,d)表示词语W在文档d中的权重,tfi壯(w,t)表示词语W在 话题t的权重。
[0037]
(7)。
[0038] 步骤五在步骤四的基础上对文档进行聚类,具体步骤如下:使用Single-Pass作为 在线话题检测的增量聚类方法,利用该方法并结合时间距离因子将新闻文档进行分类,具 体是:
[0039] (1)输入一篇网络文档d;
[0040] (2)计算文档d与当前已有话题中的各个话题中的每一篇文档的相似度,并选取其 中的最大值作为与该话题的相似度;
[0041] (3)在所有话题中选出与文档d相似度最大的一个话题,并记录此时的相似度值S;
[0042] (4)如果S大于聚类阔值Tc,文档d被分配给运个话题模型的文本类,跳转至(6);
[0043] (5)如果S小于聚类阔值Tc,说明文档d不属于当前已有的话题集合中的任意话题, 创建新话题并将文档d加入该新话题;
[0044] (6)聚类结束,等待新文档的到来。
[0045] 步骤六在步骤五的基础上选取营养转换因子和营养衰减因子,具体步骤如下:
[0046] 对一个话题V,记在一个时间窗t内所有的属于该话题的文档与其相似度的累加和 为Xt,设置营养转换因子a (Nutrition Transferred Factor)和营养衰减因子0(Nut;r it ion Decayed Factor),a决定了新闻文档能够贡献给话题的营养值,e则代表营养衰减因子,通 过设定相关函数,并通过机器学习的方法获得最佳的营养转换因子和营养衰减因子,根据 实际情况,网络新闻发布数量不是按时间均匀分布的,在新闻报道重量较少的情况下,话题 的能量值会衰减过快,因此考虑实际情况在计算即寸乘上一个与该时间窗内文档数量有关 的函数;同时在新话题建立初期,营养值会出现增长过快的情况,在计算当前文档对话题的 影响时乘上一个与该话题当前文档数相关的函数W进行抑制。
[0047] 步骤六进一步具体形式是:
[0048] 对于一个话题V,记在一个时间窗t内所有的属于该话题的文档与其相似度的累加 和为Xt,在t时刻话题的能量值可记为一个与a和PW及每
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1