一种农产品质量安全事件在线检测方法

文档序号:8258849阅读:263来源:国知局
一种农产品质量安全事件在线检测方法
【技术领域】
[0001] 本发明属于突发事件智能信息处理领域,特别涉及一种利用Web挖掘、话题检测 与跟踪等技术实现的农产品质量安全事件在线检测方法。
【背景技术】
[0002] 近年来,农产品质量安全事件不断发生,形式严峻。农产品质量安全等涉农突发事 件,社会影响大、受关注度高、敏感程度高,该类事件若不能及时发现和处置,极易引起社会 恐慌,进而引发系统性社会风险。随着互联网的快速发展,互联网已成为人们获取、发布和 传播信息的重要平台之一。例如:"瘦肉精"、"毒豇豆"、"青岛毒韭菜"等农产品质量安全事 件都是在互联网上率先披露。同时,网络也时常出现一些不科学、伪科学、断章取义、甚至恶 意诽镑的农产品安全信息。例如:"西瓜注射红色素"、"奶牛注射激素催奶"等所谓农产品 安全事故,损害了农业企业信誉,误导了消费者购买,甚至引起了一定程度的社会恐慌。对 新闻事件的识别、收集和整理的传统方法完全依赖人工处理,不仅耗时耗力,而且往往缺乏 全局性的分析与校对,忽略新闻事件之间的关联性,从而无法精确区分新事件和组织其衍 生事件。此外,由于农产品质量安全事件具有突发性、不确定性和社会敏感性等特点,农产 品质量安全事件发生后,相关部门需要及时掌握事件的舆情状况和发展态势,传统的信息 识别、获取和分析处理方法越来越不能满足农产品质量安全事件应急管理实践的需要,迫 切需要一种面向网络大数据进行农产品质量安全事件自动识别与组织的应用技术,准确、 及时地检测出最新的农产品质量安全事件,收集关于同一事件的后续报道并合理组织为有 机整体。

【发明内容】

[0003] 针对现有技术存在的上述问题,本发明提供一种农产品质量安全事件在线检测方 法,该方法通过对Web数据流进行挖掘分析,及时识别出农产品质量安全最新事件,并将已 知事件的Web文档组织成一个有机整体,进而实现对农产品质量安全事件的在线检测。
[0004] 为解决达到上述目的,本发明采用以下技术方案:
[0005] 一种农产品质量安全事件在线检测方法,具体包括以下步骤:
[0006] S1 :利用主题爬虫程序从指定网站上爬取农产品质量安全领域相关的Web页面, 将其下载到本地计算机上,对其进行预处理后存储到本地数据库中,预处理的Web页面构 成初始文档集合D。,为D。中的文档建立倒排索引。
[0007] S2 :对初始文档集合%进行主题特征抽取,经过特征空间降维后形成特征词集合 V= {Vl,v2,...,V|v|},|V|为特征词的个数,利用改进后的增量TF-IDF模型进行文本特征 表示,将初始文档集合%转化为一组特征向量,基于改进的特征词权重计算方法计算每一 特征词的权重。
[0008] S3:利用层次聚类法对文档集合%进行聚类训练,训练出类间相似度距离的阈值, 进而将文档集合%划分为多个类簇,每个类簇代表一个主题事件,从每个主题事件的文档 中选择若干个权重较高的特征词描述该事件,将上述聚类出的事件作为初始已知事件。
[0009] S4 :通过引入时间因素,构建一种基于时间窗口的Single-Pass增量聚类算法, 对当前新增网页集合Dt进行增量聚类,从当前系统新增文档中聚类出候选事件,计算候选 事件与已知事件的距离,根据步骤S3中训练出的阈值,把候选事件判定为新事件或已知事 件。
[0010] 进一步地,所述步骤S1还包括以下步骤:
[0011] S11 :设定初始种子URL列表(即种子网页),主题爬虫程序首先从种子网页开始, 利用网页间的超链接关系和超链接文本内容,分别加以链接拓扑分析和词法分析,进行领 域主题相关的网页推测和选择,具体如下:
[0012] 从一源网页出发,随着链接距离增加,训练出网页之间内容相似度的变化函数, 使用网HpdPp 2之间夹角的余弦。(Pl,p2)作为相似度衡量指标,从而测得两者之间的 链接距离SJpph);对每个主题q,在每个爬取深度为h的爬取集合/T中,所测得的距离 S : (Pl,p2)和相似度〇 (Pl,p2)对所有网页p求平均值:
【主权项】
1. 一种农产品质量安全事件在线检测方法,其特征在于,所述方法包括: 51 :利用主题爬虫程序从指定网站上爬取农产品质量安全领域相关的Web页面,将其 下载到本地计算机上,对其进行预处理后存储到本地数据库中,预处理的Web页面构成初 始文档集合D。,并为D。中的文档建立倒排索引; 52 :对初始文档集合%进行主题特征抽取,经过特征空间降维后形成特征词集合V= {力,v2,…,v|v|},|V|为特征词的个数,利用改进的增量TF-IDF模型进行文本特征表示,将 初始文档集合%转化为一组特征向量,基于改进的特征词权重计算方法计算每一特征词的 权重; 53 :利用层次聚类法对文档集合%进行聚类训练,训练出类间相似度距离的阈值,进而 将文档集合%划分为多个类簇,每个类簇代表一个主题事件,从每个主题事件的文档中选 择若干个权重较高的特征词描述该事件,将上述聚类出的事件作为初始已知事件; 54 :引入时间因素,构建一种基于时间窗口的Single-Pass增量聚类算法,对当前新增 网页集合Dt进行增量聚类,从当前新增文档中聚类出候选事件,计算候选事件与已知事件 的距离,根据步骤S3中训练出的阈值,把候选事件判定为新事件或已知事件。
2. 根据权利要求1所述的农产品质量安全事件在线检测方法,其特征在于,所述步骤 S1还包括以下步骤: 511 :设定初始种子URL列表,主题爬虫程序首先从种子网页开始,利用网页间的超链 接关系和超链接文本内容,分别加以链接拓扑分析和词法分析,进行领域主题相关的网页 推测和选择,具体如下: 从一源网页出发,随着链接距离增加,训练出网页之间内容相似度的变化函数,使用网 页pJPp22间夹角的余弦〇 (Pl,P2)作为相似度衡量指标,从而测得两者之间的链接距离 ;对每个主题q,在每个爬取深度为h的爬取集合$中,所测得的距离SJpdpJ 和相似度〇(PuP2)对所有网页P求平均值:
其中,S(q,h)为网页集合的平均链接距离,〇 (q,h)为网页集合的平均相似度, ^^是网页集合0以14(仏/?)</2丨的大小; 512 :对爬取到的网页进行预处理,包括:HTML域块识别、页面内容抽取、HTML标签移 除、中文分词、停用词移除; 513 :将预处理后的Web页面以及原始网页分别保存到本地数据库中,基于特征词集合 V={vnv2,…,v|v|}为Web页面建立倒排索引。
3. 根据权利要求2所述的农产品质量安全事件在线检测方法,其特征在于,步骤S12所 述HTML域块识别是指利用正则表达式辨别出Web页面中的HTML域;所述页面内容提取是 指基于D0M树匹配或基于位置和外观的特性建立机器学习模型,提取Web页面中的主要内 容块;所述中文分词是指利用分词软件对抽取出的中文文本进行分词处理;所述停用词移 除是指基于停用词列表剔除文本中的冠词、介词、连词以及一些代词。
4. 根据权利要求1所述的农产品质量安全事件在线检测方法,其特征在于,所述步骤 S2还包括以下步骤: 521 :根据Web文档中HTML标签类型及其所在位置的重要程度,将每个文档在逻辑上分 为若干种不同类型的文本块,记为{spSs,…,s|s|};每个文本块Si对应的文本长度为,分 别记为{^山,…,L|s|},其中|S|为文档的分块数; 522 :计算特征词vk的加权频率:
其中,tf(vk,cQ表示特征词tk在文档di中的加权频率,Lu为文档di中第j个文本块s^勺文本长度,|/^为特征词tk在文档di中第j个文本块^中实际出现的频率,swu为文 档屯的第j个文本块s」的位置权重; 523 :计算特征词vk的文档频率: 其中,dft+1 (vk)为特征词vk在t+1时刻的文档频率,dft (vk)为特征词vk在t时刻的文 档频率,Dt为时间段[t,t+1]内新增加的文档集合,#A+,(vJ为特征词Vk在文档集合D,中 的文档频率; 524 :计算特征词vk的逆向文档频率idft(vk): idft(vk) =log2(N/df(vk)+l) 其中,N为文档集合D中文档的数量,df(vk)为特征词vk的文档频率; 525 :计算t时刻特征词vk在文档d冲的权重weightt (vk,d):
其中,Zt(d)为归一化常量; 526 :计算t时刻文档屯和文档dj之间的内容相似度simt (屯,dj):
其中,weightt(vk,屯)表示t时刻特征词vk在文档di中的权重,weightt(vk,dj)表示t时刻特征词vk在文档屯中的权重,|V|为特征词集合V中的元素个数。
5. 根据权利要求1所述的农产品质量安全事件在线检测方法,其特征在于,所述步骤 S4还包括以下步骤: S41 :设定最大等待时间为AT_,最大新增网页数为AD_,设当前已等待时间为At, 若At彡AT_且|Dt|〈AD_,或|At〈AT_且Dt|彡AD_,则对新增网页集合Dt进行 Single-Pass增量聚类,得到候选事件集合CandE={cepce2,…,ce|c;andE|},|CandE|为集合 CandE的元素个数; 542 :计算集合CandE中每个候选事件ce与已知事件NE的相似度,通过引入时间距离 因素,提高效率和运算速度,候选事件的文档d与已知事件NE之间的时间距离为:
其中,rtweA^是已知事件NE的开始发生时间,〃'是已知事件NE的最近报道时间, timed是文档d的产生时间,文档d与已知事件NE之间的相似度为: Score(d,NE) =aXsimt (d,NE) - 0Xdist(d,NE) 其中,simt(d,NE)为文档d与已知事件NE之间内容相似度,dist(d,NE)为文档d与已 知事件NE之间的时间距离,a为内容相似度权重,0为时间距离的权重; 候选事件ce与已知事件NE的相似度为:
其中,SIM(ce,NE)为候选事件ce与已知事件NE的相似度,N为候选事件ce中的文档 数量,Score(屯,NE)为候选事件ce中第i个文档屯与已知事件NE之间的相似度; 若SIM(ce,NE)大于阈值0,则将候选事件ce标记为已知事件,并将候选事件ce下的 文档合并到已知事件NE中;否则,将其标记为一个新事件;其中,阈值0通过机器学习方 法多次训练后确定; 543 :将新事件合并到已知事件列表中,并重新设置阈值0,重复步骤S42,直到所有的 候选事件都分类完毕;然后,重新针对更新后的文档集合%进行特征提取和特征选择,等待 处理下一批新爬取的Web页面。
【专利摘要】本发明公开了一种农产品质量安全事件在线检测方法,所述方法包括:从系统指定网站上爬取农产品质量安全领域相关的Web页面,并进行预处理,得到初始文档集合;对初始文档集合进行特征抽取,利用改进的增量TF-IDF模型进行文本特征表示;对初始文档集合进行聚类,将聚类得到的若干个主题事件作为系统的已知事件;对新增网页集合进行Single-Pass增量聚类,得到若干个候选事件,计算候选事件与已知事件的相似度,将相似度大于阈值的候选事件标记为新事件。本发明通过对Web信息进行挖掘分析,实现了农产品质量安全事件的自动识别,进而实现农产品质量安全事件的在线检测,可用于农产品质量安全风险信息的动态监测。
【IPC分类】G06F17-30
【公开号】CN104572977
【申请号】CN201410855584
【发明人】潘守慧, 王开义, 王志彬, 刘忠强, 杨锋, 王书锋
【申请人】北京农业信息技术研究中心
【公开日】2015年4月29日
【申请日】2014年12月31日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1