一种基于区域和对象信息发现的事件预警方法

文档序号:6492063阅读:233来源:国知局
一种基于区域和对象信息发现的事件预警方法
【专利摘要】本发明公开了一种基于区域和对象信息发现的事件预警方法。本方法为:1)对爬取的网页信息进行过滤,得到与食品安全事件相关的非垃圾网页信息;2)对网页信息中表示处所的词语进行解析,得到准确的地名词语;基于所建事件信息本体对网页信息进行处理,将网页信息归入匹配成功的区域;3)利用回归分析模型对网页信息进行处理,判断每一网页相关的对象类别;4)根据网页所属区域及其相关的对象类别,得到设定区域、对象的事件的网页信息集合,建立事件的特征参数并定期计算特征参数值,如果某事件的特征参数值持续超过设定阈值则对该事件进行预警。本发明提高了事件预警的准确性和全面性,保证了食品安全事件预警的效率。
【专利说明】一种基于区域和对象信息发现的事件预警方法
【技术领域】
[0001]本发明属于信息【技术领域】,尤其涉及一种对爬取得到的互联网信息进行特定处理,在对事件发生的区域、对象种类等进行信息发现的基础上进行事件预警的方法,主要应用于食品安全事件信息监控、风险预警等非常规突发事件的应急处理工作中。
【背景技术】
[0002]近年来,食品安全事件诸如毒胶囊、回锅油、瘦肉精、染色馒头、塑化剂、毒黄瓜等频频发生,这既造成了极坏的社会影响,也带来了大量的经济损失。为了避免或最大限度的降低这些食品安全事件所带来的危害,基于事件的风险预警技术开始得到了极大关注。为进行基于事件的风险预警,这就需要提前发现这些事件的信息。
[0003]随着Internet的迅猛发展,互联网网民数量越来越庞大,互联网逐渐成为网民发布信息、获取信息和传递信息的主要载体,而且通过人、组织等之间的交互形成了一个和现实社会有一定的对应、关联关系的虚拟社会。它已经变成了世界上规模最大的公共数据源,而且其规模还正在不停的增长着。此状况下,利用互联网自身的特点,建立起完善的社会信息反馈网络,提前发现各种可能带来危机的“未然”因素,为食品安全事件的应急管理提供及时、准确、全面的信息就显得势在必行和有着非常重要的意义。
[0004]为利用互联网上的信息进行食品安全事件的风险预警,需要经过一定的过程得到事件相关的信息。这首先需要进行互联网信息爬取,之后即可进行食品安全事件相关的信息提取、发现工作,待发展到一定程度后即可进行预警。在这样一个过程里面,其中的关键步骤是进行事件信息的识别,理论上这可以通过各种有监督的机器学习或者无监督的机器学习方法实现,但结合实际的信息需求和准确度、可操作性等的考虑,往往采取一些变通的措施。比如有研究工作采取的方式是:事先建立一些信息分类(比如疾病),针对每个分类收集一些关键词,之后对收集到的网页信息以这些分类和关键词为基础,采取关键词匹配的方式进行信息分类,并在此基础上监控类别信息即事件的发展。也有研究工作采用了信息的相关性检测、命名实体识别、利用疾病和地址的信息提取、可视化的展示结果等步骤进行事件信息的识别和判断的做法。
[0005]从评估试验的结果看,上述做法中事件信息的判断、识别、预警等还存在性能上的不足(准确率、召回率等参数有待进一步提高)。对此,如果考虑到上述方法中未考虑信息中存在的各种垃圾信息的影响、截止目前信息提取技术的准确度尚未足够高、及直接将经过关键词匹配后得到的类别信息作为同一种事件信息的做法中可能存在信息对应的主体不一致等问题,上述方法存在性能上的不足也就不足为奇了。

【发明内容】

[0006]为解决上述的问题,本发明的目的在于提供一种采取特定步骤对网页信息的内容进行分析,从中提取事件的发生区域、对象种类等要素以识别所发生的事件,之后根据事件的发展趋势进行预警的方法。方法中借鉴智能系统思路,形成的步骤如下所述。[0007]1、建立本体
[0008]依据食品安全事件的特点和后期信息分析的需要,从对象、区域、结果、关联者、时间等纬度建立食品安全事件信息本体。从而为食品安全事件的信息过滤、信息发现等提供了基础。
[0009]2、信息过滤
[0010]在上述建立的本体基础上,对爬取得到的网页信息进行过滤。过滤过程主要分为两个部分:食品安全信息过滤、垃圾信息过滤。其中前者主要是通过对信息的标题、内容等采取模式匹配的方法确定其是否属于食品安全信息;后者主要是对通过内容、链接作弊的垃圾信息、以及用户生成内容中的无关意见、低质量意见和欺骗性垃圾意见通过建立的检测模型进行过滤。从而保证进入后续过程的信息的质量。
[0011]3、区域信息发现
[0012]在上述建立的区域信息本体基础上,对爬取、过滤后的信息的标题、内容等进行地名代词等解析后,采取模式匹配、基于机器学习判断模型的判断识别方法进行信息相关区域的发现确定。
[0013]4、对象信息发现
[0014]基于事先建立的回归分析模型,对信息的标题、内容等进行分词、降维等步骤后针对各对象类别(事先设定,比如蔬菜)进行回归分析,以此确定网页信息是否和目标对象有关系。从而发现信息相关的对象种类等。由此,结合区域信息、对象种类信息等,即可相对准确的确定发生的事件。
[0015]5、趋势追踪、预警及展示
[0016]经过信息过滤、区域信息发现、对象信息发现后,在建立表示事件的特征参数诸如页面数、页面浏览数、综合指数等的基础上,通过定期计算事件特征参数值的方法对事件的发展趋势进行追踪;并对事件当前的各特征参数值和其之前一定时期内的均值进行比较,如果差值为正且绝对值持续大于一定的阈值,则进行事件预警;之后将预警分析的结果展示给相关的用户和为用户服务。
[0017]6、事件结束判断
[0018]对预警的事件,定期计算事件各特征参数值,并将事件当前的各特征参数值和其之前一定时期内(自预警日开始)的均值进行比较,如果差值为负且绝对值大于一定的阈值,则结束针对此事件的预警。
[0019]7、本体补充和修正
[0020]考虑到互联网信息的分布变化特点,从持续提高方法效率的角度出发,定期对信息过滤、区域和对象信息发现等过程的结果进行评估,并基于此对本体中的不足诸如遗漏、错误等加以补充、修正,以提高后续的方法效率。
[0021]本发明为保证信息过滤、信息发现的准确、高效,建立了符合食品安全事件信息特点的本体,建立本体过程中主要从对象、结果、区域、时间、关联者几个纬度进行。其中,针对区域信息本体的每个实例,分别建立了电话区号、邮政编码、简称、名胜、邻近域、所在方位六个纬度的附加表。
[0022]本发明为提高事件信息发现的准确度,在对爬取得到的互联网信息进行后续处理前,首先对其进行了信息过滤处理,包括食品安全信息过滤、垃圾信息过滤。[0023]本发明为了提高网页信息相关区域识别判断的准确度,首先对网页信息进行预处理后对可能是地名的相关词语进行相关解析以得到明确的词语,之后通过模式匹配和判断模型判断等方式判断信息是否可归入目标区域,由此确定网页信息相关区域。
[0024]本发明为了提高网页信息相关区域判断确定的准确度,对于预处理过后的网页信息进行了地名代词解析、相对位置解析、非标准词语解析等处理,从而解决了非标准地名词语、地名代词、相对位置等所带来的网页信息相关区域判断准确度低的问题。
[0025]本发明在网页信息相关区域判断确定过程中,依次采用了针对标题信息的模式匹配方法、针对正文信息的模式匹配方法、基于机器学习的判断模型进行判断的方法进行信息相关区域的判断。其中,在基于机器学习的判断模型进行判断的方法中,通过集成的区域判断模型进行信息相关区域判断,避免了同名、同词异义(比如通常词作为地名)等所带来的区域判断不准确问题。
[0026]本发明在对象信息发现过程中,基于事先建立的回归分析模型,对信息的标题、内容等进行分词、降维等步骤后针对各对象类别进行回归分析,以此确定网页信息分别与哪些对象种类有关系。
[0027]本发明定期计算事件各特征参数值和其之前一定时间范围内的均值之间的关系,当差值为正且绝对值持续达到一定程度时(比如3倍的标准差)进行及时的事件预警。
[0028]本发明对预警的事件定期计算其各特征参数值,并将事件当前的各特征参数值和其之前一定时期内(自预警日开始)的均值进行比较,如果差值为负且绝对值大于一定的阈值,则结束针对此事件的预警。
[0029]与现有技术相比,本发明的优点:
[0030]本发明通过建立食品安全事件信息本体,并在此基础上对爬取得到的互联网信息采取信息过滤、区域信息发现、对象信息发现、事件预警、事件结束判断等技术进行处理,保证了食品安全事件信息发现、预警的准确性和全面性,保证了食品安全事件预警的效率。
【专利附图】

【附图说明】
[0031]图1 一种基于区域和对象信息发现的事件预警方法流程图;
[0032]图2区域信息本体附加表示意图;
[0033]图3网页信息相关地域的识别方法流程图;
[0034]图4网页信息相关地域判断方法示意图;
[0035]图5基于机器学习模型的网页信息相关地域判断方法示意图;
[0036]图6事件预警方法示意图。
【具体实施方式】
[0037]本发明的【具体实施方式】如图1所示,具体步骤叙述如下。
[0038]1、建立本体
[0039]考虑到食品安全事件的特点以及后期事件信息提取、追踪等分析的需要,在食品安全事件信息本体的构建过程中,主要从对象、区域、时间、结果、关联者五个纬度考虑建立。比如对象即食品,可分为初产品、加工产品等类别,初产品又可以分为蔬菜、水果等类另IJ,以此类推;比如结果可分为污染、中毒等类别,污染又可以分为过期、超标等类别,以此类推;比如区域总体上可分为五个类别,分别是亚细亚洲、欧罗巴洲、阿非利加洲、亚美利加洲、大洋洲;对每个类别可以再次进行细分,比如亚细亚洲可分为东亚、西亚、南亚、北亚、中亚、东南亚六个类别,以此类推;直至分类到不能再分为止,即为一个最底层的元素(即实例)。其他类别的构建过程类似。同时,针对本体中的每个实例,分别建立了对应的同义词、反义词、别名词等附加表;此外,针对区域信息本体中的实例,分别建立了电话区号、邮政编码、简称、名胜(山、湖、海、河、岛屿、建筑)、邻近域(东、南、西、北等方向的相邻同级域)、所在方位(相对上一级而言,比如中部、南部等)六个纬度的附加表(如图2所示),以备后续信息处理过程中使用。
[0040]2、信息过滤
[0041]对特定的信息源,采用互联网信息爬取技术(比如通用爬取、有限范围爬取等技术)对信息源中的信息进行爬取。考虑到一个网站上可能存在和预定主题不相关的内容、以及可能存在各种垃圾信息的情况,为了提高事件信息发现、预警的准确度,在对信息进行后续处理之前,首先对信息进行过滤。整个过滤过程分为两个方面:即食品安全信息过滤、垃圾信息过滤。
[0042]食品安全信息过滤,即判断所采集的信息是否属于食品安全相关的信息。这里面需要考虑两个问题:信息范围、过滤规则。关于过滤规则,基于建立的食品安全事件信息本体,过程中主要考虑对象和结果两个纬度,具体的通过组合这两个纬度的本体实例的名称、属性等采取模式匹配的方法进行过滤;方法中所采取的模式匹配具体方法包括布尔匹配、频数匹配、实例名称间的距离匹配、实例名称同义反义匹配、实例名称别名匹配等方式;具体的方式选择及具体规则建立通过对信息统计分析后确定(事先确定并定期更新)。关于信息范围的选择,这里主要考虑信息的标题、信息内容两个纬度,考虑到信息标题和信息内容可能存在不匹配的情况,具体处理过程中首先对信息的标题进行处理,如果经过对标题信息过滤后,信息可以被归入食品安全信息类别,则对此信息的处理完毕;否则对信息的内容进行二次判断处理。
[0043]Web垃圾可分为Web垃圾页面和用户生成内容中的垃圾意见两种。其中,Web垃圾页面可分为内容作弊页面、链接作弊页面;垃圾意见按照其负面影响大小不同,可将其分为不可信意见、低质量意见、无关意见。不可信意见,也就是欺骗性的意见,一方面表现为对特定的对象、事件、人物等给出不符合实际情况的超高评价、恭维等;另一方面也可能表现为对特定的对象、事件、人物等给出不符合实际情况的超低评价、谩骂、攻击等。低质量意见,此种意见内容一般长度较短,其内容可能是有用的,也可能是无用的,但是由于其内容对特定的话题/产品描述不详细,不能非常确定其对特定话题/产品的意见挖掘的意义,因此也认为是一种垃圾意见(针对计算机而言)。无关意见,此种意见主要表现为广告或者和话题无关的内容。
[0044]对一网站的Web垃圾页面、用户生成内容中的低质量意见、无关意见等,考虑到其垃圾特征相对比较明显,可以基于事先建立的经过标注的样本集合,提取样本的内容、内容分布、链接等纬度的特征(抽取特征前需对网页信息进行元数据提取、正文提取、分词、句子统计、段落统计、锚文本统计、链接统计等处理)后建立检测模型进行检测。关于内容纬度的特征,本方法中采用了对抽取出来的信息进行分词、去掉停用词并经过降维(可采用文档频率法、信息增益法等)后形成内容特征向量-权数为词语频率;关于内容分布特征,本方法中采用了信息的标题长度(字符数)、段落数、句子数、段落长度(均值)、句子长度(均值)、信息长度(字符数)、锚文本数、锚文本长度(字符数-均值)等(建立模型过程中,对特征进行归一化处理,过程为y = x/ (max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现X > max时,贝U取X = max+1,即y = I);关于链接纟韦度的特征,本方法中采用了信息的网站内出链数占总出链数比例、信息的网站外出链数占总出链数比例、信息链接垃圾页面集合(事先构建)内的信息数占总出链数比例、垃圾页面集合(事先构建)内链接此信息的数量占总页面数比例等。针对上述三个维度的特征,基于事先建立的垃圾信息集合和非垃圾信息集合,分别形成特征向量并采取机器学习的方法(比如支持向量机等)建立垃圾信息检测模型(三个,基于更新的样本集合定期更新模型),之后即可对新采集的信息进行过滤(信息被判断为垃圾信息的规则是至少其中两个模型的检测结果为正例)。
[0045]同时,对一网站用户生成内容中的欺骗性垃圾意见,考虑到垃圾特征不是很明显,在建立垃圾意见样本集合过程中遵循宁缺勿滥的原则(即要保证欺骗性垃圾意见样本的准确性),结合基于知识库的审核、排查等方式对可能是欺骗性垃圾意见的信息(此过程中主要关注用户生成内容中内容重复或者近似重复的意见、一定时间范围内发布意见量最高的top-Nl个作者所发布的意见、一定时间范围内意见量最高的top-N2个特定对象相关的意见、一定时间范围内发布意见量最高的top-N3个IP地址相关的意见、针对特定对象发布意见最早的top-M个用户所发布的意见和针对特定对象的意见修正次数最多的top-N5个用户所发布的意见,并形成候选欺骗性垃圾意见集合)进行审核确认。具体的采取了两种方法进行确认,一种是正向确认,一种是反向确认。所谓正向确认,如果意见信息内容和欺骗性垃圾意见知识库中的信息描述的是同一件事情,即信息内容与欺骗性垃圾意见知识库中的某信息描述相匹配,则为欺骗性垃圾意见。欺骗性垃圾意见知识库中的信息条目增加规则为:对于一条意见信息,经过一段时间的过程或者事后证明,某用户所发布的信息的确是欺骗性的意见,加入知识库中。比如在某论坛有人发布信息说某品牌牛奶中含有三聚氰胺,但后来有人举出种种理由说明这是不可能的,事后证明后者是某品牌牛奶公司的内部员工欺骗所致,由此即可确认此意见信息是欺骗性垃圾信息,加入知识库中(知识库事先构建并定期更新)。所谓反向确认,即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见。比如反向确认知识库(事先构建并定期更新)中的一条规则为:某一用户id在设定时间中(比如I分钟)对一种或多种产品发布了多于N(比如10条)条意见信息,则将该用户所发表的这些意见信息标注为欺骗性垃圾意见信息。能匹配此规则的一个例子是:某一论坛中某一用户id在不到I分钟的时间中对3种不同产品发布了 15条评价信息,从一个正常人的角度考虑这是不可能的。因此,从反向的角度证明了此用户所发布的这些信息的欺骗性。将通过上述方法确认的信息进行标注,并形成准确欺骗性垃圾意见集合,同时对于经常发布欺骗性垃圾意见的用户,即发布欺骗性垃圾意见最多的N个用户,将其加到黑名单以备后期识别使用;另外,依据准确的欺骗性垃圾意见集合等,归纳意见作者的反常行为(比如上述用户在I分钟内针对3种产品发布了 15条信息等)形成规则,以备后用。注意到明确的确认一意见是非欺骗性垃圾意见也存在相当的困难(对于一条信息,不能明确的表明是欺骗性垃圾意见也可能意味着不能明确的说明其不是欺骗性垃圾意见),考虑到时间、工作量、以及非欺骗性垃圾意见存在的多样性等因素,这里没有对非欺骗性垃圾意见进行标注。
[0046]建立了准确欺骗性垃圾意见集合后,从判断识别欺骗性垃圾意见的角度看,目前需要选择机器学习方法、抽取样本特征后建立检测模型。注意到经过上述的过程得到了经过标注的欺骗性垃圾意见集合,以及未经标注的意见信息集合,但没有经过标注的非欺骗性垃圾意见集合。这就意味着不能简单地采用一般的有监督机器学习方法,因为它建立模型需要同时具备正例、反例集合。所以我们这里采用了一种“从正例和无标注数据中学习”的机器学习方法-偏置 SVM(Liu, B.,Y.Dai, X.Li, ff.Lee, and P.Yu.Buildingtext classifiers using positiveand unlabeled examples.Proceedings of IEEEInternational Conference on Data Mining, 2003.)。
[0047]关于检测模型建立过程中样本特征的确定,本发明中主要从四个纬度考虑:意见作者、意见内容、意见内容分布、链接特征四个纬度(抽取特征前需对网页信息进行作者等元数据提取、正文提取、分词、词性标注、命名实体抽取、句子统计、段落统计、标点符号统计、链接统计等处理)。其中关于意见内容特征的确定方法是:对抽取出来的意见信息进行分词,去掉停用词,并经过降维(可采用文档频率法、信息增益法等)后形成内容特征向量(权数为词语频率);关于意见内容分布特征的选择方法是选择:意见段落数、段落长度(均值)、句子数、句子长度(均值)、词数、第一人称代词数、第二人称代词数、第三人称代词数等(建立模型过程中,对特征进行归一化处理,过程为y = x/ (max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现X > max时,贝u取X = max+1,即y = I);对于意见作者纟韦度的特征选择方法是选择:意见用户名(字符数)、意见发布时间(距离当天零点的时间间隔)、意见发布时间间隔(和上一条信息相比)、意见字数、意见数/小时(截至此条信息为止)、意见字数变化比率(和上一条信息相比)、意见数变化比率(截至此条信息为止,和上一小时相比)等(建立模型过程中,对特征进行归一化处理,过程为y = x/ (max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在!^1参数更新前如果出现X > max时,贝·U取X = max+1,即y = I);对于意见信息的链接特征纟韦度的选择方法是选择:意见信息的网站内入链数、意见信息的网站内出链数、意见信息的网站外入链数、意见信息的网站外出链数、意见信息链接准确欺骗性垃圾意见集合内的信息数、准确欺骗性垃圾意见集合内信息链接意见信息的数量等(建立模型过程中,对特征进行归一化处理,过程为y = x/ (max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现X > max时,则取X = max+1,即y = I);针对上述四个维度的特征,基于上述步骤建立的准确欺骗性垃圾意见集合和无标注样本集合(即用户生成内容网页集合中的其他样本组成的集合),分别形成特征向量并建立检测模型(四个,基于更新的样本集合定期更新模型)。
[0048]之后即可对新爬取得到的用户生成内容信息进行欺骗性垃圾意见的识别过滤。首先进行黑名单识别,对属于黑名单中用户发布的信息,直接识别为欺骗性垃圾意见;对于剩余意见,依据前述过程归纳的规则按照反向确认(即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见)的方式进行识别,对于不正常的意见,识别为欺骗性垃圾意见;对于剩余的意见按照上述过程建立的欺骗性垃圾意见检测模型进行识别,识别过程为,对意见信息分别进行四个模型的判断,如果至少有三个模型判断为正例,则对此信息识别为欺骗性垃圾意见。
[0049]经过以上过滤步骤后的,参与到后续信息处理过程中的信息(即食品安全相关的非垃圾信息)相对质量较高,这为后续信息处理的准确提供了基础。
[0050]3、区域信息发现(如图3所示)
[0051](I)网页信息预处理
[0052]对爬取得到并经过滤的网页信息,提取其标题、来源、作者、发布时间、发布网站所在地等元数据信息并保存,同时提取网页信息的正文内容进行保存。
[0053]对提取的网页信息标题、正文内容,采用分词器对其进行基于统计和词典(包括依据步骤I建立的本体形成地名词典)的分词(并记录词语相对信息标题和正文内容构成的文本开始、结束的相对位置、所属句子、相对句子开始和结束的相对位置等特征参数),之后采用基于词表(词表事先整理形成并定期更新,其中包括同时可作为人名和地名的词语、有其他特定含义但同时也可能是地名的词语等;比如吴忠-宁夏回族自治区的一个市,同时可为人名;方正-黑龙江省的一个县,同时可为方正公司;但注意包含了特定后缀的词语比如吴忠市则不予排除)的匹配方法对可能不是地名的词语予以排除。
[0054](2)地名代词解析
[0055]经过分词的网页标题信息、正文信息中可能存在一些表示处所的代词,比如本省、本市、该省等。由于这些代词字面本身无法直接表明确切地理位置,因此需要对其进行解析。
[0056]I)为进行地名代词的解析,首先建立代词解析的滑动窗口,滑动窗口长度L事先确定(比如通过分析地名代词和其先行词之间的词数分布状况后确定)。
[0057]2)之后选择地名代词前L个词语内是否存在合理的地理名词(比如本省对应的辽宁等,基于事先建立的规则判断),如果存在,则采用下述建立的地理名词和地名代词之间是否存在指代关系的判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束(如果存在多个指代关系成立的地理名词,则选择距离地名代词最近的地理名词),否则进行步骤3)。
[0058]3)如果L个词语内不存在合理的地理名词或者模型判断指代关系不存在,则选择地名代词前2L个词语内(不超出整个句子,比如用句号标识)是否存在合理的地理名词,如果存在,则采用下述建立的地理名词和地名代词之间是否存在指代关系的判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束(如果存在多个指代关系成立的地理名词,则选择距离地名代词最近的地理名词),否则进行步骤4)。
[0059]4)如果2L个词语内不存在合理的地理名词或者模型判断指代关系不存在,则根据元数据提取过程中得到的信息来源或网站所在地采用抽取或者替换的方法确定地名代词的指代地名。
[0060]判断模型的建立方法:收集整理包含地名代词等的网页信息形成样本集合,并对样本集合信息中每一地名代词和其之前2L(L长度同步骤I))个词语内的地理名词(不超出句子范围)之间的指代关系进行标注,作为类别变量;对样本集合信息中每一地名代词和其之前2L(L长度同步骤I))个词语内的地理名词(不超出句子范围)之间的关系提取相关数据,建立信息样本关于此对地名代词和地理名词之间关系的特征向量:包括地理名词后缀(后缀即代表地名或者具有地名特征,比如“新疆维吾尔自治区”中的“自治区”)长度(后缀字数除以文本长度)、地理名词和地名代词之间的距离(词数除以文本长度)、地理名词距离文本开始的相对距离(词数除以文本长度)、地名代词距离文本开始的相对距离(词数除以文本长度)、地理名词距离句子开始的相对距离(词数除以文本长度)、地名代词距离句子开始的相对距离(词数除以文本长度)、地理名词距离句子结束的相对距离(词数除以文本长度)、地名代词距离句子结束的相对距离(词数除以文本长度)等;之后选择机器学习方法(比如svm)基于上述的样本集合、类别变量和特征向量建立地理名词和地名代词之间是否存在指代关系的判断模型。
[0061]基于判断模型对地名代词和地理名词之间是否存在指代关系进行判断的方法是:首先提取地理名词和地名代词之间关系的相关数据形成特征向量,提取的数据具体包括地理名词后缀长度(后缀字数除以文本长度)、地理名词和地名代词之间的距离(词数除以文本长度)、地理名词距离文本开始的相对距离(词数除以文本长度)、地名代词距离文本开始的相对距离(词数除以文本长度)、地理名词距离句子开始的相对距离(词数除以文本长度)、地名代词距离句子开始的相对距离(词数除以文本长度)、地理名词距离句子结束的相对距离(词数除以文本长度)、地名代词距离句子结束的相对距离(词数除以文本长度)等。之后基于上述建立的判断模型进行识别判断,并根据判断结果确定地名代词和地理名词之间的指代关系是否存在。
[0062](3)非标准词解析
[0063]经过分词的网页标题信息、正文信息中可能存在一些表示处所的词语使用了一些非标准的语言形式,如中文文本中出现beijing、bj等。对此,基于建立的标准词语和非标准词语对照表(事先建立并定期更新),通过查询后进行替换的方式对非标准的地名词语形式进行解析。
[0064](4)相对位置解析
[0065]经过分词的网页标题信息、正文信息中可能存在一些表示处所的词语使用了相对位置的表达方式,比如中国西南部省份等。同样的,这些语言表达方式也没有明确的地名名称。为解决此问题,基于步骤I中建立的区域信息本体实例及其附加表,对这些相对位置区域信息进行查询和解析,得到准确的地名词语(比如对中国西南部省份,结合建立的区域信息本体,首先查找到中国所属的省份名称,并对每个所属的省份查询其所在方位纬度的附加表,将所有所在方位为西南的省份提取出来,据此替代中国西南部省份,完成解析)。
[0066](5)地域确定
[0067]对网页信息进行了预处理和相关解析后即可进行信息相关联区域的确定工作,此过程中主要包括两个步骤:分别采用模式匹配、机器学习判断模型进行信息相关区域的判断(如图4所示)。
[0068]区域确定的目标在于识别信息相关区域,为食品安全事件信息的发现提供区域基础。综合考虑准确性、计算量和可操作性等问题,此过程中首先采取了模式匹配的方法进行。这里面需要考虑两个问题:信息范围、匹配规则。关于匹配规则,基于建立的区域信息本体(即本体中区域维度纬度),过程中主要考虑部分本体实例名称、属性等,具体的通过组合这些本体实例的名称、属性等采取模式匹配的方法进行判断;方法中所采取的模式匹配具体方法包括布尔匹配、频数匹配、实例名称间的距离匹配等方式;具体的方式选择及具体规则建立通过对信息统计分析后确定(事先确定并定期更新)。关于信息范围的选择,这里主要考虑信息的标题、信息内容两个纬度,考虑到信息标题和信息内容可能存在不匹配的情况,具体处理过程中首先对信息的标题进行处理,如果对信息的标题采用上述的模式匹配方法处理后,信息可以被归入当前所选的区域(比如北京),则针对此区域的模式匹配处理完毕;否则对该信息的内容采用上述的模式匹配方法针对此区域进行二次模式匹配处理。此过程中遵循宁缺勿滥的原则,尽可能保证识别判断结果的准确度。
[0069]如果经过上述的模式匹配过程,此信息无法归入某一区域,则采用基于机器学习方法建立的区域判断模型进行第三次判断确定。事先建立区域判断模型的过程为:基于整理(同步骤(1)-(4))、标注(是否和某区域相关联)过的网页信息样本集合(事先建立并定期更新),将信息样本的标题、内容词语(选择和本体实例名称、属性匹配的词语)综合在一起-将这些词语按照行政地名(指省、市等)、电话区号、邮政编码、简称、名胜(山、湖、海、河、岛屿、建筑等)五个类别进行归类组成五个特征向量(其中向量中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数)。之后,采用机器学习方法(支持向量机等)对每一目标区域建立基于上述五个特征向量的区域判断模型(5个,基于更新的样本集合定期更新模型)。对信息进行第三次判断确定的过程为:将经过步骤(1)-(4)处理、解析后但无法归入到某一区域的信息的标题、内容词语(选择和本体实例名称、属性匹配的词语)综合在一起:按照行政地名(指省、市等)、电话区号、邮政编码、简称、名胜(山、湖、海、河、岛屿、建筑等)五个类别进行归类组成五个向量(其中向量中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数),并分别对这五个向量采用前述建立的五个区域判断模型进行检测判断,并对检测判断的结果进行加权计算(权数按照网页信息中每个类别中词语频数之和除以五个类别中词语频数之和的方法确定),如果加权计算结果大于事先设定的阈值,则此信息即可归入此区域;否贝U,则此信息不能归入此区域(如图5所示)。
[0070]4、对象信息发现
[0071]网页信息的对象信息发现即对象种类识别,即确定网页信息所描述的内容和何种对象有关(以及和何种事件因素有关、造成何种后果)等。其目的是结合网页信息中发现的区域信息、对象信息等尽可能唯一的确定事件。
[0072]为此,综合考虑识别的准确性、计算量和可操作性等问题,过程中采取了回归分析的方法进行。方法中采用的信息范围,是将每一网页的信息标题和内容综合在一起,并进行分词、去停用词、降维后形成该网页的特征向量(作为自变量)_其中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数;同样的,对和本体中对象、结果、关联者实例名称、属性匹配的词语权重乘以事先确定的倍数。针对每一对象种类,将上述网页的特征向量数据代入相应的logistic回归模型(事先以需要区分的种类和建立的样本集合为基础建立模型)中,据回归分析结果进行判断,此网页信息是否和此对象种类有关系。
[0073]其中,回归分析模型的建立方法为:基于整理、标注过的网页信息样本集合(事先建立并定期更新),将信息样本的标题、内容词语综合在一起并进行分词、去停用词、降维后形成特征向量(作为自变量)_其中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数;同样的,对和本体中对象、结果、关联者实例名称、属性匹配的词语权重乘以事先确定的倍数;同时对网页信息所属的对象类别进行标注(I表示属于此对象类别、O表示不属于此对象类别,作为因变量),以此为基础采用logistic方法建立针对各对象类别的回归分析模型。
[0074]5、趋势追踪、预警及展示
[0075]从实践的角度看,结合前述步骤中发现的区域信息、对象种类信息等,即可相对准确的确定发生的事件(即用属于上述两个纬度的信息的交集表示事件相关的信息)。
[0076]在网页信息的区域和对象种类要素识别的基础上,建立表示事件的特征参数-具体的采用和事件相关的信息页面数、页面浏览数、页面转发数、特定网站页面浏览数、特定域名下网站页面浏览数以及综合指数(通过加权的方法综合上述参数得到,权数通过德尔菲方法确定,但需保证权数之和为I)等表示事件的特征,并定期(比如每隔I小时)对特征参数进行计算处理。并根据时间的变化,综合分析这些事件特征参数的变化情况。
[0077]在上述事件趋势追踪的基础上,定期(比如每12小时)计算表示事件的各特征参数(包括综合指数)数值,并将事件当前的各特征参数值和其之前一定时期内的均值(目前考虑到网络事件传播的特点,选择了一个月作为计算周期,也可据情况进行调整)进行比较,如果差值为正且绝对值大于一定的阈值(比如3倍的标准差,阈值事先设定),则对此事件进行预警初始化。
[0078]之后对此进行了预警初始化的事件进行追踪,定期(比如每12小时)计算表示事件的各特征参数(包括综合指数)数值,并将事件当前的各特征参数值和其之前一定时期内的均值(目前考虑到网络事件传播的特点,选择预警初始化之前的一个月作为计算周期,也可据情况进行调整)进行比较,如果差值持续(比如24小时,事先确定)为正且绝对值大于一定的阈值(比如3倍的标准差,阈值事先设定),则对此事件进行正式的预警(如图6所示)。否则取消对此事件的预警初始化设置。
[0079]其中阈值的确定方法为:在收集事件各特征参数的历史(比如一年内)变化数据基础上,并结合经过确认的历史食品安全事件的发生时间、区域、规模等资料(可以从食品安全相关管理部门获得),计算事件各特征参数值和其之前一定时期内(比如一个月)的均值之间的差值形成变量-作为自变量,将表示特定性质食品安全事件是否发生(I表示发生、O表示未发生)的变量作为因变量,采用logistic回归分析的方法建立上述自变量、因变量之间的回归预测模型。基于此模型,结合事件特征参数的历史变化趋势特点,选择可以使得因变量值为I的合适的自变量值作为阈值。
[0080]在对所得到的网页信息进行信息过滤、事件信息发现、趋势追踪和预警分析的基础上,将分析得到的结果通过表格、图等的方式展示给用户。并对预警信息提供短信息、邮件等即时送发的服务方式。
[0081]6、事件结束判断
[0082]对正式预警的事件,在上述事件趋势追踪的基础上,定期(比如每12小时)计算表示事件的各特征参数(包括综合指数)数值,并将事件当前的各特征参数值和其之前一定时期内的均值(目前考虑到网络事件传播的特点,选择了从预警开始日开始到计算日前一天为止作为计算周期,也可据情况进行调整)进行比较,如果差值为负且绝对值大于一定的阈值(比如3倍的标准差,阈值事先设定),则认为此事件结束。结束对此事件的预警。
[0083]7、本体补充和修正
[0084]在事件信息发现、预警分析的整个过程中,构建的食品安全事件信息本体对信息过滤、信息发现等步骤的性能有着重要的影响。因此,考虑到互联网信息的分布变化特点,从持续提高方法效率的角度出发,需要定期对信息过滤、信息发现等过程的结果进行评估。并对本体中的不足诸如遗漏、错误等加以补充、修正,以提高方法后续的效率。
[0085]由此,完整地实现了从爬取得到的互联网信息中提取食品安全事件信息,并根据事件发展过程及时进行预警和为用户服务的全过程。过程中,通过采取信息过滤、区域信息发现、对象种类信息发现、趋势追踪及预警等技术保证了事件信息发现、预警的准确。这将为食品安全事件的风险预警、快速应急处理等提供重要的信息基础。
[0086]值得说明的是,本发明不仅可用于食品安全事件的应急管理,稍加改造,即可应用到其他的、能从互联网上获取事件信息的非常规突发事件的风险预警等应急处理工作中。
【权利要求】
1.一种基于区域和对象信息发现的事件预警方法,其步骤为: 1)建立一食品安全事件信息本体,并对本体中的每个实例分别建立一附加表; 2)对爬取的网页信息进行过滤,得到与食品安全事件相关的非垃圾网页信息; 3)对过滤后的网页信息中表示处所的词语进行解析,得到准确的地名词语;基于所述食品安全事件信息本体中区域维度的本体实例名称、属性采用模式匹配方法对解析后的网页信息进行处理,将网页信息归入匹配成功的区域; 4)针对每一设定的对象类别,利用回归分析模型对网页信息进行处理,判断每一网页相关的对象类别; 5)根据步骤3)、4)确定出的网页所属区域及其相关的对象类别,得到设定区域、对象的事件的网页信息集合,建立事件的特征参数并定期计算特征参数值,如果某事件的特征参数值持续设定时间超过设定阈值则对该事件进行预警。
2.如权利要求1所述的方法,其特征在于对网页信息中表示处所的词语进行解析的方法为: 1)对于地名代词,用一判断模型判断地名代词与其前面出现的地理名词之间是否存在指 代关系,如果存在,则将地名代词替换为相应的地理名词; 2)基于标准词语和非标准词语对照表对词语中非标准地名词语进行解析,将非标准词语替换为标准词语; 3)基于所述食品安 全事件信息本体中的区域维度,对词语中的相对位置区域信息进行解析,得到准确的地名词语; 其中,所述判断模型的建立方法为:将包含地名代词的网页信息形成一样本集合,并对样本集合中地名代词和其之前的地理名词之间的指代关系进行标注,作为类别变量;建立地名代词和其之前的地理名词之间关系的特征向量:然后选择机器学习方法基于所述样本集合、类别变量和特征向量建立地理名词和地名代词之间是否存在指代关系的判断模型; 其中,判断地名代词与其前面出现的地理名词之间是否存在指代关系的方法为:计算地名代词和地理名词之间关系的特征向量值,利用所述判断模型对所述特征向量值进行判断,确定地名代词和地理名词之间的指代关系是否存在。
3.如权利要求1或2所述的方法,其特征在于所述食品安全事件信息本体包括对象、区域、时间、结果、关联者五个纬度;所述附加表的内容包括同义词、反义词、别名词三个纬度;其中,针对区域维度,附件表的内容还包括电话区号、邮政编码、简称、名胜、邻近域、所在方位六个纬度。
4.如权利要求3所述的方法,其特征在于步骤3)对过滤后的网页信息中表示处所的词语进行解析之前采用分词器对信息标题和正文内容进行分词,并记录分词所得词语相对信息标题和正文内容构成的文本开始、结束的相对位置、所属句子、相对句子开始和结束的相对位置。
5.如权利要求4所述的方法,其特征在于首先建立一可疑地名词表,记录可用作其他名称的地名,然后用所述可疑地名词表对步骤3)分词所得词语进行匹配,滤除匹配的词语;其中,如果匹配的词语具有代表地名的后缀,则保留该词语。
6.如权利要求2所述的方法,其特征在于对网页信息中表示处所的地名代词进行解析的方法为: 61)建立一代词解析的长度为L的滑动窗口; 62)选择地名代词前L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤 63); 63)选择地名代词前2L个词语内是否存在地理名词,如果存在,则采用判断模型进行判断,如果存在指代关系,则根据指代关系确定代词对应的地理名词,解析结束,否则进行步骤64); 64)根据元数据提取过程中得到的信息来源或网站所在地采用抽取或者替换的方法确定地名代词的指代地名。
7.如权利要求2或6所述的方法,其特征在于所述判断模型中的样本特征向量的分量包括:地理名词后缀长度、地理名词和地名代词之间的距离、地理名词距离文本开始的相对距离、地名代词距离文本开始的相对距离、地理名词距离句子开始的相对距离、地名代词距离句子开始的相对距离、地理名词距离句子结束的相对距离、地名代词距离句子结束的相对距离。
8.如权利要求6所述的方法,其特征在于在步骤62)中,如果地名代词前L个词语内存在多个指代关系成立的地理名词,则选择距离地名代词最近的地理名词;在步骤64)中,如果地名代词前2L个词语内存在多个指代关系成立的地理名词,则选择距离地名代词最近的地理名词。
9.如权利要求1所述的方法,其特征在于将每一网页的信息标题和内容综合在一起,并进行分词、去停用词、降·维后形成该网页的特征向量,将网页的特征向量作为回归分析模型的自变量对网页进行处理,判断其与对象类别是否相关。
10.如权利要求1所述的方法,其特征在于所述事件的特征参数包括:与事件相关的信息页面数、页面浏览数、页面转发数、设定网站的页面浏览数、设定域名下网站页面浏览数以及上述参数的综合指数。
11.如权利要求1或2或11所述的方法,其特征在于定期计算所述特征参数的数值,并将事件当前的各特征参数值和其之前一定时期内的均值进行比较,如果差值为正且绝对值大于一定的阈值,则确定对此事件进行预警初始化;对进行了预警初始化设置的事件,继续定期计算所述特征参数的数值,并将事件当前的各特征参数值和其之前一定时期内的均值进行比较,如果差值为正且绝对值持续大于一定的阈值,则对此事件进行正式预警,否则取消对此事件的预警初始化设置。
12.如权利要求11所述的方法,其特征在于对正式预警的事件,定期计算表示事件的各特征参数数值,并将事件当前的各特征参数值和其之前一定时期内的均值进行比较,如果差值为负且绝对值大于一定的阈值,结束对此事件的预警。
【文档编号】G06F17/30GK103853700SQ201210501970
【公开日】2014年6月11日 申请日期:2012年11月29日 优先权日:2012年11月29日
【发明者】杨风雷, 黎建辉 申请人:中国科学院计算机网络信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1