面向短文本的群体性事件预警方法和系统的制作方法

文档序号:6551183阅读:266来源:国知局
面向短文本的群体性事件预警方法和系统的制作方法
【专利摘要】本发明公开了一种面向短文本的群体性事件预警方法,该方法包括以下步骤:自动构建面向群体性安全事件的领域知识库;结合领域知识库,对短文本进行局部结构化抽取和在线分类,从海量短文本中筛选出涉及潜在安全隐患的群体性事件文本;结合领域知识库,对识别出的短文本进行全局结构化处理和在线聚类,并根据每个“聚类簇”内包含的短文本数目是否超过给定阈值来决定是否进行及时预警。本发明具有以下优点:充分融合领域背景知识和上下文语境、浅层语义表达和深层语义计算,实现群体性安全事件的协同分析和预测,有助于提高群体性事件的信息甄别、跟踪和预警的及时性、准确率和召回率。
【专利说明】面向短文本的群体性事件预警方法和系统

【技术领域】
[0001] 本发明涉及信息安全领域,更具体而言,涉及一种面向短文本的群体性事件的预 警方法和系统。

【背景技术】
[0002] 我国社会正走向群体性事件多发阶段,如相继发生在西藏拉萨、新疆乌鲁木齐、新 疆巴楚、云南昆明等地的群体性事件,不仅造成惨痛的人员伤亡,而且带来巨大的经济损失 和恶劣的社会影响。为了避免或最大限度地化解群体性事件的发生,建立合理有效的预警 监测机制开始受到关注和重视,这就需要收集反映舆情动向的相关信息和数据,及时识别 出潜在的群体性矛盾并排除警情,而获取信息是危机预警的前提和源头。
[0003] 伴随互联网和通信网的日益普及,网络通信和短消息已经成为人们进行信息发布 和交流的重要工具,也成为了解舆情的直接渠道。此状况下,利用网络交流平台自身的特点 (即信息长度短、结构复杂以及变形词多等特点),建立起完善的短文本信息反馈网络,提 前发现潜在的危险因素,为群体性安全事件的应急管理提供及时、准确、全面的信息就显得 迫在眉睫,有着非常重要的现实意义。这其中的关键技术就是如何从海量数据中自动甄别 有用信息并进行实时跟踪和预警。
[0004] 目前有些研究工作根据数据是否包含所关心的敏感词进行预警,敏感词库的制备 往往需要人工参与和定时更新,而且这种方法忽视了上下文语境的影响,事实上特定词汇 在不同语境下的语义不尽相同,例如"散步"可以是召集群体性事件的敏感词,但是在很多 语境下,"散步"仅代表人们休闲或锻炼的一种形式而已。也有研究工作提出自动从数据中 提取上下文特征并训练"词袋模型"进行描述和预测,该模型假设特征词之间相互独立,并 不考虑词序和句法特征,于是严重影响预警结果的准确性,例如"民众闹事影响社会稳定", 尽管该句中包含敏感词"民众"和"闹事",但并非蓄意召集非法集会;而且由于一词多义和 多词一义现象的存在,使得单纯将词匹配得到的类别信息作为判定敏感事件或者同一事件 的做法可能导致信息不一致、冗余等问题。从实际的测试效果也容易看出,其信息甄别、跟 踪和预警的准确性、全面性等方面尚存在进一步提升的空间。


【发明内容】

[0005] 鉴于以上提出的问题,本发明提出一种面向短文本的结合知识库的群体性事件预 警方法和系统,旨在克服现有技术中存在的上述问题。
[0006] 具体地,根据本发明的一个方面,提供一种面向短文本的群体性事件预警方法,包 括以下步骤:
[0007] 步骤S3 :对短文本进行全局结构化处理和在线聚类,并根据每个"聚类簇"内所包 含的短文本数目是否超过给定阈值来决定是否进行及时预警。
[0008] 优选地,在所述步骤S3之前还包括以下步骤:
[0009] 步骤S1 :基于互联网和通信网获取的领域相关语料资源,自动构建面向群体性安 全事件的领域知识库,包括领域本体库、事实库、事件库和规则库,并实现其半自动化的知 识维护和更新;以及
[0010] 基于步骤S1构建的领域知识库执行步骤S3。
[0011] 优选地,所述步骤S1包括以下步骤:
[0012] 步骤S11 :构建领域本体库,库中存放了领域概念的层次化组织形式,而且概念之 间具有等价关系以及可能的领域关系约束;
[0013] 步骤S12 :构建领域事实库,库中存放了经过语义消歧以及实体唯一性标识而得 到的结构化元组集合;
[0014] 步骤S13 :构建领域事件库,包括领域相关词汇,这些词汇由行为、施事、受事、修 饰、结果、时间和地点等类型组成;
[0015] 步骤S14 :构建领域规则库,存放了概念元组之间的等价关系及其成立的概率。
[0016] 进一步优选地,所述步骤S13包括以下步骤:
[0017] 步骤S131 :根据领域特定关键词,依据"共现关系"自动收集领域相关词汇,并进 行手工归类;
[0018] 步骤S132 :构建时间库,库中存放了各类时间词及其数值编码,通过识别时间词 并在短文本的发布时间基础上识别出确切的时间;另外,该库还包括时区表,表中存放了世 界上各个国家的时区;
[0019] 步骤S133 :构建地点库,库中按照洲、国家、省、市、县的上下位层次关系存放了世 界各国的著名地区名称,另外库中还包括地点结尾词表,表中存放了常用的地点结尾词及 它们的上下位关系。
[0020] 优选地,在所述步骤S1和S3之间还包括以下步骤:
[0021] 步骤S2 :结合领域知识库,对短文本进行局部结构化抽取和在线分类,实现从海 量短文本中识别出具有潜在安全隐患的群体性事件相关文本;以及
[0022] 在步骤S2识别出来的短文本的范围内执行步骤S3。
[0023] 优选地,所述步骤S2进一步包括以下步骤:
[0024] 步骤S21 :对待分析的短文本逐句进行预处理,即将汉语进行分词和词性标注,并 对特殊的词语序列进行合并与修正;
[0025] 步骤S22 :基于步骤S21得到的词语序列,将实体基于领域本体库中的层次化概念 空间进行概念映射,并同时对多义实体进行概念消歧;
[0026] 步骤S23 :基于步骤S22得到的消歧后的词语序列,根据汉语基本句式将消歧后的 词语序列进行信息抽取,将短文本句子转化为结构化元组表达形式;
[0027] 步骤S24 :基于步骤S23得到的元组集合,结合领域知识库获取当前句子的深层语 义表示,并用于在线分类,如分类结果与群体性事件无关且未扫描至该短文本的末句,则返 回步骤S21,否则分析下一条短文本。
[0028] 进一步优选地,所述步骤S24还包括以下步骤:
[0029] 步骤S241 :根据步骤S23信息抽取得到的结果,针对群体性事件文本的特点,结合 群体性事件领域知识库,对短文本进行知识泛化、特征提取和特征值计算;
[0030] 步骤S242 :根据步骤S241获取的深层语义特征表示,离线阶段利用有标注训练集 训练二分类模型,在线阶段根据分类模型进行实时分类,最终输出识别结果。
[0031] 优选地,所述步骤S3进一步包括以下步骤:
[0032] 步骤S31 :载入识别出的群体性事件短文本集合,利用信息抽取技术对其进行结 构化解析,此时不考虑时间和地点信息,得到描述每条短文本话题的结构化元组集合;
[0033] 步骤S32 :结合领域事件库中的时间和地点词,识别并抽取每条短文本的时间和 地点信息,并且得到描述每条短文本的时间向量和地点向量;
[0034] 步骤S33 :将结构化元组向知识库投影,滤除群体性事件无关的结构化特征,得到 每条短文本的候选结构化特征集;
[0035] 步骤S34 :通过计算结构化特征在不同短文本中的区分度或信息熵选取其中的有 效特征子集;
[0036] 步骤S35 :增量式地动态构建已观测短文本的所有结构化特征,通过计算结构化 特征之间的相似度,同时获得描述每条短文本话题的特征向量;
[0037] 步骤S36 :基于步骤S35中获得的特征向量,进行话题聚类并获得的类别集合C1 ;
[0038] 步骤S37 :结合领域事件库,增量式地动态构建已观测短文本的所有时间和地点 特征,分别进行时间和地点推理,为每条短文本构造时间特征向量和地点特征向量;
[0039] 步骤S38 :基于步骤S37中获得的特征向量,进行时间-地点聚类并获得类别集合 C2 ;
[0040] 步骤S39 :将话题类别集合C1与时间-地点类别集合C2进行融合,并得到最终群 体性事件的类别集合C;
[0041] 步骤S3A :根据每个"聚类簇"内所包含的短文本数目排序预警度,并将超过给定 阈值的群体性事件进行及时预警。
[0042] 优选地,其中所述步骤S36和步骤S38中所用的聚类算法为Stream聚类算法或其 框架下的其他算法;
[0043] 进一步优选地,所述步骤S32中时间和地点信息的抽取进一步包括以下步骤:
[0044] 步骤S321 :短文本信息的发布时间抽取,即该短文本出现的时间;
[0045] 步骤S322 :基于分词算法的标识和领域事件库中的时间类型词,对每个短文本进 行时间词抽取,其中对复杂时间词的识别采用模式匹配的方式;
[0046] 步骤S323 :基于时间库,对每个识别出来的时间词进行数值解码操作,即确定时 间词所关联的时间区段、时间粒度、时间上下位等信息;
[0047] 步骤S324 :对于分词算法标记为地点的词语,查询领域事件库中的地点类型词, 标识该地点的上下位以及所在层级;当遇到分词算法无法识别的新地点词时,通过匹配地 点标志词来识别地点词边界,如果地点上下位关系已知,则可根据地点由大到小的表述顺 序来确认当前地点词识别的正确性;
[0048] 步骤S325 :地点词的层级归类,如果从一个短文本中抽取出多个地点,则根据地 点间的上下位关系,对它们进行正确的归类,具有上下位关系的多个地点看作一个地点;
[0049] 其中,所述地点标志词一般位于地点词的结尾处,且在建立领域库时已经标明它 们之间的层级关系。
[0050] 进一步优选地,所述步骤S35包括以下步骤:
[0051] 步骤S351 :初始化结构化特征集合为空;
[0052] 步骤S352 :输入当前短文本的候选结构化特征;
[0053] 步骤S353 :当特征集合为空时,将一个结构化特征放入其中,并将特征向量在相 应位置设为1,否则将其结构化特征与特征集合中元素逐一比较,保留最为相似的特征和相 似度;
[0054] 步骤S354 :若相似度大于特定阈值,则认为该结构化特征匹配成功,将特征向量 在相应位置设为1,否则设为〇 ;若匹配失败,则认为是新的特征,将该结构化特征加入当前 特征集合中,增加当前特征向量维数,并将特征向量在该位置设为1,其余位置为0 ;
[0055] 步骤S355 :如果未到短文本结尾,则重复步骤S352?S354,否则结束;
[0056] 其中,结构化特征包括5种成分:行为、施事、受事、主语修饰、宾语修饰,每一成分 具有相应的权重wl?w5,两个结构化特征的相似度是这5种成分比较结果的加权求和。
[0057] 进一步优选地,所述步骤S37进一步包括以下步骤:
[0058] 步骤S371 :初始化当前时间和地点特征集合,令其分别为空;
[0059] 步骤S372 :针对每条短文本,根据其时间和地点信息分别构造时间特征和地点特 征,特征的个数取决于不同时间和地点的数量;
[0060] 步骤S373 :若时间和地点特征集合为空,则将第一个时间和地点特征加入其中, 特征向量在该位置设为1,否则若时间特征集合不为空则执行步骤S374,否则执行步骤 S375 ;
[0061] 步骤S374 :进行时间相似度推理,即在一定的时间窗口下,比较两个时间是否相 同、区段内包含、相交或者无交集的过程,当两个时间相差不超过一定阈值或两个时间具有 交集则认为匹配成功,将特征值向量在相应位置设为1,否则将该特征加入当前时间特征 集合中,特征向量在该位置设为1,其余位置为0 ;并且,若地点特征集合不为空则执行步骤 S375,否则结束;
[0062] 步骤S375 :进行地点相似度推理,查询领域本体库以及地点库,确定两个地点是 否相同、等价、具有父子包含关系,或是否在结尾处添加或丢弃地点标志词后具有上述关系 则认为匹配成功,将特征值向量在相应位置设为1,否则将该特征加入当前地点特征向量 中,特征向量在该位置设为1,其余位置为0。
[0063] 进一步优选地,所述步骤S39进一步包括以下步骤:
[0064] 步骤S391 :使用C2对C1中每个类别进行拆分,使得拆分后每个簇中的短文本在 C2中也属于同一个簇;
[0065] 步骤S392 :基于C2的结果,对上一步中得到的类别集合C0进行合并,使得合并后 每个簇的短文本在C2中也属于同一个簇,且其中短文本基于"词袋"特征的相似度大于给 定阈值。
[0066] 优选地,所述步骤S353进一步包括以下步骤:
[0067] 步骤S3531 :匹配前,初始化待匹配元组的每一种成分的相似度为0 ;
[0068] 步骤S3532 :针对每一种成分,首先进行词形比较,若匹配成功,累加该相似度分 值,并执行步骤S3535 ;否则执行步骤S3533 ;
[0069] 步骤S3533 :基于领域本体库和规则库,分别判断两个对应的实体或者关系之间 是否具有等价关系,若等价则累加该相似度分值,并执行步骤S3535,否则执行步骤S3534 ;
[0070] 步骤S3534 :查询每种成分的概念层次,并进行上下位匹配,若匹配成功,累加该 相似度分值;
[0071] 步骤S3535 :如果未完成比较所有成分,则重复执行步骤S3532?S3534,否则根据 每种成分的权重,计算该成分对应的相似度,并对所有成分的相似度加权求和。
[0072] 根据本发明的另一个方面,本发明还提供了一种面向短文本的群体性事件预警系 统,包括:
[0073] 筛选模块,用于结合领域知识库,对短文本进行局部结构化抽取和在线分类,实现 从海量短文本中识别出具有潜在安全隐患的群体性事件相关文本;
[0074] 预警处理模块,用于结合领域知识库,对识别出的短文本进行全局结构化处理和 在线聚类,并根据每个"聚类簇"内所包含的短文本数目是否超过给定阈值来决定是否进行 及时预警;以及
[0075] 领域知识库,包括领域本体库、事实库、事件库和规则库,其中
[0076] 领域本体库,存放了领域概念的层次化组织形式,而且概念之间具有等价关系以 及可能的领域关系约束;
[0077] 领域事实库,存放了经过语义消歧以及实体唯一性标识而得到的结构化元组集 合;
[0078] 领域事件库,包括领域相关词汇,这些词汇由行为、施事、受事、修饰、结果、时间和 地点等类型组成;
[0079] 领域规则库,存放了概念元组之间的等价关系及其成立的概率。
[0080] 优选地,所述筛选模块工作时执行如下流程:
[0081] 步骤S21 :对待分析的短文本逐句进行预处理,即将汉语进行分词和词性标注,并 对特殊的词语序列进行合并与修正;
[0082] 步骤S22 :基于步骤S21得到的词语序列,将实体基于领域本体库中的层次化概念 空间进行概念映射,并同时对多义实体进行概念消歧;
[0083] 步骤S23 :基于步骤S22得到的消歧后的词语序列,根据汉语基本句式将消歧后的 词语序列进行信息抽取,将短文本句子转化为结构化元组表达形式;
[0084] 步骤S24 :基于步骤S23得到的元组集合,结合领域知识库获取当前句子的深层语 义表示,并用于在线分类,如分类结果与群体性事件无关且未扫描至该短文本的末句,则返 回步骤S21,否则分析下一条短文本。
[0085] 进一步优选地,所述步骤S24还包括以下步骤:
[0086] 步骤S241 :根据步骤S23信息抽取得到的结果,针对群体性事件文本的特点,结合 群体性事件领域知识库,对短文本进行知识泛化、特征提取和特征值计算;
[0087] 步骤S242 :根据步骤S241获取的深层语义特征表示,离线阶段利用有标注训练集 训练二分类模型,在线阶段根据分类模型进行实时分类,最终输出识别结果。
[0088] 优选地,所述预警处理模块工作时执行以下流程:
[0089] 步骤S31 :载入识别出的群体性事件短文本集合,利用信息抽取技术对其进行结 构化解析,此时不考虑时间和地点信息,得到描述每条短文本话题的结构化元组集合;
[0090] 步骤S32 :结合领域事件库中的时间和地点词,识别并抽取每条短文本的时间和 地点信息,并且得到描述每条短文本的时间向量和地点向量;
[0091] 步骤S33 :将结构化元组向知识库投影,滤除群体性事件无关的结构化特征,得到 每条短文本的候选结构化特征集;
[0092] 步骤S34 :通过计算结构化特征在不同短文本中的区分度或信息熵选取其中的有 效特征子集;
[0093] 步骤S35 :增量式地动态构建已观测短文本的所有结构化特征,通过计算结构化 特征之间的相似度,同时获得描述每条短文本话题的特征向量;
[0094] 步骤S36 :基于步骤S35中获得的特征向量,进行话题聚类并获得的类别集合C1 ;
[0095] 步骤S37 :结合领域事件库,增量式地动态构建已观测短文本的所有时间和地点 特征,分别进行时间和地点推理,为每条短文本构造时间特征向量和地点特征向量;
[0096] 步骤S38 :基于步骤S37中获得的特征向量,进行时间-地点聚类并获得类别集合 C2 ;
[0097] 步骤S39 :将话题类别集合C1与时间-地点类别集合C2进行融合,并得到最终群 体性事件的类别集合C;
[0098] 步骤S3A :根据每个"聚类簇"内所包含的短文本数目排序预警度,并将超过给定 阈值的群体性事件进行及时预警。
[0099] 优选地,其中所述步骤S36和步骤S38中所用的聚类算法为Stream聚类算法或其 框架下的其他算法;
[0100] 进一步优选地,所述步骤S32中时间和地点信息的抽取进一步包括以下步骤:
[0101] 步骤S321 :短文本信息的发布时间抽取,即该短文本出现的时间;
[0102] 步骤S322 :基于分词算法的标识和领域事件库中的时间类型词,对每个短文本进 行时间词抽取,其中对复杂时间词的识别采用模式匹配的方式;
[0103] 步骤S323 :基于时间库,对每个识别出来的时间词进行数值解码操作,即确定时 间词所关联的时间区段、时间粒度、时间上下位等信息;
[0104] 步骤S324 :对于分词算法标记为地点的词语,查询领域事件库中的地点类型词, 标识该地点的上下位以及所在层级;当遇到分词算法无法识别的新地点词时,通过匹配地 点标志词来识别地点词边界,如果地点上下位关系已知,则可根据地点由大到小的表述顺 序来确认当前地点词识别的正确性;
[0105] 步骤S325 :地点词的层级归类,如果从一个短文本中抽取出多个地点,则根据地 点间的上下位关系,对它们进行正确的归类,具有上下位关系的多个地点看作一个地点; [0106] 其中,所述地点标志词一般位于地点词的结尾处,且在建立领域库时已经标明它 们之间的层级关系。
[0107] 进一步优选地,所述步骤S35包括以下步骤:
[0108] 步骤S351 :初始化结构化特征集合为空;
[0109] 步骤S352 :输入当前短文本的候选结构化特征;
[0110] 步骤S353 :当特征集合为空时,将一个结构化特征放入其中,并将特征向量在相 应位置设为1,否则将其结构化特征与特征集合中元素逐一比较,保留最为相似的特征和相 似度;
[0111] 步骤S354 :若相似度大于特定阈值,则认为该结构化特征匹配成功,将特征向量 在相应位置设为1,否则设为〇 ;若匹配失败,则认为是新的特征,将该结构化特征加入当前 特征集合中,增加当前特征向量维数,并将特征向量在该位置设为1,其余位置为0 ;
[0112] 步骤S355 :如果未到短文本结尾,则重复步骤S352?S354,否则结束;
[0113] 其中,结构化特征包括5种成分:行为、施事、受事、主语修饰、宾语修饰,每一成分 具有相应的权重wl?w5,两个结构化特征的相似度是这5种成分比较结果的加权求和。
[0114] 进一步优选地,所述步骤S37进一步包括以下步骤:
[0115] 步骤S371 :初始化当前时间和地点特征集合,令其分别为空;
[0116] 步骤S372 :针对每条短文本,根据其时间和地点信息分别构造时间特征和地点特 征,特征的个数取决于不同时间和地点的数量;
[0117] 步骤S373 :若时间和地点特征集合为空,则将第一个时间和地点特征加入其中, 特征向量在该位置设为1,否则若时间特征集合不为空则执行步骤S374,否则执行步骤 S375 ;
[0118] 步骤S374 :进行时间相似度推理,即在一定的时间窗口下,比较两个时间是否相 同、区段内包含、相交或者无交集的过程,当两个时间相差不超过一定阈值或两个时间具有 交集则认为匹配成功,将特征值向量在相应位置设为1,否则将该特征加入当前时间特征 集合中,特征向量在该位置设为1,其余位置为0 ;并且,若地点特征集合不为空则执行步骤 S375,否则结束;
[0119] 步骤S375 :进行地点相似度推理,查询领域本体库以及地点库,确定两个地点是 否相同、等价、具有父子包含关系,或是否在结尾处添加或丢弃地点标志词后具有上述关系 则认为匹配成功,将特征值向量在相应位置设为1,否则将该特征加入当前地点特征向量 中,特征向量在该位置设为1,其余位置为〇。
[0120] 进一步优选地,所述步骤S39进一步包括以下步骤:
[0121] 步骤S391 :使用C2对C1中每个类别进行拆分,使得拆分后每个簇中的短文本在 C2中也属于同一个簇;
[0122] 步骤S392 :基于C2的结果,对上一步中得到的类别集合C0进行合并,使得合并后 每个簇的短文本在C2中也属于同一个簇,且其中短文本基于"词袋"特征的相似度大于给 定阈值。
[0123] 优选地,所述步骤S353进一步包括以下步骤:
[0124] 步骤S3531 :匹配前,初始化待匹配元组的每一种成分的相似度为0 ;
[0125] 步骤S3532 :针对每一种成分,首先进行词形比较,若匹配成功,累加该相似度分 值,并执行步骤S3535 ;否则执行步骤S3533 ;
[0126] 步骤S3533 :基于领域本体库和规则库,分别判断两个对应的实体或者关系之间 是否具有等价关系,若等价则累加该相似度分值,并执行步骤S3535,否则执行步骤S3534 ;
[0127] 步骤S3534 :查询每种成分的概念层次,并进行上下位匹配,若匹配成功,累加该 相似度分值;
[0128] 步骤S3535 :如果未完成比较所有成分,则重复执行步骤S3532?S3534,否则根据 每种成分的权重,计算该成分对应的相似度,并对所有成分的相似度加权求和。
[0129] 本发明为群体性事件预测提供了一种有效的方法和系统。与现有技术相比,本发 明具有如下优势:
[0130] 本发明充分融合领域背景知识和上下文语境、浅层语义表达和深层语义计算,实 现群体性安全事件的协同分析和预测。一方面,领域知识由本体、事实、事件和规则四部分 组成,其中,本体库具有层次化的领域概念组织形式,而且概念之间具有等价关系以及可能 的领域关系约束;事实库是经过语义消歧以及实体关系的唯一性标识而得到的结构化元组 集合;事件库则根据领域中可能的相关词汇集成,这些词汇由行为、施事、受事、修饰、结果、 时间和地点等类型组成;规则库中存放的是概念元组之间的等价关系。这些背景知识是采 取"机器学习+模式匹配"的方式从语料中自动获取的,尔后借助人工干预对其进行过滤和 筛选。另一方面,在对短文本进行语义分析(即在线分类和聚类)的过程中,利用信息抽取 技术,得到短文本上下文信息的浅层语义表达,然后结合领域知识库进行语义投影、知识泛 化、特征提取和特征值计算,最终得到短文本数据的深层语义表达并用于建立预测模型。有 力地保证了群体性事件的信息甄别、跟踪和预警的及时性、准确率和召回率,将有助于提高 群体性事件初始发生时的快速反应能力,从真正意义上做到"为之于未有,治之于未乱"。

【专利附图】

【附图说明】
[0131] 为了描述本发明的上述优点和特征,将通过引用附图中的具体实施例来辅助说明 本发明的详细内容。可以理解,这些附图仅为本发明的典型实施例的描述,而非对本发明的 限制。任何以其他形式表达本发明步骤或内容的附图都应属于本发明范围内。
[0132] 图1为本发明的面向短文本、结合领域知识库的群体性事件预警方法的流程示意 图;
[0133] 图2为本发明的群体性事件识别方法的流程图;
[0134] 图3为本发明的群体性事件跟踪和预警方法的流程图;
[0135] 图4为本发明为每条短文本构造话题特征向量的流程图;
[0136] 图5为本发明为每条短文本构造时间和地点特征向量的流程图。

【具体实施方式】
[0137] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明作进一步的详细说明。
[0138] 本发明的结合知识库的群体性事件预警方法,包括以下步骤:
[0139] 步骤S1 :基于互联网和通信网获取的领域相关语料资源,自动构建面向群体性安 全事件的领域知识库,包括领域本体库、事实库、事件库和规则库,并实现其半自动化的知 识维护和更新。
[0140] 领域知识库是专门针对群体性事件预警问题而构建的知识库,其构建过程进一步 包括以下步骤:
[0141] 步骤S11 :构建领域本体库,库中存放了领域概念的层次化组织形式,而且概念之 间具有等价关系以及可能的领域关系约束。
[0142] 在领域本体库的层次结构的构建过程中,一方面结合已知的上下位关系、开放分 类、多义词和同义词信息进行概念层级的水平和垂直融合;另一方面结合具有属性信息的 实例,利用归纳决策树模型进行实体层次化概念的自动识别,于是形成了领域概念的层次 化组织结构和实例-概念的映射关系。值得注意的是,本体库中概念之间的等价关系主要 依赖于维基百科、互动百科和哈尔滨工业大学公开发布的各种同义词表,领域关系约束则 取决于下面事实库抽取中获得的结构化元组知识,并且这些知识在入库之前需要进行质量 评估和人工修正,以保证其实际应用的有效性。
[0143] 例如,多义词"大众"在层次化概念上的映射关系为:
[0144] 大众|群体|人物|生物、大众|标识|文化|抽象事物、大众|公司|机构
[0145] 其中,坚杠" | "右侧的实体是左侧实体的上位概念,并且该词在概念"群体"意义 下与概念"公众"是等价的。
[0146] 步骤S12 :构建领域事实库,库中存放了经过语义消歧以及实体唯一性标识而得 到的结构化元组集合。
[0147] 该库的构建主要依赖于从互联网和通信网中获取的群体性事件相关语料,并且充 分利用了各种信息抽取技术,包括中文分词、词性标注、依存关系分析和特殊句式识别等操 作,在得到大量的结构化元组之后,将其中的实体向本体库中的层次化概念进行映射,如果 该实体具有不止一个概念,那么根据其所在元组的关系和其他实体信息进行语义消歧,从 而得到具有唯一性概念标识的大量事实元组集合。
[0148] 步骤S13 :构建领域事件库,包括领域相关词汇,这些词汇由行为、施事、受事、修 饰、结果、时间和地点等类型组成。
[0149] 所述步骤S13进一步包括以下步骤:
[0150] 步骤S131 :根据领域特定关键词,依据"共现关系"自动收集领域相关词汇,并进 行手工归类。
[0151] 步骤S132 :构建时间库,其特征在于,库中存放了各类时间词及其数值编码,编码 的目的是通过识别时间词并在短文本的发布时间基础上识别出确切的时间;另外,该库还 包括时区表,表中存放了世界上各个国家的时区。
[0152] 如"北京时间"与"伦敦时间"不同,它们相差数个时区;再如,"今天凌晨"与"今 天晚上"所指不是一个时间,而"今天午夜"和"明天凌晨"则有可能是一个时间,这些知识 需要知识库提供。对这些时间进行相似程度计算需要知识库告诉计算机"凌晨"、"午夜"是 哪个时间段,以及一天有多少小时等常识。
[0153] 所述时间模式库中存放了普通时间词(如:昨天、上午、今早),节日(如中秋节), 复杂时间词(如:下个月末、下个星期一),时间上下位(包括年、月、日、时、分、秒、季度、星 期)等。复杂时间词无法被分词算法识别,因此本发明中采用模板匹配的方式识别这类词 语。时间模式库中同时也存放了每个时间词的数值编码,现举例说明时间词的数值编码形 式:
[0154] 傍晚黄昏{18:00,20:00时},明日明天{r:l日}
[0155] 其中的"时"、"日"表示时间度量或粒度,"r"表示相对时间," 18 :00,20 :00"表示 时间区间。
[0156] 步骤S133 :构建地点库,其特征在于,库中按照洲、国家、省、市、县的上下位层次 关系存放了世界各国的著名地区名称,另外库中还包括地点结尾词表,表中存放了常用的 地点结尾词及它们的上下位关系,如洲、国、省、市、镇等。
[0157] 地点结尾词的作用是帮助识别分词算法无法识别的地点词以及确定地点的上下 位层级。地点一般按照从大到小的顺序进行描述,此种现象在本发明中称为层级约束,如北 京市海淀区。因此,由于分词错误而无法正确识别的地点词,在本发明中将根据层级约束性 质进行识别,该过程将涉及多个词语的归并。
[0158] 如,对于某一多层级地点,"广西省平南县大鹏镇",其分词结果为"广西省/ns平南 县/ns大/a鹏/η镇/n",分词算法无法正确识别"大鹏镇",此时根据层级约束,可以识别 出该地点以"镇"结尾,"镇"的表述顺序应该在"县"之后,因此可知"大/a鹏/η镇/η"应 为一个地点,因此,将分词结果更新为"广西省/ns平南县/ns大鹏镇/ns"。
[0159] 需要说明的是,由于不同短文本在地点表述上的差异,地点之间的匹配除了包括 等价关系外,还有包含关系,如短文本"北京市海淀区发生一起聚集事件"和"中关村广场发 生一起聚集事件",其中的"北京市海淀区"和"中关村"在很大程度上指的是同一个地点,只 是区域大小不同。当然,它们也可能不是同一事件,这时可以根据时间等特征加以区别。因 此,"省"级以下的地点之间的包含关系在本发明中将被看作同一地点。
[0160] 步骤S14 :构建领域规则库,其特征在于,存放了概念元组之间的等价关系及其成 立的概率。
[0161] 基于前述领域事实库和本体库,利用一阶逻辑和概率图模型技术(即马尔可夫逻 辑网络)实现不确定规则的自动学习,并得到形如"权重+规则"的逻辑表示,然后手工筛 选出满足实际应用需求的高质量逻辑表示,
[0162] 例如,0. 80散步<s :群体 >〈= > 集会<s :群体〉
[0163] 0· 95静坐<s :群体〉'统一〈〇 :着装X = >集会<s :群体〉
[0164] 其中,s表示概念"群体"在元组中充当主语,〇表示实体在元组中充当宾语,'表 示逻辑与,〈= > 表示等价关系。
[0165] 步骤S2 :结合领域知识库,对短文本进行局部结构化抽取和在线分类,实现从海 量短文本中识别出具有潜在安全隐患的群体性事件相关文本。
[0166] 为使群体性事件识别方法更加清晰明白,下面结合具体实施例进行详细的解释与 阐述。
[0167] text : {:明天下午两点半,大家在雍和宫附近散步,带好旗帜、标语}
[0168] 步骤S21 :对待分析的短文本逐句进行预处理,即将汉语进行分词和词性标注,并 对特殊的词语序列进行合并与修正。
[0169] 对例句text,分词与词性标注的结果如下:
[0170] 〈明天/t,下午/t,两点半/t,,/w,大家/η,在/p,雍和宫/ns,附近/f,散步/v,, /w,带好/v,旗巾只/n、/wn,标语/n>
[0171] 步骤S22 :基于步骤S21得到的词语序列,将实体基于领域本体库中的层次化概念 空间进行概念映射,并同时对多义实体进行概念消歧。
[0172] 其中概念消歧是自动完成的,在离线阶段首先制备训练数据,然后基于朴素贝叶 斯原理学习多分类模型,其中类别标签对应层次化概念,特征向量由给定窗口下的邻近无 歧义实体及其所属概念构成;在线阶段则基于多义实体所处特定语境,利用训练产生的分 类模型自动进行概念识别。
[0173] 对于例句text中,实体概念化并消歧得到的结果如下:
[0174] 实体概念化结果 |实体概念消歧结果 大家:群体 大家:群体 雍和宫:景点 |雍和宫:景点 旗帜:影视、物品、歌舞 旗帜:物品 标语:文化、物品 标语:物品
[0175] 步骤S23 :基于步骤S22得到的消歧后的词语序列,根据汉语基本句式将消歧后的 词语序列进行信息抽取,将短文本句子转化为结构化元组表达形式。
[0176] 今元组:散步(s:大家,p:雍和宫,t:明天下午两点半)
[0177] 带好(s :大家,〇 :旗帜+标语)
[0178] 今共现:共现(旗巾只,标语)
[0179] 其中,"p"表示地点成分,t表示时间信息," + "表示并列的关系,即"旗帜"和"标 语"均充当谓语"带好"的宾语成分。
[0180] 步骤S24 :基于步骤S23得到的结构化元组集合,结合领域知识库获取当前句子的 深层语义表示,并用于在线分类,如分类结果与群体性事件无关且未扫描至该短文本的末 句,则返回步骤S21,否则分析下一条短文本。
[0181] 具体地,所述步骤S24还包括以下步骤:
[0182] 步骤S241 :根据步骤S23信息抽取得到的结果,针对群体性事件文本的特点,结合 群体性事件领域知识库,对短文本进行知识泛化、特征提取和特征值计算。
[0183] 具体地,所述步骤S241中的知识泛化还包括实体泛化、关系泛化。
[0184] +实体泛化:利用领域本体库获取当前待分析的实体的等价实体集合,将等价实 体集合中的元素逐个代替待分析的实体,参与后续计算。例如例句中的实体"大家",利用领 域本体库获取到的等价实体集合为{大伙,人们,众人},可将"大伙"、"人们","众人"分别 代替"大家",参与后续计算;
[0185] ?关系泛化:将待分析的关系利用领域规则库获取该关系的等价关系集合,将等 价关系集合中的元素逐个代替待分析的实体,参与后续计算,例如例句中的关系"散步",利 用领域规则库获取到的等价关系集合为{集会,溜达,转悠},可将"集会","溜达","转悠" 分别代替"散步",参与后续计算;
[0186] 具体地,针对群体性事件的特点,该发明主要提取以下几类特征:
[0187] 今元组谓语:信息抽取得到的元组中的谓语成分。群体性事件文本中,元组谓语 动词一般具有很强的代表性,如"集体去抗议吧!","这次活动务必参加!",这里的"抗议" 与"参加"都有较强的群体性。若元组谓语为主观动词,如"认为","觉得"等,则标记文本 为普通文本,直接返回;否则基于事件库的敏感动词库检查该关系是否敏感,若敏感则形成 元组谓语特征,否则将该关系进行关系泛化,再结合事件库检查其是否敏感,若敏感则形成 元组谓语特征,否则舍弃该元组;
[0188] +群体性主语:信息抽取得到的元组中的主语成分。群体性事件文本中,元组主 语一般为群体性词汇,如"集体去抗议吧!","群众聚集在街头",这里的"集体"、"群众"都 是群体性词汇,因此基于事件库的群体性名词库检查主语是否为群体性词,若敏感形成主 语特征,否则将该主语进行实体泛化,再次利用事件库进行检查,若敏感则形成主语特征, 否则舍弃该元组;
[0189] +实体修饰:信息抽取得到的元组中主语成分的修饰词和宾语成分的修饰词。元 组的主语成分和宾语成分的修饰有时具有很强的信息,如"参加示威活动","发生恐怖爆 炸",这里的"示威"和"恐怖"都是群体性事件文本中较敏感的词汇。因此,基于事件库的敏 感实体词,检查主语修饰词与宾语修饰词是否敏感,若敏感形成修饰特征,否则对该修饰词 进行实体泛化,若敏感则形成修饰特征,否则舍弃该修饰词;
[0190] +概念元组:信息抽取得到的元组映射至概念空间后得到的概念化元组。群体性 事件的概念元组具有一定的概括性,如"游行(S :群体)","包围(S :群体,0 :机关)"等。 因此,基于领域本体库检查概念化元组是否敏感,若敏感形成概念元组特征,否则舍弃该元 组;
[0191] +实体共现:信息抽取得到的实体共现,即在一个句子中共同出现的实体对。有些 实体共同出现在一个短句中,代表较强的信息,如"共现(自杀式,恐怖)"或"共现(上访 户,市政府)"等。因此,基于领域事实库检查实体共现是否敏感,若敏感则形成实体共现特 征,否则舍弃该共现关系;
[0192] +关系共现:信息抽取得到的关系共现,即在一个句子中共同出现的关系对。如 "共现(袭击,爆炸)"或"共现(聚众,打砸)"等。因此,基于领域事实库检查关系共现是 否敏感,若敏感,则形成关系共现特征,否则舍弃该共现关系;
[0193] +地点词:信息抽取得到的地点信息。非法集会事件文本一般含有具体地点,有 时为敏感地点,如"天安门"、"雍和宫"等,基于事件库的地点词库判断该词是否敏感。
[0194] +时间词:信息抽取得到的时间信息。非法集会事件文本一般含有具体时间,如 "明天下午两点半"。
[0195] 因此,对例句text,特征抽取结果如下:
[0196] +元组谓语:散步、集会
[0197] +群体性主语:大家、群体
[0198] +实体修饰:无
[0199] 今概念元组:散步(s :群众)
[0200] +实体共现:共现(旗帜,标语)
[0201] +关系共现:无
[0202] +地点词:雍和宫
[0203] +时间词:明天下午两点半
[0204] 步骤S242 :根据步骤S241获取深层语义特征表示,离线阶段利用有标注训练集训 练二分类模型,在线阶段根据分类模型进行实时分类,最终输出识别结果。
[0205] 具体地,分类标签指的是有无涉及群体性事件,在实时分类过程中,通过计算分类 模型取值是否超过给定阈值来判断目标短文本与群体性事件是否相关。
[0206] 需要说明的是,这里的二分类模型可以是机器学习技术中任何有监督分类模型, 任何基于上述机制实现的群体性事件识别方法,均应包含在本发明的范围内。
[0207] 为了使群体性事件跟踪和预警方法更加容易理解,下面列出了该方法所处理的几 个短文本信息,包括每个短文本的发布时间,列表如下:
[0208] text : {江苏南通启东市的市民,本周六我们要进行大规模抗议,抗议日资造纸厂 排污计划,让工厂停它丫的!地点在市政府门口 }--timei : {2012-07-2519 :55}
[0209] text2 : {启东市的父老乡亲,准备举行示威抗议,大家一定要积极参加,抗议日资 造纸厂排污,地点在市政府门前}--time2 ={2013-07-2508 :36}
[0210] text3:{明天举行集体抗议,南通启东市的市民,别忘了日资造纸厂的排污劣行, 我们强烈抗议他们的行为,一定要让它停工,地点在市政府}――time 3 = {2012-07-2709 : 54}
[0211] text4:{队长再次声明:明天下午两点半,大家在雍和宫附近散步,带好旗帜、标 语}--ttme 4:{2012-10-2511 :25}
[0212] text5 : {大家可能有所耳闻,2012年10月26日下午的散步活动已有大批北京市 民参加,大家可领取旗帜和标语,地点在雍和宫}--ttme 5 ={2012-10-2520 :20}
[0213] 其中,texi^和text3为同一类别,text2为一个类别,text 4?text5为同一类别。
[0214] 图1示出了群体性事件跟踪和预警方法的流程示意图。如图1所示,该方法包括:
[0215] 步骤S31 :载入识别出的群体性事件短文本集合,利用信息抽取技术对其进行结 构化解析,此时不考虑时间和地点信息,得到描述每条短文本话题的结构化元组集合。
[0216] 结构化解析包括对短文本进行分词和结构化元组抽取操作,最终解析好的特征将 保存在统一的数据结构中。
[0217] 步骤S32 :结合领域事件库中的时间和地点词,识别并抽取每条短文本的时间和 地点信息,并且得到描述每条短文本的时间向量和地点向量。
[0218] 多数时间和地点信息在分词算法的作用下被识别出来,但是,复杂时间词和分词 算法无法识别的地点需要根据知识库进一步识别,如"启东市"在分词算法中被分成"启/V 东/f市/n",因此需要根据地点层级关系进行进一步识别和归并。
[0219] 该步骤进一步包括以下步骤:
[0220] 步骤S321 :短文本信息的发布时间抽取,即该短文本出现的时间。
[0221] 如,{2012-07-2508 :36}。
[0222] 步骤S322 :基于分词算法的标识和时间库,对每个短文本进行时间词抽取,其中 对复杂时间词的识别采用模式匹配的方式。
[0223] 如,"下个星期一"在分词算法中被分成"下个/rz星期一 /t",需要根据时间词模 板进行归并。
[0224] 步骤S323 :基于时间库,对每个识别出来的时间词进行数值解码操作,即确定时 间词所关联的时间区段、时间粒度、时间上下位等信息。
[0225] 如"下个星期一",因为是相对短文本的发布时间来说的,因此是相对时间,并且其 所处的时间区段是1日,时间粒度是"日",其没有"小时"的详细信息;再如"今晨"也是相 对时间,其所处的时间区段是"0-8时",时间粒度是"时",没有"分"的详细信息。
[0226] 再如,短文本texh中,发布时间为ttmei : {2012-07-2519 :55},文本中识别的时 间为time〈周六〉,根据"周六"的解码信息,可知它是目前所在周的周六,根据绝对时间 2012-07-25可以求得这一天是周三,因此相对时间"周六"映射为绝对时间是2012-07-28。
[0227] 另外,当时间粒度只到"天"时,则令"时"的数值为"12 :00"。如text中的解码 后的最终时间为"2012-07-2812 :00"。
[0228] 当短文本中没有给出明确的时间时,则采用短文本的发布时间作为实际时间。如 text2中,"准备"是一个模糊的时间词,该短文最终解码的时间为"2013-07-2508 :36"
[0229] 步骤S324 :对于分词算法标记为地点的词语,查询地点库,标识该地点的上下位 以及所在层级;当遇到分词算法无法识别的新地点词时,通过匹配地点标志词来识别地点 词边界,并且,如果地点上下位关系已知,则可根据地点由大到小的表述顺序来确认当前地 点词识别的正确性。
[0230] 如,"江苏南通启东市"在分词算法中得到"江苏/ns南通/ns启/V东/f市/n", 因为"江苏"的级别是"省","南通"的级别是"市",而后不远又出现"市"这一词语,根据地 点表述顺序可知,"启东市"很可能是一个地点,因此将"启东市"合并为一个词。
[0231] 步骤S325 :地点词的层级归类,如果从一个短文本中抽取出多个地点,则根据地 点间的上下位关系,对它们进行正确的归类,具有上下位关系的多个地点看作一个地点。
[0232] 如,"北京市海淀区举行游行示威,河北省石家庄也将举行类似事件",其中"北京 市/海淀区"为一个地点,而"河北省/石家庄"为另一个不同地点。
[0233] 其中,所述地点标志词一般位于地点词的结尾处,且在建立领域知识库时已经标 明它们之间的层级关系。如"省"、"市"、"乡"、"州"等地点结尾词标识了地点词,同时也标 识了地点的层级。
[0234] 例如,texh?text5经过结构化解析并抽取时间和地点特征后得到结构化表示如 下:
[0235] texi^ : {进行<s :江苏/南通/启东市+市民,〇 :抗议 >,抗议〈〇 :造纸厂/排污 +计划〉,让〈〇 :工厂+停工〉,time〈2012-07-2812 :00>,place〈中国/江苏省/南通/启 东市+市政府门口 >}
[0236] text2 : {举行<s :启东市+父老乡亲,〇 :示威+抗议〉,参加<s :大家〉,抗议〈〇 : 日资/造纸厂+排污〉,time〈2013-07-2508 :36>,place〈启东市/市政府门前>}
[0237] text3 : {举行〈〇 :集体+抗议〉,抗议<s :启东市+市民,〇 :日资/造纸厂/排污 +劣行〉,让<s :日资/造纸厂/停工〉,time〈2012-07-2812 :00>,place〈南通/启东市+ 市政府>}
[0238] text4 : {声明<s :队长〉,散步<s :大家〉,带好<s :大家,〇 :旗巾只+标语>, time〈2012-10-2614 :30>,place〈雍和宫 >}
[0239] text5 : {有所耳闻<s :大家〉,参加 <s :北京+市民,〇 :散步+活动〉,领取<s :大 家,〇 :旗帜+标语〉,time〈2012-10-26下午〉,place〈北京+雍和宫>}
[0240] 其中,s表示实体在元组中充当主语,〇表示实体在元组中充当宾语,+前面的词语 为相应成分的修饰部分,多个修饰之间使用"/"隔开。
[0241] 步骤S33 :将结构化元组向知识库投影,滤除群体性事件无关的结构化特征,得到 每条短文本的结构化特征集。
[0242] 步骤S331 :针对每条短文本,进行结构化元组歧义消解以及实体唯一性标识。
[0243] 如text4中结构化特征"带好<s :大家,〇 :旗帜〉"经过语义投影后得到结构化元 组为"带好〈S :大家,0 :旗帜_16>",其中"_16"表示"旗帜"为"物品"。
[0244] 步骤S332 :针对每条短文本,根据领域事件库,滤除群体性事件无关的结构化特 征。
[0245] 例如,text5中的短句"大家可能有所耳闻"将被过滤,text3中的"一定要让它停 工"和text中的"让工厂停它丫的"都将被过滤。
[0246] 步骤S34 :对每条短文本,进行特征选择,即通过计算结构化特征在不同短文本中 的区分度或信息熵来选择有效特征。
[0247] 此处的特征选择主要目的是在不影响预警效果的情况下,大幅降低特征的维数, 以减少计算复杂度。
[0248] 步骤S35 :增量式地动态构建已观测短文本的所有结构化特征,通过计算结构化 特征之间的相似度,同时获得描述每条短文本话题的特征向量。该步骤进一步包括以下步 骤:
[0249] 步骤S351 :初始化结构化特征集合为空;
[0250] 步骤S352 :输入当前短文本的候选结构化特征;
[0251] 步骤S353 :当特征向量为空时,将一个结构化特征放入其中,并将特征向量在相 应位置设为1,否则将其结构化特征与特征集合中元素逐一比较,保留最为相似的特征和相 似度。
[0252] 例如,取texh中的一个结构化元组作为第一个特征:举行<s :江苏/南通/启东 市+市民,〇 :抗议〉。texh中所有元组逐一与它进行比较,当与特征向量中的所有元组都 无法实现匹配时,将新特征添加到特征向量中,继续进行比较。
[0253] 该步骤进一步包括三种操作,即词形判断、等价性判断及上下位判断,此三种操作 在相似度分值的贡献上呈递减趋势。
[0254] 其中,结构化特征包括5种成分:行为,施事,受事,主语修饰,宾语修饰,每一成分 具有相应的权重wl?w5,两个结构化特征的相似度是这5种成分比较结果的加权求和,步 骤S353进一步包括以下步骤:
[0255] 步骤S3531 :匹配前,初始化待匹配元组的每一种成分的相似度为0 ;
[0256] 例如,令texh中"进行<s :江苏/南通/启东市+市民,〇 :抗议〉"为特征元组, 令text2中"进行<s :启东市+父老乡亲,〇 :示威+抗议〉"为待匹配元组,并且置待匹配元 组中各个成分的相似度为〇。
[0257] 步骤S3532 :针对每一种成分,首先进行词形比较,若匹配成功,累加该相似度分 值,并执行步骤S3535 ;否则执行步骤S3533 ;
[0258] 例如,步骤S3531的例子中,受事都为"抗议",因此,受事的词形匹配成功。再如, 行为"进行"与"举行"、施事"市民"与"父老乡亲"在词形比较时失败,需要依靠其他操作 来确定它们的相似度。
[0259] 步骤S3533 :基于领域本体库和规则库,分别判断两个对应的实体或者关系之间 是否具有等价关系,若等价则累加该相似度分值,并执行步骤S3535,否则执行步骤S3534 ;
[0260] 例如,行为"进行"和"举行"在概念搭配"<s :群体,〇 :行为〉"的约束下是等价的, 可以实现匹配。
[0261] 不过,等价匹配的权重要低于词形匹配的权重。
[0262] 步骤S3534 :查询每种成分的概念层次,并进行上下位匹配,若匹配成功,累加该 相似度分值;
[0263] 例如,施事"市民"与"父老乡亲"的概念层次上均为民众I群体I生物,可以实现 匹配。
[0264] 步骤S3535 :如果未完成比较所有成分,则重复执行步骤S3532?S3534,否则根据 每种成分的权重,计算该成分对应的相似度,并对所有成分的相似度加权求和。
[0265] 需要说明的是,修饰部分进行比较时,在上述3种操作下,当其中一组修饰匹配成 功时,则修饰匹配成功。如步骤S3531的例子中,主语修饰"江苏/南通/启东市"与"启东 市"比较,虽然"江苏"与"启东市"无法匹配,但两组修饰都含有"启东市",因此词形匹配成 功。
[0266] 步骤S354 :若相似度大于特定阈值,则认为该结构化特征匹配成功,将特征向量 在相应位置设为1,否则设为0 ;若匹配失败,则认为是新的特征,将该结构化特征加入当前 特征集合中,增加当前特征向量维数,并将特征向量在该位置设为1,其余位置为0 ;
[0267] 步骤S355 :如果未到短文本结尾,则重复步骤S352?S354,否则结束。
[0268] 步骤S36 :基于步骤S35中获得的特征向量,进行话题聚类并获得类别集合C1。
[0269] 上述texh?text5短文本,最终被聚成3类,即texl^?text 3为一类,text4 - 类,text5-类。其中,text3由于时间上的不同本应自成一类,但在话题上的确与texh和 text2很相近,需要在时间和地点匹配中进一步区分,另外,在text4和text5比较过程中,在 结构化特征上无法实现匹配,因此,text 4和text5的相似性较低,而没有被聚类过程聚为一 个类别。不过,下面的时间和地点推理可以有效解决这个问题。
[0270] 步骤S37 :结合领域事件库,增量式地动态构建已观测短文本的所有时间和地点 特征,分别进行时间和地点推理,为每条短文本构造时间特征向量和地点特征向量。
[0271] 该步骤进一步包括以下步骤:
[0272] 步骤S371 :初始化当前时间和地点特征集合,令其分别为空;
[0273] 步骤S372 :针对每条短文本,根据其时间和地点信息分别构造时间特征和地点特 征,特征的个数取决于不同时间和地点的数量;
[0274] 如text4中的时间特征为一个,〈2012-10-2614 :30>,地点特征为一个,〈雍和宫〉, text5中的时间特征为一个,〈2012-10-26下午〉,地点特征为一个,〈北京+雍和宫〉。
[0275] 步骤S373 :若时间和地点特征集合为空,则将第一个时间和地点特征加入其中, 特征向量在该位置设为1,否则若时间特征集合不为空则执行步骤S374,否则执行步骤 S375 ;
[0276] 步骤S374 :进行时间相似度推理,即在一定的时间窗口下,比较两个时间是否相 同、区段内包含、相交或者无交集的过程,当两个时间相差不超过一定阈值或两个时间具有 交集则认为匹配成功,将特征向量在相应位置设为1,否则将该特征加入当前时间特征集 合中,特征向量在该位置设为1,其余位置为〇 ;并且,若地点特征集合不为空则执行步骤 S375,否则结束;
[0277] 时间有点、阶段,也有模糊的表示如"近日"。人们在表示时间上也难以做到万分精 确,因此,此处的时间比较采用区段内包含的方式,即两个时间相差不超过一定阈值或两个 时间具有交集则认为匹配成功。
[0278] 例如,text4 和 text5 中的时间特征,〈2012-10-2614 :30> 与〈2012-10-26 下午〉 进行相似度比较时,前者是精确时间,而后者的"下午"是一个时间阶段,依据时间模式库中 对于时间词所处时间阶段的划分,"下午"所处的时间包含"14:30",因此,上述两个时间是 匹配的。
[0279] 再如,text2 与 text^texh 的时间比较时,由于"2013-07-28" 与"2012-07-25"相 差1年,远超过阈值,因此,时间匹配失败。
[0280] 步骤S375 :进行地点相似度匹配,查询领域本体库以及地点库,确定两个地点是 否相同、等价、具有父子包含关系,或是否在结尾处添加或丢弃地点标志词后具有上述关系 则认为匹配成功,将特征向量在相应位置设为1,否则将该特征加入当前地点特征向量中, 特征向量在该位置设为1,其余位置为0。
[0281] 当进行地点匹配时,层级地点仅匹配上其中一部分即可,例如,仏^4和text 5中的 地点特征〈雍和宫〉与〈北京+雍和宫〉比较相似度时,"北京"包含"雍和宫",因此〈北 京+雍和宫〉也即〈雍和宫〉,地点实现匹配。
[0282] 另外,本发明中,地点的包含关系在"省"级以下可以看作等价关系。例如,"江苏 南通发生事件"与"启东市发生事件"在地点层面很可能是一件事,因此地点虽然是包含关 系,但其范围相对较小,这时,将认为"江苏南通"与"启东市"等价,表示同一地点。
[0283] 步骤S38 :基于步骤S37中获得的特征向量,进行时间-地点聚类并获得类别集合 C2〇
[0284] 上述texh?text5短文本,根据时间和地点特征最终被聚成3类,即texi^和 text3为一类,text2为一类,text4和text5为一类。text 2被独立出来是因为时间匹配失败 导致的。
[0285] 步骤S39 :将话题类别集合C1与时间-地点类别集合C2进行融合,得到最终群体 性事件的类别集合C。该步骤进一步包括以下步骤:
[0286] 步骤S391 :使用C2对C1中每个类别进行拆分,使得拆分后每个簇中的短文本在 C2中也属于同一个簇。
[0287] 例如,C1中含有3个簇,分别是texi^?text3, text4和text5, C2中也有3个簇, 分别是textptexi^,text2和text4?text 5,使用C2对C1进行拆分后,C1形成4个簇C0, 分别是,text" text3, text2, text4 和 text5〇
[0288] 步骤S392 :基于C2的结果,对上一步中得到的类别集合CO进行合并,使得合并后 每个簇的短文本在C2中也属于同一个簇,且其中短文本基于"词袋"特征的相似度大于给 定阈值。
[0289] 值得注意的是,这里结合"词袋"特征信息可以在一定程度上克服由于信息抽取技 术不足而导致的聚类误差。
[0290] 例如,对于类别集合C0的4个类别,由于text4和text5在C2属于同一个簇,且它 们在词袋上的相似度大于给定阈值,因此,text 4和text5将被合并为一类。
[0291] 经过上述融合操作后,得到最终的聚类集合C,共有3类,分别是,textp text3, text2 和 text4 ?text5〇
[0292] 步骤S3A :根据每个"聚类簇"内所包含的短文本数目排序预警度,并将超过给定 阈值的群体性事件进行及时预警。
[0293] 例如,上述被聚为两类的texh?text5短文本,在取预警阈值为2时,textptexh 与text4?text5所代表的群体性事件将被预警。
[0294] 其中,所述步骤S36和步骤S38中所用的聚类算法为Stream聚类算法或其框架下 的其他算法。
[0295] 需要强调的是,上述方法技术方案的描述属于本发明的一个最佳实施例,本领域 技术人员可以明了的是,删减上述方法技术方案的部分特征,仍然可能解决本发明的技术 问题,只是技术效果弱于最佳实施例的技术效果。
[0296] 本发明还提供一种面向短文本的群体性事件预警系统,包括:
[0297] 筛选模块,用于结合领域知识库,对短文本进行局部结构化抽取和在线分类,实现 从海量短文本中识别出具有潜在安全隐患的群体性事件相关文本;
[0298] 预警处理模块,用于结合领域知识库,对识别出的短文本进行全局结构化处理和 在线聚类,并根据每个"聚类簇"内所包含的短文本数目是否超过给定阈值来决定是否进行 及时预警;以及
[0299] 领域知识库,包括领域本体库、事实库、事件库和规则库,其中
[0300] 领域本体库,存放了领域概念的层次化组织形式,而且概念之间具有等价关系以 及可能的领域关系约束;
[0301] 领域事实库,存放了经过语义消歧以及实体唯一性标识而得到的结构化元组集 合;
[0302] 领域事件库,包括领域相关词汇,这些词汇由行为、施事、受事、修饰、结果、时间和 地点等类型组成;
[0303] 领域规则库,存放了概念元组之间的等价关系及其成立的概率。
[0304] 其中,本发明的群体性事件预警系统可以在通信网络的计费服务器、基站服务器 或通信终端中以软件的形式运行,实现相应预警功能。
[0305] 运行环境要求例如包括:
[0306] · CPU :2GHz 或更高;
[0307] ?内存:最小要求2048MB ;
[0308] ?硬盘:至少需要2G自由空间;
[0309] ?显示卡及显示器:分辨率要求1024X768或更高;
[0310] ?网络:要求宽带连接;
[0311] ?操作系统:Microsoft Windows 或 Linux。
[0312] 当然,本领域技术人员也可以根据本发明公开的技术原理,将其迁移到不同的平 台和操作系统上,解决相同的技术问题。
[0313] 本发明充分融合领域背景知识和上下文语境、浅层语义表达和深层语义计算,实 现了群体性安全事件的协同分析和预测,经过实际检验,本发明的技术方案可以有力地保 证群体性事件的信息甄别、跟踪和预警的及时性、准确率和召回率,有助于提高群体性事件 初始发生时的快速反应能力。
[0314] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在 本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护 范围之内。
【权利要求】
1. 一种面向短文本的群体性事件预警方法,包括以下步骤: 步骤S3 :对短文本进行全局结构化处理和在线聚类,并根据每个"聚类簇"内所包含的 短文本数目是否超过给定阈值来决定是否进行及时预警。
2. 根据权利要求1所述的面向短文本的群体性事件预警方法,其中在所述步骤S3之前 还包括以下步骤: 步骤S1 :基于互联网和通信网获取的领域相关语料资源,自动构建面向群体性安全事 件的领域知识库,包括领域本体库、事实库、事件库和规则库,并实现其半自动化的知识维 护和更新;以及 基于步骤S1构建的领域知识库执行步骤S3。
3. 根据权利要求2所述的面向短文本的群体性事件预警方法,其中所述步骤S1进一步 包括以下步骤: 步骤S11 :构建领域本体库,库中存放了领域概念的层次化组织形式,而且概念之间具 有等价关系以及可能的领域关系约束; 步骤S12 :构建领域事实库,库中存放了经过语义消歧以及实体唯一性标识而得到的 结构化元组集合; 步骤S13 :构建领域事件库,包括领域相关词汇,这些词汇由行为、施事、受事、修饰、结 果、时间和地点等类型组成; 步骤S14 :构建领域规则库,存放了概念元组之间的等价关系及其成立的概率; 其中,所述步骤S13进一步包括以下步骤: 步骤S131 :根据领域特定关键词,依据"共现关系"自动收集领域相关词汇,并进行手 工归类; 步骤S132 :构建时间库,库中存放了各类时间词及其数值编码,通过识别时间词并在 短文本的发布时间基础上识别出确切的时间;另外,该库还包括时区表,表中存放了世界上 各个国家的时区; 步骤S133 :构建地点库,库中按照洲、国家、省、市、县的上下位层次关系存放了世界各 国的著名地区名称,另外库中还包括地点结尾词表,表中存放了常用的地点结尾词及它们 的上下位关系。
4. 根据权利要求2所述的面向短文本的群体性事件预警方法,其中在所述步骤S1和 S3之间还包括以下步骤: 步骤S2 :结合领域知识库,对短文本进行局部结构化抽取和在线分类,实现从海量短 文本中识别出具有潜在安全隐患的群体性事件相关文本;以及 在步骤S2识别出来的短文本的范围内执行步骤S3。
5. 根据权利要求4所述的面向短文本的群体性事件预警方法,其中所述步骤S2进一步 包括以下步骤: 步骤S21 :对待分析的短文本逐句进行预处理,即将汉语进行分词和词性标注,并对特 殊的词语序列进行合并与修正; 步骤S22:基于步骤S21得到的词语序列,将实体基于领域本体库中的层次化概念空间 进行概念映射,并同时对多义实体进行概念消歧; 步骤S23 :基于步骤S22得到的消歧后的词语序列,根据汉语基本句式将消歧后的词语 序列进行信息抽取,将短文本句子转化为结构化元组表达形式; 步骤S24 :基于步骤S23得到的元组集合,结合领域知识库获取当前句子的深层语义表 示,并用于在线分类,如分类结果与群体性事件无关且未扫描至该短文本的末句,则返回步 骤S21,否则分析下一条短文本; 其中所述步骤S24进一步包括以下步骤: 步骤S241 :根据步骤S23信息抽取得到的结果,针对群体性事件文本的特点,结合群体 性事件领域知识库,对短文本进行知识泛化、特征提取和特征值计算; 步骤S242 :根据步骤S241获取的深层语义特征表示,离线阶段利用有标注训练集训练 二分类模型,在线阶段根据分类模型进行实时分类,最终输出识别结果。
6. 根据权利要求4所述的面向短文本的群体性事件预警方法,其中所述步骤S3进一步 包括以下步骤: 步骤S31 :载入识别出的群体性事件短文本集合,利用信息抽取技术对其进行结构化 解析,此时不考虑时间和地点信息,得到描述每条短文本话题的结构化元组集合; 步骤S32 :结合领域事件库中的时间和地点词,识别并抽取每条短文本的时间和地点 信息,并且得到描述每条短文本的时间向量和地点向量; 步骤S33 :将结构化元组向知识库投影,滤除群体性事件无关的结构化特征,得到每条 短文本的候选结构化特征集; 步骤S34 :通过计算结构化特征在不同短文本中的区分度或信息熵选取其中的有效特 征子集; 步骤S35 :增量式地动态构建已观测短文本的所有结构化特征,通过计算结构化特征 之间的相似度,同时获得描述每条短文本话题的特征向量; 步骤S36 :基于步骤S35中获得的特征向量,进行话题聚类并获得的类别集合C1 ; 步骤S37 :结合领域事件库,增量式地动态构建已观测短文本的所有时间和地点特征, 分别进行时间和地点推理,为每条短文本构造时间特征向量和地点特征向量; 步骤S38 :基于步骤S37中获得的特征向量,进行时间-地点聚类并获得类别集合C2 ; 步骤S39 :将话题类别集合C1与时间-地点类别集合C2进行融合,并得到最终群体性 事件的类别集合C; 步骤S3A :根据每个"聚类簇"内所包含的短文本数目排序预警度,并将超过给定阈值 的群体性事件进行及时预警。
7. 根据权利要求6所述的面向短文本的群体性事件预警方法,其中所述步骤S36和步 骤S38中所用的聚类算法为Stream聚类算法或其框架下的其他算法。
8. 根据权利要求6所述的面向短文本的群体性事件预警方法,其中,所述步骤S32中时 间和地点信息的抽取进一步包括以下步骤: 步骤S321 :短文本信息的发布时间抽取,即该短文本出现的时间; 步骤S322 :基于分词算法的标识和领域事件库中的时间类型词,对每个短文本进行时 间词抽取,其中对复杂时间词的识别采用模式匹配的方式; 步骤S323 :基于时间库,对每个识别出来的时间词进行数值解码操作,即确定时间词 所关联的时间区段、时间粒度、时间上下位等信息; 步骤S324 :对于分词算法标记为地点的词语,查询领域事件库中的地点类型词,标识 该地点的上下位以及所在层级;当遇到分词算法无法识别的新地点词时,通过匹配地点标 志词来识别地点词边界,如果地点上下位关系已知,则可根据地点由大到小的表述顺序来 确认当前地点词识别的正确性; 步骤S325 :地点词的层级归类,如果从一个短文本中抽取出多个地点,则根据地点间 的上下位关系,对它们进行正确的归类,具有上下位关系的多个地点看作一个地点; 其中,所述地点标志词一般位于地点词的结尾处,且在建立领域库时已经标明它们之 间的层级关系; 所述步骤S35进一步包括以下步骤: 步骤S351 :初始化结构化特征集合为空; 步骤S352 :输入当前短文本的候选结构化特征; 步骤S353:当特征集合为空时,将一个结构化特征放入其中,并将特征向量在相应位 置设为1,否则将其结构化特征与特征集合中元素逐一比较,保留最为相似的特征和相似 度; 步骤S354 :若相似度大于特定阈值,则认为该结构化特征匹配成功,将特征向量在相 应位置设为1,否则设为〇 ;若匹配失败,则认为是新的特征,将该结构化特征加入当前特征 集合中,增加当前特征向量维数,并将特征向量在该位置设为1,其余位置为0 ; 步骤S355 :如果未到短文本结尾,则重复步骤S352?S354,否则结束; 其中,结构化特征包括5种成分:行为、施事、受事、主语修饰、宾语修饰,每一成分具有 相应的权重wl?w5,两个结构化特征的相似度是这5种成分比较结果的加权求和; 所述步骤S37进一步包括以下步骤: 步骤S371 :初始化当前时间和地点特征集合,令其分别为空; 步骤S372 :针对每条短文本,根据其时间和地点信息分别构造时间特征和地点特征, 特征的个数取决于不同时间和地点的数量; 步骤S373 :若时间和地点特征集合为空,则将第一个时间和地点特征加入其中,特征 向量在该位置设为1,否则若时间特征集合不为空则执行步骤S374,否则执行步骤S375 ; 步骤S374:进行时间相似度推理,即在一定的时间窗口下,比较两个时间是否相同、区 段内包含、相交或者无交集的过程,当两个时间相差不超过一定阈值或两个时间具有交集 则认为匹配成功,将特征向量在相应位置设为1,否则将该特征加入当前时间特征集合中, 特征向量在该位置设为1,其余位置为〇 ;并且,若地点特征集合不为空则执行步骤S375,否 则结束; 步骤S375 :进行地点相似度推理,查询领域本体库以及地点库,确定两个地点是否相 同、等价、具有父子包含关系,或是否在结尾处添加或丢弃地点标志词后具有上述关系则认 为匹配成功,将特征向量在相应位置设为1,否则将该特征加入当前地点特征向量中,特征 向量在该位置设为1,其余位置为〇 ; 所述步骤S39进一步包括以下步骤: 步骤S391 :使用C2对C1中每个类别进行拆分,使得拆分后每个簇中的短文本在C2中 也属于同一个簇; 步骤S392 :基于C2的结果,对上一步中得到的类别集合C0进行合并,使得合并后每个 簇的短文本在C2中也属于同一个簇,且其中短文本基于"词袋"特征的相似度大于给定阈 值。
9. 根据权利要求8所述的面向短文本的群体性事件预警方法,其中所述步骤S353进一 步包括以下步骤: 步骤S3531 :匹配前,初始化待匹配元组的每一种成分的相似度为0 ; 步骤S3532 :针对每一种成分,首先进行词形比较,若匹配成功,累加该相似度分值,并 执行步骤S3535 ;否则执行步骤S3533 ; 步骤S3533 :基于领域本体库和规则库,分别判断两个对应的实体或者关系之间是否 具有等价关系,若等价则累加该相似度分值,并执行步骤S3535,否则执行步骤S3534 ; 步骤S3534 :查询每种成分的概念层次,并进行上下位匹配,若匹配成功,累加该相似 度分值; 步骤S3535 :如果未完成比较所有成分,则重复执行步骤S3532?S3534,否则根据每种 成分的权重,计算该成分对应的相似度,并对所有成分的相似度加权求和。
10. -种面向短文本的群体性事件预警系统,包括: 筛选模块,用于结合领域知识库,对短文本进行局部结构化抽取和在线分类,实现从海 量短文本中识别出具有潜在安全隐患的群体性事件相关文本; 预警处理模块,用于结合领域知识库,对识别出的短文本进行全局结构化处理和在线 聚类,并根据每个"聚类簇"内所包含的短文本数目是否超过给定阈值来决定是否进行及时 预警;以及 领域知识库,包括领域本体库、事实库、事件库和规则库,其中 领域本体库,存放了领域概念的层次化组织形式,而且概念之间具有等价关系以及可 能的领域关系约束; 领域事实库,存放了经过语义消歧以及实体唯一性标识而得到的结构化元组集合; 领域事件库,包括领域相关词汇,这些词汇由行为、施事、受事、修饰、结果、时间和地点 等类型组成; 领域规则库,存放了概念元组之间的等价关系及其成立的概率。
【文档编号】G06F17/27GK104091054SQ201410299114
【公开日】2014年10月8日 申请日期:2014年6月26日 优先权日:2014年6月26日
【发明者】孙正雅, 王桂香, 梁倩, 郝红卫 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1