基于社交媒体的突发事件应急信息挖掘方法

文档序号:10655346阅读:334来源:国知局
基于社交媒体的突发事件应急信息挖掘方法
【专利摘要】本发明公开了一种基于社交媒体的突发事件应急信息挖掘方法,包括步骤:S1采用开放平台API或网页爬虫采集社交媒体数据,社交媒体数据即文档集;S2使用MongoDB集群存储文档集;S3文档集预处理;S4利用LDA标注预处理后的文档集,获得已知样本;S5 已知样本各文档中所有词语构成词语特征集,各词语特征在文档中的词频即该词语特征在该文档中的权重;S6构建短文本实时分类模型;S7采用短文本分类模型对实时突发事件进行分类,预测突发事件的主题;S8根据分类后突发事件的社交媒体数据进行信息挖掘。本发明可自动、快速地实现社交媒体短文本的分类,从而提挖掘突发事件应急信息。
【专利说明】
基于社交媒体的突发事件应急信息挖掘方法
技术领域
[0001] 本发明设及社交媒体技术领域,尤其设及一种基于社交媒体的突发事件应急信息 挖掘方法。
【背景技术】
[0002] 突发事件是指突然发生,造成或可能造成严重社会危害,需采取应急处置措施予 W应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。伴随着我国工业化、城市化 进程不断加快,突发事件不断发生。与此同时,我国是世界上受自然灾害影响最为严重的国 家之一,灾害种类多,发生频度高,每年因自然灾害造成的损失巨大。
[0003] 根据民政部国家减灾办发布的数据显示:仅2014年各类自然灾害共造成全国 24353.7万人次受灾,601.7万人次紧急转移安置,235人失踪,1583人死亡,45万间房屋倒 塌,354.2万间不同程度损坏,298.3万人次需紧急生活救助,农作物受灾面积24890.7千公 顷,其中绝收3090.3千公顷,直接经济损失3373.8亿元。自然灾害仅作为突发事件其中的一 类,便造成了大量的人员伤亡和巨额的经济损失。突发事件的危害可见一斑。
[0004] 如何尽可能地减少突发事件导致的损失是亟待解决的问题。一方面,从突发事件 的起始阶段来看,提高预警能力是一个降低突发事件所带来危害的有效途径。它有助于从 源头上遏止突发事件的发生,或者,减少因应对时间不足而导致更多的损失。然而,对于自 然灾害、事故灾难等随机性大的突发事件来说,运点实现起来比较困难。另一方面,从突发 事件的发展阶段来看,有效、及时地获取应急信息是减少突发事件引致损失的重要途径。一 旦突发事件发生,需及时地获取突发事件应急信息,并相应地采取应急处置措施,W减少突 发事件带来的损失和危害。所W,如何快速、及时、有效地获取突发事件应急信息是能否应 对好突发事件的关键性问题。
[0005] 传统的突发事件应急信息是由官方或权威机构采集、整理、发布的。其缺点主要表 现在:采集过程缺乏大众的参与和反馈,信息来源比较单一;采集时效性低,甚至在突发事 件发生后一段时间内不能及时获取事件的任何信息,如重大自然灾害;信息传播方向为官 方至大众,呈单向流动,缺少反馈和沟通。运些不足使得传统的突发事件应急信息难W满足 及时、有效、合理处置突发事件的需求。
[0006] 随着移动设备的广泛普及和通信技术的高速发展,社交媒体正成为人们重要的网 络社交工具。作为国内最大的社交媒体平台,新浪微博已在中国及190多个国家的华人社区 积累了庞大的用户群体。截至2013年12月,新浪微博月活跃用户数量和日活跃用户数量分 别达到1.291亿和6140万。社交媒体是人们自发地撰写、分享、评价、讨论、相互沟通的工具。 利用运种工具,公众可W透过简短的文字和丰富的多媒体数据及时地讲述着身边的所见所 闻和发表对于重大事件(如地震,城市内溃)的看法。
[0007] 作为用户生成内容化ser Generated Content,UGC)的一部分,社交媒体数据包含 文本、图片、视频W及地理位置等数据。除内容形式多样外,社交媒体数据的数量庞大,且传 播速度快、覆盖广。仅在2013年12月,新浪微博共有超过28亿条内容被分享,包括22亿条带 图片内容,8170万条带短视频内容,W及2150万条带歌曲内容。仅在2013年10至12月,新浪 微博有超过1.2亿次签到,即用户通过移动设备在微博内容中添加了自己的地理位置。
[0008] 社交媒体越来越多地被看作是随人群移动的传感器,感知着发生在周边的事件W 及远处的其他突发事件,并在网络中互相共享和沟通。一旦某地有突发事件发生,事发地的 人们会第一时间通过文字、图片W及视频向互联网广播事件的状态。与此同时,处在事发地 外围的人们在社交网络上看到相关报道或讲述后,会纷纷作出及时的响应,最后与事件相 关的信息就会很快充斥着整个社交网络。突发事件信息W社交媒体数据的形式在社交网络 中广泛传播。
[0009] 综上所述,社交媒体具有的自发性、及时性、广泛参与性、内容多样性正好弥补了 传统突发事件应急信息的不足。面对海量的社交媒体数据,如何快速、及时、准确地从中挖 掘出突发事件应急信息是需要研究的关键问题。

【发明内容】

[0010] 针对现有技术存在的不足,本发明提出了一种基于社交媒体的突发事件应急信息 挖掘方法。
[0011] 为解决上述技术问题,本发明采用如下的技术方案:
[0012] 基于社交媒体的突发事件应急信息挖掘方法,包括步骤:
[0013] -、基于社交媒体的突发事件分类方法,包括步骤:
[0014] Sl采用开放平台API或网页爬虫采集社交媒体数据,社交媒体数据即文档集;
[0015] S2使用MongoDB集群存储文档集;
[0016] S3文档集预处理,包括文档去重、文档分词、文档去停用词和去掉词语稀少的文 档;
[0017] S4利用LDA标注预处理后的文档集,获得已知样本,本步骤进一步包括:
[0018] 4.1分别计算预处理后文档集中各文档主题,获得文档-主题概率矩阵和主题-词 语概率矩阵;
[0019] 4.2遍历文档-主题概率矩阵,将超过主题概率阔值A的概率所对应的文档及主题 作为已知样本,其中主题概率阔值A为经验值,已知样本中文档由一系列词语构成;
[0020] S5已知样本各文档中所有词语构成词语特征集,各词语特征在文档中的词频即该 词语特征在该文档中的权重;
[0021 ] S6构建短文本实时分类模型,本步骤进一步包括:
[0022] 6.1采用词语特征集及其中各词语特征的权值训练SVM获得SVM分类器,采用格网 捜索法枚举一系列SVM的模型参数;
[0023] 6.2采用K-折交叉验证法逐一验证各模型参数下的SVM分类器,将预报误差最小的 模型参数作为最优模型参数,最优模型参数对应的SVM分类器即短文本实时分类模型;
[0024] S7基于实时突发事件社交媒体数,采用短文本分类模型对实时突发事件进行分 类,预测突发事件的主题。
[0025] 步骤Sl中,采用开放平台API采集社交媒体数据,具体为:
[0026] 使用多个捜索中屯、点,W指定捜索半径进行缓冲区分析,使得缓冲区覆盖整个突 发事件发生区域,从而获得突发事件发生区域的社交媒体数据。
[0027] 步骤SI中,采用网页爬虫采集社交媒体数据,具体为:
[0028] 采用定制爬虫,通过输入关键词、区域段、时间范围抓取社交媒体数据。
[0029] 二、一种基于社交媒体的突发事件应急信息挖掘方法,包括步骤:
[0030] 采用权利要求1所述方法对实时突发事件进行分类,根据分类后突发事件的社交 媒体数据进行信息挖掘。
[0031] 所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括:
[0032] 根据分类后突发事件的社交媒体数据获得参与突发事件讨论的社交媒体用户数 在时间上的变化趋势。
[0033] 所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括:
[0034] 根据分类后突发事件的社交媒体数据分析参与各主题突发事件的社交媒体用户 数随时间的变化趋势。
[0035] 所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括:
[0036] 根据分类后突发事件的社交媒体数据分析各主题突发事件社交媒体数据发布的 空间位置信息。
[0037] 所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括:
[0038] 根据分类后突发事件的社交媒体数据分析各主题突发事件社交媒体数据发布的 空间位置信息,根据空间位置信息采用多层贪屯、聚类法对突发事件微博点进行聚类。
[0039] 所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括:
[0040] 根据分类后突发事件的社交媒体数据分析各主题突发事件社交媒体数据发布的 空间位置信息,根据空间位置信息采用多层贪屯、聚类法对突发事件微博点进行聚类,从而 获得热点密集区域,对热点密集区域进行核密度估计检测获得热点区域。
[0041] 和现有技术相比,本发明具有如下优点和有益效果:
[0042] (1)支持实时、快速获取与突发事件相关的社交媒体数据;
[0043] (2)可自动、快速地实现社交媒体短文本的分类,从而提取突发事件应急信息;
[0044] (3)从时间、空间角度,分析了基于社交媒体的应急信息与突发事件发展过程有着 紧密关系。
【附图说明】
[0045] 图1为W北京市城区为主的社交媒体数据采集区域;
[0046] 图2为网络爬虫采集社交媒体数据的具体流程图;
[0047] 图3为MongoDB集群存储社交媒体数据示意图;
[0048] 图4为短文本实时分类模型框架示意图;
[0049] 图5为参与暴雨讨论的微博用户数、转发微博数的统计曲线W及趋势曲线;
[0050] 图6为参与各主题突发事件的社交媒体用户数随时间的变化趋势,其中,纵坐标为 各主题突发事件的社交媒体用户数占社交媒体总用户数的比值;
[0051] 图7为参与"救援信息"主题的原创与转发的社交媒体用户数随时间的变化趋势, 其中,纵坐标表示参与"救援信息"主题的原创与转发的社交媒体用户数占社交媒体总用户 数的比值;
[0052] 图8为"交通状况"主题下含位置信息的微博点分布密度图;
[005引图9为"暴爾'主题微博点的聚类结果;
[0054] 图10为首都机场周围暴雨微博的热点图和真实积水点分布图,其中,图(a)为暴雨 微博热点图,图(b)为捜狗地图提供的真实积水点分布图;
[0055] 图11为本发明的具体流程示意图;
[0056] 图12为本发明系统框图;
[0057] 图13为信息分类表与应急信息定位。
[005引附图中案例为2012年7月21日北京暴雨突发应急事件。
【具体实施方式】
[0化9] 一、理论基础
[0060] 1、社交媒体数据采集方法
[0061 ]现有技术中社交媒体数据采集方法主要有两种。
[0062] -种是通过开放平台API采集社交媒体数据。新浪微博开放的应用编程接口 (Application Programming Interface,API)属于Web API,为用户提供了便捷地获取微博 官方数据的通道。开发者通过发送HTTP请求,后台返回符合条件的微博数据。微博开放平台 列出了25类接口,其中24类可用。每个接口返回的社交媒体数据均WJSON格式进行封装。开 放平台API方式有一定的不足,不能实现"关键词+区域+时间"采集数据的方式。
[0063] 另一种是使用网页爬虫抓取社交媒体数据。网页爬虫分为捜索引擎爬虫和定制爬 虫。本发明采用的是定制爬虫。定制爬虫主要是为了满足某一特定需求,抓取规定范围内的 网页。对于W "关键词+区域+时间"方式捜索微博,大体思路为:构造 URL,爬取网页,下载网 页,解析网页中微博信息;构造下一个URL,直至抓取完指定时间内的微博。
[0064] 2、非监督学习法
[00化]Latent Dirichlet Allocation简称LDA,是一种基于语义的主题模型。对计算机 而言,每篇文档是由一组词语构成的集合,无法获悉其主题。隐含主题模型通过词语之间在 文档中出现的频率,能够找出文档集中每篇文档的各主题及其概率分布情况,其中主题是 一组按概率分布的词语。LDA是一种非监督学习法,其优点体现在:(1)训练时,不需要人工 标注训练集,只需要输入文档集W及指定主题的数量;特别地,当文档集较大时,LDA大大节 省了人工标注成本和训练时间,效率高;(2)完成训练后,各主题可通过一组词语判别其含 义,每篇文档所属主题由一组概率分布给出。
[0066] 3、监督学习法
[0067] 支持向量机(Suppo;rt Vector Machine,SVM)是一个监督学习法。给定一个训练 集,包含N条样本,训练集表示为从,如f=i,其中,A e IT,披为实数集,Xk表示第k条样本特 征的n维向量,yk表示第k条样本对应的输出值、样本真实值或样本标记。
[006引二、技术难点
[0069] 社交媒体数据属于短文本,短文本分类存在难点:文本短小,词语过于稀疏;口语 化严重,难于分词;信息噪声大。为克服短文本分类存在的问题,本发明设计了短文本实时 分类模型。短文本实时分类模型主要包括学习过程和预测过程两大类,其中,学习过程又分 为基于LDA的短文本样本标注和基于SVM的分类模型的训练;预测过程主要用于实时文本流 中每条文本的主题推测。
[0070]=、本发明实现过程
[0071 ]本发明的具体实施步骤如下:
[0072] 步骤1,采集社交媒体数据,社交媒体数据即文档集。
[0073] 主要可通过开放平台API或网页爬虫采集社交媒体数据。
[0074] 当利用新浪微博开放的API(应用编程接口)采集社交媒体数据,见图1,本发明使 用多个捜索中屯、点,W指定的捜索半径进行缓冲区分析,W覆盖整个突发事件发生区域,从 而获得突发事件发生区域的社交媒体数据。
[0075] 当采用网页爬虫采集社交媒体数据,可通过输入"关键词+区域段+时间"方式捜集 微博数据,即社交媒体数据。采用网页爬虫采集社交媒体数据的具体流程参见图2。
[0076] 步骤2,使用MongoDB集群存储文档集。
[0077] 步骤1采集的社交媒体数据为JSON格式,使用MongoDB集群存储社交媒体数据,见 图3,MongoDB集群可W建立空间索引,所W能很好地组织空间数据,方便时空查询。
[0078] 步骤3,社交媒体数据预处理。
[0079] 社交媒体数据即文档的集合,本步骤的预处理包括文档去重、文档分词、文档去停 用词和去掉词语稀少的文档,文档去重即去掉重复的文档,文档去停用词即去掉对文本分 类没有作用或贡献的词语。预处理后的文档即由一系列词语构成。
[0080] 步骤4,利用LDA标注预处理后的文档集,获得已知样本。
[0081 ] 本步骤进一步包括:
[0082] 4.1根据预处理后的文档集,获得社交媒体数据的文档-主题概率矩阵和主题-词 语概率矩阵。
[0083] 分别计算预处理后文档集中各文档主题,从而获得文档-主题概率矩阵和主题-词 语概率矩阵,文档-主题概率矩阵可用来表示各文档中主题的分布,主题-词语概率矩阵可 用来表示各主题中词语的分布。
[0084] 文档-主题概率即文档对应到不同主题的概率,文档d对应到第i个主题的概率即 文档d中对应第i个主题的词语数和文档d中词语总数的比值。
[0085] 主题-词语概率即主题对应到不同词语的概率,第i个主题对应到第j个词语的概 率即第i个主题中第j个词语数和第i个主题中词语总数的比值。
[0086] 社交媒体数据的文档-主题概率矩阵和主题-词语概率矩阵的计算为本领域内的 常规技术,为便于理解,下面将对文档-主题概率矩阵的计算过程进行详细说明。
[0087] (1)对文档集中各文档,遍历其中词语,并随机赋予各词语一个主题;遍历所有文 档,获得文档-主题概率矩阵。
[0088] (2)根据文档-主题概率矩阵,采用公式(1)更新文档中各词语对应的主题,并获得 新的文档-主题概率矩阵:
[0089]
(1)
[0090] 式(1)中:
[0091 ] at为文档-主题概率分布的先验参数,即超参数;
[0092] 0为主题-词语概率分布的先验参数;
[0093] V表示词典大小,词典即预处理后的文档;
[0094] Ld表示文档d的长度;
[0095] Mtw表示训练语料主题t中词语W出现的次数,AC7表示在Mtw中剔除当前采样词语W 的影响;
[0096] Mt表示训练语料中主题t的出现次数,AC"表示在Mt中剔除当前采样词语W的影响;
[0097] Md康示文档d中主题t的出现次数,Mj/巧示在Mdt中剔除当前主题Z的影响。
[0098] (3)重复步骤(2),直至文档-主题概率矩阵收敛。
[0099] 根据文档-主题概率矩阵可获得文档对应到各主题的概率,概率越大的主题,表示 文档最有可能在谈论该主题,即该主题可代表文档的真正主题。
[0100] 4.2确定主题概率阔值A,遍历文档-主题概率矩阵,提取概率超过A的文档及对应 的主题作为已知样本。主题概率阔值A为经验值。
[0101] 步骤5,特征选择,获得词语特征集。
[0102] 步骤4获得了已知样本,已知样本包括文档及其对应的主题,其中文档是由一系列 词语构成。已知样本中所有词语构成词语特征集。将词语特征的词频作为该词语特征的权 重,即将词语特征j在文档d中的词频作为文档d中词语特征j的权重。权重用于给各词语特 征赋予合理的重要程度。
[0103] 步骤6,构建短文本实时分类模型。
[0104] 本步骤进一步包括:
[0105] 6.1采用词语特征集及其中各词语特征的权值训练SVM获得SVM分类器,采用格网 捜索(Grid Search)法枚举一系列SVM的模型参数(C,丫);
[0106] 6.2采用K-折交叉验证法逐一验证各模型参数(C,丫)下的SVM分类器,将交叉验证 效果最好的模型参数(C,丫)作为最优模型参数(C,丫),最优模型参数(C,丫)对应的SVM分 类器即短文本实时分类模型。交叉验证效果采用预报误差描述,即预报误差最小即交叉验 证效果最好。
[0107] 步骤7,对实时突发事件社交媒体数据进行预处理,包括去广告信息、过滤转发博 文、去含U化博文,基于预处理后的实时突发事件社交媒体数据,采用短文本分类模型预测 突发事件主题。
[0108] 步骤8,根据分类后突发事件的社交媒体数据进行信息挖掘。
[0109] 所述的信息挖掘包括:
[0110] (1)获得参与突发事件讨论的社交媒体用户数在时间上的变化趋势。例如,若突发 事件为暴雨,则可通过excel统计参与暴雨讨论的用户数随时间的变化趋势,见图5,其中,A 点对应2012年7月21日14时北京市气象台首次发布暴雨黄色预警和雷电黄色预警时刻,微 博趋势线提前1小时达到了最高点;B点对应气象台又发布暴雨澄色预警的时刻,而微博趋 势线达即将达到高点;参照20日同时刻的C点,B点趋势下降的原因为晚上22时微博总体参 与人数开始下降,同时用户的转发行为增强。
[0111] (2)分析参与各主题突发事件的社交媒体用户数随时间的变化趋势。例如,分别统 计参与"灾情信息"、"天气报道"、"损失影响个主题讨论的社交媒体用户数随时间的变 化,见图6;统计参与"救援信息"主题的原创与转发的社交媒体用户数随时间的变化趋势, 见图7。
[0112] (3)分析突发事件社交媒体数据发布的空间位置信息。
[0113] 例如,分析"交通状况"主题含位置信息的微博点空间分布,利用ArcGIS空间分析 工具,绘制"交通状况"主题微博点的空间分布密度,见图8。
[0114] (4)根据突发事件微博点的空间位置信息对突发事件微博点进行聚类,W掲示突 发事件在空间上的分布规律。
[0115] 可采用多层次贪屯、聚类法对微博点进行聚类:
[0116] (a)初始默认地图缩放层级为0,将所有微博点看成一个聚落。
[0117] (b)根据地图缩放层级递增顺序,计算下一层级层次的聚类阔值。
[0118] (C)依次取出上一层级的各聚落,根据步骤(2)的聚类阔值对该聚落重新聚类:依 次取出聚落内的微博点a,计算其与各新聚落的距离;若距离小于聚类阔值,将a加入运个聚 落;否则,形成一个新聚落。
[0119] (d)从最低层级至最高层级,重复步骤(b)~(C)步骤,形成各层级的聚落,计算聚 落的凸包范围,并存储树结构中。
[0120] 根据微博点的聚类结果可获得热点密集区域,图9为暴雨主题微博点聚类结果。
[0121] (5)对热点密集区域进行核密度估计检测获得热点区域,地图上表现为热点图,见 图10。
[0122] 本发明采用的核密度估计公式如下:
[0123]
<2)
[0124] 式(2)中,f (X)表示核密度;Xi表示服从未知分布的微博点,n表示微博点数;带宽h 对应热点图的半径,半径越大,微博点的影响范围越广;k( ?)表示核函数,定义为空间中任 一点到某一中屯、间欧氏距离的单调函数。
[0125] 图11为本发明方法的具体流程示意图,图12为本发明的系统框架,主要包括数据 获取、数据存储、挖掘和结果可视化四部分,分为4个显式子模块和1个隐含子模块,分别是 社交媒体数据获取子模块、社交媒体数据存储子模块、应急信息挖掘子模块、挖掘结果可视 化子模块和地图子模块。
[0126] 不同子模块实现不同功能,其中社交媒体数据获取子模块包括开放API采集数据 功能、网页爬虫采集数据功能和数据入库功能;社交媒体数据存储子模块分为采集数据存 储功能、短文本分类模型存储功能、主题类别更新功能;应急信息挖掘子模块包括应急信息 分类、趋势分析、聚类分析、时间排序和热度排序等功能;挖掘结果可视化子模块分为情景 再现、信息分类表、应急信息定位、趋势曲线图、聚类图、热点图和词云图等可视化形式,见 图13;地图子模块提供地图底图切换、缩放、漫游等基本功能。
【主权项】
1. 基于社交媒体的突发事件分类方法,其特征是,包括步骤: S1采用开放平台API或网页爬虫采集社交媒体数据,社交媒体数据即文档集; S2使用MongoDB集群存储文档集; S3文档集预处理,包括文档去重、文档分词、文档去停用词和去掉词语稀少的文档; S4利用LDA标注预处理后的文档集,获得已知样本,本步骤进一步包括: 4.1分别计算预处理后文档集中各文档主题,获得文档-主题概率矩阵和主题-词语概 率矩阵; 4.2遍历文档-主题概率矩阵,将超过主题概率阈值λ的概率所对应的文档及主题作为 已知样本,其中主题概率阈值λ为经验值,已知样本中文档由一系列词语构成; S5已知样本各文档中所有词语构成词语特征集,各词语特征在文档中的词频即该词语 特征在该文档中的权重; S6构建短文本实时分类模型,本步骤进一步包括: 6.1采用词语特征集及其中各词语特征的权值训练SVM获得SVM分类器,采用格网搜索 法枚举一系列SVM的模型参数; 6.2采用Κ-折交叉验证法逐一验证各模型参数下的SVM分类器,将预报误差最小的模型 参数作为最优模型参数,最优模型参数对应的SVM分类器即短文本实时分类模型; S7基于实时突发事件社交媒体数,采用短文本分类模型对实时突发事件进行分类,预 测突发事件的主题。2. 如权利要求1所述的基于社交媒体的突发事件分类方法,其特征是: 采用开放平台API采集社交媒体数据,具体为: 使用多个搜索中心点,以指定搜索半径进行缓冲区分析,使得缓冲区覆盖整个突发事 件发生区域,从而获得突发事件发生区域的社交媒体数据。3. 如权利要求1所述的基于社交媒体的突发事件分类方法,其特征是: 采用网页爬虫采集社交媒体数据,具体为: 采用定制爬虫,通过输入关键词、区域段、时间范围抓取社交媒体数据。4. 一种基于社交媒体的突发事件应急信息挖掘方法,其特征是,包括步骤: 采用权利要求1所述方法对实时突发事件进行分类,根据分类后突发事件的社交媒体 数据进行信息挖掘。5. 如权利要求4所述的基于社交媒体的突发事件应急信息挖掘方法,其特征是: 所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括: 根据分类后突发事件的社交媒体数据获得参与突发事件讨论的社交媒体用户数在时 间上的变化趋势。6. 如权利要求4所述的基于社交媒体的突发事件应急信息挖掘方法,其特征是: 所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括: 根据分类后突发事件的社交媒体数据分析参与各主题突发事件的社交媒体用户数随 时间的变化趋势。7. 如权利要求4所述的基于社交媒体的突发事件应急信息挖掘方法,其特征是: 所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括: 根据分类后突发事件的社交媒体数据分析各主题突发事件社交媒体数据发布的空间 位置信息。8. 如权利要求4所述的基于社交媒体的突发事件应急信息挖掘方法,其特征是: 所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括: 根据分类后突发事件的社交媒体数据分析各主题突发事件社交媒体数据发布的空间 位置信息,根据空间位置信息采用多层贪心聚类法对突发事件微博点进行聚类。9. 如权利要求4所述的基于社交媒体的突发事件应急信息挖掘方法,其特征是: 所述的根据分类后突发事件的社交媒体数据进行信息挖掘包括: 根据分类后突发事件的社交媒体数据分析各主题突发事件社交媒体数据发布的空间 位置信息,根据空间位置信息采用多层贪心聚类法对突发事件微博点进行聚类,从而获得 热点密集区域,对热点密集区域进行核密度估计检测获得热点区域。
【文档编号】G06F17/30GK106021508SQ201610345293
【公开日】2016年10月12日
【申请日】2016年5月23日
【发明人】王艳东, 朱建奇, 王腾, 郭丰芹
【申请人】武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1