一种基于大数据的舆情分析方法

文档序号：9249331阅读：562来源：国知局

一种基于大数据的舆情分析方法
【技术领域】
[0001] 本发明设及数据处理领域，具体设及一种基于大数据的舆情分析方法。
【背景技术】
[0002] 随着Web2. 0技术的发展，互联网发生翻天覆地的变化。互联网由静态网页和信息，转变成为人人参与的"群体智慧"的展示平台。通过博客、微博、BBS、SNS、新闻评论等，网民可W自由发布自己的观点想法和对任何事件进行评论。网络给人们提供了前所未有的开放、便捷的信息共享与发布平台，越来越多的人通过网络来表达自己的意见、想法、情绪和态度，其中既包括对对事件的发展有着正面、积极作用的信息，也包括一些负面、消极的信息。同时，网络平台的开放性、直接性和隐蔽性使得网络舆论越来越重要地影响人们的意识形态。因此，对大量舆情信息的及时有效监控分析，对维护社会稳定、促进国家发展具有重要的现实意义。
[0003] 在日常生活中，突发事件频繁发生，用户越来越习惯于利用社交网络（例如博客、论坛、twitter,化cebook等）来发表自己的观点和情感。然而，用户对事件的情感并非保持一成不变，而是随着时间的变化或者事件的发展而不断演化，逐渐变强或者变弱，甚至从一种情感转化到另一种情感。如何实时在线检测用户对突发事件的情感演化过程具有十分重要的意义。对于企业而言，可W通过对消费者购买产品后情感的持续跟进，及时发现产品的缺点及不足。对于社会和政府工作者而言，通过分析用户对事件的情感变化情况，可对突发事件及时做出回应，甚至预测事件的发展趋势，从而快速发现不良苗头，并进行合理引导，将不良信息的影响程度降低到最小。
[0004] 此外，随着移动互联网、物联网等应用的飞速发展，全球数据量出现了爆炸式增长。数据量的飞速增长预示着现在已经进入了大数据时代。现有技术中对大数据的处理采用基于化doop的平台。化doop是一个开源分布式计算平台，其核屯、包括皿FS化adoop DistributedFilesSystem,Hadoop分布式文件系统）。皿FS的众多优点（主要包括高容错性、高伸缩性等）允许用户将化doop部署在低廉的硬件上，搭建分布式集群，构成分布式系统。皿ase化adoopDataBase,化doop数据库）是建立在分布式文件系统皿FS之上的提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统，主要用来存储非结构化和半结构化的松散数据。

【发明内容】

[0005] 为解决现有技术中存在的问题，本发明提出一种基于大数据的舆情分析方法。
[0006] 本发明提出的一种基于大数据的舆情分析方法，包括：
[0007] 步骤S100,数据采集，基于分布式云计算方式对网络数据进行数据采集；
[000引步骤S200,数据预处理，对步骤S100采集的网络数据进行预处理；
[0009] 步骤S300,事件抽取，基于预处理后的网络数据，从中抽取出事件。
[0010] 其中，步骤S100包括；所述数据采集是由网络爬虫来实现的；通过分布式存储设备存储采集的网络数据，所述分布式存储设备基于皿FS实现。
[0011] 其中，步骤S200包括；首先对采集的网络数据进行分词和词性标注处理；然后，根据停用词列表，对分词后的结果进行停用词过滤；最后得到用于表示文档的特征项
[0012] 所述的基于大数据的舆情分析方法，还包括：
[0013] 步骤S400,热点事件抽取，从步骤S300中抽取的事件中再次抽取出热点事件；
[0014] 步骤S500,舆情分析，对步骤S400中抽取的热点事件进行演化分析，从而得到舆情趋势。
[0015] 其中，步骤S500包括；
[0016] 对事件所包含的文档集合D= (di，d2,…心…}，按照文档发表的时间进行聚类，得到该事件不同时间点所对应的文档数量，将聚类结果W坐标图的形式展示给用户，坐标横轴表示时间，坐标纵轴表示文档数量。
[0017] 其中，所述网络数据包括博客、微博、论坛、新闻报道网页几个类别的数据，对于博客、微博、论坛、新闻报道网页的数据是分别独立进行事件抽取的，假设对于博客、微博、论坛、新闻报道网页的数据所抽取的热点事件集合分别为化OG、M-BLOG、BBS、肥WS，计算化OG、M-BLOG、BBS、肥WS的交集，所得到的结果确定为第一热点事件集合，计算化OG、 M-BLOG、BBS、NEWS其中每S个集合的交集，所得到的所有结果的和减去第一热点事件集合确定为第二热点事件集合，计算化〇6、1-811?、885、肥胖5其中每二个集合的交集，所得到的所有结果的和减去第一热点事件集合W及第二热点事件集合确定为第=热点事件集合，集合化OG、M-BLOG、BBS、肥WS的和减去第一热点事件集合、第二热点事件集合W及第S热点事件集合的结果确定为第四热点事件集合。
[0018] 本发明采用分布式的云计算方式，能够对大规模采集的各种网络数据进行挖掘、分析；并通过对不同数据源数据分别进行计算分析，得到不同数据源的热点话题，进而进一步确定话题的热度，从而能够更加客观的得到当前热点话题。本发明为觉政机关、大型企业等单位和组织及时发现网络敏感信息、掌握网络舆情热点、把握网络舆情趋势、应对网络舆情危机提供自动化、系统化和科学化的信息支持。有效提高了所述网络舆情监测系统判断的准确性，为网络微信舆情信息的后续处理提供了更为真实、准确的基础。
【附图说明】
[0019] 图1为本发明基于大数据的舆情分析方法的流程图；
[0020] 图2为基于图的文本表示的示例图。
【具体实施方式】
[0021] 下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述。该里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述设及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。W下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0022] 参见图1，本发明提出的一种基于大数据的舆情分析方法。
[0023] 步骤S100,数据采集
[0024] 基于分布式云计算方式对网络数据进行数据采集，所述网络数据包括博客、微博、论坛、新闻报道网页几个类别的数据，并对所述网络数据按照博客、微博、论坛、新闻报道网页几个类别进行标注，并按所述类别分别存储所述网络数据；其中，新闻报道网页是指腾讯新闻、新浪新闻等口户网站W及例如人民日报等新闻媒体网站所提供的报道新闻的网页。
[0025] 所述数据采集是由网络爬虫来实现的。通过分布式存储设备存储采集的网络数据，所述分布式存储设备基于皿FS实现。
[0026] 步骤S200,数据预处理，对步骤S100采集的网络数据进行预处理，首先对采集的网络数据进行分词和词性标注处理；然后，根据停用词列表，对分词后的结果进行停用词过滤；最后得到用于表示文档的特征项；
[0027] 经过预处理之后的词汇量仍然巨大，所W仍需要进行第二个步骤，高质量词汇提取。文档中的每一个特征项都隐含一个质量值，所谓质量值主要是基于特征项的词频特征，反应特征项在文本中的贡献度。质量越大，说明贡献越大，可W留下用于文本聚类；反之，贝U 剔除。
[002引特征项t的质量Q(t)表示为；
[0029]
[0030]其中，N表示所有文档的数量，f康示文档特征项t在文档i中出现的次数，1t表示特征项t的长度，
[0031] 设定阔值Q，对于Q(t)〉Q的特征项予W保留，否则删除。
[0032] 步骤S300,事件抽取，基于预处理后的网络数据，从中抽取出事件。

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张鹏;
技术所有人：成都布林特信息技术有限公司;
我是此专利的发明人

上一篇：一种在日志集中管理平台中对日志进行实时推送的方法
上一篇：一种基于大数据的突发事件演化分析方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。