一种基于大数据的观点抽取方法

文档序号:9249223阅读:1536来源:国知局
一种基于大数据的观点抽取方法
【技术领域】
[0001] 本发明设及数据处理领域,具体设及一种基于大数据的观点抽取方法。
【背景技术】
[0002] 随着Web2. 0技术的发展,互联网发生翻天覆地的变化。互联网由静态网页和信 息,转变成为人人参与的"群体智慧"的展示平台。通过博客、微博、BBS、SNS、新闻评论等, 网民可W自由发布自己的观点想法和对任何事件进行评论。在一个网络互联的时代,任何 的意见、想法都可能影响一大批人,形成网络舆论。现阶段越来越多的事件表明:网络舆论 在影响社会舆论发展趋势,甚至已经作为一种主要社会舆论的方式。网民在网络上有意识 或者无意识表达出来的民情民意,对社会热点问题的关注表达出的价值取向和观点越来越 具有研究和参考价值。
[0003] 热点话题和热点事件的检测和提取成为近年话题检测与跟踪研究的分支之一,从 互联网数据中,主要是新闻,博客,论坛,社交网站和捜索日志等数据中获取热点特征组或 者与行为短语,进行抽象提取,从而得到热点话题。由于传统博客、微博和社交网站上存在 与日俱增的话题和数据,热点话题可W提供给用户捜索关键词参考,例如,Bai化捜索引擎 中的热点话题推荐,将获取的热点话题进行推荐,并能时时更新。该些无疑促使热点新闻成 为舆论的焦点,广泛的影响大众的视线,引导大众舆论,一定程度上体现民众的社会政治态 度。面对多元化的网络舆情表达诉求,倘若不加引导,负面的网络舆情将会对社会的公共安 全造成一定的危害。
[0004] 综上所述,进行网络舆情分析,实时把控舆情态势,形成正面的网络舆情环境,对 于构建社会主义和谐社会具有现实指导意义。但是目前针对互联网的基于文本观点挖掘与 分类的方法还是不多,与即时的发现热点、分析处理并评估舆论的要求尚有距离,因此,有 必要提供一种基于文本观点挖掘与分类的方法。此方法应用在及时发现并监控网络舆情的 热点话题,有利于让民众实时了解社会热点信息,为政府及相关部口制定政策提供辅助支 持。加强信息的梳理,保证舆情的及时、准确和全面,可W有效的预防不良信息的传播。
[0005] 此外,随着移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增 长。数据量的飞速增长预示着现在已经进入了大数据时代。现有技术中对大数据的处理 采用基于化doop的平台。化doop是一个开源分布式计算平台,其核屯、包括皿FS化adoop DistributedFilesSystem,Hadoop分布式文件系统)。皿FS的众多优点(主要包括高容 错性、高伸缩性等)允许用户将Hadoop部署在低廉的硬件上,搭建分布式集群,构成分布式 系统。皿aseOladoopDataBase,化doop数据库)是建立在分布式文件系统皿FS之上的提 供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,主要用来存储非结构 化和半结构化的松散数据。

【发明内容】

[0006] 为解决现有技术中存在的问题,本发明提出一种基于大数据的观点抽取方法。
[0007] 本发明提出的一种基于大数据的观点抽取方法,包括:
[000引步骤S100,数据采集,基于分布式云计算方式对网络数据进行数据采集,所述数据 采集是由网络爬虫来实现的;通过分布式存储设备存储采集的网络数据,所述分布式存储 设备基于皿FS实现;
[0009] 步骤S200,数据预处理,对步骤S100采集的网络数据进行预处理,首先对采集的 网络数据进行分词和词性标注处理,然后进行标点符号处理、表情字符处理和停用词处理, 最后得到用于表示文本的特征项;
[0010] 步骤S300,话题抽取,基于预处理后的网络数据,从中抽取出话题;
[00川步骤S400,对话题的评论进行情感分析,得到话题的正向情感和负向情感,从而可W确定对于话题的观点。
[0012] 其中,步骤S200进一步包括;
[0013] 高质量词汇提取,步骤S200所得到的每一个特征项都隐含一个质量值,其反应特 征项在文本中的贡献度,特征项t的质量Q(t)表示为;
[0014]
[0015] 其中,N表示所有文档的数量,表示文档特征项t在文档i中出现的次数,1t表 示特征项t的长度,
[0016] 设定阔值Q,对于Q(t)〉Q的特征项予W保留,否则删除。
[0017] 其中,步骤S300包括;对步骤S200预处理得到的文本进行文本聚类,利用层次聚 类算法计算每个类中文本对象的均值,得到k-means算法的初始聚类中屯、。利用k-means 算法通过重新计算每个文本对象与聚类中屯、的距离,修正层次聚类结果中文本对象的归 属类,算法步骤如下:
[0018] (1)确定聚类中屯、的个数k;
[0019] (2)利用层次聚类的方法对数据集进行层次聚类分析,得到k个类的均值,将它 们作为k-means的初始聚类中屯、;
[0020] (3)计算每个文本对象与聚类中屯、的距离,将文本对象划分到离该文本对象最近 的聚类中屯、所代表的簇;
[0021] (4)利用得到的值重新计算每个簇的聚类中屯、;
[0022] (5)重复(3)和(4),直到每个文本对象所属的类不再变化为止;
[0023] 聚类结果所得到的类即确定为话题。
[0024] 优选的,本发明进一步包括:
[0025] 确定热点话题,通过下列公式计算步骤S300所得到的话题的热度,
[0026] 而=曰 1 ?RFi+ 曰 2 ?RTi+ 曰 3 ?CNi+ 曰 4 ?DN。
[0027] 其中,而表示话题i的热度,RF表示话题i的报道频率,RT表示在预定的N天 时间内,对话题i的报道天数和所有天数的比值,CNi;表示话题i在预定天数内的网民对它 的点击阅读数量,DNi;表示话题i在预定天数内的网民对它的评论数;a1、a2、a3、a4为 权重系数;当Ri大于给定阔值R时,将话题i确定为热点话题。
[002引优选的,本发明中所述网络数据包括博客、微博、论坛、新闻报道网页几个类别的 数据,对于博客、微博、论坛、新闻报道网页的数据是分别独立进行话题抽取的,假设对于 博客、微博、论坛、新闻报道网页的数据所抽取的热点话题集合分别为化OG、M-BLOG、BBS、 肥WS,计算化OG、M-BLOG、BBS、肥WS的交集,所得到的结果确定为第一热点话题集合,计算 化06、1-811?、865、肥胖8其中每^个集合的交集,所得到的所有结果的和减去第一热点话题 集合确定为第二热点话题集合,计算化06、1-811?、885、肥胖5其中每二个集合的交集,所得 到的所有结果的和减去第一热点话题集合W及第二热点话题集合确定为第=热点话题集 合,集合化06、1-811?、885、肥胖5的和减去第一热点话题集合、第二热点话题集合^及第^ 热点话题集合的结果确定为第四热点话题集合。
[0029] 本发明采用分布式的云计算方式,能够对大规模采集的各种网络数据进行挖掘、 分析;并通过对不同数据源数据分别进行计算分析,得到不同数据源的热点话题,进而进一 步确定话题的热度,从而能够更加客观的得到当前热点话题。本发明为觉政机关、大型企业 等单位和组织及时发现网络敏感信息、掌握网络舆情热点、把握网络舆情趋势、应对网络舆 情危机提供自动化、系统化和科学化的信息支持。有效提高了所述网络舆情监测系统判断 的准确性,为网络微信舆情信息的后续处理提供了更为真实、准确的基础。
【附图说明】
[0030] 图1为本发明观点抽取的流程图;
【具体实施方式】
[0031] 下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述。该里将详 细地对示例性实施例进行说明,其示例表示在附图中。下面的描述设及附图时,除非另有表 示,不同附图中的相同数字表示相同或相似的要素。W下示例性实施例中所描述的实施方 式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详 述的、本发明的一些方面相一致的装置和方法的例子。
[0032] 参见图1,本发明提出的一种基于大数据的观点抽取方法。本发明W下实施方式 主要是W数据源为微博的情况为例进行说明,对于数据源为博客、新闻报道网页、论坛等情 况,本领域技术人员能够根据所给出的方法W及本领域的公知技术进行实施。
[
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1