一种基于社交网络平台的舆情分析方法及系统与流程

文档序号:11155326阅读:969来源:国知局
一种基于社交网络平台的舆情分析方法及系统与制造工艺

本发明涉及社交网络舆情分析技术领域,具体为一种基于社交网络平台的舆情分析方法及系统。



背景技术:

相比于传统媒体,互联网因其发展的迅速和使用的便利性,已逐步成为了反应社情民意最活跃、最快捷和最直接的渠道,对社会产生的影响力也越来越大,近年来也引起了国家相关部门和学术界的研究。在信息的传播过程中,民众基于互联网发表、转发和评论的舆情信息相互作用,相互影响。由于互联网具有不受时空限制的特性,使得即便是相距甚远的网民也能有高频率的交互。互联网的开放性也使用户的行为不受限制,在某些特性环境的诱导下,网民间的情绪或行为会互相引导,互相感染,最终掀起舆论风暴。

互联网舆情的发展往往伴随着舆情话题的产生和民众对舆情话题发表意见这两种行为。随着一个舆情话题的产生,到在网络中传播,民众对其的交流与讨论有可能将舆情话题意见往逐渐统一的趋势发展。与此同时,舆情话题会在短时间内大范围的扩散和快速的传播,其中一些负面信息也随着大范围传播,在进行舆情走势分析时,往往比较关注网民的言论而忽视有对少人持此意见,往往重视解读文字的内容而忽视网民的社会关系网络,为此,我们提出了一种基于社交网络平台的舆情分析方法及系统投入使用,以解决上述问题。



技术实现要素:

本发明的目的在于提供一种基于社交网络平台的舆情分析方法及系统,以解决上述背景技术中提出的舆情话题会在短时间内大范围的扩散和快速的传播的同时其中一些负面信息也随着大范围传播,在进行舆情走势分析时,往往比较关注网民的言论而忽视有对少人持此意见,往往重视解读文字的内容而忽视网民的社会关系网络的问题。

为实现上述目的,本发明提供如下技术方案:一种基于社交网络平台的舆情分析方法,所述该基于社交网络平台的舆情分析方法,具体步骤如下:

S1:通过搜索引擎后台的搜索日志,记录网民IP地址、搜索时间、搜索词和被点击的结果网页URL地址数据,通过统计分析用户的搜索词及搜索频率,获得数据集;

S2:对步骤S1中获取的数据集中的自然语义文本处理为计算机可处理的结构化数据,并过滤掉重复的内容;

S3:经过预处理后的数据实施基于词向量的聚类分析,采用优化后的均值聚类,进行聚类后将每类数据合为一个文档集合;

S4:依据步骤S3中的文档集合,抽取其中出现频率较高的搜索词和被点击的结果网页URL地址数据信息,得到相关热度的舆情结果。

优选的,所述步骤S2中,对数据集的处理方法为:

S21:过滤具有针对性的对话互动信息,尽可能的消除噪声数据;

S22:将数据集中的内嵌外部链接URL中的信息抽取并添加到社交平台信息中;

S23:去除数据集中的分词、停用词和非法字符,初步得到干扰度较少的数据集信息。

一种基于社交网络平台的舆情分析系统,所述该基于社交网络平台的舆情分析系统包括信息采集层、调度层、舆情分析单元、舆情数据存储和舆情信息服务。

优选的,所述信息采集层对互联网信息中的论坛、新闻、网页、博客、贴吧和社区的信息进行实时的监测和采集。

优选的,所述调度层实现采集任务的下发和采集数据的去重,采集的范围和频率参数通过采集任务调度进行配置。

优选的,所述舆情分析单元对采集的信息内容进行关键热词、趋势分析、舆情管理、负面信息、专题检测、连接分析、热点发现、文本聚类和情感分析。

优选的,所述舆情数据存储内置存储器,在存储器中可存储网页快照和附件存储。

优选的,所述舆情信息服务具有舆情预警和舆情简报功能,并提供专题服务。

优选的,所述舆情预警设定了在指定时间内实例的负面信息达到相应数目的预警等级,具有对预警条件增删改查功能,并能够根据预警条件鉴定各实例的预警等级,舆情简报以简报的形式呈现每日每周重点舆情,且简报有多种设计格式供选择和编辑。

与现有技术相比,本发明的有益效果是:本发明能够准确有效的分析出数据集的热点话题,减少噪声数据的采集,不但对部分数据集做出精确分析,而且通过聚类后的文档集合能够涵盖对个数据集的集中分析。

附图说明

图1为本发明原理框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明提供一种技术方案:一种基于社交网络平台的舆情分析方法,所述该基于社交网络平台的舆情分析方法,具体步骤如下:

S1:通过搜索引擎后台的搜索日志,记录网民IP地址、搜索时间、搜索词和被点击的结果网页URL地址数据,通过统计分析用户的搜索词及搜索频率,获得数据集;

S2:对步骤S1中获取的数据集中的自然语义文本处理为计算机可处理的结构化数据,并过滤掉重复的内容,对数据集的处理方法为:

S21:过滤具有针对性的对话互动信息,尽可能的消除噪声数据;

S22:将数据集中的内嵌外部链接URL中的信息抽取并添加到社交平台信息中;

S23:去除数据集中的分词、停用词和非法字符,初步得到干扰度较少的数据集信息;

S3:经过预处理后的数据实施基于词向量的聚类分析,采用优化后的均值聚类,进行聚类后将每类数据合为一个文档集合;

S4:依据步骤S3中的文档集合,抽取其中出现频率较高的搜索词和被点击的结果网页URL地址数据信息,得到相关热度的舆情结果。

一种基于社交网络平台的舆情分析系统,所述该基于社交网络平台的舆情分析系统包括信息采集层、调度层、舆情分析单元、舆情数据存储和舆情信息服务,所述信息采集层对互联网信息中的论坛、新闻、网页、博客、贴吧和社区的信息进行实时的监测和采集,所述调度层实现采集任务的下发和采集数据的去重,采集的范围和频率参数通过采集任务调度进行配置,所述舆情分析单元对采集的信息内容进行关键热词、趋势分析、舆情管理、负面信息、专题检测、连接分析、热点发现、文本聚类和情感分析,所述舆情数据存储内置存储器,在存储器中可存储网页快照和附件存储,所述舆情信息服务具有舆情预警和舆情简报功能,并提供专题服务,所述舆情预警设定了在指定时间内实例的负面信息达到相应数目的预警等级,具有对预警条件增删改查功能,并能够根据预警条件鉴定各实例的预警等级,舆情简报以简报的形式呈现每日每周重点舆情,且简报有多种设计格式供选择和编辑。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1