一种网络舆情漏斗式数据采集分析推送系统及方法

文档序号:6637347阅读:627来源:国知局
一种网络舆情漏斗式数据采集分析推送系统及方法
【专利摘要】本发明公开了一种网络舆情漏斗式数据采集分析推送系统及方法,包括网络舆情采集模块、网络舆情处理模块和网络舆情发布模块,所述模块包括以下子模块:定向精确采集子模块、非定向采集子模块、热点和敏感话题识别子模块、主题跟踪子模块、自动摘要子模块和综合分析子模块、舆情预警子模块和多维度舆情信息展示子模块;本发明采用特有的“舆情漏斗”算法,采用与我相关、舆情、正负面三类关键词词库,对采集的数据进行分析、判断、分类和预警,掌握潜在的变化规律。本发明的有益效果是:减轻人工巡检舆情事件的负担,及时准确撑控舆情事件的发展态势,形成近期互联网上最新、最热、敏感的话题,第一时间内将用户关心的舆情信息检测与预警出来。
【专利说明】
一种网络舆情漏斗式数据采集分析推送系统及方法

【技术领域】
[0001]本发明涉及网络信息处理【技术领域】,尤其涉及一种网络舆情漏斗式数据采集分析推送系统及方法。

【背景技术】
[0002]互联网在全球范围内的飞速发展,网络的开放性和虚拟性,决定了网络舆情具有以下特点:1、直接性:通过BBS,新闻点评和博客网站,网民可以立即发表意见;下情直接上达,民意表达更加畅通;2、突发性:网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;3、偏差性:由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间;在现实生活中遇到挫折,对社会问题片面认识等等,都会利用网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。
[0003]互联网上的信息量十分巨大,并且形式多样,依靠人工巡检舆情的方法很难应对网上海量信息的收集和处理,并且还浪费人力、物力和时间,从而延误舆情事件的引导和舆情处置。


【发明内容】

[0004]本发明的目的在于克服现有技术的不足,提供一种网络舆情漏斗式数据采集分析推送系统及方法,实现“第一时间” “一站式”对各种网络载体(如新闻、论坛、博客、微博、报干1J、电视、搜索引擎)采集的海量数据进行智能分析,稳、准、狠、快地把互联网读懂、读薄。在海量数据中快捷、准确的自动推送用户真正关心的舆情信息。
[0005]本发明的目的是通过以下技术方案来实现的:一种网络舆情漏斗式数据采集分析推送系统,包括网络舆情采集模块、网络舆情处理模块和网络舆情发布模块,所述网络舆情采集模块包括定向精确采集子模块和非定向采集子模块,所述定向精确采集子模块,用于采集新闻、论坛、微博、博客、电子报、网络电视舆情高发区的媒体类型站点,保证重要信息在第一时间优先采集不丢失;所述非定向采集子模块,用于采集百度、G00GLE.360主流搜索引擎数据,进行舆情数据搜索采集补充,保证信息收集的全面性;
所述网络舆情处理模块包括热点和敏感话题识别子模块、主题跟踪子模块、自动摘要子模块和综合分析子模块;所述热点和敏感话题识别子模块用于根据系统内设置的与我相关、舆情、正负面三大类关键词词库识别出给定时间段内的热门话题、敏感话题以及正负面舆情信息;所述主题跟踪子模块用于分析新发表文章、帖子的话题是否与已有主题相同;所述自动摘要子模块用于对各类主题,各类倾向形成自动摘要;所述综合分析子模块,用于根据形成的自动摘要,分析某个主题在不同时段间的关注程度,预测发展趋势;对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势;
所述网络舆情发布模块包括舆情预警子模块和多维度舆情信息展示子模块,所述舆情预警子模块用于对突发事件、涉及内容安全的敏感话题及时发现并报警,所述多维度舆情信息展示子模块,用于对舆情分析结果形成简报、报告、图表,自动推送给用户。
[0006]网络舆情漏斗式数据采集分析推送方法,包括以下步骤:
(1)网络舆情采集:对境内外网络中的新闻网页、论坛、微博、博客、电子报、网络电视舆情高发区的媒体类型站点进行定向精确采集,对百度、G00GLE,360主流搜索引擎数据进行非定向采集,对采集回的信息进行去重、过滤后存入采集数据库;
(2)网络舆情处理,包括以下子步骤:
51、系统对采集数据库中的数据进行分析,根据与我相关词库进行分析是否与我相关,分出与我有关的信息和与我无关的信息;
52、系统对与我有关的信息进行分析,根据舆情词库分析是否属于舆情信息,分出舆情信息和非舆情信息;
53、系统对舆情信息进行分析,根据本条舆情信息出处的站点级别数、本条舆情正负关键词级别数、本条舆情数据相似度和相关度进行聚类后的总条数,三个数据相乘积得到本条舆情信息的热点值,识别出热点信息和非热点信息;
54、系统根据正负面词库,采用自然语言智能分词技术,识别出信息的正负面关系,分出负面信息和非负面信息;所述正负面词库包括情感语料库和正负面舆情词典;
55、系统进行主题跟踪,分析新发布的文章、帖子等的话题是否与已有的主题相同;对各类主题形成自动摘要;系统将采集回来的信息进行舆情关键词统计分析出舆情关键词的分布情况并进行关键词聚类处理,最后再对文章标题相似度进行综合分析比较判断生成相似度关联数据,从而实现某一事件主题跟踪分析;
56、系统根据形成的自动摘要,分析某个主题在不同时段间的关注程度,预测发展趋势;系统舆情库中详细记录了每条舆情信息的发布时间,站点,载体等相关信息资料,这些信息通过我们之前的主题跟踪分析算法,可以很方便的分析出某一个事件主题的详细的舆情传播途径以及传播载体,统计出舆情在什么时间段和什么载体上所出现的频率以及概率值,最后统生成出一个直观的舆情发展趋势图;
57、系统对突发事件进行跨时间、跨空间综合分析,系统将每条采集回来的舆情数据进行聚类整合分析出舆情正负面级别、发布在各站点时间、发布在各站点的频率以及根据发布时间形成的时间和站点的舆情传播途径等热点相关因素,并按照突发舆情事件的性质、严重程度、扩散速度、影响范围、持续时间等要素自动将突发舆情事件分为特别重大舆情事件、重大舆情事件、较大舆情事件和一般舆情事件;
58、系统根据突发舆情事件的级别,进行舆情预警;
(3)网络舆情发布:系统透过图表分析趋势,掌握潜在的变化规律,对舆情分析结果形成简报、报告、图表等方式,自动推送给用户所关心的舆情信息。
[0007]步骤(I)所述的采集方法是采用互联网信息采集、文本挖掘技术和全文检索技术米集/[目息。
[0008]步骤(2)所述的舆情预警包括短信预警、邮件预警、弹窗预警。
[0009]本发明的有益效果是:实现用户的网络舆情监测和定向追踪等信息需求,形成简报、报告、图表等分析结果,帮助用户及时掌握舆情动向,准确捕捉预警信息,对有较大影响的重要事件快速发现、快速处理,并为用户做出相应的决策提供信息依据,大大节约了人力和物力成本。

【专利附图】

【附图说明】
[0010]图1为本发明流程图。

【具体实施方式】
[0011]下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
[0012]如图1所示,一种网络舆情漏斗式数据采集分析推送系统,包括网络舆情采集模块、网络舆情处理模块和网络舆情发布模块,所述网络舆情采集模块包括定向精确采集子模块和非定向采集子模块,所述定向精确采集子模块,用于采集新闻、论坛、微博、博客、电子报、网络电视舆情高发区的媒体类型站点,保证重要信息在第一时间优先采集不丢失;所述非定向采集子模块,用于采集百度、G00GLE、360主流搜索引擎数据,进行舆情数据搜索采集补充,保证信息收集的全面性;
所述网络舆情处理模块包括热点和敏感话题识别子模块、主题跟踪子模块、自动摘要子模块和综合分析子模块;所述热点和敏感话题识别子模块用于根据系统内设置的与我相关、舆情、正负面三大类关键词词库识别出给定时间段内的热门话题、敏感话题以及正负面舆情信息;所述主题跟踪子模块用于分析新发表文章、帖子的话题是否与已有主题相同;所述自动摘要子模块用于对各类主题,各类倾向形成自动摘要;所述综合分析子模块,用于根据形成的自动摘要,分析某个主题在不同时段间的关注程度,预测发展趋势;对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势;
所述网络舆情发布模块包括舆情预警子模块和多维度舆情信息展示子模块,所述舆情预警子模块用于对突发事件、涉及内容安全的敏感话题及时发现并报警,所述多维度舆情信息展示子模块,用于对舆情分析结果形成简报、报告、图表,自动推送给用户。
[0013]网络舆情漏斗式数据采集分析推送方法,包括以下步骤:
(1)网络舆情采集:对境内外网络中的新闻网页、论坛、微博、博客、电子报、网络电视舆情高发区的媒体类型站点进行定向精确采集,对百度、GOOGLE,360主流搜索引擎数据进行非定向采集,对采集回的信息进行去重、过滤后存入采集数据库;
(2)网络舆情处理,包括以下子步骤:
51、系统对采集数据库中的数据进行分析,根据与我相关词库进行分析是否与我相关,分出与我有关的信息和与我无关的信息;
52、系统对与我有关的信息进行分析,根据舆情词库分析是否属于舆情信息,分出舆情信息和非舆情信息;
53、系统对舆情信息进行分析,根据本条舆情信息出处的站点级别数、本条舆情正负关键词级别数、本条舆情数据相似度和相关度进行聚类后的总条数,三个数据相乘积得到本条舆情信息的热点值,识别出热点信息和非热点信息;
54、系统根据正负面词库,采用自然语言智能分词技术,识别出信息的正负面关系,分出负面信息和非负面信息;所述正负面词库包括情感语料库和正负面舆情词典;其中“情感语料”库大约9万篇,正负面舆情词典大约3万条,并且对每条负面关键词进行了级别评定以及分类,重点监测负面舆情,尤其是涉腐、涉法、涉纪、涉毒、涉黄、涉黑、涉恐等重大舆情事件、舆情语料和舆情词典每天都在通过人工和机器自我学习技术进行不断扩充中;
55、系统进行主题跟踪,分析新发布的文章、帖子等的话题是否与已有的主题相同;对各类主题形成自动摘要;系统将采集回来的信息进行舆情关键词统计分析出舆情关键词的分布情况并进行关键词聚类处理,最后再对文章标题相似度进行综合分析比较判断生成相似度关联数据,从而实现某一事件主题跟踪分析;
56、系统根据形成的自动摘要,分析某个主题在不同时段间的关注程度,预测发展趋势;系统舆情库中详细记录了每条舆情信息的发布时间,站点,载体等相关信息资料,这些信息通过我们之前的主题跟踪分析算法,可以很方便的分析出某一个事件主题的详细的舆情传播途径以及传播载体,统计出舆情在什么时间段和什么载体上所出现的频率以及概率值,最后统生成出一个直观的舆情发展趋势图;
57、系统对突发事件进行跨时间、跨空间综合分析,系统将每条采集回来的舆情数据进行聚类整合分析出舆情正负面级别、发布在各站点时间、发布在各站点的频率以及根据发布时间形成的时间和站点的舆情传播途径等热点相关因素,并按照突发舆情事件的性质、严重程度、扩散速度、影响范围、持续时间等要素自动将突发舆情事件分为特别重大舆情事件、重大舆情事件、较大舆情事件和一般舆情事件;
58、系统根据突发舆情事件的级别,进行舆情预警;
(3)网络舆情发布:系统透过图表分析趋势,掌握潜在的变化规律,对舆情分析结果形成简报、报告、图表等方式,自动推送给用户所关心的舆情信息。
[0014]步骤(I)所述的采集方法是采用互联网信息采集、文本挖掘技术和全文检索技术米集彳目息O
[0015]步骤(2)所述的舆情预警包括短信预警、邮件预警、弹窗预警。
【权利要求】
1.一种网络舆情漏斗式数据采集分析推送系统,包括网络舆情采集模块、网络舆情处理模块和网络舆情发布模块,其特征在于:所述网络舆情采集模块包括定向精确采集子模块和非定向采集子模块,所述定向精确采集子模块,用于采集新闻、论坛、微博、博客、电子报、网络电视舆情高发区的媒体类型站点,保证重要信息第一时间优先采集不丢失;所述非定向采集子模块,用于采集百度、G00GLE、360当前主流搜索引擎数据,进行舆情数据搜索采集补充,保证了信息收集的全面性; 所述网络舆情处理模块包括热点和敏感话题识别子模块、主题跟踪子模块、自动摘要子模块和综合分析子模块;所述热点和敏感话题识别子模块用于根据系统内设置的与我相关、舆情、正负面三大类关键词词库识别出给定时间段内的热门话题、敏感话题以及正负面舆情信息;所述主题跟踪子模块用于分析新发表文章、帖子的话题是否与已有主题相同;所述自动摘要子模块用于对各类主题,各类倾向形成自动摘要;所述综合分析子模块,用于根据形成的自动摘要,分析某个主题在不同时段间的关注程度,预测发展趋势;对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势; 所述网络舆情发布模块包括舆情预警子模块和多维度舆情信息展示子模块,所述舆情预警子模块用于对突发事件、涉及内容安全的敏感话题及时发现并报警,所述多维度舆情信息展示子模块,用于对舆情分析结果形成简报、报告、图表,自动推送给用户。
2.网络舆情漏斗式数据采集分析推送方法,其特征在于:包括以下步骤: (1)网络舆情采集:对境内外网络中的新闻网页、论坛、微博、博客、电子报、网络电视舆情高发区的媒体类型站点进行定向精确采集,对百度、GOOGLE,360主流搜索引擎数据进行非定向采集,对采集回的信息进行去重、过滤后存入采集数据库; (2)网络舆情处理,包括以下子步骤: 51、系统对采集数据库中的数据进行分析,根据与我相关词库进行分析是否与我相关,分出与我有关的信息和与我无关的信息; 52、系统对与我有关的信息进行分析,根据舆情词库分析是否属于舆情信息,分出舆情信息和非舆情信息; 53、系统对舆情信息进行分析,根据本条舆情信息出处的站点级别数、本条舆情正负关键词级别数、本条舆情数据相似度和相关度进行聚类后的总条数,三个数据相乘积得到本条舆情信息的热点值,识别出热点信息和非热点信息; 54、系统根据正负面词库,采用自然语言智能分词技术,识别出信息的正负面关系,分出负面信息和非负面信息;所述正负面词库包括情感语料库和正负面舆情词典; 55、系统进行主题跟踪,分析新发布的文章、帖子的话题是否与已有的主题相同;对各类主题形成自动摘要;系统将采集回来的信息进行舆情关键词统计分析出舆情关键词的分布情况并进行关键词聚类处理,对文章标题相似度进行综合分析比较判断生成相似度关联数据,实现对某一事件主题跟踪分析; 56、系统根据形成的自动摘要,分析某个主题在不同时段间的关注程度,预测发展趋势;系统舆情库中详细记录有每条舆情信息的发布时间,站点和载体信息资料,通过主题跟踪分析算法,分析出某一个事件主题的详细的舆情传播途径以及传播载体,统计出舆情在什么时间段和什么载体上所出现的频率以及概率值,生成一个直观的舆情发展趋势图; 57、系统对突发事件进行跨时间、跨空间综合分析,系统将每条采集回来的舆情数据进行聚类整合分析出舆情正负面级别、发布在各站点时间、发布在各站点的频率以及根据发布时间形成的时间和站点的舆情传播途径这些热点因素,并按照突发舆情事件的性质、严重程度、扩散速度、影响范围、持续时间要素自动将突发舆情事件分为特别重大舆情事件、重大舆情事件、较大舆情事件和一般舆情事件; S8、系统根据突发舆情事件的级别,进行舆情预警; (3)网络舆情发布:系统透过图表分析趋势,掌握潜在的变化规律,对舆情分析结果形成简报、报告、图表等方式,自动推送给用户所关心的舆情信息。
3.根据权利要求2所述的网络舆情漏斗式数据采集分析推送方法,其特征在于:步骤(1)所述的采集方法是采用互联网信息采集、文本挖掘技术和全文检索技术采集信息。
4.根据权利要求2所述的网络舆情漏斗式数据采集分析推送方法,其特征在于:步骤(2)所述的舆情预警包括短信预警、邮件预警、弹窗预警。
【文档编号】G06F17/30GK104408157SQ201410730979
【公开日】2015年3月11日 申请日期:2014年12月5日 优先权日:2014年12月5日
【发明者】吴雪, 黄正强, 刘明所 申请人:四川诚品电子商务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1