多语种网络舆情分析方法

文档序号:10534825阅读:645来源:国知局
多语种网络舆情分析方法
【专利摘要】一种多语种网络舆情分析方法,包括(1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;(2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;(3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建立索引;(4)建立海量数据管理系统,对海量数据依托时间轴进行读写管理;(5)采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。
【专利说明】
多语种网络舆情分析方法
技术领域
[0001]本发明涉及语义分析及机器翻译领域,具体涉及一种多语种互联网信息分析方法。
【背景技术】
[0002]在互联网高速发展的今天,各民族每时每刻都会通过短信、微信、论坛、贴吧、博客、微博等网络及移动网络等媒体发表言论,参与话题交流,汇集成网络民意,形成网络舆论,同时各种犯罪分子、恐怖分子等也会通过网络进行沟通联络。只有及时发现互联网中有较大影响的重要事件和正在谋划、将要发生、已经发生的犯罪事件,并快速识别和定向跟踪,才能更快更全面地掌握情报动向,从而正面引导舆论和宣传,并打击犯罪。

【发明内容】

[0003]本发明的目的是提供一种多语种网络舆情分析方法,在多语种的海量社交网络中抓取网络舆情信息,并基于多语种进行源语分析,实现对网络舆情的及时分析,掌握各民族舆情情况,以有效为党和政府制定民族政策提供支持,为在特殊地区反恐维稳工作提供情报信息。
[0004]一种多语种网络舆情分析方法,其特征在于:
[0005](I)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;
[0006](2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;
[0007](3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建立索引;
[0008](4)建立海量数据管理系统,对海量数据依托时间轴进行读写管理;
[0009](5)采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。
[0010]所述步骤(4)进一步包括:通过收集海量数据,建立各语种的大语料库,并建立各语种的原子特征库,原子特征库由各语种特定类型的词汇组成,成行排列,作为调取脚本,用于后续统计分析。
[0011]本发明通过结合互联网信息分析技术和多语言互译技术,实现了针对互联网海量舆情信息中涉及多种语言的自动实时监测分析,有效地解决了互联网信息监测分析的难题,对于促进加强互联网信息监管,组织力量展开信息整理和深入分析,应对网络突发的公共事件,全面掌握社情民意都起到了一定的推动作用。
【具体实施方式】
[0012]本发明的设计思路如下:在海量的多语种社交网络中采用网络搜索引擎的数据技术抓取、下载多语种的舆情信息,并进行快速的去重、垃圾过滤、编码解析(将所有编码转换为Unicode国际标准编码),然后将初步处理后的数据转移到内网。数据进入内网后,通过利用VSM模型和HMM分析模型搭建运算平台,进行分词与解析。
[0013]为实现上述发明目的,本发明采用以下技术方案:
[0014]基于云计算的分布式爬虫设计,即将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上,这样可以提高监控效率,合理利用网络资源和云计算资源。
[0015]对网络数据进行同一个网站的去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息等数据的去噪。
[0016]海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并进行索引建立。
[0017]建立海量数据管理系统,对海量数据依托时间轴进行读写管理。
[0018]采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。
[0019]为实现上述技术方案,本发明采用以下技术手段:
[0020]采用HIT算法对网页链接进行分类,分成导航型网页和内容型网页;
[0021]借助类似XPATH规则去抽取有效信息,过滤掉广告,重复模板信息等;
[0022]借助布隆过滤器对网页链接进行去重,依据向量词模型对网页内容进行去重和过滤;
[0023]分布式定制爬虫,引入调度系统,支持水平扩展,轻松支撑7000个爬虫网站。
[0024]网络爬虫系统,实现能够部署云平台上,依托下载服务器和数据服务器采用分布式设计,依托云计算资源实现对7000多网站的下载,同时实现去重、去噪功能。
[0025]高速搜索引擎,实现对海量数据进行快速检索,性能指标控制在现有高性能服务器上实现一亿条数据平均1.5秒内搜索显示完毕。
[0026]焦点热点、异常词、敏感词、定制话题的功能实现,利用数据挖掘算法对海量数据进行挖掘发现需要监控的信息。
[0027]海量数据管理系统实现,实现数据横向的无障碍扩充,建立索引库自动更新机制,实现分布式数据保存与读写。
[0028]本发明的系统在thrift基础上,构建一个强化的分布式服务RPC框架,类似淘宝的HSF,后端业务模块都借助IDL进行接口交互;
[0029]引入分布式队列kafka,用于爬虫数据和后端数据模块进行解耦,爬虫的网页被各个数据模块进行订阅处理;
[0030]引入分布式索引系统,基于Iucene进行架构优化和封装,对网页数据进行索引构建,支持快速检索,支持当天检索。
【主权项】
1.一种多语种网络舆情分析方法,其特征在于: (1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上; (2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪; (3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建立索引; (4)建立海量数据管理系统,对海量数据依托时间轴进行读写管理; (5)采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。2.根据权利要求1所述的多语种网络舆情分析方法,其特征在于,所述步骤(4)进一步包括:通过收集海量数据,建立各语种的大语料库,并建立各语种的原子特征库,原子特征库由各语种特定类型的词汇组成,成行排列,作为调取脚本,用于后续统计分析。
【文档编号】G06F17/30GK105893368SQ201410663294
【公开日】2016年8月24日
【申请日】2014年11月19日
【发明人】宁勇
【申请人】北京航天长峰科技工业集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1