互联网信息存储系统的制作方法

文档序号:8512591阅读:418来源:国知局
互联网信息存储系统的制作方法
【技术领域】
[0001] 本发明涉及数据采集与分析,特别涉及一种互联网信息存储系统。
【背景技术】
[0002] 与原有传统互联网形态相比,当今的互联网形态已经发生了巨变,随身移动设备 的不断推新,人们已经脱离了老式台式机的传统有线上网模式,移动设备的功能层出不穷, 拍照、拍摄视频已经是最基本的功能。人们可以通过移动设备拍摄周围发生的事情,并且可 以直接上传到互联网中,其信息的传播速度迅速之极,如果没有合理进行监测,可能会出现 非法信息,错误引导公众的判断,导致舆论走向错误的方向。在舆情检测中,数据采集功能 尤为重要,所有数据在采集后,因为数据量极大,需要借助技术手段,在有限的时间内,分析 出有用的数据。然而现有的信息监测系统仅应用单一的采集方式,只能满足某种特定的信 息分析,不能满足现在互联网中多元化信息分析的需求。

【发明内容】

[0003] 为解决上述现有技术所存在的问题,本发明提出了一种互联网信息存储系统,包 括:
[0004] 数据存储层,用于提供数据库管理,对所采集的数据进行存储规划;通过分布式计 算实现各个子系统内部和子系统之间的不同节点上的对象调用;对各个子系统进行参数配 置,监控系统各个组成部分的运行情况,管理用户及其权限;
[0005] 数据处理层,用于进行数据采集,对网络内容进行增量式抓取;实现数据迀移、备 份和清洗;对监测对象的基本信息和进一步分析出的信息进行管理;
[0006] 监测分析层,用于对采集到的数据进行分析,抽取特征,建立数据索引,对采集到 的网络内容进行统计归类;
[0007] 用户接口层,提供管理功能的操作界面,显示信息采集、信息统计、信息识别和分 析的结果,进行系统维护操作。
[0008] 优选地,所述监测分析层进一步包括:
[0009] 视频采集模块,用于通过关键词,对视频网络内容进行内容采集,返回包含指定关 键词的视频文件,以及相应文件内的时间信息;通过关键帧对视频网络内容进行内容采集, 返回包含指定关键帧的视频文件,以及相应文件内的时间信息;通过特定视频片段,在本地 视频数据库中采集包含相同的视频片段的视频网络内容,通过WEB界面显示采集到的结果 视频的摘要及关键帧全景图;
[0010] 音频采集模块,用于对互联网语音和音频文件建立内容索引,进行特定内容音频 采集,通过对特定内容音频信息的采集,实现对网络音频信息的监测,所述特定内容音频信 息包括特定关键词、特定说话人,或者特定音频片段;
[0011] 文本采集模块,包括话题采集单元,话题趋向分析单元,关键词过滤匹配单元,其 中:
[0012] 所述话题采集单元用于对指定的网站进行流量访问量统计、采集排名位置,从第 三方所公布的网络内容获取相关数据;
[0013] 所述话题趋向分析单元用于对网络内容中关键词的所有情感词汇趋向性的统计 加权,通过对比和分析用户话题的趋向性矢量来完成话题的趋向性分析。
[0014] 所述关键词过滤匹配单元用于通过关键字匹配,检测网络内容中是否包含非法内 容并进行过滤;通过组合条件对关键字进行配置,并根据关键字时效性配置有效周期。
[0015] 本发明相比现有技术,具有以下优点:
[0016] 本发明提出了一种互联网信息存储系统,对互联网舆情进行多维监测,有效采集 和分析出敏感信息,提高了查准率和查全率。
【附图说明】
[0017] 图1是根据本发明实施例的互联网信息存储系统的模块图。
【具体实施方式】
[0018] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权 利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节 以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中 的一些或者所有细节也可以根据权利要求书实现本发明。
[0019] 本发明的一方面提供了一种互联网信息存储系统。图1是根据本发明实施例的互 联网信息存储系统模块图。
[0020] 本发明把多种信息采集的方式综合在一起,将其在信息监测中实现。考虑到对内 容方面的监测,本发明还需要对内容中的敏感信息进行审核,互联网中的大型网站提供很 多热点词汇的推荐,这些数据很有可能就是本发明关心的关键词汇,即关键字,这些数据本 发明也需要及时的采集下来。其次在监测工作中,信息监测中选择的对象是互联网中门户 网站,针对某一个地区的信息进行实时推送。系统按照本发明配置的规则,定期抓取关注的 信息,通过各种分析手段,提示用户注意匹配上的数据信息进行审核。
[0021] 在信息监测系统中,系统分为四个层次,自底向上依次为数据存储层、数据处理 层、监测分析层、用户接口层。
[0022] 数据存储层提供数据库管理功能,需要对采集的数据有合理的存储规划;分布式 计算能力,实现各个子系统内部和子系统之间的不同节点上的对象调用;系统维护,可以对 各个子系统进行参数配置,监控系统各个组成部分的运行情况,管理用户及其权限等。
[0023] 数据处理层提供数据采集能力,可以对重点网站的网络内容及音视频内容进行增 量式抓取;数据存储,可以管理外部存储系统,能够实现数据迀移、备份和清洗的功能;数 据管理功能,可以对网站、网络内容、视音频网络内容等监测对象的基本信息和进一步分析 出的信息进行管理,如查询、修改、删除、添加。并支持手动导入音视频网络内容。
[0024] 监测分析层进行内容分析,对采集到的文本、音频、视频数据进行分析,抽取特征, 建立数据索引,识别非法信息和跟踪热点、敏感词等;信息采集,是基于关键词、样例图片、 样例音频、样例视频,来进行内容采集;信息统计,根据监测业务的需要,对采集到的视音频 网站、网络内容、和非法信息进行统计归类。
[0025] 用户接口层提供各个管理功能友好的操作界面,显示信息采集、信息统计、非法信 息识别和分析的结果,进行系统维护等多项操作;
[0026] 系统接口为相关系统提供统一的服务,便于整合监测业务的其他系统,提高各业 务系统的集成性
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1