一种基于数据挖掘的信息大数据智能采集管理系统

文档序号:37345347发布日期:2024-03-18 18:19阅读:17来源:国知局
一种基于数据挖掘的信息大数据智能采集管理系统

本发明涉及数据采集技术,具体涉及一种基于数据挖掘的信息大数据智能采集管理系统。


背景技术:

1、大数据指的是在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的咨询。随着时代的发展以及更新速度加快,数据的增长对企业用户的管理带来了诸多不便与挑战。大数据技术可以全面采集及其挖掘到成千上万的数据信息,而通过一种用户管理系统挖掘数据之间的联系。

2、公开号为cn116342168a的中国发明专利中,公开了一种信息大数据智能采集管理系统,该信息大数据智能采集管理系统,本发明的信息大数据智能采集管理系统在数据进行聚类压缩前考虑了数据的特征,并且考虑各产品种类的每个产品交易时间编码下的产品交易量的增量,结合增量对交易数据的突变特征和趋势特征进行分析,在重复性的基础上结合市场交易数据的增量变化特征,将特征强、重复性高的数据聚类,降低在解压分析数据时对无关数据的解压,达到降低数据分析时间和数据处理成本的目的,进一步地提高分析效率。

3、现有的大数据智能采集管理系统在进行使用时,数据的特征表示数据中存在一定趋势变化的数据区间或存在突变的异常数据点,因此经过重复性的数据还要重复采集,不仅对系统的算力需求较大,而且消耗更多时间,造成工作量的冗余,并且无法再对已有数据再次进行挖掘,从而开发的一种基于数据挖掘的信息大数据智能采集管理系统。


技术实现思路

1、本发明的目的是提供一种基于数据挖掘的信息大数据智能采集管理系统,以解决现有技术中的上述不足之处。

2、为了实现上述目的,本发明提供如下技术方案:一种基于数据挖掘的信息大数据智能采集管理系统,包括采集模块、处理模块、标记模块、传输模块、检测模块与存储模块;

3、其中,所述采集模块通过网络爬虫或网站公开api方式从网站上获取数据信息,并且利用多个数据库或存储系统来接收各个客户端的数据;

4、处理模块用于对所采集的数据进行分析,将有意义的数据进行整合,并将整合后的数据通过所述传输模块传输至存储模块内部;

5、检测模块对所述采集模块所获取的数据进行检测,并通过所述标记模块对异常数据进行标记,同时将标记后的数据通过所述传输模块传输至所述出来模块内部;

6、存储模块用于对所述采集模块所获取的信息进行保存。

7、作为本发明的进一步优化方案,所述采集模块通过网络情报对数据进行采集,并且负责面向网络采集以网页文件为主的数据资源采集相关数据,可通过配置信息,将分散在不同网络海量网页素材的数据统一采集,并实现数据的动态更新监控数据采集进度,采集日志信息查询,采集任务结果展示以及对采集任务的启停功能的控制。

8、作为本发明的进一步优化方案,所述采集模块还包括数据的挖掘,通过统计学与机器学习技术,从所述采集模块所获取的信息中检测潜在的信息以及规律。

9、作为本发明的进一步优化方案,将所述采集模块所获取的数据导入所述处理模块内部,再对所有数据进行预处理;

10、将所述处理模块接收的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上进行清洗和预处理。

11、作为本发明的进一步优化方案,所述检测模块对运行过程中的异常情况进行检测,并通过所述标记模块对异常部分进行标记,将所标记的数据传输给相关人员,并进行相应措施。

12、作为本发明的进一步优化方案,所述存储模块采用数据湖数据存储方法,其集中存储所有原始数据的大型存储库,包括结构化数据、半结构化数据和非结构化数据,可以将不同来源的数据整合在一起,为数据分析和挖掘提供便利。

13、与现有技术相比,本发明提供的一种基于数据挖掘的信息大数据智能采集管理系统,通过采集模块加快对数据的采集,并且通过检测模块对采集后的数据进行检测,将重复或异常的数据进行标注,同时传送给操作人员,对标记的数据进行处理,并且对所采集到的数据进行分析,在已有数据的基础上进行计算,从而起到预测的效果,通过存储模块对所记录的数据进行存储,保证所采集的数据在使用时可以快速提取出来。



技术特征:

1.一种基于数据挖掘的信息大数据智能采集管理系统,其特征在于,包括采集模块(1)、处理模块(2)、标记模块(3)、传输模块(4)、检测模块(5)与存储模块(6);

2.根据权利要求1所述的一种基于数据挖掘的信息大数据智能采集管理系统,其特征在于,所述采集模块(1)通过网络情报对数据进行采集,并且负责面向网络采集以网页文件为主的数据资源采集相关数据,可通过配置信息,将分散在不同网络海量网页素材的数据统一采集,并实现数据的动态更新监控数据采集进度,采集日志信息查询,采集任务结果展示以及对采集任务的启停功能的控制。

3.根据权利要求1所述的一种基于数据挖掘的信息大数据智能采集管理系统,其特征在于,所述采集模块(1)还包括数据的挖掘,通过统计学与机器学习技术,从所述采集模块(1)所获取的信息中检测潜在的信息以及规律。

4.根据权利要求1所述的一种基于数据挖掘的信息大数据智能采集管理系统,其特征在于,将所述采集模块(1)所获取的数据导入所述处理模块(2)内部,再对所有数据进行预处理;

5.根据权利要求1所述的一种基于数据挖掘的信息大数据智能采集管理系统,其特征在于,所述检测模块(5)对运行过程中的异常情况进行监测,并通过所述标记模块(3)对异常部分进行标记,将所标记的数据传输给相关人员,并进行相应措施。

6.根据权利要求1所述的一种基于数据挖掘的信息大数据智能采集管理系统,其特征在于,所述存储模块(6)采用数据湖数据存储方法,其集中存储所有原始数据的大型存储库,包括结构化数据、半结构化数据和非结构化数据,可以将不同来源的数据整合在一起,为数据分析和挖掘提供便利。


技术总结
本发明公开了一种基于数据挖掘的信息大数据智能采集管理系统,涉及数据采集领域,包括采集模块、处理模块、标记模块、传输模块、检测模块与存储模块;采集模块通过网络爬虫或网站公开API方式从网站上获取数据信息,并且利用多个数据库或存储系统来接收各个客户端的数据;该基于数据挖掘的信息大数据智能采集管理系统,通过采集模块加快对各个数据的采集,并且通过检测模块对采集后的数据进行检测,将重复或异常的数据进行标注,同时传送给操作人员,对标记的数据进行处理,并且对所采集到的数据进行分析,在已有数据的基础上进行计算,从而起到预测的效果,通过存储模块对所记录的数据进行存储,保证所采集的数据在使用时可以快速提取出来。

技术研发人员:冯怡,王欣艺,武装
受保护的技术使用者:山东农业大学
技术研发日:
技术公布日:2024/3/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1