本发明涉及智能数据采集,具体涉及一种人工智能数据采集系统。
背景技术:
1、人工智能属于ai技术,在互联网技术的不断催化,ai技术的出现极大地方便了我们的日常生产和生活。
2、根据公开(公告)号:cn115272812a,公开(公告)日:2022-11-01,公开的一种人工智能大数据采集系统,包括数据采集及通信单元、数据融合及存储单元、图件绘制及可视化单元、用户单元、逻辑功能单元和数据访问单元。本发明利用多手段辅助编录的方式完成野外数据快捷及智能化采集工作,提高野外观察记录的效率,数据采集及通信单元简化了野外数据的采集方式,能够更加客观详实地反映其属性及空间信息,通信模块可以实现对各类设备数据的稳定采集,数据采集完成后数据融合及存储单元自动且共同完成复杂的数据融合和存储工作,同时图件绘制及可视化单元可以利用采集的数据直接在设备上进行地质图件的绘制,实现数据的现场制图及可视化表达,进而提升野外地质数据采集的工作效率。
3、以及公开(公告)号:cn114155447b,公开(公告)日:2022-06-24,公开的一种人工智能大数据采集系统,属于人工智能技术领域。所述系统包括:大数据服务网元,设置在无线网络端,包括第一存储节点、第二存储节点和第三存储节点,第一存储节点用于存储威胁物分别对应的各帧标准轮廓图案,第二存储节点用于存储待护卫区域的亮度数值分布区间,第三存储节点用于存储场景判断机构的输出数据;场景判断机构,用于确定选定待护卫区域的某一分段区域是否威胁物侵入区域,同时输出分段区域对应的侵入威胁物种类。通过本发明,能够将大数据服务与高清遥感技术以及导航应用技术结合,用于跨度较广的待护卫区域的人工智能监控,并对人工智能的监控结果执行大数据采集和维护,从而便于导航应用程序参考和使用。
4、在包括上述专利的现有技术中,我们进行词条检索的时候,不同的游览器对于词条的解析方式不同,所以可以获取的详细数据存在明显差异,所以通过互联网进行词条检索的时候,就需要通过多个平台进行词条检索,人为整理并找寻适合的消息。
技术实现思路
1、本发明的目的是提供一种人工智能数据采集系统,用于解决上述问题。
2、为了实现上述目的,本发明提供如下技术方案:
3、一种人工智能数据采集系统,包括:
4、数据采集模块,基于网络爬虫、api接口以及rss订阅三种方式中的任一一种或多种从互联网上获取数据;
5、数据解析模块,对采集的数据执行解析、清洗,以提取所需信息;
6、数据获取方式优化模块,根据采集需求和特定的数据源,择定合适的获取方式;
7、采集算法优化模块,根据采集过程中的实时情况,进行算法调整和优化,提高数据采集的效率和准确性;
8、数据通道加密模块,采用加密算法对数据通信通道执行加密。
9、作为优选的,所述数据采集模块基于智能学习技术根据数据源结构和协议进行自适应调整,其方法如下:
10、s01、以所需的关键字作为ai数据的模板数据,以算法数据为分类数据,分类数据采用标记fi进行标记,其中i代表不同的算法数据;
11、s02、从模板数据内提取对应的分类数据,并以分类标记fi进行替换,并将分类标记fi与对应的分类数据进行集合处理并生成分类数据execl表。
12、作为优选的,所述数据解析模块基于自然语言处理方法和机器学习算法对数据进行处理的步骤如下:
13、s03、获取测试样本并提取测试样本的位置特征、字体特征和语义特征;
14、s04、将测试样本的位置特征、字体特征和语义特征输入段落识别模型,判断段落识别模型
15、s05、输出的段落信息是否准确,若不准确,将该测试样本放入学习样本中并输入机器学习模型进行训练,生成段落识别模型。
16、作为优选的,所述机器学习模型采用梯度提升决策树机器学习模型。
17、作为优选的,所述位置特征为文档中每行第一个字符以及该第一个字符竖排的最后一个字符;
18、所述字体特征为每个字符的字号信息计算每个字的宽度和高度,根据计算结果,统计得到文档中每行字符的长度的中位数、宽度中位数以及高度中位数;
19、所述语义特征为对需要词条进行分词,并通过学习样本的文本数据转换为语义向量。
20、作为优选的,还包括云端数据存储模块,其基于算法数据进行写入的数据进行随机分割,将算法数据随机分割为八组数据流,并采用对应的数字标记k对九组数据流进行依次标记,且k=1、2、......、8,其中k为1时,代表此带有数字标记k1的数据流为第一组数据流,k为2时,代表此带有数字标记k2的数据流为第二组数据流,......,k为8时,代表带有数字标记k8的数据流为第八组数据流。
21、作为优选的,在针对所述八组数据流进行实时更新处理过程中,通过重复数据匹配表内部所包括的重复数据对模板数据内部的同类数据进行识别,并通过重复标记hk对同类数据进行替换,通过重复标记hk替换同类数据的方式来缩减整个模板数据的整体容量;
22、再根据所对应的分类标记kn和分类数据匹配表,依次提取对应的分类数据,通过分类标记kn的所在位置,依次将对应的分类数据填补至模板数据内,得到准确的实况数据变化形态。
23、作为优选的,所述数据解析模块中对所采集的智能学习数据进行分类处理,数据清洗单元对模板数据进行容量缩减,加密单元对分类数据进行加密处理,分类存储单元对模板数据以及分类数据进行分别存储处理,合并提取终端对原始的智能学习数据进行合并处理。
24、在上述技术方案中,本发明提供的一种人工智能数据采集系统,具备以下有益效果:基于网络爬虫、api接口以及rss订阅方式形式进行数据的获取,通过对数据的解析、清洗,通过算法对检索给的数据进行归类,并推定关于检索词条与之最关联的信息,免去了人为筛选的烦琐。
1.一种人工智能数据采集系统,其特征在于,包括:
2.根据权利要求1所述的一种人工智能数据采集系统,其特征在于,所述数据采集模块基于智能学习技术根据数据源结构和协议进行自适应调整,其方法如下:
3.根据权利要求1所述的一种人工智能数据采集系统,其特征在于,所述数据解析模块基于自然语言处理方法和机器学习算法对数据进行处理的步骤如下:
4.根据权利要求3所述的一种人工智能数据采集系统,其特征在于,所述机器学习模型采用梯度提升决策树机器学习模型。
5.根据权利要求3所述的一种人工智能数据采集系统,其特征在于,所述位置特征为文档中每行第一个字符以及该第一个字符竖排的最后一个字符;
6.根据权利要求1所述的一种人工智能数据采集系统,其特征在于,还包括云端数据存储模块,其基于算法数据进行写入的数据进行随机分割,将算法数据随机分割为八组数据流,并采用对应的数字标记k对九组数据流进行依次标记,且k=1、2、......、8,其中k为1时,代表此带有数字标记k1的数据流为第一组数据流,k为2时,代表此带有数字标记k2的数据流为第二组数据流,......,k为8时,代表带有数字标记k8的数据流为第八组数据流。
7.根据权利要求6所述的一种人工智能数据采集系统,其特征在于,在针对所述八组数据流进行实时更新处理过程中,通过重复数据匹配表内部所包括的重复数据对模板数据内部的同类数据进行识别,并通过重复标记hk对同类数据进行替换,通过重复标记hk替换同类数据的方式来缩减整个模板数据的整体容量;
8.根据权利要求1所述的一种人工智能数据采集系统,其特征在于,所述数据解析模块中对所采集的智能学习数据进行分类处理,数据清洗单元对模板数据进行容量缩减,加密单元对分类数据进行加密处理,分类存储单元对模板数据以及分类数据进行分别存储处理,合并提取终端对原始的智能学习数据进行合并处理。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述的人工智能数据采集系统的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述的人工智能数据采集系统的步骤。