一种基于大数据的网页目标数据自动提取系统的制作方法

文档序号：28161638发布日期：2021-12-24 20:15阅读：96来源：国知局

1.本发明涉及网页目标数据提取技术领域，具体为一种基于大数据的网页目标数据自动提取系统。

背景技术：

2.随着人工智能与大数据技术的快速发展，数据作为智能商业时代的重要生产要素，不仅互联网企业重视，众多传统企业也纷纷布局，欲通过数据进行转型升级，通过大规模机器学习和深度学习等技术，对海量结构化数据和非结构化数据进行处理、分析和挖掘，提取数据中所包含的有价值的信息和知识，使数据具有“智能”，并通过建立模型寻求现有问题的解决方案以及实现预测，最终实现“用数据智能驱动决策，实现高净值业务增长。
3.但是现有的网页目标数据自动提取系统在使用时，不便于实时监测网络环境，易在收集信息的过程中进入不法或含有病毒的网站，降低收集信息的效率且易导致信息泄露，不便于网页数据信息进行不同程度加工和价值提取，不便于从不同维度收集和提取网页数据信息，降低信息采集的全面性。

技术实现要素：

4.（一）解决的技术问题针对现有技术的不足，本发明提供了一种基于大数据的网页目标数据自动提取系统，具备便于实时监测收集数据过程中的网络环境，避免在进行网页数据信息收集的过程中，进入不法网站，影响信息收集的效率，且防止收集的信息泄露，由预处理模块和深度处理模块，对网页数据信息进行不同程度加工和价值提取，便于根据不同的客户要求和信息量进行网页数据加工，从而提高工作效率，便于从不同维度收集和提取网页数据信息，提高信息采集全面性的优点，解决了现有的网页目标数据自动提取系统在使用时，不便于实时监测网络环境，易在收集信息的过程中进入不法或含有病毒的网站，降低收集信息的效率且易导致信息泄露，不便于网页数据信息进行不同程度加工和价值提取，不便于从不同维度收集和提取网页数据信息，降低信息采集全面性的问题。
5.（二）技术方案为实现上述具备便于实时监测收集数据过程中的网络环境，避免在进行网页数据信息收集的过程中，进入不法网站，影响信息收集的效率，且防止收集的信息泄露，由预处理模块和深度处理模块，对网页数据信息进行不同程度加工和价值提取，便于根据不同的客户要求和信息量进行网页数据加工，从而提高工作效率，便于从不同维度收集和提取网页数据信息，提高信息采集全面性的目的，本发明提供如下技术方案：一种基于大数据的网页目标数据自动提取系统，包括输入模块、数据采集模块、预处理模块、深度处理模块、传输模块、数据对比模块和存储模块，所述输入模块的输出端与数据采集模块的输入端连接，所述数据采集模块的输出端与预处理模块的输入端连接，所述预处理模块的输出端分别与深度处理模块的输出端和传输模块的输出端连接，所述深度处理模块的输出端与传输模块的
输入端连接，所述传输模块的输出端与数据对比模块的输入端连接，所述数据对比模块的输出端与存储模块的输入端连接。
6.优选的，还包括监控模块，所述监控模块的输出端与数据采集模块的输入端连接，所述监控模块用于实时监测数据采集过程中的网络环境，避免在进行数据采集的过程中浏览或进入不法网站，影响数据采集的效率。
7.优选的，所述输入模块用于输入目标数据或目标数据相关特征和目标数据的限制性因素，以此进行索引；所述数据采集模块用于根据所述目标数据或目标数据相关特征和目标数据的限制性因素进行网页数据信息的收集和提取。
8.优选的，所述预处理模块用于对所述数据采集模块收集和提取的网页数据信息进行加工和价值提取；所述深度处理模块用于对所述预处理模块处理的网页数据信息进行深度处理。
9.优选的，所述传输模块用于对所述预处理和深度处理完成的网页网络信息进行传输；所述数据对比模块用于将预处理模块和深度处理模块处理完成的网页数据信息与输入目标数据或目标数据相关特征和目标数据的限制性因素进行对比，并保留与输入目标数据或目标数据相关特征和目标数据的限制性因素相近的网络数据；所述存储模块用于对输入目标数据或目标数据相关特征和目标数据的限制性因素相近的网页数据信息进行保存。
10.优选的，所述数据采集模块包括通用爬虫、聚焦爬虫、增量爬虫和深层爬虫，所述通用爬虫用于收集并提取搜索引擎网页的数据信息，所述搜索引擎如（百度、搜狗、谷歌等）。
11.优选的，所述聚焦爬虫用于收集并提取特定领域或主题的网页数据信息，所述增量爬虫用于收集并提取新产生或发生变化的网页数据信息，所述深层爬虫用于收集并提取需要登录才能访问下载的网页数据信息。
12.优选的，所述通用爬虫、聚焦爬虫、增量爬虫和深层爬虫相互独立运行，所述通用爬虫、聚焦爬虫、增量爬虫和深层爬虫收集的网页数据信息均发送到预处理模块。
13.（三）有益效果与现有技术相比，本发明提供了一种基于大数据的网页目标数据自动提取系统，具备以下有益效果：1、该装置通过监控模块等结构，实现了实时监测网络环境的效果，避免在进行数据采集的过程中浏览或进入不法网站，影响数据采集的效率，避免进入含有病毒的网站，造成系统卡顿甚至死机，保证网页数据收集的流畅度，且防止进入不法网站造成信息泄露。
14.2、该装置通过通用爬虫、聚焦爬虫、增量爬虫和深层爬虫等结构，提高信息收集的全面性，便于从不同维度根据输入目标数据或目标数据相关特征和目标数据的限制性因素进行网页数据收集和提取，从而提高信息采集的全面性。
15.3、该装置通过预处理模块和深度处理模块等结构，实现了对网页数据信息进行不同程度的加工和价值提取，便于根据不同的客户要求和信息量进行网页数据加工，减少对收集完成的网页数据信息处理的时间，从而提高工作效率。
16.该装置结构简单，设计新颖，便于实时监测收集数据过程中的网络环境，避免在进行网页数据信息收集的过程中，进入不法网站，影响信息收集的效率，且防止收集的信息泄露，由预处理模块和深度处理模块，对网页数据信息进行不同程度加工和价值提取，便于根据不同的客户要求和信息量进行网页数据加工，从而提高工作效率，便于从不同维度收集和提取网页数据信息，提高信息采集的全面性，适合广泛推广。
附图说明
17.图1为本发明一种基于大数据的网页目标数据自动提取系统的结构示意图；图2为本发明一种基于大数据的网页目标数据自动提取系统的流程示意图。
具体实施方式
18.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.实施例一；请参阅图1
‑
2，一种基于大数据的网页目标数据自动提取系统，包括输入模块、数据采集模块、预处理模块、深度处理模块、传输模块、数据对比模块和存储模块，输入模块的输出端与数据采集模块的输入端连接，输入要提取数据的相关信息，便于收集，数据采集模块的输出端与预处理模块的输入端连接，预处理模块对数据采集模块收集的信息进行一次加工和价值提取，减少垃圾信息，预处理模块的输出端分别与深度处理模块的输出端和传输模块的输出端连接，深度处理模块用于对预处理完成的网页数据信息进行二次加工和价值提取，深度处理模块的输出端与传输模块的输入端连接，传输模块的输出端与数据对比模块的输入端连接，数据对比模块的输出端与存储模块的输入端连接，存储模块便于保存收集的信息，便于下次使用。
20.实施例二；请参阅图1
‑
2，还包括监控模块，监控模块的输出端与数据采集模块的输入端连接，监控模块用于实时监测数据采集过程中的网络环境，避免在进行数据采集的过程中浏览或进入不法网站，影响数据采集的效率，避免进入含有病毒的网站，造成系统卡顿甚至死机，保证网页数据收集的流畅度，且防止进入不法网站造成信息泄露。
21.实施例三；请参阅图1
‑
2，输入模块用于输入目标数据或目标数据相关特征和目标数据的限制性因素，以此进行索引，增加收集信息的目标性，便于缩小收集范围，从而提高收集效率，数据采集模块用于根据目标数据或目标数据相关特征和目标数据的限制性因素进行网页数据信息的收集和提取，数据采集模块包括通用爬虫、聚焦爬虫、增量爬虫和深层爬虫，通用爬虫用于收集并提取搜索引擎网页的数据信息，进行广泛收集，搜索引擎如（百度、搜狗、谷歌等），聚焦爬虫用于收集并提取特定领域或主题的网页数据信息，增量爬虫用于收集并提取新产生或发生变化的网页数据信息，深层爬虫用于收集并提取需要登录才能访问下载的网页数据信息，便于从不同维度收集和提取网页数据信息，提高信息采集的全面性，通用
爬虫、聚焦爬虫、增量爬虫和深层爬虫相互独立运行，通用爬虫、聚焦爬虫、增量爬虫和深层爬虫收集的网页数据信息均发送到预处理模块，便于对收集完成的信息进行处理。
22.实施例四；请参阅图1
‑
2，预处理模块用于对数据采集模块收集和提取的网页数据信息进行加工和价值提取，减少收集信息里的无用数据，深度处理模块用于对预处理模块处理的网页数据信息进行深度处理，增加处理效果，深度减少垃圾信息，传输模块用于对预处理和深度处理完成的网页网络信息进行传输，设置传输模块提高信息传递的效率，数据对比模块用于将预处理模块和深度处理模块处理完成的网页数据信息与输入目标数据或目标数据相关特征和目标数据的限制性因素进行对比，并保留与输入目标数据或目标数据相关特征和目标数据的限制性因素相近的网络数据，便于锁定目标网页数据，存储模块用于对输入目标数据或目标数据相关特征和目标数据的限制性因素相近的网页数据信息进行保存，便于下次使用。
23.工作原理：在使用时，将输入目标数据或目标数据相关特征和目标数据的限制性因素输入到输入模块，数据采集模块根据输入目标数据或目标数据相关特征和目标数据的限制性因素进行网页数据的收集和提取，数据采集模块包括通用爬虫、聚焦爬虫、增量爬虫和深层爬虫，通用爬虫收集并提取搜索引擎网页的数据信息，搜索引擎如（百度、搜狗、谷歌等），聚焦爬虫收集并提取特定领域或主题的网页数据信息，增量爬虫收集并提取新产生或发生变化的网页数据信息，深层爬虫收集并提取需要登录才能访问下载的网页数据信息，从不同维度根据输入目标数据或目标数据相关特征和目标数据的限制性因素进行网页数据收集和提取，提高信息采集的全面性，数据采集模块采集完成后，预处理模块对数据采集模块采集的网页数据信息进行一次加工和价值提取，并将于预处理完成的网页数据信息由传输模块发送到数据对比模块，数据对比模块用于将预处理模块和深度处理模块处理完成的网页数据信息与输入目标数据或目标数据相关特征和目标数据的限制性因素进行对比，并保留与输入目标数据或目标数据相关特征和目标数据的限制性因素相近的网络数据，若预处理完成的网页数据信息达到客户预想的结果，最终由存储模块进行储存，若预处理完成的网页数据信息未达到客户预想的结果，则将预处理完成的网页数据信息发送到深度处理模块，经深度处理模块对预处理完成的网页数据信息进行二次加工和价值提取，经深度处理模块处理的网页数据信息由传输模块发送到数据对比模块，最终由存储模块进行储存。
24.综上所述，该装置结构简单，设计新颖，便于实时监测收集数据过程中的网络环境，避免在进行网页数据信息收集的过程中，进入不法网站，影响信息收集的效率，且防止收集的信息泄露，由预处理模块和深度处理模块，对网页数据信息进行不同程度加工和价值提取，便于根据不同的客户要求和信息量进行网页数据加工，从而提高工作效率，便于从不同维度收集和提取网页数据信息，提高信息采集的全面性，适合广泛推广。
25.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备
所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
26.尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尹娜
技术所有人：安徽壹零贰肆加科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。