一种基于互联网的数据提取方法与流程

文档序号：12666094阅读：858来源：国知局

本发明涉及一种信息处理方法，特别涉及一种基于互联网的数据提取方法。

背景技术：

当前是信息化时代，互联网上的数据在呈爆炸式的速度增长，一个搜索引警不可能覆盖所有的数据，但各大搜索引警的数据重复性很高，如何从而互联网中提取全面且准确的数据是一个难题。

技术实现要素：

本发明要解决的技术问题是：提供一种准确性高的基于互联网的数据提取方法。

为了解决上述技术问题，本发明包括如下步骤：(1)设置关键词；(2)选择搜索引擎；(3)在各搜索引擎检索设置的关键词，获取检索数据，建立第一数据库；(4)建立重复数据处理模块，利用该模块比较第一数据库的数据，选取第一数据库中第一条数据，将第一条数据与第一数据库中其它数据相比较，删除与第一条数据相同的数据，依该方法遍历第一数据库中所有数据；获得第二数据库；(5)建立数据分类模块，将第二数据库的数据分成多个小类，每个小类数据建立一个第三数据库。

为了使用方便，所述的步骤(5)第二数库的分类是依据数据在互联网上公开的时间分类。

为了使用方便，所述的步骤(5)第二数库的分类是依据数据在与关键词的关联程度分类。

本发明的有益效果是：本发明利用多个搜索引警检索，检索后通过重复数据处理模块和数据分类模块处理，所提取的数据能够准确的贴近关键词，数据即全面又不会重复。

附图说明

图1是本发明的流程图；

具体实施方式

如图1所示的基于互联网的数据提取方法，包括如下步骤：(1)设置关键词，可以根据需要设置，如挖掘机等；(2)选择搜索引擎；(3)在各搜索引擎检索设置的关键词，获取检索数据，建立第一数据库；(4)建立重复数据处理模块，利用该模块比较第一数据库的数据，选取第一数据库中第一条数据，将第一条数据与第一数据库中其它数据相比较，删除与第一条数据相同的数据，依该方法遍历第一数据库中所有数据；获得第二数据库；(5)建立数据分类模块，将第二数据库的数据分成多个小类，每个小类数据建立一个第三数据库。所述的步骤(5)第二数库的分类可以是依据数据在互联网上公开的时间分类。步骤(5)第二数库的分类也可以是依据数据在与关键词的关联程度分类。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林慧吉
技术所有人：上海沃月信息科技有限公司
我是此专利的发明人

上一篇：一种治疗痤疮的药酒的制作方法与工艺
上一篇：一种碰碰球背负肩带的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。