一种基于互联网的信息定向抓取方法及系统与流程

文档序号:14554896阅读:170来源:国知局
一种基于互联网的信息定向抓取方法及系统与流程

本发明属于互联网技术领域,尤其涉及一种基于互联网的信息定向抓取方法及系统。



背景技术:

对目前互联网上的信息搜索的技术,常见的有网络爬行、分词引索、搜索等技术。这些网络搜索信息只是面对互联网海量信息的积累。当我们采用现有搜索技术查询某个特定的确切信息时,用一个关键词即可搜索出来成千上万的链接网页结果。而在这些成千上万的搜索结果中不一定有用户所期望和关注的准确信息,用户也不可能有更多的时间去逐个翻看现有搜索技术所呈现出来的成千上万个网页链接结果。

由此可知,现有的搜索技术和方法已经无法在海量信息中准确、及时、方便的搜索获取目标信息。因此,急需一种基于互联网的信息定向抓取方法定向抓取目标信息,满足用户信息查询需求。



技术实现要素:

本发明实施例提供一种基于互联网的信息定向抓取方法,旨在解决现有的搜索技术和方法已经无法在海量信息中准确、及时、方便的搜索获取目标信息的问题。

本发明实施例是这样实现的,一种基于互联网的信息定向抓取方法,所述方法包括如下步骤:

设置目标网站的抓取配置信息;

根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或pdf数据;

对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;

对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;

将数据库内存储的原始文本数据进行逐条发布。

优选地,所述对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据的步骤包括:

对原始文本数据中的图片信息进行编译转换,转换成主机服务器可识别的图片信息;

对原始文本数据中的文字信息进行编译转换,转换成主机服务器可识别的文字信息;以及

对原始文本数据中的音频信息进行编译转换,转换成主机服务器可识别的音频信息。

优选地,对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据之后,还包括:

对保留的原始文本数据进行冗余判断,删除数据信息相同的文本数据。

优选地,对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库之后,还包括:

对数据库内存储的原始文本数据进行分割,得到分割的原始文本数据集;并通过校验值哈希算法,针对当前原始文本数据集计算其哈希值,并在已备份原始文本数据集中查找是否有相同哈希值的目标原始文本数据集;若在已备份原始文本数据集中查找到有相同哈希值的目标原始文本数据集,则将所述目标原始文本数据集与当前原始文本数据集进行逐字节比较;根据比较结果进行当前原始文本数据集的备份。

优选地,所述文本数据包括新闻数据和公告数据,其中,所述新闻数据为单一文本数据;所述公告数据则需经下一轮编译提取出逐条关键词。

本发明实施例还提供一种基于互联网的信息定向抓取系统,包括:

设置模块,用于设置目标网站的抓取配置信息;

抓取模块,用于根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或pdf数据;

整合筛选模块,用于对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;

编译转换模块,用于对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;以及

发布模块,用于将数据库内存储的原始文本数据进行逐条发布。

优选地,所述编译转换模块,包括:

图片信息编译转换单元,用于对原始文本数据中的图片信息进行编译转换,转换成主机服务器可识别的图片信息;

文字信息编译转换单元,用于对原始文本数据中的文字信息进行编译转换,转换成主机服务器可识别的文字信息;以及

音频信息编译转换单元,用于对原始文本数据中的音频信息进行编译转换,转换成主机服务器可识别的音频信息。

优选地,还包括:冗余判断模块,用于对保留的原始文本数据进行冗余判断,删除数据信息相同的文本数据。

优选地,还包括:容灾备份模块,用于对数据库内存储的原始文本数据进行分割,得到分割的原始文本数据集;并通过校验值哈希算法,针对当前原始文本数据集计算其哈希值,并在已备份原始文本数据集中查找是否有相同哈希值的目标原始文本数据集;若在已备份原始文本数据集中查找到有相同哈希值的目标原始文本数据集,则将所述目标原始文本数据集与当前原始文本数据集进行逐字节比较;根据比较结果进行当前原始文本数据集的备份。

优选地,所述文本数据包括新闻数据和公告数据,其中,所述新闻数据为单一文本数据;所述公告数据则需经下一轮编译提取出逐条关键词。

本发明实施例提供的基于互联网的信息定向抓取方法及系统,首先设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或pdf数据;然后对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;最后将数据库内存储的原始文本数据进行逐条发布,能够在海量信息中准确、及时、方便的定向抓取目标信息,并将目标信息进行存储和逐条发布,满足用户信息查询需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

以下附图仅旨在于对本发明做示意性说明和解释,并不限定本发明的范围。

图1是本发明实施例提供的提供的一种基于互联网的信息定向抓取方法的实现流程;

图2是本发明实施例提供的另一种基于互联网的信息定向抓取方法的实现流程;

图3是本发明实施例提供的又一种基于互联网的信息定向抓取方法的实现流程;

图4是本发明实施例提供的一种基于互联网的信息定向抓取系统的结构示意图;

图5是本发明实施例提供的编译转换模块的结构示意图;

图6是本发明实施例提供的另一种基于互联网的信息定向抓取系统的结构示意图;

图7是本发明实施例提供的又一种基于互联网的信息定向抓取系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供的基于互联网的信息定向抓取方法及系统,首先设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或pdf数据;然后对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;最后将数据库内存储的原始文本数据进行逐条发布,能够在海量信息中准确、及时、方便的定向抓取目标信息,并将目标信息进行存储和逐条发布,满足用户信息查询需求。

图1示出了本发明实施例提供的提供的一种基于互联网的信息定向抓取方法的实现流程,详述如下:

在步骤s101中,设置目标网站的抓取配置信息。

在本实施例中,所述抓取配置信息中至少包含有用于记录抓取程序抓取的目标数据的格式信息,根据抓取配置信息中记录的目标数据的格式信息对网络资源进行抓取。

在步骤s012中,根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或pdf数据。

在本实施例中,根据所述抓取配置信息,获取在待抓取任务中包含的与待抓取任务对应的待抓取的目标网站内文本资源的格式信息,并将获取的待抓取的目标网站内文本资源的格式信息与配置的目标数据的格式信息一一进行比对,从而判断待抓取文本资源的格式信息是否与目标数据的格式信息匹配。进一步的,对待抓取文本资源的格式信息与目标数据的格式信息匹配的待抓取文本资源内的文本数据进行抓取。

在实际应用当中,既可以将需要抓取的数据格式作为目标数据格式,设置于配置信息当中,也可以将不需要抓取的数据格式作为目标数据格式,设置于配置信息当中。从而通过配置信息,控制抓取程序是否对待抓取文本资源进行抓取,将待抓取任务中包含的待抓取资源的格式信息,与预先设置的配置信息中的目标数据的格式信息进行比对,从而判断是否对待抓取文本资源内的文本数据进行抓取。达到了根据数据格式对抓取的文本数据内容进行筛选的目的,从而实现了提升服务器网络资源利用率的技术效果,进而解决了由于抓取程序无法对抓取到的数据的类型进行筛选,造成的用于部署抓取程序的服务器资源浪费的技术问题。

在步骤s103中,对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据。

在本实施例中,所述对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据的步骤,包括:对所述待抓取任务对应的文本资源进行第一解析整合,确定待抓取任务中所包含的全部资源内容和与资源内容对应的资源链接。进一步,利用通过第一解析整合确定的与待抓取资源对应的资源链接,通过第二解析整合,确定与待爬取资源对应的数据格式,再根据待抓取任务中包含的与抓取配置信息记载的目标数据的格式信息不匹配的待抓取资源进行筛选,剔除不匹配的第一文本数据,保留并抓取匹配的第二文本数据,并将抓取的第二文本数据作为原始文本数据;或者所述对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据的步骤为:对所述抓取的文本资源内的文本数据进行第一解析整合,确定抓取的文本数据中所包含的全部资源内容。再通过第二解析整合,将抓取的全部资源内容与抓取配置信息记录的目标数据的格式信息进行匹配筛选,剔除不匹配的第一文本数据,保留匹配的第二文本数据,并将保留的第二文本数据作为原始文本数据。

在实际应用当中,通常资源链接中会包含资源内容的存储路径以及资源内容的名称。在资源内容的名称中包含有资源内容的资源数据格式,并且在名称中的名称信息和资源数据格式之间,以点做区分。具体的,可以通过对资源链接中所包含的字符,从后向前的顺序依次对字符进行识别,当识别到第一个“点”符号的字符时,获取“点”符号后面的字符,即资源内容的资源数据格式。将根据待抓取任务中包含的与抓取配置信息记录的目标数据格式不匹配的待抓取资源进行筛选,从而得到需要进行抓取的待抓取资源。

在步骤s104中,对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库。

在本实施例中,所述对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据的步骤包括:对原始文本数据中的图片信息进行编译转换,转换成主机服务器可识别的图片信息;对原始文本数据中的文字信息进行编译转换,转换成主机服务器可识别的文字信息;以及对原始文本数据中的音频信息进行编译转换,转换成主机服务器可识别的音频信息。

在步骤s105中,将数据库内存储的原始文本数据进行逐条发布。

本发明实施例提供的基于互联网的信息定向抓取方法及系统,首先设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或pdf数据;然后对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;最后将数据库内存储的原始文本数据进行逐条发布,能够在海量信息中准确、及时、方便的定向抓取目标信息,并将目标信息进行存储和逐条发布,满足用户信息查询需求。

图2示出了本发明实施例提供的另一种基于互联网的信息定向抓取方法的实现流程,详述如下:

在步骤s103之后,还包括如下步骤:

在步骤s201中,对保留的原始文本数据进行冗余判断,删除数据信息相同的文本数据,能够在原始文本数据中快速查找到冗余数据,并且对于可能出现的相似文件,能有效的降低数据匹配的粒度,可以尽可能的找到相似文件中的冗余数据块。

图3示出了本发明实施例提供的又一种基于互联网的信息定向抓取方法的实现流程,详述如下:

在步骤s104之后,还包括如下步骤:

在步骤s310中,对数据库内存储的原始文本数据进行分割,得到分割的原始文本数据集;并通过校验值哈希算法,针对当前原始文本数据集计算其哈希值,并在已备份原始文本数据集中查找是否有相同哈希值的目标原始文本数据集;若在已备份原始文本数据集中查找到有相同哈希值的目标原始文本数据集,则将所述目标原始文本数据集与当前原始文本数据集进行逐字节比较;根据比较结果进行当前原始文本数据集的备份,可以实现数据复制及备份的流程化和自动化,并能够在低成本条件下实现容灾备份。

图4示出了本发明实施例提供的一种基于互联网的信息定向抓取系统的结构示意图,为了便于说明,仅示出于本发明相关的部分。

在本发明实施例中,所述系统100包括:

设置模块110,用于设置目标网站的抓取配置信息。

在本实施例中,所述抓取配置信息中至少包含有用于记录抓取程序抓取的目标数据的格式信息,根据抓取配置信息中记录的目标数据的格式信息对网络资源进行抓取。

抓取模块120,用于根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或pdf数据。

在本实施例中,所述抓取模块120,具体用于根据所述抓取配置信息,获取在待抓取任务中包含的与待抓取任务对应的待抓取的目标网站内文本资源的格式信息,并将获取的待抓取的目标网站内文本资源的格式信息与配置的目标数据的格式信息一一进行比对,从而判断待抓取文本资源的格式信息是否与目标数据的格式信息匹配。进一步的,对待抓取文本资源的格式信息与目标数据的格式信息匹配的待抓取文本资源内的文本数据进行抓取。

在实际应用当中,既可以将需要抓取的数据格式作为目标数据格式,设置于配置信息当中,也可以将不需要抓取的数据格式作为目标数据格式,设置于配置信息当中。从而通过配置信息,控制抓取程序是否对待抓取文本资源进行抓取,将待抓取任务中包含的待抓取资源的格式信息,与预先设置的配置信息中的目标数据的格式信息进行比对,从而判断是否对待抓取文本资源内的文本数据进行抓取。达到了根据数据格式对抓取的文本数据内容进行筛选的目的,从而实现了提升服务器网络资源利用率的技术效果,进而解决了由于抓取程序无法对抓取到的数据的类型进行筛选,造成的用于部署抓取程序的服务器资源浪费的技术问题。

整合筛选模块130,用于对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据。

在本发明实施例中,所述整合筛选模块130,具体用于对所述待抓取任务对应的文本资源进行第一解析整合,确定待抓取任务中所包含的全部资源内容和与资源内容对应的资源链接。进一步,利用通过第一解析整合确定的与待抓取资源对应的资源链接,通过第二解析整合,确定与待爬取资源对应的数据格式,再根据待抓取任务中包含的与抓取配置信息记载的目标数据的格式信息不匹配的待抓取资源进行筛选,剔除不匹配的第一文本数据,保留并抓取匹配的第二文本数据,并将抓取的第二文本数据作为原始文本数据;或者对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据的步骤为:对所述抓取的文本资源内的文本数据进行第一解析整合,确定抓取的文本数据中所包含的全部资源内容。再通过第二解析整合,将抓取的全部资源内容与抓取配置信息记录的目标数据的格式信息进行匹配筛选,剔除不匹配的第一文本数据,保留匹配的第二文本数据,并将保留的第二文本数据作为原始文本数据。

在实际应用当中,通常资源链接中会包含资源内容的存储路径以及资源内容的名称。在资源内容的名称中包含有资源内容的资源数据格式,并且在名称中的名称信息和资源数据格式之间,以点做区分。具体的,可以通过对资源链接中所包含的字符,从后向前的顺序依次对字符进行识别,当识别到第一个“点”符号的字符时,获取“点”符号后面的字符,即资源内容的资源数据格式。将根据待抓取任务中包含的与抓取配置信息记录的目标数据格式不匹配的待抓取资源进行筛选,从而得到需要进行抓取的待抓取资源。

编译转换模块140,用于对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库。

在本实施例中,如图5所示,所述编译转换模块140,包括:

图片信息编译转换单元141,用于对原始文本数据中的图片信息进行编译转换,转换成主机服务器可识别的图片信息;

文字信息编译转换单元142,用于对原始文本数据中的文字信息进行编译转换,转换成主机服务器可识别的文字信息;以及

音频信息编译转换单元143,用于对原始文本数据中的音频信息进行编译转换,转换成主机服务器可识别的音频信息。

发布模块150,用于将数据库内存储的原始文本数据进行逐条发布。

作为本发明的一个优选实施例,如图6所示,所述系统100,还包括:冗余判断模块160,用于对保留的原始文本数据进行冗余判断,删除数据信息相同的文本数据。

在本实施例中,冗余判断模块160可对数据库内存储的原始文本数据进行冗余判断,删除数据信息相同的文本数据,能够在原始文本数据中快速查找到冗余数据,并且对于可能出现的相似文件,能有效的降低数据匹配的粒度,可以尽可能的找到相似文件中的冗余数据块。

作为本发明实施例的玲一个优选实施例,如图7所示,所述系统100,还包括:容灾备份模块170,用于对数据库内存储的原始文本数据进行分割,得到分割的原始文本数据集;并通过校验值哈希算法,针对当前原始文本数据集计算其哈希值,并在已备份原始文本数据集中查找是否有相同哈希值的目标原始文本数据集;若在已备份原始文本数据集中查找到有相同哈希值的目标原始文本数据集,则将所述目标原始文本数据集与当前原始文本数据集进行逐字节比较;根据比较结果进行当前原始文本数据集的备份,可以实现数据复制及备份的流程化和自动化,并能够在低成本条件下实现容灾备份。

在本发明实施例中,所述文本数据包括新闻数据和公告数据,其中,所述新闻数据为单一文本数据;所述公告数据则需经下一轮编译提取出逐条关键词。

上述发明实施例提供的基于互联网的信息定向抓取方法及系统,首先设置目标网站的抓取配置信息;根据所述抓取配置信息,从目标网站内抓取文本数据;所述文本数据包括文档数据、word数据、excell数据和/或pdf数据;然后对抓取的文本数据进行整合和筛选,剔除无用的第一文本数据,保留具有用途的第二文本数据,并将保留的第二文本数据作为原始文本数据;对原始文本数据进行编译转换,转换成主机服务器可识别的原始文本数据,并将编译转换后的原始文本数据存储至数据库;最后将数据库内存储的原始文本数据进行逐条发布,能够在海量信息中准确、及时、方便的定向抓取目标信息,并将目标信息进行存储和逐条发布,满足用户信息查询需求。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1