一种网络数据源探测方法

文档序号:6620880阅读:647来源:国知局
一种网络数据源探测方法
【专利摘要】本发明提出了一种网络数据源探测方法,解决了互联网数据价值密度低,包含信息纷繁复杂,从而难以有效利用的问题,其包括:S1、设置行业信息网络探针,并根据预制行业本体自动探测网络数据,确定备选网站;S2、验证备选网站的数据信息,筛选网络数据源;S3、制定采集策略,对网络数据源进行定制站点采集。行业信息网络探针可挖掘深度网络,分析潜在数据源。行业信息网络探针挖掘深度网络采用启发式递进扫描的方法,包括:S11、对同一网站进行持续探测,并自动填充表单;S12、测试返回数据,确认表单格式并提交;S13、根据提交表单建立DOM树,并抽取DOM树中节点内容不同的节点进行数据采集;S14、通知管理员配置数据格式,设置深度网站的采集模式。
【专利说明】一种网络数据源探测方法

【技术领域】
[0001]本发明涉及网络数据探测【技术领域】,尤其涉及一种网络数据源探测方法。

【背景技术】
[0002]随着信息化程度不断加深,企业对“大数据”分析服务的渴求也日益强烈;互联网持续增长信息资源蕴含了巨量的具有商业价值的信息,成为重要的商业智能服务信息源头。但是,作为大数据的主要载体的互联网,由于数据量庞大、获取难度大、单位价值相对低、几乎全是文本等非结构数据等难点,其价值并没有被业界充分开发和利用。
[0003]随着互联网的发展,个人和企业获得的信息越来越多,但互联网数据价值密度相对较低,面对如此纷繁复杂的信息,如果没有有效的源头探测、质量判断机制,用户往往无法从中提取出真正有效的信息,无法实现有效利用。


【发明内容】

[0004]基于【背景技术】存在的问题,本发明提出了一种网络数据源探测方法,解决了互联网数据价值密度低,包含信息纷繁复杂,从而难以有效利用的问题。
[0005]本发明提出的一种网络数据源探测方法,采用网络探针自动发现的方法探测网络数据,包括:
[0006]S1、设置行业信息网络探针,并根据预制行业本体自动探测网络数据,确定备选网站;
[0007]S2、验证备选网站的数据信息,筛选目标网络数据源;
[0008]S3、制定采集策略,对目标网络数据源进行定制站点采集。
[0009]优选地,步骤SI中,行业信息网络探针通过URL链路和/或搜索引擎跳板寻找备选网站。
[0010]优选地,步骤SI中,行业信息网络探针可挖掘深度网络,分析潜在数据源。
[0011]优选地,行业信息网络探针挖掘深度网络采用启发式递进扫描的方法,包括:
[0012]SI 1、对同一网站进行持续探测,并自动填充表单;
[0013]S12、测试返回数据,确认表单格式并提交;
[0014]S13、根据提交表单建立DOM树,并抽取DOM树中节点内容不同的节点进行数据采集;
[0015]S14、通知管理员配置数据格式,设置深度网站的采集模式。
[0016]优选地,步骤S2中,根据网站域名、目录及URL结构分析,结合文本分类和行业词汇分布密度判定网站或网站目录下的数据是否为行业数据,并判定其行业信息密度,从而综合评定该数据源的价值,筛选目标网络数据源。
[0017]优选地,步骤S3中,对每一个目标网络数据源设置可信度权值,根据可信度权值及目标网络数据源的价值制定采集策略。
[0018]优选地,其特征在于,网络数据源包括网站、新闻、博客和论坛。
[0019]本发明根据行业本体探测网络数据,缩小了探测范围,提高了数据探测效率,通过对备选网站数据的验证和筛选,可涵盖目标信息密度高的、权威的、有质量保证的站点,进行有针对性的网络数据采集,提取真正有效的信息。本发明解决了企业基于网络的大数据分析提取问题,实现了对互联网数据的有效利用。

【专利附图】

【附图说明】
[0020]图1为本发明提出的一种网络数据源探测方法的流程图。

【具体实施方式】
[0021]如图1所示,图1为本发明提出的一种
[0022]参照图1,本发明提出的一种网络数据源探测方法,采用网络探针自动发现的方法探测网络数据,包括以下步骤:
[0023]S1、设置行业信息网络探针,并根据预制行业本体自动探测网络数据,确定备选网站;
[0024]S2、验证备选网站的数据信息,筛选目标网络数据源;
[0025]S3、制定采集策略,对目标网络数据源进行定制站点采集。
[0026]步骤SI中,行业信息网络探针通过URL (Uniform Resoure Locator,统一资源定位器)链路和/或搜索引擎跳板寻找备选网站,且行业信息网络探针可挖掘深度网络,分析潜在数据源。
[0027]行业信息网络探针挖掘深度网络采用启发式递进扫描的方法,包括以下步骤:
[0028]S11、对同一网站进行持续探测,并自动填充表单;
[0029]S12、测试返回数据,确认表单格式并提交;
[0030]S13、根据提交表单建立DOM树(Document Object Model,文档对象模型),并抽取DOM树中节点内容不同的节点进行数据采集;
[0031]S14、通知管理员配置数据格式,设置深度网站的采集模式。
[0032]步骤SI中,根据行业本体探测网络数据,缩小了探测范围,提高了数据探测效率。并且只有当被探测的网络数据符合要求时,才会进行深度网络挖掘,既不会遗漏重要数据,又不会浪费时间做无用功。这种策略在没有损失行业数据收录量的情况下,极大地节约带宽和数据检索量,并提高了数据入库周期,提高实时度。
[0033]步骤S2中,根据网站域名、目录及URL结构分析,结合文本分类和行业词汇分布密度判定网站或网站目录下的数据是否为行业数据,并判定其行业信息密度,从而综合评定该数据源的价值,筛选目标网络数据源,放弃价值低的网络数据源,进一步缩小可用数据源的范围,提高信息抽取效率。
[0034]步骤S3中,对每一个目标网络数据源设置可信度权值,根据可信度权值及目标网络数据源的价值制定采集策略。
[0035]综合步骤S2、S3,可涵盖目标信息密度高的、权威的、有质量保证的站点,对较为稀疏的数据源评级,并统一制定采集策略,使用户确定信息价值,节约提取时间。
[0036]以上实施方式中的网络数据源包括网站、新闻、博客和论坛等。
[0037]本网络数据源探测方法经过验证,24小时内可完成一个特定行业(如电缆行业)主要网络数据源侦测。并在确保不引起目标网站反感的采集频率前提下,25分钟可判别一个中型网站的目标信息密度较高的板块及入口、行业属性、数据原创性、数据源层面可信度等,并自动制定爬虫采集策略。
[0038]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
【权利要求】
1.一种网络数据源探测方法,其特征在于,采用网络探针自动发现的方法探测网络数据,包括: 51、设置行业信息网络探针,并根据预制行业本体自动探测网络数据,确定备选网站; 52、验证备选网站的数据信息,筛选目标网络数据源; 53、制定采集策略,对目标网络数据源进行定制站点采集。
2.如权利要求1所述的网络数据源探测方法,其特征在于,步骤SI中,行业信息网络探针通过URL链路和/或搜索引擎跳板寻找备选网站。
3.如权利要求1所述的网络数据源探测方法,其特征在于,步骤SI中,行业信息网络探针可挖掘深度网络,分析潜在数据源。
4.如权利要求3所述的网络数据源探测方法,其特征在于,行业信息网络探针挖掘深度网络采用启发式递进扫描的方法,包括: 511、对同一网站进行持续探测,并自动填充表单; 512、测试返回数据,确认表单格式并提交; 513、根据提交表单建立DOM树,并抽取DOM树中节点内容不同的节点进行数据采集; 514、通知管理员配置数据格式,设置深度网站的采集模式。
5.如权利要求1所述的网络数据源探测方法,其特征在于,步骤S2中,根据网站域名、目录及URL结构分析,结合文本分类和行业词汇分布密度判定网站或网站目录下的数据是否为行业数据,并判定其行业信息密度,从而综合评定该数据源的价值,筛选目标网络数据源。
6.如权利要求1所述的网络数据源探测方法,其特征在于,步骤S3中,对每一个目标网络数据源设置可信度权值,根据可信度权值及目标网络数据源的价值制定采集策略。
7.如权利要求1至6任一项所述的网络数据源探测方法,其特征在于,网络数据源包括网站、新闻、博客和论坛。
【文档编号】G06F17/30GK104182467SQ201410348451
【公开日】2014年12月3日 申请日期:2014年7月21日 优先权日:2014年7月21日
【发明者】贾岩 申请人:安徽华贞信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1