一种Web结构化数据快速提取方法及系统与流程

文档序号:18030451发布日期:2019-06-28 22:36阅读:来源:国知局

技术特征:

技术总结
本发明是一种Web结构化数据快速提取方法,步骤包括:层次遍历目标网站页面当中的网址链接,并以列表形式记录所有网站的网址和对应的网址跳转顺序;从上述列表中识别目标网页的网址,并记录对应的网址跳转顺序,按目标网站到目标网页访问的先后顺序进行网址拼接,生成访问目标网页的网址跳转顺序;根据贪心随机自适应搜索算法找出访问目标网页的最优网址跳转顺序;根据上述最优网址跳转顺序访问目标网页,层次遍历目标页面的所有数据项标签,找到所有目标数据项标签;从上述所有目标数据项标签中找出最短标签路径;根据上述最优网址跳转顺序和最短路径爬取目标网页的目标数据。本发明还提供一种Web结构化数据快速提取系统。

技术研发人员:刘芳作;陈薇;王腾蛟;李强;邱镇;崔迎宝
受保护的技术使用者:北京大学;国网信息通信产业集团有限公司;国家电网有限公司;国网浙江省电力有限公司
技术研发日:2019.01.10
技术公布日:2019.06.28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1