一种动态收集并聚合网页信息的方法

文档序号：10725109阅读：156来源：国知局

一种动态收集并聚合网页信息的方法
【专利摘要】本发明公开了一种动态收集并聚合网页信息的方法，涉及信息技术领域。所述方法：判断用户选择网页网址信息收藏还是目标信息的收藏，如果是前者，则直接进入网页网址信息收藏；如果是后者，则解析浏览器上目标页面得到所述目标页面上的全部信息，并将所述全部信息展示给用户；获取用户针对所述全部信息所选中目标信息，将所述目标信息形成预览界面展示给用户；在获取用户确认存储所述预览界面中的目标信息的指令后，将所有目标信息聚合存储到浏览器中。本发明不仅仅支持网页网址信息收藏，还同时支持收藏目标信息源，并且支持目标信息源以一种统一的格式聚合在一个界面内聚合浏览。
【专利说明】
一种动态收集并聚合网页信息的方法
技术领域
[0001]本发明涉及信息技术领域，尤其涉及一种动态收集并聚合网页信息的方法。
【背景技术】
[0002]在信息化飞速发展的今天，网络上存在着多种信息源。而用户在网页上检索到目标信息源时，一般是直接使用浏览器上存在的收藏夹功能，将目标信息源所在网页收到起来，这样做存在的弊端为:
[0003]1、若该网页由于某种原因失效，则在后期打开该网页时，出现打开失败导致失去目标信息源；
[0004]2、在智能设备未连入网络的情况下，无法打开收藏的网页，导致查看不到目标信息源，现有浏览器上的收藏夹在使用上存在局限性。

【发明内容】

[0005]本发明的目的在于提供一种动态收集并聚合网页信息的方法，从而解决现有技术中存在的前述问题。
[0006]为了实现上述目的，本发明所述动态收集并聚合网页信息的方法，所述方法包括:
[0007]SI，判断用户选择网页网址信息收藏还是目标信息的收藏，如果是前者，则直接进入网页网址信息收藏；如果是后者，则解析浏览器上目标页面得到所述目标页面上的全部信息，并将所述全部信息展示给用户；
[0008]S2，获取用户针对所述全部信息所选中目标信息，将所述目标信息形成预览界面展示给用户；
[0009]S3，在获取用户确认存储所述预览界面中的目标信息的指令后，将所有目标信息聚合存储到浏览器中。
[0010]优选地，所述解析目标页面得到所述目标页面上的全部信息，具体按照下述步骤实现:打开目标网页后，浏览器通过网络http请求获得目标网页在服务器中所对应的数据资源，然后将接收到数据资源按照W3C标准解析html和CSS代码，得到一组DOM标签后，根据DOM树结构渲染目标页面内容，完成解析目标页面并获得所述目标页面上全部信息，包括文本信息和图像信息。
[0011]优选地，每条经用户预览并确认存储的目标信息数据，将以独立一条记录的方式存储到浏览器中，同时，在存储时可选择存储位置;全部目标信息数据的存储按照文件夹多级结构聚合。
[0012]优选地，所述目标信息包括:网页标题、网页网址、网页正文内容、截屏获得网页截图、网页内鼠标所选中的网页局部信息和跨屏幕截取整个网页而形成的一张图片信息。
[0013]更优选地，当所述目标信息为网页正文内容时，按照下述进行实现:获取目标页面上涉及到所述网页正文内容的所有信息，并将与所述网页正文内容无关的信息删除，然后将剩余的信息形成所述网页正文内容的预览界面;所述无关的信息包括网页的广告信息和头尾无效信息。
[0014]更优选地，获取网页正文信息按照下述步骤实现:遍历与网页正文内容涉及到的所有代码元素，并对每个元素进行评分，获得得分最高的元素M，检查元素M的兄弟元素的评分大于等于最高分数的20%，如果是，则保存元素M及其兄弟元素所对应的内容为网页正文内容;如果否，则放弃元素M及其兄弟元素所对应的内容；
[0015]所述评分是按照下述规则实现:
[0016]a、元素的名称中包括header标签和footer标签，该元素被扣分；
[0017]b、元素的class与id中value值为comment或nav或sider，该元素被扣分；
[0018]C、针对链接A标签的密度计算，如果局部标签A的密度较其外层标签的密度高，则其外层标签被扣分；
[0019]d、针对元素文本节点长度计算，如果文本标签的长度超过阈值，则该元素加分；
[0020]e、如果连续出现多个文本节点元素，则该元素外层标签会加分。
[0021]更优选地，当用户选择的目标信息为网页网址时，按照下述进行实现:
[0022]获取所述网页标题和网页网址的代码数据，并将所述代码数据形成预览界面。
[0023]更优选地，当用户选择的目标信息为截屏获得网页截图，按照下述方法获取:在被展示的目标页面上，开启截屏功能，待用户选定截屏区域后，直接将选定的截屏区域形成预览界面。
[0024]更优选地，当用户选择的目标信息为网页内鼠标所选中的网页局部信息时，按照下述方法获取:在被展示的目标页面上，给出光标选取提示信息待用户拖动光标选择所需网页内容，完成后直接将所述网页内容直接形成预览界面；
[0025]更优选地，当用户选择的目标信息为跨屏幕截取整个网页而形成的一张图片信息，按照下述方法获取:直接获取展示在浏览器上的目标界面的全屏截图，并将所述全屏截图形成预览界面。
[0026]与现有技术的区别在于，本发明不仅仅支持网页网址信息收藏，同时，支持网页正文内容、截屏获得网页截图、网页内鼠标选中的网页局部信息、跨屏幕截取整个网页为一张图片信息，并且支持这些多种信息以一种统一的格式聚合在一个界面内聚合浏览。其中，抓取网页正文内容技术，将通过解析、识别网页内的广告信息和头尾无效信息，抓取其中的正文信息，将抓取结果预览、收集存储进入个人独立的信息聚合浏览器内。
[0027]本发明的有益效果是:
[0028]本发明不仅仅支持网页网址信息收藏，还同时支持收藏目标信息源，如:网页正文内容、截屏获得网页截图、网页内鼠标选中的网页局部信息、跨屏幕截取整个网页为一张图片信息，并且支持这些目标信息源以一种统一的格式聚合在一个界面内聚合浏览。
【附图说明】
[0029]图1是所述动态收集并聚合网页信息的方法流程示意图。
【具体实施方式】
[0030]为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的【具体实施方式】仅仅用以解释本发明，并不用于限定本发明。
[0031 ] 实施例
[0032]本实施例所述动态收集并聚合网页信息的方法，所述方法包括:
[0033]SI，判断用户选择网页网址信息收藏还是目标信息的收藏，如果是前者，则直接进入网页网址信息收藏；如果是后者，则解析浏览器上目标页面得到所述目标页面上的全部信息，并将所述全部信息展示给用户；
[0034]S2，获取用户针对所述全部信息所选中目标信息，将所述目标信息形成预览界面展示给用户；
[0035]S3，在获取用户确认存储所述预览界面中的目标信息的指令后，将所有目标信息聚合存储到浏览器中，用户可直接在该浏览器内查看已存储的各类网页信息并整理。
[0036]更详细的解释说明为:
[0037](—)所述解析目标页面得到所述目标页面上的全部信息，具体按照下述步骤实现:
[0038]打开目标网页后，浏览器通过网络http请求获得目标网页在服务器中所对应的数据资源，然后将接收到数据资源按照W3C标准解析html和CSS代码，得到一组DOM标签后，根据DOM树结构渲染目标页面内容，完成解析目标页面并获得所述目标页面上全部信息，包括文本信息和图像信息。
[0039](二)每条经用户预览并确认存储的目标信息数据，将以独立一条记录的方式存储到浏览器中，同时，在存储时可选择存储位置;全部目标信息数据的存储按照文件夹多级结构聚合。
[0040](三)所述目标信息包括:网页标题、网页网址、网页正文内容、截屏获得网页截图、网页内鼠标所选中的网页局部信息和跨屏幕截取整个网页而形成的一张图片信息。
[0041 ] I)当所述目标信息为网页正文内容时，按照下述进行实现:
[0042]获取目标页面上涉及到所述网页正文内容的所有信息，并将与所述网页正文内容无关的信息删除，然后将剩余的信息形成所述网页正文内容的预览界面；
[0043]所述无关的信息包括网页的广告信息和头尾无效信息。更具体的为:网站头部广告图片、网站目录、站内导航等信息，如标签〈headerXfooter〉内的信息。
[0044]获取网页正文信息按照下述步骤实现:
[0045]遍历与网页正文内容涉及到的所有代码元素，并对每个元素进行评分，获得得分最高的元素M，检查元素M的兄弟元素的评分大于等于最高分数的20%，如果是，则保存元素M及其兄弟元素所对应的内容为网页正文内容;如果否，则放弃元素M及其兄弟元素所对应的内容；
[0046]所述评分是按照下述规则实现:
[0047]a、元素的名称中包括header标签和footer标签，该元素被扣分；
[0048]b、元素的class与id中value值为comment或nav或sider，该元素被扣分；
[0049]C、针对链接A标签的密度计算，如果局部标签A的密度较其外层标签的密度高，则其外层标签被扣分；
[0050]d、针对元素文本节点长度计算，如果文本标签的长度超过阈值，则该元素加分；
[0051]e、如果连续出现多个文本节点元素，则该元素外层标签会加分。
[0052]2)当用户选择的目标信息为网页网址时，按照下述进行实现:
[0053]获取所述网页标题和网页网址的代码数据，并将所述代码数据形成预览界面。
[0054]3)当用户选择的目标信息为截屏获得网页截图，按照下述方法获取:
[0055]在被展示的目标页面上，开启截屏功能，待用户选定截屏区域后，直接将选定的截屏区域形成预览界面。
[0056]4)当用户选择的目标信息为网页内鼠标所选中的网页局部信息时，按照下述方法获取:
[0057]在被展示的目标页面上，给出光标选取提示信息待用户拖动光标选择所需网页内容，完成后直接将所述网页内容直接形成预览界面；
[0058]5)当用户选择的目标信息为跨屏幕截取整个网页而形成的一张图片信息，按照下述方法获取:
[0059]直接获取展示在浏览器上的目标界面的全屏截图，并将所述全屏截图形成预览界面。
[0060]本发明可以帮助用户在浏览大量网络信息的同时更加方便、及时、有效的获取到对个人有帮助、有价值、或者最感有兴趣的信息内容，收集存储的同时提供用一个独立的信息聚合的浏览器，方便用户存储、整理个人的网络收藏库。如此方便的抓取网页各类信息的同时，将帮助用户不再错过、漏掉或者遗忘任何一个有价值的信息，并且有效的被查找、再次回顾浏览，建立起一个私人的网络知识库。特别是针对过去只支持收藏网址的收藏夹来讲，当各类网址被下线或者其中的图片信息被下线删除后，过去收集到的网址就成了死链或者信息不全的内容，而本发明将通过直接获取网页正文内容、截屏、鼠标选取内容、整个网页截屏的方式弥补这个问题，帮助用户永久的存储下来这些有宝贵的网络信息。在这个信息化时代，数据、信息可谓无价之宝。
[0061]由于大量用户收集到了网页的各类信息，已不再依赖网址提供服务的企业本身，那么针对各类资讯、商品导购等企业也不再需要为了保障历史网址可访问而占用过多的服务器存储这类很久远的网站信息，只需保留近期数据提供用户浏览即可，可以说，针对各类网站服务商将为此节省大量的服务器资源，节约大量存储成本、带宽成本。
[0062]通过采用本发明公开的上述技术方案，得到了如下有益的效果:本发明不仅仅支持网页网址信息收藏，还同时支持收藏目标信息源，如:网页正文内容、截屏获得网页截图、网页内鼠标选中的网页局部信息、跨屏幕截取整个网页为一张图片信息，并且支持这些目标信息源以一种统一的格式聚合在一个界面内聚合浏览。
[0063]以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。
【主权项】
1.一种动态收集并聚合网页信息的方法，其特征在于，所述方法包括: Si，判断用户选择网页网址信息收藏还是目标信息的收藏，如果是前者，则直接进入网页网址信息收藏;如果是后者，则解析浏览器上目标页面得到所述目标页面上的全部信息，并将所述全部信息展示给用户； S2，获取用户针对所述全部信息所选中目标信息，将所述目标信息形成预览界面展示给用户； S3，在获取用户确认存储所述预览界面中的目标信息的指令后，将所有目标信息聚合存储到浏览器中。2.根据权利要求1所述方法，其特征在于，所述解析目标页面得到所述目标页面上的全部信息，具体按照下述步骤实现: 打开目标网页后，浏览器通过网络http请求获得目标网页在服务器中所对应的数据资源，然后将接收到数据资源按照W3C标准解析html和CSS代码，得到一组DOM标签后，根据DOM树结构渲染目标页面内容，完成解析目标页面并获得所述目标页面上全部信息，包括文本ig息和图像ig息O3.根据权利要求1所述方法，其特征在于，每条经用户预览并确认存储的目标信息数据，将以独立一条记录的方式存储到浏览器中，同时，在存储时可选择存储位置;全部目标信息数据的存储按照文件夹多级结构聚合。4.根据权利要求1所述方法，其特征在于，所述目标信息包括:网页标题、网页网址、网页正文内容、截屏获得网页截图、网页内鼠标所选中的网页局部信息和跨屏幕截取整个网页而形成的一张图片信息。5.根据权利要求4所述方法，其特征在于，当所述目标信息为网页正文内容时，按照下述进行实现: 获取目标页面上涉及到所述网页正文内容的所有信息，并将与所述网页正文内容无关的信息删除，然后将剩余的信息形成所述网页正文内容的预览界面；所述无关的信息包括网页的广告信息和头尾无效信息。6.根据权利要求5所述方法，其特征在于，获取网页正文信息按照下述步骤实现: 遍历与网页正文内容涉及到的所有代码元素，并对每个元素进行评分，获得得分最高的元素M，检查元素M的兄弟元素的评分大于等于最高分数的20%，如果是，则保存元素M及其兄弟元素所对应的内容为网页正文内容;如果否，则放弃元素M及其兄弟元素所对应的内容；所述评分是按照下述规则实现: a、元素的名称中包括header标签和footer标签，该元素被扣分； b、元素的class与id中value值为co_ent或nav或sider，该元素被扣分； C、针对链接A标签的密度计算，如果局部标签A的密度较其外层标签的密度高，则其外层标签被扣分； d、针对元素文本节点长度计算，如果文本标签的长度超过阈值，则该元素加分； e、如果连续出现多个文本节点元素，则该元素外层标签会加分。7.根据权利要求4所述方法，其特征在于，当用户选择的目标信息为网页网址时，按照下述进行实现: 获取所述网页标题和网页网址的代码数据，并将所述代码数据形成预览界面。8.根据权利要求4所述方法，其特征在于，当用户选择的目标信息为截屏获得网页截图，按照下述方法获取: 在被展示的目标页面上，开启截屏功能，待用户选定截屏区域后，直接将选定的截屏区域形成预览界面。9.根据权利要求4所述方法，其特征在于，当用户选择的目标信息为网页内鼠标所选中的网页局部信息时，按照下述方法获取: 在被展示的目标页面上，给出光标选取提示信息待用户拖动光标选择所需网页内容，完成后直接将所述网页内容直接形成预览界面。10.根据权利要求4所述方法，其特征在于，当用户选择的目标信息为跨屏幕截取整个网页而形成的一张图片信息，按照下述方法获取: 直接获取展示在浏览器上的目标界面的全屏截图，并将所述全屏截图形成预览界面。
【文档编号】G06F17/30GK106095985SQ201610446944
【公开日】2016年11月9日
【申请日】2016年6月20日
【发明人】陈明杰
【申请人】网际傲游（北京）科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈明杰;
技术所有人：网际傲游（北京）科技有限公司;
我是此专利的发明人

上一篇：一种培训数据自动更新处理系统的制作方法
上一篇：一种获取结构化数据的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。