一种读取网页资源的方法、装置及电子设备的制造方法

文档序号:9911097阅读:325来源:国知局
一种读取网页资源的方法、装置及电子设备的制造方法
【技术领域】
[0001]本发明涉及计算机网络资源技术,尤其涉及一种读取网页资源的方法、装置及电子设备。
【背景技术】
[0002]随着计算机通信以及互联网技术,电子设备的应用越来越普遍,例如,智能移动电话、个人数字助理、掌上电脑以及台式机电脑得到了越来越广泛的应用,安装在电子设备中的各类应用程序(APP,AppliCat1n)以及浏览器控件也越来越多,用以满足用户对业务多样性的需求。其中,浏览器控件是电子设备中安装的浏览器不可或缺的网络工具,例如,基于Windows操作系统浏览器的页面浏览器控件(Web browser),基于安卓(Android)操作系统浏览器以及苹果的移动操作系统(1S)浏览器的网络视图控件(Webview)等,不同操作系统的浏览器控件实现的功能相类似,只是引擎以及具体实现上不同。其中,Webview作为Android操作系统中自带的加载、渲染、展示网页的基础组件,应用较为广泛。
[0003]Webview加载展示网页的简要流程如下:接收用户的网页加载请求,首先,通过网络从云端服务器获取网页加载请求对应的网络资源,缓存至本地存储器中,其中,网络资源采用代码编辑的方式,然后,解析缓存的网络资源,获取待加载网页元素,将获取的待加载网页元素渲染至待展示网页中并展示渲染的网页,直至所有的待加载网页元素在待展示网页中渲染完毕,得到用于用户浏览的网页。
[0004]随着用户对应用功能的多样化需求,用户在浏览网页的过程中,如果发现较好的网页资源,例如,图片资源、音频资源、视频资源以及动画资源等,期望抓取(读取)该类网页资源以便于进行后续处理,例如,进行编辑或存储该网页资源,可以通过点击该网页资源获取该网页资源的统一资源定位符信息,从而触发按照统一资源定位符信息从云端服务器下载。但该从当前已加载的网页中获取网页资源的方法,需要再次通过网络将需要抓取的网页资源下载并保存到本地存储器,从而导致资源的重复下载,不仅耗费了用户的网络流量,增加了用户抓取网页资源所需的时间,也降低了网络的资源利用效率。

【发明内容】

[0005]有鉴于此,本发明实施例提供一种读取网页资源的方法、装置及电子设备,降低用户抓取网页资源所需的时间,提升网络资源的利用效率。
[0006]为达到上述目的,本发明的实施例采用如下技术方案:
[0007]第一方面,本发明实施例提供一种读取网页资源的方法,应用于安卓操作系统6.X版本的网络视图控件,包括:
[0008]接收网页资源抓取请求,获取所述网页抓取请求对应的待抓取网页资源的加载状态;
[0009]如果所述待抓取网页资源的加载状态为加载完毕,获取所述待抓取网页资源的统一资源定位符信息;
[0010]依据构建当前网页的应用程序的包名,获取所述包名映射的资源缓存文件路径;
[0011]利用安全哈希算法对所述待抓取网页资源的统一资源定位符信息进行计算,得到所述待抓取网页资源的摘要字符串;
[0012]提取所述摘要字符串中预先设定位数的字符串,得到待编辑字符串,按照预先设置的转换策略对所述待编辑字符串进行转换,生成候选网页资源文件集;
[0013]遍历获取的所述资源缓存文件路径下的文件,获取与所述候选网页资源文件集中任一候选网页资源文件相匹配的文件,从相匹配的文件中,选取文件大小最大的文件,得到所述待抓取网页资源的统一资源定位符信息对应的网页资源文件,读取所述网页资源文件。
[0014]可选的,所述接收网页资源抓取请求,获取所述网页抓取请求对应的待抓取网页资源的加载状态包括:
[0015]在网络视图控件中注入预先设置的抓取监听事件;
[0016]在所述网络视图控件加载网页时,触发启动所述抓取监听事件以监听网页资源抓取请求;
[0017]在监听到网页资源抓取请求后,获取所述网页抓取请求对应的待抓取网页资源的加载状态。
[0018]可选的,所述待抓取网页资源的摘要字符串为十六进制的字符串,提取所述摘要字符串中预先设定位数的字符串,得到待编辑字符串,按照预先设置的转换策略对所述待编辑字符串进行转换,生成候选网页资源文件集包括:
[0019]提取十六进制的所述摘要字符串中的前十六位字符,得到字符串序列;
[0020]以两位字符为单位,对所述字符串序列进行划分;
[0021]按照从序尾至序首的顺序,依次提取进行单位划分的字符串序列中的单位字符串,生成逆序单位字符串;
[0022]分别在生成的逆序单位字符串后再拼接上预先设置的字符集,生成所述候选网页资源文件集。
[0023]可选的,所述待抓取网页资源的摘要字符串为二进制的字符串,提取所述摘要字符串中预先设定位数的字符串,得到待编辑字符串,按照预先设置的转换策略对所述待编辑字符串进行转换,生成候选网页资源文件集包括:
[0024]提取二进制的所述摘要字符串中的前六十四位字符,得到字符串序列;
[0025]以八位为单位,对所述字符串序列进行划分;
[0026]按照从序尾至序首的顺序,依次提取进行单位划分的字符串序列中的单位字符串,生成逆序单位字符串;
[0027]将所述逆序单位字符串转换为十六进制字符串序列;
[0028]分别在所述十六进制字符串序列后再拼接上预先设置的字符集,生成所述候选网页资源文件集。
[0029]可选的,在所述得到所述待抓取网页资源的摘要字符串之后,所述方法还包括:
[0030]判断所述待抓取网页资源的摘要字符串是否为十六进制,如果不是,将所述待抓取网页资源的摘要字符串转换为十六进制的字符串。
[0031 ] 可选的,所述资源缓存文件路径为:/data/data/a.b.c/cache/org.chromium.andr oid_webview,其中,a.b.c为所述包名。
[0032]可选的,所述网页资源包括:图片资源、音频资源、视频资源以及动画资源中的一种或其任意组合。
[0033]第二方面,本发明实施例提供一种读取网页资源的装置,应用于安卓操作系统6.X版本的网络视图控件,包括:网页资源状态获取模块、统一资源定位符信息获取模块、文件路径获取模块、哈希计算模块、候选文件集获取模块以及网页资源定位模块,其中,
[0034]网页资源状态获取模块,用于接收网页资源抓取请求,获取所述网页抓取请求对应的待抓取网页资源的加载状态;
[0035]统一资源定位符信息获取模块,如果所述待抓取网页资源的加载状态为加载完毕,获取所述待抓取网页资源的统一资源定位符信息;
[0036]文件路径获取模块,用于依据构建当前网页的应用程序的包名,获取所述包名映射的资源缓存文件路径;
[0037]哈希计算模块,用于利用安全哈希算法对所述待抓取网页资源的统一资源定位符信息进行计算,得到所述待抓取网页资源的摘要字符串;
[0038]候选文件集获取模块,用于提取所述摘要字符串中预先设定位数的字符串,得到待编辑字符串,按照预先设置的转换策略对所述待编辑字符串进行转换,生成候选网页资源文件集;
[0039]网页资源定位模块,用于遍历获取的所述资源缓存文件路径下的文件,获取与所述候选网页资源文件集中任一候选网页资源文件相匹配的文件,从相匹配的文件中,选取文件大小最大的文件,得到所述待抓取网页资源的统一资源定位符信息对应的网页资源文件,读取所述网页资源文件。
[0040]可选的,所述网页资源状态获取模块包括:注入单元、监听单元以及网页资源状态获取单元,其中,
[0041]注入单元,用于在网络视图控件中注入预先设置的抓取监听事件;
[0042]监听单元,用于在所述网络视图控件加载网页时,触发启动所述抓取监听事件以监听网页资源抓取请求;
[0043]网页资源状态获取单元,用于在监听到网页资源抓取请求后,获取所述网页抓取请求对应的待抓取网页资源的加载状态。
[0044]可选的,所述待抓取网页资源的摘要字符串为十六进制的字符串,所述候选文件集获取模块包括:第一提取单元、第一划分单元、第一逆序单元以及第一候选文件集生成单元,其中,
[0045]第一提取单元,用于提取十六进制的所述摘要字符串中的前十六位字符,得到字符串序列;
[0046]第一划分单元,用于以两位字符为单位,对所述字符串序列进行划分;
[0047]第一逆序单元,用于按照从序尾至序首的顺序,依次提取进行单位划分的字符串序列中的单位字符串,生成逆序单位字符串;
[0048]第一候选文件集生成单元,用于分别在生成的逆序单位字符串后再拼接上预先设置的字符集,生成所述候选网页资源文件集。
[0049]可选的,所述待抓取网页资源的摘要字符串为二进制的字符串,所述候选文件集获取模块包括:第二提取单元、第二划分单元、第二逆序单元、转换单元以及第二候选文件集生成单元,其中,
[0050]第二提取单元,用于提取二进制的所述摘要字符串中的前六十四位字符,得到字符串序列;
[0051]第二划分单元,用于以八位为单位,对所述字符串序列进行划分;
[0052]第二逆序单元,用于按照从序尾至序首的顺序,依次提取进行单位划分的字符串序列中的单位字符串,生成逆序单位字符串;
[0053]转换单元,用于将所述逆序单位字符串转换为十六进制字符串序列;
[0054]第二候选文件集生成单元,用于分别在所述十六进制字符串序列后再拼接上预先设置的字符集,生成所述候选网页资源文件集。
[0055]可选的,所述装置还包括:
[0056]进制转换模块,用于判断所述待抓取网页资源的摘要字符串是否为十六进制,如果不是,将所述待抓取网页资源的摘要字符串转换为十六进制的字符串。
[0057]可选的,所述资源缓存文件路径为:/data/data/a.b.c/cache/org.chromium.andr oid_webview,其中,a.b.c为所述包名。
[0058]可选的,所述网页资源包括:图片资源、音频资源、视
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1