一种保存网页中多个链接对象的系统及方法

文档序号:6573671阅读:161来源:国知局
专利名称:一种保存网页中多个链接对象的系统及方法
技术领域
本发明涉及网页下载技术领域,更具体地说,涉及一种保存网页中多个链接对象的系统及方法。
背景技术
目前用户在浏览网页时,主要通过网页浏览器,例如美国微软公司的因特网浏览器(Internet Explorer)。在浏览网页时,网页浏览器与万维网(WWW)服务器的数据交互采用超文本传输协议(HTTP)。WWW服务器向网络终端发送的网页数据包括超文本标记语言(HTML)等格式的文本文件以及相关媒体资源。终端网页浏览器在获取上述文件和资源后,进一步解析这些文件,并将其绘制到网页浏览器的窗口中,以供友好交互。
在用户浏览网页时,往往需要将某些网页中的链接对象保存到本地存储设备,供以后浏览或使用。但现有的网页浏览器每次只能保存一个链接对象,因此当用户试图保存页面中的多个链接对象时,需要对每个链接逐一操作。
目前某些软件,例如著名的离线浏览器(Offline Explorer),可以将网页及其所包含的多层链接全部抓取下载。这类软件在下载页面的同时,对其HTML等网页文件内容解析,从而获得页面链接的统一资源定位(URL)并下载。如果链接指向的又是HTML等格式的网页,那么软件可以按照用户要求的层数,继续嵌套迭代解析、下载,直到达到用户要求的层数深度。此类离线下载软件主要目的是完成网站内容的完整抓取和复制,从而便于用户在离线状态下直接浏览。虽然它也可用作下载网页上的批量链接,但是其只能下载全部链接,而不能针对性的下载需要的网页内容,必然造成不必要的网络带宽消耗和硬盘存储开销。
此外,现有的某些下载类软件,例如FlashGet、迅雷等,通过在网页浏览器中使用弹出式菜单,提供“下载全部链接”的功能,从而列出当前网页中包括的所有链接及其对应文本提示,用户可选择其中需要下载的连接,从而下载对应内容,实现批量下载。
上述下载软件在一定程度上实现了用户的批量定制下载,但这种方法存在局限性。将网页包含的所有的链接展现在新开启的对话框中,往往使用户定制下载内容不够直观。尤其在以下两种情况下,定制下载内容的操作比较繁琐(1)当网页中包含的链接数目很多时,弹出式对话框中显示的条目繁多。用户不仅需要遍历搜索每个链接,而且逐个选择链接时容易混淆、遗漏或者多选。
(2)当存在相同的文本而其代表的链接对象不同时(例如网页中包括多处“点击此处下载”字样,但对应的实际链接对象不同),用户将受到干扰,难以定制下载条目。

发明内容
本发明要解决的技术问题在于,针对上述的浏览网页时网页内容存储操作繁琐的问题,提供一种保存网页中多个链接对象的系统及方法。
本发明解决上述技术问题的技术方案是,提供一种保存网页中多个链接对象的系统,包括选取单元,用于在网页中选取待保存的多个链接;解析单元,用于解析所述网页的脚本,并获取所述选取的链接对应的统一资源定位;下载引擎,用于根据选定的统一资源定位下载链接对象。
在本发明所述的一种保存网页中多个链接对象的系统中,所述解析单元进一步包括定位子单元,所述选取单元进一步包括初选子单元、预览子单元和调整子单元,其中所述初选子单元,用于从浏览器显示的网页中通过鼠标拖动方式选取一个或多个链接;所述定位子单元,用于解析所述网页的脚本,并获取所述初选子单元选取的链接对象对应的统一资源定位;所述预览子单元,用于显示所述定位子单元获得的统一资源定位;所述调整子单元,用于调整并确认预览子单元中显示的统一资源定位,并将确认后的统一资源定位传送到下载引擎下载链接对象。
在本发明所述的一种保存网页中多个链接对象的系统中,所述解析单元进一步包括校验子单元,用于删除解析单元获取的统一资源定位中的重复项。
在本发明所述的一种保存网页中多个链接对象的系统中,还包括保存单元,用于将下载引擎下载的链接对象保存到指定位置。
在本发明所述的一种保存网页中多个链接对象的系统中,所述解析单元获取的统一资源定位是脚本片段中每一<a>标签中href属性内容。
本发明还提供一种保存网页中多个链接对象的方法,包括以下步骤(a)在网页中选取待保存的多个链接,并解析所述网页的脚本,获取所述选定的链接对应的统一资源定位;(b)根据所述选定的统一资源定位下载链接对象。
在本发明所述的一种保存网页中多个链接对象的方法中,所述步骤(a)进一步包括(a1)从浏览器显示的网页中以鼠标拖动方式选取一个或多个链接;(a2)解析所述网页获得选取链接对应的脚本片段,并从所述脚本片段中获取统一资源定位。
在本发明所述的一种保存网页中多个链接对象的方法中,所述步骤(a)进一步包括(a3)显示步骤(a2)获得的统一资源定位;(a4)调整并确认步骤(a3)显示的统一资源定位;(a5)将步骤(a4)中确认的统一资源定位传送到下载引擎。
在本发明所述的一种保存网页中多个链接对象的方法中,所述步骤(a2)中所述获取的统一资源定位是脚本片段中每一<a>标签中href属性内容。
在本发明所述的一种保存网页中多个链接对象的方法中,所述步骤(a)中进一步包括删除重复的统一资源定位。
本发明一种保存网页中多个链接对象的系统及方法,通过解析网页脚本获取在网页中选取的多个链接对象的对应的统一资源定位,并根据统一资源定位下载相关内容,实现了直观的多个链接对象下载,简化了多链接对象的下载操作。


下面将结合附图及实施例对本发明作进一步说明,附图中图1是本发明一种保存网页中多个链接对象的系统实施例的结构示意图;图2是图1中选取单元和解析单元的一个实施例的结构示意图;图3是本发明一种保存网页中多个链接对象的方法实施例的流程图;图4是图3中选取链接对象并获取统一资源定位步骤一个实施例的详细流程图。
具体实施例方式
本实施例中的链接是指网页中指向特定文件的文字或图片等;而链接对象则是指上述链接所指向的文件,例如网页、图片或多媒体文件等。在链接被点击时,网页浏览器下载链接所指向的链接对象,并播放或显示链接对象。
如图1所示,是本发明一种保存网页中多个链接对象的系统实施例的结构示意图。该系统包括选取单元11、解析单元12以及下载引擎13。该系统可以捆绑到网页浏览器并使用网页浏览器提供的部分功能,例如下载引擎;该系统也可以是独立的工具。
选取单元11用于在网页中选取待保存的多个链接。该选取单元11可使用现有网页浏览器中的方式实现选取多个链接的操作。例如通过鼠标在网页浏览器中显示的网页上左键点击拖动,选中目标链接所对应的文本、图像等区域。此外,还可通过相关快捷键,例如Alt键等,配合鼠标选取,从而实现选取区域的累加或者去除,定制下载对象。
解析单元12用于解析所述网页的脚本,并获取所述选取的链接对应的统一资源定位(URL)。
目前大多数的网页文件采取HTML编码格式,它使用户可以通过统一的入口(网页浏览器)访问各种不同格式的计算机文档,消除了不同计算机系统之间的信息交流问题。HTML通过在文本文件中加入一系列的标签(tag)实现浏览器的网页显示。标签是HTML语法的基本元素,由“<”和“>”成对组成,两者之间是标签的内容。例如<a href=”http://www.sina.com.cn”>新浪网</a>,表示在网页上用鼠标左键点击“新浪网”时,网页浏览器会自动打开http://www.sina.com.cn/指向的网页。此外,可扩展超文本标记语言(XHTML)也被用于进行网页编码,其格式与HTML编码格式类似。
在本实施例中,解析单元12在获取选取的链接对应的脚本片段后,将脚本片段中每一<a>标签中href属性内容作为统一资源定位。
下载引擎13用于根据解析单元12获取的统一资源定位下载链接对象。该下载引擎的实现类似现有网页浏览器或其它网页下载软件。
如图2所示,为图1中选取单元11和解析单元12的一个实施例的结构示意图。在本实施例中,解析单元12进一步包括定位子单元121,选取单元11进一步包括初选子单元111、预览子单元112和调整子单元113,其中初选子单元111用于从浏览器显示的网页中选取一个或多个链接。初选子单元111可使用现有网页浏览器中的方式实现选取多个链接的操作。例如通过鼠标在网页浏览器中显示的网页上左键点击拖动,选中目标链接所对应的文本、图像等区域。此外,还可通过相关快捷键,例如Alt键等,配合鼠标选取,从而实现选取区域的累加或者去除,定制下载对象。
定位子单元121用于解析选取的链接所在网页的脚本,并获取初选子单元111选取的链接对象对应的统一资源定位。定位子单元121将脚本中每一<a>标签中href属性内容作为统一资源定位。
预览子单元112用于显示定位子单元111获得的统一资源定位。
调整子单元113用于调整并确认预览子单元中显示的统一资源定位,并将确认后的统一资源定位传送到下载引擎13下载链接对象。
此外,解析单元12还可包括一个校验子单元122,用于删除定位子单元121解析获得的统一资源定位中的重复项。
在上述系统中,还可包括保存单元,用于设置链接对象的保存位置,并将下载引擎下载的链接对象保存到上述指定位置。
如图3所示,是本发明一种保存网页中多个链接对象的方法实施例的流程图。该方法包括以下步骤步骤S31在网页中选取待保存的多个链接对象,并解析所述网页的脚本,获取所述选取的链接对象对应的统一资源定位。
在选取链接对象时,可使用现有网页浏览器中的选取方式。例如通过鼠标在网页浏览器中显示的网页上左键点击拖动,选中目标链接所对应的文本、图像等区域。
在解析网页脚本时,首先获取选取的链接对应的脚本片段,然后将脚本片段中每一<a>标签中href属性内容作为统一资源定位。
步骤S32根据上述获取的统一资源定位下载链接对象。该下载步骤采用现有网页浏览器或其它网页下载软件类似的方式下载。
如图4所示,是图3中选取链接对象并获取统一资源定位步骤的其中一种实施例的详细流程图。该步骤具体包括步骤S41从浏览器显示的网页中选取一个或多个链接。在选取链接对象时,可使用现有网页浏览器中的选取方式。
步骤S42解析所述网页的脚本,并获取步骤S41中选取的链接对象对应的统一资源定位。在本实施例中,首先获取选取的链接对应的脚本片段,然后将脚本片段中每一<a>标签中href属性内容作为需选定的统一资源定位。
步骤S43显示获得的统一资源定位。上述统一资源定位可通过弹出式窗口进行显示。
步骤S44调整并确认步骤S43中显示的统一资源定位。该调整可通过在弹出式窗口中的复选框实现,即每一统一资源定位对应一个复选框,被选中的复选框对应的统一资源定位即为被确认的统一资源定位。
步骤S45将确认后的统一资源定位传送到下载引擎下载链接对象。
在上述方法中,还可包括删除重复的统一资源定位的步骤,从而保证每一统一资源定位仅下载一次,避免重复下载。
此外,还可包括一个保存下载的链接对象的步骤。在具体实现时,可将所有下载的链接对象存放于指定的文件夹中,并在出现文件同名时按次序为同名文件自动命名;也可按照统一资源定位自动生成子目录,并按子目录保存文件。
以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
权利要求
1.一种保存网页中多个链接对象的系统,其特征在于,包括选取单元,用于在网页中选取待保存的多个链接;解析单元,用于解析所述网页的脚本,并获取所述选取的链接对应的统一资源定位;下载引擎,用于根据选定的统一资源定位下载链接对象。
2.根据权利要求1所述的一种保存网页中多个链接对象的系统,其特征在于,所述解析单元进一步包括定位子单元,所述选取单元进一步包括初选子单元、预览子单元和调整子单元,其中所述初选子单元,用于从浏览器显示的网页中通过鼠标拖动方式选取一个或多个链接;所述定位子单元,用于解析所述网页的脚本,并获取所述初选子单元选取的链接对象对应的统一资源定位;所述预览子单元,用于显示所述定位子单元获得的统一资源定位;所述调整子单元,用于调整并确认预览子单元中显示的统一资源定位,并将确认后的统一资源定位传送到下载引擎下载链接对象。
3.根据权利要求1或2所述的一种保存网页中多个链接对象的系统,其特征在于,所述解析单元进一步包括校验子单元,用于删除解析单元获取的统一资源定位中的重复项。
4.根据权利要求1或2所述的一种保存网页中多个链接对象的系统,其特征在于,还包括保存单元,用于将下载引擎下载的链接对象保存到指定位置。
5.根据权利要求1所述的一种保存网页中多个链接对象的系统,其特征在于,所述解析单元获取的统一资源定位是脚本片段中每一<a>标签中href属性内容。
6.一种保存网页中多个链接对象的方法,其特征在于,包括以下步骤(a)在网页中选取待保存的多个链接,并解析所述网页的脚本,获取所述选定的链接对应的统一资源定位;(b)根据所述选定的统一资源定位下载链接对象。
7.根据权利要求6所述的一种保存网页中多个链接对象的方法,其特征在于,所述步骤(a)进一步包括(a1)从浏览器显示的网页中以鼠标拖动方式选取一个或多个链接;(a2)解析所述网页获得选取链接对应的脚本片段,并从所述脚本片段中获取统一资源定位。
8.根据权利要求7所述的一种保存网页中多个链接对象的方法,其特征在于,所述步骤(a)进一步包括(a3)显示步骤(a2)获得的统一资源定位;(a4)调整并确认步骤(a3)显示的统一资源定位;(a5)将步骤(a4)中确认的统一资源定位传送到下载引擎。
9.根据权利要求7所述的一种保存网页中多个链接对象的方法,其特征在于,所述步骤(a2)中所述获取的统一资源定位是脚本片段中每一<a>标签中href属性内容。
10.根据权利要求6所述的一种保存网页中多个链接对象的方法,其特征在于,所述步骤(a)中进一步包括删除重复的统一资源定位。
全文摘要
本发明公开了一种保存网页中多个链接对象的系统,包括选取单元,用于在网页中选取待保存的多个链接;解析单元,用于解析所述网页的脚本,并获取所述选取的链接对应的统一资源定位;下载引擎,用于根据选定的统一资源定位下载链接对象。本发明还提供一种对应的方法。本发明通过解析网页脚本获取在网页中选取的多个链接对象的对应的统一资源定位,并根据统一资源定位下载相关内容,实现了直观的多个链接对象下载,简化了多链接对象的下载操作。
文档编号G06F17/30GK101079057SQ20071007351
公开日2007年11月28日 申请日期2007年3月14日 优先权日2007年3月14日
发明者胡鹏 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1