基于元搜索引擎的多源下载互联网资源的装置及方法

文档序号:6585050阅读:140来源:国知局
专利名称:基于元搜索引擎的多源下载互联网资源的装置及方法
技术领域
本发明涉及一种涉及搜索引擎和多源下载的技术,确切地说,涉及一种基于元搜
索引擎的个性化搜索的多源下载互联网资源的装置及方法,属于互联网资源下载的技术领 域。
背景技术
网络下载技术,又称为网络文件共享技术,是现有互联网最广泛的应用。最先出现 的文件共享主要通过Web技术实现,即把共享的文件放到服务器上,构成中心化的文件存 储模型后,客户机通过超文本传输协议HTTP (Hyper TextTransfer Protocol)和文本传输 协议FTP (File Transfer Protocol)等协议从服务器下载这些文件,这就是所谓用户到服 务器的P2S(Peer to Server)结构模式。随着网络应用及网络用户的大量增加,中心化的 文件存储服务器需要对非常多的用户访问提供支持,这就使得负载均衡问题成为这类下载 技术的最大瓶颈。 这种情况下,以资源分散、负载均衡和非中心化为特点的对等网络P2P (Peerto Peer)技术在文件共享领域得到了广泛应用,该技术的特征是以客户端身份下载了文件的 对等端,随后,又以服务器身份使这些文件供其他对等端使用。 一般而言,基于P2P技术的 文件共享的中心问题是定位资源。P2P技术可以充分利用参与结点的带宽,通过大量结点之 间互相传递数据、合作下载的方式提高网络中传送大容量文件的效率。
虽然P2P技术是以去中心化为研究重点,但其连接的不可控性使得基于该技术的 在线下载缺乏稳定性。为了结合P2S模式与P2P模式的网络下载的优势,出现了一种所谓 用户对服务器与用户模式的P2SP(Peer to Server and Peer)技术。简单地说,P2SP技术 就是下载不再像传统方式那样只能依赖服务器,内容的传递可以在网络上的各个终端中进 行。P2SP除了包含P2P以外,P2SP的"S"是指服务器。P2SP有效地把原本孤立的服务器 与其镜像资源以及P2P资源都整合在一起。也就是说,在下载的稳定性和下载的速度上,都 比传统的P2P或P2S都有了非常大的提高。在国内以迅雷为代表的P2SP技术取得了巨大 成功,类似的还有0rbit、PPgou、Tuotu等. 对应以上网络技术的发展,就国内最普遍的应用而言,可分为三种形式 第一种为集中式,以超文本传输协议HTTP、文件传输协议FTP下载为主。由于受到
服务器带宽的限制,这种下载模式会严重影响下载的速度。 第二种为分布式,以BT和eMule为代表,主要特征是资源分布在众多个人终端电
脑上,这种方式避免了单一带宽对下载速度的影响,但不能保证服务的稳定性。 第三种为混合式,以迅雷、超级旋风、脱兔等为代表。整合了网络搜索、HTTP下
载、FTP下载和P2P下载等多种技术,这种方式将多个中心化的资源服务器和客户一起组成
P2SP网络,保证了下载的速度和稳定性。 对现有的文件共享软件进行归总,通常采用两种途径获得文件源地址第一种是 P2P协议叠加网的洪泛式搜索与分布式哈希路由表DHT(DistributedHash Table)式搜索,第二种是集中式的多媒体检索数据库服务器。根据现在共享软件的用户数量分析,迅雷、腾讯、旋风等以多媒体检索数据库为中心的共享软件占据了绝大部分市场份额,说明运营性质的源地址索引功能对下载软件十分重要。 搜索引擎的出现,大大提高了人们对互联网信息检索的能力和效率,已经成为当前最普遍的辅助人们检索信息的工具。据中国互联网网络信息中心发布的"2008年中国互联网络发展状况统计报告",中国网民搜索引擎的使用率为72.4%,并仍然处于高速增长中。而在互联网高度普及的美国,网民对搜索引擎的使用率已达91%。可见,搜索引擎已经成为网民不可或缺的工具。 目前,搜索引擎领域主要有以下几种技术 (1)通用搜索引擎目前应用最广泛,且用户数量最多,主要代表有谷歌(www.google, com)、百度(www. baidu. com)、雅虎(cn. yahoo, com)等。 通用搜索引擎采用网络爬行器对万维网遍历查询和信息采集,然后对结果进行存储和预处理,最后由服务系统将符合要求的结果返回给用户。 随着Web信息的迅速增长,用户可以通过搜索引擎获得丰富的资源,但是该类搜索服务存在局限性通用搜索引擎不可能解析、索引网络上的所有网页,用户需要调用多个搜索引擎才能获取满意的搜索结果,降低了检索效率。 (2)元搜索引擎(Meta-Search-Engine):为了弥补通用搜索引擎的不足,出现了元搜索弓l擎,其主要代表有国夕卜的MetaCrawler(www. metacawler. com) 、 Dogpile(www.dogpile. com)禾口国内的比比3苗(www. bbmao. com)等。 元搜索引擎是通过一个统一的界面将用户检索请求同时发送给多个搜索引擎,再将它们的各自搜索结果汇集在一起返回给用户的搜索技术。它综合了多个独立搜索引擎的搜索结果,从而提高了搜索结构在整个网络资源上的覆盖率,省去了用户自己逐个调用不同搜索引擎进行查询的麻烦。但是,该类搜索引擎与通用搜索引擎都是向用户提供海量的无序网页,并且,用同一模式服务于不同用户,这样的通用性无法满足用户有差别的个性化需求。 (3)垂直搜索(Vertical Search Engine):为了弥补传统搜索引擎和元搜索引擎的不足,给用户提供更为精准的搜索服务,人们提出垂直搜索引擎的思想。该类搜索引擎是针对某一主题的信息进行爬行、索引和整合,并提取所需的数据进行处理,以满足不同用户的个性化需求,所以又被称个性化搜索引擎。垂直搜索引擎的定位不是整个Web网络,而是与某个主题相关的网络,这样具有很强的针对性,其次,运用机器学习等智能化技术手段满足用户个性化需求,因此它比通用搜索引擎与元搜索引擎更加有效。

发明内容
有鉴于此,本发明的目的是提供一种基于元搜索引擎的多源下载互联网资源的装置及方法,本发明充分利用互联网的元搜索引擎技术来发现文件源地址,以减弱软件本身对中心服务器的依赖性和脱离服务被动选择的模式。 一方面,利用各类搜索引擎的发展,提高文件下载地址的搜索效率。另一方面利用多源下载技术提供更快的稳定的下载服务。
为了达到上述目的,本发明提供了一种基于搜索引擎的多源下载互联网资源的装置,其特征在于,所述装置设有用户单元、叠加网单元、搜索单元与下载单元,其中
用户单元,完成用户个性化的搜索参数与下载参数的设置,并提供用户操作接口
界面和存储各种设置参数与文件,以及展示搜索到的供用户选择的下载地址列表和目标文
件;设有四个模块搜索设置模块、下载设置模块、用户界面模块和用户数据库; 叠加网单元,完成客户端加入对等网络P2P叠加网的操作,并维护和管理P2P叠加
网的信息与用户文件,设有三个模块初始化模块、信息维护模块和文件管理模块; 搜索单元,完成文件下载地址的搜索,设有定位型地址搜索模块和下载型地址搜
索模块,其中定位型地址搜索模块根据用户单元获取的地址检索词搜索相关文件的下载地
址,再通过用户单元的用户界面模块向用户展示;下载型地址搜索模块根据用户选择的、由
定位型搜索模块提供的下载地址进行相同文件的其它地址的二次搜索,包括对P2P叠加网
内共享文件的搜索;且在搜索地址过程中,根据可用性原则与优选原则对获取到的地址进
行筛选; 下载单元,完成文件的下载操作,设有并行下载和资源合成的两个模块,并行下载模块根据获取链接的数量与文件大小对文件进行分块下载,其中文件下载地址是由下载型地址搜索模块提供的,并参照用户数据库中存储的下载设置参数执行下载过程;资源合成模块用于将并行下载模块获取的文件信息进行整合处理,形成完整的文件后,交由叠加网单元的文件管理模块进行存储。 为了达到上述目的,本发明还提供了一种采用基于元搜索引擎的多源下载互联网资源的装置的搜索方法,其特征在于所述装置在用户的选择和操作下,利用元搜索引擎定位目标文件与进行同一资源的多个地址搜索,再通过多源下载技术进行目标资源的并行下载与整合处理;其中,资源的地址与搜索都是基于用户设置,以满足用户的个性化需求;所述方法包括下列操作步骤 (1)用户单元根据用户输入完成搜索参数与下载参数的设置,并将设置的参数存储于用户数据库; (2)完成客户端的P2P叠加网的入网和更新路由表; (3)搜索单元将用户输入的检索词按照各个独立搜索引擎的要求格式分发出去,并根据该检索词搜索相关文件地址和收集返回的结果,然后将该返回结果转换成统一的格式; (4)用户单元将用于定位型文件地址的搜索结果列表,供用户选择; (5)搜索单元根据用户选择的下载地址进行相同文件其他地址的二次搜索,并对
搜索结果进行筛选,选择优化的下载地址; (6)搜索单元根据用户定位的下载地址和设置的下载参数,执行多个文件地址的并行下载和文件整合的操作; (7)在下载过程中和完成下载后,叠加网单元执行资源保存与文件共享信息发布的操作。 本发明与现有技术相比的优势在于 本发明是借鉴P2SP思路,基于元搜索引擎技术,充分获取并利用了互联网上大量的FTP服务器和文件服务器作为共享文件的提供中心,以P2P叠加网文件共享为辅助下载中心,为多源下载提供快捷、稳定的服务。 本发明通过元搜索引擎同时获取多个成员搜索引擎的搜索结果,并能够根据检索
7内容的不同,合理地选取相应的搜索引擎,从而提高了搜索结果的覆盖度和检索的准确性,降低了检索内容的重复率。 本发明装置的文件下载地址的发现是基于现有的搜索引擎,运行在客户端。因此,本发明基于元搜索引擎的互联网资源的多源下载装置脱离了对集中式多媒体检索数据库的依赖,能够最大限度地利用搜索引擎的发展,进行互联网下载应用;同时解决了搜索资源的覆盖面和下载源的稳定等问题。如果多个客户端组建构成P2P叠加网,本发明使得文件
源的搜索能延伸到该网络,增加网络内部资源复用率。因此,本发明具有很好的推广应用前
旦豕。


图1是本发明应用场景的网络系统结构组成示意图。
图2是本发明基于元搜索引擎的多源下载互联网资源的装置结构示意图。
图3是本发明装置的互联网资源多源下载方法的操作流程图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。 参见图l,介绍本发明基于元搜索引擎的多源下载互联网资源的装置的应用环境-网络系统结构组成。该系统分为三个部分 利用BT协议组建的P2P叠加网,P2P网络中的各节点分别保留路由目录和共享其拥有的资源,各节点之间直接相连;叠加网内各个用户可以实现资源的共享。用户是通过查询搜索网络上存在的稳定资源,再下载链接得到相应文件数据。资源的下载为分块下载,加速资源获取,其优点是结合C/S与P2P网络的优势进行资源共享;不足是存在服务管理缺陷。 文件源为互联网内包括Web文件服务器、FTP文件服务器、流媒体服务器等能提供文件下载的服务器。 元搜索引擎包括的多个搜索引擎,各搜索引擎为节点提供文件下载地址的搜索应用。 参见图2,介绍本发明基于元搜索引擎的多源下载互联网资源的装置,该装置设有用户单元、叠加网单元、搜索单元与下载单元,其中 用户单元完成用户个性化的搜索参数与下载参数的设置,获取用户文件地址的检索词,并提供用户操作接口界面和存储各种设置参数与文件,以及展示搜索到的供用户选择的下载地址列表和目标文件。设有四个模块搜索设置模块、下载设置模块、用户界面模块和用户数据库;其中 搜索设置模块用于完成元搜索引擎所包括的各种搜索引擎、向用户显示的结果总数和每个搜索引擎的返回结果占本次搜索总条数的比例的各种搜索参数的选择和设置,并将设置的搜索参数存储于用户数据库;该模块的设置将作用于定位型地址搜索模块。
下载设置模块用于完成包括用户执行下载操作的网络类型、超级节点地址、下载或上传的传输带宽与速度限制,以及下载文件的分块原则的选择和设置,并将设置的下载参数存储于用户数据库;该模块的设置将作用于并行下载模块。 用户界面模块用于提供用户人机交互界面,将用户的用户文件地址检索词或文件下载地址的检索请求转换为搜索引擎所能理解的格式,并分别发送给定位型地址搜索模块与下载型地址搜索模块,使其根据检索内容选择合适的搜索引擎,并向用户展示搜索到的下载地址列表和目标文件;搜索设置模块和下载设置模块都是经由该界面接收用户输入的相关设置参数。 用户数据库负责存储用户设置的各种搜索参数和下载参数,以及叠加网的路由表信息和下载的文件内容。 叠加网单元完成客户端加入P2P叠加网的操作、并维护和管理P2P叠加网的信息与共享的用户文件。设有三个模块初始化模块、信息维护模块和文件管理模块;其中,
初始化模块利用用户数据库中保存的超级节点完成客户端加入P2P叠加网的入网操作,如果超级节点不可用,则利用用户数据库中保存的路由表内节点信息加入P2P叠加网;执行路由表的初始化和更新操作,再把更新后的路由表存储于用户数据库;该路由表内存储有叠加网内的邻居节点信息,邻居节点为下载通信过程所发现的叠加网内的其他节点,邻居节点可以辅助客户端入网与客户端共享文件信息的发布。 信息维护模块是根据初始化后的路由表完成P2P叠加网内其他邻居节点的文件信息的维护和查找,以及本地文件共享信息的发布。 文件管理模块完成客户端文件的存储及上传,并通过信息维护模块将文件共享信息在叠加网内进行发布。 搜索单元完成文件下载地址的搜索。设有定位型地址搜索模块和下载型地址搜索模块,前者根据用户输入的地址检索词搜索相关文件的下载地址,再通过用户单元的用户界面模块向用户展示;后者根据用户选择的下载地址进行相同文件的其它地址的二次搜索,包括对P2P叠加网内共享文件的搜索;且在搜索地址过程中,根据可用性原则与优选原则对获取到的地址进行筛选。 下载单元完成文件的下载操作。设有并行下载和资源合成的两个模块,并行下载模块根据获取链接的数量与文件大小对文件进行分块下载,其中文件下载地址是由下载型地址搜索模块提供的,并参照用户数据库中存储的下载设置参数执行下载过程;资源合成模块用于将并行下载模块获取的文件信息进行整合处理,形成完整的文件后,交由叠加网单元的文件管理模块进行存储。 本发明基于元搜索引擎的多源下载互联网资源的装置的搜索方法是在用户的选择和操作下,利用元搜索引擎定位目标文件与进行同一资源的多个地址搜索,再通过多源下载技术进行目标资源的并行下载与整合处理;其中,资源的地址与搜索都是基于用户设置,以满足用户的个性化需求。 参见图3,结合基于搜索引擎的互联网多源下载系统,介绍本发明一实施例的操作流程,其执行的操作步骤如下 步骤1、用户单元根据用户输入完成搜索参数与下载参数的设置,并将设置的参数存储于用户数据库。 该步骤的搜索参数与下载参数的设置操作既可以在下载之前完成,也可以在下载过程中完成。设置的搜索参数包括各种搜索引擎(百度、谷歌、雅虎、必应等)类型、搜索结果的总条数和每个搜索引擎的返回结果所占的比例。设置的下载参数包括执行下载的网络类型(教育网、移动、联通、电信等)、超级节点地址、下载过程的文件分块原则、下载的上行与下行的带宽和限制速度。
步骤2、用户单元接收用户输入,完成客户端的P2P叠加网的入网和更新路由表。
该步骤的入网操作有两种方式一种是利用在客户端固化的叠加网超级节点进行入网操作;另一种是用维护的邻居节点加入入网操作,后者作为前者的补充,仅用于叠加网超级节点不可用时。 步骤3、搜索单元将用户输入的检索词按照各个独立搜索引擎的要求格式分发出去,并根据该检索词搜索相关文件地址和收集返回的结果,然后将该返回结果转换成统一的格式。该步骤包括下列操作内容 (31)基于用户选择的检索内容,采用分类分组法选择元搜索引擎中的搜索引擎本发明在元搜索引擎上增设一个信息类别选项,系统预先设置的该信息类别包括影音、图片、文档、软件与其他,再在各类别下分别列出供用户选择、设定的搜索引擎组合,以满足用户个性化需求,又避免不必要的搜索,提高搜索效率和准确度。
(32)将用户输入的搜索词语按照各个独立搜索引擎的要求格式分发出去。
(33)根据该检索词搜索相关文件地址,将收集到的各个成员搜索引擎的搜索结果转换为统一格式,再对其进行删除重复的处理。 步骤4、用户单元将用于定位型文件地址的搜索结果列表,供用户选择。
步骤5、搜索单元根据用户选择的下载地址进行相同文件其他地址的二次搜索,并对搜索结果进行筛选,选择优化的下载地址。该步骤的定位地址二次搜索分为搜索引擎搜索与叠加网搜索,具体包括下列操作内容 (51)返回的搜索结果是普通的超文本标记语言HTML地址时,搜索单元通过分析关键词或网络爬虫获取供下载的资源链接地址;或 (52)返回的搜索结果是超文本传输协议http资源下载地址、BT协议的资源链接地址时,提取这些下载地址或链接地址; (53)根据可用性原则与优选原则对获取到的下载地址或链接地址进行筛选;这里的可用性原则是对获取的地址链接随机下载部分文件,如果链接不能连通,或者该部分文件与目标链接的对应文件块不对应,则表明不符合该原则,放弃该地址链接;优选原则是根据下载型地址所对应的逻辑地址信息和连接的时间延迟进行优化。 步骤6、搜索单元根据用户定位的下载地址和设置的下载参数,执行多个文件地址的并行下载和文件整合的操作。该步骤包括下列操作内容 (61)根据文件大小和步骤1设置的下载文件的分块原则,设定满足一定冗余性的下载分块原则,并从对应链接独立进行文件分块下载。
(62)对下载完成的分块进行整合处理,在整合过程中进行数据校验。 步骤7、在下载过程中和完成下载后,叠加网单元执行资源保存与文件共享信息发
布的操作。 本发明已经进行了多次实施试验,试验的结果是成功的,实现了发明目的。
权利要求
一种基于元搜索引擎的多源下载互联网资源的装置,其特征在于,所述装置设有用户单元、叠加网单元、搜索单元与下载单元,其中用户单元,完成用户个性化的搜索参数与下载参数的设置,并提供用户操作接口界面和存储各种设置参数与文件,以及展示搜索到的供用户选择的下载地址列表和目标文件;设有四个模块搜索设置模块、下载设置模块、用户界面模块和用户数据库;叠加网单元,完成客户端加入对等网络P2P叠加网的操作,并维护和管理P2P叠加网的信息与用户文件,设有三个模块初始化模块、信息维护模块和文件管理模块;搜索单元,完成文件下载地址的搜索,设有定位型地址搜索模块和下载型地址搜索模块,其中定位型地址搜索模块根据用户单元获取的地址检索词搜索相关文件的下载地址,再通过用户单元的用户界面模块向用户展示;下载型地址搜索模块根据用户选择的、由定位型搜索模块提供的下载地址进行相同文件的其它地址的二次搜索,包括对P2P叠加网内共享文件的搜索;且在搜索地址过程中,根据可用性原则与优选原则对获取到的地址进行筛选;下载单元,完成文件的下载操作,设有并行下载和资源合成的两个模块,并行下载模块根据获取链接的数量与文件大小对文件进行分块下载,其中文件下载地址是由下载型地址搜索模块提供的,并参照用户数据库中存储的下载设置参数执行下载过程;资源合成模块用于将并行下载模块获取的文件信息进行整合处理,形成完整的文件后,交由叠加网单元的文件管理模块进行存储。
2. 根据权利要求l所述的装置,其特征在于所述用户单元中的各软件模块功能如下搜索设置模块,用于完成元搜索引擎所包括的各种搜索引擎、向用户显示的结果总数 和每个搜索引擎的返回结果占本次搜索总条数的比例的各种搜索参数的选择和设置,并将 设置的搜索参数存储于用户数据库;下载设置模块,用于完成包括用户执行下载操作的网络类型、超级节点地址、下载或上 传的传输带宽与速度限制,以及下载文件的分块原则的选择和设置,并将设置的下载参数 存储于用户数据库;用户界面模块,用于提供用户人机交互界面,将用户的检索请求转换为搜索引擎所能 理解的格式,根据检索内容选择合适的搜索引擎,并向用户展示搜索到的下载地址列表和 目标文件;搜索设置模块和下载设置模块都是经由该界面接收用户输入的相关设置参数;用户数据库,负责存储用户设置的各种搜索参数和下载参数,以及叠加网的路由表信 息和下载的文件内容。
3. 根据权利要求1所述的装置,其特征在于所述叠加网单元中的各软件模块功能如下初始化模块,利用用户数据库中保存的超级节点完成客户端加入P2P叠加网的入网操 作,如果超级节点不可用,则利用用户数据库中保存的路由表内节点信息加入P2P叠加网; 执行路由表的初始化和更新操作,再把更新后的路由表存储于用户数据库;所述路由表内 存储有叠加网内的邻居节点信息;信息维护模块,根据初始化后的路由表完成P2P叠加网内其他邻居节点的文件信息的 维护和查找,以及本地文件信息的发布;文件管理模块,完成客户端文件的存储及上传,并通过信息维护模块将文件信息在叠 加网内进行发布。
4. 根据权利要求1所述的装置,其特征在于所述下载型地址搜索模块在搜索下载型 地址过程中,根据可用性原则与优选原则对获取到的下载或链接地址进行筛选时,所述可 用性原则是对获取的下载或链接地址随机下载部分文件,如果链接不能连通,或者该部分 文件与目标链接的对应文件块不对应,则标明不符合该原则,放弃该地址;优选原则是根据 下载型地址所对应的逻辑地址信息和连接的时间延迟进行优化。
5. —种采用权利要求1所述的基于元搜索引擎的多源下载互联网资源的装置的搜索 方法,其特征在于所述装置在用户的选择和操作下,利用元搜索引擎定位目标文件与进行 同一资源的多个地址搜索,再通过多源下载技术进行目标资源的并行下载与整合处理;其 中,资源的地址与搜索都是基于用户设置,以满足用户的个性化需求;所述方法包括下列操 作步骤(1) 用户单元根据用户输入完成搜索参数与下载参数的设置,并将设置的参数存储于 用户数据库;(2) 完成客户端的P2P叠加网的入网和更新路由表;(3) 搜索单元将用户输入的检索词按照各个独立搜索引擎的要求格式分发出去,并根 据该检索词搜索相关文件地址和收集返回的结果,然后将该返回结果转换成统一的格式;(4) 用户单元将用于定位型文件地址的搜索结果列表,供用户选择;(5) 搜索单元根据用户选择的下载地址进行相同文件其他地址的二次搜索,并对搜索 结果进行筛选,选择优化的下载地址;(6) 搜索单元根据用户定位的下载地址和设置的下载参数,执行多个文件地址的并行 下载和文件整合的操作;(7) 在下载过程中和完成下载后,叠加网单元执行资源保存与文件共享信息发布的操作。
6. 根据权利要求5所述的方法,其特征在于所述步骤(1)中的搜索参数与下载参 数的设置操作是在下载之前完成的,或者是在下载过程中完成的;所述搜索参数包括元 搜索引擎所包括百度、谷歌、雅虎、必应的各种搜索引擎的类型、向用户显示的搜索结果的 总条数和每个搜索引擎的返回结果所占的比例;所述下载参数包括包括教育网、移动、联 通、电信的执行下载的网络类型、超级节点地址、下载文件过程中的分块原则、下载的上行 与下行的带宽和限制速度。
7. 根据权利要求5所述的方法,其特征在于所述步骤(2)中的入网操作有两种方式 一种是利用在客户端固化的叠加网超级节点进行入网操作;另一种是用维护的邻居节点加 入入网操作,后者作为前者的补充,仅用于叠加网超级节点不可用时。
8. 根据权利要求5所述的方法,其特征在于所述步骤(3)进一步包括下列操作内容(31) 基于用户选择的检索内容,采用分类分组法选择元搜索引擎中的搜索引擎在元 搜索引擎上增设一个信息类别选项,系统预先设置的该信息类别包括影音、图片、文档、软 件与其他,再在各类别下分别列出供用户选择、设定的搜索引擎组合,以满足用户个性化需 求,又避免不必要的搜索,提高搜索效率和准确度;(32) 将用户输入的搜索词语按照各个独立搜索引擎的要求格式分发出去;(33)根据该检索词搜索相关文件地址,将收集到的各个成员搜索引擎的搜索结果转换 为统一格式,再对其进行删除重复的处理。
9. 根据权利要求5所述的方法,其特征在于所述步骤(5)中的二次搜索进一步包括 下列操作内容(51) 返回的搜索结果是普通的超文本标记语言HTML地址时,搜索单元通过分析关键 词或网络爬虫获取供下载的资源链接地址;或(52) 返回的搜索结果是超文本传输协议http的资源下载地址、BT协议的资源链接地 址时,提取这些下载地址或链接地址;(53) 根据可用性原则与优选原则对获取到的下载地址或链接地址进行筛选;所述可 用性原则是对获取的地址链接随机下载部分文件,如果链接不能连通,或者该部分文件与 目标链接的对应文件块不对应,则表明不符合该原则,放弃该地址链接;优选原则是根据下 载型地址所对应的逻辑地址信息和连接的时间延迟进行优化。
10. 根据权利要求5所述的方法,其特征在于所述步骤(6)进一步包括下列操作内容(61) 根据文件大小和步骤(1)中设置的下载文件的分块原则,设定满足一定冗余性的 下载分块原则,并从对应链接独立进行文件分块下载;(62) 对下载完成的分块进行整合处理,在整合过程中进行数据校验。
全文摘要
一种基于元搜索引擎的多源下载互联网资源的装置及方法,该装置设有用户单元、叠加网单元、搜索单元与下载单元,所有单元或软件模块均部署在客户端,并在客户端完成所有下载操作,以弱化现有的下载装置对中心服务器或多媒体检索数据库的依赖和脱离服务被动选择的模式,并充分利用元搜索引擎的发展,开展互联网的下载应用。该装置充分利用互联网的元搜索引擎定位发现文件源地址,并对目标文件进行同一资源的多个地址搜索,通过多源下载技术进行目标资源的并行下载与合并。做到了既利用各类搜索引擎的发展,提高搜索结果的准确度;又利用多源下载技术提供更快、更稳定的下载服务。而且,资源的地址与搜索都基于用户的设置,能满足用户的个性化需求。
文档编号G06F17/30GK101764807SQ20091024193
公开日2010年6月30日 申请日期2009年12月16日 优先权日2009年12月16日
发明者张世栋, 张冬梅, 魏更宇 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1