一种资源搜索方法和资源搜索系统的制作方法

文档序号:6466114阅读:229来源:国知局
专利名称:一种资源搜索方法和资源搜索系统的制作方法
技术领域
本发明涉及资源搜索技术,更具体地说,涉及一种资源搜索方法和资源搜 索系统。
背景技术
作为信息时代最为显著的标志,互联网正在以前所未有的速度改变着人们 的生活。从电子公告板到即时通信,在一个个新兴互联网应用的带动下,越来
越多的用户加入互4关网, 一个虚拟的网络世界正在形成。
电子邮件的出现为网络营销提供了可能,越来越多的销售人员开始借助电 子邮件这一利器推广自己的产品。通过邮件群发,销售人员将包含自身产品介 绍的电子邮件群发至众多用户的邮箱,采用增大广告覆盖面的方式来达到宣传 产品的目的。然而,由于无法区分目标用户和非目标用户,邮件群发会产生大 量的垃圾邮件,其负面影响甚至远远超过了实际的回报。不仅如此,这种海量 发送的方式还会给邮件服务器和通信运营商造成巨大的负担,因此逐渐成为互 联网上的一大公害。
搜索引擎的出现为网络营销人员提供了 一种更为有效的查找潜在用户的 手段。通过在搜索引擎中输入对应的产品关4建字,网络销售人员可以找到大量 包含相应产品的搜索结果,其中不乏众多潜在用户的信息,例如潜在用户的联 系方式等。通过使用关^t字来搜索潜在用户的联系方式,网络销售人员能够将 包含产品介绍的电子邮件更加精确的投放到目标用户的邮箱,不仅效率更高,
而且还不会产生垃:敗邮件。
然而,随着网络资源的日益膨胀,搜索引擎得到的搜索结果越来越多。由 于现有的搜索引擎不具备智能搜索功能,因此无法在搜索结果中自动识别出网 络营销者所需的联系人信息,使得网络营销者不得不花费大量的时间在搜索结果中查找自己想要的资源,例如目标用户的电子邮箱等联系方式信息。 因此,需要一种资源搜索方案,能够克服现有技术存在的缺陷。

发明内容
本发明要解决的技术问题在于,针对现有搜索引擎无法在搜索结果中自动 识别出网络营销者所需的联系人信息等缺陷,提供一种资源搜索方法和资源搜 索系统。
本发明解决其技术问题所采用的技术方案是 一种资源搜索方法,包括如下步骤
51、 接收输入的关键字;
52、 调用至少一个搜索引擎搜索包含关键字的资源,得到搜索结果列表, ^中包含搜索到的资源的网页链接;
S3 、在搜索结果列表中各网页链接所对应网页上的资源中查找联系人信 息并输出。
在本发明所述的资源搜索方法中,所述步骤S3进一步包括,对于搜索结 果列表中的每一条网页链接执行如下步骤
531、 爬取该网页链接对应网页上的资源,并在该资源中查找所述联系人 4吕息5
532、 若未能在该资源中找到联系人信息,则解析该网页链接,得到对应 的网站链接;
533、 爬取所述网站链接对应网站上的资源,并在爬取到的资源中查找联 系人信息。
在本发明所述的资源搜索方法中,所述步骤S33进一步包括,爬取所述 网站的联系人页面上的资源,并在爬取到的资源中查找所述联系人信息。 -在本发明所述的资源搜索方法中,所述步骤S33进一步包括
S331、依次爬取所述网站每一级页面上的资源,并在该页面上的资源中 查找所述联系人信息,直到找到联系人信息或者该页面的级数到达预定的上 限。在本发明所述的资源搜索方法中,所述联系人信息包括电子邮件信息。 本发明还提供了一种资源搜索系统,与至少一个搜索引擎通信连接,用于 调用该搜索引擎搜索包含输入的关键字的资源,得到搜索结果列表,其中包含
搜索到的资源的网页链接;所述资源搜索系统包括 网页爬取模块;
搜索模块,用于调用网页爬取模块爬取搜索结果列表中各网页链接对应网 页上的资源,并在爬取的资源中查找联系人信息并输出。
在本发明所述的资源搜索系统中,对于搜索结果列表中的每一条网页链 接,所述搜索模块用于调用网页爬取模块爬取该网页链接对应网页上的资源, 并在该资源中查找所述联系人信息;若未能在该资源中找到联系人信息,则发 出该网页链4妄;
所述资源搜索系统还包括
地址解析模块,用于接收并解析搜索模块发出的网页链接,得到并发出对 应的网站链才姿;
所述网页爬取模块用于接收地址解析模块发出的网站链接,爬取该网站链 接所对应网站上的资源,并将爬取的资源发往所述搜索模块以在其中查找联系 人信息。
在本发明所述的资源搜索系统中,所述网页爬^Mi块用于爬取所述网站的 联系人页面上的资源。
在本发明所述的资源搜索系统中,所述网页爬取才莫块用于依次爬取所述网 站每一级页面上的资源,并将该页面上的资源发往搜索才莫块以查找所述联系人 信息,直到搜索模块在该页面上的资源中找到联系人信息或者该页面的级数到 达预定的上限。
在本发明所述的资源搜索系统中,所述联系人信息包括电子邮件信息。 实施本发明的技术方案,具有以下有益效果,依照预先设置的信息特征, 本发明提供的资源搜索方案能在搜索引擎找到的搜索结果中进一步识别出电 子邮箱等联系人信息,从而使得网络营销者无需花费大量的时间在搜索结果中 查找自己想要的资源,极大的提高了网络营销的效率。


下面将结合附图及实施例对本发明作进一步说明,附图中 图1是依据本发明一较佳实施例的资源搜索系统应用环境的网络结构示 意图2是依据本发明一较佳实施例的资源搜索方法的流程图; 图3是依据本发明一较佳实施例的资源搜索系统的结构示意图; 图4是依据本发明一较佳实施例的关键字输入界面的示意图; 图5是依据本发明一较佳实施例的搜索引擎选择界面的示意图; 图6是依据本发明一较佳实施例的联系人信息显示界面的示意图。
具体实施例方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
图1是依据本发明 一较佳实施例的资源搜索系统应用环境100的网络结构 示意图。如图1所示,资源搜索系统的应用环境100包括互联网112,以及通 过互联网112彼此通信连接的客户终端102、多个搜索引擎104 106和多个 Web服务器108 110。
Web服务器108 110用于实现企业网站。搜索引擎104 106用于爬取互 联网112上的资源,例如Web服务器108 110中存储的与企业网站相关联的 资源。客户终端102上安装有本发明提供的资源搜索系统,该资源搜索系统用 于接收用户输入的关键字,并将其转发给多个搜索引擎104 106中的至少一 个,并接收这些搜索引擎返回的搜索结果。随后,资源搜索系统在搜索结果中 查找联系人信息并输出。下面就结合附图和具体实施例来详细描述本发明提供 的资源搜索系统及其资源搜索方法。
首先结合图2来描述本发明提供的资源搜索方法。
图2是依据本发明一较佳实施例的资源搜索方法200的流程图。如图2 所示,方法200开始于步骤202。随后,在下一步骤204,资源搜索系统接收输入的关键字。随后,在下一步骤206,资源搜索系统调用通信连接的至少一个搜索引擎,查找包含关键字的资源,得到搜索结果列表,其中包含搜索到资源的网页链接。随后,在下一步骤208,资源搜索系统接收搜索引擎返回的搜索结果列表,对搜索结果列表进行整合优化,得到优化结果列表。资源搜索系统可能将同一关键字同时发往多个搜索引擎,而各个搜索引擎得到的搜索结果可能存在相互重复的情况。因此,资源搜索系统可以对各个搜索引擎得到的搜索结果进行合并,删除重复资源(可依据网页链接是否相同等方法来辨识重复资源)。此外,随着搜索引擎功能的曰渐强大,搜索结果中还可能包含搜索引擎自身提供的一些资源,这类资源的网页链接中往往包含4叟索引擎的网址(如以www.google.com开头的网页链接)。这些资源对网络营销者没有帮助,因此资源搜索系统也会将此类资源的网页链接滤除掉。应注意,步骤208是可选步骤。在本发明的另 一实施例中,也可对搜索引擎返回的搜索结果列表不做任何处理。
在步骤210,对于优化结果列表(或搜索结果列表,例如在对搜索结果列表不做任何处理的情况下)中的每一条网页链接,资源搜索系统爬取该网页链接所对应网页上的资源,并判断爬取的资源中是否包含联系人信息,例如联系人的电子邮箱。在具体实现过程中,资源搜索系统可依据预先设置的联系人信息的信息特征来查找具备该信息特征的信息,例如对于电子邮箱信息而言,其信息特征是存在@和域名组成的特征字符串,从而可以将包含该信息特征即该特征字符串的一串字符认定为联系人的电子邮箱。若资源搜索系统在爬取的资源中找到联系人信息,则方法200转到步骤212,否则转到步骤214。
如上文所述,若在步骤210,资源搜索系统在爬取的资源中找到联系人信息,则方法200转到步骤212,输出找到的联系人信息。随后方法200转到步骤218。
如上文所述,若在步骤210,资源搜索系统在爬取的资源中未能找到联系人信息,则方法200转到步骤214,解析该网页链接,得到对应的网站链接。例如,若该网页链4妄为http:〃www.tianya.cn/default.htm ,则经解析得到的对应
8的网站链接http:〃www.tianya.cn/。随后方法200转到步骤216。
随后,在下一步骤216,资源搜索系统爬取解析得到的网站上的联系人页 面(例如点击"与我们联系"、"关于我们"、以及英文网页中薄的"aboutus,, 等按钮所得到的页面)上的资源,并在爬取的资源中查找并输出联系人信息。 随后方法200转到步骤218。在具体实现过程中,资源搜索系统首先爬取网站 主页上的资源。由于有价值的联系人信息一般出现在商业网站之中,因此资源 搜索系统可依据网站主页上的资源来判断当前网站是商业网站还是非商业网 站。若是非商业网站,则终止对该网站的处理过程(例如终止^^联系人页面 上的资源)。对于中文商业网站而言,其主页资源中一般包括,(工商标志) 图片,^^图片包含www.hd315.gov.cn链接。这样一来,便可通过在主页资源 中查找,图片和www.hd315.gov.cn链接来辨识该网站是否为商业网站。
作为可选的,资源搜索系统还可依次爬取上述网站的各级页面上的资源, 并在爬取的资源中查找联系人信息,直到找到联系人信息或者所爬取页面的级 数到达预定的上限。对于大型网站而言,其网站中网页按照分级方式显示。因 此可依次爬取网站各级页面上的资源,并在爬取的资源中查找联系人信息。在 找到联系人信息后,即可停止资源的爬取过程。此外,若在爬取了多个级别页 面的资源后仍未找到联系人信息,则可在所爬取页面的级数到达预订的上限时 停止搜索。随后方法200继续4丸行方法218。 最后,方法200结束于步骤218。
本发明还提供了一种资源搜索系统,下面就结合图3对其进行描述。 图3是依据本发明一较佳实施例的资源搜索系统300的结构示意图。如图 3所示,资源搜索系统300包括搜索模块302、地址解析模块304和网页爬取 模块306。而且资源搜索系统300还通信连接(例如通过互联网)至少一个搜 索引擎308。
搜索模块302用于接收输入的关键字310,并将其转发给至少一个搜索引 擎308。至少一个搜索引擎308依据关键字310查找包含该关键字310的资源, 得到搜索结果列表312,发送给搜索模块302。如上文所述,搜索结果列表312 内包括包含关键字310的资源的网页链接。在收到搜索结果列表312后,搜索模块302对搜索结果列表312进行整合 优化,得到优化结果列表。资源搜索系统可能将同一关^:字同时发往多个搜索 引擎,而各个搜索引擎得到的搜索结果可能存在相互重复的情况。因此,搜索 模块302可以对各个搜索引擎得到的搜索结果进行合并,删除重复资源(可依 据网页链接是否相同等方法来辨识重复资源)。此外,随着搜索引擎功能的曰 渐强大,搜索结果中还可能包含搜索引擎自身提供的一些资源,这类资源的网 页链接中往往包含搜索引擎的网址(如以www.google.com开头的网页链接)。 这些资源对网络营销者没有帮助,因此搜索模块302也会将此类资源的网页链 接滤除掉。应注意,对搜索结果列表312进行整合优化以得到优化结果列表的 操作是可选的。在本发明的另一实施例中,也可对搜索结果列表312不做任何 处理。
随后,搜索模块302读取优化结果列表中的每一条网页链接,发往网页爬 取模块306。
网页爬^Mt块306用于接收搜索模块302发来的网页链接,爬取该网页链 接对应网页上的资源,并将爬取的资源发送给搜索模块302,由搜索模块302 在爬取的资源中查找联系人信息,并输出。
在运行过程中,搜索模块302接收网页爬取模块306爬取的网页上的资源, 依据预先设置的联系人信息的信息特征来查找具备该信息特征的信息,例如对 于电子邮箱信息而言,其信息特征是存在@和域名组成的特征字符串,从而可 以将包含该信息特征即该特征字符串的一串字符认定为联系人的电子邮箱。若 搜索模块302未能在网页爬取模块306爬取的网页上的资源中找到联系人信 息,则搜索模块302将该网页链接发送给地址解析模块304。
地址解析模块304用于接收搜索模块302发来的网页链接并对其进行解 析,得到对应的网站链接。例如,若网页链接为http:〃www.tianya.cn/default.htm, 则经解析得到的该网页链接对应的网站链接为http:〃www.tianya.cn/。在解析得 到对应的网站链接后,地址解析才莫块304将该网站链接发送给网页爬取模块 306。
网页爬^Mt块306用于接收地址解析模块304发出的网站链接,爬取该网站链接对应的网站上的联系人页面(例如点击"与我们联系"、"关于我们"按
钮所得到的页面)上的资源,并将爬取的资源发送给搜索模块302,由搜索模块302在爬取的资源中查找联系人信息,并输出。
作为可选的,网页爬取才莫块306还可依次爬取上述网站的各级页面上的资源,并在每次爬取一级页面后,将该页面上的资源发往搜索模块302中查找联系人信息,直到搜索模块302在爬取的资源中找到联系人信息或者所爬取页面的级数到达预定的上限,该级数上限可由用户指定。对于大型网站而言,其网站中网页按照分级方式显示。因此可依次爬取网站各级页面上的资源,并在每;火爬取一级页面后,将该页面上的资源发往搜索模块302查找联系人信息。在搜索模块302找到联系人信息后,即可停止资源的爬取过程。此外,若在爬取了多个级别页面的资源后仍未找到联系人信息,则可在所爬取页面的级数到达预定的上限时停止爬取,从而结束对相应网页链接的处理,随后,由搜索模块302读取优化结果列表中的下一条网页链接,重复执行上述处理过程。
此外,在具体实现过程中,网页爬取模块306首先爬取网站主页上的资源。由于有价值的联系人信息一般出现在商业网站之中,因此搜索模块302可依据网站主页上的资源来判断当前网站是商业网站还是非商业网站。若是非商业网站,则终止对该网站的处理过程(例如终止爬取联^、页面上的资源)。对于中文商业网站而言,其主页资源中一般包括,图片,且该^片包含www.hd315 .gov.cn链接。这样 一 来,便可通过在主页资源中查找,图片和www.hd315 .gov.cn链4矣来辨识该网站是否为商业网站。
下面结合具体实例来描述本发明提供的资源搜索方案。
图4是依据本发明 一较佳实施例的关键字输入界面400的示意图。如图4所示,关键字输入界面400包括关键字输入栏402。用户通过关键字输入栏402输入关键字。应注意,该关键字与用户使用搜索引擎时输入的关键字基本相同,并无实质区别。
图5是依据本发明一较佳实施例的搜索引擎选择界面500的示意图。如图5所示,搜索引擎选择界面500中列有多个搜索引擎名称,例如但不限于Google(谷歌)、Baidu(百度)、Yahoo (雅虎)、Sina(新浪)等。用户可通过选中搜索引擎名称前面的选择框来选择对应的搜索引擎。如上文所述,在用户选中
某一个或一些搜索引擎后,通过上文图4中的关键字输入界面400输入的关键 字将发往这些选中的搜索引擎。
如上文所述,在得到搜索引擎返回的搜索结果列表后,本发明提供的资源 搜索系统将对搜索结果列表进行进一步的处理,依据搜索结果列表爬取对应的 资源,并在爬取的资源中提取联系人信息,例如但不限于电子邮箱信息等。
图6是依据本发明一较佳实施例的联系人信息显示界面600的示意图。如 图6所示,联系人信息显示界面600中列有多个联系人信息条目,每一联系人 信息条目中记录有电子邮箱信息。作为可选的,联系人条目中还可记录有例如 但不限于该电子邮箱所属用户所在国家,及该电子邮箱所属客户相关联网站的 网站链接。该网站链接的获取方法已在前文做了描述,此处不再赘述。随后, 通过解析该网站的域名,便可获取该网站所在的国家,即该电子邮箱所属用户 所在的国家。
除上文描述的功能外,本发明提供的资源搜索系统还可接收用户输入的网 址,例如商家聚集的站点的地址如www.alibaba.com.cn,然后依照用户输入的 级数逐层抓取各级网页上的内容,并在抓取的内容中查找联系人信息。此外, 本发明提供的资源搜索系统还可搜索本地硬盘中的联系人信息。
由上文所述可以得出,本发明具有高效、简单、智能、低成本、客户资源 全面等优点。 一个没有任何互联网经验的使用者,都可以通过本资源搜索系统 在一个晚上找到上千个潜在客户。本资源搜索系统利用了搜索引擎的索引算 法,通过关键字做出智能判断,找到目标客户,因此找到的客户匹配率极高, 营销成功率比传统方法高很多;由于本资源搜索系统充分利用互联网的技术, 所以耗费成本极低,只需要上网费就可以找到大量的客户资源;将资源搜索系 统与多个超大型搜索引擎配合使用,可有效覆盖互联网上的绝大多数客户资 源,因此对做进出口贸易的客户尤其有效。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。
1权利要求
1、一种资源搜索方法,包括如下步骤S1、接收输入的关键字;S2、调用至少一个搜索引擎搜索包含关键字的资源,得到搜索结果列表,其中包含搜索到的资源的网页链接;其特征在于,所述资源搜索方法还包括S3、在搜索结果列表中各网页链接所对应网页上的资源中查找联系人信息并输出。
2、 根据权利要求1所述的资源搜索方法,其特征在于,所述步骤S3进一步包括,对于搜索结果列表中的每一条网页链接执行如下步骤531、 爬取该网页链接对应网页上的资源,并在该资源中查找所述联系人信息;532、 若未能在该资源中找到联系人信息,则解析该网页链接,得到对应的网站链接;533、 爬取所述网站链接对应网站上的资源,并在爬取到的资源中查找联系人信息。
3、 根据权利要求2所述的资源搜索方法,其特征在于,所述步骤S33进一步包括,爬取所述网站的联系人页面上的资源,并在爬取到的资源中查找所述联系人信息。
4、 根据权利要求3所述的资源搜索方法,其特征在于,所述步骤S33进一步包括S331、依次爬取所述网站每一级页面上的资源,并在该页面上的资源中查找所述联系人信息,直到找到联系人信息或者该页面的级数到达预定的上限。
5、 根据权利要求1所述的资源搜索方法,其特征在于,所述联系人信息包括电子邮件信息。
6、 一种资源搜索系统,与至少一个搜索引擎通信连接,用于调用该搜索引擎搜索包含输入的关键字的资源,得到搜索结果列表,其中包含搜索到的资源的网页链接;其特征在于,所述资源搜索系统包括 网页爬取4莫块;搜索模块,用于调用网页爬取模块爬取搜索结果列表中各网页链接对应网 页上的资源,并在爬取的资源中查找联系人信息并输出。
7、 根据权利要求6所述的资源搜索系统,其特征在于,对于搜索结果列 表中的每一条网页链接,所述搜索模块用于调用网页爬取模块爬取该网页链接 对应网页上的资源,并在该资源中查找所述联系人信息;若未能在该资源中找 到联系人信息,则发出该网页链接;所述资源搜索系统还包括地址解析模块,用于接收并解析搜索模块发出的网页链接,得到并发出对 应的网站链4妄;所述网页爬取模块用于接收地址解析模块发出的网站链接,爬取该网站链 接所对应网站上的资源,并将爬取的资源发往所述搜索^^莫块以在其中查找联系 人信息。
8、 根据权利要求7所述的资源搜索系统,其特征在于,所述网页爬取模 块用于爬取所述网站的联系人页面上的资源。
9、 根据权利要求7所述的资源搜索系统,其特征在于,所述网页爬取模 块用于依次爬取所述网站每一级页面上的资源,并将该页面上的资源发往搜索 模块以查找所述联系人信息,直到搜索模块在该页面上的资源中找到联系人信 息或者该页面的级数到达预定的上限。
10、 根据权利要求6所述的资源搜索方法,其特征在于,所述联系人信息 包括电子邮件信息。
全文摘要
本发明涉及资源搜索技术,针对现有搜索引擎无法在搜索结果中自动识别出网络营销者所需的联系人信息等缺陷,涉及一种资源搜索方法和资源搜索系统。资源搜索方法包括接收输入的关键字;调用搜索引擎搜索包含关键字的资源,得到搜索结果列表,其中包含搜索到的资源的网页链接;在搜索结果列表中各网页链接对应网页上的资源中查找联系人信息并输出。本发明还提供了一种资源搜索系统。实施本发明的技术方案,具有以下有益效果,依照预先设置的信息特征,本发明提供的资源搜索方案能在搜索引擎找到的搜索结果中进一步识别出电子邮箱等联系人信息,从而使得网络营销者无需花费大量的时间在搜索结果中查找自己想要的资源,极大的提高了网络营销的效率。
文档编号G06F17/30GK101639838SQ20081014222
公开日2010年2月3日 申请日期2008年7月31日 优先权日2008年7月31日
发明者邓桂潮, 雷国强 申请人:深圳龙媒网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1