一种分类站点挖掘方法和装置以及搜索方法和系统的制作方法

文档序号:8223575阅读:255来源:国知局
一种分类站点挖掘方法和装置以及搜索方法和系统的制作方法
【技术领域】
[0001]本发明涉及数据挖掘技术领域,具体涉及一种分类站点挖掘方法和装置以及搜索方法和系统。
【背景技术】
[0002]当搜索引擎需要收录特定类型的互联网资源的时候,往往需要对站点进行分类。例如,需要收录一些IT技术类型的资源时,往往需要先挖掘一些IT技术站点,然后再根据这些站点的特点采取特定的策略爬取网站上的资源网页。
[0003]现有技术中,挖掘特定类型的站点,首先需要对站点的内容进行分类,这是收录工作的第一步。目前对站点的分类一般是用关键词匹配的方法,即首先设定一些关键词,然后计算网页中是否包含这些关键词,包含一定数量的关键词的网页则认为是需要的类型,然后统计网站上所有网页的类型来确定站点是否为需要的类型。
[0004]上述方案具有以下缺陷:1、用关键词匹配的方法首先需要确定大量的关键词,而关键词的确定过程十分繁琐,需要人工参与,关键词的全面性都无法保证。2、由于关键词匹配存在同义词的问题,即同一种意思可能有不同的说法,导致匹配过程交互性差、准确率不高。3、网页关键词匹配程序比较复杂,需要针对所有的网页做大量的计算,费时费力,可实施性差。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种分类站点挖掘方法和装置以及搜索方法和系统。
[0006]依据本发明的一个方面,提供了一种分类站点挖掘方法,该方法包括:
[0007]对于一个待挖掘的站点分类,确定属于该分类的一个或多个基础站点;
[0008]提取基础站点网页内容,并挖掘基础站点网页内容中的推荐和/或引用的其他站点链接;
[0009]将所述其他站点链接中的一个或多个添加到该分类的站点集合中。
[0010]可选地,所述基础站点包括:博客站点和/或电子公告牌系统BBS站点。
[0011]可选地,所述确定属于该分类的一个或多个基础站点包括:
[0012]通过分析查找属于该分类并满足如下一项或多项条件的站点作为基础基站:属于该分类的专业性网站、属于该分类的权威性网站和属于该分类的用户访问量最大的网站。
[0013]可选地,所述挖掘所述基础站点网页内容中的推荐和/或引用的其他站点链接包括:
[0014]从所述基础站点的网页中提取标题和/或正文内容;
[0015]在提取的标题和/或正文内容中挖掘推荐和/或引用的其他站点链接。
[0016]可选地,该方法进一步包括:
[0017]对于一个分类站点集合中的站点按照域名进行聚类,将聚类后数量最多的一组站点作为该分类的基础站点重复上述的挖掘过程。
[0018]依据本发明的另一个方面,提供了一种搜索方法,该方法包括:
[0019]接收搜索请求;
[0020]基于各种分类的站点集合进行搜索得到搜索结果;
[0021]其中,所述各种分类的站点集合是依据如上任一项所述的方法获得的。
[0022]依据本发明的又一个方面,提供了一种分类站点挖掘装置,该装置包括:
[0023]基础站点确定单元,适于对于一个待挖掘的站点分类,确定属于该分类的一个或多个基础站点;
[0024]挖掘单元,适于提取基础站点网页内容,并挖掘基础站点网页内容中的推荐和/或引用的其他站点链接;
[0025]添加单元,适于将所述挖掘单元挖掘的其他站点链接中的一个或多个添加到该分类的站点集合中。
[0026]可选地,所述基础站点确定单元,适于确定博客站点和/或电子公告牌系统BBS站点作为该分类的基础站点。
[0027]可选地,所述基础站点确定单元,适于通过分析查找属于该分类并满足如下一项或多项条件的站点作为基础基站:属于该分类的专业性网站、属于该分类的权威性网站和属于该分类的用户访问量最大的网站。
[0028]可选地,所述挖掘单元,适于从所述基础站点的网页中提取标题和/或正文内容,在提取的标题和/或正文内容中挖掘推荐和/或引用的其他站点链接。
[0029]可选地,所述基础站点确定单元,进一步适于对于一个分类站点集合,对该分类站点集合中的站点按照域名进行聚类,将聚类后数量最多的一组站点作为该分类的基础站点。
[0030]依据本发明的再一个方面,提供了一种搜索系统,该系统包括:
[0031]如上任一项所述的分类站点挖掘装置,适于挖掘得到各种分类的站点集合;
[0032]搜索装置,适于接收搜索请求,基于各种分类的站点集合进行搜索得到搜索结果。
[0033]由上述可知,本发明提供的技术方案利用基础站点的推荐、引用关系,挖掘出与基础站点属于相同站点分类的其他站点,得到该分类的站点集合;并基于各种分类的站点集合进行搜索得到搜索结果。本技术方案原理简单直观,克服了现有技术中操作繁琐、可实施性差的缺陷,具有更加便捷、有效,且召回率和准确率更高的优点,使得用户在进行搜索时,能够获得快速、有效、准确的分类站点搜索结果,符合用户的搜索需求。
[0034]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0035]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0036]图1示出了根据本发明一个实施例的一种分类站点挖掘方法的流程图;
[0037]图2示出了根据本发明一个实施例的一种搜索方法的流程图;
[0038]图3示出了根据本发明一个实施例的一种分类站点挖掘装置的示意图;
[0039]图4示出了根据本发明一个实施例的一种搜索系统的示意图;
[0040]图5A示出了根据本发明一个实施例的属于IT技术分类的基础站点的首页的示意图;
[0041]图5B示出了根据本发明一个实施例的属于IT技术分类的基础站点的网页的示意图;
[0042]图5C示出了根据本发明另一个实施例的属于IT技术分类的基础站点的网页的示意图。
【具体实施方式】
[0043]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0044]图1示出了根据本发明一个实施例的一种分类站点挖掘方法的流程图。如图1所示,该方法包括:
[0045]步骤S110,对于一个待挖掘的站点分类,确定属于该分类的一个或多个基础站点。
[0046]步骤S120,提取基础站点网页内容,并挖掘基础站点网页内容中的推荐和/或引用的其他站点链接。
[0047]步骤S130,将所述其他站点链接中的一个或多个添加到该分类的站点集合中。
[0048]本步骤中,对步骤S120中挖掘出的所述其他站点链接进行筛选,从中选出一个或多个链接添加到该分类的站点集合中。
[0049]可见,图1所示的方法利用基础站点中的推荐、引用关系,挖掘出与基础站点属于相同站点分类的其他站点,得到该分类的站点集合。本技术方案原理简单直观,克服了现有技术中操作繁琐、可实施性差的缺陷,提供了一种更加便捷、有效,且召回率和准确率更高的分类站点挖掘方法。
[0050]在本发明
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1