建立导航查询数据库的方法及装置的制作方法

文档序号:6470967阅读:186来源:国知局

专利名称::建立导航查询数据库的方法及装置的制作方法
技术领域
:本发明涉及互联网信息处理
技术领域
,特别是涉及建立导航查询数据库的方法及装置。
背景技术
:利用搜索引擎进行查询时,根据用户查询目的的不同大致可以分为导航查询和信息查询两类。其中,关于导航查询,用户的直接目的是访问一个已知的网站,例如输入宁夏人民政府,其目标是www.nx.gov.cn/;输入摩托罗拉首页,其目标是www.motorola,com.cn/;输入远梦书城,其目标是www.my285.com/。关于信息查询,用户的直接目的是获取以查询词为关键字的信息,而并不在意信息是由哪个网站或网页4是供的。例如查询词为陈良宇之子获刑、新疆暴力袭警案、硕士生当农民等。搜索引擎服务器会根据用户输入的查询词,将所有相关网页按照相关度进行排序后返回给用户,以供用户选择。但是对于导航查询而言,有且只有一个网页可以满足用户的需求,如果这个网页不能排在比较靠前的位置,会比较严重地伤害用户的感受。为此,有些搜索引擎维护了个导航数据库,如表1所示,其中包括了导航查询词及其查询目标,当用户输入的查询词命中导航数据库时,该查询词对应的查询目标将会出现在搜索结果的第一位或比较靠前的位置。表1<table>tableseeoriginaldocumentpage7</column></row><table>上述方法能够实现将导航查询的网页显示在比较靠前的位置,但是如何生成该导航数据库则成为比较关键的问题。现有技术中,通常基于搜索引擎日志来发现导航查询,即分析搜索日志信息,获取在某个信息查询词下,用户点击频率符合预置条件的网址,依据信息查询词获取针对所述网址的描述信息,所述描述信息包括关键词,最后依据所获得的网址和相应的描述信息,发现导航查询,并生成导航数据库。但是搜索引擎日志中记录的用户点击日志并不能够覆盖所有的导航查询,尤其是一些不常用的小网站的导航查询往往无法实现。例如,用户的点击日志中不包括"凤城市凯驰内燃机配件有限公司"这一查询词。另外,用户在搜索引擎中输入的查询词一般比较随意,缩写、简称或书写错误较为常见,使得生成的导航查询词表不够规范,噪音较多。例如,在查询日志中,有查询词"系词胡同"系"西祠胡同"的笔误,查询词"雅诗兰戴,,,系"雅诗兰黛"的笔误,这样的错误输入很有可能被当成导4元查询。综上所述,需要本领域技术人员迫切解决的技术问题是如何创造性地提出一种生成导航数据库的解决方法,使得获得的导航数据库能够覆盖更多的导航查询,并且使导航查询更加规范,减少噪音。
发明内容有鉴于此,本发明的目的在于提供建立导航查询数据库的方法及系统,以解决现有技术中导航数据库覆盖面小、有些导航查询不够规范的问题。为实现上述目的,本发明提供了如下方案一种建立导航查询数据库的方法,包括分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的目标网址;对于一链接文本上呈现的文字,判断是否存在符合预置条件的目标网址;如果存在,保存链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系,建立导航查询数据库。优选的,所述判断是否存在符合预置条件的目标网址之前还包括选择符合统一资源定位符URL格式的目标网址,并对所述符合URL格式的目标网址进行所述判断的步骤。优选的,还包括对链接文本上呈现的文字及对应的所述符合预置条件的目标网址进行验证,如果验证通过,则进入所述保存的步骤。优选的将链接文本上呈现的文字作为查询词发送到多个搜索引擎进行搜索,比较各搜索引擎返回的第一位的结果与所述符合预置条件的目标网址是否一致,如果是,则验证通过。优选的,所述判断是否存在符合预置条件的目标网址的具体实现包括统计链接文本上呈现的文字a在链接文本数据库中出现的总次数A^),及呈现该文字a的各链接文本指向次it最多的目标网址,,并获取指向该目标网址^的次数7V",J;判断7V(a,U与iV(fl)的比值是否大于预置阈值,如果大于,则该目标网址^符合预置条件。一种建立导航查询数据库的装置,包括链接文本分析单元,用于分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的目标网址;判断单元,用于对于一链接文本上呈现的文字,判断是否存在符合预置条件的目标网址;数据库建立单元,用于当存在符合预置条件的目标网址时,保存链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系,建立导航查询数据库。优选的,还包括选择单元,用于选择符合统一资源定位符URL格式的目标网址,并将所述符合URL格式的目标网址输入到所述判断单元。优选的,还包括校验单元,用于对链接文本上呈现的文字及对应的所述符合预置条件的目标网址进行验证,如果验证通过,则触发所述数据库建立单元执行所述保存的操作。优选的,所述校验单元包括发送子单元,用于将链接文本上呈现的文字作为查询词发送到至少一个搜索引擎进行搜索;比较子单元,用于比较各搜索?1擎返回的第一位的结果与所述符合预置条件的目标网址是否一致,如果是,则验证通过,并触发所述数据库建立单元执行所述保存的操作。优选的,所述判断单元包括统计子单元,用于统计链接文本上呈现的文字a在链接文本数据库中出现的总次数A^),及呈现该文字a的各链接文本指向次数最多的目标网址/,并获耳又指向该目标网址^的次凄tiV(a人);计算子单元,用于判断W(a人)与A^)的比值是否大于预置阈值,,如果大于,则该目标网址^符合预置条件。一种网址导航方法,包^":分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的目标网址;对于一链接文本上呈现的文字,判断是否存在符合预置条件的目标网址;如果存在,保存链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系,建立导航查询凝:据库;接收用户输入的查询词,检索所述导航查询数据库,向用户返回与所述查^句"i司才目匹酉己的网il:。优选的,所述判断是否存在符合预置条件的目标网址之前还包括选择符合统一资源定位符URL格式的目标网址,并对所述符合URL格式的目标网址进行所述判断的步骤。优选的,还包括对链接文本上呈现的文字及对应的所述符合预置条件的目标网址进行验证,如果验证通过,则进入所述保存的步骤。优选的将链接文本上呈现的文字作为查询词发送到多个搜索弓1擎进行搜索,比较各搜索引擎返回的第一位的结果与所述符合预置条件的目标网址是否一致,如果是,则验证通过。优选的,所述判断是否存在符合预置条件的目标网址的具体实现包括统计链接文本上呈现的文字a在链接文本数据库中出现的总次数7V(a),及呈现该文字a的各链接文本指向次数最多的目标网址^,并获取指向该目标网址^的次数iV"0;判断A^人)与A^)的比值是否大于预置阈值,如果大于,则该目标网址^符合预置条件。一种网址导航系统,包括链接文本分析单元,用于分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的目标网址;判断单元,用于对于一链接文本上呈现的文字,判断是否存在符合预置条件的目标网址;导航查询数据库,用于保存链接文本上呈现的文字及所述符合预置条件的目标网址的只于应关系;4妻口单元,用于4矣收用户llr入的查询词,并展示相应的目标网址;检索单元,用于纟全索所述导4元查询数据库,向用户返回与所述查询词相匹配的目标网址。优选的,还包括选择单元,用于选择符合统一资源定位符URL格式的目标网址,并将所述符合URL4各式的目标网址输入到所述判断单元。优选的,还包括校验单元,用于对链接文本上呈现的文字及对应的所述符合预置条件的目标网址进^v验i正。优选的,所述4t验单元包括发送子单元,用于将链接文本上呈现的文字作为查询词发送到多个搜索引擎进行搜索;比较子单元,用于比较各搜索引擎返回的第一位的结果与所述符合预置条件的目标网址是否一致,如果是,则验证通过。优选的,所述判断单元包括统计子单元,用于统计链接文本上呈现的文字a在链接文本数据库中出现的总次数A^),及呈现该文字a的各链接文本指向次数最多的目标网址l,并获取指向该目标网址l的次数7V(a,l);计算子单元,用于判断A^,"与A^)的比值是否大于预置阈值,如果大于,则该目标网址,符合预置条件。一种网址导航方法,包括接收用户输入的查询词;分析链接文本数据库,获取与所述查询词相匹配的链接文本上呈现的文字,并获取呈现该文字的各链接文本所指向的目标网址;在所述各目标网址中,判断是否存在符合预置条件的目标网址;如果存在,向用户返回所述符合预置条件的目标网址。优选的,所述判断是否存在符合预置条件的目标网址之前还包括选捧符合统一资源定位符URL格式的目标网址,并对所述符合URL格式的目标网址进行所述判断的步骤。'优选的,所述判断是否存在符合预置条件的目标网址的具体实现包括统计链接文本上呈现的文字a在链接文本数据库中出现的总次数iV(a),及呈现该文字a的各链接文本指向次数最多的目标网址,,并获取指向该目标网址^的次数W(",u;判断iV(a,。与iV(a)的比值是否大于预置阈值,如果大于,则该目标网址^符合预置条件。一种网址导航系统,包括才妄口单元,用于4妄收用户输入的查询词,并展示相应的目标网址;链接文本分析单元,用于分析链接文本数据库,获取与所述查询词相匹配的链接文本上呈现的文字,并获取呈现该文字的各链接文本所指向的目标网址;判断单元,用于在所述各目标网址中,判断是否存在符合预置条件的目标网址;如果存在,将所述符合预置条件的目标网址通过所述接口单元向用户展示o优选的,还包括选择单元,用于选择符合统一资源定位符URL格式的目标网址,并将所述符合URL格式的目标网址输入到所述判断单元。优选的,所述判断单元包括统计子单元,用于统计链"^妄文本上呈现的文字a在链接文本数据库中出现的总次数iV(a),及呈现该文字a的各链接文本指向次数最多的目标网址^,并获取指向该目标网址fm的次数、);计算子单元,用于判断iV(",O与W(a)的比值是否大于预置阈值,如果大于,则该目标网址符合预置条件。根据本发明提供的具体实施例,本发明公开了以下技术效果本发明采用基于链接文本分析的导航发现方法,由于链接文本的数量一般远大于搜索引擎的点击日志数量,而且不受网站大小、是否常用的约束,因此可以发现更大规模的导航查询,增大了导航数据库的覆盖面。同时,由于链接文本通常是由网站作者生成的,因此用于导航查询发现的数据质量更高,使获得的导航查询更加规范、噪音较少。其次,本发明在对链接文本分析的基础上,还引入了搜索引擎日志等其他相关信息,以便进一步校正或修正分析结果,从而可以获取更为准确的导航查询。图1是本发明提供的建立导航查询数据库的方法的流程图2是链^l妄文本与目标网址的对应关系示意图3是本发明提供的建立导航查询数据库的另一方法的流程图4是本发明提供的建立导航查询数据库的装置的示意图5是本发明提供的建立导航查询数据库的另一装置的示意图6是本发明提供的网址导航方法的流程图7是本发明提供的网址导航系统的示意图8是本发明提供的另一网址导航系统的示意图。具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。参见图1,本发明实施例提供的建立导航查询数据库的方法包括以下步骤S101:分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的目标网址;S102:对于一链接文本上呈现的文字,判断是否存在指向次数符合预置条件的目标网址,如果存在,进入步骤S103;S103:保存链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系,建立导^t查询数据库。本发明的目的是使建立的导航数据库能够覆盖更多的导航查询,同时使得获取的导航查询更加规范,减少噪音。因此,关键是要寻找一种合适的数据源,并从中挖掘出所需的导航查询信息。在本发明实施例中,选取了链接文本数据库作为数据源,为了更好地理解本发明,下面首先对链接文本进行简要地介绍。互联网上的网页是通过超链接连接在一起的。超链接在本质上属于一个网页的一部分,它是一种允许我们同其他网页或站点之间进行连接的元素。各个网页链接在一起后,才能真正构成一个网站。所谓的超链接是指从一个网页指向一个目标的连接关系,这个目标可以是另一个网页,也可以是相同网页上的不同位置,还可以是一个图片,一个电子邮件地址,一个文件,甚至是一个应用程序。而在一个网页中用来链接的对象,可以是一段文本或者是一个图片等。当浏览者单击已经链4妄的文字或图片后,链4娄目标将显示在浏览器上,并且才艮据目标的类型来打开或运行。图2所示就是一个超链接的例子。其中,箭头以下的部分为源网页,箭头以上的部分为目标网页,超链4妄,人源网页指向目标网页,显示在源网页上的文字就是链接文本。通常,链接文本数据库中包括链接文本上呈现的文字、链接文本所在的源统一资源定位符(UniformResourceLocator,URL)、链4娄文本指向的目标URL,因此链接文本可以对链接所指向页面的做出评估,能够精确的描述所指向页面的内容。另一方面,几乎所有的网站都会有自己的链接文本,而且链接文本一般是由网站的建设者生成的,因此链接文本上呈现的文字通常比较规范、噪音较少,一般不会出现错别字之类的错误。从以上对链接文本的介绍可以看出,链接文本数据库主要具有以下特点具有链接文本上呈现的文字与呈现该文字的链接文本所指向的目标网址的对应关系,同时数据量大、数据覆盖面广,并且链接文本上呈现的文字用语规范、噪声较少。因此,能够满足本发明的建立导航查询数据库所需数据源的要求。其中,可以通过多种方法来判断是否存在指向次数符合预置条件的目标网址。例如可以统计链接文本上呈现的文字的集中度。由于呈现同一文字的链接文本通常会指向多个目标网址,这些目标网址中有的相同,有的不相同,因此,所述链接文本上呈现的文字的集中度是指,对于一个链接文本上呈现的文字a及呈现该文字的链接文本所指向的某目标网址u,该链接文本上呈现的文字a以多高的比例集中在u上。本发明实施例提供了一种计算所述集中度的方法,现详细描述如下首先,对于一条链接文本上呈现的文字a,统计其在链接文本中出现的总次数,设为7V(");并统计呈现该文字a的链接文本所指向的目标网址,设为n个,对于每一个目标网址t,统计呈现文字a的各链接文本指向该目标网址的次数7V(a力。因此有<formula>formulaseeoriginaldocumentpage15</formula>(1)其中,公式(l)中的6,v.人为a指向的n个目标网址。设其中^为呈现文字a的链接文本所指向次数最多的目标网址,即iV(a,0>7VO,0l"n且km(2)则通过以下公式计算集中度集中度=iVO,,m)/W(a)(3)然后,判断集中度是否大于某预置的阈值(如,可以为O.8),如果大于,则i^为呈现文字a的链"^妄文本集中地指向目标网址^。因此可以将链接文本上呈现的文字a看作是导航词,并且其目标网址为^。将链接文本上呈现的文字-目标网址对(a,^)进行保存,得到导航查询数据库。由于有些网页上的链接文本可能并不标准,使得点击该链接时可能存在"该链接不存在"或"该链接为空"等现象。因此,在本发明的优选实施例中,可以先将这些目标网址过滤掉。优选的,可以通过以下方式进行过滤判断各目标网址是否符合URL格式,将不符合URL格式的目标网址过滤掉,然后只判断符合URL格式的目标网址中,是否存在符合预置条件的目标网址。需要说明的是,URL是用于完整地描述Internet上网页和其他资源的地址的一种标识方法,URL是统一的,因为它们采用相同的基本语法,无论是寻址哪种特定类型的资源(网页、新闻组),还是描述通过哪种机制获取该资源。对于Internet服务器或万维网服务器上的目标文件,可以使用URL地址(该地址以"http:〃"开始)。在实际应用中,进行错误的推荐往往比不进行推荐还更加伤害用户的体验,因此,建立导航查询数据库时,准确性是比较重要的问题,为了保证获取的导航词及其对应的目标网址的准确性,本发明的优选实施例中可以利用搜索引擎进行验证,如果验证通过,才进行保存。此时可以将上述过程得到的链接文本上呈现的文字-目标网址对(a,^)看作是导航查询候选集合。其中,验证的过程可以如下进4亍将导航查询候选集合中的链接文本上呈现的文字作为查询词发送到多家搜索引擎进行搜索,获取各搜索引擎返回的排在第一位的搜索结果,例如,可以得到以下数组(a,,m,搜索引擎l的第一位结果,搜索引擎2的第一位结果,……)。比较、与各搜索引擎返回的排在第一位的搜索结果进行比较,如果一致,则验证通过,即认为a是导航词,且其目标网址为c,并将该导航词-目标网址对保存到导航查询数据库中。当然,上述验证方法可能并不是绝对的,在少数情况下也可能并不适用。在实际应用中,还可以结合使用其他的智能识别方法,或人工识别的方式来进行尽量准确的验证。为了更加清楚地理解本发明实施例地方法,下面通过具体的例子进行详细地描述。链接文本数据库中包括链接文本上呈现的文字、链接文本所在的源统一资源定位符(UniformResourceLocator,URL)、链接文本指向的目标URL,例^口,可以》口表2戶斤示表2<table>tableseeoriginaldocumentpage17</column></row><table>参见图3,在该例子中包括以下步骤S301:对链接文本数据进行统计,计算呈现某文字的链接文本各指向各目标网址的次数,如表3所示表3<table>tableseeoriginaldocumentpage17</column></row><table>S302:对每一个链接文本上呈现的文字,累加呈现该文字的链接文本指向不同目标的次数,就得到了链接文本上呈现的文字出现的总次数。比较呈现同一个文字的链接文本被指向不同目标网址的次数,就得到了指向次数最多的目标网址,如表4所示表4<table>tableseeoriginaldocumentpage17</column></row><table>S303:计算表4中的三个链接文本上呈现的文字中,呈现各文字的链接文本指向次数最多的目标网址的集中度;S304:判断计算得到的集中度是否大于某预置的阈值(设为0.8)。S305:将集中度大于所述预置阈值的链接文本上呈现的文字-目标网址对作为导航查询候选。例如,计算得到(搜狐,www.sohu.com/)的集中度为90.1%,大于O.8,贝寸4史为j美选导4元查询j夷选;(hualin,www.china1ions,com/)的集中度为82.4%,大于0.8,则收为候选导航查询候选;(北京宽沟,www.kuangou.com/)的集中度为39.8%,小于0.8,则不收为候选导航查询候选;S306:把候选导航查询的链接文本上呈现的文字作为查询词发送到若干个搜索引擎,例如搜狗和百度,记录第一位的结果,如表5所示<table>tableseeoriginaldocumentpage18</column></row><table>S307:比较链接文本上呈现的文字集中的目标、搜狗第一位、百度第一位,如果三者一致,则查询词是导航词,其目标是链接文本上呈现的文字集中的目标。经比较,(搜狐,www.sohu.com/)是导航查询,(hualin,www.chinalions.com/)不是导航查询。综上可见,本发明实施例采用基于链接文本分析的导航发现方法,由于链接文本的数量一般远大于搜索引擎的点击日志数量,而且不受网站大小、是否常用的约束,因此可以发现更大规模的导航查询,增大了导航数据库的覆盖面。同时,由于链接文本上呈现的文字通常是由网站作者生成的,因此用于导航查询发现的数据质量更高,使获得的导航词更加规范、噪音较少。同时,本发明实施例在对链接文本分析的基础上,还引入了搜索引擎日志等其他相关信息,并通过搜索引擎进行验证,以便进一步校正或修正分析结果,从而可以获取更为准确的导力元查询。与本发明实施例4是供的建立导航查询数据库的方法相对应,本发明实施例还提供了一种建立导航查询数据库的装置,参见图4,该装置包括链接文本分析单元U4G1,用于分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本指向的目标网址;判断单元U402,用于对于一链接文本上呈现的文字,判断是否存在指向次数符合预置条件的目标网址;数据库建立单元U403,用于当存在符合预置条件的目标网址时,保存链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系,建立导航查询数据库。本发明实施例将链接文本数据库作为获取导航查询的数据源,因此首先由链接文本分析单元U401分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的各目标网址;然后对于每个链接文本上呈现的文字,判断单元U402判断是否存在指向次数符合某预置条件的目标网址;如果存在符合所述预置条件的目标网址,数据库建立单元U403则保存该链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系,这样就建立了导航查询数据库。该导航查询数据库可以用于向用户提供导航查询的目标网址。由于链接文本数据库的数据量大,链接文本上呈现的文字比较规范,因此,最终建立的导航查询数据库具有覆盖范围广,导航查询规范、不易出错且噪音较小等特点。由于有些网页上的链接文本可能并不标准,使得点击该链接时可能存在"该链接不存在"或"该链接为空"等现象,可以先将这些目标网址过滤掉。因此,参见图5,该装置还可以包括选择单元U504,用于选择符合统一资源定位符URL格式的目标网址,并将所述符合URL格式的目标网址输入到所述判断单元。由于如果向用户提供错误的推荐会比不做推荐更加伤害用户的体验,因此保证导航查询的准确性非常重要。在本发明的优选实施例中,该装置还可以包括校验单元U505,用于在判断出某链接文本上呈现的文字具有符合预置条件的目标网址后,对链接文本上呈现的文字及对应的所述符合预置条件的目标网址进行验证,如果验证通过,则触发数据库建立U503单元执行所述保存的操作。在实际应用中,可以利用现有的搜索引擎系统进行验证,因此校验单元U505可以包括以下子单元发送子单元U5051,用于将链接文本上呈现的文字作为查询词发送到至少一个搜索引擎进行搜索;比较子单元U5052,用于比较各搜索引擎返回的第一位的结果与所述符合预置条件的目标网址是否一致,如果是,则验证通过,并触发所述数据库建立单元执行所述保存的搮:作。其中,可以通过统计链接文本上呈现的文字的集中度的方式来判断是否存在符合预置条件的目标网址。因此,判断单元U502可以包括以下子单元统计子单元U5021,用于对于一条链接文本上呈现的文字a,统计其在链接文本数据库中出现的总次数A^),并统计呈现该文字a的各链接文本所指向的目标网址,对于每一个目标网址t,统计呈现文字a的各链接文本指向该目标网址的次数iV"/),获取链呈现文字a的各链接文本指向次数最多的目标网址^,并统计指向该目标网址,m的次数,m);计算子单元U5022,用于计算iV(a,U与W(a)的比值,并将其作为该链接文本上呈现的文字a的集中度,判断该集中度是否大于某预置阈值,如果大于,则该链接文本上呈现的文字存在符合所述预置条件的目标网址,且该目标网址为、。其中,图5中的链接文本分析单元U501及导航查询数据库U503,与图4中的链接文本分析单元U401及导航查询数据库U403相同。前述实施例中介绍的建立导航查询数据库的目的是帮助用户完成网址导航,即当用户输入某查询词时,利用该导航查询数据库来判断是否为导航查询,如果是,将导4元查询对应的目标网址返回给用户。下面就对利用该导力元查询翁:据库来进行网址导航的方法进行详细地介绍。参见图6,本发明实施例提供的网址导航的方法包括以下步骤S601:分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的各目标网址;S602:对于一链接文本上呈现的文字,判断是否存在指向次数符合预置条件的目标网址;S603:如果存在,保存链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系,建立导航查询数据库;S604:接收用户输入的查询词,一企索所述导航查询数据库,向用户返回与所述查询词相匹配的目标网址。本实施例所描述的网址导航的方法,是在前述实施例中建立导航查询数据库的基础上完成的,由于相应的内容已经在前面详细描述过,因此在此不再赘述。在步骤S604中,用户一般都是通过关键词进行查询,在所述导航查询数据库中对用户输入的关键词进行匹配,如果存在与该关^fc词相匹配的导^:查询,即可获得该用户所需的与该关键词对应的目标网址,并返回给用户,从而实现面向用户的网址导航。对于具体的对用户输入查询信息的分词、解析以及具体的数椐库查询匹配等数据处理过程,现有技术已经完全实现,本发明在此不再赘述。可以通过多种方法来判断是否存在指向次数符合预置条件的目标网址。优选的,可以采用统计链接文本的集中度的方法。所述链接文本的集中度是指,对于一个链^矣文本a及呈现该文字a的各链4妄文本所指向的某目标网址u,该链接文本a以多高的比例集中在u上。具体的,对于一条链接文本上呈现的文字a,统计其出现的总次数iV(a),并统计呈现该文字a的链接文本被指向的目标网址,对于每一个目标网址t,统计呈现该文字a的各链接文本所指向该目标网址的次数iV(a力,获取呈现该文字a的各链接文本所指向次数最多的目标网址^,并统计指向该目标网址^的次数7V"U;然后计算W(fl,U与W(fl)的比值,并将其作为该链4妄文本上呈现的文字a的集中度,判断该集中度是否大于某预置阁值,如果大于,则该链接文本上呈现的文字存在符合所述预置条件的目标网址,且该目标网址为~,。为了进一步提高网址导航的精度,本发明的优选实施例中还可以包括验证的步骤,即在判断出某链接文本上呈现的文字具有符合预置条件的目标网址后,对链接文本上呈现的文字及对应的所述符合预置条件的目标网址进行验证,只有验证通过,才执行所述保存的步骤。此时可以将上述过程得到的链接文本上呈现的文字-目标网址对(a,、)看作是导航查询候选集合。其中,验证的过程可以如下进行将导航查询候选集合中的链接文本上呈现的文字作为查询词发送到多家搜索引擎进行搜索,比较^与各搜索引擎返回的排在第一位的搜索结果进行比较,如果一致,则认为a是导航查询,且其目标网址为、。与上述本发明实施例提供的网址导航的方法相对应,本发明实施例还提供了一种网址导航的系统,参见图7,该系统包括链接文本分析单元U701,用于分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的目标网址;判断单元U702,用于对于一链接文本上呈现的文字,判断是否存在指向次数符合预置条件的目标网址;导航查询数据库U703,用于保存链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系;接口单元U704,用于接收用户输入的查询词,并展示相应的目标网址;;险索单元U705,用于斥企索所述导航查询数据库,向用户返回与所述查询词相匹酉己的目标网址。链接文本分析单元U7G1分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的各目标网址;然后对于每个链接文本上呈现的文字,判断单元U702判断是否存在指向次数符合某预置条件的目标网址;如果存在符合所述预置条件的目标网址,数据库建立单元U703则保存该链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系,这样就建立了导航查询数据库。当用户需要查询某网址时,接口单元U704接收用户输入的查询词,检索单元U705检索所述导航查询数据库,如果存在与用户输入的查询词相匹配的导航查询,则返回该导航查询对应的目标网址,并由接口单元U704展示给用户。在本发明的优选实施例中,参见图8,该系统还可以包括选择单元U806,用于选择符合统一资源定位符URL格式的目标网址,并将所述符合URL格式的目标网址输入到判断单元U802。即,只需判断符合URL格式的目标网址中是否存在符合预置条件的目标网址。校验单元U807,用于在判断出某链接文本上呈现的文字具有符合预置条件的目标网址后,对链接文本上呈现的文字及对应的所述符合预置条件的目标网址进行—验证,如果一验i正通过,该链接文本-目标地址对才会保存在导关元查询数据库中。在实际应用中,可以利用现有的搜索引擎系统进行验证,因此校验单元U807可以包括以下子单元发送子单元U8071,用于将链接文本上呈现的文字作为查询词发送到至少一个搜索引擎进行搜索;比较子单元U8072,用于比较各搜索51擎返回的第一位的结果与所述符合预置条件的目标网址是否一致,如果是,则验证通过,并触发所述数据库建立单元执行所述保存的操作。其中,可以通过统计链接文本上呈现的文字的集中度的方式来判断是否存在符合预置条件的目标网址。因此,判断单元U802可以包括以下子单元统计子单元U8021,用于对于一条链接文本上呈现的文字a,统计其出现的总次数7V0),并统计呈现该文字a的各链接文本所指向的目标网址,对于每一个目标网址t,统计呈现该文字a的各链接文本指向该目标网址的次数iV(W),获取呈现该文字a的各链接文本指向次数最多的目标网址L,并统计指向该目标网址^的次凄tA^人);计算子单元U8022,用于计算iV(a,U与W(")的比值,并将其作为该链接文本上呈现的文字a的集中度,判断该集中度是否大于某预置阈值,如果大于,则该链接文本上呈现的文字存在符合所述预置条件的目标网址,且该目标网址为C。其中,图8中的链接文本分析单元U801及导航查询数据库U803,与图7中的链接文本分析单元U701及导航查询数据库U703相同。参见图9,本发明实施例提供了另一种网址导航的方法,该方法包括以下步骤S901:接收用户输入的查询词;S902:分析链接文本数据库,获取与所述查询词相匹配的链接文本上呈现的文字,并获取呈现该文字的各链接文本所指向的各目标网址;S903:在所述各目标网址中,判断是否存在符合预置条件的目标网址;S904:如果存在,向用户返回所述符合预置条件的目标网址。,该实施例才是供的网址导^^的方法与前述网址导^t方法的不同之处在于,该方法不需要建立导航查询数据库,当接收到用户输入的查询词时,直接分析链接文本数据库中是否存在与所述查询词相匹配的链接文本上呈现的文字,如果存在,则获取呈现该文字的各链接文本所指向的各目标网址,然后直接判断是否存在符合某预置条件的目标网址,如果存在,则认为用户想要进行导航查询,并将所述符合预置条件的目标网址返回给用户。同样,由于有些链接文本可能并不标准,使得点击该链接时可能存在"该链接不存在"或"该链接为空"等现象。因此,在本发明的优选实施例中,可以先将这些目标网址过滤掉。优选的,可以通过以下方式进行过滤判断各目标网址是否符合URL格式,将不符合URL格式的目标网址过滤掉,然后只判断符合URL格式的目标网址中,是否存在符合预置条件的目标网址。其中,判断是否存在符合预置条件的目标网址的方法也可以如前述实施例进行,即统计链接文本上呈现的文字a出现的总次数iV(a),及呈现该文字a的各链接文本指向次数最多的目标网址L,并获取指向该目标网址^的次数判断iV(fl人)与AA(fl)的比值是否大于预置阈值,如果大于,则该目标网址/符合预置条件。与图9中描述的网址导航方法相对应,本发明实施例还提供了一种网址导航系统,参见图10,该系统包括接口单元U1001,用于接收用户输入的查询词,并展示相应的目标网址;链接文本分析单元U1002,用于分析链接文本数据库,获取与所述查询词相匹配的链接文本上呈现的文字,并获取呈现该文字的各链接文本所指向的目标网址;判断单元U1003,用于在所述各目标网址中,判断是否存在符合预置条件的目标网址;如果存在,将所述符合预置条件的目标网址通过所述接口单元向用户展示。优选的,参见图11,该系统还可以包括选择单元U1104,用于选择符合统一资源定位符URL才各式的目标网址,并将所述符合URL才各式的目标网址输入到所述判断单元。其中,判断单元U1103可以包括以下子单元统计子单元U11031,用于统计链接文本上呈现的文字a出现的总次数及呈现该文字a的各链接文本所指向次数最多的目标网址^,并获取被指向该目才示网址的次凄tl);计算子单元ui1032,用于判断iV(。,u与W(。)的比值是否大于预置阈值,如果大于,则该目标网址^符合预置条件。以上对本发明所提供的一种建立导4元查询数据库的方法及装置、一种网址导航的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。权利要求1.一种建立导航查询数据库的方法,其特征在于,包括分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的目标网址;对于一链接文本上呈现的文字,判断是否存在符合预置条件的目标网址;如果存在,保存链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系,建立导航查询数据库。2、根据权利要求1所述的方法,其特征在于,所述判断是否存在符合预置条件的目标网址之前还包括选捧符合统一资源定位符URL格式的目标网址,并对所述符合URL格式的目标网址进行所述判断的步骤。3、根据权利要求1所述的方法,其特征在于,还包括对链接文本上呈现的文字及对应的所述符合预置条件的目标网址进行验证,如果-险证通过,则进入所述保存的步骤。4、根据权利要求2所述的方法,其特征在于将链接文本上呈现的文字作为查询词发送到多个搜索引擎进行搜索,比较各搜索引擎返回的第一位的结果与所述符合预置条件的目标网址是否一致,如果是,则-验证通过。5、根据权利要求1至4任意一项所述的方法,其特征在于,所述判断是否存在符合预置条件的目标网址的具体实现包括统计链接文本上呈现的文字a在链接文本数据库中出现的总次数iV(a),及呈现该文字a的各链接文本指向次数最多的目标网址^,并获取指向该目标网址^的次itiV(fl人);判断W(a,U与iV(a)的比值是否大于预置阈值,如果大于,则该目标网址^符合预置条件。6、一种建立导航查询数据库的装置,其特征在于,包括链接文本分析单元,用于分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的目标网址;判断单元,用于对于一链接文本上呈现的文字,判断是否存在符合预置条件的目标网址;数据库建立单元,用于当存在符合预置条件的目标网址时,保存链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系,建立导航查询数据库。7、根据权利要求6所述的装置,其特征在于,还包括选择单元,用于选择符合统一资源定位符URL格式的目标网址,并将所述符合URL才各式的目标网址输入到所述判断单元。8、才艮据权利要求6所述的装置,其特征在于,还包括冲t验单元,用于对链接文本上呈现的文字及对应的所述符合预置条件的目标网址进行验证,如果验证通过,则触发所述数据库建立单元执行所述保存的操作。9、根据权利要求8所述的装置,其特征在于,所述校验单元包括发送子单元,用于将链接文本上呈现的文字作为查询词发送到至少一个搜索引擎进行搜索;比较子单元,用于比较各搜索引擎返回的第一位的结果与所述符合预置条件的目标网址是否一致,如果是,则验证通过,并触发所述数据库建立单元执行所述保存的操作。10、根据权利要求6至9任意一项所述的装置,其特征在于,所述判断单元包括统计子单元,用于统计链接文本上呈现的文字a在链接文本数据库中出现的总次数iV(fl),及呈现该文字a的各链接文本指向次数最多的目标网址^,并获取指向该目标网址l的次数iV(a,c);计算子单元,用于判断iV"D与iV(a)的比值是否大于预置阈值,,如果大于,则该目标网址^符合预置条件。11、一种网址导航方法,其特征在于,包括分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的目标网址;对于一链接文本上呈现的文字,判断是否存在符合预置条件的目标网址;如果存在,保存链接文本上呈现的文字及所述符合预置条件的目标网址的对应关系,建立导航查询数据库;接收用户输入的查询词,才企索所述导航查询数据库,向用户返回与所述查询词相匹配的网址。12、根据权利要求11所述的方法,其特征在于,所述判断是否存在符合预置条件的目标网址之前还包括选捧符合统一资源定位符URL格式的目标网址,并对所述符合URL格式的目标网址进行所述判断的步骤。13、根据权利要求11所述的方法,其特征在于,还包括对链接文本上呈现的文字及对应的所述符合预置条件的目标网址进行验证,如果—险证通过,则进入所述保存的步骤。14、根据权利要求13所述的方法,其特征在于将链接文本上呈现的文字作为查询词发送到多个搜索引擎进行搜索,比较各搜索引擎返回的第一位的结果与所述符合预置条件的目标网址是否一致,如果是,则验证通过。15、根据权利要求11至14任意一项所述的方法,其特征在于,所述判断是否存在符合预置条件的目标网址的具体实现包括统计链接文本上呈现的文字a在链接文本数据库中出现的总次数7V("),及呈现该文字a的各链接文本指向次数最多的目标网址^,并获取指向该目标网址^的次数iV(a,U;判断iV("人)与A^)的比值是否大于预置阈值,如果大于,则该目标网址^符合预置条件。16、一种网址导航系统,其特征在于,包括链接文本分析单元,用于分析链接文本数据库,获取链接文本上呈现的文字及呈现该文字的各链接文本所指向的目标网址;判断单元,用于对于一链接文本上呈现的文字,判断是否存在符合预置条件的目标网址;导航查询数据库,用于保存链接文本上呈现的文字及所述符合预置条件的目才示网址的对应关系;4妄口单元,用于4妻收用户l命入的查询词,并展示相应的目标网址;才企索单元,用于才企索所述导航查询数据库,向用户返回与所述查询词相匹配的目才示网址。17、根据权利要求16所述的系统,其特征在于,还包括选择单元,用于选择符合统一资源定位符URL格式的目标网址,并将所述符合URL格式的目标网址输入到所述判断单元。18、根据权利要求16所述的系统,其特征在于,还包括校验单元,用于对链接文本上呈现的文字及对应的所述符合预置条件的目标网址进^f亍一验证。19、根据权利要求18所述的装置,其特征在于,所述校验单元包括发送子单元,用于将链接文本上呈现的文字作为查询词发送到多个:l叟索引擎进行搜索;比较子单元,用于比较各搜索引擎返回的第一位的结果与所述符合预置条件的目标网址是否一致,如果是,则验证通过。20、根据权利要求16至19任意一项所述的装置,其特征在于,所述判断单元包括统计子单元,用于统计链接文本上呈现的文字a在链接文本数据库中出现的总次数iV("),及呈现该文字a的各链接文本指向次数最多的目标网址/,并获取指向该目标网址^的次数^);计算子单元,用于判断iV(a人)与A^)的比值是否大于预置阈值,如果大于,则该目标网址^符合预置条件。21、一种网址导4元方法,其特征在于,包括才妄收用户输入的查询词;分析链接文本数据库,获取与所述查询词相匹配的链接文本上呈现的文字,并获取呈现该文字的各链接文本所指向的目标网址;在所述各目标网址中,判断是否存在符合预置条件的目标网址;如果存在,向用户返回所述符合预置条件的目标网址。22、根据权利要求21所述的方法,其特征在于,所述判断是否存在符合预置条件的目标网址之前还包括选择符合统一资源定位符URL格式的目标网址,并对所述符合URL格式的目标网址进行所述判断的步骤。23、根据权利要求21或22所述的方法,其特征在于,所述判断是否存在符合预置条件的目标网址的具体实现包括统计链接文本上呈现的文字a在链接文本数据库中出现的总次数iV(fl),及呈现该文字a的各链接文本指向次数最多的目标网址^,并获取指向该目标网址^的次数7V(a,0;判断7V(a,U与W(")的比值是否大于预置阈值,如果大于,则该目标网址^符合预置条件。24、一种网址导航系统,其特征在于,包括接口单元,用于接收用户输入的查询词,并展示相应的目标网址;链接文本分析单元,用于分析链接文本数据库,获取与所述查询词相匹配的链接文本上呈现的文字,并获取呈现该文字的各链接文本所指向的目标网址;判断单元,用于在所述各目标网址中,判断是否存在符合预置条件的目标网址;如果存在,将所述符合预置条件的目标网址通过所述接口单元向用户展示。25、根据权利要求24所述的系统,其特征在于,还包括选择单元,用于选择符合统一资源定位符URL格式的目标网址,并将所述符合URL才各式的目标网址输入到所述判断单元。26、根据权利要求24或25所述的系统,其特征在于,所述判断单元包括统计子单元,用于统计链接文本上呈现的文字a在链接文本数据库中出现的总次数7V&),及呈现该文字a的各链接文本指向次数最多的目标网址t,,并获取指向该目标网址f的次数iV(a,^);计算子单元,用于判断A^人)与A^)的比值是否大于预置阈值,如果大于,则该目标网址c符合预置条件。全文摘要本发明公开了一种建立导航查询数据库的方法,该方法包括分析链接文本数据库,获取链接文本及其指向的各目标网址;对于一链接文本,判断是否存在指向次数符合预置条件的目标网址;如果存在,保存链接文本及所述符合预置条件的目标网址的对应关系,建立导航查询数据库。本发明还公开了一种建立导航查询数据库的装置、一种网址导航方法及系统。通过本发明,可以发现更大规模的导航查询,增大了导航数据库的覆盖面。同时,由于链接文本通常是由网站作者生成的,因此用于导航查询发现的数据质量更高,使获得的导航查询更加规范、噪音较少。文档编号G06F17/30GK101369286SQ20081022441公开日2009年2月18日申请日期2008年10月14日优先权日2008年10月14日发明者佟子健,勇王申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1