获取导航查询词的方法、装置及展现搜索结果的方法

文档序号:6471129阅读:190来源:国知局
专利名称:获取导航查询词的方法、装置及展现搜索结果的方法
技术领域
本发明涉及搜索引擎技术领域,特别是涉及获取导航查询词的方法、装置 及展现搜索结果的方法。
背景技术
随着互联网上网站数量的急剧增加,用户需要通过方便快捷的途径 尽快到达所需的网站。例如,利用搜索引擎进行查询时,根据用户查询 目的的不同大致可以分为导力元查询和信息查询两类,其中,关于导4元查 询,用户的直接目的是访问一个已知的网站,对于这类查询,用户总是 希望对应的目标网站能够出现在搜索结果中比较靠前的位置,甚至是第一位,以便尽快找到并进入该目标网站。例如输入宁夏人民政府,其目标是www. nx. gov. cn/; 输入摩托罗拉首页,其目标是www. motorola, com. cn/; 输入远梦书城,其目标是www. my285. com/。通常,搜索引擎服务器会根据用户输入的查询词,将所有相关网页 按照相关度进行排序后返回给用户,以供用户选择。但是对于导航查询 而言,有且只有一个网页可以满足用户的需求,如果这个网页不能排在 比较靠前的位置,会比较严重地伤害用户的感受。然而,由于互联网数 据丰富而繁杂,因此,搜索引擎并不能保证导航查询的目标网页总是排 在搜索结果的前几位。为了解决该问题, 一些搜索引擎维护了一张导航 查询词表及其目标数据集,如表1所示,当用户查询词命中该导航查询 词表中的某导航查询词时,将会将该导航查询词对应的目标网页排在搜 索结果的第一位。表1导航查询词目标爱民减肥医院www. aimin. com. cn/ 潍城区教育局www. wcedu. net/河北网通www. he. chinaunicom. com/现有技术建立导航查询词表的方法是,通过用户的搜索引擎日志来 发现导航查询词,即分析搜索日志信息,获取在某个信息查询词下,用 户点击频率符合预置条件的网址,依据信息查询词获取针对所述网址的 描述信息,最后依据所获得的网址和相应的描述信息,发现导航查询, 并生成导力元查询词表。但是,利用该现有技术进行导航查询词的发现时,某些导航查询词 可能会无法被发现,例如,有的导航查询词的查询次数较少,甚至尚未-陂查询过,则将无法#:该方法发现,也就无法;陂识别为导4元查询词。发明内容有鉴于此,本发明的目的在于提供获取导航查询词的方法、装置及展现搜 索结果的方法,以解决现有技术无法全面地发现导航查询词的问题。为实现上述目的,本发明提供了如下方案 一种获取导航查询词的方法,包括 获取包含文本的相关数据源;利用预置的导航关键词对相关数据源中的文本进行分析,获取导航查询词。优选的,所述相关数据源包括互联网中的各网页;所述相关数据源中的文 本包括网页标题、正文摘要及链接文本上呈现的文字。优选的,所述相关数据源还包括搜索引擎日志,所述相关数据源中的文本 包括搜索引擎日志中的查询词。优选的,预先将所述导航关键词组织为预置规则的正则表达式;所述基于 预置的导航关键词对所述相关数据源中的文本进行分析,获取导航查询词包 括利用预置的断句标识符将所述相关凝:据源中的文本进行断句,得到短句; 在各短句中查找与所述正则表达式相匹配的字符串;
将所述相匹配的字符串确定为导4元查询词。优选的,所述基于预置的导航关键词对所述相关数据源中的文本进行分析,获取导航查询词包括判断所述相关数据源中的文本中是否包含所述导航关键词;如果包含,将所述导航关键词与该导航关键词前第 一个信息分隔符之间的 字符串确定为导力元查询词。优选的,还包括将获取到的导航查询词进行过滤。优选的,所述将获取到的导航查询词进行过滤包括判断获取到的导航查询词出现的次数是否小于预置阈值;如果小于,过滤掉该导航查询词。优选的,所述将获取到的导航查询词进行过滤包括判断获取到的导航查询词是否为预置的过滤关键词;如果是,过滤掉该导航查询词。优选的,还包括将获取到的导航查询词作为搜索关键词发送到至少两个搜索引擎进行验证;如果各搜索引擎搜索结果的第一位不一致,则将该导航查询词滤除。 优选的,如果各搜索引擎搜索结果的第一位一致,则该导航查询词通过验证,还包括将各搜索引擎搜索结果第 一位的网址确定为该导航查询词对应的目标网址。一种获取导航查询词的装置,包括数据源获取单元,用于获取包含文本的相关数据源;导航查询词获取单元,用于利用预置的导航关4建词对相关数据源中的文本 进行分析,获耳又导4元查询词。优选的,所述相关数据源包括互联网中的各网页,所述相关数据源中的文 本包括网页标题、正文摘要及链接文本上呈现的文字。
优选的,所述相关数据源还包括搜索引擎日志,所述相关数据源中的文本包括搜索引擎日志中的查询词。优选的,预先将所述导航关键词组织为预置规则的正则表达式;所述导航 查询词获取单元包括断句子单元,用于利用预置的断句标识符将所述相关数据源中的文本进行断句,得到短句;匹配子单元,用于在各短句中查找与所述正则表达式相匹配的字符串; 第 一确定子单元,用于将所述相匹配的字符串确定为导#<查询词。 优选的,所述导航查询词获取单元包括判断子单元,用于判断所述相关数据源中的文本是否包含所述导航关键词;第二确定子单元,用于将所述导航关键词与该导航关键词前第一个信息分 隔符之间的字符串确定为导航查询词。 优选的,还包括过滤单元,用于将获取到的导航查询词进行过滤。 优选的,所述过滤单元包括第一判断子单元,用于判断获取到的导航查询词的出现次数是否小于预置 阈值;第一滤除子单元,用于将出现次数小于所述预置阔值的导航查询词过滤除。优选的,所述过滤单元包括第二判断子单元,用于判断获取到的导航查询词是否为预置的过滤关键词;第二滤除子单元,用于将是预置的过滤关键词的导航查询词滤除。优选的,还包括验证单元,用于将获取到的导航查询词作为搜索关键词发送到至少两个搜 索引擎进行验证;滤除单元,用于当各搜索引擎搜索结果的第一位不一致时,将该导航查询
词滤除。优选的,如果各搜索引擎搜索结果的第一位一致,则该导航查询词通过验证,还包括网址确定单元,用于将各搜索引擎搜索结果第 一位的网址确定为该导航查 询词对应的目标网址。一种展现搜索结果的方法,包括 获取包含文本的相关数据源;基于预置的导航关键词对相关数据源中的文本进行分析,获取导航查询词;将获取的导航查询词发送到至少两个搜索引擎进行搜索,获取各导航查询词对应的目标网址;保存所述导航查询词及其对应的目标网址,形成导航查询数据库; 接收用户输入的搜索内容;查询所述导航查询数据库,判断是否存在与所述搜索内容相匹配的导航查 询词;如果存在,将所述相匹配的导航查询词对应的目标网址在搜索结果的第一 位进行展现。一种搜索引擎系统,包括导航查询数据库,用于保存所述导航查询词及其对应的目标网址;所述导 航查询数据库通过以下方式建立获取包含有文本的数据源;基于预置的导航 关键词对相关数据源中的文本进行分析,获取导航查询词;将获取的导航查询 词发送到至少两个搜索引擎进行搜索,获取各导航查询词对应的目标网址;保 存所述导航查询词及其对应的目标网址,形成导航查询数据库;接口模块,用于接收用户输入的搜索内容;查询模块,用于查询所述导航查询数据库,判断是否存在与所述搜索内容 相匹配的导航查询词;呈现模块,用于将所述相匹配的导航查询词对应的目标网址在搜索结果的 第一位进行展现。根据本发明提供的具体实施例,本发明公开了以下技术效果
本发明获取包含文本的相关数据源,并基于预置的导航关4建词对相关数据 源中的文本进行分析,来获取导航查询词。由于所述相关数据源只需要包含文 本即可,因此可以不限于用户的搜索日志,从而有利于获得更广的数据来源, 再通过预置的导航关键词对各网页上的文本进行分析,可以尽可能全面地获取 到导航查询词。其次,基于导航关键词对相关数据源中的文本进行分析即可获取导航查询词,实现简单;可以利用搜索引擎对获取的导航查询词进行验证,保证了获取 到的导航查询词的正确性。


图l是本发明实施例提供的方法的流程图;图2是本发明实施例提供的第一装置的示意图;图3是本发明实施例提供的第二装置的示意图;图4是本发明实施例提供的第三装置的示意图;图5是本发明实施例提供的第四装置的示意图;图6是本发明实施例提供的展现搜索结构的方法的流程图;图7是本发明实施例提供的搜索引擎系统的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。参见图1,本发明实施例提供的获取导航查询词的方法包括以下步骤S101:获取包含文本的相关数据源;S102:基于预置的导航关键词对相关数据源中的文本进行分析,获取导航 查询词。其中,所述相关数据源只要包含文本即可,因此可以得到非常广泛的数据 来源,例如,可以是互联网中的各网页,则所述相关数据源中的文本即为各网 页上呈现的文本。可以通过页面抓取及前端页面元素的分析获取网页上呈现的 文本,包括但不限于网页的标题、正文摘要、链接文本等。当然,所述相关数 据源还可以包括用户的搜索引擎日志,此时,相关数据源中的文本还可以包括 搜索引擎曰志中的查询词。本发明的核心在于,针对现有"f支术方案的缺陷,通过获: 又更多的数据源来 全面地获取导航查询词。为方便描述,下面均以互联网中的各网页这种数据源 为例对本发明所述的方法进行详细地描述。本发明考虑到互联网中各网页上呈现的文本中有一些会带有"网站"、"主 页,,等后缀,例如,"火箭队中文网站"、"搜狐主页"等等。以这些词为后缀 的词很可能是导航查询词,本发明将这样的后缀称为导航后缀,通过挖掘以导 航后缀为后缀的词,可以得到大量的导航查询词。因此,本发明是基于预置的 导航关键词对各网页上呈现的文本进行分析的,所述导航关键词可以是所述导 航后缀,包括但不限于"首页"、"主页"、"门户"、"网站"、"官网"等等。其中,基于预置的导航关键词对所述各网页上呈现的文本进行分析,来获 取导航查询词的方法有很多,下面进行详细地介绍。实施例 一 、可以利用正则表达式法进行分析。首先规定一 系列地导航后缀, 可以包括但不限于前文所述的"首页"、"主页"、"门户"、"网站"、"官网"等 等,然后用正则表达式对其进行组织。需要说明的是,正则表达式是用某种模 式去匹配一类字符串的公式,该正则表达式可以被各种文本编辑软件、类库(如Rogue Wave的tools. h++)、脚本工具(如awk/grep/sed )广泛地支持。有些导航后缀可能是"官方网站"、"中文网"、"个人网站"等,例如"华 硕官方网站",本发明实施例中,将这样的导航后缀看作是复合导航后缀,即 导航查询词的后缀可能是两个甚至多个导航后缀的组合,因此本发明实施例所 使用的正则表达式可以是"([ ]+ ) ( :官方1中文1个人)*( :首页1主页1网站1网1门户l官网)+"该正则表达式可以匹配以任意文字起始,中间含有零个或若干个"官方,, 或"中文"或"个人",以"首页""主页,,"网站""网""门户""官网"等词 结尾的字符串。形式比较灵活,具有较强的适应性,可以匹配"华硕官方网站" 和"东方神起中文网"这样多个导航后缀复合的情况。通过上述正则表达式进行匹配时,需要针对每个单独的句子进行,而通常
网页中呈现的文本可能是一段一段的文字,因此,在使用该正则表达式进行匹 配之前,需要将网页中呈现的文本进行断句处理。断句时可以按照预置的断句 标识符进行,其中,断句标识符可以是空格、标点符号、段落标志等。首先, 扫描网页中呈现的整个文本,出现上述标识符时便断开,最终可以得到一系列 不再包含断句标识符的短句,也就是单独的句子。然后再在各个短句中查找与 上述正则表达式相匹配的字符串,最后,便可以将得到的相匹配的字符串确定 为导航查询词。实施例二、可以直接利用所述导航关键词对各网页上呈现的文本进行分 析,同样,所述导航关键词可以包括但不限于"首页"、"主页"、"门户"、"网 站"、"官网"、"官方网站"、"个人网站"、"中文网,,,等等。可以首先判断各 网页上呈现的文本中是否包含上述导航关键词,如果存在,则可以将位于该导 航关键词与该导航关键词之前第 一个信息分隔符之间的字符串确定为导航查 询词。其中所述信息分隔符可以是空格符、分段符,以及一些特定标点,如下所示,。;一 、/ .! -例如,网页上呈现的文本原文为"......今天打开搜狐后发现,搜狐首页增加了展现奥运最新消息的滚动框……",可见,这段话中出现的所述导航关键 词为"首页",因此将"首页"前与前面的","之间的"搜狐"确定为导航查 询词。按照上述方法对互联网中所有网页上呈现的文本都处理一遍,可以获取到 大量的导航查询词,但是获取到的导航查询词中可能会包含一些噪音,例如, 可能将"怎样在搜狗"这样的字符串确定为导航查询词,甚至还可能将"有的"、 "别的"等确定为导航查询词,因此,在本发明的优选实施例中,还可以包括 对获取到的导航查询词进行过滤的步骤。具体进行过滤的方法可以多种多样, 本发明实施例中可以采用以下两种优选的方式(1)由于从互联网中的所有网页上呈现的文本中获取导航查询词时,难 免会出现重复的获取到同一个导航查询词,因此,可以利用这个特点作为过滤
导航查询词的依据。可以按照以下方式进行记录获取到的每个导航查询词出 现的次数,如果某个导航查询词出现的次数较少(例如,小于预置的阈值), 则可以将该导航查询词看作是偶然出现的噪音,并将其滤除。其中,可以为新获取到的导航查询词维护一个参数,用来保存其出现的次 数;每次获取到该导航查询词时,都将该参数加一,最终会得到每个导航查询 词出现的总次数。(2)在实际应用中,有些被确定为导航查询词的字符串可能出现的次数 的确比较多,但是实际上这些字符串仍然不能看作是导航查询词,例如"有 的"、"别的"、"一些"、"我/>司",等等。对于这种情况,可以将这些词预先 设置为过滤关键词,如果获取到的导航查询词恰好是上述这些过滤关键词,则 可以将该导航查询词视为噪音,并将其滤除。从以上分析可见,本发明实施例提供的获取导航查询词的方法是基于文本 进行分析的,而且通过预置的导航关键词,只需要对文本进行分析即可,因此, 相对于现有技术从搜索引擎日志中获取导航查询词的方法,降低了对数据源的 要求,可以获取更广泛的数据来源,有利于更加全面地获取导航查询词;另一 方面,无需向现有技术一样考虑文本与网址的对应关系(例如,现有技术在搜 索引擎日志中获取到用户的查询词时,还需要获知该用户在输入该查询词后, 最终选择了哪个网址,才能够判断该查询词是否为导航词),因此实现简单。通过上述过滤方法,可以提高获取导航查询词的准确性,但是过滤后的导 航查询词还是有可能存在一些噪音,为此,在本发明的优选实施例中,还可以 包括对获取到的导航查询词进行进一步验证的步骤将获取到的导航查询词作 为搜索关键词发送到多家搜索引擎进行搜索,判断搜索引擎搜索结果的第一位 是否一致,如果一致,证明其的确是导航查询词,并且可以将各搜索引擎搜索 结果第一位的网址确定为该导航查询词对应的网址。如果各搜索引擎搜索结果 的第一位不一致,则将该导航查询词看作是噪音,并将其滤除。为了更好地理解本发明实施例提供的获取导航查询词的方法,下面通过具 体的实例进行详细地介绍。例如,在互联网网页上有下列几段话 "今日打开搜狐后发现,搜狐首页增加了展现奥运最新消息的滚动框,网 友可以第 一时间了解奥运最新消息。,,"陈冠希网站重开舒淇博客潮店新品遭抢购""怎样在搜狗网站下载歌曲的歌词?高手指教!别的网站的不行。" 可以利用前文所述正则表达式对上述文本进行分析,首先,利用标点符号、空格对上述原始文本进行断句,可以得到以下短句 "今日打开搜狐后发现""搜狐首页增加了展现奥运最新消息的滚动框""网友可以第一时间了解奥运最新消息""陈冠希网站重开舒淇博客""潮店新品遭抢购""怎样在搜狗网站下载歌曲的歌词""高手指教""别的网站的不行"使用所述正则表达式对每一个短句进行匹配,可以得到以下导航查询词"搜狐"、"陈冠希"、"怎样在搜狗"、"别的"。以上三个导航查询词均出现了 一次。用同样的方法对互联网中所有网页上 呈现的文本都处理一遍,并记录每个导航查询词出现的次数。例如"搜狐"出现19824次;"陈冠希"出现5724次;"怎样去搜狗,,出现2 次;"别的"出现24586次。其中,"怎样去搜狗"出现的次数太低,因此被看作噪音而被滤除;"别的" 是预置的过滤关键词中的一个,因此,也被看作噪音而被滤除。然后,在搜狗和百度这两个搜索引擎上搜索"搜狐",搜索结果的第一位 都是www. sohu. com,则认为"搜狐,,是导航查询词,且其对应的目标网址是 www. sohu. com。
同样在搜狗和百度这两个搜索引擎上搜索"陈冠希",搜狗的搜索结果第一位是ent, sina.com. cn/s/h/f/chengx. html;百度的搜索结果第一位是 yule, baidu. com/z t/star/yanzhanmen/。两者不一致,所以认为"陈冠希,,不 是导航查询词,并将其滤除。与本发明实施例提供的获取导航查询词的方法相对应,本发明实施例还提 供了一种获取导航查询词的装置,参见图2,该装置包括以下单元数据源获取单元U201,用于获取包含文本的相关数据源;导航查询词获取单元U202,用于基于预置的导航关键词对相关数据源中 的文本进行分析,获取导航查询词。数据源获取单元U201获取包含文本的相关数据源;该数据源可以是互联 网中的各网页,还可以包括用户的搜索引擎日志。导航查询词获取单元MO2 基于预置的导航关键词对相关数据源中的文本进行分析,来获取导航查询词。 这样,将相关数据源中的文本作为数据源,再基于预置的导航关键词对相关数 据源中的文本进行分析,可以尽可能全面地获取导航查询词。其中,导航查询词获取单元U202可以采用不同的方式来分析相关数据源 中的文本,例如,可以预先将预置的导航关键词组织为正则表达式,此时,参 见图3,导航查询词获取单元U302可以包括以下子单元断句子单元U3021,用于利用预置的断句标识符将所述相关凝:据源中的文 本进行断句,得到短句;匹配子单元U3022,用于在各短句中查找与所述正则表达式相匹配的字符串;第一确定子单元U3023,用于将所述相匹配的字符串确定为导4元查询词。也可以直接利用预置的导航关键词对相关数据源中的文本进行分析,此 时,参见图4,导航查询词获取单元U402可以包括以下子单元判断子单元U4021,用于判断所述相关数据源中的文本中是否包含所述导 航关键词;第二确定子单元U4022,用于将所述导航关键词与该导航关键词前第一个 信息分隔符之间的字符串确定为导航查询词。其中,图3中的数据源获取单元U301及图4中的数据源获取单元U301, 与图2中的数据源获取单元U201相同。为了保证获取的导航查询词的正确性,可以对获取到的导航查询词进行过 滤,因此,参见图5,该装置还可以包括过滤单元U503,用于将获取到的导航查询词进行过滤。其中,过滤单元U503可以采用不同的方法完成对导航查询词的过滤,例 如,可以基于频率进行过滤,此时,过滤单元U503可以包括以下子单元第 一判断子单元U5031 ,用于判断获取到的导航查询词的出现次数是否小 于预置阈值;第一滤除子单元U5032,用于将出现次数小于所述预置阈值的导航查询词 过滤除。也可以基于预置的过滤关键词进行过滤,此时,过滤单元U503可以包括 以下子单元第二判断子单元U5033,用于判断获取到的导航查询词是否为预置的过滤 关键词;第二滤除子单元U5034,用于将是预置的过滤关键词的导航查询词滤除。由于基于频率进行过滤时,有些噪音可能无法滤除,因此,在本发明的优 选实施例中,可以同时^f吏用两种过滤方法,因此,如图3所示,过滤单元U503 可以同时包括上述四个子单元。在实际应用中,还可以对获取到的导航查询词在搜索引擎中进行验证,因 此,该装置还可以包括验证单元U504,用于将获取到的导航查询词作为搜索关键词发送到至少 两个搜索引擎进行验证;滤除单元U505,用于当各搜索引擎搜索结果的第一位不一致时,将该导 航查询词滤除。
当然,如果各搜索引擎搜索结果的第一位一致,则该导航查询词通过验证, 认为该导航查询词时正确的,该装置还包括网址确定单元U506,用于将各搜索引擎搜索结果第一位的网址确定为该 导4元查询词对应的目标网址。其中,图5中的数据源获取单元U501、导航查询词获取单元U502,与图 2中的数据源获取单元U201、导航查询词获取单元U202相同。上述实施例介绍了获取导航查询词的方法及装置,在实际应用中还可以在 搜索引擎展现搜索结果的过程中,判断用户输入的搜索内容是否为导航查询 词,如果是,则获取该导航查询词对应的目标网址,并将该目标网址在4叟索结 果的第一位进行展现。但是,如果进行实时地判断,需要在接收到用户输入的 搜索内容后,首先获取包含文本的相关数据源,对相关数据源中的文本进行分 析,并获取导航查询词的目标网址,考虑到该过程所需的时间可能会比较长, 本发明实施例提供了一种展现搜索结果的方法,该方法中,将获取的导航查询 词及其对应的目标网址进行保存,形成导航查询数据库,搜索引擎可以通过查 询该数据库来完成用户的搜索内容是否为导航搜索的判断,节省了时间。参见 图6,该方法包括以下步骤S601:获取包含文本的相关数据源;S602:基于预置的导航关键词对相关数据源中的文本进行分析,获取导航 查询词;S603:将获取的导航查询词发送到至少两个搜索引擎进行搜索,获取各导 航查询词对应的目标网址;S604:保存所述导航查询词及其对应的目标网址,形成导航查询数据库; S605:接收用户输入的搜索内容;S606:查询所述导航查询数据库,判断是否存在与所述搜索内容相匹配的 导航查询词;S607:如果存在,将所述相匹配的导航查询词对应的目标网址在搜索结果 的第一位进行展现,否则,将用户输入的搜索内容作为普通的信息查询进行处 理。
该方法与前文所述的获取导航查询词的方法相比增加了步骤S603到 S607,其他的部分均相同,各步骤可以采用的具体方法也都相同,因此相应的 内容这里不再赘述。该展现搜索结果的方法中,可以在获取到导航查询词后,再将获取的导航 查询词发送到至少两个搜索引擎进行搜索,如果各搜索引擎返回的^:索结果的 第一位一致,则可以将该搜索结果的第一位作为导航查询词对应的目标网址, 并将导航查询词及其对应的目标网址保存起来,形成导航查询数据库。搜索引 擎只需要加载该导航查询数据库,便可以当用户在搜索引擎中输入搜索内容 时,直接通过查询该导航查询数据库,来判断该用户输入的搜索内容是否为导 航查询词,如果是,则在可以将该导航查询词对应的目标网址在搜索结果的第 一位进行展现。与该展现搜索结果的方法相对应,本发明实施例还提供了一种搜索引擎系 统,参见图7,该搜索引擎系统包括以下模块导航查询数据库U701,用于保存所述导航查询词及其对应的目标网址; 所述导航查询数据库通过以下方式建立获取包含文本的相关数据源;基于预 置的导航关键词对相关数据源中的文本进行分析,获取导航查询词;将获取的 导航查询词发送到至少两个搜索引擎进行搜索,获取各导航查询词对应的目标 网址;保存所述导航查询词及其对应的目标网址,形成导航查询数据库;接口模块U702,用于接收用户输入的搜索内容;查询模块U703,用于查询所述导航查询数据库,判断是否存在与所述搜 索内容相匹配的导航查询词;呈现模块U704,用于将所述相匹配的导航查询词对应的目标网址在搜索 结果的第一位进行展现。以上对本发明所提供的获取导航查询词的方法、装置及展现搜索结果的方了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同 时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用 范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1、一种获取导航查询词的方法,其特征在于,包括获取包含文本的相关数据源;利用预置的导航关键词对相关数据源中的文本进行分析,获取导航查询词。
2、 根据权利要求1所述的方法,其特征在于,所述相关数据源包括互联 网中的各网页;所述相关数据源中的文本包括网页标题、正文摘要及链接文本上呈现的文字。
3、 根据权利要求2所述的方法,其特征在于,所述相关数据源还包括搜 索引擎日志,所述相关数据源中的文本包括搜索引擎日志中的查询词。
4、 根据权利要求1所述的方法,其特征在于,预先将所述导航关键词组 织为预置规则的正则表达式;所述基于预置的导航关键词对所述相关数据源中 的文本进行分析,获取导航查询词包括利用预置的断句标识符将所述相关数据源中的文本进行断句,得到短句; 在各短句中查找与所述正则表达式相匹配的字符串; 将所述相匹配的字符串确定为导^^查询词。
5、 根据权利要求1所述的方法,其特征在于,所述基于预置的导航关键 词对所述相关数据源中的文本进行分析,获取导航查询词包括判断所述相关数据源中的文本中是否包含所述导航关键词; 如果包含,将所述导航关键词与该导航关键词前第一个信息分隔符之间的 字符串确定为导航查询词。
6、 根据权利要求1所述的方法,其特征在于,还包括 将获取到的导航查询词进行过滤。
7、 根据权利要求6所述的方法,其特征在于,所述将获取到的导航查询 词进行过滤包括判断获取到的导航查询词出现的次数是否小于预置阈值; 如果小于,过滤掉该导航查询词。
8、 根据权利要求6所述的方法,其特征在于,所述将获取到的导航查询 词进行过滤包括判断获取到的导航查询词是否为预置的过滤关键词; 如果是,过滤掉该导航查询词。
9、 根据权利要求1至8任意一项所述的方法,其特征在于,还包括 将获取到的导航查询词作为搜索关键词发送到至少两个搜索引擎进行验证;如果各搜索引擎搜索结果的第一位不一致,则将该导航查询词滤除。
10、 根据权利要求9所述的方法,其特征在于,如果各搜索引擎搜索结果 的第一位一致,则该导航查询词通过验证,还包括将各搜索引擎搜索结果第一位的网址确定为该导航查询词对应的目标网址。
11、 一种获取导航查询词的装置,其特征在于,包括 数据源获取单元,用于获取包含文本的相关数据源;导航查询词获取单元,用于利用预置的导航关键词对相关数据源中的文本 进行分析,获取导航查询词。
12、 根据权利要求11所述的装置,其特征在于,所述相关数据源包括互 联网中的各网页,所述相关数据源中的文本包括网页标题、正文摘要及链接文本上呈现的文字。
13、 根据权利要求12所述的装置,其特征在于,所述相关数据源还包括 搜索引擎日志,所述相关数据源中的文本包括搜索引擎日志中的查询词。
14、 根据权利要求11所述的装置,其特征在于,预先将所述导航关键词 组织为预置规则的正则表达式;所述导航查询词获取单元包括断句子单元,用于利用预置的断句标识符将所述相关数据源中的文本进行 断句,得到短句;匹配子单元,用于在各短句中查找与所述正则表达式相匹配的字符串; 第 一确定子单元,用于将所述相匹配的字符串确定为导航查询词。
15、 根据权利要求11所述的装置,其特征在于,所述导航查询词获取单 元包括判断子单元,用于判断所述相关数据源中的文本是否包含所述导航关键 词;第二确定子单元,用于将所述导航关键词与该导航关键词前第一个信息分 隔符之间的字符串确定为导航查询词。
16、 根据权利要求11所述的装置,其特征在于,还包括 过滤单元,用于将获取到的导航查询词进行过滤。
17、 根据权利要求16所述的装置,其特征在于,所述过滤单元包括第一判断子单元,用于判断获取到的导航查询词的出现次数是否小于预置 阈值;第一滤除子单元,用于将出现次数小于所述预置阈值的导航查询词过滤除。
18、 根据权利要求16所述的装置,其特征在于,所述过滤单元包括 第二判断子单元,用于判断获取到的导航查询词是否为预置的过滤关键词;'第二滤除子单元,用于将是预置的过滤关键词的导航查询词滤除。
19、 根据权利要求11至18任意一项所述的装置,其特征在于,还包括 验证单元,用于将获取到的导航查询词作为搜索关键词发送到至少两个搜索引擎进行验证;滤除单元,用于当各搜索引擎搜索结果的第一位不一致时,将该导航查询 词滤除。
20、 根据权利要求19所述的装置,其特征在于,如果各搜索引擎搜索结 果的第一位一致,则该导航查询词通过-险证,还包括网址确定单元,用于将各搜索引擎搜索结果第一位的网址确定为该导航查 询词乂于应的目标网址。
21、 一种展现搜索结果的方法,其特征在于,包括 获取包含文本的相关数据源;基于预置的导航关键词对相关数据源中的文本进行分析,获取导航查询词;将获取的导航查询词发送到至少两个搜索引擎进行搜索,获取各导航查询 词对应的目标网址; 保存所述导航查询词及其对应的目标网址,形成导航查询数据库; 接收用户输入的搜索内容;查询所述导航查询数据库,判断是否存在与所述搜索内容相匹配的导航查 询词;如果存在,将所述相匹配的导航查询词对应的目标网址在搜索结果的第一 位进行展现。
22、 一种搜索引擎系统,其特征在于,包括导航查询数据库,用于保存所述导航查询词及其对应的目标网址;所述导 航查询数据库通过以下方式建立获取包含有文本的数据源;基于预置的导航 关键词对相关数据源中的文本进行分析,获取导航查询词;将获取的导航查询 词发送到至少两个搜索引擎进行搜索,获取各导航查询词对应的目标网址;保 存所述导4元查询词及其对应的目标网址,形成导航查询数据库;接口模块,用于接收用户输入的搜索内容;查询模块,用于查询所述导航查询数据库,判断是否存在与所述搜索内容 相匹配的导^元查询词;呈现模块,用于将所述相匹配的导航查询词对应的目标网址在搜索结果的 第一位进行展现。
全文摘要
本发明公开了一种获取导航查询词的方法,该方法包括获取包含有文本的数据源;基于预置的导航关键词对相关数据源中的文本进行分析,获取导航查询词。本发明还公开了一种获取导航查询词的装置、展现搜索结果的方法及搜索引擎系统。通过本发明,可以获得更广的数据来源,再通过预置的导航关键词对各相关数据源中的文本进行分析,可以尽可能全面地获取到导航查询词。
文档编号G06F17/30GK101398856SQ200810226300
公开日2009年4月1日 申请日期2008年11月12日 优先权日2008年11月12日
发明者勇 王 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1