一种重新定义查询词的搜索方法及装置的制作方法

文档序号:6463081阅读:208来源:国知局
专利名称:一种重新定义查询词的搜索方法及装置的制作方法
技术领域
本发明涉及搜索引擎技术,特别是涉及一种重新定义查询词的搜索方法及 装置。
背景技术
搜索引擎技术的发展给广大网络用户带来非常多的便利,用户在搜索引擎 上输入一个查询词,搜索引擎根据用户的查询词,就能返回与该查询词对应的 相关网页。现有的各种搜索引擎在进行网页检索时,都是通过查找关键词是否 在网页中出现来进行检索。虽然这种搜索方式提供了强大的网页检索功能,但是也存在下述问题由于自然语言中存在同义词或近义词现象,用户输入的查 询词可能与目标网页中的词语义相似但是没有直接出现,这样就检索不到需要 的结果了。现有的解决思路是建立查询词之间的关系表,然后在输入一个查询词的情 况下,根据关系表找到该词的同义词或近义词,将包含所述同义词或近义词的 网页也作为搜索结果。目前,建立查询词之间的关系主要有两种实现方式,第一种为人工方式。 这种方法的缺点是需要大量人力,而且由于网络的更新速度较快,对网络上出 现的大量查询词无法做到及时更新,通常只能做小范围处理。第二种方法是通过两个词语在文本中的同现来建立它们的关联关系,即基 于语料库的统计信息来建立同义、近义关系。常用的同现计算方式有同现概率 和互信息。举例说明,例如X,Y是两个词,同现概率计算公式是P(X,Y同现) =同时包含X,Y的文本数量/文本总数,互信息计算公式是MI(X,Y)=P(X,Y同 现)/P(X)/P(Y);其中计算结果较大的认为X,Y有联系。根据上述计算公式,这种基于同现方法的缺点是由于同义词或近义词常 常是以替代的形式出现,很少会包含在同一个网页文本中,例如,"搜狐"和 "sohu"是同义词,许多网页中可能根据习惯只包含其中一个词;因此,根据同 现计算方式就不能精确找出具有同义或近义关系的词语。发明内容本发明所要解决的技术问题是提供一种重新定义查询词的搜索方法及装 置,以解决现有的搜索方式只能将包含查询词的网页作为搜索结果,而不能精 确搜索到包含该查询词的同义或近义词的网页,造成搜索效果不能满足用户需 求的问题。为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案一种重新定义查询词的搜索方法,包括 根据搜索引擎日志,获得查询词的历史记录;比较查询词之间历史记录的相似度,并将相似度符合预置条件的判为相关词;根据查询词搜索时,将相应的相关词或相关词的查询结果提供给用户。优选的,所述方法还包括对所述查询词的历史记录进行预处理,筛选出 有效的历史记录;其中,所述有效历史记录包括对应查询词的有效URL及相 应的点击次数,以及对应URL的有效查询词及相应的访问次数。其中,所述筛选有效历史记录的步骤包括根据搜索引擎日志中对应一个 查询词所点击的网页URL及每个网页URL的点击次数,将点击次数符合预置 条件的URL筛选为对应该查询词的有效URL。其中,所述筛选有效历史记录的步骤包括根据搜索引擎日志中对应一个 网页URL所使用的查询词及每个查询词的访问次数,将访问次数符合预置条 件的查询词筛选为对应该URL的有效查询词。优选的,所述筛选有效历史记录的步骤包括根据搜索引擎日志中对应一 个查询词所点击的网页URL及每个网页URL的点击次数,将点击次数符合预 置条件的URL筛选为对应该查询词的有效URL;针对所述有效URL,根据搜 索引擎日志中对应一个网页URL所4吏用的查询词及每个查询词的访问次数, 将访问次数符合预置条件的查询词筛选为对应所述有效URL的有效查询词; 生成针对查询词的有效历史记录,包括对应查询词的有效URL及相应的点击 次数。优选的,所述比较查询词的历史记录来判断相关词的步骤包括根据查询词的有效历史记录得到对应查询词的向量,所述向量包括对应查询词的有效URL和相应的点击次数;计算两个向量的相似度,并将计算结果符合预置条 件的两个词判为相关词。优选的,计算两个向量的相似度之前,还包括对所述向量进行归一化计算。其中,所述比较查询词的历史记录来判断相关词的步骤包括比较两个词 的有效URL,将两个词的有效URL的相似度符合预置条件的判为相关词。其中,所述相关词的查询结果为仅包含相关词的查询结果,和/或同时包 含相关词和查询词的查询结果。其中,如果将相关词提供给用户,还包括根据用户选择的相关词,重新 进4亍查询。优选的,所述方法还包括对所述查询结果中出现的相关词标红。 一种重新定义查询词的搜索装置,包括曰志查询单元,用于根据搜索引擎日志,获得查询词的历史记录;相关词判断单元,用于比较查询词之间历史记录的相似度,并将相似度符 合预置条件的判为相关词;查询重定义单元,用于根据查询词搜索时,将相应的相关词或相关词的查 询结果提供给用户。优选的,所述装置还包括有效历史记录筛选单元,用于对所述查询词的 历史记录进行预处理,筛选出有效的历史记录;其中,所述有效历史记录包括 对应查询词的有效URL及相应的点击次数,以及对应URL的有效查询词及相 应的i方问次数。其中,所述有效历史记录筛选单元包括第一筛选单元,用于根据搜索引擎 日志中对应一个查询词所点击的网页URL及每个网页URL的点击次数,将点 击次数符合预置条件的URL筛选为对应该查询词的有效URL。其中,所述有效历史记录筛选单元还包括第二筛选单元,用于根据搜索引 擎曰志中对应一个网页URL所使用的查询词及每个查询词的访问次数,将访 问次数符合预置条件的查询词筛选为对应该URL的有效查询词。优选的,所述有效历史记录筛选单元利用第 一篩选单元获得对应查询词的有效URL,针对所述有效URL,再利用第二筛选单元获得对应所述有效URL 的有效查询词;然々,生成针对查询词的有效历史记录,包括对应查询词的有 效URL及相应的点击次凄史。优选的,所述相关词判断单元包括第一判断单元,负责根据查询词的有效 历史记录得到对应查询词的向量,所述向量包括对应查询词的有效URL和相 应点击次数;计算两个向量的相似度,并将计算结果符合预置条件的两个词判 为相关词。优选的,所述第一判断单元对所述向量进行归一化计算后,再计算两个向 量的相似度。其中,所述相关词判断单元包括第二判断单元,负责比较两个词的有效 URL,将两个词的有效URL的相似度符合预置条件的判为相关词。其中,所述相关词的查询结果为仅包含相关词的查询结果,和/或同时包 含相关词和查询词的查询结果。其中,如果查询重定义单元将相关词提供给用户,则根据用户选择的相关 词,重新进4亍查询。优选的,所述查询重定义单元对所述查询结果中出现的相关词标红。根据本发明提供的具体实施例,本发明公开了以下技术效果首先,本发明充分利用搜索引擎日志,获得查询词的历史记录,然后比较 查询词之间历史记录的相似度,将相似度符合预置条件的判为相关词,这些相 关词是该查询词的同义或近义词;在用户输入查询词进行搜索时,搜索引擎根 据查询词搜索时,将相应的相关词或相关词的查询结果提供给用户。这样就能 将包含相关词的网页也一 同搜索出来,解决了同义或近义词常常以替代形式出 现而无法被其他方法发现的问题,从而提高了搜索质量。其次,由于搜索引擎日志可以覆盖近期的大部分查询,同时用户输入的查 询词、点击的URL与他的查询意图之间存在比较直接的联系,在覆盖度和准 确性上具有一定优势,因此建立的查询词相似度关系更紧密。再次,由于搜索引擎日志同步更新,所以所述整个流程也是在不断更新, 进一步提高了搜索质量,还有利于抓住网上流行的热点。最后,有些词(比如新闻词汇)在特定的时期具有一些特殊的含义,同义或近义词常常是以替代的形式出现,不会包含在同一个网页文本中,基于同现的方法无法获取这类词;而搜索引擎日志具有更强的时效性,通过本发明所述 方法能够获取到这类词,并添加到查询中。


图l是现有技术中建立查询词之间关系的方法示意图;图2是本发明实施例所述一种重新定义查询词的搜索方法流程图;图3是本发明实施例所述一种重新定义查询词的搜索装置结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一 步详细的说明。本发明实施例提供了 一种重新定义查询词的搜索方法,利用搜索引擎日志 来获得查询词的有效历史记录,然后计算查询词之间有效历史记录的相似度, 在查询时选定相似词加入原始查询,生成新的查询,这样就能将包含同义或近 义词的网页也一 同搜索出来,解决了同义或近义词常常以替代形式出现而无法 被其他方法发现的问题,从而提高了搜索质量。举例说明,查询词"搜狐"和"sohu"是同义词,现有技术中当用户输入"搜狐" 查询时,搜索引擎会将包含该查询词的网页作为搜索结果展现给用户,而本发 明会将包含"搜狐"的网页以及包含"sohu"的网页都返回给用户。参照图2,是本发明实施例所述一种重新定义查询词的搜索方法流程图。步骤201,根据搜索引擎日志,获得查询词的历史记录。搜索引擎的日志系统记录了用户在搜索引擎上的进行的行为,包含两个方 面其一,记录用户在搜索引擎上进行的查询;其二,记录用户在进行一次查 询时点击的网页,例如用户在"sogou"网站上搜索查询词"sohu"时,点击的 网页有http:〃www.sohu.com/、 http:〃news.sohu.com/等。本发明充分利用所述完备的搜索引擎查询点击日志,通过查询该日志可以 得到第一,用户在查询某个查询词时点击了哪些网页,每个网页被访问了多 少次;第二,输入一个网址,得到点击这个网址的查询词,以及每个查询词被 访问了多少次。然后,利用所述日志记录来建立词与词之间的关联关系。优选步骤202,对所述查询词的历史记录进行预处理,筛选出有效的历史 记录。由于日志系统中的数据量非常大,而且日志系统中存在很多使用率较低的 查询词,如果对每个词都计算它与其他词的关系,则计算量非常大。并且,曰 志记录中存在一些噪声,会影响后续步骤的处理。因此,本实施例需要先对这 些日志记录进行预处理,尽量去除日志噪声,筛选出有效的历史记录。本实施例采用以下两个步骤来筛选有效的历史记录,这种方法仅作为本发 明的实施例进行说明,本发明不限定还有其他筛选方法。步骤a,根据对应一个查询词所点击的网页URL( Uniform Resoure Locator, 统一资源定位符)及每个网页的点击次数,筛选出对应查询词的有效URL。 即对每个词,从历史记录中筛选出用户集中访问的一些网页和访问次数作为有 效的历史记录。例如,对于查询词"搜狐",其历史记录如下访问量 URL25778 http:〃www. sohu.com/ 2913 http:〃news.sohu.com/ 1784 http://business.sohu.com/其中,点击网址http:〃www.sohu.com/的查询比其它查询高出数倍,可看 作该词对应的有效URL。步骤b,根据对应一个网页URL所使用的查询词及每个查询词的访问次 数,再对步骤a筛选出的有效URL进一步筛选,得到对应所述有效URL的有 效查询词。例如,对于上例中有效的URL: http:〃www.sohu.comA对应的查询词记 录如下访问量查询词 35978 sohu 25778 搜狐 4259 www.sohu.com其中,查询词"sohu"和"搜狐"的访问量比其它的查询词高出数倍,可 视作该URL的有效查询词。在筛选有效历史记录的过程中,将上述两个步骤结合起来,可将日志记录 中点击较少的查询词和点击较少的网页都去除,并去除不相关的点击,从而得 到包含有效查询词和有效URL的历史记录,即"查询词-URL"对。例如,对 于查询词"搜弧",相应的点击URL中www.sohu.com的排名很高,但是在 www.sohu.com下,"搜弧,,的查询不高,所以"搜弧"这个查询词不是有效的 查询词,将^皮删去。需要说明的是,上述步骤a和步骤b在执行时没有特定的先后顺序,可以 先a后b,也可以先b后a;而且,所述两个步骤也可以分别单独使用,但通 常是配合起来共同进行筛选效果更好。步骤203,通过比较查询词之间有效历史记录的相似度,建立查询词之间 的相关关系,并将有效历史记录相似的词语作为相关词。根据步骤202得到对应查询词的有效历史记录后,将有效URL和相应的 访问量构成一个向量,例如针对查询词"搜狐",其向量为[www.sohu.com, 25778]。通过比较两个向量的相似度,可以得到两个查询词的相似度,选中其 中相似度高的词作为相关词。所述相关词通常是指在自然语言上具有同义或近义关系的词,例如"搜弧"而是包含根据以下过程获得的查询词,所述过程如下根据搜索引擎日志中记录的网页URL,可以得到点击这个网址的查询词, 这些查询词之间都具有本发明所述的相关关系;或者,针对某一查询词a,根据搜索引擎日志获得对应该查询词的网页URL,然后再针对每个网页URL找 到点击相应URL的查询词b,查询词b与查询词a就具有相关关系。优选的,还可以通过上述步骤a和步骤b得到有效相关词。例如,才艮据步 骤b直接筛选出有效相关词,或者根据步骤a和b共同筛选出有效相关词。计算向量相似度的方法有多种,本实施例在此介绍其中的两种,如下第一种,通过简单计算两个词公共的有效URL比例,判断向量的相似度。 所述方法是指比较两个词的向量中相同的URL,将比较结果符合预置条件的判为相似。其中一种方式是将向量中所有的有效URL都相同的词判为相关词,例^r:两个词"sohu,,和"搜狐","sohu,,对应的有效URL只有www,sohu,com, "搜狐,,对应的有效URL也只有www.sohu.com,即他们对应的有效URL都 是www.sohu.com,则将"sohu"和"搜狐"判为相关词;两个词"新闻,,和"news","新闻"对应的有效URL有2个,分别是 news.sina.com.cn和news.sohu.com; "news " 对应的有效URL也只有2个, 分别是news.sina.com.cn和news.sohu.com。这冲羊,"l斤闻"和"news"对应的 有效URL都是news.sina.com.cn和news.sohu.com,贝'J将所述两个词判为相似。这种方法仅仅将有效URL完全相同的两个词判为相似,本实施例还提供 了另一种判断方式,主要是针对两个词的有效URL部分相同的情况。例如, 有些词语是同义或近义关系,其对应的URL列表有部分重叠而不完全相同, 这时在比较两个词的有效URL时,通过确定预置的阈值,保证选中的词语对具有一定的相似性。由上可知,上述第一种方式是第二种方式的特例。第二种方式中当阈值为 100%时,即两个查询词的有效URL列表完全重叠时,即为第一种情况。第二种,对进行比较的向量进行量化计算。j叚设针对某个查询词a,其对应的有效历史记录为(Ui, Nai), i=l,2,...n;其中,Ui表示对应的第i个有效URL, Nai表示对应该URL用户使用该 词a进行查询的次数。所述有效历史记录可以表示成一个n维向量,每一维对 应一个有效的URL及相应的访问次数。在比较两个词的相似度时,将上述方式表示的向量带入相似度计算公式计 算,然后将计算值符合阈值的判为相似。其中,相似度计算可以采用的公式包 括K-L散度公式(库尔贝克一莱布勒散度)、欧式距离、余弦公式等等公式, 本发明在此不作限定。经过上述步骤,搜索引擎系统建立起一张相关词列表。步骤204,用户输入查询词进行检索时,搜索引擎根据相关词列表查找到只十应该查询词的相关词,然后在返回该查询词结果时,还可以将相应的相关词 或相关词的查询结果提供给用户。即将相关词作为用户输入的补充加入原始查 询,生成新的查询,将该查询词和相关词都作为搜索关键词,分别进行搜索。搜索引擎最后返回的查询结果包括以下三种情况第一种,仅包含该查询 词的网页信息;第二种,同时包含该查询词和相关词的网页信息;第三种,仅 包含相关词的网页信息。根据查询结果与查询词的相关程度,搜索引擎在排序 靠前的查询结果中会将这三种网页信息都提供给用户,也可能仅提供其中的一 种或两种结果。举例说明,以查询词"搜狐"和"sohu"为例第一种用"搜狐"作为查询词,查询结果里只含有"搜狐"不含有"sohu"; 第二种用"搜狐,,作为查询词,查询结果里既含有"搜狐,,又含有"sohu"; 第三种用"搜狐"作为查询词,查询结果里只含有"sohu"不含有"搜狐"。在现有技术中,利用目前的搜索引擎得到的查询结果包括第一种和第二种 情况,即搜索引擎将包含查询词"搜狐"的网页作为查询结果。而利用本发明 实施例所述方法,搜索引擎获得的查询结果包括以上三种情况。针对第三种查 询结果,用户输入查询词"搜狐",本发明搜索引擎首先找到该词的相关词 "sohu",然后将仅包含"sohu"的网页检索出来。针对第二种情况,查询结 果中同时包含"搜狐"和"sohu",本发明搜索引擎根据查询词"搜狐"可以 检索出,也可以根据相关词"sohu,,检索出。综上所述,本发明与现有技术的区别在于现有技术仅仅能将包含查询词 "搜狐"的网页检索出,而不能把仅包含相关词"sohu"的网页检索出;本发 明即可以将仅包含查询词"搜狐"的网页检索出,也可以把仅包含相关词"sohu" 的网页检索出,还可以把同时包含"搜狐"和"sohu"的网页检索出来。由此 可见,利用本发明得到的搜索结果更准确,能够给用户带来更好的搜索体验。再举例,现有技术中,用"搜狐"作为查询词时,返回的网页有A、 B、 C、 D,用"sohu"作为查询词时返回的网页是A、 B、 E、 F。其中,网页A、 B即包含"搜狐"又包含"sohu",网页C、 D仅包含"搜狐",网页E、 F仅包含"sohu"。应用本发明后,当用户用"搜狐"作为查询词时,搜索引擎会将"搜狐"和"sohu"都作为查询词,分别进行查询,最终为用户提供A、 B、 C、 D、 E、 F的网页内容。此外,本实施例还可以将该查询词的相关词作为查询结果提供给用户,即 在查询结果页面中列出相应的相关词。这时,搜索引擎会根据用户选择的相关 词,进行重新查询。即用户点击相关词,搜索引擎将所述相关词作为查询词, 再次进行查询。例如,用户输入查询词"搜狐",搜索引擎的结果页面中不仅 列出对应"搜狐"的查询结果,还会将相关词"sohu"列出作为提示信息,用 户继续点击"sohu",搜索引擎就会将对应"sohu,,的查询结果提供给用户。 或者,搜索引擎将对应"搜狐"和"sohu"的查询结果都列出来,同时将相关 词"sohu"也列出来供用户参考。本发明实施例优选的,还会对查询结果中出现的相关词进行标红。所述标 红是指在查询结果中将查询词以彩色标注出来,以方便用户查看。由于有些查 询结果的页面中并没有列出相应的查询词或相关词,所以仅对出现在查询结果 的自动摘要或网页链接等位置的查询词和相关词标红。在现有技术中,针对查 询词的查询结果中就会将出现的查询词标红,而本发明会将查询结果中出现的 查询词和相关词都标红。将本发明与现有技术对比上例中,现有技术的查询结果包括第一种和第 二种情况,标红的查询词为"搜狐";而本发明的查询结果包括所述三种情况, 标红的查询词既有"搜狐",还有"搜狐"的相关词"sohu"。区别尤其明显的 是第二种查询结果里既含有"搜狐"又含有"sohu"的情况,现有技术只将"搜 狐"标红,本发明会同时将"搜狐"和"sohu,,都标红。此外,针对日志噪声的问题,还可以有多种去噪方法,例如www.sohu.com对应的查询词"搜弧"是错别字造成的查询词,由于该站 点的知名度较高,"搜弧"的查询量可能比某些小站点的查询词点击量要高出 很多,但是小站点中查询词和URL的关系可能要更紧密一些。如果将小站点 的查询词与大站点的查询词进行相似度比较,是没有可比性的。因此,需要找 到一些特征,滤掉这些大站点下的噪声,同时加强对小站点的处理能力。解决方法是采用归一化方法,就是用每个部分去除整体,然后得到占整体的百分数,把数据映射到0~1范围之内处理。如果画出了各个部分的图象, 那么图象的积分应该是l,就像正态分布。例如,设一个向量为V,.则归一化后为V/||V||。例如对向量(Ui,Nai),i=l,2,...n 进行归 一 化处理,得到 (Nal/N,Na2/N,...,Nan/N),其中N为该词所有的URL的访问数之和。综上所述,本发明充分利用了搜索引擎的日志信息,通过挖掘相似词汇并 加入查询串中以弥补单个用户输入信息量的不足,提高了搜索质量。而且,搜 索引擎的日志在同步更新,所以所述整个流程也是在不断更新,进一步提高了 搜索质量,还有利于抓住网上流行的热点。其次,由于搜索引擎日志可以覆盖近期的大部分查询,同时用户输入的查 询词、点击的URL与他的查询意图之间存在比较直接的联系,在覆盖度和准 确性上具有一定优势,因此建立的查询词相似度关系更紧密。而且,针对在特 定时期具有一些特殊含义的词语,比如新闻词汇,基于同现的方法无法获取这 类词;而搜索引擎日志具有更强的时效性,通过本发明所述方法能够获取到这 类词,并添加到查询中。针对上述方法,本发明还提供了一种重新定义查询词的搜索装置实施例。 参照图3,是所述装置的结构图。所述装置主要包括日志查询单元301,相关 词判断单元302,查询重定义单元303,以及优选设置的有效历史记录筛选单 元304。所述日志查询单元301负责从搜索引擎的日志系统中获取历史记录,所述 历史记录包括对应一个查询词所点击的网页URL及每个网页URL的点击次 数,以及对应一个网页URL所4吏用的查询词及每个查询词的访问次凄t。由于日志系统中的数据量非常大,而且曰志记录中存在一些噪声,会影响 后续的处理。因此,本实施例设置有效历史记录筛选单元304,需要先对这些 曰志记录进行预处理,尽量去除日志噪声,筛选出有效的历史记录。所述有效历史记录筛选单元304主要负责从搜索引擎的日志系统中筛选 出有效的历史记录,根据筛选方法的不同,可以分为第一筛选单元和第二篩选 单元。所述第一篩选单元用于根据对应一个查询词所点击的网页URL及每个 网页的点击次数,筛选出对应查询词的有效URL;所述第二筛选单元用于才艮据对应一个网页URL所4吏用的查询词及每个查询词的访问次数,筛选出对应所述有效URL的有效查询词。所述两个单元可以单独使用,分别获得有效的 URL和有效的查询词。一种优选的方式是,有效历史记录筛选单元304同时使用所述两个单元来 获得针对查询词的有效历史记录。筛选方式是利用第一筛选单元获得对应查 询词的有效URL,针对所述有效URL,再利用第二筛选单元获得对应所述有 效URL的有效查询词;然后,生成针对查询词的有效历史记录,包括对应查 询词的有效URL及相应的点击次数。相关词判断单元302负责通过计算查询词之间有效历史记录的相似度,建 立查询词之间的相关关系,并将有效历史记录相似的词语作为相关词,最后得 到一张相关词列表。根据相似度的计算及判断方式不同,相关词判断单元202 可分为第 一判断单元和第二判断单元。其中,第 一判断单元采用的方式是对进行比较的查询词向量进行量化计 算,将查询词对应的向量带入相似度计算公式计算,然后将计算值符合阔值的 判为相似。其中,相似度计算可以采用的公式包括K-L散度公式、欧式距离、 余弦公式等等公式。第二判断单元负责通过比较两个词的有效URL,将有效URL的相似度符 合预置条件的判为相关词。 一种情况是,如果两个词的有效URL有部分重叠 而不完全相同,则第二判断单元在比较两个词的有效URL时,通过确定预置 的阈值,保证选中的词语对具有一定的相似性。还有一种特殊情况是,当设置 所述阈值为100°/。时,即两个查询词的有效URL列表完全重叠时,才判为相关 词。查询重定义单元303负责在用户输入查询词进行检索时,根据相关词列表 查找到对应该查询词的相关词,然后将相关词作为用户输入的补充加入原始查 询,生成新的查询。即将该查询词和相关词都作为搜索关4走词,分别进行搜索。 搜索结果包括三种情况第一种,仅包含该查询词的网页信息;第二种,同时 包含该查询词和相关词的网页信息;第三种,仅包含相关词的网页信息。此外,查询重定义单元303还可以将该查询词的相关词作为查询结果纟是供 给用户,即在查询结果页面中列出相应的相关词。这时,查询重定义单元303会根据用户选择的相关词,进行重新查询。优选的,查询重定义单元303不仅将查询结果中出现的查询词标红,还将 出现的相关词也进行标红。例如,查询结果里既含有"搜狐"又含有"sohu" 的情况,现有技术只将"搜狐"标红,本发明会同时将"搜狐"和"sohu"都 标红。图3所示装置中未详述的部分可以参见图2所示方法的相关部分,为了篇 幅考虑,在此不再详述。以上对本发明所提供的一种重新定义查询词的搜索方法及装置,进行了详实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领 域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有 改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1、一种重新定义查询词的搜索方法,其特征在于,包括根据搜索引擎日志,获得查询词的历史记录;比较查询词之间历史记录的相似度,并将相似度符合预置条件的判为相关词;根据查询词搜索时,将相应的相关词或相关词的查询结果提供给用户。
2、 根据权利要求1所述的方法,其特征在于,还包括 对所述查询词的历史记录进行预处理,筛选出有效的历史记录;其中,所述有效历史记录包括对应查询词的有效URL及相应的点击次数, 以及对应URL的有效查询词及相应的访问次数。
3、 根据权利要求2所述的方法,其特征在于,所述篩选有效历史记录的 步骤包括根据搜索引擎日志中对应一个查询词所点击的网页URL及每个网页URL 的点击次数,将点击次数符合预置条件的URL筛选为对应该查询词的有效 URL。
4、 根据权利要求2所述的方法,其特征在于,所述筛选有效历史记录的 步骤包括才艮据搜索引擎日志中对应一个网页URL所使用的查询词及每个查询词的 访问次数,将访问次数符合预置条件的查询词筛选为对应该URL的有效查询 词。
5、 根据权利要求2所述的方法,其特征在于,所述筛选有效历史记录的 步骤包括根据搜索引擎日志中对应一个查询词所点击的网页URL及每个网页URL 的点击次数,将点击次数符合预置条件的URL筛选为对应该查询词的有效 URL;针对所述有效URL,根据搜索引擎日志中对应一个网页URL所使用的查 询词及每个查询词的访问次数,将访问次数符合预置条件的查询词筛选为对应 所述有效URL的有效查询词;生成针对查询词的有效历史记录,包括对应查询词的有效URL及相应的点击次数。
6、 根据权利要求1所述的方法,其特征在亍,所述比较查询词的历史记 录来判断相关词的步骤包括根据查询词的有效历史记录得到对应查询词的向量,所述向量包括对应查 询词的有效URL和相应的点击次数;计算两个向量的相似度,并将计算结果符合预置条件的两个词判为相关词。
7、 根据权利要求6所述的方法,其特征在于,计算两个向量的相似度之 前,还包括对所述向量进行归一化计算。
8、 根据权利要求1所述的方法,其特征在于,所述比较查询词的历史记 录来判断相关词的步骤包括比较两个词的有效URL,将两个词的有效URL的相似度符合预置条件的 判为相关词。
9、 根据权利要求1所述的方法,其特征在于所述相关词的查询结果为 仅包含相关词的查询结果,和/或同时包含相关词和查询词的查询结果。
10、 根据权利要求1所述的方法,其特征在于,如果将相关词提供给用户, 还包括根据用户选择的相关词,重新进行查询。
11、 根据权利要求1或9所述的方法,其特征在于,还包括对所述查询 结果中出现的相关词标红。
12、 一种重新定义查询词的搜索装置,其特征在于,包括 曰志查询单元,用于根据搜索引擎日志,获得查询词的历史记录; 相关词判断单元,用于比较查询词之间历史记录的相似度,并将相似度符合预置条件的判为相关词;查询重定义单元,用于根据查询词搜索时,将相应的相关词或相关词的查 询结果提供给用户。
13、 根据权利要求12所述的装置,其特征在于,所述装置还包括有效 历史记录筛选单元,用于对所述查询词的历史记录进行预处理,筛选出有效的 历史记录;其中,所述有效历史记录包括对应查询词的有效URL及相应的点 击次数,以及对应URL的有效查询词及相应的访问次数。
14、 根据权利要求13所述的装置,其特征在于所述有效历史记录筛选 单元包括第 一 筛选单元,用于根据搜索引擎日志中对应一个查询词所点击的网 页URL及每个网页URL的点击次数,将点击次数符合预置条件的URL筛选 为对应该查询词的有j文URL。
15、 根据权利要求14所述的装置,其特征在于所述有效历史记录筛选 单元还包括第二篩选单元,用于根据搜索引擎日志中对应一个网页URL所使 用的查询词及每个查询词的访问次数,将访问次数符合预置条件的查询词篩选 为对应该URL的有岁丈查询词。
16、 根据权利要求15所述的装置,其特征在于所述有效历史记录筛选 单元利用第一筛选单元获得对应查询词的有效URL,针对所述有效URL,再 利用第二筛选单元获得对应所述有效URL的有效查询词;然后,生成针对查 询词的有效历史记录,包括对应查询词的有效URL及相应的点击次数。
17、 根据权利要求12所述的装置,其特征在于所述相关词判断单元包 括第一判断单元,负责才艮据查询词的有效历史记录得到对应查询词的向量,所 述向量包括对应查询词的有效URL和相应点击次数;计算两个向量的相似度, 并将计算结果符合预置条件的两个词判为相关词。
18、 根据权利要求17所述的装置,其特征在于所述第一判断单元对所 述向量进行归一化计算后,再计算两个向量的相似度。
19、 根据权利要求12所述的装置,其特征在于所述相关词判断单元包 括第二判断单元,负责比较两个词的有效URL,将两个词的有效URL的相似 度符合预置条件的判为相关词。
20、 根据权利要求12所述的装置,其特征在于所述相关词的查询结果 为仅包含相关词的查询结果,和/或同时包含相关词和查询词的查询结果。
21、 根据权利要求12所述的装置,其特征在于如果查询重定义单元将 相关词提供给用户,贝'J根据用户选择的相关词,重新进行查询。
22、 根据权利要求12或20所述的装置,其特征在于所述查询重定义单 元对所述查询结果中出现的相关词标红。
全文摘要
本发明公开了一种重新定义查询词的搜索方法及装置,解决现有的搜索方式只能将包含查询词的网页作为搜索结果,而不能精确搜索到包含该查询词的同义或近义词的网页,造成搜索效果不能满足用户需求的问题。所述方法包括根据搜索引擎日志,获得查询词的历史记录;比较查询词之间历史记录的相似度,并将相似度符合预置条件的判为相关词;根据查询词搜索时,将相应的相关词或相关词的查询结果提供给用户。本发明能将仅包含相关词的网页也一同搜索出来,解决了同义或近义词常常以替代形式出现而无法被其他方法发现的问题,从而提高了搜索质量。
文档编号G06F17/30GK101241512SQ20081010164
公开日2008年8月13日 申请日期2008年3月10日 优先权日2008年3月10日
发明者张智敏, 王静帆 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1