一种扩展查询的方法、装置及搜索引擎系统的制作方法

文档序号:6464405阅读:120来源:国知局
专利名称:一种扩展查询的方法、装置及搜索引擎系统的制作方法
技术领域
本发明涉及搜索查询领域,特别是涉及一种扩展查询的方法、装置及包含 该装置的搜索引擎系统。
背景技术
搜索引擎技术的发展给广大网络用户带来非常多的便利,用户利用搜索引 擎可以很方便的获取其想要知道的信息。用户在搜索引擎上输入一个查询词, 搜索引擎根据用户的查询词,就能返回包含该查询词的网页。因此,对于使用 搜索引擎的用户而言,查询词至关重要,只有使用恰当的查询词,才能找到需 要的网页。
目前,各个搜索引擎为了帮助用户找到恰当的查询词,进一步提高搜索查 询质量,都提供了"相关搜索"的功能。即当一个用户查询某个词的时候,搜索
引擎会提示其他用户用过的相关查询词。例如用户在Google输入"电脑"后点 击查询按钮,返回的页面中除列出搜索结果外,在该页面的最下端还给出了相 关搜索"太平洋电脑网"、"笔记本电脑"、"太平洋电脑"、"联想电脑"、"笔记本 电脑报价"等与"电脑"相关的查询词。
现有的提供相关查询词的方法,主要是比较查询词之间的相似性,即比较 两个查询词有多少相同的字或词。基于这种技术得到的相关查询词,存在以下 问题提供的相关查询词,性质都是一样的,通过这些查询词搜索到的结果都 差不多;提供的相关查询词,由于性质一样,所以是否能够搜索到更多更广范 围的信息是不确定的。

发明内容
本发明所要解决的技术问题是提供一种扩展查询的方法、装置及包含该装 置的搜索引擎系统,以解决目前的搜索引擎提供的相关查询词,性质可能一样, 导致通过这些查询词搜索到的结果都差不多,并且是否能够搜索到更多更广范 围的信息不确定的问题。
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案
一种扩展查询的方法,包括
统计与查询词同现的词语;
将所有同现的词语进行分类;
为每一个类别选择特征词;
将各个类的特征词作为该查询词的相关查询词。
其中,所述同现的词语指与查询词在一个网页中同时出现的词语。
优选的,所述统计与查询词同现的词语具体包括以所有的查询词为关4建 词建立索引,索引内容为与查询词同现的词语。
其中,所述索引为倒排索引。
优选的,还包括将同现的词语按照出现频率从高到低进行排序。 优选的,所述将所有同现的词语进行分类具体包括将每个同现的词语都
用一个集合表示,集合的内容为与该词同现的词语和词频;比较集合之间的相
似度,如果相似度符合预置条件,则将集合对应的同现词语合并到一类。 其中,所述比较集合之间的相似度是比较集合中相同词语的个数。 优选的,所述为每一个类别选择特征词具体包括从每一个类别以及对应
的集合中选择一个词作为特征词,该词在本类别中出现的频率高于在其他类别
中出现的频率。
优选的,所述方法还包括用户输入查询词,将对应该查询词的相关查询 词提供给用户;其中,所述相关查询词包括多个分类。
优选的,将对应该查询词的相关查询词提供给用户具体包括根据搜索日 志,对所述相关查询词按照查询频率进行排序;将查询频率符合预置条件的相 关查询词提供给用户。
一种扩展查询的装置,包括
数据统计单元,用于统计与查询词同现的词语;
词语分类单元,用于将所有同现的词语进行分类;
类别命名单元,用于为每一个类别选择特征词;
扩展查询单元,用于将各个类的特4正词作为该查询词的相关查询词。 其中,所述同现的词语指与查询词在一个网页中同时出现的词语。优选的,所述数据统计单元进一步包括建立索引单元,用于以所有的查 询词为关键词建立索引,索引内容为与查询词同现的词语。 其中,所述索引为倒排索引。
优选的,所述数据统计单元还包括排序单元,用于将同现的词语按照出 现频率从高到低进行排序。
优选的,所述词语分类单元进一步包括建立集合单元,用于将每个同现 的词语都用一个集合表示,集合的内容为与该词同现的词语和词频;合并单元, 用于比较集合之间的相似度,如果相似度符合预置条件,则将集合对应的同现 词语合并到一类。
其中,所述比较集合之间的相似度是比较集合中相同词语的个数。 优选的,所述类别命名单元通过以下方式为每一个类别选择特征词从每
一个类别以及对应的集合中选择一个词作为特征词,该词在本类别中出现的频
率高于在其他类别中出现的频率。
优选的,所述装置还包括应用单元,用于在用户输入查询词时,将对应 该查询词的相关查询词提供给用户;其中,所述相关查询词包括多个分类。
优选的,所述应用单元进一步包括排序单元,用于根据搜索日志,对所 述相关查询词按照查询频率进行排序;类别筛选单元,用于将查询频率符合预 置条件的相关查询词提供给用户。
一种搜索引擎系统,所述搜索引擎系统包括所述的扩展查询装置。
才艮据本发明提供的具体实施例,本发明具有以下技术效果 本发明在向用户提供相关查询词时,是将与该查询词同现的词语进行分 类,然后将各个类的特征词作为该查询词的相关查询词提供给用户。与现有技 术相比,本发明提供给用户的是多类查询,各个查询词的性质不同,能够查询 到更多更广范围的信息;而现有技术提供的相关查询,不一定是几类查询词, 很有可能性质都是一样的,因为现有的比较查询词之间相似性的方法很难判 断。
本发明在于引导用户用更优的词进行检索,以便能够得到更好的检索效 果;引导用户的实质,是对用户的查询目的进行猜测、进而细分,从而得到更好的效果。总之,本发明通过对查询词进行了分类,保证了扩展后查询的多样 性。


图1是本发明所述一种扩展查询的方法第一实施例的流程图; 图2是本发明实施例一中的索引示意图; 图3是本发明实施例 一 中对两个集合进行求交运算的示意图; 图4是本发明所述一种扩展查询的方法第二实施例的流程图; 图5是本发明所述一种扩展查询的装置第一实施例的结构图; 图6是本发明所述一种扩展查询的装置第二实施例的结构图。
具体实施例方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。
本发明提供了一种扩展查询的方法,对于用户的查询进行扩展,能够为用 户提供更优的查询词,从而得到更好的查询效果。 实施例一
参照图1,是所述一种扩展查询的方法第一实施例的流程图。 S101,统计与查询词同现的词语。
统计与查询词同现的所有词语,是指统计一个词都与哪些词在一个网页 (或一篇文章)中同时出现。在实际应用中, 一种优选的统计方法是以所有 出现过的查询词为关4建词建立索引,索引内容为与查询词同现的词语。
参照图2,是索引示意图。该索引是一种倒排索引结构,索引中的每个关 4定词即为查询词,对应每个关4t词的索引内容即为与该查询词同现的词语。这 些同现的词语可能来源于多个网页。例如,对于某查询词,同现的词语有A、 B、 C、 D,其中词A和B与该查询词在一个网页中同时出现,词C和D与该 查询词在另一个网页中同时出现。所以,每个索引内容为所有与查询词同现的 词语。
优选的,还可以对索引中的同现词语按照出现的频率从高到低进行排序, 以方^_后续处理。如果一个词语在多个网页中与该查询词同现,则这个词语出现的频率就高,该词就排在靠前的位置。例如,对于某查询词,同现的词语有
A、 B、 C、 D,其中词A、 B、 C与该查询词在网页X中同时出现,而词D既 在网页X中与查该询词同现,又在网页Y中与该查询词同现,这样词D的出 现概率就高于词A、 B、 C。
S102,将所有同现的词语进行分类。
从S101中统计出的与一个查询词同时出现的词,可能会非常多,但不能 把所有的同现词都拿出来做相关搜索。所以,需要把得到的所有的同现词做分 类,分为各个类别。
本实施例优选采用的分类方法是,采用一种最大划分的方法。具体如下
首先,将每个同现的词语都用一个集合表示,集合的内容为与该词同现的 词语和词频;这样,对于每个同现词,都可以用一串词和词频来表示;
然后,比较集合之间的相似度,如果相似度符合预置条件,则将集合对应 的同现词语合并到一类。
每个同现词用上述集合的方式表示之后,每两个词之间就可以比较相似 度,从而将相似的同现词合并为一类,这样就可以得到很多分类。具体过程是 两两集合求交,即比较集合中相同词语的个数,如果两个集合的交集很大,则 认为两个词是同类的,两个集合可以合并为一个集合;如果两个词的交集很小, 则认为两个词是不同类的。所述集合合并的过程可以通过阈值控制,即设置交 集阈值,当两个集合的交集符合所述阈值时,就可以进行合并。
参照图3,是对两个集合进行求交运算的示意图。图中,词l对应的集合 包括词11、词12、词13以及词01、词02,词2对应的集合包括词21、词22、 词23以及词01、词02。这两个集合都包含词Ol、词02,所以存在交集;如 果交集符合阈值,则可以将词1和词2合并到一类。这样两两计算之后,就可 以得到很多的分类。
举例i兌明,查询词为apple,与apple同时出现的词有ipod、 iphone、手才几、 mp3、 mac……。以前四个词为例,每个词用一个集合表示,如下
与ipod同现的词有apple、播放器、mp3、歌曲、音乐、iTunes.......
与mp3同现的词有播放器、歌曲、音乐......
与iphone同现的词有apple 、手机、苹果……与手机同现的词有报价、号码……
按照上述分类方法如果两个集合包含的词大部分相同,则认为这两个集 合是一类。因此,ipod和mp3是一类,iphone和手机是一类。
需要说明的是,本实施例中对应每个词的集合由与这个词同现的词和词频 构成,但还可以提耳又这个词的二元或三元关系构成集合,其中所述二元或三元 关系是指这个词的前后词与这个词构成的二元或三元关系。
S103,为每一个类别选择特征词。
得到同现词的分类之后,需要找到一个特征词来代替整个类另'j,形象地说, 是要给这个类别起一个名字。本实施例优选的,采用直接从类别中选取的方式, 即从每一个类别以及对应的集合中选择一个特征词,这样能够保证找到的特征 词,都是在搜索引擎中查询有结果的。挑选的原则如下
第一,在本类别中出现的频率高;
第二,在其他类别中出现的频率低。
仍以查询词为apple为例,ipod和mp3是一类,iphone和手才几是一类。然 后从每一类中选出最具代表性的词语,根据词频选择,同时由于ipod和iphone 的同现词中,都包含apple,并且这两个词没有互包含,则认为ipod、 iphone 是apple的两个类名。
S10 4,将各个类的特征词作为该查询词的相关查询词。
这样,ipod和iphone就可以作为apple的相关查询词,在用户查询apple 的时候,将ipod和iphone推荐给用户。当然,相关查询词并非只能是各个类 的特征词,也可以是个各类别中的其他词。
下面是本发明的优选实施例说明。
实施例二
参照图4,是所迷一种扩展查询的方法第二实施例的流程图。其中,S401 一S404与实施例一的S101—S104相同,在此不再详述。 S401,统计与查询词同现的所有词语;
在搜索引擎系统中,要完成这件事情,需要有非常大的资料库。在网页搜 索库,整个资料库就是用户能够检索到的所有网页的集合,做这件事情,对于 计算能力的要求是非常大的。为解决这个问题,本实施例采用分布式计算的方式,将一个计算任务分布到机群上运算,从而提高处理效率。
5402, 将所有同现的词语进行分类;
5403, 每个词语类中,选出最具代表性的词语进行命名;
5404, 将各个类别最具代表性的词语作为该查询词的相关查询词;
当然,相关查询词并非只能是各个类的特征词,也可以是个各类别中的其 他词;
S405,用户输入查询词,将对应该查询词的相关查询词提供给用户;其中, 所述相关查询词包括多个分类。
在4臾索引擎应用中,如果类别4艮多,就需要找出适当的类别推荐给用户。 挑选的方法是可以依据用户的搜索日志,选出一些查询频高的词,这些词由于 用户使用的频率较高,说明是其他用户感兴趣的词语。
还是以apple为例,最纟冬可育fe会4寻到ipod、iphone、mac、notebook, stock......
若干类别,在类别太多的前提下,只能选几个给用户展现,选择类别可以依据 用户的查询频率展现,比如,apple iphone在搜索引擎上有很多人查,则认为 apple iphone是用户比较感兴趣的词语,优先选择。
由此可知,本发明提供给用户的是多类查询,各个相关查询词的性质不同, 能够查询到更多更广范围的信息。而现有技术提供的相关查询,不一定是几类 查询词,很有可能性质都是一样的,因为现有的比较查询词之间相似性的方法 很难判断。
例如,用Google查apple,相关4,荐是
apple iphone apple手机 apple ipod apple uk apple hk
power apple apple computer apple tv apple笔^己本 apple mp3 Google的查询结果中,iphone和手机、ipod和mp3、 computer和笔记本 的性质基本相同。
而利用本发明查询,相关推荐则是
Apple ipodapple iphone apple notebook apple os xapple tv
apple Leopad apple tiger apple store apple quicktime Apple Developer
推荐结果都是不同类的查询,乂人而扩展了查询范围。
综上所述,本发明能够引导用户用更优的词进行检索,以便能够得到更好的检索效果;引导用户的实质,是对用户的查询目的进行猜测、进而细分,从
而得到更好的效果。总之,本发明通过对查询词进行了分类,保证了扩展后查 询的多样性。
针对上述方法,本发明还提供了一种扩展查询的装置实施例。参照图5, 是所述一种扩展查询的装置第一实施例的结构图。所述装置主要包括数据统计 单元U51、词语分类单元U52、类别命名单元U53和扩展查询单元U54,其 中
数据统计单元U51,用于统计与查询词同现的词语;
词语分类单元U52,用于将所有同现的词语进^^分类;
类别命名单元U53,用于为每一个类别选择特征词;
扩展查询单元U54,用于将各个类的特征词作为该查询词的相关查询词。
优选的,所述数据统计单元U51进一步包括建立索引单元,用于以所 有的查询词为关键词建立索引,索引内容为与查询词同现的词语。其中,所述 索引为排索引。
优选的,所述数据统计单元U51还包括排序单元,用于将同现的词语 按照出现频率从高到低进行排序。
优选的,所述词语分类单元U52进一步包括建立集合单元,用于将每 个同现的词语都用一个集合表示,集合的内容为与该词同现的词语和词频;以 及合并单元,用于比较集合之间的相似度,如果相似度符合预置条件,则将集 合对应的同现词语合并到 一类。
优选的,所述类别命名单元U53通过以下方式为每一个类别选择特征词 从每一个类别以及对应的集合中选择一个特征词,该词在本类别中出现的频率 高于在其他类别中出现的频率。
参照图6,是所述一种扩展查询的装置第二实施例的结构图。所述装置除 包括数据统计单元U61、词语分类单元U62、类别命名单元U63和扩展查询 单元U64之外,还包括应用单元U65。
其中,数据统计单元U61、词语分类单元U62、类别命名单元U63和扩 展查询单元U64的功能以及单元之间的数据处理关系与上述图5所示装置中 的数据统计单元U51、词语分类单元U52、类别命名单元U53和扩展查询单元U54相同,在此不再详述。
所述装置中的应用单元U65,用于在用户输入查询词时,将对应该查询词 的相关查询词提供给用户;其中,所述相关查询词包括多个分类。
优选的,所述应用单元U65进一步包括排序单元,用于根据搜索曰志, 对所述相关查询词按照查询频率进行排序;类别筛选单元,用于将查询频率高 的相关查询词提供给用户。
本发明还提供了一种搜索引擎系统,所述系统包含图5或图6所述的装置。 该搜索引擎系统通过图4或图5所述装置对查询词进行了分类后,当用户利用 某一查询词进行搜索时,可以对用户的搜索进行扩展,提供多类查询,这些相 关查询词具有不同性质,因此从一定程度上说是扩展了查询的广度。
图5、图6所示装置中未详述的部分可以参见图l一图4所示方法的相关 部分,为了篇幅考虑,在此不再详述。
以上对本发明所提供的 一种扩展查询的方法、装置及包含该装置的搜索引
进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思 想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明 的限制。
权利要求
1、一种扩展查询的方法,其特征在于,包括统计与查询词同现的词语;将所有同现的词语进行分类;为每一个类别选择特征词;将各个类的特征词作为该查询词的相关查询词。
2、 根据权利要求1所述的方法,其特征在于所述同现的词语指与查询 词在 一 个网页中同时出现的词语。
3、 根据权利要求1所述的方法,其特征在于,所述统计与查询词同现的 词语具体包括以所有的查询词为关键词建立索引,索引内容为与查询词同现的词语。
4、 根据权利要求3所述的方法,其特征在于所述索引为倒排索引。
5、 根据权利要求3所述的方法,其特征在于,还包括将同现的词语按 照出现频率从高到低进行排序。
6、 根据权利要求1所述的方法,其特征在于,所述将所有同现的词语进 行分类具体包括将每个同现的词语都用一个集合表示,集合的内容为与该词同现的词语和 词频;比较集合之间的相似度,如果相似度符合预置条件,则将集合对应的同现 词语合并到一类。
7、 根据权利要求6所述的方法,其特征在于所述比较集合之间的相似 度是比较集合中相同词语的个数。
8、 根据权利要求1所述的方法,其特征在于,所述为每一个类别选择特 征词具体包括从每一个类别以及对应的集合中选择一个词作为特征词,该词在本类别中 出现的频率高于在其他类别中出现的频率。
9、 根据权利要求1所述的方法,其特征在于,还包括 将对应该查询词的相关查询词提供给用户;其中,所述相关查询词包括多个分类。
10、 根据权利要求9所述的方法,其特征在于,将对应该查询词的相关查询词^提供给用户具体包括根据搜索日志,对所述相关查询词按照查询频率进行排序; 将查询频率符合预置条件的相关查询词提供给用户。
11、 一种扩展查询的装置,其特征在于,包括 数据统计单元,用于统计与查询词同现的词语; 词语分类单元,用于将所有同现的词语进行分类; 类别命名单元,用于为每一个类别选择特征词;扩展查询单元,用于将各个类的特征词作为该查询词的相关查询词。
12、 根据权利要求11所述的装置,其特征在于所述同现的词语指与查 询词在一个网页中同时出现的词语。
13、 根据权利要求11所述的装置,其特征在于,所述数据统计单元进一 步包括建立索引单元,用于以所有的查询词为关键词建立索引,索引内容为与查 询词同现的词语。
14、 根据权利要求13所述的装置,其特征在于所述索引为倒排索引。
15、 根据权利要求13所述的装置,其特征在于,所述数据统计单元还包括排序单元,用于将同现的词语按照出现频率从高到低进行排序。
16、 根据权利要求11所述的装置,其特征在于,所述词语分类单元进一 步包括建立集合单元,用于将每个同现的词语都用一个集合表示,集合的内容为 与该词同现的词语和词频;合并单元,用于比较集合之间的相似度,如果相似度符合预置条件,则将 集合对应的同现词语合并到 一类。
17、 根据权利要求16所述的装置,其特征在于所述比较集合之间的相 似度是比较集合中相同词语的个数。
18、 根据权利要求11所述的装置,其特征在于,所述类别命名单元通过 以下方式为每一个类别选择特征词从每一个类别以及对应的集合中选择一个词作为特征词,该词在本类别中 出现的频率高于在其他类别中出现的频率。
19、 根据权利要求11所述的装置,其特征在于,所述装置还包括应用单元,用于在用户输入查询词时,将对应该查询词的相关查询词提供给用户;其中,所述相关查询词包括多个分类。
20、 根据权利要求19所述的装置,其特征在于,所述应用单元进一步包括排序单元,用于根据搜索日志,对所述相关查询词按照查询频率进行排序; 类别筛选单元,用于将查询频率符合预置条件的相关查询词提供给用户。
21、 一种搜索引擎系统,其特征在于所述搜索引擎系统包括上述权利要 求11至20任意一项权利要求所述的扩展查询装置。
全文摘要
本发明公开了一种扩展查询的方法、装置及包含该装置的搜索引擎系统,以解决目前的搜索引擎提供的相关查询词,性质可能一样,导致通过这些查询词搜索到的结果都差不多,并且是否能够搜索到更多更广范围的信息不确定的问题。所述方法包括统计与查询词同现的词语;将所有同现的词语进行分类;为每一个类别选择特征词;将各个类的特征词作为该查询词的相关查询词。与现有技术相比,本发明提供给用户的是多类查询,各个查询词的性质不同,能够查询到更多更广范围的信息。本发明在于引导用户用更优的词进行检索,以便能够得到更好的检索效果;引导用户的实质,是对用户的查询目的进行猜测、进而细分,从而得到更好的效果。
文档编号G06F17/30GK101295319SQ200810115470
公开日2008年10月29日 申请日期2008年6月24日 优先权日2008年6月24日
发明者张智敏 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1