一种垂直搜索设备及方法

文档序号:6515705阅读:246来源:国知局
一种垂直搜索设备及方法
【专利摘要】本发明公开了一种垂直搜索设备及方法,其中的垂直搜索方法包括:获取关键词,关键词中至少包括汉语文字和/或汉语拼音;将关键词中的汉语文字转换为相关的汉语拼音;根据关键词对应的汉语拼音在垂直搜索信息库中搜索相匹配的搜索结果,所述垂直搜索信息库至少包括汉语拼音形式的索引项以及每个索引项对应的搜索结果。通过本发明实施例提供的垂直搜索设备及方法,能够提高垂直搜索的准确度。
【专利说明】一种垂直搜索设备及方法
【技术领域】
[0001]本发明涉及垂直搜索【技术领域】,具体涉及一种用于垂直搜索设备,以及一种垂直搜索方法。
【背景技术】
[0002]垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
[0003]用户进行垂直搜索时,输入的关键词可能是汉语文字,也可能是汉语拼音。
[0004]如果用户输入的关键词是汉语文字,目前通用的做法是:直接根据汉语文字在信息库中进行搜索,但是如果用户输入的关键词是错别字,那么往往搜索不到用户期望的结果。比如用户原本应该在游戏垂直搜索引擎中输入搜索关键词“七雄”,进而搜索到“七雄争霸”这款游戏结果,但是因为种种原因,用户可能输入的是错别字词“气胸”,这种情况下按照目前通用的做法就无法搜索到“七雄争霸”这款用户期望的游戏结果。
[0005]如果用户输入的关键词是汉语拼音,目前通用的做法是:将用户输入的汉语拼音提交给某个通用拼音搜索的接口,通过该接口转化为相应的汉字词语(一个或多个),然后返回的汉字词语作为搜索关键词进行搜索并给出结果。本发明的发明人发现,由于汉字以及词语的同音字、同音词比较多,这样用户在输入拼音之后,经过通用拼音搜索接口转化而来的同音词语也比较多,这些词语与当前垂直搜索涉及领域的内容未必能完全匹配或者匹配不准确,进而导致在以这些关键词进行搜索时,结果可能不是用户所期望的。比如,用户在游戏领域进行垂直搜索时,输入了拼音“qixiong”,提交给通用拼音搜索接口后可能返回“气胸”,“齐胸”等词语,而使用这些关键词在游戏领域的垂直搜索中无法搜索到用户期望的结果“七雄争霸”。

【发明内容】

[0006]鉴于上述问题,提供一种克服上述问题或者至少部分地解决上述问题的垂直搜索设备和相应的垂直搜索方法。
[0007]根据本发明一个实施例,提供了一种垂直搜索设备,包括:交互接口,被配置为获取关键词,所述关键词中至少包括汉语文字和/或汉语拼音;转换器,被配置为将经由所述交互接口获取到的关键词中的汉语文字转换为相关的汉语拼音;以及搜索器,被配置为根据关键词对应的汉语拼音在垂直搜索信息库中搜索相匹配的搜索结果,所述垂直搜索信息库至少包括汉语拼音形式的索引项以及每个索引项对应的搜索结果。
[0008]可选的,转换器还被配置为将用作相应数据索引信息的汉语文字转换为相关的汉语拼音,所述搜索设备还包括:索引构造器,被配置为将上述汉语拼音添加至所述垂直搜索信息库作为相应数据的索引项。
[0009]可选的,所述转换器包括:直接转换模块,被配置为按照汉语文字与汉语拼音之间的对应关系,以及预置的分词方式,将汉语文字转换为若干相关的汉语拼音。
[0010]可选的,所述转换器还包括:模糊音转换模块,被配置为根据不同汉语拼音之间的模糊音对应关系,得到与所述直接转换模块提供的汉语拼音具有模糊音对应关系的其他汉语拼音,所述其他汉语拼音也作为所述汉语文字相关的汉语拼音。
[0011]可选的,所述搜索器还被配置为在将关键词中的汉语文字转换为相关的汉语拼音之前,根据所述汉语文字在垂直搜索信息库中搜索相匹配的搜索结果,如果搜索到,则直接返回搜索结果。
[0012]根据本发明另一个实施例,还提供了一种垂直搜索方法,包括:获取关键词,所述关键词中至少包括汉语文字和/或汉语拼音;将所述关键词中的汉语文字转换为相关的汉语拼音;根据关键词对应的汉语拼音在垂直搜索信息库中搜索相匹配的搜索结果,所述垂直搜索信息库至少包括汉语拼音形式的索引项以及每个索引项对应的搜索结果。
[0013]可选的,还包括:将用作相应数据索引信息的汉语文字转换为相关的汉语拼音;以及将所述汉语拼音添加至所述垂直搜索信息库作为相应数据的索引项。
[0014]可选的,所述将汉语文字转换为相关的汉语拼音的步骤包括:按照汉语文字与汉语拼音之间的对应关系,以及预置的分词、排列组合方式,将汉语文字转换为若干相关的汉语拼音。
[0015]可选的,所述将汉语文字转换为相关的汉语拼音的步骤还包括:根据不同汉语拼音之间的模糊音对应关系,得到与上述汉语拼音具有模糊音对应关系的其他汉语拼音,所述其他汉语拼音也作为所述汉语文字相关的汉语拼音。
[0016]可选的,在将所述关键词中的汉语文字转换为相关的汉语拼音步骤之前,还包括:在所述垂直搜索信息库中根据所述汉语文字搜索相匹配的搜索结果,如果搜索到,则直接返回搜索结果。
[0017]根据本发明实施例提供的垂直搜索方法及设备,由于将关键词中的汉语文字转换为汉语拼音,并且在垂直搜索信息库中为各搜索结果添加汉语拼音形式的索引项,从而使得可以根据汉语拼音在垂直搜索信息库中进行搜索;和/或,直接根据关键词中的汉语拼音进行搜索,进而使得如果用户输入的关键词有误,比如将“七雄”错误的输成“气胸”,也能搜索到正确的搜索结果“七雄争霸”;或者如果用户输入“qixiong”,也可以搜索到争取的结果“七雄争霸”,而不会出现因使用通用拼音搜索接口返回的“气胸”、“齐胸”等词语无法搜索到正确结果的问题。
[0018]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0019]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0020]图1示出了根据本发明一个实施例的搜索设备示意图;
[0021]图2示出了根据本发明一个实施例的搜索方法流程图。【具体实施方式】
[0022]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0023]请参阅图1,其为根据本发明一个实施例的搜索设备示意图。该搜索设备可以包括交互接口 102、转换器104、搜索器106、展现接口 108、索引构造器110以及垂直搜索信息库112。
[0024]交互接口 102是搜索设备与用户之间用于进行信息交互的接口,比如获取用户输入的关键词。一般每个垂直搜索都有自己对应的交互接口 102,凡是在该交互接口输入的关键词,即被认为是需要在对应的垂直领域进行信息搜索。常见的垂直搜索领域有游戏领域、机票领域、购物领域等等,当用户在游戏领域的交互接口 102输入某些关键词后,后续便会在游戏这个垂直领域的信息库中为用户搜索相应的结果,进而用户在该交互接口 102输入的关键词,可称之为垂直搜索关键词。
[0025]交互接口 102接收到的用户输入的关键词种类很多,可能包含汉语文字形式的,比如“气胸”、“星”等,关键词中包含的汉语文字可能是一个汉字,也可能是两个以上汉字组成的词语,本发明实施例均统称为汉语文字;也可能包含汉语拼音形式的,比如“qixiong”、“xingji ”等,还可能有其他形式的。在本发明实施例中,主要是针对汉语文字形式或汉语拼音形式的关键词进行创新性的处理。下面针对这两种情况分别予以介绍。
[0026]第一种,如果交互接口 102接收到的垂直搜索关键词中包括汉语文字,那么后续处理如下:
[0027]首先,交互接口 102将关键词中的汉语文字提供给转换器104。转换器104将该汉语文字转换为相关汉语拼音。在转换过程中,有多种具体实现方案。比如,转换器104可以包括直接转换模块1042,可选的,还可以包括模糊音转换模块1044。
[0028]具体而言,直接转换模块1042按照汉语文字与汉语拼音之间的对应关系,以及预置的分词、排列组合方式,将汉语文字转换为若干相关的汉语拼音。汉语文字和汉语拼音之间是存在固定的对应关系的,比如汉语文字“七雄”对应的汉语拼音就是“qixiong”,汉语文字“气”对应的汉语拼音就是“qi”等等,因此,可以按照汉语文字和汉语拼音直接的对应关系,将关键词中的汉语文字转换为对应的汉语拼音,比如将关键词“气胸争霸”转换为“qixiongzhengba,,。
[0029]需要注意的是,如果用户输入的关键词是多个汉字,那么为了更准确的进行搜索,还可以根据预置的分词方式将关键词中的汉语文字转换为多个相关的汉语拼音。分词的方式可以有很多种,仍然以前述“气胸争霸”的关键词为例,比如可以每一个汉字进行一次分词,如切分为“qi” “xiong” “Zheng” “ba” ;也可以每两个汉字进行一次分词,如切分为“ qixiong” “zhengba”;还可以从前向后递进式的分词,如切分为“qi”“ qixiong” “qixiongzheng ”“ qi X i ongzhengba ”;还可以反过来从后向前递进式的分词,如切分为“ ba ”“ zhengba ”“xiongzhengba’x‘qixiongzhegnba”。此外,如果还希望得到更好、更全的搜索结果,还可以将切分后的词再进行各种排列组合,如排列组合出“qizheng” “qiba” “xiongba”等等。上述分词或排列组合后形成的多个汉语拼音,可以是直接对“气胸争霸”的汉语文字先进行分词和/或排列组合,然后再将各汉语文字转换为相应的汉语拼音;也可以先将“气胸争霸”转换为“qixiongzhengba”,然后再对“qixiongzhengba”进行分词和/或排列组合。
[0030]除了以上列举出的分词、排列组合方式外,还有很多种,无法穷尽。无论是列举出的,还是未列举出的各种分词、排列组合方式均可以单独使用,也可以任意多种方式结合一起,将用户输入的汉语文字形式的关键词转换为多个相关的汉语拼音。总之,分词方式、排列组合方式,可以根据实际需求、搜索设备的运算能力而定,本发明实施例对此并没有限制。
[0031]以上描述的是转换器104中直接转换模块1042的相关技术实现。可选的,转换器104除了包括直接转换模块1042之外,为了进一步提高搜索效率和准确度,还可以包括模糊音转换模块1044。
[0032]具体而言,模糊音转换模块1044根据不同汉语拼音之间的模糊音对应关系,得到与直接转换模块1042提供的汉语拼音具有模糊音对应关系的其他汉语拼音,通过模糊音转换模块1044获得的其他汉语音拼音,也同样作为关键词中汉语文字对应的相关汉语拼音。模糊音的产生基于多种原因,比如在某些地区基于方言习惯的原因,有些人分不清前鼻音、后鼻音,如“in”和“ing”不分,“an”和“ang”不分;又如,还有人基于对拼音的掌握不好,容易把“ z ”和“ zh”、“ s ”和“ sh”、“r ”和“ I ”、“ I ”和“η”等予以混淆;还有其他各种原因,但本质都是相同的,均是将两种不同的拼音可能予以混淆。针对这种状况,可以获得模糊音的对应关系,例如将“in”= “ing”、“an”= “ang”、“z”= “zh”、“r”= “I”等。
[0033]假设某用户本来原本要搜索一款为“星际争霸”的游戏,但是由于他分不清“xin”和“xing”,因此在用汉语拼音输入法打字时敲入的汉语拼音是“xinjizhengba”,进而输入的关键词是汉语文字“新际争霸”,这种情况下,通过直接转换模块1042获得的相关汉语拼音分别是“xin” “ji” “Zheng” “ba” “xiji” “xinjizheng” “xinjizhengba” “zhengba,,。如果转换器104中还包括模糊音转换模块1044,那么模糊音转换模块1044可以对直接转换模块1042输出的各汉语拼音,根据模糊音的对应关系再派生出其他相关的汉语音频,如根据“in”和“ing”之间的对应关系,将“xin”派生出“xing”,同理,“xiji”派生出“xingji”,“乂;[1^21161^”派生出“1;[1^121161^”等。于是,用户输入的关键词“新际争霸”,通过转换器104中直接转换模块1042和模糊音转换模块1044的转换,可以得到多个相关的汉语拼音:“xin’w ji …Zheng^ba^xijixinjizheng^ xinjizhengba^ zhengba^ xing^ xingjiχinjizheng’x‘xinjizhengba”等。由此可见,模糊音转换模块1044可以扩充关键词中汉语文字转换成的汉语拼音的数量,增加后续搜索范围,在一定程度上减少了用户因读音错误、输入错误的关键词,导致无法搜索到希望的结果的情况发生。
[0034] 在转换器104对汉语文字形式的关键词进行处理后,提交给搜索器106进行处理。前面提过,交互接口 102接收到的关键词可能是汉语文字,也可能是汉语拼音,在前文第一种情况里介绍了是汉语文字情况下的数据处理过程,下面在第二种情况里介绍是汉语拼音情况下的数据处理过程。
[0035]第二种,如果交互接口 102接收到的垂直搜索词中包括汉语拼音,那么后续处理如下:如果交互接口 102接收到的已经是汉语拼音形式的关键词,那么交互接口 102直接将汉语拼音提供给搜索器106即可,而不必经过转换器104进行数据转换。[0036]综上可以看出,无论在关键词是汉语文字的第一种情况下,还是在关键词是汉语拼音的第二种情况下,最终都会向搜索器106提供相关的汉语拼音进行结果搜索。
[0037]搜索器106从转换器104或者交互接口 102获得相关的汉语拼音之后,根据汉语拼音在垂直搜索信息库中搜索相匹配的搜索结果。具体而言,垂直搜索信息库至少包括汉语拼音形式的索引项以及每个索引项对应的搜索结果。在构造垂直搜索信息库时,还要借助转换器104和索引构造器110。
[0038]首先,搜索设备可以通过各种途径收集可以作为搜索结果的各种数据,比如网页数据、文档数据等。为了能够快速定位到相应的数据,一般都会为这些数据设置一定的索引信息,比如可以是相应数据的名称、标签(如休闲、刺激等)、标题,简介,摘要等,只要是可以用来标识某个数据、具有一定标识作用的都可以作为相应数据的索引信息,这些索引信息,指向对应的数据。进而,根据索引信息,就可以找到对应的数据、即搜索结果。这种索引也通常称为倒排索引。
[0039]因为大部分数据都是汉语文字形式的,因此对应的索引信息也多是汉语文字,这种情况下,需要通过转换器104将各种数据索引信息中的汉语文字,转换为相关的汉语拼音。与前面通过转换器104将关键词中的汉语文字转换为相关的汉语拼音雷同,在构建垂直搜索信息库时也采取类似的数据处理过程将收集到的各种数据的索引信息中的汉语文字,转换为相关的汉语拼音。具体而言,直接转换模块1042按照汉语文字与汉语拼音之间的对应关系,以及预置的分词、排列组合方式,将汉语文字转换为若干相关的汉语拼音,具体转换过程,参考前文关于直接转换模块1042的描述,此处不再赘述。
[0040]例如,在将某款游戏数据引入搜索引擎的垂直搜索信息库时,先把该游戏的索引信息,比如游戏名称的汉字转换为拼音,然后再对这些拼音进行分词和/或排列组合,并用空格等分词符链接(字母在搜索引擎中一般默认按照空格分词),形成一个包含若干汉语拼音的索引字段,该索引字段包括若干索引项。然后,索引构造器110将索引字段中的汉语拼音添加至垂直搜索信息库作为相应数据的索引项。
[0041]如,有一款“七雄争霸”的游戏,假设该游戏的名称“七雄争霸”是索引信息,该索引信息经过直接转换模块1042转换后,得到若干相关的汉语拼音,如索引字段的内容包括:“qi xiong Zheng ba qixiong qixiongzheng qixiongzhengba zhengba,,。可见,该款游戏的索引项至少包括八个,这八个索引项都指向“七雄争霸”这款游戏。如果搜索器106根据上述8个索引项中的任何一个拼音进行搜索,均能准确搜索到“七雄争霸”这款游戏。
[0042]进而,无论用户在交互接口 102输入的是“七雄”还是“气胸”,经过转换器104的处理都可以转换为相关的汉语拼音形式的关键词,如“qi” “xiong” “qixiong”等。进而,搜索器106可以使用汉语拼音形式的关键词“qi”或“xiong”或“qixiong”进行搜索,又由于垂直搜索信息库中“七雄争霸”这款游戏的索引项包括“qi” “xiong” “qixiong”等,因此,搜索器106能够准确搜索到“七雄争霸”这款游戏的文档数据。由此可见,通过本发明实施例的技术方案,即使用户输入了错别字,只要拼音正确(不含音调),比如应该输入“七雄”、但误输入了 “气胸”,也能准确搜索到用户希望的“七雄争霸”。
[0043]更进一步的,为了扩大垂直搜索信息库的索引信息的全面性,还可以同样引入前面的模糊音转换模块1044,处理原理与前面介绍的对关键词的模糊音处理类似,只不过过程反过来,即根据不同汉语拼音之间的模糊音对应关系,得到与直接转换模块1042转换后的索引信息汉语拼音对应的模糊音,将直接转换模块1042得到的索引信息对应的汉语拼音,以及模糊音转换模块1044得到的索引信息对应的汉语拼音,都录入垂直搜索信息库,共同作为某项搜索结果的索引信息。
[0044]通过上述内容可知,由于在垂直搜索信息库中,包括很多个搜索结果,而每个搜索结果都包含汉语拼音形式的索引项,因此搜索器106根据关键词对应的汉语拼音,可以在垂直搜索信息库中搜索相匹配的搜索结果。
[0045]可选的,为了提高效率,在将关键词中的汉语文字转换为相关的汉语拼音之前,搜索器106可以先根据汉语文字在垂直搜索信息库中搜索相匹配的搜索结果,如果搜索到,则直接返回搜索结果,不必再转换为汉语拼音进行搜索。当然,如果为了搜索的更全面,也可以根据汉语文字搜索与根据汉语拼音搜索一并进行。此外,在某些特殊情况下,也不排除只根据汉语拼音搜索的可能性。
[0046]可选的,如果关键词本身就是汉语拼音,则无需通过转换器104的转换,搜索器106直接根据汉语拼音形式的关键词进行搜索即可。
[0047]可选的,如果用户输入的关键词既有汉语文字,又有汉语拼音,则针对汉语文字的部分可以采用转换器104转换为汉语拼音,然后搜索器106根据转换器104提供的转换后的汉语拼音以及用户输入的汉语拼音关键词,一并在垂直搜索信息库中进行搜索。
[0048]与前面搜索设备相对应,本发明实施例还公开了一种搜索方法,具体包括如下几个步骤:
[0049]步骤S210:获取关键词,关键词中至少包括汉语文字和/或汉语拼音。可以理解,用户输入的希望进行垂直搜索的关键词可以只是汉语文字,或只是汉语拼音,也可以是汉语文字和汉语拼音一并输入。本步骤具体可以通过前文中的交互接口 102来实现,相关的技术特征可参考前文交互接口 102的相应描述,此处不再赘述。
[0050]步骤S220:将关键词中的汉语文字转换为相关的汉语拼音。如果在步骤S210中只输入了汉语拼音,没有输入汉语文字,则不需要处理本步骤。只有当输入的关键词中存在汉语文字时,才需要执行本步骤。本步骤具体可以通过前文中的转换器104来实现,例如,按照汉语文字与汉语拼音之间的对应关系,以及预置的分词、排列组合方式,将汉语文字转换为若干相关的汉语拼音。或者更进一步,根据不同汉语拼音之间的模糊音对应关系,得到与前述汉语拼音具有模糊音对应关系的其他汉语拼音,其他汉语拼音也作为所述汉语文字相关的汉语拼音。换而言之,直接将关键词中的汉语文字转换为对应的汉语拼音,或者更进一步借助模糊音的对应关系,转换出更多的汉语拼音。相关的技术特征可参考前转换器104的相应描述,此处不再赘述。
[0051]步骤S230:根据关键词对应的汉语拼音在垂直搜索信息库中搜索相匹配的搜索结果,垂直搜索信息库至少包括汉语拼音形式的索引项以及每个索引项对应的搜索结果。具体而言,可以将用作相应数据索引信息的汉语文字转换为相关的汉语拼音,这个转换过程与步骤S220中将关键词转换成汉语拼音原理相同,只是过程相反,所以不再赘述。然后,再将汉语拼音添加至垂直搜索信息库作为相应数据的索引项。本步骤可以通过前文中的搜索器106、索引构造器110、垂直搜索信息库112来实现,相关的技术特征可参考这几个模块的相应描述,此处不再赘述。
[0052]可选的,在执行步骤S220将关键词中的汉语文字转换为相关的汉语拼音步骤之前,还可以在垂直搜索信息库中先根据所述汉语文字搜索相匹配的搜索结果,如果搜索到,则直接返回搜索结果。如果搜索不到,再执行步骤S220以及S230,进而返回搜索结果。
[0053]综上所述,通过本发明实施例提供的垂直搜索方法及设备,由于将关键词中的汉语文字转换为汉语拼音,并且在垂直搜索信息库中为各搜索结果添加汉语拼音形式的索引项,从而使得可以根据汉语拼音在垂直搜索信息库中进行搜索;和/或,直接根据关键词中的汉语拼音进行搜索,进而使得如果用户输入的关键词有误,比如将“七雄”错误的输成“气胸”,也能搜索到正确的搜索结果“七雄争霸”;或者如果用户输入“qixiong”,也可以搜索到争取的结果“七雄争霸”,而不会出现因使用通用拼音搜索接口返回的“气胸”、“齐胸”等词语无法搜索到正确结果的问题。
[0054]进一步,在关键词中的汉语文字转换为汉语拼音的过程中,不但可以使用直接转换,还可以考虑模糊音,同理,在垂直搜索信息库构建文档数据索引项的汉语拼音时也考虑模糊音,能更进一步增加搜索的全面性,从而提高搜索结果的准确率。
[0055]再进一步,可以先直接采用汉语文字进行搜索,搜索不到合适结果后再采用对应的汉语拼音搜索,从而能进一步提高搜索的效率。
[0056]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0057]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0058]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0059]本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0060]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0061 ] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP )来实现根据本发明实施例的搜索设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0062]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
【权利要求】
1.一种垂直搜索设备,包括: 交互接口,被配置为获取关键词,所述关键词中至少包括汉语文字和/或汉语拼音; 转换器,被配置为将经由所述交互接口获取到的关键词中的汉语文字转换为相关的汉语拼音; 搜索器,被配置为根据关键词对应的汉语拼音在垂直搜索信息库中搜索相匹配的搜索结果,所述垂直搜索信息库至少包括汉语拼音形式的索引项以及每个索引项对应的搜索结果O
2.如权利要求1所述的搜索设备,所述转换器还被配置为将用作相应数据索引信息的汉语文字转换为相关的汉语拼音,所述搜索设备还包括: 索引构造器,被配置为将上述汉语拼音添加至所述垂直搜索信息库作为相应数据的索引项。
3.如权利要求1或2所述的搜索设备,所述转换器包括: 直接转换模块,被配置为按照汉语文字与汉语拼音之间的对应关系,以及预置的分词方式,将汉语文字转换为若干相关的汉语拼音。
4.如权利要求3所述的 搜索设备,所述转换器还包括: 模糊音转换模块,被配置为根据不同汉语拼音之间的模糊音对应关系,得到与所述直接转换模块提供的汉语拼音具有模糊音对应关系的其他汉语拼音,所述其他汉语拼音也作为所述汉语文字相关的汉语拼音。
5.如权利要求1至4中任一项所述的搜索设备,所述搜索器还被配置为在将关键词中的汉语文字转换为相关的汉语拼音之前,根据所述汉语文字在垂直搜索信息库中搜索相匹配的搜索结果,如果搜索到,则直接返回搜索结果。
6.—种垂直搜索方法,包括: 获取关键词,所述关键词中至少包括汉语文字和/或汉语拼音; 将所述关键词中的汉语文字转换为相关的汉语拼音; 根据关键词对应的汉语拼音在垂直搜索信息库中搜索相匹配的搜索结果,所述垂直搜索信息库至少包括汉语拼音形式的索引项以及每个索引项对应的搜索结果。
7.如权利要求6所述的搜索方法,还包括: 将用作相应数据索引信息的汉语文字转换为相关的汉语拼音;以及 将所述汉语拼音添加至所述垂直搜索信息库作为相应数据的索引项。
8.如权利要求6或7所述的搜索方法,所述将汉语文字转换为相关的汉语拼音的步骤包括: 按照汉语文字与汉语拼音之间的对应关系,以及预置的分词、排列组合方式,将汉语文字转换为若干相关的汉语拼音。
9.如权利要求8所述的搜索方法,所述将汉语文字转换为相关的汉语拼音的步骤还包括: 根据不同汉语拼音之间的模糊音对应关系,得到与上述汉语拼音具有模糊音对应关系的其他汉语拼音,所述其他汉语拼音也作为所述汉语文字相关的汉语拼音。
10.如权利要求6至9中任一项所述的搜索方法,在将所述关键词中的汉语文字转换为相关的汉语拼音步骤之前,还包括:在所述垂直搜索信息库中根据所述汉语文字搜索相匹配的搜索结果, 如果搜索到,则直接返回搜索结果。
【文档编号】G06F17/30GK103530380SQ201310487578
【公开日】2014年1月22日 申请日期:2013年10月17日 优先权日:2013年10月17日
【发明者】耿祥磊 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1