一种搜索方法和装置的制作方法

文档序号:6443145阅读:181来源:国知局
专利名称:一种搜索方法和装置的制作方法
技术领域
本发明涉及计算机应用技术领域,更具体的说是涉及一种搜索方法和装置。
背景技术
随着互联网信息技术的发展,互联网中可提供给用户的信息越来越庞大,各种搜索引擎应运而生,用户通过输入查询词进行检索,搜索引擎即可从索引数据库中匹配该查询词的搜索信息并输出。但是由于互联网中充斥着大量信息,搜索引擎输出的搜索信息大多类目繁杂,分类不明确,用户通常需要自己从输出的大量搜索信息中进行筛选,查找需要的信息内容,特别是在用户希望查询某一领域的信息内容时,由于搜索引擎输出的信息无明确分类,用户需要从搜索结果中逐一筛选,或者增加查询词汇反复搜索,因此需要耗费大量时间,从而导致搜索效率较低。

发明内容
有鉴于此,本发明提供了一种搜索方法和装置,用以解决现有的搜索方法导致搜索效率较低的技术问题。为实现上述目的,本发明提供如下技术方案一种搜索方法,该方法包括接收查询信息,所述查询信息包括至少一个查询关键词;在预设知识库中确定与所述查询信息相关的第一扩展信息,所述预设知识库包括不同的扩展信息;依据所述查询信息和第一扩展信息调用第三方搜索引擎进行搜索;获取并输出所述搜索结果;确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息,作为扩展信息加入所述预设知识库中。优选地,所述确定与所述查询信息相关的第一扩展信息包括计算查询信息与所述不同扩展信息的相关度值;确定相关度值大于第一阈值的扩展信息作为第一扩展信息。优选地,所述确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息包括提取所述搜索结果中的搜索词;分别计算搜索词与查询信息和第一扩展信息的相关度值;确定相关度值大于第二阈值的搜索词作为第一匹配信息。优选地,所述获取并输出所述搜索结果包括获取网络爬虫抓取的搜索结果,所述搜索结果为所述网络爬虫从抓取的初步搜索结果中确定与所述查询信息和第一扩展信息相关的第三匹配信息后,从所述初步搜索结果中确定的包含该第二匹配信息的搜索结果;将所述搜索结果输出。优选地,所述分别计算搜索词与查询信息和第一扩展信息的相关度值包括统计相同的搜索词在所述搜索结果中的出现次数;按照出现次数的多少,计算搜索词分别与查询信息和第一扩展信息的相关度值。优选地,所述查询信息还包括类目信息,则所述在预设知识库中确定与所述查询信息相关的第一扩展信息具体为在对应所述类目信息的预设知识库中确定与所述查询信息相关的第一扩展信息。优选地,所述确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息具体为确定用户所选择的目标搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息。一种搜索装置,该装置包括接收模块,用于接收用户的查询信息,所述查询信息包括至少一个关键词;扩展模块,用于在预设知识库中确定与所述查询信息相关的第一扩展信息,所述预设知识库包括不同的扩展信息;搜索模块,用于依据所述查询信息和相关信息调用第三方搜索引擎进行搜索;获取模块,用于获取并输出所述搜索结果;确定模块,用于确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息,作为扩展信息加入所述预设知识库中。优选地,所述扩展模块包括第一计算模块,用于计算查询信息与所述不同扩展信息的相关度值;扩展子模块,用于确定相关度值大于第一阈值的扩展信息作为第一扩展信息。优选地,所述确定模块包括提取模块,用于提取所述搜索结果中的搜索词;第二计算模块,用于分别计算搜索词与查询信息和第一扩展信息的相关度值;确定子模块,用于确定相关度值大于第二阈值的搜索词作为第一匹配信息。经由上述的技术方案可知,与现有技术相比,本发明提供了一种搜索方法和装置, 通过接收查询信息,在预设知识库中确定与查询信息相关的第一扩展信息,并根据该查询信息和第一扩展信息再调用第三方搜索引擎进行搜索,然后获取所述搜索结果并输出,由于通过增加预设知识库对查询信息进行了扩展,且预设知识库包括根据每一搜索结果提取出的第一匹配信息,因此对查询信息进行的扩展是符合用户意图的,使得输出的搜索结果更精确,也就减少了搜索操作,提高了搜索效率。而由于提高了搜索效率,使得用户无需反复查找或者重复搜索,因此也就减小的系统的运算量,进而提高了系统性能。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本发明一种搜索方法实施例1的流程图;图2为本发明一种搜索方法实施例2的流程图;图3为本发明一种搜索装置实施例1的结构示意图;图4为本发明一种搜索方法实施例2的结构示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明的主要思想之一可以包括接收查询信息,并在预设知识库中确定与查询信息相关的第一扩展信息,然后根据该查询信息和第一扩展信息调用第三方搜索引擎进行搜索,获取所述搜索结果并输出,由于对查询信息进行了扩展,且预设知识库包括根据每一次搜索结果提取出的第一匹配信息,因此对查询信息进行的扩展是符合用户意图的,使得输出的搜索结果更精确,也就减少了搜索操作,提高了搜索效率。而由于提高了搜索效率, 使得用户无需反复查找或者重复搜索,因此也就减小的系统的运算量,进而提高了系统性能。参见图1,示出了本发明一种搜索方法实施例1的流程图,该方法可以包括步骤101 接收查询信息,所述查询信息包括至少一个关键词。所述查询信息可以包括用户通过操作界面输入的查询信息,其可以包括一个或者多个查询关键词。步骤102 在预设知识库中确定与所述查询信息相关的第一扩展信息,所述预设知识库包括不同的扩展信息。所述预设知识库是指对应某一类型,或者某一领域的知识库,例如关于旅游的知识库,关于体彩的知识库等,关于电子技术的知识库。其包括不同的扩展信息,可以是指词汇和/或多个词汇形成的词汇集。系统预设的知识库可以包括多个,对应不同类型或者不同领域。因此所述的查询信息还包括类目信息,每一类目对应一个知识库,则可以根据该类目信息查找到对应的知识库,并在该知识库中查找匹配的扩展信息,即得到第一扩展信息。查询信息包括至少一个关键词,而扩展信息可以是指词汇或者由多个词汇形成的词汇集,确定与查询信息相关的第一扩展信息,可以是通过计算不同扩展信息与查询信息的相关度值,并将相关度值大于第一阈值的扩展信息作为第一扩展信息。计算扩展信息与查询信息的相关度值可以采用多种方式,例如一种方式可以采用语义网技术赋值,例如查询信息只包括一个关键词,扩展信息为扩展词汇,则利用语义网络为关键词与扩展词汇赋予语义相关度值。语义网技术通常可以是指利用知网等知识源提供的分类体系,来计算词语之间的语义相关度值。所述知网是指以词语所代表概念为描述对象,揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。例如查询信息为“医生”,则通过语义网赋值可以确定“医院” “患者”与“医生”的相关度较高,而“银行”与“医生”相关度较低,医院、患者、银行与医生的相关度值可以分别为0.8、0. 8、 0. 1 等。所述的第一阈值可以是根据实际情况来设定,例如设定该阈值为0.5。也可以根据需要选择的扩展信息个数来确定,具体是确定相关度值从大到小的顺序,按照该顺序确定第N个相关度值为第一阈值,则可以确定出N个第一扩展信息,该N值即为需要选择的扩展信息个数。另一种方式可以是根据用户的选择来确定扩展信息和查询信息的相关度,接收到用户的查询信息后,可以在显示界面呈现扩展信息,由用户为不同扩展信息赋值。当然计算相关度值还可以采用其他相关度算法,例如采用参数估计、概率统计、特征获取等学习模型计算词语之间的相关度值。当查询信息包括多个关键词时,是分别计算每一关键词与扩展信息的相关度值, 然后在按照相关度值大小进行筛选。其中所述的预设知识库在初始查询时可以为空,即可以不包括扩展信息。步骤103 依据所述查询信息和第一扩展信息调用第三方搜索引擎进行搜索。将查询信息以及与其相关的第一扩展信息,例如用户的查询信息为“广州”,而该预设知识库为旅游知识库,则所述第一扩展信息可能包括“景点”、“酒店”、“旅游路线”等词汇或者词汇集,则可以将“广州”、“景点”、“酒店”、“旅游路线”作为新的搜索关键词,通过调用第三方搜索引擎进行搜索。由于对用户的查询信息进行了扩展,因此在通过第三方搜索引擎搜索的结果更符合用户的查询意图。步骤104 获取并输出所述搜索结果。获取第三搜索引擎的搜索结果,可以通过与第三方搜索引擎的相应的接口来获取,也可以通过网络爬虫抓取搜索结果。网络爬虫是指一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。步骤105 确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息,作为扩展信息加入所述预设知识库中。将搜索结果输出后,还需要对获取的搜索结果进行分析,该搜索结果由于是获取的不同网页的信息内容,从该信息内容中确定与所述查询信息和第一扩展信息相关的第一匹配信息,所述第一匹配信息可以是指词汇或者词汇集,则将该匹配信息作为扩展信息加入所述预设知识库中。从搜索结果中确定与所述查询信息和第一扩展信息相关的第一匹配信息可以具体包括 首先,提取搜索结果中的搜索词。由于搜索结果包含多条信息内容,每一条信息内容对应不同的网页内容。提取搜索词即是将信息内容进行分词,然后去除掉停用词后,即可得到搜索词。分词是指就是将连续的字序列按照一定的规范重新组合成词序列的过程。停用词是指一些没有实际含义的功能词,例如“的” “一些” “则”等词。然后分别计算搜索词与查询信息和第一扩展信息的相关度值,并确定相关度值大于第二阈值的搜索词作为第一匹配信息。
计算搜索词分别与查询信息和第一扩展信息的相关度值也可以采用多种方式,一种方式可以采用上文所述的语义网赋值方式。另一种方式可以根据相同的搜索词在所述搜索结果中出现的次数来确定,具体的,首先统计相同的搜索词在所述搜索结果中出现的次数,例如“白云山”在多条信息内容中均出现,则可认为其与查询信息和第一扩展信息最相关。之后按照出现次数从多到少的顺序,确定搜索词与查询信息和第一扩展信息的相关度值,每一搜索词具体赋值多少可以采用多种方式,例如根据次数多少的比例关系等,只需满足出现次数较多的搜索词其相关度值较高即可。又一种可能方式也可以采用人工赋值的方式,从搜索词中选择符合该预设知识库类型的词,则相应所选择的搜索词即相关度值较高,而其他未选择的搜搜索词则相关度较低。又一种可能方式,可以首先按照语义网赋值或者搜索词出现的次数多少进行相关度赋值,然后再根据人工选择的搜索词,而增加其对应的相关度值。所述的第二阈值可以根据实际情况而确定,也可以是根据需要选择的搜索词个数来确定。本发明实施例所述的预设知识库是由根据搜索结果的信息内容所提取的第一匹配信息而形成的,由于该第一匹配信息与查询信息和第一扩展信息相关。因此预设知识库所包含的扩展信息,包括第一匹配信息形成的扩展信息,是符合用户查询意图,且该预设知识库在每次查询后都可能增加新的属于该知识库类型的查询信息,因此使得在每次进行查询时,第一扩展信息将更符合用户的查询意图,从而使得最终输出的搜索结果为符合用户查询意图的搜索结果,因此无需用户在重新进行查找或者反复搜索,提高了搜索速率。在本实施中,通过接收查询信息,并在预设知识库中确定查询信息相关的第一扩展信息,并根据该查询信息和第一扩展信息再调用第三方搜索引擎进行搜索,然后获取所述搜索结果并输出,由于对查询信息进行了扩展,且预设知识库包括根据每一搜索结果提取的匹配信息,因此对查询信息进行的扩展是符合用户意图的,使得输出的搜索结果更精确,也就减少了搜索操作,提高了搜索效率。而由于提高了搜索效率,使得用户无需反复查找或者重复搜索,因此减小的系统的运算量,进行提高了系统性能。参见图2,示出了本发明一种搜索方法实施例2的流程图,该方法可以包括步骤201 接收查询信息,所述查询信息包括至少一个查询关键词和类目信息。所述查询关键词是指用户输入的关键词,可以包括一个或多个。所述类目信息是用于表示不同的类型或不同领域的词汇或词汇集,例如“旅游”、“体彩”、“电子”等,该类目信息可以通过显示界面进行显示,用户点击即可选择。不同的类目信息对应不同的知识库。步骤202 在对应该类目信息的预设知识库中确定与所述查询信息相关的第一扩展信息,所述预设知识库包括不同的扩展信息。根据类目信息,选择对应的预设知识库,该预设知识库中包含对应某一类型、或者某一领域的扩展信息。该预设知识库初始使用时可以为空,也可以包括预设的扩展信息。确定与所述查询信息相关的第一扩展信息具体过程可以参件上述方法实施例1 中所述。由于查询信息包括类目信息和关键词,该类目信息也即为词汇,因此在计算查询信息和不同扩展信息的相关度值时,需要计算关键词和类目信息的词汇分别与不同扩展信息的相关度值,类目信息的词汇也即作为查询关键词。步骤203 依据所述查询信息和第一扩展信息调用第三方搜索引擎进行搜索。也即将查询信息和第一扩展信息作为搜索关键词发送至第三方搜索引擎,由第三方搜索引擎进行搜索。本发明实施例是借助第三方搜索引擎进行搜索,可以精确搜索关键词,因此能够实现针对某一类型,或者某一领域的搜索。例如在“电子”领域中,如果用户直接通过第三方搜索引擎进行搜索,例如查询关键词“手机”,则得到的搜索内容信息量很多,且类目繁杂, 而实际用户是想要搜索手机的元器件,或者手机的功能类型等,而采用本发明实施例所述的方法,首先会将查询关键词“手机”进行扩展,由于是在预设的对应某一类型或者某一领域的知识库中进行查找,因此匹配的第一扩展信息包括“功能” “器件”等扩展词,因此在调用第三方搜索引擎进行搜索时,即可得到更为精确并符合用户查询意图的搜索内容。步骤204 获取网络爬虫抓取的搜索结果并输出。其中,所述搜索结果为所述网络爬虫从抓取的初步搜索结果中确定与所述查询信息和第一扩展信息相关的第三匹配信息后,从所述初步搜索结果中确定的包含该第二匹配信息的初步搜索结果。第三方搜索引擎根据查询信息和第一扩展信息进行搜索后,会得到初步搜索结果,包括对应不同网页内容的信息内容。系统需要获取信息内容并输出,具体可以通过网络爬虫来抓取。网络爬虫在抓取搜索结果时可以进行初步筛选。具体过程可以为首先将从抓取的初步搜索结果中确定与所述查询信息和第一扩展信息相关的第二匹配信息,其包括提取所述搜索内容中的初步搜索词。分别计算初步搜索词与查询信息和第一扩展信息的相关度值。确定相关度值大于第三阈值的初步搜索词作为第二匹配信息。然后将包含该第二匹配信息的初步搜索结果作为搜索结果。由于第三搜索引擎的初步搜索结果是包括根据查询信息和第一扩展信息确定的词或者字段的所有信息内容。因此网络爬虫先进行初步筛选,从初步搜索结果中确定出包含该第二匹配信息的初步搜索结果,作为搜索结果传输给系统,系统在输出该搜索结果,因此进一步的精确了查询内容。步骤205 确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息,作为扩展信息加入所述预设知识库中。其中具体的可以是确定用户所选择的目标搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息,将第一匹配信息作为扩展信息加入所述预设知识库中。用户所选择的目标搜索结果是根据用户的点击信息而确定的,获取的搜索结果输出后在显示界面显示,呈现给用户的显示信息是由不同链接或网页标题或者部分内容摘要形成的记录,用户通过点击记录获取搜索内容,根据用户所选择的记录可以认为该记录对应的搜索结果为符合用户查询意图的搜索结果,即可确定该搜索结果为目标搜索结果,然后根据该目标搜索结果的信息内容,确定与所述查询信息和第一扩展信息相关的第一匹配信息,并作为扩展信息加入所述预设知识库中。根据信息内容,确定与所述查询信息和第一扩展信息相关的第一匹配信息的具体过程可以参加方法实施例1中所述,在此不再赘述。在本实施例中,预设知识库可以包括多个,用户可以根据自己的查询意图选择相应的类目信息进而确定进行查询信息扩展的预设知识库,在该预设知识库中对查询信息进行扩展,即确定与查询信息相关的第一扩展信息,并依据该查询信息和第一扩展信息调用第三搜索引擎搜索,将获取的搜索结果输出,并根据用户选择的目标搜索结果确定第一匹配信息,作为扩展信息,从而使得该扩展信息在当前类型或领域中是更为符合用户意图的扩展信息,因此可以使得后续搜索更为精确,输出结果也更为符合用户意图,因此可以提高搜索效率。而由于提高了搜索效率,使得用户无需反复查找或者重复搜索,因此也就减小的系统的运算量,进而提高了系统性能。与上述本申请一种搜索方法实施例1所提供的方法相对应,参见图3,本申请还提供了一种搜索装置实施例1,在本实施例中,该装置可以包括接收模块301,用于接收用户的查询信息,所述查询信息包括至少一个关键词。所述查询信息可以包括用户通过操作界面输入的查询信息,其可以包括一个或者多个查询关键词。扩展模块302,用于在预设知识库中确定与所述查询信息相关的第一扩展信息,所述预设知识库包括不同的扩展信息。查询信息包括至少一个关键词,而扩展信息可以是指词汇或者由多个词汇形成的词汇集,确定与查询信息相关的第一扩展信息,可以是通过计算不同扩展信息与查询信息的相关度值,并将相关度值大于第一阈值的扩展信息作为第一扩展信息。因此,所述扩展模块302可以包括第一计算模块3021,用于计算查询信息与所述不同扩展信息的相关度值。计算扩展信息与查询信息的相关度值可以采用多种方式,相关度的计算可以具体参见方法实施例中所述。扩展子模块3022,用于确定相关度值大于第一阈值的扩展信息作为第一扩展信肩、ο搜索模块303,用于依据所述查询信息和相关信息调用第三方搜索引擎进行搜索;获取模块304,用于获取并输出所述搜索结果。获取第三搜索引擎的搜索结果,可以通过与第三方搜索引擎的相应的接口来获取,也可以通过网络爬虫爬取搜索结果。网络爬虫是指一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。确定模块305,用于确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息,作为扩展信息加入所述预设知识库中。将搜索结果输出后,还需要对获取的搜索结果进行分析,该搜索结果由于是获取的不同网页的信息内容,从该信息内容中确定与所述查询信息和第一扩展信息相关的第一匹配信息,所述第一匹配信息可以是指词汇或者词汇集,则将该匹配信息作为扩展信息加入所述预设知识库中。其中,所述确定模块305可以具体包括提取模块3051,用于提取所述搜索结果中的搜索词。
由于搜索结果包含多条信息内容,每一条信息内容对应不同的网页内容。所述提取模块具体是首先是将信息内容进行分词,然后去除掉停用词后,得到搜索词。第二计算模块3052,用于分别计算搜索词与查询信息和第一扩展信息的相关度值。计算搜索词分别与查询信息和第一扩展信息的相关度值也可以采用多种方式,一种方式可以采用所述的语义网赋值方式。另一种方式可以根据相同的搜索词在所述搜索结果中出现的次数来确定。因此所述第二计算模块3052还可以包括统计模块30521,用于统计相同的搜索词在所述搜索结果中出现的次数。第二计算子模块30522,用于按照出现次数从多到少的顺序,计算搜索词与查询信息和第一扩展信息的相关度值。每一搜索词具体赋值多少可以采用多种方式,例如根据次数多少的比例关系等,只需满足出现次数较多的搜索词其相关度值较高即可。又一种可能方式也可以采用人工赋值的方式。又一种可能方式,可以首先按照语义网赋值或者搜索词出现的次数多少进行相关度赋值,然后再根据人工选择的搜索词,而增加其对应的相关度值。确定子模块3053,用于确定相关度值大于第二阈值的搜索词作为第一匹配信息。在本实施中,所述搜索装置接收查询信息后,在预设知识库中确定查询信息相关的第一扩展信息,并根据该查询信息和第一扩展信息再调用第三方搜索引擎进行搜索,然后获取所述搜索结果并输出,由于对查询信息进行了扩展,且预设知识库包括根据每一搜索结果提取的匹配信息,因此对查询信息进行的扩展是符合用户意图的,使得输出的搜索结果更精确,也就减少了搜索操作,提高了搜索效率。而由于提高了搜索效率,使得用户无需反复查找或者重复搜索,因此减小的系统的运算量,进而提高了系统性能。本实施例所述的装置可以集成到服务器上,也可以单独作为一个实体与服务器相连。另外,需要说明的是,当本申请所述的方法采用软件实现时,可以作为搜索引擎的服务器新增的一个功能,也可以单独编写相应的程序,本申请不限定所述方法或装置的实现方式。在实际应用中,本实施例所述的搜索装置可以集成在用于在某一领域搜索的搜索引擎服务器中,该搜索引擎服务器还包括预设知识库。也即形成用于专门搜索某一领域的专业搜索引擎,其通过对查询信息进行扩展,再调用第三搜索引擎进行搜索,将获取的搜索结果输出给用户。通过所述的专业搜索引擎可以得到精确的搜索结果,提高了搜索效率,减小服务器的运算量,因此可以提高服务器的性能,且搜索过程是通过人机交互系统进行的, 由于用户无需反复查找和重复搜索,因此也提高计算机的性能。与上述本申请一种搜索方法实施例2所提供的方法相对应,参见图4,本申请还提供了一种搜索装置实施例2,在本实施例中,该装置可以包括接收模块401,用于接收用户的查询信息,所述查询信息包括至少一个查询关键词和类目信息。所述查询关键词是指用户输入的关键词,可以包括一个或多个。所述类目信息是用于表示不同的类型或不同领域的词汇或词汇集,例如“旅游”、“体彩”、“电子”等,该类目信息可以通过显示界面进行显示,用户点击即可选择。不同的类目信息对应不同的知识库。
扩展模块402,用于在对应所述类目信息的预设知识库中确定与所述查询信息相关的第一扩展信息,所述预设知识库包括不同的扩展信息。根据类目信息,选择对应的预设知识库,该预设知识库中包含对应某一类型、或者某一领域的扩展信息。该预设知识库初始使用时可以为空,也可以包括预设的扩展信息。其中该扩展模块402可以具体包括第一计算模块4021,用于计算查询信息与所述不同扩展信息的相关度值。扩展子模块4022,用于确定相关度值大于第一阈值的扩展信息作为第一扩展信肩、ο搜索模块403,用于依据所述查询信息和相关信息调用第三方搜索引擎进行搜索。本发明实施例是借助第三方搜索引擎进行搜索,可以精确搜索关键词,因此能够实现针对某一类型,或者某一领域的搜索。例如在“电子”领域中,如果用户直接通过第三方搜索引擎进行搜索,例如查询关键词“手机”,则得到的搜索内容信息量很多,且类目繁杂, 而实际用户是想要搜索手机的元器件,或者手机的功能类型等,而采用本发明实施例所述的方法,首先会将查询关键词“手机”进行扩展,由于是在预设的对应某一类型或者某一领域的知识库中进行查找,因此匹配的第一扩展信息包括“功能” “器件”等扩展词,因此在调用第三方搜索引擎进行搜索时,即可得到更为精确并符合用户查询意图的搜索内容。获取模块404,用于获取网络爬虫抓取的搜索结果。所述网络爬虫首先抓取的初步搜索结果中确定与所述查询信息和第一扩展信息相关的第二匹配信息后,然后将包含该第二匹配信息的初步搜索结果作为搜索结果。第三方搜索引擎根据查询信息和第一扩展信息进行搜索后,会得到初步搜索结果,包括对应不同网页内容的信息内容。系统需要获取信息内容并输出,具体可以通过网络爬虫来抓取。网络爬虫在抓取搜索结果时可以进行初步筛选。具体过程可以为首先将从抓取的初步搜索结果中确定与所述查询信息和第一扩展信息相关的第二匹配信息,其包括提取所述搜索内容中的初步搜索词。分别计算初步搜索词与查询信息和第一扩展信息的相关度值。确定相关度值大于第三阈值的初步搜索词作为第二匹配信息。然后将包含该第二匹配信息的初步搜索结果作为搜索结果。由于第三搜索引擎的初步搜索结果是包括根据查询信息和第一扩展信息确定的词或者字段的所有信息内容。因此网络爬虫先进行初步筛选,从初步搜索结果中确定出包含该第二匹配信息的初步搜索结果,作为搜索结果传输给系统,系统在输出该搜索结果,因此进一步的精确了查询内容。确定模块405,用于确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息,作为扩展信息加入所述预设知识库中。其中,所述确定模块具体是确定用户所选择的目标搜索结果中与所述查询信息和第一扩展信息相关的第一匹配用户所选择的搜索结果是根据用户的点击信息而确定的。获取的搜索结果输出后在显示界面显示,而呈现给用户的显示信息是由不同链接或网页标题或者部分内容摘要形成的记录,用户通过点击记录获取搜索内容,根据用户所选择的记录可以认为该条记录对应的搜索结果为符合用户查询意图的搜索结果,则可确定该搜索结果为目标搜索结果。然后可以根据该目标搜索结果的信息内容,确定与所述查询信息和第一扩展信息相关的第一匹配信息,并作为扩展信息加入所述预设知识库中。其中,所述确定模块405可以具体包括提取模块4051,用于提取所述搜索结果中的搜索词。第二计算模块4052,用于分别计算搜索词与查询信息和第一扩展信息的相关度值。确定子模块4053,用于确定相关度值大于第二阈值的搜索词作为第一匹配信息。在本实施例中,预设知识库可以包括多个,用户可以根据自己的查询意图选择相应的类目信息进而确定进行查询信息扩展的预设知识库,在该预设知识库中对查询信息进行扩展,即确定与查询信息相关的第一扩展信息,并依据该查询信息和第一扩展信息调用第三搜索引擎搜索,将获取的搜索结果输出,并根据用户选择的搜索结果确定第一匹配信息,作为扩展信息,从而使得该扩展信息在当前类型或领域中是更为符合用户意图的扩展信息,因此可以使得后续搜索更为精确,输出结果也更为符合用户意图,因此可以提高搜索效率。而由于提高了搜索效率,使得用户无需反复查找或者重复搜索,因此也就减小的系统的运算量,进行提高了系统性能。在实际应用中,本实施例所述的搜索装置可以集成到专业的搜索引擎服务器中, 该搜索引擎服务器可以包括多个不同类型或者不同领域的预设知识库,该专业搜索引擎可以实现多个专业领域的信息的搜索,从而可以使得搜索结果符合用户意图,更精确。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明可以把各单元的功能在同一个或多个软件和/或硬件中实现。通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。
13对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
权利要求
1.一种搜索方法,其特征在于,该方法包括接收查询信息,所述查询信息包括至少一个查询关键词;在预设知识库中确定与所述查询信息相关的第一扩展信息,所述预设知识库包括不同的扩展信息;依据所述查询信息和第一扩展信息调用第三方搜索引擎进行搜索; 获取并输出所述搜索结果;确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息,作为扩展信息加入所述预设知识库中。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述查询信息相关的第一扩展信息包括计算查询信息与所述不同扩展信息的相关度值; 确定相关度值大于第一阈值的扩展信息作为第一扩展信息。
3.根据权利要求1所述的方法,其特征在于,所述确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息包括提取所述搜索结果中的搜索词;分别计算搜索词与查询信息和第一扩展信息的相关度值; 确定相关度值大于第二阈值的搜索词作为第一匹配信息。
4.根据权利要求1所述的方法,其特征在于,所述获取并输出所述搜索结果包括获取网络爬虫抓取的搜索结果,所述搜索结果为所述网络爬虫从抓取的初步搜索结果中确定与所述查询信息和第一扩展信息相关的第三匹配信息后,从所述初步搜索结果中确定的包含该第二匹配信息的搜索结果; 将所述搜索结果输出。
5.根据权利要求3所述的方法,其特征在于,所述分别计算搜索词与查询信息和第一扩展信息的相关度值包括统计相同的搜索词在所述搜索结果中的出现次数;按照出现次数的多少,计算搜索词分别与查询信息和第一扩展信息的相关度值。
6.根据权利要求1所述的方法,其特征在于,所述查询信息还包括类目信息,则所述在预设知识库中确定与所述查询信息相关的第一扩展信息具体为在对应所述类目信息的预设知识库中确定与所述查询信息相关的第一扩展信息。
7.根据权利要求1所述的方法,其特征在于,所述确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息具体为确定用户所选择的目标搜索结果中与所述查询信息和第一扩展信息相关的第一匹配 fn息ο
8.一种搜索装置,其特征在于,该装置包括接收模块,用于接收用户的查询信息,所述查询信息包括至少一个关键词; 扩展模块,用于在预设知识库中确定与所述查询信息相关的第一扩展信息,所述预设知识库包括不同的扩展信息;搜索模块,用于依据所述查询信息和相关信息调用第三方搜索引擎进行搜索; 获取模块,用于获取并输出所述搜索结果;确定模块,用于确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息,作为扩展信息加入所述预设知识库中。
9.根据权利要求1所述的搜索装置,其特征在于,所述扩展模块包括 第一计算模块,用于计算查询信息与所述不同扩展信息的相关度值;扩展子模块,用于确定相关度值大于第一阈值的扩展信息作为第一扩展信息。
10.根据权利要求1所述的搜索装置,其特征在于,所述确定模块包括 提取模块,用于提取所述搜索结果中的搜索词;第二计算模块,用于分别计算搜索词与查询信息和第一扩展信息的相关度值; 确定子模块,用于确定相关度值大于第二阈值的搜索词作为第一匹配信息。
全文摘要
本发明提供了一种搜索方法和装置,所述方法包括接收查询信息,所述查询信息包括至少一个查询关键词;在预设知识库中确定与所述查询信息相关的第一扩展信息,所述预设知识库包括不同的扩展信息;依据所述查询信息和第一扩展信息调用第三方搜索引擎进行搜索;获取并输出所述搜索结果;确定所述搜索结果中与所述查询信息和第一扩展信息相关的第一匹配信息,作为扩展信息加入所述预设知识库中。通过本发明实施例可以提高搜索效率,且使得搜索结果更精确。
文档编号G06F17/30GK102402619SQ20111044033
公开日2012年4月4日 申请日期2011年12月23日 优先权日2011年12月23日
发明者曾相宗 申请人:广东威创视讯科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1