检索方法及装置的制作方法

文档序号:6334393阅读:153来源:国知局
专利名称:检索方法及装置的制作方法
技术领域
本发明涉及检索技术领域,特别涉及一种检索方法及装置。
背景技术
互联网的迅速普及已经成为信息时代的重要标志,任何人在任何时间、任何地点都可以通过网络发布信息。在庞大的信息库里面快速有效地查找到用户需要的信息,使搜索引擎成为了寻找信息的好帮手。现有搜索引擎在检索时,当用户输入检索词之后,需要用户在检索结果中反复查找所需信息,或在整个检索过程中,需要用户反复的修改检索词,并反复在检索结果中筛选对自己有用的信息。现有技术至少存在以下缺点现有搜索引擎在实现检索时,同样的检索词会得到同样的检索结果,也就是说,现有检索方式对于所有用户都通用,导致检索结果没有针对性,准确性也不高。

发明内容
本发明实施例提供了一种检索方法及装置,其能解决现有检索方式中检索结果没有针对性,准确性也不高的问题。所述技术方案如下—方面,提供了一种检索方法,所述方法包括接收用户输入的检索词;获取所述用户的相关信息,并对所述相关信息进行分析,得到与所述用户相匹配的情景数据;根据所述检索词及情景数据在检索数据库中进行检索。其中,所述接收用户输入的检索词之前,还包括获取文档数据,并根据所述文档数据构造检索数据库;所述根据所述检索词及情景数据在检索数据库中进行检索,具体包括包括根据所述网页点击的日志信息统计用户输入过的检索词和被点击网页的关系,并根据所述会话日志信息确定所述用户的检索行为特征;根据统计的关系、确定的检索行为特征以及获取到的所述用户信息得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。另一方面,还提供了一种检索装置,所述装置包括接收模块,用于接收用户输入的检索词;第一获取模块,用于获取所述用户的相关信息,并对所述相关信息进行分析,得到与所述用户相匹配的情景数据;检索模块,用于根据所述接收模块接收到的检索词及所述第一获取模块获取到的情景数据在检索数据库中进行检索。
其中,所述第一获取模块,具体包括 第一获取单元,用于获取所述用户的日志信息,所述日志信息至少包括网页点击的日志信息及会话日志信息;第二获取单元,用于根据所述第一获取单元获取到的网页点击的日志信息统计用户输入过的检索词和被点击网页的关系,并根据所述会话日志信息确定所述用户的检索行为特征;第三获取单元,用于根据所述第二获取单元统计的关系以及确定的检索行为特征得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。可选地,所述第一获取模块,具体包括第四获取单元,用于获取所述用户的用户信息,所述用户信息至少包括用户浏览网页的信息、文件信息、互动平台信息中的一种信息;第五获取单元,用于根据所述第四获取单元获取到的所述用户信息分析得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。可选地,所述第一获取模块,具体包括第一获取单元,用于获取所述用户的日志信息,所述日志信息至少包括网页点击的日志信息及会话日志信息;根据所述检索词及情景数据在所述构造的检索数据库中进行检索。所述获取文档数据,具体包括抓取网页数据和/或接收推送的网页数据,并对所述网页数据进行文本解析,得到文档数据。所述根据所述文档数据构造检索数据库,具体包括对获取到的所述文档数据进行分类、主题抽取和词关系分析处理,并将处理后的文档数据进行数据索引,得到检索数据库。所述获取所述用户的相关信息,具体包括获取所述用户的日志信息,所述日志信息至少包括网页点击的日志信息及会话日志fn息;所述对所述相关信息进行分析,得到与所述用户相匹配的情景数据,具体包括根据所述网页点击的日志信息统计用户输入过的检索词和被点击网页的关系,并根据所述会话日志信息确定所述用户的检索行为特征;根据统计的关系以及确定的检索行为特征得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。可选地,所述获取所述用户的相关信息,具体包括获取所述用户的用户信息,所述用户信息至少包括用户浏览网页的信息、文件信息、互动平台信息中的一种信息;所述对所述相关信息进行分析,得到与所述用户相匹配的情景数据,具体包括根据获取到的所述用户信息分析得到包括用户个人信息、检索原因信息、检索时
5间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。可选地,所述获取所述用户的相关信息,具体包括获取所述用户的日志信息和用户信息,所述日志信息至少包括网页点击的日志信息及会话日志信息,所述用户信息至少包括用户浏览网页的信息、文件信息、互动平台信息中的一种信息;所述对所述相关信息进行分析,得到与所述用户相匹配的情景数据,具体第二获取单元,用于根据所述第一获取单元获取到的网页点击的日志信息统计用户输入过的检索词和被点击网页的关系,并根据所述会话日志信息确定所述用户的检索行为特征;第四获取单元,用于获取所述用户的用户信息,所述用户信息至少包括用户浏览网页的信息、文件信息、互动平台信息中的一种信息;第六获取单元,用于根据所述第二获取单元统计的关系、确定的检索行为特征和第四获取单元获取到的所述用户信息得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。本发明实施例提供的技术方案的有益效果是通过获取与用户相匹配的情景数据,并根据检索词及情景数据进行检索,从而可以按照用户的检索意愿进行检索,使得到的检索结果更具针对性及准确性。


为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例一提供的检索方法流程图;图2是本发明实施例二提供的检索方法流程图;图3是本发明实施例三提供的检索装置结构示意图;图4是本发明实施例三提供的检索装置的另一种结构示意图;图5是本发明实施例三提供的第一获取模块结构示意图;图6是本发明实施例三提供的第一获取模块的另一种结构示意图;图7是本发明实施例三提供的第一获取模块的又一种结构示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。实施例一参见图1,本实施例提供了一种检索方法,该检索方法流程具体如下101 接收用户输入的检索词;
102:获取用户的相关信息,并对相关信息进行分析,得到与用户相匹配的情景数据;103 根据检索词及情景数据在检索数据库中进行检索。本实施例提供的方法,通过获取与用户相匹配的情景数据,并根据检索词及情景数据进行检索,从而可以按照用户的检索意愿进行检索,使得到的检索结果更具针对性及准确性。实施例二本实施例提供了一种检索方法,该方法通过获取用户的相关信息,根据用户的相关信息获取与用户相匹配的情景数据,并在检索过程中考虑到用户的情景数据,从而提高检索结果的针对性及准确性。其中,用户的相关信息包括用户的日志信息和/或用户信息。 为了便于说明,本实施例以用户的相关信息同时包括用户的日志信息及用户信息为例,对本实施例提供的方法进行详细描述。参见图2,本实施例提供的方法流程具体如下201 获取文档数据,并根据文档数据构造检索数据库;其中,检索数据库是检索技术中必不可少的,现有技术中也存在多种构造检索数据库的方式。在本实施例中,仅以根据获取到的文档数据构造检索数据库为例。对于如何获取文档数据,本实施例同样不作具体限定,保证获取到更全面的数据即可。本实施例采取的获取文档数据的方式包括但不限于抓取网页数据和/或接收推送的网页数据,并对网页数据进行文本解析,得到文档数据。其中,本实施例不对抓取到的网页数据和接收推送的网页数据进行限定,为了构造出覆盖范围较广且实用的检索数据库,抓取或接收的网页数据内容应尽量丰富。在根据获取到的文档数据构造检索数据库时,为了便于后续检索,需要对获取到的文档数据进行分类、主题抽取和词关系分析等处理,并将处理后的文档数据进行数据索引,得到检索数据库。202 对用户输入的检索词进行分词处理,得到分词结果;针对该步骤,当用户输入检索词触发检索操作后,对用户输入的检索词进行分词处理已是较为成熟的现有技术,对于相同的检索词,采用不同的分词处理方式,得到的分词结果也可能不同,本实施例不对分词处理的方式进行具体限定。例如,在对用户输入的检索词“沈届大运会”进行分词处理时,可将语言学上有意义的词识别出来,得到包括“26”、“届” 和“大运会”这3个词单元的分词结果。203:获取用户的日志信息和用户信息,并对用户的日志信息和用户信息进行分析,得到与用户相匹配的情景数据;具体地,由于用户的日志信息和用户信息能够反应一个用户的多种信息,为了充分挖掘用户的检索意图,本实施例采取了获取用户的日志信息和用户信息的方式,通过对获取到的日志信息和用户信息进行分析,进而得出与用户相匹配的情景数据,通过情景数据反应用户的检索意图,进而为用户提供更具针对性的检索服务。其中,用户的日志信息包括但不限于网页点击的日志信息及会话日志信息,例如, 用户在一段时间内曾输入过的检索词,以及根据选择的检索结果而点击的网页等等,则在对用户的日志信息进行分析时,可以根据网页点击的日志信息统计用户输入过的检索词和被点击网页的关系,并根据会话日志信息确定用户的检索行为特征。该用户的检索行为特征可以反应用户的检索意愿,例如,用户检索的目的是为了查看新闻,或是为了获取信息等
7等。用户的用户信息包括但不限于用户浏览网页的信息、文件信息、互动平台信息,例如,用户浏览过哪些类型的网页,网页的内容等等,互动平台可以是聊天工具,论坛等,互动平台信息可以是用户在注册或登录互动平台时填写的个人信息,或是互动内容信息等等。在获取了用户的日志信息和用户信息等相关信息之后,通过对获取到的信息进行分析,即可得到包括用户个人信息(Who)、检索原因信息(Why)、检索时间信息(When)、检索位置信息(Where)、检索词信息(What)、检索目的信息(Want)和检索行为信息(How)中的至少一种信息,由于该类信息是根据用户的日志信息和用户信息等相关信息得到的,因而本实施例将该类信息作为用户检索行为的7要素,统称为与用户相匹配的情景数据,不同用户对应不同的情景数据,本实施例不对情景数据的具体内容进行限定,实际应用过程中, 情景数据既可以包括7要素中的一个或多个要素,也可以包括全部要素,还可以在这7个要素的基础上增加其他要素,从而有助于更准确地挖掘出用户的检索意图。204 根据分词结果及情景数据在检索数据库中进行检索。针对该步骤,在数据库中检索是很常见的现有技术,但在本实施例中,检索过程中,还要考虑与用户相匹配的情景数据,即根据用户检索意图进行检索,从而能够返回用户期望得到的检索结果,例如,用户输入的检索词为“苹果”,由于该词的含义较多,不仅代表水果,还具有软件、网站、电影名称等多层含义,用户输入该检索词时可能只是为了获取其中的一种含义对应的相关信息,如果仅根据该检索词进行检索,则得到的检索结果会很多, 不仅数量多,内容也会多种多样,即使对检索结果有一定的排序方式,也很难直接将用户期望得到的检索结果显示给用户,常常无法避免地需要用户在多个检索结果中筛选期望的检索结果。而对于本实施例提供的方法,由于通过获取用户的日志信息和用户信息,得到了与用户相匹配的情景数据,而该情景数据又能够反应出用户的搜索意图,例如,情景数据中给出了用户的检索意图为软件,则在检索时,可将相关的软件信息检索出来提供给用户,从而减少用户反复筛选检索结果。需要说明的是,本实施例提供的方法,还可以省略对检索词进行分词处理的步骤, 即在接收到用户输入的检索词,并得到与用户相匹配的情景数据之后,直接根据检索词及情景数据在检索数据库中进行检索,本实施例对此不作具体限定。本实施例提供的方法,通过获取与用户相匹配的情景数据,并根据用户输入的检索词的分词结果及情景数据进行检索,从而可以按照用户的检索意愿进行检索,使得到的检索结果更具针对性及准确性。实施例三参见图3,本实施例提供了一种检索装置,该装置包括接收模块301,用于接收用户输入的检索词;第一获取模块302,用于获取用户的相关信息,并对相关信息进行分析,得到与用户相匹配的情景数据;检索模块303,用于根据接收模块301接收到的检索词及第一获取模块302获取到的情景数据在检索数据库中进行检索。参见图4,该检索装置还包括
第二获取模块304,用于获取文档数据;构造模块305,用于根据第二获取模块304获取到的文档数据构造检索数据库;相应地,检索模块303,具体用于根据接收模块301接收到的检索词及第一获取模块302获取到的情景数据在构造模块305构造的检索数据库中进行检索。其中,第二获取模块304,具体用于抓取网页数据和/或接收推送的网页数据,并对网页数据进行文本解析,得到文档数据。构造模块305,具体用于对第二获取模块304获取到的文档数据进行分类、主题抽取和词关系分析处理,并将处理后的文档数据进行数据索引,得到检索数据库。参见图5,第一获取模块302,具体包括第一获取单元30加,用于获取用户的日志信息,日志信息至少包括网页点击的日志信息及会话日志信息;第二获取单元302b,用于根据第一获取单元30 获取到的网页点击的日志信息统计用户输入过的检索词和被点击网页的关系,并根据会话日志信息确定用户的检索行为特征;第三获取单元302c,用于根据第二获取单元302b统计的关系以及确定的检索行为特征得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、 检索目的信息和检索行为信息中至少一种信息的情景数据。可选地,参见图6,第一获取模块302,具体包括第四获取单元302d,用于获取用户的用户信息,用户信息至少包括用户浏览网页的信息、文件信息、互动平台信息中的一种信息;第五获取单元30 ,用于根据第四获取单元302d获取到的用户信息分析得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。可选地,参见图7,第一获取模块302,具体包括第一获取单元30加,用于获取用户的日志信息,日志信息至少包括网页点击的日志信息及会话日志信息;第二获取单元302b,用于根据第一获取单元30 获取到的网页点击的日志信息统计用户输入过的检索词和被点击网页的关系,并根据会话日志信息确定用户的检索行为特征;第四获取单元302d,用于获取用户的用户信息,用户信息至少包括用户浏览网页的信息、文件信息、互动平台信息中的一种信息;第六获取单元302f,用于根据第二获取单元302b统计的关系、确定的检索行为特征和第四获取单元302d获取到的用户信息得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。其中,接收模块301,还用于对接收到的检索词进行分词处理,得到分词结果;检索模块303,还用于根据接收模块301得到的分词结果及第一获取模块302获取到的情景数据在检索数据库中进行检索。综上所述,本实施例提供的装置,通过获取与用户相匹配的情景数据,并根据用户
9输入的检索词及情景数据进行检索,从而可以按照用户的检索意愿进行检索,使得到的检索结果更具针对性及准确性。需要说明的是上述实施例提供的检索装置在进行检索时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另夕卜,上述实施例提供的检索装置与检索方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。本发明实施例中的全部或部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种检索方法,其特征在于,所述方法包括 接收用户输入的检索词;获取所述用户的相关信息,并对所述相关信息进行分析,得到与所述用户相匹配的情景数据;根据所述检索词及情景数据在检索数据库中进行检索。
2.根据权利要求1所述的方法,其特征在于,所述接收用户输入的检索词之前,还包括获取文档数据,并根据所述文档数据构造检索数据库;所述根据所述检索词及情景数据在检索数据库中进行检索,具体包括根据所述检索词及情景数据在所述构造的检索数据库中进行检索。
3.根据权利要求2所述的方法,其特征在于,所述获取文档数据,具体包括抓取网页数据和/或接收推送的网页数据,并对所述网页数据进行文本解析,得到文档数据;所述根据所述文档数据构造检索数据库,具体包括对获取到的所述文档数据进行分类、主题抽取和词关系分析处理,并将处理后的文档数据进行数据索引,得到检索数据库。
4.根据权利要求1所述的方法,其特征在于,所述获取所述用户的相关信息,具体包括获取所述用户的日志信息,所述日志信息至少包括网页点击的日志信息及会话日志信息;所述对所述相关信息进行分析,得到与所述用户相匹配的情景数据,具体包括 根据所述网页点击的日志信息统计用户输入过的检索词和被点击网页的关系,并根据所述会话日志信息确定所述用户的检索行为特征;根据统计的关系以及确定的检索行为特征得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。
5.根据权利要求1所述的方法,其特征在于,所述获取所述用户的相关信息,具体包括获取所述用户的用户信息,所述用户信息至少包括用户浏览网页的信息、文件信息、互动平台信息中的一种信息;所述对所述相关信息进行分析,得到与所述用户相匹配的情景数据,具体包括 根据获取到的所述用户信息分析得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。
6.根据权利要求1所述的方法,其特征在于,所述获取所述用户的相关信息,具体包括获取所述用户的日志信息和用户信息,所述日志信息至少包括网页点击的日志信息及会话日志信息,所述用户信息至少包括用户浏览网页的信息、文件信息、互动平台信息中的一种信息;所述对所述相关信息进行分析,得到与所述用户相匹配的情景数据,具体包括 根据所述网页点击的日志信息统计用户输入过的检索词和被点击网页的关系,并根据所述会话日志信息确定所述用户的检索行为特征;根据统计的关系、确定的检索行为特征以及获取到的所述用户信息得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。
7.一种检索装置,其特征在于,所述装置包括 接收模块,用于接收用户输入的检索词;第一获取模块,用于获取所述用户的相关信息,并对所述相关信息进行分析,得到与所述用户相匹配的情景数据;检索模块,用于根据所述接收模块接收到的检索词及所述第一获取模块获取到的情景数据在检索数据库中进行检索。
8.根据权利要求7所述的装置,其特征在于,所述第一获取模块,具体包括第一获取单元,用于获取所述用户的日志信息,所述日志信息至少包括网页点击的日志信息及会话日志信息;第二获取单元,用于根据所述第一获取单元获取到的网页点击的日志信息统计用户输入过的检索词和被点击网页的关系,并根据所述会话日志信息确定所述用户的检索行为特征;第三获取单元,用于根据所述第二获取单元统计的关系以及确定的检索行为特征得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。
9.根据权利要求7所述的装置,其特征在于,所述第一获取模块,具体包括第四获取单元,用于获取所述用户的用户信息,所述用户信息至少包括用户浏览网页的信息、文件信息、互动平台信息中的一种信息;第五获取单元,用于根据所述第四获取单元获取到的所述用户信息分析得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。
10.根据权利要求7所述的装置,其特征在于,所述第一获取模块,具体包括第一获取单元,用于获取所述用户的日志信息,所述日志信息至少包括网页点击的日志信息及会话日志信息;第二获取单元,用于根据所述第一获取单元获取到的网页点击的日志信息统计用户输入过的检索词和被点击网页的关系,并根据所述会话日志信息确定所述用户的检索行为特征;第四获取单元,用于获取所述用户的用户信息,所述用户信息至少包括用户浏览网页的信息、文件信息、互动平台信息中的一种信息;第六获取单元,用于根据所述第二获取单元统计的关系、确定的检索行为特征和第四获取单元获取到的所述用户信息得到包括用户个人信息、检索原因信息、检索时间信息、检索位置信息、检索词信息、检索目的信息和检索行为信息中至少一种信息的情景数据。
全文摘要
本发明公开了一种检索方法及装置,属于检索技术领域。所述方法包括接收用户输入的检索词;获取所述用户的相关信息,并对所述相关信息进行分析,得到与所述用户相匹配的情景数据;根据所述检索词及情景数据在检索数据库中进行检索。本发明通过获取与用户相匹配的情景数据,并根据用户输入的检索词及情景数据进行检索,从而可以按照用户的检索意愿进行检索,使得到的检索结果更具针对性及准确性。
文档编号G06F17/30GK102456019SQ20101051968
公开日2012年5月16日 申请日期2010年10月18日 优先权日2010年10月18日
发明者孙良 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1