一种基于词表的搜索方法和系统与流程

文档序号:14869518发布日期:2018-07-06 20:08阅读:293来源:国知局

本发明涉及互联网技术领域,尤其涉及一种基于词表的搜索方法和系统。



背景技术:

随着互联网社区化进度的逐步加快,网络社区中的人与人之间的关系越来越紧密,网络社区的用户期望通过搜人系统找到感兴趣的人;明星、商家等希望也通过搜人系统被他人追随、认知,从而达到宣传自己、扩大交际圈的目的。由此可以看出,在社区应用中,人物搜索具有较好的发展前景。

在目前的网络上已经有很多人物搜索的应用,但大多采用的是传统的基于内容检索的方法,即基于文本模糊检索,这需要检索请求串全匹配才能搜出结果。然而,这对用户要求很高,需要用户很准确的输入关键词,而且不能有多余的干扰因素。现有的人物搜索方法存在搜人不准确、无法处理用户交互式搜人请求、搜索结果不丰富、无法过滤额外干扰信息等缺陷。



技术实现要素:

有鉴于此,本发明提供一种基于词表的搜索方法和系统,以解决现有的人物搜索方法存在的搜人不准确的问题。

为达到上述目的,本发明的技术方案是这样实现的:

本发明提供了一种基于词表的搜索方法,该方法包括:

通过离线分析用户的检索意图相关数据建立优质词表;

将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串;

根据修正后的检索串进行检索,得到检索结果。

所述通过离线分析用户的检索意图相关数据建立优质词表,具体为:

离线分析用户的检索意图相关数据,从中提取用户检索词,并从搜索系统中提取与所述用户检索词相关的信息,根据所述与用户检索词相关的信息和人工编辑信息对所述用户检索词进行分类存储;

对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。

所述将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串,具体为:

根据业务需求和当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。

在得到检索结果后,该方法还包括:

对检索结果进行分析,如果所述检索结果不满足检索需求,则判断检索次数是否达到设定的阈值,如果没有达到,则从所述检索串匹配到的各个分类中选择其他分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串,根据修正后的检索串继续进行检索;如果达到,则合并多次检索的结果并返回;

如果所述检索结果满足检索需求,则正常返回所述检索结果。

本发明还提供了一种基于词表的搜索系统,该系统包括:词表建立模块、检索串修正模块和检索模块,其中,

所述词表建立模块,用于通过离线分析用户的检索意图相关数据建立优质词表;

所述检索串修正模块,用于将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串;

所述检索模块,用于根据修正后的检索串进行检索,得到检索结果。

所述词表建立模块具体用于,离线分析用户的检索意图相关数据,从中提取用户检索词,并从搜索系统中提取与所述用户检索词相关的信息,根据所述与用户检索词相关的信息和人工编辑信息对所述用户检索词进行分类存储;

对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。

所述检索串修正模块具体用于,根据业务需求和当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。

所述检索模块进一步用于,在得到检索结果后,对检索结果进行分析,如果所述检索结果不满足检索需求,则判断检索次数是否达到设定的阈值,如果没有达到,则通知所述检索串修正模块;相应的,所述检索串修正模块从所述检索串匹配到的各个分类中选择其他分类,提取所选分类中匹配到的离线权值最高的词,修正所述检索串并提供给所述检索模块,所述检索模块根据修正后的检索串继续进行检索;如果达到,则所述检索模块合并多次检索的结果并返回;

如果所述检索结果满足检索需求,则所述检索模块正常返回所述检索结果。

本发明所提供的一种基于词表的搜索方法和系统,通过离线分析用户的检索意图相关数据建立优质词表;将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串;根据修正后的检索串进行检索,得到检索结果。

本发明通过引入优质词表,满足了用户丰富信息输入、交互式输入的检索需求,解决了现有的搜索方法和系统存在的搜索不准确、无法处理用户交互式搜索请求、搜索结果不丰富、无法过滤额外干扰信息的问题,达到优化、丰富、精准化检索结果的目的。

附图说明

图1为本发明实施例的一种基于词表的搜索方法的流程图;

图2为本发明实施例的一种基于词表的人物搜索方法的流程图;

图3为本发明实施例的一种基于词表的搜索系统的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

本发明实施例所提供的一种基于词表的搜索方法,如图1所示,主要包括以下步骤:

步骤101,通过离线分析用户的检索意图相关数据建立优质词表。

离线分析用户的检索意图相关数据,从中提取用户检索词,并从搜索系统中提取与所述用户检索词相关的信息,根据所述与用户检索词相关的信息和人工编辑信息对所述用户检索词进行分类存储;对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。

步骤102,将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串。

根据业务需求和当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。

步骤103,根据修正后的检索串进行检索,得到检索结果。

在得到检索结果后,对检索结果进行分析,如果所述检索结果不满足检索需求,则判断检索次数是否达到设定的阈值,如果没有达到,则从所述检索串匹配到的各个分类中选择其他分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串,根据修正后的检索串继续进行检索;如果达到,则合并多次检索的结果并返回;

如果所述检索结果满足检索需求,则正常返回所述检索结果。

下面以人物搜索为例对上述基于词表的搜索方法进一步详细说明。需要指出的是,本发明的搜索方法并非仅限于人物搜索,也适用于其他各种信息的搜索。

参见图2所示的人物搜索流程,首先离线分析用户的检索意图相关数据(如用户的检索log),从中提取优质的用户检索词,并从搜人系统中提取与所述用户检索词相关的信息(如人物信息、帐号、昵称等等),根据所述与用户检索词相关的信息、以及人工编辑信息对所述用户检索词进行分类存储,分类主要包括但不限于:名人名字及昵称、常用的用户名及昵称、地区名称及简称、公司名称及简称、兴趣名称及简称等等;对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。不同分类的各个词表组成最终的词表文件。词表的分类并不是固定不变的,可以根据实际需要进行增加、删除等操作。其中,离线权值的计算可以根据不同的业务种类、业务的对应参数进行计算,如:微博中人物的关注数、广播数,QQ空间里的用户等级等等。以微博为例,在“名人名字及昵称”这个分类下,张三的关注数最高,则赋予张三最高的权值,依此类推,该分类下的词按照权值从高到低的顺序进行排序。

当用户提交检索请求时,提取检索请求中的检索串,如果检索串为句子,则需要进行分词;然后根据业务需求和针对该检索请求的当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。

根据修正后的检索串向检索系统进行检索,对检索结果进行分析,如果所述检索结果不满足检索需求(如检索的结果不够丰富、结果不准确等等),则判断检索次数是否达到设定的阈值(即判断是否需要再次检索),如果没有达到设定的阈值,则从所述检索串匹配到的各个分类中选择其他分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串,根据修正后的检索串再次进行检索;如果达到设定的阈值,则合并多次检索的结果并返回给检索界面向用户展示;

如果所述检索结果满足检索需求,则正常返回所述检索结果到检索界面向用户展示。

对应上述基于词表的搜索方法,本发明还提供了一种基于词表的搜索系统,如图3所示,主要包括:词表建立模块10、检索串修正模块20和检索模块30。其中,词表建立模块10,用于通过离线分析用户的检索意图相关数据建立优质词表。检索串修正模块20,用于将检索请求中的检索串与所述优质词表进行匹配,并根据匹配结果修正所述检索串。检索模块30,用于根据修正后的检索串进行检索,得到检索结果。

较佳的,词表建立模块10可具体用于,离线分析用户的检索意图相关数据,从中提取用户检索词,并从搜索系统中提取与所述用户检索词相关的信息,根据所述与用户检索词相关的信息和人工编辑信息对所述用户检索词进行分类存储;对每个分类下的词进行离线权值计算,并按照所述权值大小进行排序。

较佳的,检索串修正模块20可具体用于,根据业务需求和当前检索次数,从所述检索串匹配到的各个分类中选择其中一个分类,并提取所选分类中匹配到的离线权值最高的词,修正所述检索串。

较佳的,检索模块30可进一步用于,在得到检索结果后,对检索结果进行分析,如果所述检索结果不满足检索需求,则判断检索次数是否达到设定的阈值,如果没有达到,则通知检索串修正模块20;相应的,检索串修正模块20从所述检索串匹配到的各个分类中选择其他分类,提取所选分类中匹配到的离线权值最高的词,修正所述检索串并提供给检索模块30,检索模块根据修正后的检索串继续进行检索;如果达到,则检索模块30合并多次检索的结果并返回;

如果所述检索结果满足检索需求,则检索模块30正常返回所述检索结果。

本发明实施例的人物搜索方法和系统通过引入优质词表,实现了人物搜索系统的检索请求精准定向、优化检索结果的目的,对现有的人物搜索系统是一个很好的补充。在用户进行交互式搜索、丰富信息搜索时,可以提取关键检索串信息,去除多余信息的干扰,将更优的结果展现给用户。很大程度上解决了现有的人物搜索方法和系统存在的搜人不准确、无法处理用户交互式搜人请求、搜索结果不丰富、无法过滤额外干扰信息的问题。为人物搜索系统在网站社区中的应用提供了优质的体验基础。

需要说明的是,本发明的搜索方法并非仅限于人物搜索,也适用于其他各种信息的搜索。应用于其他信息的搜索时,本发明能够解决现有搜索系统存在的搜索结果不准确、无法处理用户交互式搜索请求、搜索结果不丰富、无法过滤额外干扰信息的问题,达到优化、丰富、精准化检索结果的目的。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1