专利名称:一种基于词表的信息搜索方法及搜索系统的制作方法
技术领域:
本发明涉及通信技术领域,特别是涉及一种基于词表的信息搜索方法及搜索系统。
背景技术:
随着实时信息网络和内容发布工具以及多媒体设备的发展,各种各样的信息越来越多,搜索作为一种获取信息的重要手段,使得用户在丰富的信息资源中能够快速找到所需要的信息,并成为信息时代不可或缺的重要工具。目前在互联网上存在以下几种常见的信息安全问题:敏感信息、色情内容、社会争议性事件、违禁物品信息、赌博类信息、诈骗内容、非法广告信息等。这些不健康的信息使信息检索的安全性受到了挑战,为了保证输出的搜索结果符合要求,搜索采取了安全策略。目前的搜索系统,对于词表中不同主题词统一采用同一种安全策略,即词表仅对应设置一种安全策略,安全策略包括例如,不返回敏感词搜索结果、直接返回敏感词搜索结果或者返回过滤后的敏感词搜索结果。因此,如果制定的安全策略的安全等级较高,会过滤全部敏感信息,不返回敏感词搜索结果,这样会将安全等级较低的敏感信息也全部过滤掉;如果制定的安全策略的安全等级较低,则会在搜索结果中返回全部或部分安全等级较高的敏感词搜索结果。这已经越来越不满足现有的搜索需求,无法根据不同的搜索需求对搜索结果进行安全性控制。
发明内容
本发明的目的在于提供一种基于词表的信息搜索方法及搜索系统,用以解决采用同一安全策略导致的搜索结果可控性及灵活性无法保证的问题。为此,本发明实施例采用如下技术方案:
本发明实施例提供一种基于词表的信息搜索方法,所述词表中的主题词具有各自的安全等级,各安全等级对应设置有相应的安全策略;所述方法包括:
搜索系统接收包含有关键词的搜索请求;
所述搜索系统根据所述关键词,在所述词表中进行查询,得到匹配的主题词;
所述搜索系统根据匹配到的主题词进行搜索,并根据匹配到的主题词对应的安全等级,确定该安全等级对应的安全策略,根据该安全策略得到所述主题词的搜索结果。本发明实施例提供一种基于词表的信息搜索系统,所述词表中的主题词具有各自的安全等级;所述搜索系统包括:存储模块、接收模块、查询模块、安全模块以及输出模块,其中,
存储模块,用于存储安全等级与安全策略的对应关系;
接收模块,用于接收包含有关键词的搜索请求;
查询模块,用于根据所述接收模块接收到的关键词在所述词表中进行查询,得到匹配的主题词;
安全模块,用于根据所述查询模块匹配到的主题词的安全等级,以及所述存储模块存储的对应关系,确定该安全等级对应的安全策略;
搜索模块,用于根据匹配到的主题词进行搜索,并根据所述安全模块确定的安全策略得到所述主题词的搜索结果。与现有技术相比,本发明的实施例具有如下优点:
本发明的实施例中,词表中的主题词具有各自的安全等级,各安全等级对应设置有相应的安全策略,当用户发起搜索时,搜索系统根据关键词在词表中进行查询,得到匹配的主题词,并根据匹配到的主题词进行搜索,根据匹配到的主题词对应的安全等级,确定该安全等级对应的安全策略,并根据该安全策略得到主题词的搜索结果,从而使不同安全等级的主题词可以执行不同的安全策略,获得不同的搜索结果,保证了搜索结果在安全性要求方面的可控性,以及搜索结果的灵活性。
图1为本发明实施例提供的基于词表的信息搜索方法流程示意 图2为本发明实施例提供的基于词表的信息搜索系统的结构框图。
具体实施例方式下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例中,词表中的每个主题词具有各自的安全等级,即安全等级作为主题词的一个属性而存在。各安全等级对应设置有相应的安全策略。安全等级可以根据实际需要进行划分,例如,敏感信息、色情内容、社会争议性事件、部分违禁物品、赌博类信息、诈骗内容、非法广告信息等对社会的危害程度不同,在建立词表时,为词表中的各主题词设置各自的安全等级。例如,将涉及诈骗内容的主题词的安全等级设置为最高,将涉及非法广告信息的主题词安全等级设置为次之。安全策略通常是指搜索结果的呈现策略,例如,目前常见的安全策略有:返回全部搜索结果、返回部分搜索结果或不返回搜索结果。通过采用安全策略可以实现过滤敏感信息的功能,在此不再赘述。本发明实施例中,可根据安全控制需要,为词表内主题词的不同安全等级设置相应的安全策略。例如,为最高的安全等级设置不返回搜索结果的安全策略,为中等的安全等级设置返回部分搜索结果的安全策略,为最低的安全等级设置返回全部搜索结果的安全策略。具体实现时,可设置词表中主题词的安全等级与安全策略的映射关系表,通过该映射关系表即可查到安全等级对应的安全策略。搜索系统可以根据时间或者需要更新词表中主题词的安全等级与安全策略的映射关系表。例如,在重要节日或者举办重要的政治活动、社会活动、体育赛事等时间段内,可以将中等安全等级的主题词与全部不返回搜索结果的安全策略相对应,实现高安全性控制。当节日过后或者活动结束后,可以仅仅将包含留敏感信息、社会争议性事件、部分违禁物品等内容的安全等级较高的主题词与全部不返回搜索结果的安全策略相对应。又例如,原来最低安全等级对应的安全策略为全部返回搜索结果,目前根据实际需要,需要调整为部分返回搜索结果,针对这种情况,仅需在映射关系表中将所述最低安全等级对应的安全策略调整为部分返回搜索结果即可,无需修改词表。基于以上设置,图1示出了本发明实施例提供的基于词表的信息搜索方法的流程,如图所示,该流程可包括:
步骤11,搜索系统接收包含有关键词的搜索请求。搜索系统接收到搜索请求后,通常会根据搜索请求中携带的信息进行分词处理,以确定出关键词。分词处理方式可采用现有方式实现,本发明实施例对分词处理方式不做限制。步骤12,搜索系统根据关键词在词表中进行查询,得到匹配的主题词。具体的,得到关键词的匹配的主题词可采用现有方式实现,例如,通过词表的精确匹配逻辑实现。步骤13,搜索系统根据匹配到的主题词进行搜索,并根据匹配到的主题词对应的安全等级,确定该安全等级对应的安全策略,根据该安全策略得到该主题词的搜索结果。具体的,当搜索系统得到匹配的主题词之后,根据该该主题词的安全等级,通过查询存储于本地的主题词的安全等级与安全策略的映射关系表,获得对应的安全策略,并采用该安全策略得到该主题词的搜索结果。对于文献类文件,搜索结果包括文献的作者、标题等信息;对于网页类文件,搜索结果包括该网页的URL。通过以上描述可以看出,本发明的实施例中,词表中的主题词具有各自的安全等级,各安全等级对应设置有相应的安全策略,当用户发起搜索时,搜索系统根据关键词在词表中进行查询,得到匹配的主题词,根据匹配到的主题词进行搜索,并根据匹配到的主题词对应的安全等级,确定该安全等级对应的安全策略,根据该安全策略得到主题词的搜索结果,从而使不同安全等级的主题词可以执行不同的安全策略,返回不同的搜索结果,保证了搜索结果在安全性要求方面的可控性,以及搜索结果的灵活性。此外,当安全策略发生改变时,只需调整安全策略或者更新安全策略与安全等级的对应关系,无需修改词表,从而减少了人工维护词表的工作,降低了词表维护的复杂性。本发明实施例还提供了一种基于词表的信息搜索系统,词表中的主题词具有各自的安全等级,如图2所示,该搜索系统包括:
存储模块21,用于存储安全等级与安全策略的对应关系。接收模块22,用于接收包含有关键词的搜索请求。查询模块23,用于根据接收模块22接收到的关键词在词表中进行查询,得到匹配的主题词。安全模块24,用于根据查询模块23匹配到的主题词的安全等级,以及存储模块21存储的对应关系,确定该安全等级对应的安全策略。搜索模块25,用于根据匹配到的主题词进行搜索,并根据所述安全模块24确定的安全策略得到所述主题词的搜索结果。具体的,存储模块21具体用于存储映射关系表,映射关系表包括:词表中主题词的安全等级与安全策略的映射关系。安全模块24具体用于,确定所述查询模块23匹配到的主题词的安全等级,根据该安全等级查找存储模块21中存储的映射关系表,得到对应的安全策略。具体的,本发明实施例基于词表的信息搜索系统还可以包括:更新模块26,用于根据时间或者需要更新主题词的安全等级与安全策略的对应关系。具体实现时,更新模块26可以更新存储模块21中存储的映射关系表。安全模块是搜索系统中的重要一环,众多业务例如微博搜索,Qzone社区搜索等都为安全模块提供了实现和检测的平台,本发明主要是通过在词表中查询主题词,根据匹配的主题词进行搜索,执行主题词对应的安全策略,得到相应搜索结果,从而实现词表的安全性控制。本发明的信息搜索方法及搜索系统,通过不同安全等级的主题词执行不同的安全策略,得到不同的搜索结果,使得搜索结果的安全性可控、易控,不仅大大的提高了搜索系统灵活性与可控性,同时也降低了人工维护词表的工作。本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
权利要求
1.一种基于词表的信息搜索方法,其特征在于,所述词表中的主题词具有各自的安全等级,各安全等级对应设置有相应的安全策略;所述方法包括: 搜索系统接收包含有关键词的搜索请求; 所述搜索系统根据所述关键词,在所述词表中进行查询,得到匹配的主题词; 所述搜索系统根据匹配到的主题词进行搜索,并根据匹配到的主题词对应的安全等级,确定该安全等级对应的安全策略,根据该安全策略得到所述主题词的搜索结果。
2.如权利要求1所述的方法,其特征在于,所述搜索系统根据匹配到的主题词对应的安全等级,确定该安全等级对应的安全策略,具体包括: 搜索系统通过查找存储于本地的映射关系表,确定安全等级对应的安全策略,所述映射关系表包括:词表中主题词的安全等级与安全策略的映射关系。
3.如权利要求1所述的方法,其特征在于,还包括:搜索系统更新所述安全等级与所述安全策略的对应关系。
4.一种基于词表的信息搜索系统,其特征在于,所述词表中的主题词具有各自的安全等级;所述搜索系统包括:存储模块、接收模块、查询模块、安全模块以及输出模块,其中, 存储模块,用于存储安全等级与安全策略的对应关系; 接收模块,用于接收包含有关键词的搜索请求; 查询模块,用于根据所述接收模块接收到的关键词在所述词表中进行查询,得到匹配的主题词; 安全模块,用于根据所述查询模块匹配到的主题词的安全等级,以及所述存储模块存储的对应关系,确定该安全等级对应的安全策略; 搜索模块,用于根据匹配到的主题词进行搜索,并根据所述安全模块确定的安全策略得到所述主题词的搜索结果。
5.如权利要求4所述的搜索系统,其特征在于,所述存储模块具体用于,存储映射关系表,所述映射关系表包括:词表中主题词的安全等级与安全策略的映射关系; 所述安全模块具体用于,确定所述查询模块匹配到的主题词的安全等级,根据该安全等级查找所述存储模块中存储的映射关系表,得到对应的安全策略。
6.如权利要求4所述的搜索系统,其特征在于,还包括: 更新模块,用于更新所述存储模块中存储的安全等级与安全策略的对应关系。
全文摘要
本发明公开了一种基于词表的信息搜索方法及搜索系统,词表中的主题词具有各自的安全等级,各安全等级对应设置有相应的安全策略;所述方法包括搜索系统接收包含有关键词的搜索请求;搜索系统根据关键词在所述词表中进行查询,得到匹配的主题词;搜索系统根据匹配到的主题词进行搜索,并根据匹配到的主题词对应的安全等级,确定该安全等级对应的安全策略,根据该安全策略得到搜索结果。本发明保证了搜索结果安全性的可控,以及搜索结果的灵活性。
文档编号G06F17/30GK103198066SQ20121000269
公开日2013年7月10日 申请日期2012年1月6日 优先权日2012年1月6日
发明者王沁泉, 王佳强, 杨娜, 胡文翠, 潘树燊, 文勖 申请人:腾讯科技(深圳)有限公司