一种搜索方法和系统的制作方法

文档序号:8528166阅读:492来源:国知局
一种搜索方法和系统的制作方法
【技术领域】
[0001]本申请涉及计算机技术领域,特别是涉及一种搜索方法和一种搜索系统。
【背景技术】
[0002]查询改写是在搜索引擎查询过程中,对用户输入的原始查询词进行改写,以返回更好的搜索结果。现有技术中,查询改写主要是纠正用户输入错误。如:用户输入“走结论”、“zoujielun”或者“zhoujielun”,搜索引擎很难给用户找到正确的网页。对查询进行纠错后,即根据“zoujielun”在纠错模型中进行分析,分析得到的结果中,“周杰伦”对应的文本匹配的结果的比例较大,则修改成符合用户原本意图的查询词“周杰伦”,在用户不干预的情况下,搜索引擎就可以返回符合用户意图的网页,提升用户体验。
[0003]现有网页搜索技术主要是基于关键词进行查询。当用户输入查询词查找信息时,搜索引擎对查询词进行中文分词,将查询词转换成几个关键词,然后去网页的倒排索引库中进行查找,将命中关键字的网页返回,再采用一定的排序算法,从相关度、时效性、用户意图等几个方面对命中的网页进行排序,按顺序将这些网页链接返回给用户。
[0004]现有的基于关键词的搜索技术,S卩“查询词_>关键字_>查找”的这种依赖字符串匹配的检索方式,简单地将查询词进行切分,容易损失一部分信息,偏离用户的意图,从而无法通过关键字获得有效的结果。
[0005]例如,如图1所示,搜索引擎检索查询词“谢霆锋是谁的儿子”时,分词后得到的关键字为“谢霆锋”、“谁”、“儿子”,使用这三个关键字进行检索,由于网络中“lucas”的出现频率远比“谢贤”出现的频率要高,则以单纯依靠文本匹配返回的网页大多是描述“谢霆锋的儿子”,即Iucas相关的网页,这样单纯依靠匹配得到的搜索结果对应的匹配成功率往往较低,难以满足用户需求。

【发明内容】

[0006]本申请所要解决的技术问题是提供一种搜索方法和系统,解决现有技术中对于问题的解答搜索过程中出现的搜索结果匹配成功率低,难以满足用户需求问题。
[0007]为了解决上述问题,本申请公开了一种搜索方法,包括:
[0008]当接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式;
[0009]结合所述语义表达式进行匹配分析,确定当前所述查询词串中各词所属的语义标签;
[0010]根据所述语义标签对所述查询词串进行改写;
[0011]以改写后的查询词串进行搜索,得到匹配的网络信息。
[0012]优选地,所述当接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式的步骤包括:
[0013]在知识库预置的实体词列表中查找所述查询词串对应的实体词;
[0014]在知识库预置的属性词列表中查找所述查询词串对应的属性词。
[0015]优选地,所述确定当前所述查询词串中各词所属的语义标签的步骤包括:
[0016]提取所述属性词的预置的语义标签;
[0017]对所述实体词标记一个或多个原始语义标签;
[0018]分别判断被标记原始语义标签的所述实体词,与被标记语义标签的所述属性词是否存在预定义的关联关系;若是,则确定存在所述预定义关联关系的原始语义标签为当前所述实体词所属的语义标签。
[0019]优选地,所述根据所述语义标签对所述查询词串进行改写的步骤包括:
[0020]采用所述语义标签查找预置的标识实体词;
[0021]将所述实体词替换为预置的标识实体词;
[0022]和/ 或,
[0023]将所述属性词替换为预置的标识属性词;
[0024]和/ 或,
[0025]判断所述查询词串是否符合逆向表达的句法规则;若是,则获取对应的在服务器存储的符合正向表达的句法规则对应的预置表达式;所述预置表达式具有使用频次;
[0026]当所述预置表达式的使用频次高于预设阈值时,将所述查询词串按照正向表达的句法规则进行改写。
[0027]优选地,所述标识实体词为与所述实体词具有相同的语义标签,且使用频次最多的实体词;
[0028]所述标识属性词为与所述属性词描述同一类实体词,且使用频次最多的属性词。
[0029]优选地,所述判断所述查询词串是否符合逆向表达的句法规则的步骤包括:
[0030]对所述查询词串进行句法分析,获得主语和修饰语,以及,所述主语和所述修饰语之间的依赖关系;所述依赖关系包括所述主语依赖所述修饰词的依赖关系;
[0031]当所述主语为所述实体词、所述修饰词为所述属性词,并且,所述依赖关系为所述主语依赖所述修饰词的依赖关系时,则所述查询词串符合逆向表达的句法规则。
[0032]本申请还公开了一种搜索系统,包括:
[0033]词性解析模块,用于在接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式;
[0034]语义标签确定模块,用于结合所述语义表达式进行匹配分析,确定当前所述查询词串中各词所属的语义标签;
[0035]改写模块,用于根据所述语义标签对所述查询词串进行改写;
[0036]查询模块,用于以改写后的查询词串进行搜索,得到匹配的网络信息。
[0037]优选地,所述词性解析模块包括:
[0038]实体词查找模块,用于在知识库预置的实体词列表中查找所述查询词串对应的实体词;
[0039]属性词查找模块,用于在知识库预置的属性词列表中查找所述查询词串对应的属性词。
[0040]优选地,所述语义标签确定模块包括:
[0041]提取子模块,用于提取所述属性词的预置的语义标签;
[0042]标记子模块,用于对所述实体词标记一个或多个原始语义标签;
[0043]关联关系判断模块,用于分别判被标记原始语义标签的所述实体词,与被标记语义标签的所述属性词是否存在预定义的关联关系;若是,则调用确定子模块;
[0044]确定子模块,用于确定存在所述预定义关联关系的原始语义标签为当前所述实体词所属的语义标签。
[0045]优选地,所述改写模块包括:
[0046]标识实体词查找子模块,用于采用所述语义标签查找预置的标识实体词;
[0047]标识实体词替换子模块,用于将所述实体词替换为预置的标识实体词;
[0048]和/ 或,
[0049]标识属性词替换子模块,用于将所述属性词替换为预置的标识属性词;
[0050]和/ 或,
[0051]逆向表达判断子模块,用于判断所述查询词串是否符合逆向表达句法规则;若是,则调用预置表达式获取子模块;
[0052]预置表达式获取子模块,用于获取对应的在服务器存储的符合正向表达句法规则的预置表达式;所述预置表达式具有使用频次;
[0053]正向表达改写子模块,用于在所述预置表达式的使用频次高于预设阈值时,将所述查询词串按照正向表达句法规则进行改写。
[0054]优选地,所述标识实体词为与所述实体词具有相同的语义标签,且使用频次最多的实体词;
[0055]所述标识属性词为与所述属性词描述同一类实体词,且使用频次最多的属性词。
[0056]优选地,所述逆向表达判断子模块包括:
[0057]句法分析子模块,用于对所述查询词串进行句法分析,获得主语和修饰语,以及,所述主语和所述修饰语之间的依赖关系;所述依赖关系包括所述主语依赖所述修饰词的依赖关系;
[0058]判定子模块,用于在所述主语为所述实体词、所述修饰词为所述属性词,并且,所述依赖关系为所述主语依赖所述修饰词的依赖关系时,则所述查询词串符合逆向表达的句法规则。
[0059]与现有技术相比,本申请包括以下优点:
[0060]本申请通过对查询词串进行语义分析,得到语义表达式,进而确定符合当前语境的语义表达式中各词所属的语义标签,基于该语义标签进行查询词串的改写,更为符合用户意图,使得在搜索时信息匹配的成功率高,提高了搜索的质量和搜索的效率。
[0061]本申请将实体词、属性词改写为与搜索引擎友好的标识实体词、标识属性词,将不常用的逆向表达的查询词串改写为常用的正向表达的查询词串,提高了搜索引擎搜索信息的覆盖率,进一步提高了信息匹配的成功率。
【附图说明】
[0062]图1是一种现有技术的一种搜索结果示例图;
[0063]图2是本申请的一种搜索方法实施例的步骤流程图;
[0064]图3是本申请的一种正向表达改写的示例图;
[0065]图4是本申请的一种搜索结果示例图;
[0066]图5是本申请的一种搜索系统实施例的结构框图。
【具体实施方式】
[0067]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本申请作进一步详细的说明。
[0068]知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。
[0069]本申请的核心思想之一在于,基于知识库对查询词串进行符合语法规范的改写,以获取更加全面的符合用户意图的搜索结果。
[0070]参照图2,示出了本申请的一种搜索方法实施例的步骤流程图。
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1