一种用户检索语句的处理方法及系统的制作方法

文档序号:6588260阅读:187来源:国知局
专利名称:一种用户检索语句的处理方法及系统的制作方法
技术领域
本发明涉及信息检索领域,特别地涉及一种用户检索语句的处理方法及系统。
背景技术
检索语句分析是搜索引擎的基础。搜索引擎根据用户的检索语句进行搜索,但经常会出现返回的搜索结果相关性比较差,只命中了用户检索语句中的部分词汇。主要原因是对用户检索语句中的词汇没有合理的赋权,使得检索中没有提出核心的、相对重要的词汇。在广告检索中,同样会根据用户的检索语句,在某个位置给出相关的广告推荐信息。但是经常会发现这么一种情况,检索系统打出的广告与用户输入的信息相关性很差,甚至风马牛不相及,广告词仅仅命中了用户检索语句中的部分词汇,还不是很重要的词汇,这同样是因为对用户检索的语句中的词汇赋权不恰当导致的。通过检索语句分析可以充分挖掘用户检索的信息,进而对检索的词汇进行赋权。每个检索的词汇都有相应的权重,权重越高,表示该词汇相对更重要,在检索中发挥的作用也就越大。截止目前为止,有关用户检索词汇赋权方面的专利较少,基本是基于词典查询的一种静态权重赋权方法。例如,中国专利CN102103604A (检索词核心权重确定方法和装置)公开了一种基于线下核心计算生成的词典查找检索词权重的方法。该检索词核心词权重确定方法包括:在线下核心计算生成的第一词典文件中查找检索词;如果在第一词典文件中查找到所述检索词,则输出第一词典文件对应的检索词权重;如果在第一词典文件中未查找到检索词,则对检索词进行处理,并在第一词典文件中查找处理后的检索词,如果查找到处理后的检索词,则输出第一词典文件对应的处理后的检索词的权重;如果在第一词典文件中未查找到处理后的检索词,则对处理后的检索词进行切词计算,获得处理后的检索词的权重。该方法的优点是简单易实现,但不足是这样得到的权重大多是一种静态权重,主要是查询事先线下统计的词典信息。同一个词汇得到的权重也大多是相同的,但在实际检索环境下,用户的需求不同,表述不同,导致相同的词汇在不同的检索语句中可能代表的意义不同,重要程度不同,故而权重理应不同。基于线下词典查询检索词权重的方法,主要是线下对用户检索行为统计,生成每个检索词的一种权重,如词汇的逆向文档频率idf值。在用户输入检索语句后,通过分词得到的一系列词汇,再查找词典,找到对应的权重,查不到则赋予一个默认值。此方法将导致不同的检索语句中的同一个词的权重必定相同,没有考虑每个用户输入检索语句的特殊性和独立性。事实上,同一个词汇,可能会因为在不同的检索语句中,其重要性,起的作用是不尽相同的,权重当然也不会相同
发明内容
本发明解决的技术问题在于提供了一种用户检索语句的处理方法及系统,以解决目前无法对用户检索词汇动态赋权的问题。为解决上述问题,本发明实施例提供了一种用户检索语句的处理方法,包括,建立与用户检索词汇相关的样本库,以及建立与所述用户检索词汇相关的资源库;对所述用户检索词汇进行特征提取;利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权;将基本赋权后的词汇进行实体调权;输出用户检索词汇的权重。上述的方法,其中,在建立与用户检索词汇相关的样本库之前,还包括,对用户检索语句进行分词处理,得到一系列的用户检索词汇。上述的方法,其中,所述建立与用户检索词汇相关的样本库包括,从检索日志中选取一定数量的用户检索语句,进行分词处理,得到一系列的用户检索词汇,人工标注所述一系列的用户检索词汇是核心词或非核心词,得到的样本标注集即为样本库。上述的方法,其中,所述资源库包括,词汇的逆向文档频率idf词表、百科词表、检索单词汇表、实体资源词典。上述的方法,其中,所述对所述用户检索词汇进行特征提取包括,利用资源库的词汇的逆向文档频率idf词表、百科词表、检索单词汇表,提取用户检索词汇的特征,包括词汇的词性,前一个词汇的词性,词汇在用户检索语句中的位置,词汇的逆向文档频率idf值,词汇是否是百科词条,词汇是否是单检索词。上述的方法,其中,所述利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权包括,对样本库中的用户检索词汇进行特征提取,结合样本库中的用户检索词汇的人工标注,对分类器进行训练;将用户检索词汇的特征向量送入分类器,利用分类器对所述用户检索词汇进行分类,并得到所述用户检索词汇为核心词的概率P,将P作为所述用户检索词汇的基本权重;其中所述用户检索词汇的特征向量是由所述用户检索词汇的特征组成的一个特征向量。上述的方法,其中,所述对基本赋权后的用户检索词汇进行实体调权包括,根据实体资源词典,利用实体提取方法得到所述检索语句中的一系列实体词entityList ;若某个词汇(term)是实体且基本赋权小于0.2,则调整为0.2:
权利要求
1.一种用户检索语句的处理方法,其特征在于,包括, 建立与用户检索词汇相关的样本库,以及建立与所述用户检索词汇相关的资源库; 对所述用户检索词汇进行特征提取; 利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权; 对基本赋权后的用户检索词汇进行实体调权; 输出用户检索词汇的权重。
2.根据权利要求1所述的方法,其特征在于,在建立与用户检索词汇相关的样本库之前,还包括, 对用户检索语句进行分词处理,得到一系列的用户检索词汇。
3.根据权利要求2所述的方法,其特征在于,所述建立与用户检索词汇相关的样本库包括, 从检索日志中选取一定数量的用户检索语句,进行分词处理,得到一系列的用户检索词汇,人工标注所述一系列的用户检索词汇是核心词或非核心词,得到的样本标注集即为样本库。
4.根据权利要求3所述的方法,其特征在于,所述资源库包括,词汇的逆向文档频率idf词表、百科词表、检索单词汇表、实体资源词典。
5.根据权利要求4所述的方法,其特征在于,所述对所述用户检索词汇进行特征提取包括, 利用资源库的词汇的逆向文档频率idf词表、百科词表、检索单词汇表,提取用户检索词汇的特征,包括词汇的词性,前一`个词汇的词性,词汇在用户检索语句中的位置,词汇的逆向文档频率idf值,词汇是否是百科词条,词汇是否是单检索词。
6.根据权利要求5所述的方法,其特征在于,所述利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权包括, 对样本库中的用户检索词汇进行特征提取,结合样本库中的用户检索词汇的人工标注,对分类器进行训练; 将用户检索词汇的特征向量送入分类器,利用分类器对所述用户检索词汇进行分类,并得到所述用户检索词汇为核心词的概率P,将P作为所述用户检索词汇的基本权重;其中所述用户检索词汇的特征向量是由所述用户检索词汇的特征组成的一个特征向量。
7.根据权利要求6所述的方法,其特征在于,所述对基本赋权后的用户检索词汇进行实体调权包括, 根据实体资源词典,利用实体提取方法得到所述检索语句中的一系列实体词entityList ;若某个词汇(term)是实体且基本赋权小于0.2,则调整为0.2: θ.2weight[i]< 0.2 & ferm[i] e emitvList weishtU] = <J = h2...n [weight[i] other 其中term[i]表示第i个term,weight [i]为对应的权重,entityList为提取的实体集。
8.根据权利要求7所述的方法,其特征在于,所述根据实体资源词典,利用实体提取方法得到所述检索语句中的一系列实体词entityList包括, 考虑用户检索分类相关,在实体的类别与分类信息有关联时则进行实体词提取;或者, 利用语句规则进行实体词提取。
9.根据权利要求1至8任一所述的方法,其特征在于,在输出用户检索词汇的权重之前还包括, 对所述用户检索词汇进行从属关系调权。
10.一种用户检索语句的处理系统,其特征在于,包括, 样本库建立模块,用于建立与用户检索词汇相关的样本库; 资源库建立模块,用于建立与所述用户检索词汇相关的资源库; 特征提取模块,用于对所述用户检索词汇进行特征提取; 分类模块,用于利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权; 实体调权模块,用于对基本赋权后的用户检索词汇进行实体调权; 输出模块,用于输出用户检索词汇的权重。
11.根据权利要求10所述的系统,其特征在于,所述样本库建立模块,用于建立与用户检索词汇相关的样本库包括, 用于从检索日志中选取一定数量的用户检索语句,进行分词处理,得到一系列的用户检索词汇,人工标注所述一系列的用户检索词汇是核心词或非核心词,得到的样本标注集即为样本库。
12.根据权利要求11所述的系统,其特征在于,所述特征提取模块,用于对所述用户检索词汇进行特征提取包括, 用于利用资源库的词汇的逆向文档频率idf词表、百科词表、检索单词汇表,提取用户检索词汇的特征,包括词汇的词性,前一个词汇的词性,词汇在用户检索语句中的位置,词汇的逆向文档频率idf值,词汇是否是百科词条,词汇是否是单检索词。
13.根据权利要求12所述的系统,其特征在于,所述分类模块,用于利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权包括, 用于对样本库中的用户检索词汇进行特征提取,结合所述样本库中的用户检索词汇的人工标注,对分类器进行训练;以及, 将用户检索词汇的特征向量送入分类器,利用分类器对所述用户检索词汇进行分类,并得到所述用户检索词汇为核心词的概率P,将P作为所述用户检索词汇的基本权重;其中所述用户检索词汇的特征向量是由所述用户检索词汇的特征组成的一个特征向量。
14.根据权利要求13所述的系统,其特征在于,还包括, 分词模块,用于对用户检索语句进行分词处理, 得到一系列的用户检索词汇; 从属关系调权模块,用于对所述用户检索词汇进行从属关系调权。
全文摘要
本发明涉及信息检索领域,提供了一种用户检索语句的处理方法,包括,建立与用户检索词汇相关的样本库,以及建立与所述用户检索词汇相关的资源库;对所述用户检索词汇进行特征提取;利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权;对基本赋权后的用户检索词汇进行实体调权;输出用户检索词汇的权重。本发明还提供了一种用户检索语句的处理系统。采用本发明的技术方案,保障实体提取的准确率,获取动态权重,避免了仅仅依靠查询线下统计的词汇的权重而导致权重固定和不合理问题。最终又借助从属关系识别进一步优化用户检索词汇的权重,突出用户检索的核心词汇的权重,为搜索引擎提供更实际、更合理的信息支持。
文档编号G06F17/30GK103106287SQ20131007121
公开日2013年5月15日 申请日期2013年3月6日 优先权日2013年3月6日
发明者车天文, 雷大伟, 石志伟, 周步恋, 杨振东, 王更生, 王喜民, 何宏靖, 徐忆苏 申请人:深圳市宜搜科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1