一种确定搜索查询词类别属性的方法和装置制造方法

文档序号:6547678阅读:157来源:国知局
一种确定搜索查询词类别属性的方法和装置制造方法
【专利摘要】本发明公开了一种确定搜索查询词类别属性的方法和装置。所述方法包括:对输入的搜索查询词进行特征提取得到对应的特征向量,根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率,分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性。本发明的技术方案,通过提取搜索查询词的特征向量,将该特征向量输入到查询词分类器得到所述搜索查询词的类别偏重概率,并通过分析类别偏重概率确定该查询词的类别属性,从而为搜索提供基础依据,保障搜索的准确性。并且能够为搜索排序等后续事件提供基础特征。
【专利说明】一种确定搜索查询词类别属性的方法和装置

【技术领域】
[0001]本发明涉及计算机网络【技术领域】,具体涉及一种确定搜索查询词类别属性的方法和装置。

【背景技术】
[0002]在一次完整的搜索中,搜索引擎接收到用户输入的搜索查询词后通常会经过预处理搜索查询词、理解搜索查询词、检索文档、排序、展现等过程,整个过程需要在毫秒级时间内完成。而搜索查询词的分类对于理解查询词这一过程是是十分重要的,它不仅能反映当前用户当前的兴趣意图,为本次检索提供依据,又能作为后续搜索引擎结果排序模型、广告CTR预估模型、自然语言模型的基础特征。
[0003]支持向量机(SVM)为机器学习领域中监督学习模型的一种,由Vapnik等人于1995年提出。最基本的SVM模型为“二元分类”模型,其学习方式为最大化间隔策略。对于简单的线性可分数据,通过“硬间隔最大化”函数学习出硬间隔支持向量机;对于近似线性可分的数据,通过“软间隔最大化”学习出软间隔支持向量机;对于完全线性不可分的数据,通过将数据映射到更高维空间,在高维空间学习出软间隔支持向量机,在这一过程中采用“核方法”可以隐式地将输入空间的内积映射到高维空间后再做内积,相当于在高维空间学习软间隔支持向量机。
[0004]Liblinear是由台湾大学林智仁教授及其研究团队开发的线性SVM软件包,主要实现了线性多元分类与线性回归。Liblinear考虑到大规模机器学习应用,它并没有引入“核方法”,而是假设数据线性或近似线性可分,直接训练线性分类器。经过多年发展,Iiblinear在工业界被广泛的应用于大规模分类与回归问题的解决,其不仅在训练与预测的性能上远远优于SVM,其准确率也达到令人满意的效果。从概率的角度,业界实际的文本处理项目中,通常采用布尔向量模型,特征数量往往少则几十万多则上亿,而获取到的训练数据仅仅覆盖特征空间中的一小部分数据,因此其线性不可分概率便较小了。
[0005]可见现有的搜索查询词分类器的准确率仍有待提高。


【发明内容】

[0006]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种搜索查询词分类方法和装置。
[0007]依据本发明的一个方面,提供了一种确定搜索查询词类别属性的方法,其中,该方法包括:
[0008]对输入的搜索查询词进行特征提取得到对应的特征向量;
[0009]根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率;
[0010]分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性。
[0011]可选地,该方法还包括获得所述查询词分类器的分类模型的如下步骤:
[0012]获取标注类别的标注数据;
[0013]从每个类别的标注数据中抽样多于第一预设值,少于第二预设值数量的数据,得到该类别的抽样数据;
[0014]对各类别的抽样数据进行训练得到分类模型。
[0015]可选地,所述对各类别的抽样数据进行训练得到分类模型包括:
[0016]在训练的过程中,对不同类别设置不同的惩罚因子;其中,对抽样后数据条数较少的类别设置较大的惩罚因子。
[0017]可选地,所述分类模型为m*n的矩阵,m为分类个数,η为特征个数,矩阵的每个元素a(i,j)表示第j个特征在第i个分类的分类权值;
[0018]所述对各类别的抽样数据进行训练得到分类模型还包括:
[0019]通过减少分类模型中的分类权值的精度,来降低分类模型所占用的存储空间;和/或,使用11正则化训练模型,以降低分类模型所占用的存储空间。
[0020]可选地,所述获取标注类别的标注数据包括:
[0021]获取人工标注的标注数据;
[0022]和/ 或,
[0023]预先对网址链接进行分类标注;根据用户搜索指定搜索查询词后点击的网址链接,建立所述指定搜索查询词与所点击网址链接的分类之间的对应关系,得到标注数据。
[0024]可选地,所述对各类别的抽样数据进行训练得到分类模型包括:采用Liblinear对各类别的抽样数据进行训练得到分类模型;
[0025]所述对输入的搜索查询词进行特征提取得到对应的特征向量包括:对输入的搜索查询词进行分词,利用分词后的结果构造Iibsvm格式的特征向量。
[0026]可选地,在所述对输入的搜索查询词进行特征提取之前该方法还包括:对输入的搜索查询词进行预处理;
[0027]所述预处理包括以下处理中的一种或多种:长词过滤、删除特殊字符和删除停用
ο
[0028]可选地,该方法还包括:预设缓存,在所述缓存中保存一定数量的搜索查询词和对应的类别偏重概率;
[0029]在所述对输入的搜索查询词进行特征提取之前,该方法还包括:根据输入的搜索查询词查询缓存;如果命中缓存,则直接输出所述输入的搜索查询词的类别偏重概率;如果没有命中缓存,则执行所述对输入的搜索查询词进行特征提取的步骤以及后续步骤。
[0030]可选地,所述预设缓存,在所述缓存中保存一定数量的搜索查询词和对应的类别偏重概率包括:
[0031]从已确定类别偏重概率的搜索查询词中找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到所述缓存中;
[0032]或者,
[0033]针对不同的内容分发网络CDN分别预设缓存;对于每个CDN的缓存,从访问该CDN的已确定类别偏重概率的搜索查询词中,找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到该CDN的缓存中。
[0034]可选地,该方法进一步包括:
[0035]根据确定的所述搜索查询词的类别属性对搜索结果进行排序。
[0036]依据本发明的另一个方面,提供了一种确定搜索查询词类别属性的装置,该装置包括:
[0037]特征提取单元,适于对输入的搜索查询词进行特征提取得到对应的特征向量;
[0038]分类器,适于根据所述特征向量得到所述搜索查询词的类别偏重概率并发送给输出单元;
[0039]输出单元,适于分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性并输出。
[0040]可选地,该装置还包括:
[0041]标注数据获取单元,适于获取标注类别的标注数据;
[0042]抽样单元,适于从每个类别的标注数据中抽样多于第一预设值,少于第二预设值数量的数据,得到该类别的抽样数据;
[0043]训练单元,适于对各类别的抽样数据进行训练得到所述分类器的分类模型。
[0044]可选地,所述训练单元,适于在训练的过程中,对不同类别设置不同的惩罚因子;其中,对抽样后数据条数较少的类别设置较大的惩罚因子。
[0045]可选地,所述训练单元得到的所述分类模型为m*n的矩阵,m为分类个数,η为特征个数,矩阵的每个元素a(i,j)表示第j个特征在第i个分类的分类权值;
[0046]所述训练单元,进一步适于通过减少分类模型中的分类权值的精度,来降低分类模型所占用的存储空间;和/或,进一步适于使用11正则化训练模型,以降低分类模型所占用的存储空间。
[0047]可选地,所述标注数据获取单元,适于获取人工标注的标注数据;和/或,适于预先对网址链接进行分类标注,根据用户搜索指定搜索查询词后点击的网址链接,建立所述指定搜索查询词与所点击网址链接的分类之间的对应关系,得到标注数据。
[0048]可选地,所述训练单元,适于采用Liblinear对各类别的抽样数据进行训练得到分类模型;
[0049]所述特征提取单元,适于对输入的搜索查询词进行分词,利用分词后的结果构造Iibsvm格式的特征向量。
[0050]可选地,该装置还包括:预处理单元,适于对输入的搜索查询词进行预处理;
[0051]所述预处理包括以下处理中的一种或多种:长词过滤、删除特殊字符和删除挺用
ο
[0052]可选地,该装置还包括:
[0053]缓存单元,适于保存一定数量的搜索查询词和对应的类别偏重概率;
[0054]缓存查询单元,适于根据输入的搜索查询词查询缓存单元;如果命中缓存,则直接将所述输入的搜索查询词的类别偏重概率发送给所述输出单元;如果没有命中缓存,则将所述输入的搜索查询词发送给所述特征提取单元。
[0055]可选地,该装置还包括:缓存数据设置单元;
[0056]所述缓存数据设置单元,适于从已确定类别偏重概率的搜索查询词中找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到所述缓存单元中;
[0057]或者,
[0058]针对不同的内容分发网络⑶N分别设置缓存单元;
[0059]所述缓存数据设置单元,适于对每个⑶N的缓存单元,从访问该⑶N的已确定类别偏重概率的搜索查询词中,找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到该CDN的缓存单元中。
[0060]可选地,该装置进一步包括:
[0061]排序单元,适于根据确定的所述搜索查询词的类别属性对搜索结果进行排序。
[0062]本发明这种对输入的搜索查询词进行特征提取得到对应的特征向量,根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率,分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性的技术方案,通过提取搜索查询词的特征向量,将该特征向量输入到查询词分类器得到所述搜索查询词的类别偏重概率,并通过分析类别偏重概率确定该查询词的类别属性,从而为搜索提供基础依据,保障搜索的准确性。并且能够为搜索排序等后续事件提供基础特征。
[0063]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。

【专利附图】

【附图说明】
[0064]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0065]图1示出了根据本发明一个实施例的一种确定搜索查询词类别属性的方法的流程图;
[0066]图2示出了根据本发明一个实施例的确定分类器的分类模型以及利用分类器确定搜索查询词的类别属性的方法的流程图;
[0067]图3示出了根据本发明一个实施例的一种确定搜索查询词类别属性的装置的结构图;
[0068]图4示出了根据本发明又一个实施例的一种确定搜索查询词类别属性的装置的结构图。

【具体实施方式】
[0069]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0070]图1示出了根据本发明一个实施例的一种确定搜索查询词类别属性的方法的流程图。如图1所示,该方法包括:
[0071]步骤S110,对输入的搜索查询词进行特征提取得到对应的特征向量。
[0072]步骤S120,根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率。
[0073]步骤S130,分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性。
[0074]图1所示的技术方案,通过提取搜索查询词的特征向量,将该特征向量输入到查询词分类器得到所述搜索查询词的类别偏重概率,并通过分析类别偏重概率确定该查询词的类别属性,从而为搜索提供基础依据,保障搜索的准确性。并且能够为搜索排序等后续事件提供基础特征。即根据步骤S130中确定的所述搜索查询词的类别属性对搜索结果进行排序。
[0075]在本发明的一个实施例中,对查询词分类器的分类模型的获取过程进行了改进,以克服单纯的人工标注数据不能满足需求,以及由于训练的数据不均衡导致的分类模型倾斜等问题。在本发明的一个实施例中,在对输入的搜索查询词进行特征提取之前还进行预处理以及缓存查询等操作,以提高效率。为说明上述技术方案,下面以图2所示的流程为例进行说明。
[0076]图2示出了根据本发明一个实施例的确定分类器的分类模型以及利用分类器确定搜索查询词的类别属性的方法的流程图。如图2所示,该方法包括确定分类器的分类模型的步骤S220?步骤S224,即线下的训练学习过程;以及利用分类器确定搜索查询词的类别属性的步骤S230?步骤S238,即线上的预测过程。
[0077]步骤S220,获取标注类别的标注数据。
[0078]本步骤中,可以获取人工标注的标注数据。也可以预先对网址链接进行分类标注;根据用户搜索指定搜索查询词后点击的网址链接,建立所述指定搜索查询词与所点击网址链接的分类之间的对应关系,得到标注数据。或者也可以结合上述两种方式获取标注数据。
[0079]SVM的学习属于监督学习,其训练过程依赖于大量标注数据。单纯人工标注数据已经不能满足要达到一定准确度的分类器对于大规模标注数据量的需求,因此本实施例中提供了一种半自动化训练数据标注方法,采用一种使用搜索引擎点击反馈间接标注训练数据的方法。具体地,首先收集大量人工标注host,可以采用ODP的开放数据或手动标注host,标注过程即建立host到类别的对应关系,然后用户搜索某词语后点击了某些host,根据第一步建立的host到类别的对应关系,我们便通过host间接地建立了搜索词到类别的对应关系。这里,host是指网站的主机,和网站的网址链接是一一对应的,因此其实是对网址链接的标注。
[0080]步骤S222,从每个类别的标注数据中抽样一定数量的数据,得到该类别的抽样数据。
[0081]经由上述的半自动化方法得到的标注数据存在显著的数据不均衡问题。人工标注也可能存在数据不均衡的问题。用于分类模型的训练数据不均衡意味着分类面将会偏向于数据少的类别一侧,使得分类模型倾向于将输入实例类别判定为数据较多的一类,导致分类错误,而这种情况在多元分类中更加复杂。为在多元分类模型中减少甚至避免数据不均衡问题,本实施例中主要采用随机抽样和类别惩罚权值的调节的方法。
[0082]随机抽样为:从每个类别的标注数据中抽样多于第一预设值,少于第二预设值数量的数据,得到该类别的抽样数据。即从原有训练数据中每个类别以等概率抽样最少m条数据,最多η条数据,这样可以从一定程度上减少数据的极不均衡问题。
[0083]类别惩罚:在训练的过程中,对不同类别设置不同的惩罚因子;其中,对抽样后数据条数较少的类别设置较大的惩罚因子。即针对抽样后的数据,在训练过程中,通过施加不同类别的惩罚因子权重,对抽样后数据条数较少的类别设置较大的惩罚因子,可以避免分类面偏向少数据的类别。
[0084]步骤S224,对各类别的抽样数据进行训练得到分类模型。
[0085]训练过程的特征数据提取和生成与预测的过程一致,包括分词、生成特征向量、生成Iibsvm格式数据。
[0086]训练。利用Iiblinear可以实现多元分类模型的训练,即采用Liblinear对各类别的抽样数据进行训练得到分类模型。
[0087]在原有Iiblinear实现中,利用OpenMP将训练过程改写为多分类并行训练,可以大大提高训练效率。多元分类的分类模型为一矩阵M,M为m*n矩阵,m为分类个数,η为特征个数,矩阵的每个元素a(i,j)表示第j个特征在第i个分类的分类权值,该权值为浮点型。
[0088]由于特征数少则几十万多则上百万,而实际的分类个数也有约600个,那么所得分类模型矩阵至少包含上亿个元素,原有Iiblinear训练输出的分类模型占用近4G磁盘空间。因此为提高在离线/在线预测时分类模型加载效率,在本发明的一个实施例中通过两种方法降低分类模型大小:
[0089]第一,通过减少分类模型中的分类权值的精度,来降低分类模型所占用的存储空间。例如,通过将权值的小数部分截取到6位,降低了一半的磁盘存储。
[0090]第二,使用11正则化训练模型。11正则具有特征选择的效果,所得分类模型有大量的特征权值为0,同样可以降低磁盘存储。
[0091]步骤S226,将分类模型输出到分类器。
[0092]通过上述过程得到了分类器的分类模型。下面是一次的在线预测过程。
[0093]步骤S230,接收输入的搜索查询词。
[0094]步骤S232,对输入的搜索查询词进行预处理。
[0095]由于搜索引擎搜索框中的输入词语各式各样,杂乱的信息势必干扰分类效果,因此需要对搜索词进行预处理。该过程实际为清洗词语的过程,包括以下处理中的一种或多种:长词过滤、删除特殊字符和删除停用词。
[0096]步骤S234,根据搜索查询词查询缓存,如果命中缓存,则直接输出所述搜索查询词的类别偏重概率;如果没有命中缓存,则执行步骤S236。
[0097]这里,需要预设缓存,在预设的缓存中保存一定数量的搜索查询词和对应的类别偏重概率。每隔一段时间对缓存中的数据进行更新。
[0098]在预设的缓存中保存一定数量的搜索查询词和对应的类别偏重概率可以为:
[0099]从已确定类别偏重概率的搜索查询词中找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到所述缓存中;
[0100]或者,
[0101]针对不同的内容分发网络CDN分别预设缓存;对于每个CDN的缓存,从访问该CDN的已确定类别偏重概率的搜索查询词中,找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到该CDN的缓存中。这种方式考虑了查询词访问的地域性差异,以提高缓存命中率。
[0102]步骤S236,对搜索查询词进行特征提取得到对应的特征向量。
[0103]本步骤具体包括:对输入的搜索查询词进行分词,利用分词后的结果构造Iibsvm格式的特征向量。
[0104]这是因为分类器的输入数据为词语的特征数据,该步骤通过将搜索查询词转换为符合分类器输入格式的特征向量,主要包括分词和构造特征向量。利用分词后的结构构造Iibsvm格式的特征向量,该格式的向量为分类器的输入。Iibsvm特征向量格式采用稀疏表示的向量空间模型,其经过转换后的单查询词的特征空间维度为60万至100万维。
[0105]步骤S238,将所述特征向量输入到分类器,分类器基于分类模型进行预测,得到所述搜索查询词的类别偏重概率后输出。
[0106]在本发明的实施例中,搜索查询词经过转换后生成Iibsvm格式的数据,假设特征向量为列向量X,分类模型矩阵为M,则对该词预测为第i类的概率为p_i =X’*M_i。其预测输出为该词被判别为每个类别下的概率值。除此之外,还可以包括其它一些数值信息,比如被预测为不同类别的概率的方差等。实践证明,这些输出在后期有关置信度的计算和按条件过滤的计算中非常有用。
[0107]汉语的一次多义现象很普遍,分类模型中也保留了这一特性,即同一查询词会有多个类别输出,而输出的标准则根据模型预测的该词在不同类别下的概率、方差等数值特征计算。比如通过模型预测,“三国演义”属于书籍、电视剧、工商业的概率分别为0.9,0.8、
0.2。那么可以观察到,该词属于书籍、电视剧的概率要显著高于工商业的概率,因此我们认为该词可以属于书籍、电视剧。以上的识别方法可以通过依次计算排序后前η个概率的样本均值实现。这便是通过分类器在不同类别下的概率直接的关系得出。
[0108]本发明的上述技术方案可以实时分析用户查询词所属的类别,训练数据量大且有较高的准确度,最终训练的模型分类精度较高。类别涵盖面较广,能满足大部分查询词分类业务和机器学习模型的需求,属于互联网基础组件。
[0109]图3示出了根据本发明一个实施例的一种确定搜索查询词类别属性的装置的结构图。如图3所示,该确定搜索查询词类别属性的装置300包括:
[0110]特征提取单元301,适于对输入的搜索查询词进行特征提取得到对应的特征向量。
[0111]分类器302,适于根据所述特征向量得到所述搜索查询词的类别偏重概率并发送给输出单元。
[0112]输出单元303,适于分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性并输出。
[0113]图4示出了根据本发明又一个实施例的一种确定搜索查询词类别属性的装置的结构图。如图4所示,该确定搜索查询词类别属性的装置400包括:
[0114]特征提取单元401,适于对输入的搜索查询词进行特征提取得到对应的特征向量。
[0115]分类器402,适于根据所述特征向量得到所述搜索查询词的类别偏重概率并发送给输出单元。
[0116]输出单元403,适于分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性并输出。
[0117]在本发明的一个实施例中,图4所示的确定搜索查询词类别属性的装置400还包括:
[0118]标注数据获取单元404,适于获取标注类别的标注数据;
[0119]抽样单元405,适于从每个类别的标注数据中抽样多于第一预设值,少于第二预设值数量的数据,得到该类别的抽样数据;
[0120]训练单元406,适于对各类别的抽样数据进行训练得到所述分类器的分类模型。
[0121]在本发明的一个实施例中,所述训练单元406,适于在训练的过程中,对不同类别设置不同的惩罚因子;其中,对抽样后数据条数较少的类别设置较大的惩罚因子。
[0122]在本发明的一个实施例中,所述训练单元406得到的所述分类模型为m*n的矩阵,m为分类个数,η为特征个数,矩阵的每个元素a (i,j)表示第j个特征在第i个分类的分类权值;
[0123]所述训练单元406,进一步适于通过减少分类模型中的分类权值的精度,来降低分类模型所占用的存储空间;和/或,进一步适于使用11正则化训练模型,以降低分类模型所占用的存储空间。
[0124]在本发明的一个实施例中,所述标注数据获取单元404,适于获取人工标注的标注数据;和/或,适于预先对网址链接进行分类标注,根据用户搜索指定搜索查询词后点击的网址链接,建立所述指定搜索查询词与所点击网址链接的分类之间的对应关系,得到标注数据。
[0125]在本发明的一个实施例中,所述训练单元406,适于采用Liblinear对各类别的抽样数据进行训练得到分类模型;
[0126]所述特征提取单元401,适于对输入的搜索查询词进行分词,利用分词后的结果构造Iibsvm格式的特征向量。
[0127]在本发明的一个实施例中,图4所示的确定搜索查询词类别属性的装置400还包括:预处理单元407,适于对输入的搜索查询词进行预处理;所述预处理包括以下处理中的一种或多种:长词过滤、删除特殊字符和删除挺用词。
[0128]在本发明的一个实施例中,图4所示的确定搜索查询词类别属性的装置400还包括:
[0129]缓存单元408,适于保存一定数量的搜索查询词和对应的类别偏重概率;
[0130]缓存查询单元409,适于根据输入的搜索查询词查询缓存单元408 ;如果命中缓存,则直接将所述输入的搜索查询词的类别偏重概率发送给所述输出单元403 ;如果没有命中缓存,则将所述输入的搜索查询词发送给所述特征提取单元401。
[0131]在本发明的一个实施例中,图4所示的确定搜索查询词类别属性的装置400还包括:缓存数据设置单元410;
[0132]所述缓存数据设置单元410,适于从已确定类别偏重概率的搜索查询词中找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到所述缓存单元中;
[0133]或者,
[0134]针对不同的内容分发网络⑶N分别设置缓存单元;
[0135]所述缓存数据设置单元410,适于对每个⑶N的缓存单元,从访问该⑶N的已确定类别偏重概率的搜索查询词中,找出被查询次数最多的前预定个数的搜索查询词,将该预定个数的搜索查询词和相应的类别偏重概率对应保存到该CDN的缓存单元中。
[0136]在本发明的一个实施例中,图4所示的确定搜索查询词类别属性的装置400还包括:排序单元411,适于根据确定的所述搜索查询词的类别属性对搜索结果进行排序。
[0137]综上所述,本发明这种对输入的搜索查询词进行特征提取得到对应的特征向量,根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率,分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性的技术方案,通过提取搜索查询词的特征向量,将该特征向量输入到查询词分类器得到所述搜索查询词的类别偏重概率,并通过分析类别偏重概率确定该查询词的类别属性,从而为搜索提供基础依据,保障搜索的准确性。并且能够为搜索排序等后续事件提供基础特征。
[0138]需要说明的是:
[0139]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0140]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0141]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0142]本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0143]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0144]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定搜索查询词类别属性的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0145] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
【权利要求】
1.一种确定搜索查询词类别属性的方法,其中,该方法包括: 对输入的搜索查询词进行特征提取得到对应的特征向量; 根据所述特征向量经由查询词分类器得到所述搜索查询词的类别偏重概率; 分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性。
2.如权利要求1所述的方法,其中,该方法还包括获得所述查询词分类器的分类模型的如下步骤: 获取标注类别的标注数据; 从每个类别的标注数据中抽样多 于第一预设值,少于第二预设值数量的数据,得到该类别的抽样数据; 对各类别的抽样数据进行训练得到分类模型。
3.如权利要求1-2任一项所述的方法,其中,所述对各类别的抽样数据进行训练得到分类模型包括: 在训练的过程中,对不同类别设置不同的惩罚因子;其中,对抽样后数据条数较少的类别设置较大的惩罚因子。
4.如权利要求1-3任一项所述的方法,其中,所述分类模型为m*n的矩阵,m为分类个数,η为特征个数,矩阵的每个元素a(i,j)表示第j个特征在第i个分类的分类权值; 所述对各类别的抽样数据进行训练得到分类模型还包括: 通过减少分类模型中的分类权值的精度,来降低分类模型所占用的存储空间;和/或,使用11正则化训练模型,以降低分类模型所占用的存储空间。
5.如权利要求1-4任一项所述的方法,其中,所述获取标注类别的标注数据包括: 获取人工标注的标注数据; 和/或, 预先对网址链接进行分类标注;根据用户搜索指定搜索查询词后点击的网址链接,建立所述指定搜索查询词与所点击网址链接的分类之间的对应关系,得到标注数据。
6.如权利要求1-5中任一项所述的方法,其中, 所述对各类别的抽样数据进行训练得到分类模型包括:采用Liblinear对各类别的抽样数据进行训练得到分类模型; 所述对输入的搜索查询词进行特征提取得到对应的特征向量包括:对输入的搜索查询词进行分词,利用分词后的结果构造Iibsvm格式的特征向量。
7.如权利要求1-6任一项所述的方法,其中,在所述对输入的搜索查询词进行特征提取之前该方法还包括:对输入的搜索查询词进行预处理; 所述预处理包括以下处理中的一种或多种:长词过滤、删除特殊字符和删除停用词。
8.如权利要求1-7任一项所述的方法,其中,该方法还包括:预设缓存,在所述缓存中保存一定数量的搜索查询词和对应的类别偏重概率; 在所述对输入的搜索查询词进行特征提取之前,该方法还包括:根据输入的搜索查询词查询缓存;如果命中缓存,则直接输出所述输入的搜索查询词的类别偏重概率;如果没有命中缓存,则执行所述对输入的搜索查询词进行特征提取的步骤以及后续步骤。
9.一种确定搜索查询词类别属性的装置,其中,该装置包括: 特征提取单元,适于对输入的搜索查询词进行特征提取得到对应的特征向量;分类器,适于根据所述特征向量得到所述搜索查询词的类别偏重概率并发送给输出单元; 输出单元,适于分析所述搜索查询词的类别偏重概率,确定所述搜索查询词的类别属性并输出。
10.如权利要求9所述的装置,其中,该装置进一步包括: 标注数据获取单元,适于获取标注类别的标注数据; 抽样单元,适于从每个类别的标注数据中抽样多于第一预设值,少于第二预设值数量的数据,得到该类别的抽样数据; 训练单 元,适于对各类别的抽样数据进行训练得到所述分类器的分类模型。
【文档编号】G06F17/30GK104050240SQ201410225991
【公开日】2014年9月17日 申请日期:2014年5月26日 优先权日:2014年5月26日
【发明者】刘鎏, 苏晓东, 常富洋, 王安滨, 秦吉胜 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1