一种识别搜索对应的需求分类的方法和系统的制作方法

文档序号:6619863阅读:207来源:国知局
一种识别搜索对应的需求分类的方法和系统的制作方法
【专利摘要】本发明提供了一种识别搜索对应的需求分类的方法和系统。所述方法包括如下步骤:a)对输入的搜索词进行分词操作,得到至少一个关键词;b)提取所述关键词在神经网络语言模型中的模型向量;c)根据所述模型向量计算所述搜索词在多个需求分类下的相关性分数,并生成待识别向量;d)利用分类器对待识别向量进行判断,得到所述搜索词对应的需求分类。根据本发明的搜索识别方法和系统,可以识别用户输入的搜索关键词从而为用户匹配特定的需求分类信息类目,以便在该需求类目下进行针对性的分类信息查找,系统能够准确高效地对搜索需求进行识别。
【专利说明】一种识别搜索对应的需求分类的方法和系统

【技术领域】
[0001]本发明涉及分类信息网站的搜索技术,特别是一种识别分类信息搜索对应的需求分类的方法和系统。

【背景技术】
[0002]搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接清单等。随着互联网在全球范围内的迅速发展与成熟,网络上的信息资源不断丰富,信息数据量也在飞速膨胀,通过搜索引擎获取信息已经成为现代人获取信息的主要方式。
[0003]在线分类信息网站是基于WEB2.0技术的互联网应用模式,它很好地弥补了传统分类广告的不足。分类信息不仅信息量大,而且信息随时在线,永不丢失。更重要的利用分类搜索,可以保证用户在任何时间、任何地点,都能实现方便快捷的查询。在分类信息网站中,由于需求的导向,分类信息大多集中在房屋租赁、二手转让、求职招聘等直接关系到使用者切身短期利益的领域。当人们满足这类需求时,通常要通过比较多个信息,然后在这些海量信息中筛选出一个能最大程度满足自身需求的信息,再做出购买决策。因此,专门针对于分类信息网站的搜索技术成为影响分类信息网站用户使用体验的关键。
[0004]随着分类信息网站搜索引擎技术的发展,用户已经不仅仅满足于从搜索引擎中获取与搜索关键词匹配的内容,而是希望能够获得与自己搜索目的相关的结果。为了向使用者提供与搜索目的相关的搜索结果,就必须先对用户的搜索需求进行识别,才能够根据识别出的需求返回相应资料资源的搜索结果,或者根据识别出的需求对搜索结果进行相应形式的展现。因此对用户的搜索需求进行识别是提高搜索准确性和有效性的重要一环。
[0005]现有的分类信息搜索需求识别通常简单的采用匹配预置的大量关键词的方式,或以融合搜索引擎的搜索结果确定所述待识别query的需求类型或类目(分层类目)。采用匹配方法结合词典和范本,需要大量词及人力成本。而采用融合搜索引擎的搜索结果以增加搜索词的特征,会因搜索的排序结果,直接影响效果。
[0006]因此,需要一种识别搜索需求的方法和系统,以准确高效地对搜索需求进行识别。


【发明内容】

[0007]本发明的目的是提供一种识别搜索对应的需求分类的方法和系统。
[0008]根据本发明的实施例,所述方法包括如下步骤:a)对输入的搜索词进行分词操作,得到至少一个关键词;b)提取所述关键词在神经网络语言模型中的模型向量;c)根据所述模型向量计算所述搜索词在多个需求分类下的相关性分数,并生成待识别向量;d)利用分类器对待识别向量进行判断,得到所述搜索词对应的需求分类。
[0009]根据本发明的实施例,所述系统包括:分词模块、向量生成模块,以及分类器模块,所述分词模块对输入的词进行分词操作,得到关键词;所述向量生成模块用于根据所述关键词生成向所述分类器模块输出的待识别向量;所述分类器模块对所述向量生成模块输入的所述待识别向量进行判断,得到所述搜索词对应的需求分类。
[0010]根据本发明的分类信息搜索识别方法,通过对搜索词的分词,并利用神经网络语言模型对检索词进行向量化,再利用较少的热词进行相关性计算,实现对搜索的需求类别的识别。根据本发明的搜索识别方法,可以识别用户输入的搜索关键词从而为用户匹配特定的需求分类信息类目,以便在该需求类目下进行针对性的分类信息查找,系统能够准确高效地对搜索需求进行识别。

【专利附图】

【附图说明】
[0011]参考随附的附图,本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明,其中:
[0012]图1示意性示出了一种根据本发明实施例的用于识别搜索对应的需求分类的分类器的训练方法流程图。
[0013]图2示意性示出了一种根据本发明实施例的用于识别搜索对应的需求分类的方法流程图。
[0014]图3示意性示出了一种根据本发明实施例的用于识别搜索对应的需求分类的系统框图。

【具体实施方式】
[0015]通过参考示范性实施例,本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。
[0016]在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
[0017]本发明提供了一种更为有效的识别搜索对应的需求分类的方法,利用神经网络语言模型可以在使用数量较少的热点词的情况下获得与搜索相对应的需求分类,同时不会受搜索结果影响。根据本发明的搜索识别方法,可以识别用户输入的搜索关键词,为用户匹配特定的需求分类信息类目,以便在该需求类目下进行针对性的分类信息查找。本发明利用神经网络语言模型将词转变为向量特征,以向量特征计算语义关系。在本发明一实施例中,除了词的向量特征,同时考虑用户搜索点击行为特征和/或用户个性化特征,从而提高了搜索需求识别的准确性。本发明的结果尤其可以应用于搜索分类跳转及搜索排序的领域。
[0018]搜索所对应的需求分类可以是各种信息的分类,例如房产分类、汽车分类、旅游分类等。再者,各分类下还可继续细分为多层子分类,以房产分类为例,其可以分为出租房、二手房等,其中出租房又可分为毛坯出租房、精装出租房等。根据本发明的一实施方式,需要先对分类器进行训练。图1示意性示出了一种根据本发明的用于识别搜索对应的需求分类的分类器的训练方法流程图,如图1所示:
[0019]步骤110,对所有训练用词进行分词操作,得到至少一个关键词。优选地,在分词操作中,还对训练用词进行停用词的过滤操作。所述停用词例如是在训练用词中不起搜索作用的连词,例如“的”、“和”等,以及各种标点符号。
[0020]例如,一个经过分词操作之前的训练用词为:“精装修的电梯房。”,则经过分词操作及过滤停用词操作得到的2个关键词可以为:“精装修”和“电梯房”,其中过滤掉了停用词“的”。
[0021]优选地,在对所有训练用词进行分词操作及过滤停用词操作之前,进行对各需求分类的文件进行预处理以过滤低质量文件。其中,低质量文件是包含非法、色情等垃圾内容的文件及词语,更优选地,低质量文件还包括浏览/搜索量小于阈值的文件及词语。
[0022]步骤120,利用得到的关键词在神经网络语言模型中获取各关键词的向量。S卩,每个关键词都在神经网络语言模型中获得一个与关键词对应的向量,即关键词的模型向量。
[0023]优选地,利用word2vec、SENNA、HLBL, RNNLM等工具中的任意一个获得关键词在神经网络语言模型中的模型向量。
[0024]步骤130,通过计算训练用词的模型向量与各需求分类的热点模型向量之间的距离,分析出训练用词与各需求分类的相关性分数,并生成训练用词的训练向量。
[0025]在一实施例中,需求分类下的热点模型向量为热点搜索词的模型向量。某一需求分类下的热点搜索词例如为该需求分类中较具有代表性、被搜索量较高的搜索词。热点搜索词可以为一个或多个。在一实施例中,热点搜索词可以包括至少一个关键词。在该实施例中,获得热点模型向量的方法包括:
[0026]对热点搜索词进行分词操作,得到至少一个关键词。在一示例中,所述分词操作中还包括对热点搜索词进行停用词的过滤操作,例如在热点搜索词中不起搜索作用的连词,例如“的”、“和”等。
[0027]之后,得到热点搜索词的关键词的模型向量。优选地,利用Word2VeC、SENNA、HLBL、RNNLM等工具中的任意一个获得关键词在神经网络语言模型中的模型向量。
[0028]再将热点搜索词的关键词的模型向量相加,从而获得热点模型向量。在本发明一些实施例中,可将热点搜索词的关键词的模型向量加权相加,获得热点模型向量。
[0029]在一实施例中,步骤130包括以下步骤,下面仅对计算某一训练用词与某一需求分类A(例如房产分类)的相关性分数为例进行说明:
[0030]a)计算训练用词的模型向量。在本示例中,将某个训练用词中的各关键词的模型向量进行求和。在一实施例中,将训练用词的各关键词的模型向量进行加权求和,例如将各关键词的模型向量分别乘以关键词在某一需求分类A的权重n,然后将各乘积相加,得到代表了某训练用词针对需求分类A的模型向量。
[0031]以训练用词“精装修的电梯房。”以及“房产”需求分类为例,假设:该训练用词中的关键词“精装修”的模型向量为vl,关键词“精装修”在房产分类的权重为nl ;关键词“电梯房”的模型向量为v2,关键词“电梯房”在房产分类的权重为n2,则训练用词的模型向量V = vl*nl+v2*n2。特别地,该训练用词的模型向量为仅包括关键词“精装修”以及关键词“电梯房”的所有训练用词(例如“精装修的电梯房”、“精装修电梯房”等)针对“房产”分类的模型向量。
[0032]优选地,利用特征选择算法求出各关键词在各需求分类的权重n,特征选择算法例如选自 TFIDF、CH1、M1、TermEX 等。
[0033]b)计算训练用词的模型向量与各需求分类的热点模型向量之间的距离。需求分类下的热点模型向量为热点搜索词的模型向量。某一需求分类下的热点搜索词例如为该需求分类中较具有代表性、被搜索量较高的搜索词。特别地,热点搜索词可以为一个或多个。
[0034]优选地,通过以下方式中的任意一种来确定某需求分类A的热点关键词或热点搜索词:1、利用特征选择算法算法计算出与需求分类A相关性最大的关键词或搜索词作为热点关键词或热点搜索词;2、选取在在需求分类A中用户搜索次数最多的关键词或搜索词作为热点关键词或热点搜索词;3、以人工配置的方式设置热点搜索词或热点关键词。
[0035]优选地,上述训练用词的模型向量与需求分类的热点模型向量之间的距离可以为余弦相似度、欧式距离等。
[0036]根据本发明的又一实施例,除上述在步骤a中先对各关键词的模型向量进行针对某需求分类A的加权操作,然后再求和得出训练用词的模型向量,以计算其与该需求分类A的热点模型向量之间的距离的方法之外,也可以在步骤a中不对各关键词的模型向量进行加权操作,而直接将各关键词的模型向量相加,将结果作为训练用词的模型向量,然后利用该模型向量直接计算与各需求分类的热点向量之间的距离。
[0037]c)根据步骤b中得到的距离,分析训练用词与各需求分类的相关性分数。具体地,在所述热点搜索词为一个的情况下,可将该训练用词的模型向量与各需求分类的热点向量的距离直接作为该训练用词与各需求分类的相关性分数。
[0038]在一些实施例中,热点向量具有多个,而利用多个上述距离来分析训练用词与每个需求分类的相关性分数的方式可以为以下方式中的任意一种:
[0039]1、将多个上述距离的平均值作为相关性分数;
[0040]2、将多个上述距离的最大值作为相关性分数;
[0041]3、将多个上述距离之和作为相关性分数,特别地,在此方式中,要求各需求分类的热点搜索词的数量相同;
[0042]4、将多个上述距离先加权再求和以作为相关性分数,特别地,该权重为热点搜索词在该热点搜索词所属的需求分类的权重,并且,在此方式中,要求各需求分类的热点搜索词的数量相同。优选地,利用特征选择算法计算该权重。
[0043]d)将训练用词在各个需求分类的相关性分数汇总,生成训练用词的训练向量。
[0044]下方的表I示意性示出了针对训练用词的训练向量的一例。
[0045]
房产分类旅游分类招聘分类

房产分类旅游分类招聘分类搜索时预设分
相关性分相关性分相关性分

CTR CTR CTR 间(月) 类数__m__m______
0.48__005__008__L5__O__OOl__I 房产
0.480.050.08 I 1.6 I O I 0.015 | 8 | 房产
[0046]表I训练用词的训练向量的示意表
[0047]如表I所示,该训练用词的训练向量中分别包括了 I月份以及8月份的某训练用词(例如“精装修的电梯房。”)与房产分类、旅游分类、招聘分类的相关性分数,以及,该训练用词在房产分类、旅游分类、招聘分类下的点击率(CTR)。其中,预设分类表示该训练用词预先设置的分类,即表示该训练用词应被识别成的类别。在表I所示示例中,该训练用词应被识别为房产类。
[0048]在一实施方式中,提取训练用词分类点击历史特征数据(以下,简称为点击特征),并在生成训练用词的训练向量的过程中对点击特征予以考虑。例如将上述各个需求分类下的训练用词的相关性分数的汇总与点击特征相加,从而得到训练向量。点击特征可以从历史日志中直接提取。更优选地,点击特征可以包括以下内容:
[0049]1、各分类的搜索结果数;
[0050]2、搜索词在各分类下的点击率(CTR);
[0051]3、搜索词的搜索点击时间;
[0052]4、搜索词的用户平均浏览/点击各分类次数;
[0053]5、搜索词的用户年龄组别平均浏览/点击各分类次数;
[0054]6、搜索词的用户地域;
[0055]7、最终点击分类。
[0056]在另一实施例中,可以在生成训练用词的训练向量中考虑用户个性化特征,例如将各个需求分类下的训练用词的相关性分数的汇总与用户个性化特征相加,从而得到训练向量。以在后述步骤中训练出针对用户习惯的更智能的分类器。用户个性化特征例如:用户3/7/30天内浏览分类的比例(倾向性),用户性别,用户年龄段等。
[0057]下方的表2示意性示出了某3个用户分别在3天内在房产分类、旅游分类及招聘分类的浏览量的比例的一例。
[0058]

【权利要求】
1.一种识别搜索对应的需求分类的方法,所述方法包括如下步骤: a)对输入的搜索词进行分词操作,得到至少一个关键词; b)提取所述关键词在神经网络语言模型中的模型向量; c)根据所述模型向量计算所述搜索词在多个需求分类下的相关性分数,并生成待识别向量; d)利用分类器对待识别向量进行判断,得到所述搜索词对应的需求分类。
2.根据权利要求1所述的方法,其特征在于,所述步骤c包括以下步骤: Cl)根据所述关键词的模型向量计算所述搜索词的模型向量; c2)计算所述搜索词的模型向量与各个所述需求分类下的各热点模型向量之间的距离; c3)根据所述距离分析所述搜索词与所述各需求分类的相关性分数; c4)将所述搜索词与所述各需求分类的相关性分数汇总,生成待识别向量。
3.根据权利要求2所述的方法,其特征在于,步骤Cl进一步为将所述关键词的模型向量分别乘以所述关键词在各需求分类的权重,然后将这些乘积相加,计算所述搜索词的模型向量。
4.根据权利要求2所述的方法,其特征在于,所述热点模型向量为所述各需求分类下的热点词在所述神经网络语言模型中的模型向量。
5.根据权利要求4所述的方法,其特征在于,确定所述各需求分类下的所述热点词的方式选自下列任意一种: 方式1:利用特征选择算法分别计算出与各需求分类相关性最大的关键词或搜索词作为所述热点词; 方式2:选取在所述各需求分类中用户搜索次数最多的关键词或搜索词作为所述热点词; 方式3:以人工配置的方式设置所述热点词。
6.根据权利要求2所述的方法,其特征在于,步骤c3利用所述距离分析所述搜索词与所述各需求分类的相关性分数的方式选自以下方式中的任意一种: 方式1:将所述距离的平均值作为所述相关性分数; 方式2:将所述距离的最大值作为所述相关性分数; 方式3:将所述距离之和作为所述相关性分数; 方式4:将所述距离先加权再求和以作为所述相关性分数。
7.根据权利要求2所述的方法,其特征在于,所述距离为余弦相似度或欧式距离。
8.根据权利要求2所述的方法,其特征在于,所述待识别向量的生成还考虑点击特征和/或用户个性化特征。
9.根据权利要求8所述的方法,其特征在于,所述点击特征包括以下特征数据中的至少一个:各个所述需求分类的搜索结果数、所述搜索词在所述各需求分类下的点击率、所述搜索词的搜索点击时间、点击各个所述需求分类的次数/所述搜索词的用户搜索次数、点击各个需求分类的次数/所述搜索词的用户年龄组别搜索次数、所述搜索词的用户地域。
10.根据权利要求1所述的方法,其特征在于,所述分类器的训练方法包括以下步骤: a)以不同的算法训练分类器,所述不同的方法选自SVM、MaxEnt、DBN Classifier、AdaBoostλ GBDT ; b)分别利用由所述不同算法训练的分类器判断出所述搜索词的需求分类; C)将所述分类器分别判断出的所述需求分类的结果进行融合,作为分类器对所述搜索词的需求分类的判断结果; d)将所述判断结果与预期的需求分类相比较,若所述判断结果与预期的需求分类不相符,则修正所述分类器。
11.根据权利要求10所述的方法,其特征在于,进行所述融合的算法选自Voting算法、Boosting算法或加权求和算法其中任意一种。
12.根据权利要求1所述的方法,其特征在于,在步骤d之前还包括,提取用户个性化特征,所述待识别向量的生成还考虑所述用户个性化特征。
13.根据权利要求1所述的方法,其特征在于,在得到所述搜索词的需求分类之后对所述搜索词在该需求分类的子类下进行识别。
14.一种识别搜索对应的需求分类的系统,所述系统包括:分词模块、向量生成模块,以及分类器模块, 所述分词模块对输入的词进行分词操作,得到关键词; 所述向量生成模块用于根据所述关键词生成向所述分类器模块输出的待识别向量; 所述分类器模块对所述向量生成模块输入的所述待识别向量进行判断,得到所述搜索词对应的需求分类。
15.根据权利要求14所述的系统,其特征在于,所述向量生成模块包括关键词模型向量生成模块、搜索词模型向量生成模块、需求相关性计算模块,以及生成模块,其中, 所述关键词模型向量生成模块用于获取神经网络语言模型中所述关键词的模型向量; 所述搜索词模型向量生成模块用于根据所述搜索词中所包括的各关键字的模型向量,算出所述搜索词的模型向量; 所述需求相关性计算模块用于计算所述搜索词的模型向量与多个需求分类的热点模型向量之间的距离,并分析得到所述搜索词与各个所述需求分类的相关性分数; 所述生成模块用于将由所述需求相关性计算模块分析得出的所述搜索词与各个所述需求分类的相关性分数生成所述待识别向量。
16.根据权利要求15所述的系统,其特征在于,所述搜索词模型向量生成模块将所述搜索词中的各个所述关键词的模型向量分别乘以所述关键词在所述需求分类的权重,然后将这些乘积相加,计算出在所述需求分类下的所述搜索词的模型向量。
17.根据权利要求15所述的系统,其特征在于,所述距离为余弦相似度或欧式距离。
18.根据权利要求14所述的系统,其特征在于,所述分类器模块包括至少一个分类器以及分类器训练模块,所述分类器训练模块用于对所述分类器进行训练。
19.根据权利要求14所述的系统,其特征在于,所述分类器为多个层级的分类器,其中一个层级的分类器对应一个层级的需求分类。
20.根据权利要求14所述的系统,其特征在于,所述向量生成模块还包括历史日志数据库,所述历史日志数据库包含点击特征和/或用户个性化特征。
21.根据权利要求14所述的系统,其特征在于,所述待识别向量的生成考虑所述点击特征和/或用户个性化特征。
【文档编号】G06F17/30GK104199822SQ201410330444
【公开日】2014年12月10日 申请日期:2014年7月11日 优先权日:2014年7月11日
【发明者】杨锦峰, 吴峰 申请人:五八同城信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1