一种基于半监督cbow的用户搜索词主题分类的方法

文档序号:6550703阅读:578来源:国知局
一种基于半监督cbow的用户搜索词主题分类的方法
【专利摘要】本发明公开了一种基于半监督CBOW的用户搜索词主题分类的方法,其特点是运用半监督CBOW算法对大量未标注和部分已标注的搜索词建立含有语义、语法和类别信息的词向量模型,利用词向量模型的线性组合成查询向量,然后根据查询向量进行用户搜索词的主题分类。本发明与现有技术相比不仅能够获取语法语义信息,还能从少量的带标注的文本中获得类别信息,使得用户搜索词向量在空间上面不同类别的数据分得更加开,提高了分类的准确性,有效解决了用户查询文本短的问题,方法简便,准确性好。
【专利说明】—种基于半监督CBOW的用户搜索词主题分类的方法
[0001]
【技术领域】
[0002]本发明涉及互联网信息搜索【技术领域】,特别是一种基于半监督CBOW的用户搜索词主题分类的方法。
【背景技术】
[0003]随着互联网技术的发展,互联网上的数字信息开始呈指数型增长。互联网上的信息资源繁多,来源也千差万别,人们要从信息的海洋当中获取自己需要的特定信息越来越困难。搜索引擎是人们在互联网上进行获取的主要工具。在搜索引擎中,通过用户查询主题分类能够直接或者间接反应用户的潜在兴趣和需求。正确的用户查询主题分类是现代搜索引擎的核心技术之一,能够为用户个性化应用、搜索引擎性能优化、定向广告投放及搜索用户行为分析起到了基础性的作用。比如用户在搜索引擎中提交查询“宝马汽车好不好”,我们可以将其分类到“汽车”类别当中,通过这个类别,我们可以在不损害用户体验的情况下投放汽车相关的广告,提高用户的广告点击率。
[0004]搜索引擎的使用需要输入搜索词,用户搜索词具有稀疏性、海量性和非规范性。单个搜索词长度一般都非常短,往往只有2到3个关键词,尤其用户在使用搜索引擎时往往不注意规范表达,错误拼写、缩写简写、网络流行词、专业术语、产品编号等非常多,很难抽取到有效的语言特征,然而搜索的频率又非常高,每天产生的用户搜索词条非常庞大,给用户搜索词分类提出了非 常高的分类性能要求,大大增加了搜索词分类的难度。由于搜索词具有上面提到的语言特征,传统的文本表示方法及文本分类方法直接应用到用户搜索词上效果不佳,搜索词的特征稀疏性,基于词语共现程度来衡量文本相似度的方法不再有效,导致了分类不能取得理想的结果。
[0005]目前,解决上述问题的方法通常归结为两类:一类是借助外部文本,如搜索引擎返回的文档、维基百科等,扩展用户搜索词。另二类是利用主题模型挖掘词语之间的内在联系。由于搜索词短导致的特征稀疏性,基于词袋的用户搜索词表示方法及有监督的分类方法往往不能取得理想的结果。主要原因在于词语共现程度来衡量文本相似度的方法不再有效,导致了分类准确率不高。如ql:三星笔记本,q2:联想Y470,由于他们之间并没有共现的词,他们之间的相似度为O。但是由于“三星”与“联想”同样都是电脑品牌,“Y470”是联想笔记本里面的一个型号,二者表达的都是在寻找笔记本的相关信息。但是基于词袋的表示方法将每个词作为一个特征,并不考虑词与词之间的关系。然而为了解决这个问题,主要有两个解决方法,第一,利用文本进行扩充。但是在上面已经提到了,利用文本扩充的方法存在性能瓶颈,在实际使用当中受限。第二,利用主题进行扩充,比如将ql利用主题进行扩展得到ql’:三星笔记本Topic:数码topic:数码,q2扩充的结果:联想Y470 Topic:数码。利用主题之间的共现,增加二者的相关度。然而不管是事先定义的主题或者从大量文本训练出来的隐含主题,搜索词的很多词汇都不在里面,使得应用起来非常受限。第一类的解决方法,由于涉及到网页捉取、分词等一消耗较长的时间。另一方面分类准确性非常依赖扩充后的文本质量。由于搜索词的海量性及分类要求的实时性,使得该类方法在实际使用中非常受限。第二类的解决方法可以发现词与词之间的主题关系,但是对于主题当中不存在的词无能为力。由于搜索引擎的非规范性,要收集一个适合于搜索词主题关系挖掘的外部文本将非常困难。
[0006]现有技术的搜索查询分类主要基于文本扩充及主题扩充,由于需要外部的资源。在线的资源获取数据非常耗时,线下资源经常非常匮乏,寻找到一个合适的外部文本资源非常困难。并且传统基于词向量及有监督的文本分类方法常常没有办法取得预期的效果。

【发明内容】

[0007]本发明的目的是针对现有技术的不足而设计的一种基于半监督CBOW的用户搜索词主题分类的方法,采用半监督CBOW算法对搜索引擎的搜索数据及少量人工标注的数据建立含有语义、语法和类别信息的词向量模型,并利用词向量的线性组合形成用户搜索词向量,然后再进行分类,使得用户搜索词向量在空间上面不同类别的数据分得更加开,提高了分类的准确性,有效的解决了用户查询短的文本。
[0008]本发明的目的是这样实现的:一种基于半监督CBOW的用户搜索词主题分类的方法,其特点是运用半监督CBOW算法对大量未标注和部分已标注的搜索词建立含有语义、语法和类别信息的词向量模型,利用词向量模型的线性组合成查询向量,然后根据查询向量进行用户搜索词的主题分类,具体按下述步骤进行:
(一)、词向量模型的建立
将大量未标注和部分已标注的用户搜索词中大于一定阈值的词汇运用半监督CBOW算法建立一个d维实数空间的词向量模型;所述已标注的搜索词为人工标注或规则标注的搜索词;所述半监督CBOW算法采用由输入层、隐含层和输出层构成的三层神经网络语言模型,输入层将上下文词以向量形式输入隐含层,隐含层将输入的这些词的词向量进行累加;所述神经网络语言模型采用下述(a)式进行优化,并采用随机梯度下降法对神经网络进行最大化求解更新:
【权利要求】
1.一种基于半监督CBOW的用户搜索词主题分类的方法,其特征在于运用半监督CBOW算法对大量未标注和部分已标注的搜索词建立含有语义、语法和类别信息的词向量模型,利用词向量模型的线性组合成查询向量,然后根据查询向量进行用户搜索词的主题分类,具体按下述步骤进行: (一)、词向量模型的建立 将大量未标注和部分已标注的用户搜索词中大于一定阈值的词汇运用半监督CBOW算法建立一个d维实数空间的词向量模型;所述已标注的搜索词为人工标注或规则标注的搜索词;所述半监督CBOW算法采用由输入层、隐含层和输出层构成的三层神经网络语言模型,输入层将上下文词以向量形式输入隐含层,隐含层将输入的这些词的词向量进行累加;所述神经网络语言模型采用下述(a)式进行优化,并采用随机梯度下降法对神经网络进行最大化求解更新:
【文档编号】G06F17/30GK104036010SQ201410286532
【公开日】2014年9月10日 申请日期:2014年6月25日 优先权日:2014年6月25日
【发明者】贺樑, 杨河彬, 徐晓枫, 黄保荃, 李明耀, 倪敏杰 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1