一种基于词矢量的短文本查询扩展及检索方法

文档序号:8445567阅读:519来源:国知局
一种基于词矢量的短文本查询扩展及检索方法
【技术领域】
[0001] 本发明涉及数据挖掘和搜索引擎技术领域,尤其是一种基于词矢量的短文本查询 扩展及检索方法。
【背景技术】
[0002] 随着计算机和网络Internet的迅猛发展,从海量的信息资源中精确地获取信息 变得越来越困难。海量信息中有很大一部分是以短文本的形式存在,同时短文本也是人们 在日常生活中所必不可少的一种数据形式。短文本信息主要包括博客留言,微博信息,短 信息,聊天记录等,其特点是信息长度较短,语言形式比较灵活,数据规模巨大,时效性比较 强,更新速度飞快。传统的搜索引擎在这些短文本检索中精确度并不高,不能够满足人们准 确获取信息的需要,因此本发明设计并实现了一种更为适合短文本信息获取的搜索引擎系 统。
[0003] 人们对短文本还没有找到一个高效准确的检索方法,目前关于短文本检索的方法 有以下几种:
[0004] -、基于词共现的方法
[0005] 当用户给定一个查询词后,搜索引擎会根据倒排索引对出现查询词的文档进行检 索并评分。该方法要求所返回的短文本必须包含用户的查询词,如布尔模型、VSM模型、BM25 模型、LM模型等。这类方法的缺点是:当用户给一个检索词的时候,搜索引擎只能返回包含 该检索词的文档,而无法返回语义上相关但是用不同词语表达的其它文档。在短文本中,该 缺点将表现的更加明显,因此短文本不太适合采用此类方法。
[0006] 二、基于语义关联的方法
[0007] 当用户给定一个查询词后,搜索引擎会根据这些查询词的语义信息进行扩展,将 语义上相近的词语共同作为文档搜索的关键字,来丰富查询的结果。该类方法主要包括潜 在语义分析模型(LSA)、概率潜在语义分析模型(PLSA),文档生成模型(LDA)等。这类方法 的缺点是:当用户给定一个检索词的时候,搜索引擎会引入大量的噪音信息,虽然在一定程 度上提高了检索系统的召回率,但同样引入了大量不相关的文本,降低了检索的准确度。因 此,如何在丰富检索结果的同时,去掉大量不相关的信息是此类方法研宄的关键。
[0008] 另外,由于有的时候用户给定的查询不足以表达其所要查询的确切需求,或者说 用户不知道用什么词语来表达所要检索的内容。针对这种问题,研宄者们发明了查询扩展 技术,用以更准确的描述用户的需求,获得更多相关、准确的返回结果。
[0009] 为了提高用户的检索满意度,查询扩展技术已经成为所有搜索引擎所必须加入的 一个模块,目前查询扩展方法有以下几种:
[0010] 一、基于相关反馈的查询扩展
[0011] 系统对用户的初始查询返回一系列结果,用户检查这组结果,并标注相关与否,然 后,搜索引擎再一次利用相关文档中的重要词语进行查询扩展。该方法缺点是需要用户的 参与,并且需要大量的数据来进行参数训练,因此在实践中还有许多问题需要解决。
[0012] 二、基于局部分析的查询扩展
[0013] 系统对用户查询所返回的前N篇文档作为相关文档,然后将其中的重要词汇作为 扩展词进行查询扩展。该方法克服了相关反馈的需要用户参与的缺点,但是却牺牲了准确 性,有可能把大量无关的词语加入到扩展词中来。
[0014] 三、基于全局分析的查询扩展
[0015] 全局分析通过对词语之间的相互关联程度,将与查询词关联度相近的若干个词语 作为查询词进行扩展,具体技术主要包括词聚类、潜在语义分析、相似性词典、统计词典和 语义词典(WordNet)等。
[0016] 这些方法仅从语义上丰富了查询词的表示,但是并没有试图去理解用户的查询意 图,而是找到每个词相近的词来进行查询扩展,很容易导致主题偏移和引入噪音等问题。因 此,针对短文本如何选择最好的查询扩展词和最准确高效的检索模型成为目前该领域亟待 解决的问题。

【发明内容】

[0017] 本发明的目的是提供一种用以理解用户的查询意图并提高检索的准确性的基于 词矢量的短文本查询扩展及检索方法。
[0018] 本发明解决现有技术问题所采用的技术方案:一种基于词矢量的短文本查询扩展 及检索方法,包括以下步骤:
[0019]A、短文本语料信息预处理:从已知数据库中采集包含短文本语料信息的文本语料 集,从文本语料集中删除字数少于预设阈值的短文本语料信息;识别出所述文本语料集中 的转发短文本语料信息并将其删除;对文本语料集中剩余的短文本语料信息进行分词处 理,得到分词语料词典;记录每个词在所述分词语料词典中的出现次数,并去除频率小于预 设阈值的词,得到语料词典;对语料词典中的短文本建立倒排索引;
[0020] B、训练模型将语料词典中的每个词用词矢量来表示:包括以下步骤:
[0021] B1、根据语料词典创建Huffman树:
[0022] 对所述语料词典中的每个词语进行Huffman编码并创建Huffman树,Huffman树 的每个叶子节点来代表语料词典中的每个词,根节点到每个叶子节点的路径表示该词的 Huffman编码,根节点到每个叶子节点之间的内部节点不断对词语进行分类,最终把每一个 词分到某个对应的叶子节点上;
[0023]B2、利用无监督训练模型对语料词典中的每个词用词矢量的形式表示
[0024] 对于所述语料词典中的每个词定义一个k维实数向量,每一维实数向量为一个变 量,将所述k维实数向量作为逻辑回归模型的输入向量通过逻辑回归二元分类方法来预测 Huffman树中该词的上下文词语所对应的叶子节点所在路径的边值的概率;Huffman树中 包括根节点在内的每一个内部节点对应一个逻辑回归模型,并同时通过损失函数和求导公 式进行参数与输入变量的更新,以使输入的矢量比较接近;最后,将更新后得到的输入向量 作为该词的矢量表示;
[0025]C、查询扩展:将用户的查询文本信息进行分词处理并去除停用词,得到查询词集, 所述查询词集利用步骤B2的方法使查询词集中的每个查询词以词矢量的形式表示,查询 词集中的词矢量经归一化后矢量相加,获得一个新的向量作为查询向量;再从所述语料词 典中选出与所述查询向量的矢量夹角最相近的词语所形成的集合作为查询扩展候选集,并 把它们与局部分析的查询扩展词集的交集作为最后使用的查询扩展词集,并加大原查询词 的权重;所述局部分析的查询扩展词集为在通过BM25检索模型对查询词进
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1