一种基于多样性和比例特性的关键词检索方法与流程

文档序号:13083757阅读:150来源:国知局
技术领域本发明属于数据挖掘领域,涉及一种基于多样性和比例特性的关键词检索方法。

背景技术:
随着互联网的发展,搜索引擎作为一种新型的网络检索技术给用户带来了巨大的方便。但是由于近几年网络的迅速发展,互联网的信息量出现大幅度的增长,大数据作为一个新兴的领域充斥着生活,这就使得用户在面临这大量的信息时,搜索引擎可能无法推荐出基于关键词检索的多样化的、按重要程度排列的信息。解决这个问题的一个非常有潜利的方法就是给出一个排列系统,它能按照用户给出的关键词来返回l条重要信息(其中l为自然数),并且是按多样性和比例特性排列的。该技术引入了元组集合(ObjectSummaries,缩写为OS),它是在包含关键词的数据库中生成的基于关键词的信息元组的集合。一个OS可以是以关键词为根,以关键词的相邻节点为它的子孙节点的树形结构。为了生成OS,一是要拥有关于查询数据主体(DataSubjects,缩写为DS)信息的关系,把这个关系简写为RDS,即是树形结构的根;另一个需要与RDS链接的关系,也就是生成RDS的子孙。对于每个RDS来说都能够形成一个DS模式图,也就是GDS。此技术是根据生成的OS来不断地进行剪枝优化最终得出重要的信息。一个完整的OS中可能有成千上万条元组信息,将这些信息全部列举出来不但会消耗更多的时间,而且对用户在其中选取对自己来说有用的信息也是非常困难的,所以选择选取l条最有用的元组信息;对输入的自然数l,将在整个的OS中运用k-LASP算法(详见步骤3.3)得到l条重要信息(即size-lOS),若光运用PageRank或是ValueRank计算的静态值来返回信息,则可能会使多条相似的信息重复出现,所以为了使这l条信息能够在最大限度上呈现给用户更多样化的信息,使用户能够更全面的了解信息,引入多样性(Dsize-l)和比例特性(Psize-l)两种权衡信息重要性的方法。这种方法不仅能够大大减少时间的消耗,提高返回信息的效率,而且能够满足用户对搜索信息的多样化需求,在一定程度上优化了基于关键词的搜索。

技术实现要素:
本发明提供一种基于多样性和比例特性的关键词检索方法,对用户所输入的关键词和自然数l,然后根据关键词与各元组信息之间的链接关系,运用算法返回给用户l条最全面的基于关键词的元组信息。一种基于多样性和比例特性的关键词检索方法,其步骤为:步骤一:受链接分析算法PageRank的启发,设计静态离线排序评价分数,生成所有节点的初始值;步骤1.1:收集并整理数据集,构建数据关系。这时定义有向图G(V,E),其中V(v1,...,vn)是节点(顶点)集,这里的节点代表各类信息,E是代表边(弧)的集合,E={<vi,vj>|vi,vj∈V
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1