基于微博平台的扩展关键词获取方法和设备的制作方法

文档序号:6440774阅读:406来源:国知局
专利名称:基于微博平台的扩展关键词获取方法和设备的制作方法
技术领域
本发明涉及互联网应用技术,更具体地,涉及一种基于微博平台的扩展关键词获取方法和设备。
背景技术
在互联网发展的今天,微博已逐渐成为人们沟通交流的一种重要方式。如何在庞杂的网络数据中提取关联的信息以进行更有效的检索和知识发现已对互联网技术提出了新的挑战。例如,与其它互联网应用类似,当用户在微博平台的搜索引擎中输入想要搜索的关键词时,期望能够实时地提供与所输入的关键词相关联的一系列扩展关键词,从而使得用户能够更高效地检索到所需要的信息,这也是本发明迫切需要解决的问题。

发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。因此,本发明的目的是提供一种基于微博平台的扩展关键词获取方法和设备,其能够在用户在微博平台上输入关键词进行信息检索时,通过图构建技术,构建出有利于检索的带有权重流向的图结构,从而能够直观地、实时地向用户提供扩展关键词,进而大大提高了检索效率。为了实现上述目的,根据本发明的实施例的一个方面,提供了一种基于微博平台的扩展关键词获取方法,该方法包括:条目获取步骤,以输入的关键词在微博平台进行搜索,以获取与所输入的关键词相关联的多个条目;微博条目图构建步骤,以所获取的多个条目作为微博条目图的节点、以各节点之间的关系作为微博条目图的边,计算微博条目图的各节点的权重和各条边的权重,从而构建与所输入的关键词相关的微博条目图;关键词袋提取步骤,从所获取的多个条目提取关键词袋;以及关键词扩展图构建步骤,以所输入的关键词和所提取的关键词袋中的各个关键词作为关键词扩展图的节点、以所输入的关键词与各个关键词之间的关系作为关键词扩展图的边,计算关键词扩展图的各节点的权重和各条边的权重,从而构建与所输入的关键词相关的关键词扩展图。根据本发明的实施例的另一方面,还提供了一种基于微博平台的扩展关键词获取设备,该设备包括:条目获取模块,被配置成以输入的关键词在微博平台进行搜索,以获取与所输入的关键词相关联的多个条目;微博条目图构建模块,被配置成以所获取的多个条目作为微博条目图的节点、以各节点之间的关系作为微博条目图的边,计算微博条目图的各节点的权重和各条边的权重,从而构建与所输入的关键词相关的微博条目图;关键词袋提取模块,被配置成从所获取的多个条目提取关键词袋;以及关键词扩展图构建模块,被配置成以所输入的关键词和所提取的关键词袋中的各个关键词作为关键词扩展图的节点、以所输入的关键词与所述各个关键词之间的关系作为关键词扩展图的边,计算关键词扩展图的各节点的权重和各条边的权重,从而构建与所输入的关键词相关的关键词扩展图。另外,根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本发明的基于微博平台的扩展关键词获取方法。此外,根据本发明的实施例的再一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本发明的基于微博平台的扩展关键词获取方法。因此,根据本发明的实施例,能够通过构建带有权重流向的关键词扩展图,从而直观地、实时地向用户呈现与所输入的关键词相关联的扩展关键词,以更高效地进行信息检索。在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。


下面结合具体的实施例,并参照附图,对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。图1示出了根据本发明的实施例的基于微博平台的扩展关键词获取方法的流程图;图2示意性地示出了所构建的微博条目图;图3详细示出了图1中的微博条目图构建步骤;图4详细示出了图1中的关键词扩展图构建步骤;图5示意性地示出了所构建的关键词扩展图;图6是示出根据本发明的实施例的基于微博平台的扩展关键词获取设备的功能配置的框图;图7详细示出了图6中的微博条目图构建模块的功能配置;图8详细示出了图6中的关键词扩展图构建模块的功能配置;以及图9是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其它细节。以下参照附图1至9来描述本发明的实施例。在本发明的实施例中,以新浪微博平台为例进行描述。首先将参照图1,描述根据本发明的实施例的基于微博平台的扩展关键词获取方法。该基于微博平台的扩展关键词获取方法可以包括:条目获取步骤SlOl:以输入的关键词在微博平台进行搜索,以获取与所输入的关键词相关联的多个条目。具体地,在新浪微博平台的搜索引擎中输入想要检索的关键词,从而返回与该关键词相关联的多个条目。微博条目图构建步骤S102:以在步骤SlOl中获取的多个条目作为微博条目图的节点、以各节点之间的关系作为微博条目图的边,计算微博条目图的各节点的权重和各条边的权重,从而构建与所输入的关键词相关的微博条目图。参照图2,其示意性地示出了所构建的微博条目图。具体地,微博条目图的节点可以包括以下类型中的一个或多个:所发布的微博条目、所转发的微博条目、与微博条目相关联的评论以及与评论相关联的回复。其中,所发布的微博条目包括所输入的关键词,而所转发的微博条目、与微博条目相关联的评论以及与评论相关联的回复不一定包括所输入的关键词。微博条目图的边可以包括以下类型中的一个或多个:表示两个节点是由同一作者发布的微博条目的边、表示一个节点是对另一节点的评论、回复或转发的边。由于所构建的微博条目图是带有权重流向的图,因此,接下来将参照图3详细描述微博条目图中各节点和各条边的权重的计算方法。具体地,参照图3,微博条目图构建步骤S102可以包括第一边权重计算子步骤S301和第一节点权重计算子步骤S302。在第一边权重计算子步骤S301中,可以基于微博条目图的边的类型、作者的粉丝数目以及微博条目图的各节点的文本长度,计算微博条目图的各条边的权重。优选地,根据以下公式⑴计算微博条目图的各条边的权重:W1 = Type* ( λ jN(followers) + λ 2N(textlength)) (I)其中,Type表示不同类型的边的权重值,其取经验值,通常转发的权重值>评论的权重值> 回复的权重值>是同一作者的权重值;λ 1、λ 2分别表示作者的粉丝数目的权重以及文本长度权重,其分别取经验值,其中如果X1或λ 2之一为0,则仅考虑作者的粉丝数目或文本长度的影响;Ν()为归一化公式,以避免值的波动过大从而造成计算偏差,优选地,对于粉丝数目,N(followers) = log (followers),而对于文本长度,
N(al) = -^= al 1=,其中3表示文本长度。应理解,此处的归一化公式仅
V&1 + &2 +...+ an
为示例而非限制,本领域技术人员可容易想到采用其它归一化方法来避免数据波动过大。上述公式(I)所依据的理论基础为:转发越多、评论越多、回复越多、内容越丰富(即,文本长度越长),则该节点的权重越大;同样地,所发布的微博或评论会受到作者的影响,作者的粉丝越多,则读到该微博或评论的机会就越大,从而该节点的权重也相应地上升。在第一节点权重计算子步骤S302中, 可以基于在步骤S301中算出的微博条目图的边权重以及各节点的出度,利用个性化排序技术来计算微博条目图的各节点的权重。优选地,可以利用以下公式⑵来计算各节点的权重:
权利要求
1.一种基于微博平台的扩展关键词获取方法,包括: 条目获取步骤,以输入的关键词在微博平台进行搜索,以获取与所输入的关键词相关联的多个条目; 微博条目图构建步骤,以所获取的多个条目作为微博条目图的节点、以各节点之间的关系作为所述微博条目图的边,计算所述微博条目图的各节点的权重和各条边的权重,从而构建与所输入的关键词相关的微博条目图; 关键词袋提取步骤,从所获取的多个条目提取关键词袋;以及 关键词扩展图构建步骤,以所输入的关键词和所提取的关键词袋中的各个关键词作为关键词扩展图的节点、以所输入的关键词与所述各个关键词之间的关系作为所述关键词扩展图的边,计算所述关键词扩展图的各节点的权重和各条边的权重,从而构建与所输入的关键词相关的关键词扩展图。
2.根据权利要求1所述的方法,其中,所述微博条目图构建步骤进一步包括:第一边权重计算子步骤,基于所述微博条目图的边的类型、作者的粉丝数目以及所述微博条目图的各节点的文本长度,计算所述微博条目图的各条边的权重。
3.根据权利要求1所述的方法,其中,所述微博条目图构建步骤进一步包括:第一节点权重计算子步骤,基于算出的所述微博条目图的各条边的权重以及各节点的出度,利用个性化排序技术计算所述微博条目图的各节点的权重。
4.根据权利要求1所述的方法,其中,所述关键词扩展图构建步骤进一步包括:第二边权重计算子步骤,基于所输入的关键词与所提取的关键词袋中的各个关键词之间的支持度和置信度,计算所述关键词扩展图的各条边的权重。
5.根据权利要求1所述的方法,其中,所述关键词扩展图构建步骤进一步包括:第二节点权重计算子步骤,基于所述微 博条目图中包括某一关键词的节点的权重,计算关键词扩展图中该关键词节点的权重。
6.一种基于微博平台的扩展关键词获取设备,包括: 条目获取模块,被配置成以输入的关键词在微博平台进行搜索,以获取与所输入的关键词相关联的多个条目; 微博条目图构建模块,被配置成以所获取的多个条目作为微博条目图的节点、以各节点之间的关系作为所述微博条目图的边,计算所述微博条目图的各节点的权重和各条边的权重,从而构建与所输入的关键词相关的微博条目图; 关键词袋提取模块,被配置成从所获取的多个条目提取关键词袋;以及 关键词扩展图构建模块,被配置成以所输入的关键词和所提取的关键词袋中的各个关键词作为关键词扩展图的节点、以所输入的关键词与所述各个关键词之间的关系作为所述关键词扩展图的边,计算所述关键词扩展图的各节点的权重和各条边的权重,从而构建与所输入的关键词相关的关键词扩展图。
7.根据权利要求6所述的设备,其中,所述微博条目图构建模块进一步包括:第一边权重计算子模块,被配置成基于所述微博条目图的边的类型、作者的粉丝数目以及所述微博条目图的各节点的文本长度,计算所述微博条目图的各条边的权重。
8.根据权利要求6所述的设备,其中,所述微博条目图构建模块进一步包括:第一节点权重计算子模块,被配置成基于算出的所述微博条目图的各条边的权重以及各节点的出度,利用个性化排序技术计算所述微博条目图的各节点的权重。
9.根据权利要求6所述的设备,其中,所述关键词扩展图构建包括进一步包括:第二边权重计算子模块,被配置成基于所输入的关键词与所提取的关键词袋中的各个关键词之间的支持度和置信度,计算所述关键词扩展图的各条边的权重。
10.根据权利要求6所述的设备,其中,所述关键词扩展图构建包括进一步包括:第二节点权重计算子模块,被配置成基于所述微博条目图中包括某一关键词的节点的权重,计算关键词扩展图中该 关键词节点的权重。
全文摘要
本发明公开了一种基于微博平台的扩展关键词获取方法和设备,该方法包括条目获取步骤,以输入的关键词在微博平台进行搜索,以获取与所输入的关键词相关联的多个条目;微博条目图构建步骤,以多个条目作为节点、以各节点之间的关系作为边,计算微博条目图的各节点和各条边的权重,从而构建微博条目图;关键词袋提取步骤,从多个条目提取关键词袋;以及关键词扩展图构建步骤,以所输入的关键词和关键词袋中的各个关键词作为节点、以所输入的关键词与各个关键词之间的关系作为边,计算关键词扩展图的各节点和各条边的权重,从而构建关键词扩展图。根据本发明的实施例,能够实时地获取扩展关键词,提高了检索效率,有利于更高效地获取知识和信息。
文档编号G06F17/30GK103164415SQ201110410180
公开日2013年6月19日 申请日期2011年12月9日 优先权日2011年12月9日
发明者张波, 孟遥, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1