信息处理装置和信息处理方法与流程

文档序号:12177060阅读:201来源:国知局
信息处理装置和信息处理方法与流程

本公开总体上涉及信息处理领域,具体而言,涉及信息处理装置和信息处理方法。



背景技术:

目前,诸如微博、推特(Twitter)等的微博客(microblog)已经越来越受到关注,成为流行的网络信息获取平台。但是,在互联网和数据挖掘领域,在诸如微博客的具有来自大量用户的海量信息的信息源中,如何发现与关注对象有关的重要内容是一个难点。可以通过一般的搜索引擎等获得与关注对象有关的信息,但是这些信息可能是杂乱、零散、重复的,因而用户无法通过直接阅读在短时间内很好地了解关注对象。

期望能够从信息源的海量信息中准确、高效地提取与关注对象有关的重要内容。



技术实现要素:

在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。

鉴于现有技术的上述缺陷,本发明的目的之一是提供一种能够获取与关注对象有关的事件的信息处理装置和信息处理方法,以至少克服现有的问题。

根据本公开的一个方面,提供一种信息处理装置,包括:信息获取单元,其从信息源获取多条与关注对象有关的各自带有时间标签的信息;序列生成单元,其基于所述时间标签生成所述信息的时序序列;波峰检测单元,其针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以 及对象事件检测单元,其对所述波峰时段中的信息进行检测,以得到与所述关注对象有关的事件。所述对象事件检测单元包括:聚类单元,其针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行聚类;以及时段事件检测单元,其针对每个波峰时段,基于所述聚类单元的聚类结果中包含信息条数最多的簇内的信息,检测与该波峰时段有关的事件。

根据本公开的另一方面,提供一种信息处理方法,包括步骤:从信息源获取多条与关注对象有关的各自带有时间标签的信息;基于所述时间标签生成所述信息的时序序列;针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及对所述波峰时段中的信息进行检测,以得到与所述关注对象有关的事件。其中,对所述波峰时段中的信息进行检测包括:针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行聚类;以及针对每个波峰时段,基于所述聚类的聚类结果中包含信息条数最多的簇内的信息,检测与该波峰时段有关的事件。

依据本公开的其它方面,还提供了一种使得计算机用作如上所述的信息处理装置的程序。

依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述信息处理方法。

上述根据本公开实施例的各个方面,至少能够获得以下益处:利用从信息源获取的与关注对象有关的、带有时间标签的信息的时序序列,基于时序序列的波峰时段中的信息得到与关注对象有关的事件,从而能够从信息源的大量信息中准确、高效地提取与关注对象有关的重要内容,并且能够兼顾提取内容的覆盖度和简洁度。

通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:

图1是示意性地示出根据本公开实施例的信息处理装置的示例结构的框图。

图2是示意性地示出根据本公开实施例的信息处理装置中的对象事件检测单元的示例结构的框图。

图3是示意性地示出根据本公开实施例的信息处理装置的另一示例结构的框图。

图4是示出了根据本公开实施例的信息处理方法的示例流程的流程图。

图5是示出了根据本公开实施例的信息处理方法中的对象事件检测步骤的示例流程的流程图。

图6是示出了根据本公开实施例的信息处理方法的另一示例流程的流程图。

图7是示出了可用来实现根据本公开实施例的信息处理装置和方法的一种可能的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。

在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。

本发明人发现,在现有的数据挖掘处理中,一般通过搜索引擎等从信息源(诸如微博客)获得与关注对象(诸如关注人物)有关的信息,但是这些信息可能是杂乱、零散、重复的,因而用户无法通过直接阅读在短时间内很好地了解关注对象。另外,在关注对象为人物的情况下,也可以通过该人物本身在信息源中发布的内容(例如该人物发布的微博)获得相关 信息,但是这种方式同样具有无法直接获得重要信息的缺点。

基于此,本公开提出了一种能够获取与关注对象有关的事件的信息处理装置和信息处理方法,其从信息源获取与关注对象有关的、带有时间标签的信息的时序序列,基于时序序列的波峰时段中的信息来得到与关注对象有关的事件,从而能够从信息源的海量信息中准确、高效地提取与关注对象有关的重要内容,并且能够兼顾提取内容的覆盖度和简洁度。

根据本公开的一个方面,提供了一种信息处理装置。图1是示意性地示出根据本公开实施例的信息处理装置的示例结构的框图。

如图1所示,信息处理装置10包括:信息获取单元101,其从信息源获取多条与关注对象有关的各自带有时间标签的信息;序列生成单元102,其基于所述时间标签生成所述信息的时序序列;波峰检测单元103,其针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及对象事件检测单元104,其对所述波峰时段中的信息进行检测,以得到与所述关注对象有关的事件。上述对象事件检测单元104包括:聚类单元1041,其针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行聚类;以及时段事件检测单元1042,其针对每个波峰时段,基于所述聚类单元1041的聚类结果中包含信息条数最多的簇内的信息,检测与该波峰时段有关的事件。

为便于说明起见,以下以微博作为信息源的示例进行描述。本公开的内容当然不限于该示例,而是可以适用于包括具有时间属性的信息的任何信息源。

在以微博作为示例信息源的情况下,信息获取单元101获得的与关注对象有关的一条带有时间标签的信息可以是通过搜索等方式得到的与关注对象有关的一条微博,例如,一条包含关注对象的名称或者包含作为人物的关注对象的姓名、昵称、用户名等的微博。序列生成单元102生成的时序序列可以是基于这样获得的每条微博的发布时间的、多条微博的时序序列。

在一个优选实施例中,波峰检测单元103可以利用时序波峰检测(Burst Detection)技术获得时序序列的波峰时段。例如,波峰检测单元103可以利用Jon Kleinberg于2002年提出的基于爆发层级(bursty level)的时序波峰检测技术进行检测。该技术的细节可以参照“Bursty and hierarchical structure in streams”,Jon Kleinberg,KDD 2002:91-101, 该文献以引用的方式并入本文中。当然,可以利用本领域中各种其他适当方式获得时序序列的波峰时段,在此不再进行详细描述。

波峰检测单元103通过上述检测得到的波峰时段可以是给定时间范围内的、与关注对象有关的信息的条数满足一定条件(例如,该信息的条数以给定比例高于其它时段、该信息的条数高于给定阈值等)的时段。波峰时段内的信息源中的大量相关信息体现了对关注对象的高关注度,因而可以被视为对关注对象的关注高峰时段。仍以微博作为信息源的示例,波峰时段可以被视为微博的用户对于给定关注对象的关注高峰时段或兴趣高峰时段。

在一个优选实施例中,波峰检测单元103可以以天为单位获得所述波峰时段。在很多信息源中,以天为单位获得所述波峰时段可以得到较好的效果。当然,波峰检测单元103也可以以小时、周等其他时间单位获得所述波峰时段。本领域技术人员可以根据实际需要选择合适的时间单位。

在获得时序序列的波峰时段之后,对象事件检测单元104的聚类单元1041针对每个波峰时段,对该波峰时段中的信息进行聚类。通过这种聚类,能够按照每个波峰时段中的信息之间的相关性得到不同的簇。相应地,时段事件检测单元1042可以针对每个波峰时段,基于聚类结果中包含信息条数最多的簇内的信息,检测与该波峰时段有关的事件。这样,利用对关注对象的关注度高的波峰时段中的、彼此相关性高的多条信息,得到了与该波峰时段有关的事件。

通过对象事件检测单元104以上述方式得到的与波峰时段有关的事件可以被视为信息源中产生该波峰时段的原因,因而是与关注对象有关的重要内容。同时,在对象事件检测单元104得到与波峰时段有关的事件的过程中,过滤掉了非波峰时段中的信息以及波峰时段中彼此相关性低的信息,即过滤掉了重要性低的以及零散的内容。因此,利用本实施例的信息处理装置10,从而能够从信息源的大量信息中准确、高效地提取与关注对象有关的重要内容,并且能够兼顾提取内容的覆盖度和简洁度。

以下参照图2描述根据本公开实施例的信息处理装置中的对象事件检测单元的示例结构。

图2是示意性地示出根据本公开实施例的信息处理装置中的对象事件检测单元的示例结构的框图。

如图2所示,在一个优选实施例中,除了与图1中的对象事件检测单 元104中相类似的聚类单元1041和时段事件检测单元1042之外,对象事件检测单元104’还可以包括:词向量表示单元1040,其将每个波峰时段中的信息表示为词向量,以提供给所述聚类单元1041。

作为示例,词向量表示单元1040可以对给定波峰时段中的每条信息进行分词,以将每一条信息表示成词向量,其中,词向量空间是由从信息源得到的文本信息集合中的全部词语组成的。

在一个优选实施例中,聚类单元1041可以利用基于阈值的自动聚类方法对每个波峰时段中的信息进行聚类。在信息源中,不同时段中与关注对象有关的信息可能具有不同粒度,即,诸如微博的多条信息具有不同的内容分散程度。例如,从信息源获取的一个时段内的与关注对象有关的微博可能涉及与关注对象有关的多个事件,各条微博内容的主题就会较为分散;而另一个时段内的与关注对象有关的微博整体围绕与关注对象有关的一个事件,此时各条微博内容的描述主题就相对比较集中。上述两种情况的微博内容粒度差别很大,一般的面向相同聚类粒度的聚类方法无法得到很好的处理效果。

本优选实施例所提供的基于阈值的自动聚类方法能够根据不同时段的实际情况,自动设定针对给定时段的聚类阈值,以适应于不同时段的信息内容的粒度而得到良好的聚类结果。

在一个具体示例中,假设给定的波峰时段中共有x条与关注对象有关的信息,从每条信息中得到一个词向量,则x个词向量两两组成一对,共对。聚类单元1041可以计算每对词向量之间的欧氏距离,以得到平均欧式距离,再乘以预定的权值参数,即可得到自适应于这x个词向量的聚类阈值。

例如,基于欧氏距离的聚类阈值δ的公式可以表示如下。

其中,w为权值参数,大于0且小于或等于1,优选取值为0.9。x为 词向量个数。S(mi)和S(mj)分别表示第i条和第j条微博内容mi和mj对应的词向量,Ed(S(mi),S(mj))表示词向量S(mi)和S(mj)之间的欧式距离。

确定了自适应聚类阈值δ之后,聚类单元1041可以采用如下方法基于该自适应聚类阈值对词向量进行聚类。

(1)首先,聚类单元1041可以从给定波峰时段的x个词向量中随机选择一个词向量,作为一个新簇;

(2)接着,随机选择一个未聚类的词向量,分别计算其与每一个已有簇内的全部词向量之间的欧式距离的平均值;

(3)如果该词向量与一个已有簇内的全部词向量之间的欧式距离的平均值小于自适应聚类阈值,则将该词向量加入到该已有簇中;

(4)如果对于所有已有簇,该词向量与该簇内的全部词向量之间的欧式距离的平均值都大于或等于自适应聚类阈值,则将该词向量作为一个新簇。

重复上述步骤(2)-(4)直至所有词向量均被聚类,则聚类单元1041得到了最终的聚类结果。

另外,如图2所示,在对象事件检测单元104’的一个优选实施例中,时段事件检测单元1042可以包括:关键词提取单元1042-1,其针对每个波峰时段,从所述聚类结果中包含信息条数最多的簇内的信息当中提取关键词,作为与该波峰时段有关的事件。

关键词提取单元1042-1可以从聚类结果中包含信息条数最多的一个或多个簇内的信息当中提取关键词。为便于说明,以下可将聚类结果中的被提取关键词的簇称为主要原因事件。在一个优选示例中,可以从每个波峰时段的簇中选择一到两个主要原因事件。例如,包含信息条数最多的一个簇E1(其包含的信息条数为N1)自动被选为主要原因事件。对于包含信息条数排序第二位的簇E2(其包含的信息条数为N2),按照N2/N1是否大于给定阈值来判定是否将E2归为主要原因事件。优选将该阈值设为0.6,如果N2/N1≥0.6,则E2将会与E1同时被归为主要原因事件,否则,只将E1认定为主要原因事件。可以理解,上述选择主要原因事件的方式仅用于举例说明,关键词提取单元1042-1可采用任何其他适当地方式选择一个或多个簇作为主要原因事件。

对于给定波峰时段的所选择的主要原因事件(即,要提取关键词的簇),关键词提取单元1042-1可以通过以下示例方法来提取关键词。

首先,关键词提取单元1042-1可以对选定簇内的每条信息进行分词,并对分词之后的文本进行词性标注。发明人发现,以一元和二元的名词性词串作为关键词,可以获得较好效果。因此,关键词提取单元1042-1从分词结果中抽取一元名词以及包含名词的二元词串进行统计整理,按照词频进行排序,作为候选关键词的词串列表,并按照以下公式(2)计算每个一元名词或二元词串的重要度Tvalue

Tvalue=Tfrequency*Tlength (2)

其中,Tlength是指词串的长度,即词串包含的字数,Tfrequency是指该词串出现的次数,而重要度Tvalue由上述两个因素决定。

之后,利用二元词串对一元词串进行子串归并。子串归并时的规则如下:如果一个二元词串包含另一个一元词串,并且该二元词串的重要度Tvalue大于该一元词串的重要度Tvalue,则该一元词串将被归并掉,否则,将该二元词串从词串列表中去除。通过这种归并处理,可以保留最合适的词串作为关键词的候选。

在上述归并处理之后得到的所有词串当中,关键词提取单元1042-1可以将重要度Tvalue排在前K位的词串选择作为该主要原因事件的关键词。优选地,K可以设定为5。

在一个示例中,针对每个波峰时段,关键词提取单元1042-1可以从聚类结果中包含信息条数最多的一个以上的簇(即,一个以上的主要原因事件)内的信息当中提取关键词,并将所提取的多个关键词共同作为与该波峰时段有关的事件。

另外,如图2所示,在一个优选实施例中,对象事件检测单元104’还可以包括:时段事件合成单元1043,其对时段事件检测单元1042所检测的与所述时序序列的各个波峰时段有关的事件进行合成,作为与所述关注对象有关的事件。

利用时段事件合成单元1043,本优选实施例的对象事件检测单元104’不仅能够获得与关注对象的每个波峰时段有关的事件,还能够从信息源整 体上随时间获得与关注对象有关的事件序列。由于这样整体获得的事件序列是基于与关注对象有关的各个波峰时段,因而其能够体现信息源中对关注对象的关注度的时序变化,并且给出与每个波峰时段相对应的事件作为该时段中对关注对象的高关注度的原因。

在一个具体示例中,时段事件检测单元1042所检测的与各个波峰时段有关的事件可以是从各个波峰时段提取的关键词,时段事件合成单元1043将各个波峰时段的关键词罗列在一起共同作为与关注对象有关的事件。

以上参照图2描述了对象事件检测单元104’的示例结构。应注意,尽管在一个图中同时示出了词向量表示单元1040、关键词提取单元1042-1、时段事件合成单元1043,但这种图示仅是示意性的;这些单元既可以在在一个优选实施例中同时实现,也可以不依赖于彼此地分别在不同的优选实施例中实现。

以下参照图3描述根据本公开实施例的信息处理装置的另一示例结构。

图3是示意性地示出根据本公开实施例的信息处理装置的另一示例结构的框图。

如图3所示,在一个优选实施例中,除了图1的信息处理装置10所包括的信息获取单元101、序列生成单元102、波峰检测单元103、对象事件检测单元104(或图3的对象事件检测单元104’)之外,信息处理装置10’还可以包括:对象情绪分析单元105,其对所述波峰时段中的信息进行情绪分析,以得到与所述关注对象有关的情绪。

对象情绪分析单元105可以利用各种适当的方法得到与关注对象有关的情绪。例如,对象情绪分析单元105可以利用预先获得的情绪词典或预先训练的情绪分析模型对波峰时段中的全部或部分信息进行情绪分析,以得到与关注对象有关的情绪。

在一个优选实施例中,对象情绪分析单元105可以包括:时段情绪分析单元1051,其针对每个波峰时段,对聚类单元1041的聚类结果中包含信息条数最多的簇内的信息进行情绪分析,以得到与该波峰时段有关的情绪。时段情绪分析单元1051所得到的这种与波峰时段有关的情绪可以对应于信息源中的信息所反映的、针对与波峰时段有关的事件的情绪。这里,与波峰时段有关的事件可以是此前参照图1和图3所描述的对象事件检测 单元104或104’中的时段事件检测单元1042所检测的与波峰时段有关的事件。

对象情绪分析单元105可以利用各种适当的方法对聚类结果中包含信息条数最多的簇内的信息进行情绪分析。例如,时段情绪分析单元1051可以利用预先获得的情绪词典或预先训练的情绪分析模型进行这样的情绪分析。

以情绪词典的情况为例,一个示例性的情绪词典可以包含“高兴”、“悲伤”、“同情”和“敬佩”等36种情绪以及与每种情绪对应的常用情绪表达词语。以“高兴”情绪为例,对应的常用情绪表达词语包括“惊喜”、“高兴”和“欢畅”等。

利用情绪词典,对于聚类结果中包含信息条数最多的簇,时段情绪分析单元1051可以在该簇的全部信息内查找情绪词典中的情绪词的出现情况。例如,对于给定簇,如果该簇内的一条信息包含某种情绪类别中对应的情绪词语,则将该情绪类别的统计频率加一,由此对不同情绪类别分别进行词频统计。然后,可以按照频率大小进行情绪类别的排序,以便得到针对该簇的事件的情绪分析结果。

以微博作为示例信息源,时段情绪分析单元1051所得到的情绪分析结果可以是给定波峰时段内各个用户所表现出的对于涉及关注对象的、与该波峰时段有关的事件的情绪分布。该结果能够用于帮助进行与关注对象有关的公共关系维护,例如进行人物口碑建立以及与突发事件有关的危机公关等应用。

在一个优选实施例中,对象情绪分析单元105还可以包括:时段情绪合成单元1052,其对时段情绪分析单元1051所得到的与所述时间序列的各个波峰时段有关的情绪进行合成,以获得与所述关注对象有关的情绪。

利用时段情绪合成单元1052,可以从信息源的信息中获得对给定对象的整体情绪分布。仍以微博作为示例信息源,利用时段情绪合成单元1052所得到的与关注对象有关的情绪可以是各个用户所表现出的对于关注对象的随时间的整体情绪分布序列。由于这样的整体情绪分布是基于与关注对象有关的各个波峰时段,因而其能够体现信息源中对关注对象的情绪的时序变化,特别有利于进行与关注对象有关的长期公共关系维护,例如进行人物口碑建立。

根据本公开的另一方面,提供了一种信息处理方法。图4是示出了根 据本公开实施例的信息处理方法的示例流程的流程图。

图4示出了根据本公开实施例的信息处理方法400的示例流程。如图4所示,信息处理方法400包括下述步骤:信息获取步骤S401,从信息源获取多条与关注对象有关的各自带有时间标签的信息;序列生成步骤S402,基于所述时间标签生成所述信息的时序序列;波峰检测步骤S403,针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及对象事件检测步骤S404,对所述波峰时段中的信息进行检测,以得到与所述关注对象有关的事件。对象事件检测步骤S404可以包括:聚类步骤S4041,针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行聚类;以及时段事件检测步骤S4042,针对每个波峰时段,基于所述聚类的聚类结果中包含信息条数最多的簇内的信息,检测与该波峰时段有关的事件。

图像处理方法400及其各个步骤S401-S404可以包括以上参照图1至图2描述的图像处理装置10及其相应单元101-104、104’中进行的各种处理,并且可以获得与参照图1至图2描述的相应单元类似的效果,这些处理和效果的具体细节在此不再赘述。

此外,图5示出了根据本公开实施例的信息处理方法的中的对象事件检测步骤示例流程。

如图5所示,在与图4中的对象事件检测步骤S404中相类似的聚类步骤S4041和时段事件检测步骤S4042之前,在一个优选实施例中,对象事件检测步骤S404’还可以包括:词向量表示步骤S4040,将每个波峰时段中的信息表示为词向量,以用于对该波峰时段中的信息进行聚类。

在一个优选实施例中,在聚类步骤S4041中,利用基于阈值的自动聚类方法进行所述聚类。

在一个优选实施例中,时段事件检测步骤S4042可以包括:关键词提取步骤S4042-1,针对每个波峰时段,从所述聚类结果中包含信息条数最多的簇内的信息当中提取关键词,作为与该波峰时段有关的事件。

在一个优选实施例中,对象事件检测步骤S404’还可以包括:时段事件合成步骤S4043,对所检测的与所述时序序列的各个波峰时段有关的事件进行合成,作为与所述关注对象有关的事件。

以上参照图5描述了对象事件检测步骤S404’的示例流程。应注意,尽管在一个图中同时示出了词向量表示步骤S4040、关键词提取步骤 S4042-1、时段事件合成步骤S4043,但这种图示仅是示意性的;这些步骤既可以在在一个优选实施例中同时实现,也可以不依赖于彼此地分别在不同的优选实施例中实现。

此外,对象事件检测步骤S404’及其中包括的各个步骤可以包括以上参照图2描述的对象事件检测单元104’及其各个组成单元中进行的各种处理,并且可以获得与参照图2描述的相应单元类似的效果,这些处理和效果的具体细节在此不再赘述。

图6是示出了根据本公开实施例的信息处理方法的另一示例流程的流程图。

如图6所示,在一个优选实施例中,除了图4的信息处理方法400所包括的信息获取步骤S401、序列生成步骤S402、波峰检测步骤S403、对象事件检测步骤S404(或图5的对象事件检测步骤S404’)之外,信息处理方法400’还可以包括:对象情绪分析步骤S405,对所述波峰时段中的信息进行情绪分析,以得到与所述关注对象有关的情绪。

信息处理方法400’及其各个步骤可以包括以上参照图3描述的信息处理装置10’及其相应单元中进行的各种处理,并且可以获得与参照图3描述的相应单元类似的效果,这些处理和效果的具体细节在此不再赘述。

在一个优选实施例中,对象情绪分析步骤S405可以包括:时段情绪分析步骤S4051,针对每个波峰时段,对所述聚类的聚类结果中包含信息条数最多的簇内的信息进行情绪分析,以得到与该波峰时段有关的情绪。

在一个优选实施例中,时段情绪分析步骤S4051利用预先获得的情绪词典或预先训练的情绪分析模型进行所述情绪分析。

在一个优选实施例中,对象情绪分析步骤S405还可以包括:时段情绪合成步骤S4052,对所得到的与所述时间序列的各个波峰时段有关的情绪进行合成,以获得与所述关注对象有关的情绪。

上述根据本公开实施例的信息处理装置(例如图1、图3中所示的信息处理装置10、10’)以及其中的各个组成单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成装置的各种功能。

图7是示出了可用来实现根据本公开实施例的信息处理装置和方法 的一种可能的硬件配置的结构简图。

在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM703中,还根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件也连接到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡例如LAN卡、调制解调器等)。通信部分709经由网络例如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上,使得从中读出的计算机程序可根据需要被安装到存储部分708中。

此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开实施例的图像处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。

此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。

此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解 释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。

另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可以实现本公开的各实施例。

综上,在根据本公开实施例中,本公开提供了如下方案,但不限于此:

方案1、一种信息处理装置,包括:

信息获取单元,其从信息源获取多条与关注对象有关的各自带有时间标签的信息;

序列生成单元,其基于所述时间标签生成所述信息的时序序列;

波峰检测单元,其针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及

对象事件检测单元,其对所述波峰时段中的信息进行检测,以得到与所述关注对象有关的事件,所述对象事件检测单元包括:

聚类单元,其针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行聚类;以及

时段事件检测单元,其针对每个波峰时段,基于所述聚类单元的聚类结果中包含信息条数最多的簇内的信息,检测与该波峰时段有关的事件。

方案2、如方案1所述的信息处理装置,其中,所述聚类单元利用基于阈值的自动聚类方法进行所述聚类。

方案3、如方案1所述的信息处理装置,其中,所述时段事件检测单元包括:

关键词提取单元,其针对每个波峰时段,从所述聚类结果中包含信息条数最多的簇内的信息当中提取关键词,作为与该波峰时段有关的事件。

方案4、如方案1所述的信息处理装置,其中,所述对象事件检测单元还包括:

时段事件合成单元,其对所述时段事件检测单元所检测的与所述时序序列的各个波峰时段有关的事件进行合成,作为与所述关注对象有关的事件。

方案5、如方案1所述的信息处理装置,其中,所述对象事件检测单元还包括:

词向量表示单元,其将每个波峰时段中的信息表示为词向量,以提供给所述聚类单元。

方案6、如方案1所述的信息处理装置,还包括:

对象情绪分析单元,其对所述波峰时段中的信息进行情绪分析,以得到与所述关注对象有关的情绪。

方案7、如方案6所述的信息处理装置,其中,所述对象情绪分析单元包括:

时段情绪分析单元,其针对每个波峰时段,对所述聚类单元的聚类结果中包含信息条数最多的簇内的信息进行情绪分析,以得到与该波峰时段有关的情绪。

方案8、如方案7所述的信息处理装置,其中,所述时段情绪分析单元利用预先获得的情绪词典或预先训练的情绪分析模型进行所述情绪分析。

方案9、如方案7所述的信息处理装置,其中,所述对象情绪分析单元还包括:

时段情绪合成单元,其对所述时段情绪分析单元所得到的与所述时间序列的各个波峰时段有关的情绪进行合成,以获得与所述关注对象有关的情绪。

方案10、如方案1所述的信息处理装置,其中,所述波峰检测单元利用时序波峰检测技术获得所述波峰时段。

方案11、如方案1所述的信息处理装置,其中,所述波峰检测单元以天为单位获得所述波峰时段。

方案12、一种信息处理方法,包括:

从信息源获取多条与关注对象有关的各自带有时间标签的信息;

基于所述时间标签生成所述信息的时序序列;

针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及

对所述波峰时段中的信息进行检测,以得到与所述关注对象有关的事件,其中,对所述波峰时段中的信息进行检测包括:

针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行聚类;以及

针对每个波峰时段,基于所述聚类的聚类结果中包含信息条数最

多的簇内的信息,检测与该波峰时段有关的事件。

方案13、如方案12所述的信息处理方法,其中,利用基于阈值的自动聚类方法进行所述聚类。

方案14、如方案12所述的信息处理方法,其中,检测与每个波峰时段有关的事件包括:

针对每个波峰时段,从所述聚类结果中包含信息条数最多的簇内的信息当中提取关键词,作为与该波峰时段有关的事件。

方案15、如方案12所述的信息处理方法,其中,对所述波峰时段中的信息进行检测还包括:

对所检测的与所述时序序列的各个波峰时段有关的事件进行合成,作为与所述关注对象有关的事件。

方案16、如方案12所述的信息处理方法,其中,对所述波峰时段中的信息进行检测还包括:

将每个波峰时段中的信息表示为词向量,以用于对该波峰时段中的信息进行聚类。

方案17、如方案12所述的信息处理方法,还包括:

对所述波峰时段中的信息进行情绪分析,以得到与所述关注对象有关的情绪。

方案18、如方案17所述的信息处理方法,其中,对所述波峰时段中的信息进行情绪分析包括:

针对每个波峰时段,对所述聚类的聚类结果中包含信息条数最多的簇内的信息进行情绪分析,以得到与该波峰时段有关的情绪。

方案19、如方案18所述的信息处理方法,其中,利用预先获得的情绪词典或预先训练的情绪分析模型进行所述情绪分析。

方案20、一种计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行一种信息处理方法,所述信息处理方法包括:

从信息源获取多条与关注对象有关的各自带有时间标签的信息;

基于所述时间标签生成所述信息的时序序列;

针对所述时序序列进行检测,以获得所述时序序列的波峰时段;以及

对所述波峰时段中的信息进行检测,以得到与所述关注对象有关的事件,其中,对所述波峰时段中的信息进行检测包括:

针对所述时序序列的每个波峰时段,对该波峰时段中的信息进行 聚类;以及

针对每个波峰时段,基于所述聚类的聚类结果中包含信息条数最多的簇内的信息,检测与该波峰时段有关的事件。

最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1