本发明涉及网络技术,特别涉及事件脉络生成方法和装置。
背景技术:
当前,用户在使用搜索引擎等进行搜索时,如对某一事件进行搜索时,只能将与该事件相关的各个资源如新闻资源,按照预定方式进行排序等处理后,展示给用户。
而用户如果想要了解事件进展的主要过程,则需要分别查找对应的资源并进行查看,实现起来非常困难,从而降低了用户的信息获取效率。
技术实现要素:
有鉴于此,本发明提供了事件脉络生成方法和装置,能够提高用户的信息获取效率。
具体技术方案如下:
一种事件脉络生成方法,包括:
针对待处理的事件,分别获取各时间窗口内的资源;
针对每个时间窗口,分别确定出所述时间窗口内的各资源的重要性评分,并从所述时间窗口内的各资源中选出重要性评分符合预定要求的资源,将选出的资源作为所述时间窗口内的代表性资源;
将各时间窗口内的代表性资源按照时间顺序进行组合,得到事件脉络。
一种事件脉络生成装置,包括:处理单元;
所述处理单元,用于针对待处理的事件,分别获取各时间窗口内的资源;针对每个时间窗口,分别确定出所述时间窗口内的各资源的重要性评分,并从所述时间窗口内的各资源中选出重要性评分符合预定要求的资源,将选出的资源作为所述时间窗口内的代表性资源;将各时间窗口内的代表性资源按照时间顺序进行组合,得到事件脉络。
基于上述介绍可以看出,采用本发明所述方案,针对待处理的事件,可分别获取各时间窗口内的资源,并针对每个时间窗口,分别从中选出最能反映事件进展情况的代表性资源,进而利用所选出的各时间窗口内的代表性资源组合得到事件脉络,这样,当用户使用如搜索引擎进行搜索时,可直接将事件脉络展示给用户,从而克服了现有技术中存在的问题,进而提高了用户的信息获取效率。
【附图说明】
图1为本发明所述事件脉络生成方法实施例的流程图。
图2为本发明所述获取到的一个时间窗口内的资源示意图。
图3为本发明所述生成事件脉络的方式示意图。
图4为本发明所述“明星A离婚”事件对应的事件脉络示意图。
图5为本发明所述事件脉络生成装置实施例的组成结构示意图。
【具体实施方式】
针对现有技术中存在的问题,本发明中提出一种事件脉络生成方案,可以有效地从大量的资源中筛选出最能反映事件进展情况的代表性资源,并自动地生成事件脉络展示给用户。
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
实施例一
图1为本发明所述事件脉络生成方法实施例的流程图,如图1所示,包括以下具体实现方式:
在11中,针对待处理的事件,分别获取各时间窗口内的资源;
在12中,针对每个时间窗口,分别确定出该时间窗口内的各资源的重要性评分,并从该时间窗口内的各资源中选出重要性评分符合预定要求的资源,将选出的资源作为该时间窗口内的代表性资源;
在13中,将各时间窗口内的代表性资源按照时间顺序进行组合,得到事件脉络。
所述资源可为新闻资源等。
为实现上述方案,需要预先获取训练样本,并根据训练样本训练得到评估模型,这样,针对待处理的事件,可以时间窗口为单位,针对每个时间窗口内获取到的资源,分别根据评估模型确定出各资源的重要性评分,并从每个时间窗口内的各资源中选出重要性评分符合预定要求的资源,将选出的资源作为该时间窗口内的代表性资源,进而将各时间窗口内的代表性资源按照时间顺序进行组合,得到事件脉络。
以下分别对上述各部分内容进行详细介绍。
一)训练样本
为了得到后续的评估模型,需要首先获取训练样本。
本发明所述方案中,可采用基于配对(pairwise)的方法,从若干有时间顺序的资源中,选出最能反映事件发展的几个资源,从而即能获取到被选出的资源与未被选出的资源之间的优劣关系,进而生成训练样本。
比如,可将任一事件对应的任一时间窗口内的资源进行展示,获取从所展示的资源中选定的优质资源,分别将每个优质资源与所展示的每个非优质资源组成一个资源对,分别生成每个资源对对应的训练样本。
以“明星A离婚”事件为例,整个事件是在随着时间不断发展的,可分别获取到每个时间窗口内的资源。时间窗口,是指将整个事件发展的时间轴切分(比如可以等时长进行切分)为多个连续的时间段后所得到的每个时间段。
图2为本发明所述获取到的一个时间窗口内的资源示意图,如图2所示,可将这些资源展示给样本收集人员,样本收集人员可从中选出认为最能反映“明星A离婚”事件的来龙去脉的2个资源,将选定的资源作为优质资源。
之后,可分别将每个优质资源与所展示的每个非优质资源组成一个资源对。
比如,选定的优质资源为图2中所示的资源1和资源2,那么可得到以下资源对:(资源1、资源3)、(资源1、资源4)、(资源1、资源5)、(资源2、资源3)、(资源2、资源4)、(资源2、资源5)等。
再之后,可分别生成每个资源对对应的训练样本,每个训练样本中可包括:分别从一个资源对中的两个资源中提取出的特征,以及,两个资源孰优孰劣的判定结果。
即针对每个资源对,可分别对该资源对中的每个资源进行特征提取,并结合两个资源资源孰优孰劣的判定结果,生成一个训练样本。
判定结果可用1和0来表示,比如,若一个资源对中的前一个资源优于后一个资源,则判定结果可为1,反之,若后一个资源优于前一个资源,则判定结果可为0。
这样,以(资源1、资源3)、(资源2、资源4)两个资源对为例,其对应的训练样本将分别为:(资源1的特征、资源3的特征、1)、(资源2的特征、资源4的特征、1)。
采用上述处理方式,每次只展示给样本收集人员一个时间窗口内的若干条资源,让样本收集人员从中选出最优的几条资源,从而使样本收集人员在进行选择时充分考虑了事件脉络的时间性背景,即不仅考虑了资源的相关性,还考虑了资源的脉络重要性,同时,采用上述处理方式,使得样本收集人员通过较少的工作就能获取到较多的训练样本,从而提高了样本收集效率等。
二)特征提取
从每个资源中提取出的特征包括但不限于以下之一或任意组合,较佳地,可提取出以下全部特征:
纯文本特征、资源热度特征、搜索热度特征、相似资源数特征。
1)纯文本特征
如何获取资源的纯文本特征为现有技术,比如,可基于词袋(Bag of words)方法,利用词频-逆文档频率(TF-IDF,Term Frequency-Inverse Document Frequency)的权重计算方式提取出资源的纯文本特征。
2)资源热度特征
这个特征主要反映的是资源被点击阅读的数量,如何获取同样为现有技术。
3)搜索热度特征
对于事件脉络而言,在脉络的关键节点,往往能引起人们对其进行搜索,通过对如百度搜索日志等进行分析,可以查找到对某个关键词在哪个时间点的搜索量达到峰值,与这个时间点对应的资源往往在事件发展过程中具有较重要的意义。
对于两个不同的资源,假设均对应关键词“明星A离婚”,由于两个资源的发布时间不同,对应的在资源发布时该关键词的搜索热度也会不同,因此,可将搜索热度作为资源的一个重要特征。
4)相似资源数特征
在互联网中,重要的资源常常会被以不同形式转载,其在内容上通常是相似的,因此,可通过对互联网海量数据的挖掘,提取出每个资源的相似资源数,作为该资源的特征,从另一个方面反映资源的重要性。
在以上介绍的内容的基础上,如何获取资源的搜索热度特征以及相似资源数特征为现有技术。
三)模型训练
在获取到足够多的训练样本之后,即可根据训练样本训练得到所需的评估模型,如何进行训练为现有技术。
评估模型的个数可以为一个,或者,为提高评估结果的准确性,评估模型的个数也可以大于一个,具体个数可根据实际需要而定。
可根据获取到的训练样本,分别训练得到每个评估模型。
每个评估模型均是一个pairwise的二分类模型,即使用评估模型可以对资源与资源之间的优劣关系进行判断。
评估模型可包括但不限于以下之一或任意组合:支持向量机(SVM,Support Vector Machine)模型、逻辑回归(Logistic Regression)模型、随机森林(Random Forest)模型等。
四)事件脉络生成
针对待处理的事件,可分别获取各时间窗口内的资源。
针对每个时间窗口,可根据评估模型,分别确定出该时间窗口内的各资源的重要性评分。
以任一时间窗口为例,针对该时间窗口内的每个资源,可分别进行以下处理:
a)将该资源作为待评估资源,将待评估资源与该时间窗口内的其它每个资源分别组成一个资源对;
b)根据评估模型分别确定出每个资源对中的两个资源孰优孰劣的判定结果;
c)统计判定结果满足以下条件的资源对数:待评估资源优于所在资源对中的另一资源;
d)将统计结果作为待评估资源的重要性评分。
其中,b)中所述处理中,针对每个资源对,可分别按照二)中所述特征提取方式,提取出该资源对中的每个资源的特征,进而根据提取出的特征以及评估模型,确定出该资源对中的两个资源孰优孰劣的判定结果,即将提取出的特征作为评估模型的输入,得到评估模型输出的判定结果。
另外,当评估模型数大于一时,针对每个资源对,将会根据每个评估模型分别获取到一个判定结果,可将各判定结果进行汇总,根据汇总结果确定出最终的判定结果。
比如,共存在3个评估模型,针对任一资源对x,3个评估模型输出的判定结果分别为1、1、0,那么由于判定结果为1的评估模型数为2,判定结果为0的评估模型数为1,因此可按照少数服从多数的原则,将1作为资源对x对应的判定结果。
假设一个时间窗口内包括4个资源,分别为资源1~资源4,按照上述方式进行处理后,可得到表一所示pairwise二分类矩阵:
表一 pairwise二分类矩阵
在表一中,各资源与自身之间的比较结果可用0来表示,从而不会对后续统计结果产生影响。
可分别对表一中的第2行~第5行中的数值进行求和,从而分别得到资源1~资源4的重要性评分,其中,资源1的重要性评分为1,资源2的重要性评分为3,资源3的重要性评分为2,资源4的重要性评分为1。
针对每个时间窗口,在分别获取到该时间窗口内的各资源的重要性评分之后,可从该时间窗口内的各资源中选出重要性评分符合预定要求的资源,将选出的资源作为该时间窗口内的代表性资源。
其中,选出重要性评分符合预定要求的资源的方式可为:
方式一
选出重要性评分最高的N个资源作为该时间窗口内的代表性资源,N为正整数,具体取值可根据实际需要而定,如可取值为1,以表一所对应的时间窗口为例,由于资源2的重要性评分最高,因此可将资源2作为该时间窗口内的代表性资源;
方式二
选出重要性评分大于预定阈值的资源作为该时间窗口内的代表性资源,所述阈值的具体取值同样可根据实际需要而定。
在分别得到各时间窗口内的代表性资源之后,将各时间窗口内的代表性资源按照时间顺序进行组合,即可得到事件脉络。
基于上述介绍,图3为本发明所述生成事件脉络的方式示意图,如图3所示,左侧的各资源表示获取到的各时间窗口内的所有资源,右侧的各资源表示确定出的各时间窗口内的代表性资源。
图4为本发明所述“明星A离婚”事件对应的事件脉络示意图。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
实施例二
图5为本发明所述事件脉络生成装置实施例的组成结构示意图,如图5所示,包括:处理单元51。
处理单元51,用于针对待处理的事件,分别获取各时间窗口内的资源;针对每个时间窗口,分别确定出该时间窗口内的各资源的重要性评分,并从该时间窗口内的各资源中选出重要性评分符合预定要求的资源,将选出的资源作为该时间窗口内的代表性资源;将各时间窗口内的代表性资源按照时间顺序进行组合,得到事件脉络。
如图5所示,所述装置中可进一步包括:模型训练单元52。
模型训练单元52,用于获取训练样本,根据训练样本训练得到评估模型,将评估模型发送给处理单元51;相应地,处理单元51根据评估模型,分别确定出各时间窗口内的各资源的重要性评分。
其中,模型训练单元52中可具体包括:样本收集子单元521以及模型训练子单元522。
样本收集子单元521,用于将任一事件对应的任一时间窗口内的资源进行展示,获取从所展示的资源中选定的优质资源,分别将每个优质资源与所展示的每个非优质资源组成一个资源对,分别生成每个资源对对应的训练样本,将训练样本发送给模型训练子单元522。
模型训练子单元522,用于根据训练样本训练得到评估模型,将评估模型发送给处理单元51。
所生成的每个训练样本中可包括:分别从一个资源对中的两个资源中提取出的特征,以及,两个资源孰优孰劣的判定结果。
即针对每个资源对,可分别对该资源对中的每个资源进行特征提取,并结合两个资源资源孰优孰劣的判定结果,生成一个训练样本。
判定结果可用1和0来表示,比如,若一个资源对中的前一个资源优于后一个资源,则判定结果可为1,反之,若后一个资源优于前一个资源,则判定结果可为0。
从每个资源中提取出的特征可包括但不限于以下之一或任意组合:纯文本特征、资源热度特征、搜索热度特征、相似资源数特征。
另外,评估模型的个数可以为一个,或者,为提高评估结果的准确性,评估模型的个数也可以大于一个,模型训练子单元522可根据获取到的训练样本,分别训练得到每个评估模型。
评估模型可包括但不限于以下之一或任意组合:支持向量机模型、逻辑回归模型、随机森林模型。
如图5所示,处理单元51中可具体包括:获取子单元511、选择子单元512以及组合子单元513。
获取子单元511,用于针对待处理的事件,分别获取各时间窗口内的资源,并发送给选择子单元512。
选择子单元512,用于针对每个时间窗口,分别进行以下处理:
针对该时间窗口内的每个资源,分别将该资源作为待评估资源,将待评估资源与该时间窗口内的其它每个资源分别组成一个资源对;根据评估模型分别获取到每个资源对中的两个资源孰优孰劣的判定结果;统计判定结果满足以下条件的资源对数:待评估资源优于所在资源对中的另一资源;将统计结果作为待评估资源的重要性评分;
从该时间窗口内的各资源中选出重要性评分符合预定要求的资源,将选出的资源作为该时间窗口内的代表性资源,发送给组合子单元513。
组合子单元513,用于将各时间窗口内的代表性资源按照时间顺序进行组合,得到事件脉络。
针对每个资源对,选择子单元512可首先分别提取出该资源对中的每个资源的特征,进而根据提取出的特征以及评估模型,确定出该资源对中的两个资源孰优孰劣的判定结果,即将提取出的特征作为评估模型的输入,得到评估模型输出的判定结果。
当评估模型数大于一时,针对每个资源对,选择子单元512可分别根据每个评估模型获取到一个判定结果,进而将各判定结果进行汇总,并根据汇总结果确定出最终的判定结果。
针对每个时间窗口,选择子单元512在分别获取到该时间窗口内的各资源的重要性评分之后,可从该时间窗口内的各资源中选出重要性评分符合预定要求的资源,将选出的资源作为该时间窗口内的代表性资源。
比如,针对每个时间窗口,选择子单元512可从该时间窗口内的各资源中选出重要性评分最高的N个资源,N为正整数,将选出的资源作为该时间窗口内的代表性资源。
或者,针对每个时间窗口,选择子单元512可从该时间窗口内的各资源中选出重要性评分大于预定阈值的资源,将选出的资源作为该时间窗口内的代表性资源。
在分别得到各时间窗口内的代表性资源之后,组合子单元513可将各时间窗口内的代表性资源按照时间顺序进行组合,从而得到事件脉络。
图5所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,此处不再赘述。
总之,采用本发明所述方案,针对待处理的事件,可分别获取各时间窗口内的资源,并针对每个时间窗口,分别从中选出最能反映事件进展情况的代表性资源,进而利用所选出的各时间窗口内的代表性资源组合得到事件脉络,这样,当用户使用如搜索引擎进行搜索时,可直接将事件脉络展示给用户,从而克服了现有技术中存在的问题,进而提高了用户的信息获取效率。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。