一种新闻话题组织方法及装置制造方法

文档序号:6492709阅读:106来源:国知局
一种新闻话题组织方法及装置制造方法
【专利摘要】本发明公开了一种新闻话题组织方法及装置,一种新闻话题组织方法包括:获取距当前时刻TW1时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值;如果是,则对新生成的类簇内容与相应的新闻话题内容进行合并;如果否,则针对新生成的类簇创建新的新闻话题。应用本发明方案,可以更好地满足用户阅读新闻时的时效性需求。
【专利说明】一种新闻话题组织方法及装置
【技术领域】
[0001]本发明涉及互联网【技术领域】,特别是涉及一种新闻话题组织方法及装置。
【背景技术】
[0002]随着互联网的飞速发展,网络上的信息量也呈爆炸性增长。其中,在互联网阅读新闻已经成为人们获取信息的重要手段。面对海量的互联网新闻,如何令用户快速、准确地从中获取自身所关注的信息,特别是最近一段时间发生的热点或重大事件,已经成为当前一个重要的研究方向。
[0003]根据现有技术的实现方式,对于一定数量的新闻,可以采用特定的算法进行聚类,然后根据聚类结果辅以人工整理,得到若干新闻话题分类。这种方案可以在一定程度把内容相关联的新闻归为同类,以便用户有选择、有针对性地阅读。
[0004]然而,对于新闻消息而言,“时效性”是一个重要的特性,例如:如果一些新闻消息如果过去很久,有可能是事件已经停止了,用户的实际关注度也会降低;也可能是事情还在继续发展,但是用户具体关注的中心主题发生了偏移。现有技术仅仅是静态地对已有的新闻进行聚类,因此无法满足用户对新闻话题阅读的时效性要求。

【发明内容】

[0005]为解决上述技术问题,本发明实施例提供一种新闻话题组织方法及装置,技术方案如下:
[0006]本发明实施例提供一种新闻话题组织方法,该方法包括:
[0007]获取距当前时刻TWl时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;
[0008]获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值;
[0009]如果是,则对新生成的类簇内容与相应的新闻话题内容进行合并;
[0010]如果否,则针对新生成的类簇创建新的新闻话题;
[0011]其中,Tffl和TW2均为预设的时间长度,Tffl < Tff2O
[0012]根据本发明的一种【具体实施方式】,所述对所获取的新闻文档进行聚类,具体实现为:
[0013]利用层次聚类算法,对所获取的新闻文档进行聚类。
[0014]根据本发明的一种【具体实施方式】,所述判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值,具体实现为:
[0015]利用单遍聚类算法,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值。
[0016]根据本发明的一种【具体实施方式】,在对新生成的类簇内容与相应的新闻话题内容进行合并之后,还包括:[0017]根据合并结果,计算该新闻话题的新聚类中心,所述聚类中心内容用于生成该新闻话题的子话题。
[0018]根据本发明的一种【具体实施方式】,所述根据合并结果,计算该新闻话题的新聚类中心,具体实现为:
[0019]判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第二阈值,如果是,则根据合并结果计算新的聚类中心;其中,所述第二阈值不小于所述第一阈值。
[0020]本发明实施例还提供一种新闻话题组织装置,该装置包括:第一聚类单元、第二聚类单元、话题合并单元和话题创建单元;
[0021]第一聚类单元,用于获取距当前时刻TWl时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;
[0022]第二聚类单元,用于获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值;
[0023]如果是,则触发所述话题合并单元对新生成的类簇内容与相应的新闻话题内容进行合并;
[0024]如果否,则触发所述话题创建单元针对新生成的类簇创建新的新闻话题;
[0025]其中,Tffl和TW2均为预设的时间长度,Tffl < Tff2?
[0026]根据本发明的一种【具体实施方式】,所述第一聚类单元,具体用于:
[0027]利用层次聚类算法,对所获取的新闻文档进行聚类。
[0028]根据本发明的一种【具体实施方式】,所述第二聚类单元,具体用于:
[0029]利用单遍聚类算法,对新生成的类簇内容与相应的新闻话题内容进行合并。
[0030]根据本发明的一种【具体实施方式】,所述话题合并单元,还用于:
[0031]在对新生成的类簇内容与相应的新闻话题内容进行合并之后,根据合并结果,计算该新闻话题的新聚类中心,所述聚类中心内容用于生成该新闻话题的子话题。
[0032]根据本发明的一种【具体实施方式】,所述话题合并单元,具体用于:
[0033]判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第二阈值,如果是,则根据合并结果计算新的聚类中心;其中,所述第二阈值不小于所述第一阈值。
[0034]本发明实施例提供了一种基于双时间窗和二次聚类的新闻话题组织方法。首先利用第一次聚类,针对最近一段时间内的新闻生成若干类簇,由于新闻流存在边缘效应,即相比其它发布时间间隔较远的消息,发布时间间隔较近的消息更有可能是讨论相关的话题,因此利用第一时间窗TWl限制第一次聚类的范围,可以更有效地生成潜在的新闻话题。进一步利用第二次聚类,判断最新生成的类簇是合并到之前创建的某个话题中,还是需要新创建一个话题,第二次聚类的范围利用第二时间窗TW2来限定,避免与很多已经结束的话题进行比较,不仅可以提高计算效率,而且最终组织出的话题结果也能够更好地满足用户阅读新闻时的“时效性”需求。
【专利附图】

【附图说明】
[0035]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例 ,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0036]图1为本发明实施例新闻话题组织方法的一种流程图;
[0037]图2为本发明实施例聚类算法的一种示意图;
[0038]图3为本发明实施例新闻话题组织装置的一种结构示意图。
【具体实施方式】
[0039]首先对本发明实施例所提供的一种新闻话题组织方法,该方法包括:
[0040]获取距当前时刻TWl时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;
[0041]获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值;
[0042]如果是,则对新生成的类簇内容与相应的新闻话题内容进行合并;
[0043]如果否,则针对新生成的类簇创建新的新闻话题。
[0044]上述方案提供了一种基于双时间窗和二次聚类的新闻话题组织方法。首先利用第一次聚类,针对最近一段时间内的新闻生成若干类簇,由于新闻流存在边缘效应,即相比其它发布时间间隔较远的消息,发布时间间隔较近的消息更有可能是讨论相关的话题,因此利用第一时间窗TWl限制第一次聚类的范围,可以更有效地生成潜在的新闻话题。进一步利用第二次聚类,判断最新生成的类簇是合并到之前创建的某个话题中,还是需要新创建一个话题,第二次聚类的范围利用第二时间窗TW2来限定,避免与很多已经结束的话题进行比较,不仅可以提高计算效率,而且最终组织出的话题结果也能够更好地满足用户阅读新闻时的“时效性”需求。
[0045]为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
[0046]图1所示,为本发明实施例所提供的一种新闻话题组织方法的流程示意图,该方法可以包括以下步骤:
[0047]S101,获取距当前时刻TWl时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇;
[0048]根据新闻报导的一般特性,描述同一话题的新闻报道会集中在一段时间内发布的,为了对这一段的时间内的信息进行处理,本发明实施例所提供的方案是:在新进来的新闻报道流里加一个时间窗,在这个时间窗内等待或缓冲新闻流。等到这个时间窗到达结尾时,再对这个时间窗内的新闻报道进行局部聚类,形成一些候选的话题簇。每个候选话题簇既可能描述了一个新事件,也可能是某个旧话题中的相关事件。后续可以利用这些新生成的候选话题簇与之前的旧话题比较相似度,进行归并或生成新话题。
[0049]这里定义的时间窗(Time Window)是指某个时间段内的长度,可以以天数或小时为单位,本发明实施例共涉及两个时间窗,对于上述出现的第一个时间窗,记为TW1,Tffl可以预先根据实际的话题更新需求进行设置,例如设置TWl=I天。
[0050]新出现的新闻报导,其涉及内容五花八门,为了实现更好的聚类效果,在本发明的一种优选实施方式中,在时间窗TWl内,可以使用HAC (凝聚式层次聚类)算法对最新的新闻文档进行聚类。这种算法相比基于划分的聚类算法(例如K-means)来说,不需要事先指定簇的数目,而且聚类准确率更高,因此更适用于内容存在较大不确定性的最新报道的处理。
[0051]在时间窗TWl内使用HAC算法是一个局部聚类的过程,其输入是TWl时间窗内的文档集docSet,输出是TWl时间窗内的候选话题簇集合C,基本处理过程描述如下:
[0052]如果存在历史DF (文档频率)记录,则首先在内存中加载该记录,该记录的格式是“词条一文档ID列表”,如表1所示:
[0053]
【权利要求】
1.一种新闻话题组织方法,其特征在于,该方法包括: 获取距当前时刻TWl时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇; 获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值; 如果是,则对新生成的类簇内容与相应的新闻话题内容进行合并; 如果否,则针对新生成的类簇创建新的新闻话题; 其中,Tffl和TW2均为预设的时间长度,Tffl < Tff2O
2.根据权利要求1所述的方法,其特征在于,所述对所获取的新闻文档进行聚类,具体实现为: 利用层次聚类算法,对所获取的新闻文档进行聚类。
3.根据权利要求1所述的方法,其特征在于,所述判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值,具体实现为: 利用单遍聚类算法,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值。
4.根据权利要求1所述的方法,其特征在于,在对新生成的类簇内容与相应的新闻话题内容进行合并之后,还包括: 根据合并结果, 计算该新闻话题的新聚类中心,所述聚类中心内容用于生成该新闻话题的子话题。
5.根据权利要求4所述的方法,其特征在于,所述根据合并结果,计算该新闻话题的新聚类中心,具体实现为: 判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第二阈值,如果是,则根据合并结果计算新的聚类中心;其中,所述第二阈值不小于所述第一阈值。
6.一种新闻话题组织装置,其特征在于,该装置包括:第一聚类单元、第二聚类单元、话题合并单元和话题创建单元; 第一聚类单元,用于获取距当前时刻TWl时段内所发布的新闻文档,根据文档内容对所获取的新闻文档进行聚类,生成若干类簇; 第二聚类单元,用于获取已当前已创建、且在距当前时刻TW2时段内存在更新的新闻话题,判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第一阈值; 如果是,则触发所述话题合并单元对新生成的类簇内容与相应的新闻话题内容进行合并; 如果否,则触发所述话题创建单元针对新生成的类簇创建新的新闻话题; 其中,Tffl和TW2均为预设的时间长度,Tffl < Tff2O
7.根据权利要求6所述的装置,其特征在于,所述第一聚类单元,具体用于: 利用层次聚类算法,对所获取的新闻文档进行聚类。
8.根据权利要求6所述的装置,其特征在于,所述第二聚类单元,具体用于: 利用单遍聚类算法,对新生成的类簇内容与相应的新闻话题内容进行合并。
9.根据权利要求6所述的装置,其特征在于,所述话题合并单元,还用于: 在对新生成的类簇内容与相应的新闻话题内容进行合并之后,根据合并结果,计算该新闻话题的新聚类中心,所述聚类中心内容用于生成该新闻话题的子话题。
10.根据权利要求9所述的装置,其特征在于,所述话题合并单元,具体用于: 判断新生成的类簇与已创建的新闻话题内容相似性是否达到预设的第二阈值,如果是,则根据合并结果计算新的聚类中心`;其中,所述第二阈值不小于所述第一阈值。
【文档编号】G06F17/30GK103870474SQ201210534034
【公开日】2014年6月18日 申请日期:2012年12月11日 优先权日:2012年12月11日
【发明者】彭卫华, 王亚伟, 韩兴凯, 陈洪亮 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1