一种用于确定新闻主题的热度信息的方法与设备与流程

文档序号:13886844阅读:319来源:国知局

本申请涉及通信领域,尤其涉及一种用于确定新闻主题的热度信息的技术。



背景技术:

随着互联网应用的发展,用户对于应用的使用依赖性日益增加,例如,多数用户已经习惯了从一个或多个新闻应用中读取新闻以满足日常信息获取的需要,通常若某一内容对应的新闻在一定时段爆发性地被发布、转载、评论时,将会引来广泛的用户关注,并带来较大的社会影响,而在信息化时代,多数用户希望在较短时间内获取到这些社会关注度较高的新闻,提高信息获取的效率,因此确定并预测这类热度较高的新闻有着极大的市场需求和应用前景,但是现有技术缺乏对当前爆发式新闻进行热度信息确定的有效方法。



技术实现要素:

本申请的目的是提供一种用于确定新闻主题的热度信息的方法与设备。

根据本申请的一个方面,提供了一种用于确定新闻主题的热度信息的方法,包括:

基于新闻内容信息对待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;

根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。

根据本申请的另一个方面,还提供了一种用于预测热点新闻主题的方法,包括:

基于新闻内容信息对待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;

根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息;

若所述新闻主题的热度信息低于预定的第一新闻热度阈值且达到预定的第二新闻热度阈值时,将所述新闻主题对应的主题描述信息与当前热点信息集合进行匹配以确定预测热点新闻主题,其中,所述主题描述信息来源于所述新闻主题对应的所述新闻的新闻内容信息。

根据本申请的另一个方面,还提供了一种用于确定新闻主题的热度信息的方法,包括:

从用户设备的一个或多个新闻应用中获取多条新闻,其中,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;

基于新闻内容信息对所述多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻;

根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。

根据本申请的再一方面,还提供了一种用于确定新闻主题的热度信息的设备,包括:

第一装置,用于基于新闻内容信息对待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;

第二装置,用于根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。

根据本申请的再一方面,还提供了一种用于预测热点新闻主题的设备,包括:

第五装置,用于基于新闻内容信息对待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;

第六装置,用于根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息;

第七装置,用于若所述新闻主题的热度信息低于预定的第一新闻热度阈值且达到预定的第二新闻热度阈值时,将所述新闻主题对应的主题描述信息与当前热点信息集合进行匹配以确定预测热点新闻主题,其中,所述主题描述信息来源于所述新闻主题对应的所述新闻的新闻内容信息。

根据本申请的再一方面,还提供了一种用于确定新闻主题的热度信息的设备,包括:

第八装置,用于从用户设备的一个或多个新闻应用中获取多条新闻,其中,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;

第九装置,用于基于新闻内容信息对所述多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻;

第十装置,用于根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。

与现有技术相比,本申请通过对满足一定时域特征的多条新闻进行聚类以获得一个或多个对应于相应新闻主题的新闻聚类,进而,基于每个新闻聚类中新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。在此,通过本申请可以实现在热度信息维度给不同新闻主题进行有效地定位,例如,有效地确定出在一定时段爆发性地被发布、转载、评论的、并带来广泛用户关注和较大社会影响的新闻对应的热度信息。由此,可以满足在信息爆炸时代,用户对于不同热度信息对应的新闻、特别是热点新闻的准确、快速获取的需要。

进一步,本申请通过所述新闻聚类中所述新闻对应的新闻内容信息、新闻传播信息、新闻平台信息等一种或多种维度的信息来确定所述新闻聚类中所述新闻的热度特征信息,优选地,当所参考的上述信息种类越全面丰富,则所述热度特征信息的准确性就越高,基于此,通过同一个新闻聚类中所述新闻的所述热度特征信息所确定出的该新闻聚类对应的新闻主题的热度信息其准确性也就越高。

进一步,当所述新闻主题的热度信息达到预定的第一新闻热度阈值时,确定所述新闻主题为热点新闻主题;进一步,还可以将所述热点新闻主题对应的新闻聚类中的新闻确定为热点新闻。在本申请的一个优选场景中,可以基于所述新闻聚类所对应新闻主题的热度信息,结合所述预定的第一新闻热度阈值,筛选出热点新闻主题,或是热点新闻,从而满足了在信息爆炸时代,热点新闻主题、热点新闻的对应的市场需求,例如,可以满足应用用户对热点新闻的准确、快速获取的需要。

此外,本申请还通过对满足一定时域特征的多条新闻进行聚类以获得一个或多个对应于相应新闻主题的新闻聚类,并基于每个新闻聚类中新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息,若所述新闻主题的热度信息低于预定的第一新闻热度阈值且达到预定的第二新闻热度阈值时,将所述新闻主题对应的主题描述信息与当前热点信息集合进行匹配以确定预测热点新闻主题,其中,所述主题描述信息来源于所述新闻主题对应的所述新闻的新闻内容信息。在此,本申请可以利用所述新闻主题的热度信息,并结合当前热点信息集合,实现未来的热点新闻主题的预测,以满足用户的信息获取需求,给用户带来更优的信息服务体验。

此外,本申请的一个优选场景是,通过用户对应的用户设备上的一个或多个新闻应用提取的多条新闻进行聚类以获得一个或多个对应于相应新闻主题的新闻聚类,并基于每个新闻聚类中新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。在此,所述多条新闻的获取可以来源于各个需求用户对应的用户设备,由此,基于用户偏好的新闻应用,可以实现所述新闻主题的热度信息的定制化偏好,从而更加贴合每个具体用户的实际信息获取需要和偏好。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1示出根据本申请一个方面的一种用于确定新闻主题的热度信息的设备的设备示意图;

图2示出根据本申请另一方面的一种用于预测热点新闻主题的设备的设备示意图;

图3示出根据本申请另一方面的一种用于确定新闻主题的热度信息的设备的设备示意图;

图4示出根据本申请再一方面的一种用于确定新闻主题的热度信息的方法流程图;

图5示出根据本申请再一方面的一种用于预测热点新闻主题的方法流程图;

图6示出根据本申请再一方面的一种用于确定新闻主题的热度信息的方法流程图;

图7示出根据本申请一个优选实施例的一种用于确定新闻主题的热度信息的示例图;

图8示出根据本申请又一个优选实施例的一种用于确定新闻主题的热度信息的示例图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

图1示出根据本申请一个方面的一种用于确定新闻主题的热度信息的设备1的设备示意图。其中,所述设备1包括第一装置101和第二装置102。

其中,所述第一装置101基于新闻内容信息对待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;所述第二装置102根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。

在此,所述设备1包括但不限于各种移动智能设备、个人计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(cloudcomputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。当然,本领域技术人员应能理解上述设备1仅为举例,其他现有的或今后可能出现的设备1如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

具体地,所述第一装置101基于新闻内容信息对待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值。在此,所述新闻内容信息可以包括但不限于新闻的标题信息、新闻的正文信息、新闻的图片信息等。所述设备1可以从任意设备装置、或是应用中获取所述多条新闻,例如,若所述设备1是网络设备,如各种计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云等,则所述设备1可以从不同的网页平台抓取新闻、或是模拟用户设备获取应用推送的新闻、或是直接获取对应用户设备提供的由用户设备获取到的新闻;又如,若是所述设备1是用户设备,如各种智能终端,如移动智能设备、个人计算机等,则所述设备1可以获取加载在所述该设备1上的各类新闻应用中的所述多条新闻。在此,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值,此时,所述多条新闻的时域特征越集中,即所述时间间隔越小,则基于所述多条新闻确定的新闻聚类,或者新闻主题,其爆发式新闻的特征性越明显,在此场景下,确定新闻主题的热度信息的作用和价值越大。在此,本申请优选地,所述设备1的第一装置101可以周期性实时获取所述多条新闻,以保证新闻主题的热度信息确定的时效性。在此,可以通过聚类方法对所述多条新闻进行处理,确定出一个或多个新闻聚类,其中,每个新闻聚类包含一个或多个所述新闻,同时,所述每个新闻聚类对应一个新闻主题,该新闻主题是所述新闻聚类中包含的所有所述新闻对应的新闻主题。

在此,优选地,所述第一装置101包括第三单元(未示出)和第四单元(未示出)。其中,所述第三单元通过结合热词库对新闻内容信息进行切词处理,确定待处理的多条新闻中每条新闻的内容特征向量;所述第四单元根据所述内容特征向量对所述待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值。

具体地,所述第三单元通过结合热词库对新闻内容信息进行切词处理,确定待处理的多条新闻中每条新闻的内容特征向量。在此,优选地,对每一个所述新闻进行切词处理,可以是对新闻标题进行切词处理,还可以是对部分或全部的文本段落进行切词处理。在此,优选地,可以将所述热词库中的词汇作为切词处理的参照信息。所述热词库可以包含各种词汇信息,例如,优选地,所述热词库包括多个热词,所述热词来自于热点新闻。在此,所述热点新闻可以是在本申请确定出的新闻主题的热度信息的基础上、进一步确定的热点新闻,还可以是基于任意其他方法确定的热点新闻,或是被认可、或接收的各种热点新闻。在此,基于所述切词处理确定出所述多条新闻中每条新闻的内容特征向量,例如,基于新闻a的新闻标题“美国调查奥兰多”进行切词处理,得到对应的内容特征向量可以是[美国,调查,奥兰多,枪击案],又如,基于新闻b的新闻标题“美国枪击案凶手:看到同性恋亲吻十分愤怒”进行所述切词处理,得到对应的内容特征向量可以是[美国,枪击案,凶手,看到,同性恋,亲吻,十分,愤怒]。

接着,所述第四单元根据所述内容特征向量对所述待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值。在此,优选地,基于两两新闻各自的所述内容特征向量,确定两者的向量间距离,进而通过所述向量间距离判断两个向量的近似度确定所述新闻聚类,若是所述近似度达到一定近似度阈值,则推定为同一个新闻聚类。例如,上述新闻a的内容特征向量是[美国,调查,奥兰多,枪击案],新闻b的内容特征向量是[美国,枪击案,凶手,看到,同性恋,亲吻,十分,愤怒],计算两个新闻的内容特征向量的交集是[美国,枪击案],交集数是2;再计算两个新闻的内容特征向量的并集是[美国,调查,奥兰多,枪击案,凶手,看到,同性恋,亲吻,十分,愤怒],并集数是10,则定义两个内容特征向量的距离为2/10=0.2,若预设的所述近似度阈值为m,则若0.2≥m时,判定所述新闻a与新闻b相似,即两者属于同一个新闻聚类,并对应同一个新闻主题;若0.2<m,则判定所述新闻a与新闻b不相似,即两者不属于同一个新闻聚类。

在此,本领域技术人员应该能够理解,上述基于所述内容特征向量进行所述聚类处理以获得所述新闻聚类的具体方法仅为举例,其他现有的或今后可能出现的其他聚类处理方法如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

接着,所述第二装置102根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。在此,基于属于同一个新闻聚类的一个或多个所述新闻各自的热度特征信息的分析,确定其从属的所述新闻聚类对应的新闻主题的热度信息。在此,优选地,所述第二装置102包括第一单元(未示出)和第二单元(未示出),其中,所述第一单元确定所述新闻聚类中所述新闻的热度特征信息;所述第二单元根据所述热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。

在此,更优选地,所述第一单元用于根据以下至少任一项确定所述新闻聚类中所述新闻的热度特征信息:一是新闻内容信息;二是新闻传播信息;三是新闻平台信息。在此,所述新闻平台信息包括但不限于:新闻平台类型信息,例如,所述新闻是来自网页平台,所述网页平台可以包括各种搜索引擎、各类搜索网站等,或是来自用户设备应用推送;新闻平台业内排名信息;新闻平台用户群类型信息,例如用户群的年龄层次信息、用户群的职业类别信息等;新闻平台用户群数量信息,例如用户群的数量级别信息等;新闻平台热度信息等。在此,所述新闻对应的新闻平台信息可以是上述任意一项或多项,也可以不限于上述举例。在此,所述新闻传播信息包括以下至少任一项:所述新闻的发布时间信息;所述新闻的转发量;所述新闻的评论量。在此,所述新闻对应的新闻传播信息可以是上述任意一项或多项,也可以不限于上述举例。在此,所述新闻内容信息中可能会包含能反映新闻的热度特征信息对应得描述性信息,例如,新闻影响力大、波及范围广泛的描述性文字等。在此,所述新闻的热度特征信息可以是上述具体信息的一种或多种的集合,其中,可以直接由上述各种信息内容直接表示对应热度特征信息;或是映射为预先设置的、所述各类信息对应的热度特征参数;在此,所述新闻的热度特征信息还可以是基于所述新闻的各种上述具体信息,得到其综合的热度特征信息。

在此,本领域技术人员应该能够理解,上述新闻内容信息、新闻传播信息、新闻平台信息等的具体内容仅为举例,其他现有的或今后可能出现的其他新闻内容信息、新闻传播信息、新闻平台信息如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。

在此,本申请通过所述新闻聚类中所述新闻对应的新闻内容信息、新闻传播信息、新闻平台信息等一种或多种维度的信息来确定所述新闻聚类中所述新闻的热度特征信息,优选地,当所参考的上述信息种类越全面丰富,则所述热度特征信息的准确性就越高,基于此,通过同一个新闻聚类中所述新闻的所述热度特征信息所确定出的该新闻聚类对应的新闻主题的热度信息其准确性也就越高。

接着,所述第二单元根据所述热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。在此,优选地,可以通过机器学习算法,训练出基于所述热度特征信息确定出所述新闻主题的热度信息的模型,其中,优选地,可以赋予不同的热度特征信息以不同的权重信息。例如,对于新闻平台类型信息,来自用户设备应用推送的新闻其热度特征信息的权重要大于来自网页平台的新闻。又如,新闻平台在业内排名信息靠前的新闻其热度特征信息的权重要大于在业内排名信息靠后的新闻。进一步,所述新闻主题对应的热度信息的确定,可以同时结合多种热度特征信息,例如,若是所述新闻的发布时间信息集中在很小的时间段;同时所述新闻的转发量、所述新闻的评论量数量巨大,则可以推定所述新闻主题的热度信息。在此,优选地,所述新闻主题的热度信息包括以下至少任一项:所述新闻主题对应的新闻数量信息;所述新闻主题在所述一个或多个新闻平台的发布比率;所述新闻主题对应的发布时域信息;所述新闻主题对应的传播力度信息;所述新闻主题对应的新闻平台价值信息;所述新闻主题的综合热度信息。在此,例如,可以基于新闻聚类对应的新闻的数量信息推定其对应新闻主题的热度信息,如一般情况下,新闻的数量信息较多的新闻主题,其对应的新闻主题的热度信息较高。又如,通过属于所述同一个新闻主题在各个新闻平台上发布的新闻的总数量与参与统计的全部新闻平台的比值确定所述新闻主题在所述一个或多个新闻平台的发布比率。又如将所述新闻主题对应的所述新闻的集中发布的时间长度确定为所述发布时域信息。又如,基于所述新闻单位时间内所述新闻的转发量、评论量确定所述新闻主题对应的传播力度信息。又如,基于所述新闻对应的新闻平台信息确定所述新闻平台价值信息。又如,基于对上述各类所述新闻主题的热度信息的加权计算得到所述新闻主题的综合热度信息。在此,优选地,所述新闻主题的热度信息可以通过数值量化形式来表示。

在此,本申请通过对满足一定时域特征的多条新闻进行聚类以获得一个或多个对应于相应新闻主题的新闻聚类,进而,基于每个新闻聚类中新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。在此,通过本申请可以实现在热度信息维度给不同新闻主题进行有效地定位,例如,有效地确定出在一定时段爆发性被发布、转载、评论的、并带来广泛用户关注和较大社会影响的新闻对应的热度较高。由此,可以满足在信息爆炸时代,用户对于不同热度信息对应的新闻、特别是热点新闻的准确、快速获取的需要。

在一个优选实施例中,所述设备1还包括第三装置(未示出),其中,所述第三装置当所述新闻主题的热度信息达到预定的第一新闻热度阈值时,确定所述新闻主题为热点新闻主题。在此,优选地,所述第一新闻热度阈值可以是量化的数值信息,并且,所述第一新闻热度阈值的内容随着额所说新闻主题热度信息的具体类型不同而有所不同,例如,若是,所述热度信息对应为所述新闻主题对应的新闻数量信息,则对应的所述第一新闻热度阈值是一定的数量阈值;若是所述热度信息对应为所述新闻主题的综合热度信息,则对应的所述第一新闻热度阈值是一个综合数值阈值。在此,对于达到所述第一新闻热度阈值标准的新闻主题推定为热点新闻主题。进一步,优选地,所述设备1还包括第四装置(未示出),所述第四装置将所述热点新闻主题对应的新闻聚类中的新闻确定为热点新闻。在此,所述热点新闻主题对应得所述新闻在一定时段爆发性被发布、转载、评论时,通常会引来广泛的用户关注,并带来较大的社会影响。

在本实施例中,当所述新闻主题的热度信息达到预定的第一新闻热度阈值时,确定所述新闻主题为热点新闻主题;进一步,还可以将所述热点新闻主题对应的新闻聚类中的新闻确定为热点新闻。在本申请的一个优选场景中,可以基于所述新闻聚类所对应新闻主题的热度信息,结合所述预定的第一新闻热度阈值,筛选出热点新闻主题,或是热点新闻,从而满足了在信息爆炸时代,热点新闻主题、热点新闻的对应的市场需求,例如,可以满足应用用户对热点新闻的准确、快速获取的需要。

图2示出根据本申请另一方面的一种用于预测热点新闻主题的设备2的设备示意图。其中,所述设备2包括第五装置201、第六装置202和第七装置203。在此,所述设备2包括但不限于各种移动智能设备、个人计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(cloudcomputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。当然,本领域技术人员应能理解上述设备2仅为举例,其他现有的或今后可能出现的设备2如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

具体地,所述第五装置201基于新闻内容信息对待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;接着,所述第六装置202根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息;接着,所述第七装置203在所述新闻主题的热度信息低于预定的第一新闻热度阈值且达到预定的第二新闻热度阈值时,将所述新闻主题对应的主题描述信息与当前热点信息集合进行匹配以确定预测热点新闻主题,其中,所述主题描述信息来源于所述新闻主题对应的所述新闻的新闻内容信息。在此,所述第五装置201、第六装置202与图1中示出的第一装置101、第二装置102内容相同或基本相同,在此不再赘述,并以引用的方式包含于此。

在此,所述第七装置203在所述新闻主题的热度信息低于预定的第一新闻热度阈值且达到预定的第二新闻热度阈值时,将所述新闻主题对应的主题描述信息与当前热点信息集合进行匹配以确定预测热点新闻主题,其中,所述主题描述信息来源于所述新闻主题对应的所述新闻的新闻内容信息。此时,若是所述新闻主题的热度信息低于所述第一新闻热度阈值,即在当前,所述新闻主题还不是所述热点新闻主题,但是其热度信息满足较之于所述第一新闻热度阈值较低的第二新闻热度阈值,则此时将所述新闻主题对应的主题描述信息与当前热点信息集合进行匹配。在此,所述主题描述信息来源于所述新闻主题对应的所述新闻的新闻内容信息,例如,是能够反映所述新闻主题的关键词等;在此,优选地,所述当前热点信息集合包括但不限于以下至少任一项:一个或多个新闻平台的热点信息,例如,各个新闻平台当前已有的热门词列表信息,例如,若所述新闻平台是搜索引擎、或是其他搜索网站,热点信息即可以是该搜索引擎、或搜索网站呈现的的热点信息,如,各类热门关注的关键词排行;一个或多个新闻平台对应的当前用户搜索信息,例如,各个新闻平台已有的用户热搜词,其可以来源于用户的搜索记录信息,如,各类搜索引擎中呈现的热搜榜,又如,各个新闻平台的信息指数,例如百度指数,包括但不限于用户搜索信息对应的各种量化信息、或图形分析信息,如搜索频率、搜索数量等搜索指数,对比百分比数据信息等。在此,可以基于相似算法、或是匹配算法进行上述的信息匹配,例如精确匹配、或是模糊匹配。进而,基于所述匹配的结果确定是否为预测热点新闻主题,若是所述新闻主题的所述主题描述信息与所述当前热点信息集合匹配,则推定所述新闻主题虽然当前还不能推定为热点主题,但是可以推定为未来一定时段的预测热点新闻主题。

在此,本申请还通过对满足一定时域特征的多条新闻进行聚类以获得一个或多个对应于相应新闻主题的新闻聚类,并基于每个新闻聚类中新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息,若所述新闻主题的热度信息低于预定的第一新闻热度阈值且达到预定的第二新闻热度阈值时,将所述新闻主题对应的主题描述信息与当前热点信息集合进行匹配以确定预测热点新闻主题,其中,所述主题描述信息来源于所述新闻主题对应的所述新闻的新闻内容信息。在此,本申请可以利用所述新闻主题的热度信息,并结合当前热点信息集合,实现未来的热点新闻主题的预测,以满足用户的信息获取需求,给用户带来更优的信息服务体验。

图3示出根据本申请另一方面的一种用于确定新闻主题的热度信息的设备3的设备示意图。其中,所述设备3包括第八装置301、第九装置302和第十装置303。在此,所述设备3包括但不限于各种移动智能设备、个人计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(cloudcomputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。当然,本领域技术人员应能理解上述设备3仅为举例,其他现有的或今后可能出现的设备3如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

具体地,所述第八装置301从用户设备的一个或多个新闻应用中获取多条新闻,其中,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;所述第九装置302基于新闻内容信息对所述多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻;所述第十装置303根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。

在此,所述第八装置301可以在所述用户设备的一个或多个新闻应用所发布的新闻中获取所述多条新闻,其中,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值。在此,所述设备3可以即是所述用户设备,如各种智能终端,如移动智能设备、个人计算机等,进一步,优选地,还可以为加载在所述用户设备上的目标应用。此时,所述设备3可以从该用户设备上加载的一个或多个新闻应用中直接抓取所述多条新闻,并且,所述多条新闻满足上述的时域条件。在此,所述设备3还可以是与所述用户设备对应得网络设备,如各种计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云等,此时,由所述用户设备将抓取到的所述多条新闻提供至所述设备3。在此,由于所述多条新闻的来源由所述设备中所述新闻应用的种类所确定,所以,对于不同用户设备来说,其对应的所述新闻聚类,及所述新闻聚类对应新闻主题的热度信息,其特征性差异可能会较为明显。在此,所述第九装置302、第十装置303与图1示出的第一装置101、第二装置102内容相同、或基本相同,在此不再赘述,并以引用的方法包含于此。

在此,所述多条新闻的获取可以来源于各个需求用户对应的用户设备,由此,基于用户偏好的新闻应用,可以实现所述新闻主题的热度信息的定制化偏好,从而更加贴合每个具体用户的实际信息获取需要和偏好。

优选地,所述设备3还包括第十一装置(未示出),所述第十一装置所述新闻主题的热度信息提供至所述用户设备。例如,将所述热度信息定期推送至所述用户设备,或是基于所述用户设备对应得用户请求而提供。在此,优选地,可以将所述热度信息的以各种具体内容呈现方式展现在所述用户设备的屏幕中。

优选地,所述设备3还包括第十二装置(未示出)和第十三装置(未示出),所述第十二装置基于一个或多个所述新闻主题的热度信息确定其中的热点新闻主题;所述第十三装置将所述热点新闻主题对应的新闻提供至所述用户设备。在此,例如可以设置当所述热度信息达到第三新闻热度阈值时,确定所述新闻主题为热点新闻主题。在此,优选地,所述第三新闻热度阈值可以是量化的数值信息,并且,所述第三新闻热度阈值的内容随着所述新闻主题热度信息的具体类型不同而有所不同。接着,所述第十三装置将所述热点新闻主题对应的新闻提供至所述用户设备。例如,将所述热点新闻主题对应的新闻定期推送至所述用户设备,或是基于所述用户设备对应得用户请求而提供。在此,可以同时提供同一个新闻主题的部分、或全部所述新闻;又或是,同时将一个或多个新闻主题对应的新闻提供至所述用户设备。在此,优选地,可以将所述热点新闻主题对应的新闻呈现在所述用户设备的屏幕中。例如,优选地,对于不同的新闻主题,可以按照新闻主题的热度信息高低顺序,进行所述新闻主题的排序呈现;对于同一个新闻主题的不同新闻,可以按照时间先后顺序、或是来源应用分类进行相应地呈现。

在此,本领域技术人员应该能够理解,上述将所述热点新闻主题对应的新闻提供至所述用户设备的方式、以及在所述用户设备上呈现的方式仅为举例,其他现有的或今后出现的将所述热点新闻主题对应的新闻提供至所述用户设备的方式、以及在所述用户设备上呈现的方式如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。

图4示出根据本申请再一方面的一种在设备1端用于确定新闻主题的热度信息的方法流程图。其中,所述方法包括步骤s401和步骤s402。

其中,在步骤s401中,所述设备1基于新闻内容信息对待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;在步骤s402中,所述设备1根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。

在此,所述设备1包括但不限于各种移动智能设备、个人计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(cloudcomputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。当然,本领域技术人员应能理解上述设备1仅为举例,其他现有的或今后可能出现的设备1如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

具体地,在步骤s401中,所述设备1基于新闻内容信息对待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值。在此,所述新闻内容信息可以包括但不限于新闻的标题信息、新闻的正文信息、新闻的图片信息等。所述设备1可以从任意设备装置、或是应用中获取所述多条新闻,例如,若所述设备1是网络设备,如各种计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云等,则所述设备1可以从不同的网页平台抓取新闻、或是模拟用户设备获取应用推送的新闻、或是直接获取对应用户设备提供的由用户设备获取到的新闻;又如,若是所述设备1是用户设备,如各种智能终端,如移动智能设备、个人计算机等,则所述设备1可以获取加载在所述该设备1上的各类新闻应用中的所述多条新闻。在此,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值,此时,所述多条新闻的时域特征越集中,即所述时间间隔越小,则基于所述多条新闻确定的新闻聚类,或者新闻主题,其爆发式新闻的特征性越明显,在此场景下,确定新闻主题的热度信息的作用和价值越大。在此,本申请优选地,所述设备1可以周期性实时获取所述多条新闻,以保证新闻主题的热度信息确定的时效性。在此,可以通过聚类方法对所述多条新闻进行处理,确定出一个或多个新闻聚类,其中,每个新闻聚类包含一个或多个所述新闻,同时,所述每个新闻聚类对应一个新闻主题,该新闻主题是所述新闻聚类中包含的所有所述新闻对应的新闻主题。

在此,优选地,所述步骤s401包括步骤s4011(未示出)和步骤s4012(未示出)。其中,在步骤s4011中,所述设备1通过结合热词库对新闻内容信息进行切词处理,确定待处理的多条新闻中每条新闻的内容特征向量;在步骤s4012中,所述设备1根据所述内容特征向量对所述待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值。

具体地,在步骤s4011中,所述设备1通过结合热词库对新闻内容信息进行切词处理,确定待处理的多条新闻中每条新闻的内容特征向量。在此,优选地,对每一个所述新闻进行切词处理,可以是对新闻标题进行切词处理,还可以是对部分或全部的文本段落进行切词处理。在此,优选地,可以将所述热词库中的词汇作为切词处理的参照信息。所述热词库可以包含各种词汇信息,例如,优选地,所述热词库包括多个热词,所述热词来自于热点新闻。在此,所述热点新闻可以是在本申请确定出的新闻主题的热度信息的基础上、进一步确定的热点新闻,还可以是基于任意其他方法确定的热点新闻,或是被认可、或接收的各种热点新闻。在此,基于所述切词处理确定出所述多条新闻中每条新闻的内容特征向量,例如,基于新闻a的新闻标题“美国调查奥兰多”进行切词处理,得到对应的内容特征向量可以是[美国,调查,奥兰多,枪击案],又如,基于新闻b的新闻标题“美国枪击案凶手:看到同性恋亲吻十分愤怒”进行所述切词处理,得到对应的内容特征向量可以是[美国,枪击案,凶手,看到,同性恋,亲吻,十分,愤怒]。

接着,在步骤s4011中,所述设备1根据所述内容特征向量对所述待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值。在此,优选地,基于两两新闻各自的所述内容特征向量,确定两者的向量间距离,进而通过所述向量间距离判断两个向量的近似度确定所述新闻聚类,若是所述近似度达到一定近似度阈值,则推定为同一个新闻聚类。例如,上述新闻a的内容特征向量是[美国,调查,奥兰多,枪击案],新闻b的内容特征向量是[美国,枪击案,凶手,看到,同性恋,亲吻,十分,愤怒],计算两个新闻的内容特征向量的交集是[美国,枪击案],交集数是2;再计算两个新闻的内容特征向量的并集是[美国,调查,奥兰多,枪击案,凶手,看到,同性恋,亲吻,十分,愤怒],并集数是10,则定义两个内容特征向量的距离为2/10=0.2,若预设的所述近似度阈值为m,则若0.2≥m时,判定所述新闻a与新闻b相似,即两者属于同一个新闻聚类,并对应同一个新闻主题;若0.2<m,则判定所述新闻a与新闻b不相似,即两者不属于同一个新闻聚类。

在此,本领域技术人员应该能够理解,上述基于所述内容特征向量进行所述聚类处理以获得所述新闻聚类的具体方法仅为举例,其他现有的或今后可能出现的其他聚类处理方法如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

接着,在步骤s402中,所述设备1根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。在此,基于属于同一个新闻聚类的一个或多个所述新闻各自的热度特征信息的分析,确定其从属的所述新闻聚类对应的新闻主题的热度信息。在此,优选地,所步骤s402包括步骤s4021(未示出)和步骤s4022(未示出),其中,在步骤s4021中,所述设备1确定所述新闻聚类中所述新闻的热度特征信息;在步骤s4022中,所述设备1根据所述热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。

在此,更优选地,在步骤s4021中,所述设备1根据以下至少任一项确定所述新闻聚类中所述新闻的热度特征信息:一是新闻内容信息;二是新闻传播信息;三是新闻平台信息。在此,所述新闻平台信息包括但不限于:新闻平台类型信息,例如,所述新闻是来自网页平台,所述网页平台可以包括各种搜索引擎、各类网站搜索等,或是来自用户设备应用推送;新闻平台业内排名信息;新闻平台用户群类型信息,例如用户群的年龄层次信息、用户群的职业类别信息等;新闻平台用户群数量信息,例如用户群的数量级别信息等;新闻平台热度信息等。在此,所述新闻对应的新闻平台信息可以是上述任意一项或多项,也可以不限于上述举例。在此,所述新闻传播信息包括以下至少任一项:所述新闻的发布时间信息;所述新闻的转发量;所述新闻的评论量。在此,所述新闻对应的新闻传播信息可以是上述任意一项或多项,也可以不限于上述举例。在此,所述新闻内容信息中可能会包含能反映新闻的热度特征信息对应得描述性信息,例如,新闻影响力大、波及范围广泛的描述性文字等。在此,所述新闻的热度特征信息可以是上述具体信息的一种或多种的集合,其中,可以直接由上述各种信息内容直接表示对应热度特征信息;或是映射为预先设置的、所述各类信息对应的热度特征参数;在此,所述新闻的热度特征信息还可以是基于所述新闻的各种上述具体信息,得到其综合的热度特征信息。

在此,本领域技术人员应该能够理解,上述新闻内容信息、新闻传播信息、新闻平台信息等的具体内容仅为举例,其他现有的或今后可能出现的其他新闻内容信息、新闻传播信息、新闻平台信息如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。

在此,本申请通过所述新闻聚类中所述新闻对应的新闻内容信息、新闻传播信息、新闻平台信息等一种或多种维度的信息来确定所述新闻聚类中所述新闻的热度特征信息,优选地,当所参考的上述信息种类越全面丰富,则所述热度特征信息的准确性就越高,基于此,通过同一个新闻聚类中所述新闻的所述热度特征信息所确定出的该新闻聚类对应的新闻主题的热度信息其准确性也就越高。

接着,在步骤s4022中,所述设备1根据所述热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。在此,优选地,可以通过机器学习算法,训练出基于所述热度特征信息确定出所述新闻主题的热度信息的模型,其中,优选地,可以赋予不同的热度特征信息以不同的权重信息。例如,对于新闻平台类型信息,来自用户设备应用推送的新闻其热度特征信息的权重要大于来自网页平台的新闻。又如,新闻平台在业内排名信息靠前的新闻其热度特征信息的权重要大于在业内排名信息靠后的新闻。进一步,所述新闻主题对应的热度信息的确定,可以同时结合多种热度特征信息,例如,若是所述新闻的发布时间信息集中在很小的时间段;同时所述新闻的转发量、所述新闻的评论量对应的数量巨大,则可以推定所述新闻主题的热度信息。在此,优选地,所述新闻主题的热度信息包括以下至少任一项:所述新闻主题对应的新闻数量信息;所述新闻主题在所述一个或多个新闻平台的发布比率;所述新闻主题对应的发布时域信息;所述新闻主题对应的传播力度信息;所述新闻主题对应的新闻平台价值信息;所述新闻主题的综合热度信息。在此,例如,可以基于新闻聚类对应的新闻的数量信息推定其对应新闻主题的热度信息,如一般情况下,新闻的数量信息较多的新闻主题,其对应的新闻主题的热度信息较高。又如,通过属于所述同一个新闻主题在各个新闻平台上发布的新闻的总数量与参与统计的全部新闻平台的比值确定所述新闻主题在所述一个或多个新闻平台的发布比率。又如将所述新闻主题对应的所述新闻的集中发布的时间长度确定为所述发布时域信息。又如,基于所述新闻单位时间内所述新闻的转发量、评论量确定所述新闻主题对应的传播力度信息。又如,基于所述新闻对应的新闻平台信息确定所述新闻平台价值信息。又如,基于对上述各类所述新闻主题的热度信息的加权计算得到所述新闻主题的综合热度信息。在此,优选地,所述新闻主题的热度信息可以通过数值量化形式来表示。

在此,本申请通过对满足一定时域特征的多条新闻进行聚类以获得一个或多个对应于相应新闻主题的新闻聚类,进而,基于每个新闻聚类中新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。在此,通过本申请可以实现在热度信息维度给不同新闻主题进行有效地定位,例如,有效地确定出在一定时段爆发性被发布、转载、评论的、并带来广泛用户关注和较大社会影响的新闻对应的热度较高。由此,可以满足在信息爆炸时代,用户对于不同热度信息对应的新闻、特别是热点新闻的准确、快速获取的需要。

在一个优选实施例中,所述方法还包括步骤s403(未示出),其中,在步骤s403中,所述设备1当所述新闻主题的热度信息达到预定的第一新闻热度阈值时,确定所述新闻主题为热点新闻主题。在此,优选地,所述第一新闻热度阈值可以是量化的数值信息,并且,所述第一新闻热度阈值的内容随着额所说新闻主题热度信息的具体类型不同而有所不同,例如,若是,所述热度信息对应为所述新闻主题对应的新闻数量信息,则对应的所述第一新闻热度阈值是一定的数量阈值;若是所述热度信息对应为所述新闻主题的综合热度信息,则对应的所述第一新闻热度阈值是一个综合数值阈值。在此,对于达到所述第一新闻热度阈值标准的新闻主题推定为热点新闻主题。进一步,优选地,所述方法还包括步骤s404(未示出),其中,在步骤s404中,所述设备1将所述热点新闻主题对应的新闻聚类中的新闻确定为热点新闻。在此,所述热点新闻主题对应得所述新闻在一定时段爆发性被发布、转载、评论时,通常会引来广泛的用户关注,并带来较大的社会影响。

在本实施例中,当所述新闻主题的热度信息达到预定的第一新闻热度阈值时,确定所述新闻主题为热点新闻主题;进一步,还可以将所述热点新闻主题对应的新闻聚类中的新闻确定为热点新闻。在本申请的一个优选场景中,可以基于所述新闻聚类所对应新闻主题的热度信息,结合所述预定的第一新闻热度阈值,筛选出热点新闻主题,或是热点新闻,从而满足了在信息爆炸时代,热点新闻主题、热点新闻的对应的市场需求,例如,可以满足应用用户对热点新闻的准确、快速获取的需要。

图5示出根据本申请再一方面的一种在设备2端用于预测热点新闻主题的方法流程图。其中,所述方法包括步骤s501、步骤s502和步骤s503。

在此,所述设备2包括但不限于各种移动智能设备、个人计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(cloudcomputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。当然,本领域技术人员应能理解上述设备2仅为举例,其他现有的或今后可能出现的设备2如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

具体地,在步骤s501中,所述设备2基于新闻内容信息对待处理的多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;接着,在步骤s502中,所述设备2根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息;接着,在步骤s503中,所述设备2在所述新闻主题的热度信息低于预定的第一新闻热度阈值且达到预定的第二新闻热度阈值时,将所述新闻主题对应的主题描述信息与当前热点信息集合进行匹配以确定预测热点新闻主题,其中,所述主题描述信息来源于所述新闻主题对应的所述新闻的新闻内容信息。在此,所述步骤s501、步骤s502与图4中示出的步骤s401、步骤s402内容相同或基本相同,在此不再赘述,并以引用的方式包含于此。

在此,在步骤s502中,所述设备2在所述新闻主题的热度信息低于预定的第一新闻热度阈值且达到预定的第二新闻热度阈值时,将所述新闻主题对应的主题描述信息与当前热点信息集合进行匹配以确定预测热点新闻主题,其中,所述主题描述信息来源于所述新闻主题对应的所述新闻的新闻内容信息。此时,若是所述新闻主题的热度信息低于所述第一新闻热度阈值,即在当前,所述新闻主题还不是所述热点新闻主题,但是其热度信息满足较之于所述第一新闻热度阈值较低的第二新闻热度阈值,则此时将所述新闻主题对应的主题描述信息与当前热点信息集合进行匹配。在此,所述主题描述信息来源于所述新闻主题对应的所述新闻的新闻内容信息,例如,是能够反映所述新闻主题的关键词等;在此,优选地,所述当前热点信息集合包括但不限于以下至少任一项:一个或多个新闻平台的热点信息,例如,各个新闻平台当前已有的热门词列表信息,例如,若所述新闻平台是搜索引擎、或是其他搜索网站,热点信息即可以是该搜索引擎、或搜索网站呈现的的热点信息,如,各类热门关注的关键词排行;一个或多个新闻平台对应的当前用户搜索信息,例如,各个新闻平台已有的用户热搜词,其可以来源于用户的搜索记录信息,如,各类搜索引擎中呈现的热搜榜,又如,各个新闻平台的信息指数,例如百度指数,包括但不限于用户搜索信息对应的各种量化信息、或图形分析信息,如搜索频率、搜索数量等搜索指数,对比百分比数据信息等。在此,可以基于相似算法、或是匹配算法进行上述的信息匹配,例如精确匹配、或是模糊匹配。进而,基于所述匹配的结果确定是否为预测热点新闻主题,若是所述新闻主题的所述主题描述信息与所述当前热点信息集合匹配,则推定所述新闻主题虽然当前还不能推定为热点主题,但是可以推定为未来一定时段的预测热点新闻主题。

在此,本申请还通过对满足一定时域特征的多条新闻进行聚类以获得一个或多个对应于相应新闻主题的新闻聚类,并基于每个新闻聚类中新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息,若所述新闻主题的热度信息低于预定的第一新闻热度阈值且达到预定的第二新闻热度阈值时,将所述新闻主题对应的主题描述信息与当前热点信息集合进行匹配以确定预测热点新闻主题,其中,所述主题描述信息来源于所述新闻主题对应的所述新闻的新闻内容信息。在此,本申请可以利用所述新闻主题的热度信息,并结合当前热点信息集合,实现未来的热点新闻主题的预测,以满足用户的信息获取需求,给用户带来更优的信息服务体验。

图6示出根据本申请再一方面的一种在设备3端用于确定新闻主题的热度信息的方法流程图。所述方法包括步骤s601、步骤s602和步骤s603。

在此,所述设备3包括但不限于各种移动智能设备、个人计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(cloudcomputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。当然,本领域技术人员应能理解上述设备3仅为举例,其他现有的或今后可能出现的设备3如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

具体地,在步骤s601中,所述设备3从用户设备的一个或多个新闻应用中获取多条新闻,其中,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;在步骤s602中,所述设备3基于新闻内容信息对所述多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻;在步骤s603中,所述设备3根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。

在此,在步骤s601中,所述设备3可以在所述用户设备的一个或多个新闻应用所发布的新闻中获取所述多条新闻,其中,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值。在此,所述设备3可以即是所述用户设备,如各种智能终端,如移动智能设备、个人计算机等,进一步,优选地,还可以为加载在所述用户设备上的目标应用。此时,所述设备3可以从该用户设备上加载的一个或多个新闻应用中直接抓取所述多条新闻,并且,所述多条新闻满足上述的时域条件。在此,所述设备3还可以是与所述用户设备对应得网络设备,如各种计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云等,此时,由所述用户设备将抓取到的所述多条新闻提供至所述设备3。在此,由于所述多条新闻的来源由所述设备中所述新闻应用的种类所确定,所以,对于不同用户设备来说,其对应的所述新闻聚类,及所述新闻聚类对应新闻主题的热度信息,其特征性差异可能会较为明显。在此,所述步骤s602、步骤s603与4示出的步骤s401和步骤s402内容相同、或基本相同,在此不再赘述,并以引用的方法包含于此。

在此,所述多条新闻的获取可以来源于各个需求用户对应的用户设备,由此,基于用户偏好的新闻应用,可以实现所述新闻主题的热度信息的定制化偏好,从而更加贴合每个具体用户的实际信息获取需要和偏好。

优选地,所述方法还包括步骤s604(未示出),在步骤s604中,所述设备3所述新闻主题的热度信息提供至所述用户设备。例如,将所述热度信息定期推送至所述用户设备,或是基于所述用户设备对应得用户请求而提供。在此,优选地,可以将所述热度信息的以各种具体内容呈现方式展现在所述用户设备的屏幕中。

优选地,所述设备还包括步骤s605(未示出)和步骤s606(未示出),在步骤s605中,所述设备3基于一个或多个所述新闻主题的热度信息确定其中的热点新闻主题;在步骤s606中,所述设备3将所述热点新闻主题对应的新闻提供至所述用户设备。在此,例如可以设置当所述热度信息达到第三新闻热度阈值时,确定所述新闻主题为热点新闻主题。在此,优选地,所述第三新闻热度阈值可以是量化的数值信息,并且,所述第三新闻热度阈值的内容随着所述新闻主题热度信息的具体类型不同而有所不同。接着,所述设备3将所述热点新闻主题对应的新闻提供至所述用户设备。例如,将所述热点新闻主题对应的新闻定期推送至所述用户设备,或是基于所述用户设备对应得用户请求而提供。在此,可以同时提供同一个新闻主题的部分、或全部所述新闻;又或是,同时将一个或多个新闻主题对应的新闻提供至所述用户设备。在此,优选地,可以将所述热点新闻主题对应的新闻呈现在所述用户设备的屏幕中。例如,优选地,对于不同的新闻主题,可以按照新闻主题的热度信息高低顺序,进行所述新闻主题的排序呈现;对于同一个新闻主题的不同新闻,可以按照时间先后顺序、或是来源应用分类进行相应地呈现。

在此,本领域技术人员应该能够理解,上述将所述热点新闻主题对应的新闻提供至所述用户设备的方式、以及在所述用户设备上呈现的方式仅为举例,其他现有的或今后出现的将所述热点新闻主题对应的新闻提供至所述用户设备的方式、以及在所述用户设备上呈现的方式如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。

图7示出根据本申请一个优选实施例的一种用于确定新闻主题的热度信息的示例图,直观地描述了本方案的一个适用实例。在此,所述图示71对应为一个设备或是多个设备集群,所述设备71优选为各种计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。所述设备72为提供所述多条新闻的设备,包括但不限于各种移动智能设备、计算机、网络主机、单个网络服务器等。在此,所述设备71将从一个或多个所述设备72中获取的所述多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻,所述多条新闻中任意两条新闻的新闻时间间隔小于或等于新闻时效阈值;接着,所述设备72根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。进一步,还可以将所述热度信息提供至需求设备73,例如各种移动智能设备、计算机、网络主机、单个网络服务器等。在此,进一步,提供至所述设备73的不仅可以是所述热度信息,还可以是基于所述热度信息推定出的热点新闻主题、或是热点新闻主题对应的新闻,或是预测热点新闻主题等。

图8示出根据本申请又一个优选实施例的一种用于确定新闻主题的热度信息的示例图。直观地描述了本方案的一个适用实例。在此,所述图示82对应为一个设备或是多个设备集群,所述设备82优选为各种计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,所述设备81是对应一个用户设备,包括但不限于各种移动智能设备、个人计算机等。所述用户设备中加载有一个或多个新闻应用83,可以是网页应用,或是新闻应用客户端,所述设备82从所述用户设备中获取来自所述新闻应用83的多条新闻,并基于新闻内容信息对所述多条新闻进行聚类处理,以获得一个或多个新闻聚类,其中,每个新闻聚类包括对应于同一个新闻主题的一条或多条所述新闻;接着,所述设备82根据所述新闻聚类中所述新闻的热度特征信息确定所述新闻聚类所对应新闻主题的热度信息。进一步,优选地,所述设备82将所确定的所述新闻主题的热度信息提供至所述用户设备;或是,还可以将基于一个或多个所述新闻主题的热度信息确定其中的热点新闻主题对应的新闻提供至所述用户设备。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1