一种获取热点话题的方法及装置与流程

文档序号:12887225阅读:315来源:国知局
一种获取热点话题的方法及装置与流程

本申请涉及大数据处理技术领域,尤其涉及一种获取热点话题的方法及装置。



背景技术:

在社交网络中,通常针对热点话题进行大数据分析,以挖掘相关人群重点关注的内容。由于热点话题是一种能明确、简洁地表达热点信息的形式。例如,从海量社交短文本中发现热点话题,能使人们快速、及时地获取重要的事件、新闻,让产品运营、公关等人员了解用户,让销售、市场等人员更加了解消费者。由于社交数据量庞大,在进行热点话题分析时需要处理较复杂的数据,而从海量文本中生成语法正确、意思明确的热点话题更难。

目前主要采用聚类式的方法、主题模型方法、文档摘要的方法或者取标题的方法等从海量文本中提取热点话题,但是,现有的方法存在话题属性较弱、难以直接提取话题、准确率低或者运算复杂度高等问题。



技术实现要素:

本申请提供了一种获取热点话题的方法及装置,能够解决现有技术中提取热点话题的难以直接提取、效率较低的问题。

本申请第一方面提供一种获取热点话题的方法,所述方法包括:

获取待处理的语料集合,所述语料集合包括多个语料,每个语料包括多个词语;

获取所述语料集合中各词语的热度信息;

根据所述语料集合中各词语的热度信息,从所述语料集合中提取热词集合;

基于信息熵从所述热词集合中提取候选热词组集合,所述候选热词组集合包括多个候选热词组;

基于候选热词组的热度信息和候选热词组的权重值,从所述候选热词组集合中提取目标热词组集合,将所述目标热词组集合作为热点话题集合。

一种可能的设计中,所述根据所述语料集合中各词语的热度信息,从所述语料集合中提取热词集合,包括:

将第一时间段内的词语集合与第二时间段内的词语集合进行比较,所述第一时间段和所述第二时间段之间间隔至少一个预设时间段,所述第一时间段在所述第二时间段之后;

若所述第一时间段内的词语集合与所述第二时间段内的词语集合之间的相似度高于第一阈值,则将所述第一时间段内的词语集合从所述语料集合中去除,得到所述热词集合。

一种可能的设计中,所述获取语料集合中各词语的热度信息,包括:

计算统计时间内第一词语的理论梯度信息,得到所述语料集合中各词语的理论梯度信息;所述统计时间包括至少两个采样时间,所述第一词语为所述语料集合中的词语,所述理论梯度信息是指在一个所述采样时间内所述第一词语出现的频次与总频次的比值,所述总频次是指所述第一词语在所述统计时间内出现的频次;

基于贝叶斯平均公式对所述语料集合中各词语的理论梯度信息进行修正,得到所述语料集合中各词语的热度信息。

一种可能的设计中,所述根据所述语料集合中各词语的热度信息,从所述语料集合中提取热词集合,还包括:

基于词语共现模型,去除所述语料集合中的冗余词语。

一种可能的设计中,所述基于信息熵从所述热词集合中提取候选热词组集合,包括:

计算所述热词集合中各热词之间的互信息、所述热词集合中各热词的左右信息熵;

根据所述热词集合中各热词之间的互信息、所述热词集合中各热词的左右信息熵以及热词出现的频次确定多个候选热词组,得到所述候选热词组集合。

一种可能的设计中,所述根据所述语料集合中各词语的热度信息,从所述语料集合中提取热词集合,还包括:

对所述语料集合进行去噪处理,所述去噪处理的方式包括以下方式中的至少一项:

文本去重、垃圾文本识别、语义分析、新词发现、中文分词、去除标点符号或特殊字符等。

一种可能的设计中,基于词语共现模型,去除所述语料集合中的冗余词语,从而进一步筛选热词。其中,共现模型是指对于互为共现词的热词的模型。

一种可能的设计中,所述基于候选热词组的热度信息和候选热词组的权重值,从所述候选热词组集合中提取目标热词组集合,包括:

根据第一候选热词组的热度信息、包括所述第一候选热词组的语料数量以及所述候选热度词组集合中所有候选热词组的平均热度信息,计算所述第一候选热词组的热点话题能力信息;所述第一候选热词组是指所述候选热词组集合中的任一候选热词组,所述第一候选热词组的热点话题能力信息是指所述第一候选热词组具备热点话题的生成条件;

根据所述第一候选热词组的热点话题能力信息确定所述第一候选热词组具备热点话题的生成条件时,将所述第一候选热词组作为目标热词组,以得到包括至少一个目标热词组的所述目标热词组集合;

根据所述目标热词组集合生成热点话题,得到包括至少一个热点话题的所述热点话题集合,所述第一候选热词组对应一个热点话题。

可选的,计算所述候选热词组集合时,还可考虑候选的热词的左/右/邻词语的个数等相关或类似特征。

可选的,在选择作为热点话题的目标热词组时,还可以进一步考虑热词词组出现的频次,热词组出现的频次越多,说明该热词词组定义的事件越重要,也就越有热度价值。

本申请第二方面提供一种用于获取热点话题的装置,所述装置包括:

获取模块,用于获取待处理的语料集合,所述语料集合包括多个语料,每个语料包括多个词语,以及获取所述语料集合中各词语的热度信息;

处理模块,用于根据所述语料集合中各词语的热度信息,从所述语料集合中提取热词集合;基于信息熵从所述热词集合中提取候选热词组集合,所述候选热词组集合包括多个候选热词组;基于候选热词组的热度信息和候选热词组的权重值,从所述候选热词组集合中提取目标热词组集合,将所述目标热词组集合作为热点话题集合。

一种可能的设计中,所述处理模块具体用于:

将第一时间段内的词语集合与第二时间段内的词语集合进行比较,所述第一时间段和所述第二时间段之间间隔至少一个预设时间段,所述第一时间段在所述第二时间段之后;

若所述第一时间段内的词语集合与所述第二时间段内的词语集合之间的相似度高于第一阈值,则将所述第一时间段内的词语集合从所述语料集合中去除,得到所述热词集合。

一种可能的设计中,所述热度信息包括词语的梯度信息,所述处理模块获取待处理的语料集合之后,根据所述语料集合中各词语的热度信息从所述语料集合中提取热词集合之前,还用于:

计算统计时间内第一词语的理论梯度信息,得到所述语料集合中各词语的理论梯度信息;所述统计时间包括至少两个采样时间,所述第一词语为所述语料集合中的词语,所述理论梯度信息是指在一个所述采样时间内所述第一词语出现的频次与总频次的比值,所述总频次是指所述第一词语在所述统计时间内出现的频次;

基于贝叶斯平均公式分别对所述语料集合中各词语的理论梯度信息进行修正,得到所述语料集合中各词语的热度信息。

一种可能的设计中,所述处理模块具体用于:

基于词语共现模型,去除所述语料集合中的冗余词语。

一种可能的设计中,所述处理模块具体用于:

计算所述热词集合中各热词之间的互信息、所述热词集合中各热词的左右信息熵;

根据所述热词集合中各热词之间的互信息、所述热词集合中各热词组的左右信息熵以及热词出现的频次确定多个候选热词组,得到所述候选热词组集合。

一种可能的设计中,所述处理模块具体用于:

对所述语料集合进行去噪处理,所述去噪处理的方式包括以下方式中的至少一项:

文本去重、垃圾文本识别、语义分析、新词发现或中文分词。

一种可能的设计中,所述处理模块具体用于:

根据第一候选热词组的热度信息、包括所述第一候选热词组的语料数量以及所述候选热度词组集合中所有候选热词组的平均热度信息,计算所述第一候选热词组的热点话题能力信息;所述第一候选热词组是指所述候选热词组集合中的任一候选热词组,所述第一候选热词组的热点话题能力信息是指所述第一候选热词组具备热点话题的生成条件;

根据所述第一候选热词组的热点话题能力信息确定所述第一候选热词组具备热点话题的生成条件时,将所述第一候选热词组作为目标热词组,以得到包括至少一个目标热词组的所述目标热词组集合;

根据所述目标热词组集合生成热点话题,得到包括至少一个热点话题的所述热点话题集合,所述第一候选热词组对应一个热点话题。

可选的,计算所述候选热词组集合时,还可考虑候选的热词的左/右/邻词语的个数等相关或类似特征。

可选的,在选择作为热点话题的目标热词组时,还可以进一步考虑热词词组出现的频次,热词组出现的频次越多,说明该热词词组定义的事件越重要,也就越有热度价值。

本申请又一方面提供了一种用于管理设备的装置,其包括至少一个连接的处理器、存储器、发射器和接收器,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。

本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。

本申请又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。

相较于现有技术,本申请提供的方案中,在获取待处理的语料集合后,根据所述语料集合中各词语的热度信息提取出热词集合,可见,不需要基于训练数据,就可以直接、快速、准确的提取出连贯的候选热词组。基于信息熵从所述热词集合中提取候选热词组集合,由于目标热词组集合是基于候选热词组的热度信息和候选热词组的权重值从所述候选热词组集合中提取的,所以生成的目标热点话题集合的准确度也较高。

附图说明

图1为本发明实施例中通信系统的一种网络拓扑结构示意图;

图2为本发明实施例中获取热点话题的方法的一种流程示意图;

图3为本发明实施例中影响热词因素的一种框架示意图;

图4为本发明实施例中选择候选词组的一种示意图;

图5为本发明实施例中用于获取热点话题的装置的一种结构示意图;

图6为本发明实施例中服务器的一种结构示意图;

图7为本发明实施例中手机的一种结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

本申请供了一种获取热点话题的方法及装置,用于大数据处理技术领域。以下进行详细说明。如图1所示的通信系统的一种网络拓扑结构示意图,该通信系统可包括服务器和多个终端设备,终端设备可查看、搜索新闻、以及对新闻进行评论。服务器则是统计这些终端设备的操作数据,然后从中提取出语料,再从这些语料中提取出热词,并生成热点话题。

其中,需要特别说明的是,本申请涉及的终端设备,可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(英文全称:radioaccessnetwork,英文简称:ran)与一个或多个核心网进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。例如,个人通信业务(英文全称:personalcommunicationservice,英文简称:pcs)电话、无绳电话、会话发起协议(sip)话机、无线本地环路(wirelesslocalloop,英文简称:wll)站、个人数字助理(英文全称:personaldigitalassistant,英文简称:pda)等设备。无线终端也可以称为系统、订户单元(subscriberunit)、订户站(subscriberstation),移动站(mobilestation)、移动台(mobile)、远程站(remotestation)、接入点(accesspoint)、远程终端(remoteterminal)、接入终端(accessterminal)、用户终端(userterminal)、终端设备、用户代理(useragent)、用户设备(userdevice)、或用户装备(userequipment)。

为解决上述技术问题,本申请主要提供以下技术方案:

首先从海量社交短文本中提取热词。然后从热词出发,在包含热词的相关短文本中,对包含热词,并且所包含词语数量在一定范围内的词语组合,利用信息熵理论筛选出一批候选话题词组。最后,根据tf-idf、词语热度以及候选词组的出现频次等,进一步精筛出热点话题。

请参照图2,以下从对本申请提供一种获取热点话题的方法进行举例说明,所述方法包括:

201、获取待处理的语料集合和所述语料集合中各词语的热度信息。

其中,该语料集合是指在指定的一个统计时间内所收集到的语料的集合,各语料集合可来自至少一个平台。所述语料集合包括多个语料,每个语料包括多个词语,多个词语可组成一个词语集合。例如该语料集合来源于一篇帖子或新闻的数据。

在获取所述语料集合后,还可计算所述语料集合中各词语的热度信息。

202、根据所述语料集合中各词语的热度信息,从所述语料集合中提取热词集合。

可选的,在一些实施方式中,本申请是按照一定时间范围内统计的热词,考虑到时间段的关系,出现的热词差异较大,有可能会误判,所以需要进一步的判断:例如将前后两天同一时刻的出现的热词进行比较,若相同,则可认为不一定是热词,很可能是常用词,所以要去掉。从所述语料集合中提取热词集合可通过下述操作实现:

1、将第一时间段内的词语集合与第二时间段内的词语集合进行比较,所述第一时间段和所述第二时间段之间间隔至少一个预设时间段,所述第一时间段在所述第二时间段之后。该预设时间段可以是时刻、分钟、小时、日或月为单位,具体本申请不作限定。其中,第一时间段和第二时间段都属于所述统计时间内的时间段。具体将这两个时间段内的词语集合进行比较可以直接比较词语是否相同,或者词语的语义是否相同,也可以将词语集合转换为其他计算机语言来进行判断,具体比较的方式本申请不作限定。

2、若所述第一时间段内的词语集合与所述第二时间段内的词语集合之间的相似度高于第一阈值,则将所述第一时间段内的词语集合从所述语料集合中去除,得到所述热词集合。其中,第一时间段属于上述统计时间,第二时间段可以属于上述统计时间,或者更早的统计时间。第一时间段的词语集合属于上述语料集合。

举例来说,将今天下午2点至3点统计的词语与昨天、前天,甚至更前的某一天或者某几天中下午2点至3点统计的词语进行比较,若相似度较高,则可认为不一定是热词,很可能是常用词,所以要去掉今天下午2点至3点统计的这些词语。

一些实施方式中,考虑到所统计的语料集合中存在噪声数据,热词主要受到下述因素的影响:

1、大盘影响:白天和凌晨、双休日和工作日、节假日和平常日子,社交消息的整体数量都会有一个较大的波动。

2、词间影响:也许语料中某个段子突然非常火,会导致一些平时关系不大的词语,一下子全部成为热词。

3、周期影响:24小时、星期、月份、节气等周期性的变化,常常会使得“早安”、“周一”、“三月”等事件意义性不强的词语成为热词。一些受欢迎的周播电视节目,也会使得相关词语周期性地成为热词,这种热词对我们来说,是更有意义的。

4、自身趋势:这个就是我们最关心的热度信息了。这些由于事件引起相关词语的突发性、递增性等的增长,就是我们算法想要识别和分析出来的。

影响热词的因素可由图3所示的一种影响热词的框架示意图来呈现。为简化计算,还可以对所述语料集合进行去噪处理,所述去噪处理的方式包括以下方式中的至少一项:文本去重、垃圾文本识别、语义分析、新词发现或中文分词。还有去除标点符号、特殊字符等。

一些实施方式中,考虑到一个事件或新闻,会导致几个相关的词语都成为热词,造成信息冗余,还可以进行冗余处理。例如可以基于词语共现模型,去除所述语料集合中的冗余词语,从而进一步筛选热词。其中,共现模型是指对于互为共现词的热词的模型,例如一个事件或新闻,会导致几个相关的词语都成为热词,造成信息冗余。但这些词语通过一些频繁项集、文档向量法(word2vector)等方法,都可以发现出共现词语的关系。利用共现词语的信息,可以对热词进行一轮筛选,从而提取出最有热度价值的热词,避免信息冗余。

203、基于信息熵从所述热词集合中提取候选热词组集合。

其中,候选热词组集合包括多个候选热词组。

信息熵是用来衡量一个随机变量出现的期望值,一个变量的信息熵越大,表示其可能的出现的状态越多,越不确定,也即信息量越大。信息熵可由下述公式(1)来定义:

其中,h为信息熵,其可表示每一事件发生时所传达的信息量。

在提取候选热词组时,需要枚举每一个包含热词,且所包含的词语数量在一定范围内的词语组合。如设定词语数量的上限为7,则语料中包含7个以及7个以下词语的文本片段(词组)都会被枚举出来。然后,我们需要对这些词组进行分析,筛选出语法正确、语义连贯的词组,这就是所谓的候选热词组提取。

204、基于候选热词组的热度信息和候选热词组的权重值,从所述候选热词组集合中提取目标热词组集合,将所述目标热词组集合作为热点话题集合。

与现有机制相比,本申请提供的方案中,在获取待处理的语料集合后,根据所述语料集合中各词语的热度信息提取出热词集合,可见,不需要基于训练数据,就可以直接、快速、准确的提取出连贯的候选热词组。基于信息熵从所述热词集合中提取候选热词组集合,由于目标热词组集合是基于候选热词组的热度信息和候选热词组的权重值从所述候选热词组集合中提取的,所以生成的目标热点话题集合的准确度也较高。

可选的,在一些发明实施例中,计算所述语料集合中各词语的热度信息的具体过程可以包括下述操作:

1、计算统计时间内第一词语的理论梯度信息,得到所述语料集合中各词语的理论梯度信息;所述统计时间包括至少两个采样时间,所述第一词语为所述语料集合中的词语,所述理论梯度信息是指在一个所述采样时间内所述第一词语出现的频次与总频次的比值,所述总频次是指所述第一词语在所述统计时间内出现的频次。一些实施方式中,可基于下述公式(2)计算出该理论梯度信息:

其中,wi表示某个词语,tj表示时间窗口,f(wi,tj)表示词语wi在时间窗口tj的出现频数,f(wi,t1,t2,...,tj)表示词语wi在时间窗口t1,t2,...,tj出现的总频数。s(wi)表示某个词语目前的梯度分数,也可称为热度分数。

可见,在热词提取流程中,某个词语每出现一次,相当于给词语的热度进行了一次评分。

2、基于贝叶斯平均公式对所述语料集合中各词语的理论梯度信息进行修正,得到所述语料集合中各词语的梯度信息。

其中,贝叶斯平均公式一种利用外部的已知信息,来评价更客观地给出评价的平均分的方法。贝叶斯平均公式的典型应用包括用户投票排名,产品评分排序,广告点击率的平滑等等。以用户投票评分排名为例,有以下公式:

其中,n为实际投票人数;xi为每个人的投票分数;c是一个常数,与样本总体有关,在用户投票评分问题中,为与数据集中待投票项目相关的常数;m为先验已知的平均分。c越大,表示我们希望分数的总体分布差距越小。

当用户投票评分的人很少,则算平均分很可能会出现不够客观的情况。这时引入外部信息c*m,假设还有一部分人(c人)投了票,并且都给了平均分saverage(m分)。把这些人的评分加入到已有用户的评分中,再进行求平均,可以对当前的平均分进行修正,得到x,以在某种程度上增加最终分数x的客观性。

由公式(3)推导可知,当投票人数少的时候,分数会趋向于平均分;投票人数越多,贝叶斯平均的结果就越接近真实投票的算术平均,加入的参数(c个人的saverage)对最终排名的影响就越小。

由上述贝叶斯平均公式可知,本申请也可以将贝叶斯平均公式用于修正计算公式(2)得到的s(wi),将各参数代入上述公式(3)中,可得到用于修正s(wi)的贝叶斯平均公式,如下公式(4)所示:

在热词提取流程中,可将上述公式(4)中的ms定义为所有词语的s(wi)的平均分,可用saverage表示;cs定义为所有词语一天词频的平均值,用faverage表示,设i为词语总数,j为考虑的总天数,则:

对上述贝叶斯平均公式(3)进行变换,可得到:

其中,公式(6)中的s'(wi)表示某个热词的平均热度分数。(s(wi)-saverage)表示某个词语的热度个性分数,则是表示热度个性分数的词权重。

由此可见,采用上述公式(2)、公式(4)-(6)能够有效的识别出真正有热度价值的热词,排除那些表象为热词的词语。具体可从下述两个方面来分析:

第一方面:当某个词语的词频少时,则是代表对该词语评分的人数少,那么对其评分的不确定性大。需要用平均分saverage来进行修正、平滑。这里可以把一些词频很少的词语的高分数拉下来,例如一个词语今天出现了18次,昨天出现了6次,这里梯度分数就比较高,为0.75,但这种词语其实更可能不是一个热词。

从公式(6)层面上可以这么理解:如果某个词语的词频特别小,远小于faverage,则制约其个性分数(s(wi)-saverage)的词权重值将接近于0,这时,即使其原分数s(wi)特别高,修正后的热度分数s'(wi)也接近算术平均分。这样就筛掉了词频少,但数量变化比值大的词语。

第二方面:当某个词语的词频高,甚至其词频远高于平均词频时,则是代表对该词语评分的人数多,那么对其的评分就会越趋于该词语的实际评分。越趋于词语自身的实际评分,则体现为引入的平均分saverage对该词语的评分计算的影响变小,因此,对于词频越高的词语而言,引入平均分saverage越能凸出其可能为热词的概率。例如一个本来是百万量级的词语,第二天也出现了一个三倍的增量,那么该词语称为热词的热度价值就明显提高。

从公式(6)层面上可以这么理解:如果某个词语的词频特别大,词权重接近于1,但这种词往往是常用词,原分数s(wi)会接近于算术平均分,则个性分数(s(wi)-saverage)也会很小,修正后的热度分数s'(wi)也接近算术平均分,也被筛掉。

显然,根据上述公式(6)还可以获知:当词语的热度分数s(wi)小于或等于当天的平均热度分数saverage时,可以判定该词语肯定不是热词,直接将该词语从语料集合中剔除即可。除此之外,还可以通过下述两种方式来从语料集合中提取热词集合:

a、将各词语的热度分数进行排序,将排名前n位的词语作为热词选入热词集合中,其中,n为正整数。

b、设定热度分数的门限值,将热度分数超过该门限值的词语作为热词选入热词集合中。

可选的,在一些发明实施例中,所述基于信息熵从所述热词集合中提取候选热词组集合,包括:

1、计算所述热词集合中各热词之间的互信息、所述热词集合中各热词的左右信息熵。

其中,互信息是指两个随机变量x,y共享的信息量,也可以说,互信息代表知道了任意一个变量之后对另一个变量不确定性的减少,能够表示两个随机变量之间的关系强弱。基于上述公式(1),互信息可以通过下述公式(7)来定义:

其中,p(x,y)表示联合分布概率,即表示x和y同时出现的概率,p(x)、p(y)分别表示x、y出现的概率,p(x)p(y)表示假设x、y相互独立的情况下二者共同出现的概率。

对上述公式(7)做变换可以得到下述公式(8)所表示的不确定度:

i(x;y)=h(y)-h(y|x)(8)

h(y)表示某个词y的不确定度;h(y|x)表示在已知某个词x的情况下,y的不确定度,h(y|x)称为已知x时,y的条件熵。

则可知i(x;y)表示由x引入而使y的不确定度减小的量。i(x;y)越大,说明x出现后,y出现的不确定度减小,即y很可能也会出现,也就是说x、y关系越密切。反之亦然。

在提取候选热词组集合的过程中,若词组的互信息值大,则说明词组中的词语都倾向于共同出现,即内部聚合度高,那么词组可以说明一个特定问题的可能性更大。

在实际应用中,以“巴萨逆转巴黎”为例,“巴萨”的出现使“逆转巴黎”出现的不确定性减少,以及“巴萨逆转(即x)”的出现使“巴黎(即y)”出现的不确定性减少是不一样的。直观看来,前者的不确定性减少会更大;因为后者“巴黎”的相关事件很多,例如“巴黎时装周”“巴黎旅游”等等,可以组的词组很多。而在这个例子中,前者更能说明“巴萨逆转巴黎”的内部结合度。所以,我们选取使不确定性减少的程度最多的一种组合,来说明词组的内部聚合度。

2、根据所述热词集合中各热词之间的互信息、所述热词集合中各热词组的左右信息熵以及热词出现的频次确定多个候选热词组,得到所述候选热词组集合。

其中,左右信息熵可以表示词组能够成为语义相对独立且完整的话题词组的可能性,其可包括左信息熵和右信息熵。例如,若某个词组的左右信息熵值越大,则表示该词组左右两侧的字/词搭配出现的语境越多,则其越有可能成为话题词组。比如"超级月亮"这个词组,因为该词组右边可以接的组合非常多,如“超级月亮真好看”,“超级月亮很难得”等等,所以其右信息熵值较大。如果一个词组的左右信息熵越大,即该词组所处语境的丰富程度越大,则其越有可能是一个可以独立表达一个话题的词组。

对于热词而言,热词的左右信息的可能情况越多,左右信息的搭配越丰富,则说明这个热词在不同的语境里可讨论的事情越多,越可能可以独立说明一个事件或话题。

可选的,计算上述候选热词组集合时,还可考虑候选的热词的左/右/邻词语的个数等相关或类似特征。

可选的,在一些发明实施例中,从所述候选热词组集合中提取目标热词组集合,包括下述1-3所述的操作:

1、根据第一候选热词组的热度信息、包括所述第一候选热词组的语料数量以及所述候选热度词组集合中所有候选热词组的平均热度信息,计算所述第一候选热词组的热点话题能力信息。

其中,所述第一候选热词组是指所述候选热词组集合中的任一候选热词组,所述第一候选热词组的热点话题能力信息是指所述第一候选热词组具备热点话题的生成条件。

2、根据所述第一候选热词组的热点话题能力信息确定所述第一候选热词组具备热点话题的生成条件时,将所述第一候选热词组作为目标热词组,以得到包括至少一个目标热词组的所述目标热词组集合。

一些实施方式中,可定义所述第一候选热词组为热词wh的第一候选热词组s,那么热词wh中的第一候选热词组s的事件或话题表示能力分数可由以下公式(8)求得:

其中,n为候选热词组中的词语个数。wh表示热词,wi表示候选话题词组中的词语。corpus(w)表示含有词语w的相关语料数量。hotscore(w)表示词语w的热度分数,hotscoreaver表示所有词语的平均热度分数。本申请不对上述公式(8)进行限定,可以在该公式(8)基础上变形。

3、根据所述目标热词组集合生成热点话题,得到包括至少一个热点话题的所述热点话题集合,所述第一候选热词组对应一个热点话题。

举例来说,对于某一个热词,挑选出来一批候选热词组后,每个词组所含的词语不同,包含的信息量也不同。比如3月9日对于“巴黎”这个热词,我们提取出来的候选热词组有“巴黎球迷”、“巴黎球员”、“淘汰巴黎”、“心疼巴黎”、“巴萨逆转巴黎”、“法国巴黎”、“巴黎时装周”。

但“巴萨球员”、“巴黎球迷”、“淘汰巴黎”、“心疼巴黎”、“法国巴黎”这些词组中,“球员”、“球迷”、“淘汰”、“心疼”这些词语在很多其他的语境中也经常出现,所以它们的指向性并不明确,可排除在外。尤其是“法国巴黎”的信息量甚至只有一个地点,其不确定度更大。

而“巴萨逆转巴黎”和“巴黎时装周”则进一步包含了更具体的信息,例如包括足球比赛、球队、赛果、地点或者时装秀等,可见,“巴萨逆转巴黎”和“巴黎时装周”这两者代表的事件的指向性更明确。所以,在能够定位出真正的热点话题,还需要进一步对上述候选热词组集合进行筛选,以筛选出目标热词词组,即重要词语。

具体来说,筛选重要词语时,当前的候选热词组集合中包括的各候选热词组可以有如图4所示搭配结构。其中,比如与“巴黎”的搭配,“巴萨”、“逆转”、“时装周”比“球迷”、“球员”、“心疼”、“法国”包含的信息更多,意义更大。可以想到,“巴萨”、“逆转”、“时装周”这些词语在其他无关语料中不常出现,“球迷”、“球员”、“心疼”、“法国”在不同语料中都常会出现,信息量相对较小。所以,在精筛热点话题时,可以通过tf-idf以及热度信息来确定重要词语。

其中,tf-idf是指tf乘以idf,idf相当于该词语的权重。tf-idf值相对于词频,对词语的描述上有更合理的意义,比如某些词语在文档中出现了很多次,那么该词语的tf就很大,但这些词语在这个文档集中又是普现的,因此对于区分热词并不会起很大的作用,idf就是用于解决这个问题,给每个词语的词频赋予权重,某个词语在该文档越集中越普现,则idf值就越小。比如说“巴黎”这个词语,由于其普遍性较高,指向性不明确,可以衍生出很多词组,因此对于文档相似度的贡献或者说影响力会比别的词语大,但其实“巴黎”这个词语对于热词的区分效果并不明显,因此这个词语应该被赋予一个较低的权重值,来平衡其较高的词频带来的负面影响。相反的,“巴萨”这一词语的指向性较强,根据该词语很容易锁定其所带来的有热度价值的信息量。

具体说来,就是衡量候选热词组集合中各候选热词组在候选热词组集合中的特异性。我们有理由相信,“巴萨”、“逆转”、“时装周”这些词语,在含“巴黎”的相关语料中出现的概率较高。另外还可以结合候选热词组中词语的热度情况来考虑,热词wh的候选热词组s的事件或话题表示能力分数可由上述公式(8)得到。

可选的,在选择作为热点话题的目标热词组时,还可以进一步考虑热词词组出现的频次,热词组出现的频次越多,说明该热词词组定义的事件越重要,也就越有热度价值。

最终,我们通过候选热词组的事件或话题表示能力分数以及出现频次,精筛出热词的相关话题。

举例来说,利用本算法对社交文本进行热点话题提取,例如,2017年4月12日10点的热度排名在前的热点话题结果如下:昨晚杭州地震、美联航事件、粤港澳大湾区概念、巴萨客场、吴世勋生日快乐、姐姐新婚快乐和夏目友人帐第六季等热点话题,这些热点话题的热度从左至右,从高至低排列。

综上所述,基于本申请所提供的获取热点话题的方法,能自动从海量社交短文本中,挖掘出有热度价值的热点话题。不需要监督数据,算法复杂度较低,维护成本低,也不受语料变化影响。考虑了多方面的相关影响因素。且热点话题可直接从语料集合中选取,其语法结构更有保障。

上述各实施例中的语料集合、热度信息、信息熵、候选热词组、候选热词组集合、目标热词组集合、热点话题集合、贝叶斯平均公式、第一时间段、第二时间段内、词语共现模型、互信息、左右信息熵和热点话题能力信息等特征也同样适用于本申请中的图5-图7所对应的实施例,后续类似之处不再赘述。

以上对本申请中一种获取热点话题的方法进行说明,以下对执行上述方法的用于获取热点话题的装置进行描述,该装置可以是服务器,也可以是安装于服务器的应用,还可以是终端设备,或者可以是安装于终端设备的应用,该应用可在服务器或者终端设备上运行,当其运行时,可执行本申请图1-图4任一所对应的实施例中的方案。

一、参照图5,对用于获取热点话题的装置50进行说明,该装置50可包括:

获取模块501,用于获取待处理的语料集合,所述语料集合包括多个语料,每个语料包括多个词语,以及获取所述语料集合中各词语的热度信息;

处理模块502,用于根据所述获取模块501获取的所述语料集合中各词语的热度信息,从所述语料集合中提取热词集合;基于信息熵从所述热词集合中提取候选热词组集合,所述候选热词组集合包括多个候选热词组;基于候选热词组的热度信息和候选热词组的权重值,从所述候选热词组集合中提取目标热词组集合,将所述目标热词组集合作为热点话题集合。

与现有机制相比,本发明实施例中,在获取模块501获取待处理的语料集合后,处理模块502根据所述语料集合中各词语的热度信息提取出热词集合,可见,不需要基于训练数据,就可以直接、快速、准确的提取出连贯的候选热词组。基于信息熵从所述热词集合中提取候选热词组集合,由于目标热词组集合是基于候选热词组的热度信息和候选热词组的权重值从所述候选热词组集合中提取的,所以生成的目标热点话题集合的准确度也较高。

可选的,在一些发明实施例中,所述处理模块502具体用于:

将第一时间段内的词语集合与第二时间段内的词语集合进行比较,所述第一时间段和所述第二时间段之间间隔至少一个预设时间段,所述第一时间段在所述第二时间段之后;

若所述第一时间段内的词语集合与所述第二时间段内的词语集合之间的相似度高于第一阈值,则将所述第一时间段内的词语集合从所述语料集合中去除,得到所述热词集合。其中,第一时间段和第二时间段都属于同一个统计时间内的时间段。

可选的,在一些发明实施例中,所述热度信息包括词语的梯度信息,所述处理模块502获取待处理的语料集合之后,根据所述语料集合中各词语的热度信息从所述语料集合中提取热词集合之前,还用于:

计算统计时间内第一词语的理论梯度信息,得到所述语料集合中各词语的理论梯度信息;所述统计时间包括至少两个采样时间,所述第一词语为所述语料集合中的词语,所述理论梯度信息是指在一个所述采样时间内所述第一词语出现的频次与总频次的比值,所述总频次是指所述第一词语在所述统计时间内出现的频次。

基于贝叶斯平均公式对所述语料集合中各词语的理论梯度信息进行修正,得到所述语料集合中各词语的梯度信息。

可选的,在一些发明实施例中,所述处理模块502具体用于:

基于词语共现模型,去除所述语料集合中的冗余词语。

可选的,在一些发明实施例中,所述处理模块502具体用于:

计算所述热词集合中各热词之间的互信息、所述热词集合中各热词的左右信息熵;

根据所述热词集合中各热词之间的互信息、所述热词集合中各热词的左右信息熵以及热词出现的频次确定多个候选热词组,得到所述候选热词组集合。

可选的,在一些发明实施例中,所述处理模块502具体用于:

对所述语料集合进行去噪处理,所述去噪处理的方式包括以下方式中的至少一项:

文本去重、垃圾文本识别、语义分析、新词发现或中文分词。

可选的,在一些发明实施例中,所述处理模块502具体用于:

根据第一候选热词组的梯度信息、包括所述第一候选热词组的语料数量以及所述候选热度词组集合中所有候选热词组的平均梯度信息,计算所述第一候选热词组的热点话题能力信息;所述第一候选热词组是指所述候选热词组集合中的任一候选热词组,所述第一候选热词组的热点话题能力信息是指所述第一候选热词组具备热点话题的生成条件。

根据所述第一候选热词组的热点话题能力信息确定所述第一候选热词组具备热点话题的生成条件时,将所述第一候选热词组作为目标热词组,以得到包括至少一个目标热词组的所述目标热词组集合。

根据所述目标热词组集合生成热点话题,得到包括至少一个热点话题的所述热点话题集合,所述第一候选热词组对应一个热点话题。

上面从模块化功能实体的角度对本发明实施例中的用于获取热点话题的装置进行了描述,下面从硬件处理的角度分别对本发明实施例中的用于获取热点话题的装置进行描述。需要说明的是,在本发明图5所示的实施例中的获取模块对应的实体设备可以为输入/输出单元,处理模块对应的实体设备可以为处理器。图5所示的装置可以具有如图6所示的结构,当图5所示的装置具有如图6所示的结构时,图6中的处理器、发射器和接收器能够实现前述对应该装置的装置实施例提供的处理模块、发送模块和接收模块相同或相似的功能,图6中的中央存储器存储处理器执行上述获取热点话题的方法时需要调用的程序代码。

在本发明图5所示的实施例中的获取模块所对应的实体设备可以为输入输出接口,处理模块对应的实体设备可以为处理器。图5所示的装置可以具有如图7所示的结构,当图5所示的装置具有如图7所示的结构时,图7中的处理器和射频(英文全称:radiofrequency,英文简称:rf)电路能够实现前述对应该装置的装置实施例提供的处理模块、发送模块和接收模块相同或相似的功能,图7中的存储器存储处理器执行上述获取热点话题的方法时需要调用的程序代码。

图6是本发明实施例提供的一种服务器结构示意图,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:centralprocessingunits,英文简称:cpu)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,和/或,一个或一个以上操作系统641,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

上述实施例中由服务器所执行的步骤可以基于该图6所示的服务器结构。

本发明实施例还提供了另一种终端设备,如图7所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(英文全称:personaldigitalassistant,英文简称:pda)、销售终端(英文全称:pointofsales,英文简称:pos)、车载电脑等任意终端设备,以终端为手机为例:

图7示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图7,手机包括:rf电路78、存储器720、输入单元730、显示单元740、传感器750、音频电路750、无线保真(英文全称:wirelessfidelity,英文简称:wifi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解,图7中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍:

rf电路78可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器780处理;另外,将设计上行的数据发送给基站。通常,rf电路78包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称:lownoiseamplifier,英文简称:lna)、双工器等。此外,rf电路78还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(英文全称:globalsystemofmobilecommunication,英文简称:gsm)、通用分组无线服务(英文全称:generalpacketradioservice,英文简称:gprs)、码分多址(英文全称:codedivisionmultipleaccess,英文简称:cdma)、宽带码分多址(英文全称:widebandcodedivisionmultipleaccess,英文简称:wcdma)、长期演进(英文全称:longtermevolution,英文简称:lte)、电子邮件、短消息服务(英文全称:shortmessagingservice,英文简称:sms)等。

存储器720可用于存储软件程序以及模块,处理器780通过运行存储在存储器720的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元730可包括触控面板731以及其他输入设备732。触控面板731,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板731可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器780,并能接收处理器780发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731,输入单元730还可以包括其他输入设备732。具体地,其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741,可选的,可以采用液晶显示器(英文全称:liquidcrystaldisplay,英文简称:lcd)、有机发光二极管(英文全称:organiclight-emittingdiode,英文简称:oled)等形式来配置显示面板741。进一步的,触控面板731可覆盖显示面板741,当触控面板731检测到在其上或附近的触摸操作后,传送给处理器780以确定触摸事件的类型,随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图7中,触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板741的亮度,接近传感器可在手机移动到耳边时,关闭显示面板741和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路760、扬声器761,传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号,传输到扬声器761,由扬声器761转换为声音信号输出;另一方面,传声器762将收集的声音信号转换为电信号,由音频电路760接收后转换为音频数据,再将音频数据输出处理器780处理后,经rf电路78以发送给比如另一手机,或者将音频数据输出至存储器720以便进一步处理。

wifi属于短距离无线传输技术,手机通过wifi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图7示出了wifi模块770,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器720内的软件程序和/或模块,以及调用存储在存储器720内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器780可包括一个或多个处理单元;优选的,处理器780可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池),优选的,电源可以通过电源管理系统与处理器780逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。

在本发明实施例中,该手机所包括的处理器780还具有控制执行以上由终端设备执行的方法流程。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

以上对本申请所提供的技术方案进行了详细介绍,本申请中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1