确定热点事件的方法、装置和存储介质以及电子设备与流程

文档序号:14835901发布日期:2018-06-30 12:23阅读:160来源:国知局
确定热点事件的方法、装置和存储介质以及电子设备与流程

本公开涉及信息技术领域,具体地,涉及一种确定热点事件的方法、装置和存储介质以及电子设备。



背景技术:

随着互联网的迅速普及,网络的社会影响在日趋扩大,用户可以通过门户网站、社交软件、微博、论坛等各种方式去获取新闻信息,并表达自己对新闻信息的观点,这种频繁的交互过程就会在不同用户之间产生一些共同话题,这种共同话题称之为热点事件。

目前,确定热点事件的过程中可以将所有的新闻信息看作成一个集合,通过聚类的方式去将相同类型的新闻信息进行聚合,并分别对同一类型中的新闻信息进行热度排名,并将热度排名靠前的新闻事件作为该类型的热度事件,其中,决定该热度排名的因素可以是访问次数以及评论文本的数量等,由于该热度排名可以通过人工干预(如通过软件或者人工进行刷排名),这样,仅仅根据该热度排名确定热点事件并不准确。



技术实现要素:

为了解决上述问题,本公开提出了一种确定热点事件的方法、装置和存储介质以及电子设备。

根据本公开实施例的第一方面,提供一种确定热点事件的方法,所述方法包括:

获取预设时间段内的多个待确定文本;

获取所述预设时间段内的全部所述待确定文本对应的主题模型,并根据所述主题模型确定每个所述待确定文本属于不同主题的第一主题条件概率;所述主题模型中包括多个所述主题;

根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重;

根据每个所述分词词语的热度权重从多个所述待确定文本中确定热点事件。

可选地,所述获取预设时间段内的全部所述待确定文本对应的主题模型包括:

将所述预设时间段内的每个所述待确定文本进行分词处理得到至少一个分词词语;

通过至少一个所述分词词语训练预设主题模型得到主题模型。

可选地,所述根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重包括:

获取每个所述待确定文本中的至少一个所述分词词语属于不同主题的第二主题条件概率;

根据所述第一主题条件概率和所述第二主题条件概率确定至少一个所述分词词语在每个所述待确定文本中的主题权重;

根据所述主题权重确定每个所述分词词语的热度权重。

可选地,所述获取每个所述待确定文本中的至少一个所述分词词语属于不同主题的第二主题条件概率包括:

确定至少一个所述分词词语在对应的所述待确定文本中的出现概率;

计算同一主题对应的第一主题条件概率的和值得到所述同一主题对应的主题概率;

根据所述主题模型获取每个所述待确定文本中的至少一个所述分词词语在不同主题下的词语条件概率;

根据所述主题概率和所述出现概率以及所述词语条件概率确定第二主题条件概率。

可选地,在所述预设时间段包括一个时间段时,所述根据所述主题权重确定每个所述分词词语的热度权重包括:

通过权重获取步骤获取全部所述待确定文本中的每个所述分词词语的第一权重,确定所述第一权重为所述热度权重。

在所述预设时间段包括多个时间段时,所述根据所述主题权重确定每个所述分词词语的热度权重包括:

通过权重获取步骤分别获取每个所述时间段内的全部所述待确定文本中的每个所述分词词语的第一权重;

根据所述第一权重获取每个所述分词词语的所述热度权重。

可选地,所述权重获取步骤包括:

获取每个所述分词词语在每个所述待确定文本的位置信息;所述位置信息包括文本标题位置或者文本正文位置;

在所述分词词语的位置信息为所述文本标题位置时,确定所述分词词语的所述主题权重与预设参数的乘积为所述分词词语在每个所述待确定文本中的第二权重;

在所述分词词语的位置信息为所述文本正文位置时,确定所述分词词语的所述主题权重为所述分词词语在每个所述待确定文本中的第二权重;

分别计算同一所述分词词语在全部所述待确定文本中的第二权重的平均值为同一所述分词词语的第一权重。

可选地,所述根据所述第一权重获取每个所述分词词语的所述热度权重包括:

根据每个所述时间段内的同一所述分词词语对应的第一权重确定同一所述分词词语的第三权重;

根据每个所述分词词语的所述第三权重和所述第一权重确定每个所述分词词语的所述热度权重。

可选地,所述热点事件包括热点词语和热点分句,所述根据每个所述词语的热度权重从多个所述待确定文本中确定热点事件包括:

根据每个所述分词词语的热度权重获取预设词语数量的热点词语;

从全部所述待确定文本中获取包含所述热点词语的待确定分句;

将所述待确定分句中包括的多个分句词语按照主题权重进行降序排序得到排序结果;

在所述热度词语在所述排序结果的权重排名小于或者等于预设排名时,确定所述待确定分句为目标分句,并从所述目标分句中获取热点分句;

确定所述热点词语和所述热点分句为所述热点事件。

根据本公开实施例的第二方面,提供一种确定热点事件的装置,所述装置包括:

获取模块,用于获取预设时间段内的多个待确定文本;

处理模块,用于获取所述预设时间段内的全部所述待确定文本对应的主题模型,并根据所述主题模型确定每个所述待确定文本属于不同主题的第一主题条件概率;所述主题模型中包括多个所述主题;

第一确定模块,用于根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重;

第二确定模块,用于根据每个所述分词词语的热度权重从多个所述待确定文本中确定热点事件。

可选地,所述处理模块包括:

处理子模块,用于将所述预设时间段内的每个所述待确定文本进行分词处理得到至少一个分词词语;

训练子模块,用于通过至少一个所述分词词语训练预设主题模型得到主题模型。

可选地,所述第一确定模块包括:

第一获取子模块,用于获取每个所述待确定文本中的至少一个所述分词词语属于不同主题的第二主题条件概率;

第一确定子模块,用于根据所述第一主题条件概率和所述第二主题条件概率确定至少一个所述分词词语在每个所述待确定文本中的主题权重;

第二确定子模块,用于根据所述主题权重确定每个所述分词词语的热度权重。

可选地,所述第一获取子模块,用于确定至少一个所述分词词语在对应的所述待确定文本中的出现概率;计算同一主题的第一主题条件概率的和值得到所述同一主题对应的主题概率;根据所述主题模型获取每个所述待确定文本中的至少一个所述分词词语在不同主题下的词语条件概率;根据所述主题概率和所述出现概率以及所述词语条件概率确定第二主题条件概率。

可选地,在所述预设时间段包括一个时间段时,所述第二确定子模块,用于通过权重获取步骤获取全部所述待确定文本中的每个所述分词词语的第一权重,确定所述第一权重为所述热度权重。

在所述预设时间段包括多个时间段时,所述第二确定子模块,用于通过权重获取步骤分别获取每个所述时间段内的全部所述待确定文本中的每个所述分词词语的第一权重;根据所述第一权重获取每个所述分词词语的所述热度权重。

可选地,所述权重获取步骤包括:获取每个所述分词词语在每个所述待确定文本的位置信息;所述位置信息包括文本标题位置或者文本正文位置;

在所述分词词语的位置信息为所述文本标题位置时,确定所述分词词语的所述主题权重与预设参数的乘积为所述分词词语在每个所述待确定文本中的第二权重;

在所述分词词语的位置信息为所述文本正文位置时,确定所述分词词语的所述主题权重为所述分词词语在每个所述待确定文本中的第二权重;

分别计算同一所述分词词语在全部所述待确定文本中的第二权重的平均值为同一所述分词词语的第一权重。

可选地,所述第二确定子模块,用于根据每个所述时间段内的同一所述分词词语对应的第一权重确定同一所述分词词语的第三权重;

根据每个所述分词词语的所述第三权重和所述第一权重确定每个所述分词词语的所述热度权重。

可选地,所述热点事件包括热点词语和热点分句,所述第二确定模块包括:

第二获取子模块,用于根据每个所述分词词语的热度权重获取预设词语数量的热点词语;

第三获取子模块,用于从全部所述待确定文本中获取包含所述热点词语的待确定分句;

排序子模块,用于将所述待确定分句中包括的多个分句词语按照主题权重进行降序排序得到排序结果;

第三确定子模块,用于在所述热度词语在所述排序结果的权重排名小于或者等于预设排名时,确定所述待确定分句为目标分句,并从所述目标分句中获取热点分句;

第四确定子模块,用于确定所述热点词语和所述热点分句为所述热点事件。

根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面所述方法的步骤。

根据本公开实施例的第四方面,提供一种电子设备,包括:

上述第三方面所述的计算机可读存储介质;以及

一个或者对个处理器,用于执行所述计算机可读存储介质中的程序。

通过上述技术方案,获取预设时间段内的多个待确定文本;获取所述预设时间段内的全部所述待确定文本对应的主题模型,并根据所述主题模型确定每个所述待确定文本属于不同主题的第一主题条件概率;所述主题模型中包括多个主题;根据所述第一主题条件概率确定全部所述待确定文本中的每个分词词语的热度权重;根据每个所述分词词语的热度权重从多个所述待确定文本中确定热点事件,这样,由于主题模型可以结合待确定文本、主题、词语之间的关联关系,基于该主题模型确定每个待确定文本在不同主题时的第一主题条件概率,并根据第一主题条件概率确定出每个分词词语的热度权重,从而通过每个分词词语的热度权重挖掘相应的热点事件,提高了确定热点事件的准确率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1为本公开示例性实施例示出的一种确定热点事件的方法的流程图;

图2为本公开示例性实施例示出的另一种确定热点事件的方法的流程图;

图3为本公开示例性实施例示出的第一种确定热点事件的装置框图;

图4为本公开示例性实施例示出的第二种确定热点事件的装置框图;

图5为本公开示例性实施例示出的第三种确定热点事件的装置框图;

图6为本公开示例性实施例示出的第四种确定热点事件的装置框图;

图7为本公开示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

首先,对本公开的应用场景进行说明,随着网络作为人们生活的一部分,新闻信息可以通过网络进行传播,从而实现用户与新闻信息之间的交互,若用户对某一新闻信息的交互比较频繁,则该新闻信息将作为热点事件,示例地,以2017年某会期间的新闻信息为例,该新闻信息中包括了信息1、信息 2、信息3、信息4、信息5、信息6、信息7等相关信息,从大量的新闻信息中获取热点事件对于政府工作者、企业公关人员、金融研究人员以及其他与舆论研究相关人员都有很大价值,即通过获取热点事件有利于及时把握事件发展动态,并及时采取相应措施,但是,目前主要通过热度排名确定热点事件,由于该热度排名可以通过人工干预(如通过软件或者人工进行刷排名),这样,仅仅根据该热度排名确定热点事件并不准确。

本公开提出了一种确定热点事件的方法、装置和存储介质以及电子设备,通过获取预设时间段内的多个新闻信息的待确定文本,并获取该预设时间段内的全部待确定文本对应的主题模型,通过该主题模型获取每个该待确定文本属于不同主题的第一主题条件概率,根据该第一主题条件概率确定全部待确定文本中的每个分词词语的热度权重,从而可以根据该热度权重从该待确定文本中确定热点事件,这样,由于主题模型可以结合待确定文本、主题、词语之间的关联关系,基于该主题模型确定每个待确定文本在不同主题时的第一主题条件概率,并根据第一主题条件概率确定出每个分词词语的热度权重,从而通过每个分词词语的热度权重挖掘相应的热点事件,提高了确定热点事件的准确率。

下面结合具体实施例对本公开进行详细说明。

图1为本公开示例性实施例示出的一种确定热点事件的方法的流程示意图,如图1所示,该方法包括:

S101、获取预设时间段内的多个待确定文本。

其中,该待确定文本可以通过爬虫技术从门户网站、社交软件、微博、论坛等获取到目标主题的文本,示例地,以该目标主题为2017年某会期间的新闻信息为例进行说明,该新闻信息中包括了信息1、信息2、信息3、信息4、信息5、信息6、信息7等相关信息,则该待确定文本可以包括信息1、信息2、信息3、信息4、信息5、信息6、信息7等相关新闻信息对应的文本,上述示例只是举例说明,本公开对此不作限定。

S102、获取该预设时间段内的全部该待确定文本对应的主题模型,并根据该主题模型确定每个该待确定文本属于不同主题的第一主题条件概率。

在本步骤中,若该预设时间段为一个时间段时,则该主题模型即为根据该一个时间段内的全部待确定文本生成的模型;若该预设时间段包括多个时间段时,则该主题模型包括多个,且该主题模型分别为根据每一时间段内的全部待确定文本生成的模型。

在一种可能的实现方式中,可以将同一时间段内的每个该待确定文本进行分词处理得到至少一个分词词语,并通过该至少一个词语和预设主题数量训练预设主题模型得到主题模型,其中,该预设主题模型可以是通过LDA (Latent Dirichlet Allocation;潜在狄利克雷分配模型)算法生成的模型,该预设主题模型相当于一个三层贝叶斯概率模型,即为词语、主题和待确定文本的三层结构,这样,可以根据该预设主题模型生成包含该待确定文本、词语以及主题的主题模型,从而可以根据该主题模型确定每个待确定文本属于不同主题的第一主题条件概率,以及每个待确定文本中的至少一个分词词语在不同主题下的词语条件概率。

S103、根据该第一主题条件概率确定全部该待确定文本中的每个分词词语的热度权重。

在本公开中,若该热度权重越大,则该分词词语的热度越高,即用户对该分词词语的关注度越高,相反,若该热度权重越小,则该分词词语的热度越低,即用户对该分词词语的关注度越低。

S104、根据每个该分词词语的热度权重从多个该待确定文本中确定热点事件。

采用上述方法,由于主题模型可以结合待确定文本、主题、词语之间的关联关系,基于该主题模型确定每个待确定文本在不同主题时的第一主题条件概率,并根据第一主题条件概率确定出每个分词词语的热度权重,从而通过每个分词词语的热度权重挖掘相应的热点事件,提高了确定热点事件的准确率。

图2为本公开示例性实施例示出的一种确定热点事件的方法的流程示意图,如图2所示,该方法包括:

S201、获取预设时间段内的多个待确定文本。

其中,该待确定文本可以通过爬虫技术从门户网站、社交软件、微博、论坛等获取到目标主题的文本,示例地,以该目标主题为2017年某会期间的新闻信息为例进行说明,该新闻信息中包括了信息1、信息2、信息3、信息4、信息5、信息6、信息7等相关信息,则该待确定文本可以包括信息1、信息2、信息3、信息4、信息5、信息6、信息7等相关新闻信息对应的文本,在一种可能的实现方式中,若该预设时间段为多个时间段,则可以将每一时间段内多个该待确定文本表示为文本集合D,D={d1,d2,…,di,…dn},di表示第i个待确定文本,n表示该同一时间段内多个该待确定文本的总数量,并且di包括了该第i个待确定文本的标题(titlei)和正文(bodyi),即 di={titlei,bodyi},这样,以便后续步骤中根据每个分词词语在每个待确定文本的位置信息确定全部待确定文本中的每个分词词语的第一权重,上述示例只是举例说明,本公开对此不作限定。

S202、获取该预设时间段内的全部该待确定文本对应的主题模型。

需要说明的是,若该预设时间段为一个时间段时,则该主题模型即为根据该一个时间段内的全部待确定文本生成的一个模型;若该预设时间段包括多个时间段时,则该主题模型包括多个,且该主题模型分别为根据每一时间段内的全部待确定文本生成的模型。

在本步骤中,可以通过以下步骤获取该预设时间段内的全部待确定文本对应的主题模型:

S11、将该预设时间段内的每个该待确定文本进行分词处理得到至少一个分词词语。

其中,分词处理可以包括多种方法,如字符匹配的方法(即机械分词方法),具体地,将每个该待确定文本依次与预设词典中的词条进行匹配,若在该预设词典中找到每个该待确定文本对应的某个词条,则匹配成功,从而识别出一个词语,需要说明的是,由于一些词语如“啊”“噢”“嘛”“的”等停用词,并无实际的意义,只是表示语气,如果将这些词也加入到后续的预设主题模型训练中,会造成计算复杂度过大的问题,从而占用较多的数据处理资源。因此,为了解决该问题,在本公开另一实施例中,在对每个该待确定文本进行分词处理得到至少一个分词词语后,可以将停用词去除,这样,能够将没有实际意义的词语去掉,从而在保证确定热点事件准确性的情况下,减少后续预设主题模型训练过程中的计算复杂度。

S12、根据至少一个该分词词语训练预设主题模型得到主题模型。

在本步骤中,该主题模型包括预设主题数量的主题,通常可以根据待确定文本的文本数量确定该预设主题数量,一般地,该预设主题数量可以设置为50~200,该预设主题模型可以是通过LDA(Latent Dirichlet Allocation;潜在狄利克雷分配模型)算法生成的模型,该预设主题模型相当于一个三层贝叶斯概率模型,即为分词词语、主题和待确定文本的三层结构,这样,可以根据该预设主题模型生成包含该待确定文本、词语以及主题的主题模型,从而可以根据该主题模型确定每个待确定文本属于不同主题的第一主题条件概率,以及每个待确定文本中的至少一个分词词语在不同主题下的词语条件概率。

需要说明的是,在获取到该至少一个分词词语后,由于不同的该待确定文本中可能包含相同的分词词语,这样,使得在根据该至少一个分词词语训练预设主题模型时,存在对同一分词词语重复训练,从而降低了处理效率,为了避免上述问题,可以将每个该待确定文本的至少一个分词词语进行合并处理和去重预处理以使得得到的全部该待确定文本的至少一个分词词语中不存在重复词语,并可以根据预处理后的分词词语训练预设主题模型得到主题模型,在后续步骤中可以获取该预处理后的分词词语的热度权重,避免对同一分词词语重复计算热度权重,从而提高计算效率,例如,通过合并每个该待确定文本的至少一个分词词语从而可以构成该预处理后的分词词语的词语集合W,W={w1,w2,…,wl,…wc},wl表示第l个预处理后的分词词语,并且任意两个预处理后的分词词语不同,从而在后续步骤中可以依次获取该词语集合中的每个词语的热度权重。

S203、根据该主题模型确定每个该待确定文本属于不同主题的第一主题条件概率。

示例地,第i个待确定文本属于主题tp的第一主题条件概率可以表示为 p(tp/di),其中,tp表示第p个主题,di表示第i个待确定文本,这样,该第i 个待确定文本的第一主题条件概率集合可以表示为 {p(t1/di),p(t2/di),…,p(tp/di),…,p(tk/di)},这样,通过确定每个该待确定文本的第一主题条件概率集合,从而在后续步骤中,可以根据每个该待确定文本的第一主题条件概率集合计算同一主题对应的第一主题条件概率的和值得到同一主题对应的主题概率。

S204、确定至少一个该分词词语在对应的该待确定文本中的出现概率。

其中,第i个待确定文本中的该至少一个分词词语的词语子集合可以表示为wi,wi={w1i,w2i,…wji,…,wzi},wji表示第i个待确定文本中的第j个分词词语,z表示该第i个待确定文本中的分词词语的总数量,该词语子集合中的任意两个分词词语不同,该词语子集合中的第j个分词词语wji在第i个待确定文本中的出现概率的计算公式为:count(wji)表示第j个分词词语wji在第i个待确定文本中的出现次数。

S205、计算同一主题的第一主题条件概率的和值得到该同一主题对应的主题概率。

在本步骤中,计算主题tp的主题概率的公式为:其中, P(tp)表示主题tp的主题概率,p(tp/di)表示第i个待确定文本属于主题tp的第一主题条件概率。

S206、根据该主题模型获取每个该待确定文本中的至少一个该分词词语在不同主题下的词语条件概率。

基于主题模型为一个包括词语、主题和待确定文本的三层贝叶斯概率模型,因此,根据构建的主题模型可以获取到每个该待确定文本中的至少一个分词词语在不同主题下的词语条件概率,示例地,该第i个待确定文本中的第j个分词词语wji在主题tp下出现的词语条件概率可以表示为p(wji/tp)。

S207、根据该主题概率和该出现概率以及该词语条件概率确定第二主题条件概率。

在本步骤中,该第二主题条件概率的计算公式为:其中,p(tp/wji)表示该第i个待确定文本中的第 j个分词词语下属于主题tp的第二主题条件概率,p(wji/tp)表示该第i个待确定文本中的第j个分词词语在主题tp下出现的词语条件概率,P(tp)表示主题 tp的主题概率,p(wji)表示第j个分词词语在第i个待确定文本中的出现概率。

S208、根据该第一主题条件概率和该第二主题条件概率确定至少一个该分词词语在每个该待确定文本中的主题权重。

其中,该主题权重的计算公式为:twji=p(tp/di)*p(tp/wji),twji表示第j个分词词语在第i个待确定文本中的主题权重,p(tp/di)表示第i个待确定文本属于主题tp的第一主题条件概率,p(tp/wji)表示主题tp在该第i个待确定文本中的第j个分词词语下出现的第二主题条件概率。

S209、根据该主题权重确定每个分词词语的热度权重。

在本步骤中,由于在步骤S201中可能获取了一个预设时间段内的待确定文本,也可能获取了多个预设时间段内的待确定文本,因此,针对不同数据的预设时间段,本步骤可以通过以下不同方式确定该热度权重。

若该预设时间段包括一个时间段,则通过权重获取步骤获取全部该待确定文本中的每个该分词词语的第一权重,确定该第一权重为热度权重。

在一种可能的实现方式中,权重获取步骤包括:获取每个分词词语在每个待确定文本的位置信息;该位置信息包括文本标题位置或者文本正文位置,由于第i个待确定文本di包括了该第i个待确定文本的标题(titlei)和正文 (bodyi),即di={titlei,bodyi},因此,可以根据di确定该分词词语在第i个待确定文本的位置信息,并在该分词词语的位置信息为该文本标题位置时,确定该分词词语的该主题权重与预设参数(如该预设参数为2)的乘积为该分词词语在每个该待确定文本中的第二权重;在该分词词语的位置信息为该文本正文位置时,确定该分词词语的该主题权重为该分词词语在每个该待确定文本中的第二权重;分别计算同一分词词语在全部待确定文本中的第二权重的平均值为同一分词词语的第一权重,并确定得到的第一权重为热度权重。

若该预设时间段为多个时间段,则通过权重获取步骤分别获取每个时间段内的全部该待确定文本中的每个该分词词语的第一权重,根据该第一权重获取每个该分词词语的热度权重,其中,该权重获取步骤的方法可以参考上述权重获取步骤的过程,不再赘述。

其中,根据每个时间段内的同一分词词语对应的第一权重确定同一分词词语的第三权重;并根据每个分词词语的第三权重和第一权重确定每个分词词语的所述热度权重。

示例地,该预设时间段可以包括三个时间段,即第一时间段、第二时间段和第三时间段,其中,该第一时间段可以是当前时间段,该第二时间段可以是包括该第一时间段,且长于该第一时间段的时间段,该第三时间段可以是包括该第二时间段,且长于该第二时间段的时间段,例如,该第一时间段可以是本周,该第二时间段可以是本周和本周的前一周,该第三时间段可以是本周和本周的前两周,在一种可能的实现方式中,可以获取到第一时间段内的全部待确定文本中的每个分词词语对应该第一时间段的第一权重,以及第二时间段内的全部待确定文本中的每个分词词语对应该第二时间段的第一权重,以及第三时间段内的全部待确定文本中的每个分词词语对应该第三时间段的第一权重,这样,可以根据该三个时间段内的同一分词词语对应的该三个第一权重确定同一分词词语的第三权重,该分词词语的第三权重的计算公式可以为:其中,wwq为第q个分词词语对应的第三权重;b1wq为第q个分词词语对应该第一时间段的第一权重;b2wq为第q个分词词语对应该第二时间段的第一权重;b3wq为第q个分词词语对应第三时间段的第一权重;a为第一预设值;b为第二预设值;c为第三预设值,例如,a为0.3,b为0.4,c为0.3。

在获取到该第三权重后,为了计算在第一时间段(即当前时间段)内的每个该分词词语的热度权重,需要结合上述根据三个时间段内的同一分词词语计算得到的第三权重以及第一时间段内的第一权重得到热度权重,在本实施例中,可以通过以下公式得到每个该分词词语在第一时间段内的热度权重的计算公式为:hwq=α*b1wq+β*wwq,其中,hwq表示第q个分词词语的热度权重;b1wq表示第q个分词词语对应该第一时间段的第一权重;wwq表示第q 个分词词语的第三权重;α表示第四预设值(例如α取值为0.25);β表示第五预设值(例如β取值为0.75),这样,通过上述公式,可以在第一时间段对应的第一权重的基础上,结合上述第三权重得到热度权重,该热度权重综合考虑了第二时间段对应的第一权重和第三时间段对应的第一权重。

需要说明的是,该第一预设值、该第二预设值、该第三预设值、该第四预设值以及该第五预设值是通过反复实验后得到的,并且a+b+c=1,α+β=1。

S210、根据每个该分词词语的热度权重获取预设词语数量的热点词语。

在本步骤中,将该分词词语按照热度权重进行降序排序得到词语排名,根据词语排名结果获取词语排名小于或者等于该预设词语数量的分词词语作为热点词语。

S211、从全部该待确定文本中获取包含该热点词语的待确定分句。

其中,可以以每个该待确定文本中的标点符号作为划分点对该待确定文本进行分句处理得到多个初始分句,这样,依次确定每个该待确定文本中的初始分句中是否存在该热点词语,若该初始分句中存在该热点词语,则确定该初始分句为待确定分句,保留该待确定分句,若该初始分句中不存在该热点词语,则将该初始分句过滤掉。

S212、根据该待确定分句确定热点分句。

在本步骤中,可以通过以下步骤确定该热点分句:

S21、将该待确定分句中包括的多个分句词语按照主题权重进行降序排序得到排序结果。

S22、确定该热度词语在该排序结果的权重排名是否小于或者等于预设排名。

在该热度词语在该排序结果的权重排名小于或者等于预设排名时,执行步骤S23;

在该热度词语在该排序结果的权重排名大于预设排名时,忽略该待确定分句。

S23、确定该待确定分句为目标分句,并从该目标分句中获取热点分句。

在本步骤中,若获取到的目标分句的分句集合包括{S1,S2,…,Sn},则可以分别计算该分句集合中的每一个目标分句与除了该目标分句的其他目标分句的相似度,从而可以获取到每一个该目标分句的相似度和值,该相似度和值中的最大值对应的该目标分句即为该热点分句,具体计算公式如下:

其中,x表示热点分句为第x个目标分句,u表示该目标分句的总数量, sim(Sd,S-d)表示两个目标分句之间的相似度,Sd表示第d个目标分句,S-d表示除了第d个目标分句以外的其他目标分句,示例地,计算该第d个目标分句和第r个目标分句的相似度的公式为Sd∩Sr表示第d 个目标分句和第r个目标分句中存在相同汉字的个数,Sd∪Sr表示第d个目标分句和第r个目标分句中存在的不重复汉字的个数。

S213、确定该热点词语和该热点分句为该热点事件。

这样,可以获取到各个热点词语对应的热点分句,并将该热点词语和该热点分句合并进行展示,例如,获取的热点词语为“某目标任务攻坚”,通过上述步骤S211至S212可以确定出该“某目标任务攻坚”对应的热点分句为“领导聚焦某目标任务,突出问题导向,就子任务1、子任务2和子任务3 等提出要求,发出了坚定不移完成该某目标任务的行动口号”,从而通过该热点词语和该热点分句准确确定出热点事件,并将该热点词语和该热点分句合并展示给用户,使得用户获取到准确的热点事件,上述示例只是举例说明,本公开对此不作限定。

采用上述方法,由于主题模型可以结合待确定文本、主题、词语之间的关联关系,基于该主题模型确定每个待确定文本在不同主题时的第一主题条件概率,并根据第一主题条件概率确定出每个分词词语的热度权重,从而通过每个分词词语的热度权重挖掘相应的热点事件,提高了确定热点事件的准确率。

图3为本公开示例性实施例示出的一种确定热点事件的装置框图,如图 3所示,该装置包括:

获取模块301,用于获取预设时间段内的多个待确定文本;

处理模块302,用于获取该预设时间段内的全部该待确定文本对应的主题模型,并根据该主题模型确定每个该待确定文本属于不同主题的第一主题条件概率;该主题模型中包括多个该主题;

第一确定模块303,用于根据该第一主题条件概率确定全部该待确定文本中的每个分词词语的热度权重;

第二确定模块304,用于根据每个该分词词语的热度权重从多个该待确定文本中确定热点事件。

图4为本公开示例性实施例示出的一种确定热点事件的装置框图,如图 4所示,该处理模块302包括:

处理子模块3021,用于将该预设时间段内的每个该待确定文本进行分词处理得到至少一个分词词语;

训练子模块3022,用于通过至少一个该分词词语训练预设主题模型得到主题模型。

图5为本公开示例性实施例示出的一种确定热点事件的装置框图,如图 5所示,该第一确定模块303包括:

第一获取子模块3031,用于获取每个该待确定文本中的至少一个该分词词语属于不同主题的第二主题条件概率;

第一确定子模块3032,用于根据该第一主题条件概率和该第二主题条件概率确定至少一个该分词词语在每个该待确定文本中的主题权重;

第二确定子模块3033,用于根据该主题权重确定每个该分词词语的热度权重。

可选地,该第一获取子模块3031,用于确定至少一个该分词词语在对应的该待确定文本中的出现概率;计算同一主题对应的第一主题条件概率的和值得到该同一主题对应的主题概率;根据该主题模型获取每个该待确定文本中的至少一个该分词词语在不同主题下的词语条件概率;根据该主题概率和该出现概率以及该词语条件概率确定第二主题条件概率。

可选地,在该预设时间段包括一个时间段时,该第二确定子模块3033,用于通过权重获取步骤获取全部该待确定文本中的每个该分词词语的第一权重,确定该第一权重为该热度权重。

在该预设时间段包括多个时间段时,该第二确定子模块3033,用于通过权重获取步骤分别获取每个该时间段内的全部该待确定文本中的每个该分词词语的第一权重;根据该第一权重获取每个该分词词语的该热度权重。

可选地,该权重获取步骤包括:获取每个该分词词语在每个该待确定文本的位置信息;该位置信息包括文本标题位置或者文本正文位置;

在该分词词语的位置信息为该文本标题位置时,确定该分词词语的该主题权重与预设参数的乘积为该分词词语在每个该待确定文本中的第二权重;

在该分词词语的位置信息为该文本正文位置时,确定该分词词语的该主题权重为该分词词语在每个该待确定文本中的第二权重;

分别计算同一该分词词语在全部该待确定文本中的第二权重的平均值为同一该分词词语的第一权重。

可选地,该第二确定子模块3033,用于根据每个该时间段内的同一分词词语对应的第一权重确定同一分词词语的第三权重;

根据每个分词词语的第三权重和第一权重确定每个分词词语的热度权重。

图6为本公开示例性实施例示出的一种确定热点事件的装置框图,该热点事件包括热点词语和热点分句,如图6所示,该第二确定模块304包括:

第二获取子模块3041,用于根据每个该分词词语的热度权重获取预设词语数量的热点词语;

第三获取子模块3042,用于从全部该待确定文本中获取包含该热点词语的待确定分句;

排序子模块3043,用于将该待确定分句中包括的多个分句词语按照主题权重进行降序排序得到排序结果;

第三确定子模块3044,用于在该热度词语在该排序结果的权重排名小于或者等于预设排名时,确定该待确定分句为目标分句,并从该目标分句中获取热点分句;

第四确定子模块3045,用于确定该热点词语和该热点分句为该热点事件。

采用上述装置,由于主题模型可以结合待确定文本、主题、词语之间的关联关系,基于该主题模型确定每个待确定文本在不同主题时的第一主题条件概率,并根据第一主题条件概率确定出每个分词词语的热度权重,从而通过每个分词词语的热度权重挖掘相应的热点事件,提高了确定热点事件的准确率。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图7为本公开示例性实施例示出的一种电子设备700的框图。如图7所示,该电子设备700可以包括:处理器701,存储器702,多媒体组件703,输入/输出(I/O)接口704,以及通信组件705。

其中,处理器701用于控制该电子设备700的整体操作,以完成上述所述的确定热点事件的方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称 SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器 (Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。 I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC), 2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件705 可以包括:Wi-Fi模块,蓝牙模块,NFC模块。

在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器 (Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述所述的确定热点事件的方法。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,例如包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述所述的确定热点事件的方法。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1