一种热点信息获取方法、装置、服务器及介质与流程

文档序号:20769709发布日期:2020-05-15 19:30阅读:147来源:国知局
一种热点信息获取方法、装置、服务器及介质与流程

本发明涉及信息处理技术领域,特别是涉及一种热点信息获取方法、装置、服务器及介质。



背景技术:

随着各类网站的用户增多,网站中产生的用户生成内容(usergeneratedcontent,ugc)文本出现爆炸式增长,例如评论、弹幕等。从海量的文本中挖掘出热点事件以及热点词对于内容推广以及了解舆论导向意义重大。

相关技术中,运营人员人工从网站中的文本中发现热点词以及热点事件,并获取热点词以及热点词相关文本,然而运营人员的精力有限,难以了解网站中全部热点词和热点事件,且采集到的信息具有一定的滞后性,难以实时全面地获取热点信息。



技术实现要素:

本发明实施例的目的在于提供一种热点信息获取方法、装置、服务器及介质,以实现实时全面地获取热点信息。具体技术方案如下:

第一方面,本申请实施例提供一种热点信息获取方法,所述方法执行于服务器,包括:

基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,从所述第一分词结果中选择至少一个主词;

针对每个主词,基于对所述指定数据源中包含所述主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从所述第二分词结果中获取与所述主词关联的至少一个辅词;

从所述指定数据源中获取包括所述主词以及与所述主词关联的至少一个辅词的文本内容,基于获取到的文本内容生成所述主词对应的热点信息。

在一种可能的实现方式中,所述基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,从所述第一分词结果中选择至少一个主词,包括:

获取第一历史时间段内所述指定数据源中产生的文本内容,分别将所述第一历史时间段内的每个子时间段对应的文本内容生成文本文档,针对每个子时间段对应的文本文档,对所述文本文档进行分词处理,得到所述文本文档对应的第一分词结果;

基于所述文本文档对应的第一分词结果生成所述文本文档对应的主词候选词集合;

基于所述主词候选词集合中各词语的词频信息,从所述主词候选词集合中选择至少一个主词。

在一种可能的实现方式中,所述基于所述主词候选词集合中各词语的词频信息,从所述主词候选词集合中选择至少一个主词,包括:

计算所述主词候选词集合包括的各词语的tf-idf值,按照tf-idf值从大到小的顺序,从所述主词候选词集合中选择第一预设数量的词语作为主词。

在一种可能的实现方式中,所述基于针对每个主词,基于对所述指定数据源中包含所述主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从所述第二分词结果中获取与所述主词关联的至少一个辅词,包括:

针对每个主词,获取所述主词所属子时间段之前的第二历史时间段内所述指定数据源中产生的包含所述主词的文本内容集合,对所述文本内容集合中的每条文本内容进行分词处理,得到所述第二分词结果;

基于所述第二分词结果生成所述主词对应的辅词候选词集合;

基于所述辅词候选词集合中各词语的词频信息,从所述辅词候选词集合中选择与所述主词关联的至少一个辅词。

在一种可能的实现方式中,所述基于所述辅词候选词集合中各词语的词频信息,从所述辅词候选词集合中选择与所述主词关联的至少一个辅词,包括:

确定所述辅词候选词集合包括的每个辅词候选词与所述主词在所述文本内容集合中的共同出现次数;

将所述辅词候选词集合中共同出现次数大于预设次数阈值的辅词候选词作为与所述主词关联的辅词。

在一种可能的实现方式中,从所述指定数据源中获取包括所述主词以及与所述主词关联的至少一个辅词的文本内容,基于获取到的文本内容生成所述主词对应的热点信息,包括:

针对与所述主词关联的每个辅词,获取所述文本内容集合中包括所述主词和所述辅词的文本内容,将获取到的文本内容组成所述辅词对应的候选辅助文本集合;

对所述候选辅助文本集合中的文本内容进行去重处理,将去重处理后所述候选辅助文本集合中剩余的文本内容作为所述辅词的辅助文本;

生成所述主词对应的热点信息,所述热点信息包括所述主词、所述主词关联的辅词以及每个辅词的辅助文本。

在一种可能的实现方式中,所述对所述候选辅助文本集合中的文本内容进行去重处理,包括:

针对所述候选辅助文本集合中的每条文本内容,计算所述文本内容与所述文本内容之后第二预设数量的文本内容中的每条文本内容之间的余弦相似度,将与所述文本内容之间的余弦相似度大于预设相似度阈值的文本内容删除。

在一种可能的实现方式中,所述基于所述文本文档对应的第一分词结果生成所述文本文档对应的主词候选词集合,包括:

基于预设过滤规则对所述第一分词结果包括的分词进行过滤,将未被过滤的分词加入所述主词候选词集合。

在一种可能的实现方式中,基于所述第二分词结果生成所述主词对应的辅词候选词集合,包括:

基于预设过滤规则对所述第二分词结果包括的分词进行过滤,将未被过滤的分词加入所述辅词候选词集合。

在一种可能的实现方式中,所述第一分词结果和所述第二分词结果均包括各分词的词性;

所述预设过滤规则包括以下过滤条件中的任意一项或多项:

若分词的词性为指定词性,则对所述分词进行过滤;

若分词属于预设关键词集合,则对所述分词进行过滤;

若分词包括的指定类型字符占比大于预设比例,则对所述分词进行过滤。

在一种可能的实现方式中,所述预设过滤规则还包括:若分词属于白名单词库,则将该分词设置为不可被过滤状态。

在一种可能的实现方式中,在所述获取第一历史时间段内所述指定数据源中产生的文本内容之前,所述方法还包括:

当所述指定数据源中产生新的文本内容时,针对所述指定数据源中产生的每条新的文本内容,对所述文本内容进行分词操作;

将所述文本内容包括的分词与所述文本内容的文本内容标识对应存储至第一预设数据库;

将所述文本内容的文本内容标识、所述文本内容以及所述文本内容的产生时间对应存储于第二预设数据库;

所述获取第一历史时间段内所述指定数据源中产生的文本内容,分别将所述第一历史时间段内的每个子时间段对应的文本内容生成文本文档,针对每个子时间段对应的文本文档,对所述文本文档进行分词处理,得到所述文本文档对应的第一分词结果,包括:

从所述第二预设数据库中获取产生时间属于所述第一历史时间段的文本内容;

将获取到的文本内容中,产生时间属于所述第一历史时间段内的每个子时间段的文本内容分别生成一个文本文档;

针对每个子时间段对应的文本文档,根据所述文本文档中包括的每条文本内容的文本内容标识,从所述第一预设数据库中获取每条文本内容包括的分词,得到所述文本文档对应的第一分词结果;

所述针对每个主词,获取所述主词所属子时间段之前的第二历史时间段内所述指定数据源中产生的包含所述主词的文本内容集合,对所述文本内容集合中的每条文本内容进行分词处理,得到所述第二分词结果,包括:

针对每个主词,从所述第二预设数据库中获取产生时间属于所述第二历史时间段,且包含所述主词的文本内容,将获取到的文本内容组成所述文本内容集合;

根据所述文本内容集合中包括的每条文本内容的标识,从所述第二预设数据库中获取每条文本内容包括的分词,得到所述第二分词结果。

第二方面,本申请实施例提供一种热点信息获取装置,所述装置应用于服务器,所述装置包括:

主词生成模块,用于基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,从所述第一分词结果中选择至少一个主词;

辅词生成模块,用于针对每个主词,基于对所述指定数据源中包含所述主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从所述第二分词结果中获取与所述主词关联的至少一个辅词;

热点信息生成模块,用于从所述指定数据源中获取包括所述主词以及与所述主词关联的至少一个辅词的文本内容,基于获取到的文本内容生成所述主词对应的热点信息。

在一种可能的实现方式中,所述主词生成模块,具体用于:

获取第一历史时间段内所述指定数据源中产生的文本内容,分别将所述第一历史时间段内的每个子时间段对应的文本内容生成文本文档,针对每个子时间段对应的文本文档,对所述文本文档进行分词处理,得到所述文本文档对应的第一分词结果;

基于所述文本文档对应的第一分词结果生成所述文本文档对应的主词候选词集合;

基于所述主词候选词集合中各词语的词频信息,从所述主词候选词集合中选择至少一个主词。

在一种可能的实现方式中,所述主词生成模块,具体用于:

计算所述主词候选词集合包括的各词语的tf-idf值,按照tf-idf值从大到小的顺序,从所述主词候选词集合中选择第一预设数量的词语作为主词。

在一种可能的实现方式中,所述辅词生成模块,具体用于:

针对每个主词,获取所述主词所属子时间段之前的第二历史时间段内所述指定数据源中产生的包含所述主词的文本内容集合,对所述文本内容集合中的每条文本内容进行分词处理,得到所述第二分词结果;

基于所述第二分词结果生成所述主词对应的辅词候选词集合;

基于所述辅词候选词集合中各词语的词频信息,从所述辅词候选词集合中选择与所述主词关联的至少一个辅词。

在一种可能的实现方式中,所述辅词生成模块,具体用于:

确定所述辅词候选词集合包括的每个辅词候选词与所述主词在所述文本内容集合中的共同出现次数;

将所述辅词候选词集合中共同出现次数大于预设次数阈值的辅词候选词作为与所述主词关联的辅词。

在一种可能的实现方式中,所述热点信息生成模块,具体用于:

针对与所述主词关联的每个辅词,获取所述文本内容集合中包括所述主词和所述辅词的文本内容,将获取到的文本内容组成所述辅词对应的候选辅助文本集合;

对所述候选辅助文本集合中的文本内容进行去重处理,将去重处理后所述候选辅助文本集合中剩余的文本内容作为所述辅词的辅助文本;

生成所述主词对应的热点信息,所述热点信息包括所述主词、所述主词关联的辅词以及每个辅词的辅助文本。

在一种可能的实现方式中,所述热点信息生成模块,具体用于:

针对所述候选辅助文本集合中的每条文本内容,计算所述文本内容与所述文本内容之后第二预设数量的文本内容中的每条文本内容之间的余弦相似度,将与所述文本内容之间的余弦相似度大于预设相似度阈值的文本内容删除。

在一种可能的实现方式中,所述主词生成模块,还用于:

基于预设过滤规则对所述第一分词结果包括的分词进行过滤,将未被过滤的分词加入所述主词候选词集合。

在一种可能的实现方式中,所述辅词生成模块,还用于:

基于预设过滤规则对所述第二分词结果包括的分词进行过滤,将未被过滤的分词加入所述辅词候选词集合。

在一种可能的实现方式中,所述第一分词结果和所述第二分词结果均包括各分词的词性;

所述预设过滤规则包括以下过滤条件中的任意一项或多项:

若分词的词性为指定词性,则对所述分词进行过滤;

若分词属于预设关键词集合,则对所述分词进行过滤;

若分词包括的指定类型字符占比大于预设比例,则对所述分词进行过滤。

在一种可能的实现方式中,所述预设过滤规则还包括:若分词属于白名单词库,则将该分词设置为不可被过滤状态。

在一种可能的实现方式中,所述装置还包括:

分词模块,用于当所述指定数据源中产生新的文本内容时,针对所述指定数据源中产生的每条新的文本内容,对所述文本内容进行分词操作;

存储模块,用于将所述文本内容包括的分词与所述文本内容的文本内容标识对应存储至第一预设数据库,将所述文本内容的文本内容标识、所述文本内容以及所述文本内容的产生时间对应存储于第二预设数据库;

所述主词生成模块,还用于:

从所述第二预设数据库中获取产生时间属于所述第一历史时间段的文本内容;

将获取到的文本内容中,产生时间属于所述第一历史时间段内的每个子时间段的文本内容分别生成一个文本文档;

针对每个子时间段对应的文本文档,根据所述文本文档中包括的每条文本内容的文本内容标识,从所述第一预设数据库中获取每条文本内容包括的分词,得到所述文本文档对应的第一分词结果;

所述辅词生成模块,还用于:

针对每个主词,从所述第二预设数据库中获取产生时间属于所述第二历史时间段,且包含所述主词的文本内容,将获取到的文本内容组成所述文本内容集合;

根据所述文本内容集合中包括的每条文本内容的标识,从所述第二预设数据库中获取每条文本内容包括的分词,得到所述第二分词结果。

第三方面,本申请实施例提供一种服务器,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。

第四方面,本申请实施例提供一种机器可读存储介质,其特征在于,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现上述第一方面所述的方法步骤。

第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。

采用本申请实施例提供的热点信息获取方法及装置,服务器可以基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,进而从第一分词结果中选择至少一个主词,然后针对每个主词,基于对指定数据源中包含该主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从第二分词结果中获取与主词关联的至少一个辅词,进而可获取包括主词以及与主词关联的至少一个辅词的文本内容,进而基于获取到的文本内容生成主词对应的热点信息。上述过程无需人工参与,相比于人工处理信息,服务器可以更加及时地获取到指定数据源中的文本内容,并基于文本内容包括的分词的词频信息确定主词和辅词,由于词频信息可以反应词语的热度,所以基于词频确定的主词可以作为热点词,且基于主词和辅词确定的辅助文本可以作为热点文本,从而实现了实时全面地获取热点信息。

当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种热点信息获取方法的流程图;

图2为本申请实施例提供的另一种热点信息获取方法的流程图;

图3为本申请实施例提供的另一种热点信息获取方法的流程图;

图4为本申请实施例提供的另一种热点信息获取方法的流程图;

图5为本申请实施例提供的另一种热点信息获取方法的流程图;

图6为本申请实施例提供的一种热点信息获取方法的示意图;

图7为本申请实施例提供的一种热点信息获取装置的结构示意图;

图8为本申请实施例提供的另一种热点信息获取装置的结构示意图;

图9为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例提供一种热点信息获取方法,该方法执行于服务器,如图1所示,该方法包括:

s101、基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,从第一分词结果中选择至少一个主词。

s102、针对每个主词,基于对指定数据源中包含主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从第二分词结果中获取与主词关联的至少一个辅词。

s103、从指定数据源中获取包括主词以及与主词关联的至少一个辅词的文本内容,基于获取到的文本内容生成主词对应的热点信息。

采用本申请实施例提供的热点信息获取方法,服务器可以基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,进而从第一分词结果中选择至少一个主词,然后针对每个主词,基于对指定数据源中包含该主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从第二分词结果中获取与主词关联的至少一个辅词,进而可获取包括主词以及与主词关联的至少一个辅词的文本内容,进而基于获取到的文本内容生成主词对应的热点信息。上述过程无需人工参与,相比于人工处理信息,服务器可以更加及时地获取到指定数据源中的文本内容,并基于文本内容包括的分词的词频信息确定主词和辅词,由于词频信息可以反应词语的热度,所以基于词频确定的主词可以作为热点词,且基于主词和辅词确定的辅助文本可以作为热点文本,从而实现了实时全面地获取热点信息。

在上述s101中,指定数据源可以为能够产生文本内容的网站,例如各类视频网站、社交网站等。

在得到第一分词结果和各分词的词频信息后,服务器可根据各分词的词频信息,从第一分词结果中选择至少一个主词。例如,选择词频较高的分词作为主词。

在上述s102中,在得到第二分词结果后,服务器可根据各分析的词频信息,从第二分词结果中选择词频较高的分词作为辅词,可以理解的是,第二分词结果中的分词的词频越高,则表示该分词与主词的关联程度越高,所以可基于该规律选择与主词关联程度高的分词作为主词的辅词。

在一种实施方式中,如图2所示,上述s101、基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,从第一分词结果中选择至少一个主词,具体可实现为以下步骤:

s1011、获取第一历史时间段内指定数据源中产生的文本内容,分别将第一历史时间段内的每个子时间段对应的文本内容生成文本文档,针对每个子时间段对应的文本文档,对该文本文档进行分词处理,得到文本文档对应的第一分词结果。

其中,第一历史时间段可以为最近15天,每个子时间段可以为4至8小时。

用户在各类网站中发布的文本内容一般为评论消息,而评论消息只能代表一个时间点的信息,并不能反映一个时间段内的热点,所以服务器可获取最近15天的文本内容,为便于计算词频信息,可进一步将获取到的文本内容中,每4个小时的文本内容生成文本文档。

另外,本申请实施例中的词频信息具体可以为词频-逆文本频率指数(termfrequency–inversedocumentfrequency,tf-idf)值,由于单条评论消息的长度较短,而tf-idf值需依据文档进行计算,所以本申请实施例中可以采用时间段分割方法,分别将每个子时间段内的文本内容生成一个文本文档,第一历史时间段包括的各子时间段对应的文本文档组成语料库。

s1012、基于文本文档对应的第一分词结果生成文本文档对应的主词候选词集合。

可选地,服务器可以将第一分词结果包括的所有分词作为主词候选词,从而生成主词候选词集合。

或者,服务器可以基于预设过滤规则对第一分词结果包括的分词进行过滤,将未被过滤的分词加入主词候选词集合。

s1013、基于主词候选词集合中各词语的词频信息,从主词候选词集合中选择至少一个主词。

若词频信息为tf-idf值,本步骤具体可以实现为:计算主词候选词集合包括的各词语的tf-idf值,按照tf-idf值从大到小的顺序,从主词候选词集合中选择第一预设数量的词语作为主词。

服务器可通过如下公式计算主词候选词集合包括的各词语的tf-idf值:

tf-idf=tf×idf;

其中,

其中,第一数量可以为预先设置的值,也可以基于预设的比例阈值确定,例如按照tf-idf值从大到小的顺序,选择主词候选词集合中10%的词语作为主词。

采用该方法,服务器可以获取第一历史时间段内指定数据源中产生的文本内容,进而基于获取到的文本内容生成多个文本文档,并分别基于每个文本文档的第一分词结果生成主词候选词集合,然后基于主词候选词集合中的各词语的词频信息,选择至少一个主词,由于词频信息可以反映词语的热度,所以通过该方法可以高效准确地确定第一历史时间段内的热点词。

在一种实施方式中,在图2所示的方法流程的基础上,如图3所示,上述s102、针对每个主词,基于对指定数据源中包含主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从第二分词结果中获取与主词关联的至少一个辅词,具体可以实现为以下步骤:

s1021、针对每个主词,获取该主词所属子时间段之前的第二历史时间段内指定数据源中产生的包含该主词的文本内容集合,对文本内容集合中的每条文本内容进行分词处理,得到第二分词结果。

例如,第二历史时间段可以为主词所属子时间段之前的15天,即针对每个主词,服务器可以获取这15天内,用户在网站中发布的包含该主词的文本内容,将包含该主词的文本内容组成文本内容集合。

s1022、基于第二分词结果生成主词对应的辅词候选词集合。

可选地,服务器可以将第二分词结果包括的所有分词作为辅词候选词,从而生成辅词候选词集合。

或者,服务器可以基于预设过滤规则对第二分词结果包括的分词进行过滤,将未被过滤的分词加入辅词候选词集合。

s1023、基于辅词候选词集合中各词语的词频信息,从辅词候选词集合中选择与该主词关联的至少一个辅词。

该词频信息具体可以为辅词候选词与主词在文本内容集合中的共同出现次数,本步骤具体可以实现为:确定辅词候选词集合包括的每个辅词候选词与主词在文本内容集合中的共同出现次数,将辅词候选词集合中共同出现次数大于预设次数阈值的辅词候选词作为与主词关联的辅词。

其中,辅词候选词与主词共同出现是指一条文本内容中同时包括该辅词候选词和该主词。

例如,若该文本内容集合中包括1000条文本内容,主词a与主词a对应的一个辅词候选词b共同出现在文本内容集合中的300条文本内容中,则可确定该辅词候选词b对应的共同出现次数为300。

可以理解的是,通过该步骤,服务器可分别确定一个主词对应的每个辅词候选词的共同出现次数,例如,若主词a的辅词候选词集合中包括500个辅词候选词,则服务器分别确定这500个辅词候选词中的每个辅词候选词对应的共同出现次数。

作为示例,预设次数阈值为500,即将共同出现次数大于500的辅词候选词作为主词的辅词,当然预设次数阈值的取值并不限于此,可根据实际情况设置。

采用该方法,服务器可以分别确定每个主词对应的辅词,由于辅词为在文本文档集合中与主词共同出现次数较多的词语,所以也可以作为热点词,后续通过主词和辅词共同确定热点信息,相比于通过单一的热点词确定热点信息,本申请实施例确定的热点信息的准确性更高。

可选地,上述第一分词结果和第二分词结果均包括各分词的词性,上述s1012和s1022中涉及到的过滤规则包括以下过滤条件中的任意一项或多项:

若分词的词性为指定词性,则对所述分词进行过滤;

若分词属于预设关键词集合,则对所述分词进行过滤;

若分词包括的指定类型字符占比大于预设比例,则对所述分词进行过滤。

其中,指定词性为预先配置的不能被作为热点词的词性,例如连词、感叹词、方位词、时间词、主词、语气词等词性。

预设关键词集合也可称为预设停用词集合,预设关键词集合中包括无具体意义的词,比如“在”、“的”、“一天”等。

指定类型字符可以为英文字母和数字,若一个分词中的英文字母和数字在该分词中的占比之和大于预设比例,则将该分词过滤。可选地,预设比例可以为50%。

例如,若一个分词为“0.00001%”,则可将该分词过滤。

采用该方法,通过对第一分词结果和第二分词结果进行过滤,可以避免对于热点信息无意义的分词对后续流程的影响,可以减小计算量。

由于明星组合的名称或者明星的名字可以作为热点词,但有些明星组合的名称或者明星的名字可能由英文字母或者其他无具体意义的词,可以通过设置白名单词库,避免这些可能被作为热点词的词语被过滤。所以预设过滤规则还可以包括:若分词属于白名单词库,则将该分词设置为不可被过滤状态。

可以理解的是,对于不可被过滤状态的分词,即使该分词满足上述三个过滤条件,也不会过滤该分词,以避免可能成为热点词的分词被过滤,使得后续获取的热点信息更加准确。

在一种实施方式中,在图3所示的方法流程的基础上,如图4所示,上述s103、从指定数据源中获取包括主词以及与该主词关联的至少一个辅词的文本内容,基于获取到的文本内容生成该主词对应的热点信息,具体可以实现为以下步骤:

s1031、针对与该主词关联的每个辅词,获取文本内容集合中包括该主词和该辅词的文本内容,将获取到的文本内容组成该辅词对应的候选辅助文本集合。

示例性地,若该主词和该辅词在文本内容集合中共同出现300次,则可获取文本内容集合中包括该主词和辅词的300条文本内容,将这300条文本内容组成该辅词对应的候选辅助文本集合。

s1032、对候选辅助文本集合中的文本内容进行去重处理,将去重处理后候选辅助文本集合中剩余的文本内容作为辅词的辅助文本。

去重处理的方法为:针对候选辅助文本集合中的每条文本内容,计算该文本内容与该文本内容之后的第二预设数量的文本内容中的每条文本内容之间的余弦相似度,将与该文本内容之间的余弦相似度大于预设相似度阈值的文本内容删除。

例如,若一个辅词对应的的候选辅助文本集合中包括300条文本内容,则服务器可对这300条文本内容进行去重处理。

假设第二预设数量为200,则针对第1条文本内容,计算该文本内容与该文本之后的200条文本内容中每条文本内容的余弦相似度,若该文本内容与第2条文本内容之间的余弦相似度小于预设相似度阈值(例如80%),则保留第2条文本内容;若该文本内容与第3条文本内容之间的余弦相似度大于预设相似度阈值(例如80%),则删除第3条文本内容,以此类推,直至判断该文本内容与第200条文本内容之间的余弦相似度是否大于80%。

然后基于调整后的辅助文本集合中的第2条文本内容,计算该文本内容与第3条文本内容之间的余弦相似度,若大于80%,则删除第3条文本内容,若小于80%,则保留第3条文本内容,以此类推,直至判断该文本内容与第201条文本内容之间的余弦相似度是否大于80%。

然后基于调整后的辅助文本集合中的后续文本内容进行上述处理,直至判断辅助文本集合中倒数第2条与倒数第1条文本内容之间的余弦相似度,并基于计算得到的余弦相似度确定删除或者保留倒数第1条文本内容。此时辅助文本集合中剩余的文本内容即可作为辅词的辅助文本。

可选地,基于用户的习惯,由于用户一般不会看到预设条数(例如2000条)以外的文本内容,为了降低计算复杂度,也可以只对辅助文本集合包括的前预设条数的文本内容进行去重处理。

可选地,在另一种实施方式中,若计算出该文本内容与其中一条文本内容之间的余弦相似度大于预设相似度阈值,则将这两条文本内容中热度值较低的文本内容删除。

其中,,文本内容的热度信息可包括多个维度,可以通过对各维度的热度信息进行加权求和得到文本内容的热度值。

以视频网站中的评论消息为例,热度信息包括评论消息的阅读量、点赞量、以及回复量。评论消息的热度值可以为:0.2阅读量+0.4点赞量+0.4回复量。其中,0.2为阅读量的权重,0.4为点赞量的权重,0.4为回复量的权重,在实际应用中,热度信息包括的各个维度,以及各个维度的权重可根据实际情况设置,本申请对此不作限定。

可选地,由于文本内容的热度会随着时间发生变化,所以本申请实施例在计算热度值时,还可以在上述加权求和的基础上乘以衰减系数。

衰减系数的公式为:

t(t)=t(t_0)×e^(-k(t_0-t))

其中,t(t)为衰减系数,t_0为文本内容的产生时间,t是当前时间,k为调整系数。调整系数的取值可以根据实际情况设置,例如可以通过调整k的取值,影响衰减系数的取值,进而影响文本内容的热度值,可根据实际需求使得文本内容在一天后降低为一天前的热度值的一半。

s1033、生成该主词对应的热点信息,热点信息包括该主词、该主词关联的辅词以及每个辅词的辅助文本。

采用该方法,在确定主词对应的辅词后,服务器根据主词与每个辅词的组合,确定包括该主词和该主词的文本内容,这些文本内容即为网站中的热点文本内容,但是用户在网站中发布的评论消息等文本内容存在重复的现象,所以本申请实施例中进一步地对候选辅助文本集合中的文本内容进行了去重操作,从而过滤掉重复的文本内容,进而可减少最终确定的热点信息的重复率,即可以确定出准确简洁的热点信息,减轻了运营人员的工作量。

在本申请实施例提供的另一种实现方式中,在获取第一历史时间段内指定数据源中产生的文本内容之前,可以采用分布式存储方法对文本内容以及文本内容的分词进行存储,如图5所示,具体包括以下步骤:

s501、当指定数据源中产生新的文本内容时,针对指定数据源中产生的每条新的文本内容,对该文本内容进行分词操作。

其中,服务器可以实时获取指定数据源中产生的文本内容,当指定数据源中产生新的文本内容时,服务器可接收到通知消息,进而从消息队列中获取新增的或者发生变化的文本内容。

可选地,服务器还可以对指定数据源中产生的不可能成为热点信息的文本内容进行过滤。以视频网站为例,可以对指定频道的文本内容进行过滤,例如若需要生成娱乐新闻方面的热点信息,则游戏频道产生的文本内容与该热点信息无关,所以可以将游戏频道中产生的文本内容过滤。当然实际应用中对文本的过滤方法不限于此,可基于实际需求设置过滤规则。

s502、将该文本内容包括的分词与该文本内容的文本内容标识对应存储至第一预设数据库。

可选地,第一预设数据库可以为远程字典服务(remotedictionaryserver,redis)数据库。

s503、将该文本内容的文本内容标识、该文本内容以及该文本内容的产生时间对应存储于第二预设数据库。

服务器还可以在第二预设数据库中存储该文本内容的热度信息。热度信息包括文本内容的点赞数、评论数、阅读数等信息。

可选地,第二预设数据库可以为couchbase数据库。

基于这种存储方式,上述s1011、获取第一历史时间段内指定数据源中产生的文本内容,分别将第一历史时间段内的每个子时间段对应的文本内容生成文本文档,针对每个子时间段对应的文本文档,对该文本文档进行分词处理,得到文本文档对应的第一分词结果,具体可以实现为:

从第二预设数据库中获取产生时间属于第一历史时间段的文本内容。

将获取到的文本内容中,产生时间属于第一历史时间段内的每个子时间段的文本内容分别生成一个文本文档。

针对每个子时间段对应的文本文档,根据该文本文档中包括的每条文本内容的文本内容标识,从第一预设数据库中获取每条文本内容包括的分词,得到该文本文档对应的第一分词结果。

同理,上述s1021、针对每个主词,获取该主词所属子时间段之前的第二历史时间段内指定数据源中产生的包含该主词的文本内容集合,对文本内容集合中的每条文本内容进行分词处理,得到第二分词结果,具体可以实现为:

针对每个主词,从第二预设数据库中获取产生时间属于第二历史时间段,且包含该主词的文本内容,将获取到的文本内容组成文本内容集合,根据文本内容集合中包括的每条文本内容的标识,从第二预设数据库中获取每条文本内容包括的分词,得到第二分词结果。

可见,采用上述存储方式,当指定数据源中产生新的文本内容时,先对文本内容进行分词,然后以文本内容标识为索引,将文本内容包括的分词存储于第一预设数据库,将文本内容以及文本内容的产生时间、热度信息存储于第二预设数据库。进而当需要生成热点信息时,服务器可直接从第一预设数据库中获取第一历史时间段内产生的文本内容,并从第二预设数据库中获取文本内容的分词,即在生成热点信息的阶段,可直接利用已存储于第一预设数据库和第二预设数据库中的信息生成热点信息,无需在此过程中进行分词的计算等操作,可以缩短服务器生成热点信息所需的时间,提高热点信息的生成效率。

可选地,在服务器生成主词对应的热点信息后,还可以针对该主词关联的每个辅词,从第二预设数据库中获取该辅词的每条辅助文本的热度值,然后按照热度值从大到小的顺序显示辅词的每条辅助文本。

或者,在另一种实施方式中,也可以按照产生时间从早到晚或者从晚到早的顺序显示每条辅助文本。

可选地,在本申请实施例提供的另一种实现方式中,在选择主词以及主词关联的至少一个辅词之后,还可以展示主词列表以及每个主词对应的辅词列表,以使得运维人员基于主词列表以及每个主词对应的辅词列表选择的目标热点词。

其中,目标热点词包括主词以及该主词关联的至少一个辅词。进而基于目标热点词包括的主词以及该主词关联的至少一个辅词,通过上述s103的方法生成主词对应的热点信息。

目标热点词还可以包括由多个辅词组合而成的组合热点词语。若目标热点词中包括组合热点词语,则服务器从第一预设数据库中分别获取组合热点词语包括的每个辅词对应的文本内容标识列表,然后对每个辅词对应的文本内容标识列表取交集,作为组合热点词语的辅助文本内容标识列表。

例如,其中一个组合热点词语为由词语b和词语c组合而成的词语,则可从第一预设数据库中获取词语b对应的文本内容标识列表和词语词对应的文本内容标识列表,并对词语b对应的文本内容标识列表和词语c对应的文本内容标识列表取交集,作为该组合热点词语的辅助文本内容标识列表。然后从第二预设数据库中获取辅助文本内容标识列表中的各文本内容标识对应的文本内容,从而得到该组合热点词语对应的辅助文本。

以下结合具体示例对本申请实施例提供的信息获取方法的流程进行描述,以该方法应用于视频网站中为例,如图6所示,该方法具体包括图6中的6个阶段。

第一阶段、生成文档。

即服务器在视频网站中获取15天内的feed和评论,然后将获取到的feed和评论按照子时间段组合生成文本文档,即分别将每个子时间段内的feed和评论生成一个文本文档。

然后基于每个文本文档,执行后续的阶段。

第二阶段、生成主词候选词。

对文本文档进行分词处理,得到第一分词结果,然后按照预设过滤规则对第一分词结果进行过滤处理,得到主词候选词集合。

第三阶段、计算tf-idf。

计算主词候选词集合包括的各词语的tf,并计算各词语的idf,根据各词语的tf以及idf,计算各词语的tf-idf。

第四阶段、确定主词。

对主词候选词集合包括的各词语按tf-idf(从大到小)的顺序排序,取tf-idf最大的第一预设数量的词作为主词。

第五阶段、生成辅词。

针对每个主词,从视频文档中获取当前处理的文本文档对应的时间段之前15天内包括该主词的feed和评论。

对获取到的feed和评论进行分词得到第二分词结果,按照预设过滤规则对第二分词结果进行过滤,生成主词对应的辅词候选词集合,并统计辅词候选词集合中各词语的词频,词频为该词语与主题在获取到的feed和评论中的共同出现次数。

取词频大于预设次数阈值的词语作为主词的辅词,获取包括该辅词以及该辅词对应的主词的文本内容,生成该辅词对应的候选辅助文本集合。

第六阶段、辅助文本去重。

计算辅助文本集合中文本内容之间的余弦相似度,基于余弦相似度对辅助文本集合中的文本内容进行去重。

然后可基于上述六个阶段的处理结果,输出热点信息。

基于相同的技术构思,本申请实施例还提供一种热点信息获取装置,如图7所示,该装置应用于服务器,该装置包括:

主词生成模块701,用于基于对指定数据源中的文本内容进行分词操作,得到第一分词结果以及各分词的词频信息,从所述第一分词结果中选择至少一个主词;

辅词生成模块702,用于针对每个主词,基于对所述指定数据源中包含所述主词的文本内容进行分词操作,得到第二分词结果以及各分词的词频信息,从所述第二分词结果中获取与所述主词关联的至少一个辅词;

热点信息生成模块703,用于从所述指定数据源中获取包括所述主词以及与所述主词关联的至少一个辅词的文本内容,基于获取到的文本内容生成所述主词对应的热点信息。

可选地,主词生成模块701,具体用于:

获取第一历史时间段内所述指定数据源中产生的文本内容,分别将所述第一历史时间段内的每个子时间段对应的文本内容生成文本文档,针对每个子时间段对应的文本文档,对所述文本文档进行分词处理,得到所述文本文档对应的第一分词结果;

基于所述文本文档对应的第一分词结果生成所述文本文档对应的主词候选词集合;

基于所述主词候选词集合中各词语的词频信息,从所述主词候选词集合中选择至少一个主词。

可选地,主词生成模块701,具体用于:

计算所述主词候选词集合包括的各词语的tf-idf值,按照tf-idf值从大到小的顺序,从所述主词候选词集合中选择第一预设数量的词语作为主词。

可选地,辅词生成模块702,具体用于:

针对每个主词,获取所述主词所属子时间段之前的第二历史时间段内所述指定数据源中产生的包含所述主词的文本内容集合,对所述文本内容集合中的每条文本内容进行分词处理,得到所述第二分词结果;

基于所述第二分词结果生成所述主词对应的辅词候选词集合;

基于所述辅词候选词集合中各词语的词频信息,从所述辅词候选词集合中选择与所述主词关联的至少一个辅词。

可选地,辅词生成模块702,具体用于:

确定所述辅词候选词集合包括的每个辅词候选词与所述主词在所述文本内容集合中的共同出现次数;

将所述辅词候选词集合中共同出现次数大于预设次数阈值的辅词候选词作为与所述主词关联的辅词。

可选地,热点信息生成模块703,具体用于:

针对与所述主词关联的每个辅词,获取所述文本内容集合中包括所述主词和所述辅词的文本内容,将获取到的文本内容组成所述辅词对应的候选辅助文本集合;

对所述候选辅助文本集合中的文本内容进行去重处理,将去重处理后所述候选辅助文本集合中剩余的文本内容作为所述辅词的辅助文本;

生成所述主词对应的热点信息,所述热点信息包括所述主词、所述主词关联的辅词以及每个辅词的辅助文本。

可选地,热点信息生成模块703,具体用于:

针对所述候选辅助文本集合中的每条文本内容,计算所述文本内容与所述文本内容之后第二预设数量的文本内容中的每条文本内容之间的余弦相似度,将与所述文本内容之间的余弦相似度大于预设相似度阈值的文本内容删除。

可选地,主词生成模块701,还用于:

基于预设过滤规则对所述第一分词结果包括的分词进行过滤,将未被过滤的分词加入所述主词候选词集合。

可选地,辅词生成模块702,还用于:

基于预设过滤规则对所述第二分词结果包括的分词进行过滤,将未被过滤的分词加入所述辅词候选词集合。

可选地,所述第一分词结果和所述第二分词结果均包括各分词的词性;

所述预设过滤规则包括以下过滤条件中的任意一项或多项:

若分词的词性为指定词性,则对所述分词进行过滤;

若分词属于预设关键词集合,则对所述分词进行过滤;

若分词包括的指定类型字符占比大于预设比例,则对所述分词进行过滤。

可选地,所述预设过滤规则还包括:若分词属于白名单词库,则将该分词设置为不可被过滤状态。

可选地,如图8所示,该装置还包括:分词模块801和存储模块802。

分词模块801,用于当所述指定数据源中产生新的文本内容时,针对所述指定数据源中产生的每条新的文本内容,对所述文本内容进行分词操作;

存储模块802,用于将所述文本内容包括的分词与所述文本内容的文本内容标识对应存储至第一预设数据库,将所述文本内容的文本内容标识、所述文本内容以及所述文本内容的产生时间对应存储于第二预设数据库;

可选地,主词生成模块701,还用于:

从所述第二预设数据库中获取产生时间属于所述第一历史时间段的文本内容;

将获取到的文本内容中,产生时间属于所述第一历史时间段内的每个子时间段的文本内容分别生成一个文本文档;

针对每个子时间段对应的文本文档,根据所述文本文档中包括的每条文本内容的文本内容标识,从所述第一预设数据库中获取每条文本内容包括的分词,得到所述文本文档对应的第一分词结果;

辅词生成模块702,还用于:

针对每个主词,从所述第二预设数据库中获取产生时间属于所述第二历史时间段,且包含所述主词的文本内容,将获取到的文本内容组成所述文本内容集合;

根据所述文本内容集合中包括的每条文本内容的标识,从所述第二预设数据库中获取每条文本内容包括的分词,得到所述第二分词结果。

本申请实施例还提供了一种服务器,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,

存储器903,用于存放计算机程序;

处理器901,用于执行存储器903上所存放的程序时,实现上述方法实施例中由服务器执行的方法流程。

上述服务器提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect,pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一热点信息获取方法的步骤。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一热点信息获取方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1