信息生成方法、装置、电子设备和介质与流程

文档序号:35565413发布日期:2023-09-24 05:06阅读:20来源:国知局
信息生成方法、装置、电子设备和介质与流程

本公开的实施例涉及计算机,具体涉及信息生成方法、装置、电子设备和介质。


背景技术:

1、目前,依托各个新媒体平台,热点事件会迅速发酵,在短时间内常常会产生大量的话题信息。对于如何从大量的话题信息中筛选出热点事件的主要信息,通常采用的方式为:基于各个文本的关键词的向量和各个标题词的向量,对各个文本进行聚类,得到各个文本簇。然后,将每个文本簇中的簇中心文本的关键词作为事件的主要信息进行展示。

2、然而,当采用上述方式来筛选主要信息时,经常会存在如下技术问题:

3、以关键词的形式表示整个事件不能很好地反映热点事件的进展信息,可读性较差,只能以关键词组合形式大概判断事件脉络,造成用户体验较差。


技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了信息生成方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题。

3、第一方面,本公开的一些实施例提供了一种信息生成方法,包括:获取文本内容信息集合中各个文本内容信息对应的文本语义向量;对上述各个文本内容信息对应的文本语义向量进行第一次聚类处理,得到多个文本语义向量簇,其中,每个文本语义向量簇对应一个事件;对于上述多个文本语义向量簇中的每个文本语义向量簇,执行簇划分步骤:对上述文本语义向量簇中的各个文本语义向量进行第二次聚类处理,得到多个文本语义向量子簇;确定上述多个文本语义向量子簇中每个文本语义向量子簇中的簇中心向量,以及将上述簇中心向量对应的文本内容信息确定为目标文本内容信息,得到目标文本内容信息集合;依据目标文本内容信息的文本发表时间,对上述目标文本内容信息集合中的各个目标文本内容信息进行排序,得到目标文本内容信息序列;提取上述目标文本内容信息序列中每个目标文本内容信息的语义信息,得到语义信息序列,作为上述文本语义向量簇对应事件的事件发展信息。

4、可选地,在上述获取文本内容信息集合中各个文本内容信息对应的文本语义向量之前,上述方法还包括:对上述文本内容信息集合中每个文本内容信息进行文本内容预处理,以生成处理后文本内容信息,得到处理后文本内容信息集合;对于上述处理后文本内容信息集合中的每个处理后文本内容信息,执行文本语义向量生成步骤:提取上述处理后文本内容信息中的第一数目个关键词和第二数目个标题词;将上述第一数目个关键词和上述第二数目个标题词进行词组合,得到词集;对上述词集进行词去重处理,得到去重后词集;生成上述去重后词集中每个词对应的词向量,得到词向量集;根据上述词向量集,生成上述处理后文本内容信息对应文本语义向量。

5、可选地,上述根据上述词向量集,生成上述处理后文本内容信息对应文本语义向量,包括:根据上述词向量集,生成上述处理后文本内容信息对应的关键语义向量;获取上述处理后文本内容信息中各个词对应的词向量;根据上述各个词对应的词向量和上述关键语义向量,对上述处理后文本内容信息中的各个词进行去词处理,得到去词后词集;根据上述去词后词集,生成上述处理后文本内容信息对应文本语义向量。

6、可选地,上述根据上述词向量集,生成上述处理后文本内容信息对应的关键语义向量,包括:将上述词向量集中的各个词向量进行对应向量元素相加,得到第一相加后向量;将上述第一相加后向量中的各个向量元素除以上述词向量集中词向量的数目,得到处理后向量,作为上述关键语义向量。

7、可选地,上述根据上述各个词对应的词向量和上述关键语义向量,对上述处理后文本内容信息中的各个词进行去词处理,得到去词后词集,包括:确定上述各个词对应的词向量中每个词向量与上述关键语义向量之间的相似度,以生成第一相似度值,得到第一相似度值集;从上述处理后文本内容信息中的各个词中去除对应第一相似度值小于目标阈值的词,得到上述去除后词集。

8、可选地,上述根据上述去词后词集,生成上述处理后文本内容信息对应文本语义向量,包括:将上述去词后词集对应的词向量集进行向量元素相加,得到第二相加后向量;将上述第二相加后向量除以上述去词后词集对应的词向量集中词向量的数目,得到处理后向量,作为上述文本语义向量。

9、可选地,上述文本内容信息集合中的文本内容信息是通过以下步骤生成的:响应于主从分布式集群中的主节点从消息队列中获取的消息为待获取文本内容信息的初始页面入口链接,提取至少一个文本链接信息,其中,文本链接信息包括的文本链接为上述初始页面入口链接下的子链接;将上述至少一个文本链接信息添加至消息队列。

10、可选地,上述方法还包括:响应于上述主节点从消息队列中获取的消息为上述至少一个文本链接信息,将上述至少一个文本链接信息作为至少一个任务信息,将上述至少一个任务信息分发至上述主从分布式集群中的各个子节点,以供上述各个子节点并行完成针对上述至少一个任务信息的文本内容信息解析。

11、可选地,上述提取至少一个文本链接信息,包括:对上述初始页面入口链接信息进行信息解析,得到解析内容;从对应页面源文件中下载上述解析内容,以得到上述至少一个文本链接信息。

12、可选地,上述至少一个任务信息的文本内容信息是通过以下步骤解析的:在一主多从分布式模式下,利用目标消息队列中间件,并行针对上述至少一个任务信息进行文本内容信息解析。

13、可选地,上述提取上述目标文本内容信息序列中每个目标文本内容信息的语义信息,包括:对上述目标文本内容信息进行断句处理,得到语句集;对于上述语句集中的每个语句,执行语句分数生成步骤:确定上述目标文本内容信息对应的文本语义向量;确定上述语句对应的语句向量和上述目标文本内容信息中文本标题对应的标题向量;提取上述目标文本内容信息中的第一数目个关键词;确定上述第一数目个关键词与上述语句之间的重合度;确定上述语句向量与上述文本语义向量之间的相似度,以生成第二相似度数值;确定上述语句向量与上述标题向量之间的相似度,以生成第三相似度数值;获取上述语句在上述目标文本内容信息中的位置信息,以及获取上述位置信息对应的加权数值;根据上述加权数值、上述第二相似度数值、上述第三相似度数值和上述重合度,生成上述语句对应的分数。

14、可选地,上述方法还包括:从上述语句集中筛选出对应分数排名位于前第三数目的语句,作为上述目标文本内容信息的语义信息。

15、第二方面,本公开的一些实施例提供了一种信息生成装置,包括:获取单元,被配置成获取文本内容信息集合中各个文本内容信息对应的文本语义向量;聚类处理单元,被配置成对上述各个文本内容信息对应的文本语义向量进行第一次聚类处理,得到多个文本语义向量簇,其中,每个文本语义向量簇对应一个事件;执行单元,被配置成对上述文本语义向量簇中的各个文本语义向量进行第二次聚类处理,得到多个文本语义向量子簇;确定上述多个文本语义向量子簇中每个文本语义向量子簇中的簇中心向量,以及将上述簇中心向量对应的文本内容信息确定为目标文本内容信息,得到目标文本内容信息集合;依据目标文本内容信息的文本发表时间,对上述目标文本内容信息集合中的各个目标文本内容信息进行排序,得到目标文本内容信息序列;提取上述目标文本内容信息序列中每个目标文本内容信息的语义信息,得到语义信息序列,作为上述文本语义向量簇对应事件的事件发展信息。

16、可选地,上述装置还包括:对上述文本内容信息集合中每个文本内容信息进行文本内容预处理,以生成处理后文本内容信息,得到处理后文本内容信息集合;对于上述处理后文本内容信息集合中的每个处理后文本内容信息,执行文本语义向量生成步骤:提取上述处理后文本内容信息中的第一数目个关键词和第二数目个标题词;将上述第一数目个关键词和上述第二数目个标题词进行词组合,得到词集;对上述词集进行词去重处理,得到去重后词集;生成上述去重后词集中每个词对应的词向量,得到词向量集;根据上述词向量集,生成上述处理后文本内容信息对应文本语义向量。

17、可选地,上述装置还包括:根据上述词向量集,生成上述处理后文本内容信息对应的关键语义向量;获取上述处理后文本内容信息中各个词对应的词向量;根据上述各个词对应的词向量和上述关键语义向量,对上述处理后文本内容信息中的各个词进行去词处理,得到去词后词集;根据上述去词后词集,生成上述处理后文本内容信息对应文本语义向量。

18、可选地,上述装置还包括:将上述词向量集中的各个词向量进行对应向量元素相加,得到第一相加后向量;将上述第一相加后向量中的各个向量元素除以上述词向量集中词向量的数目,得到处理后向量,作为上述关键语义向量。

19、可选地,上述装置还包括:确定上述各个词对应的词向量中每个词向量与上述关键语义向量之间的相似度,以生成第一相似度值,得到第一相似度值集;从上述处理后文本内容信息中的各个词中去除对应第一相似度值小于目标阈值的词,得到上述去除后词集。

20、可选地,上述装置还包括:将上述去词后词集对应的词向量集进行向量元素相加,得到第二相加后向量;将上述第二相加后向量除以上述去词后词集对应的词向量集中词向量的数目,得到处理后向量,作为上述文本语义向量。

21、可选地,上述文本内容信息集合中的文本内容信息是通过以下步骤生成的:响应于主从分布式集群中的主节点从消息队列中获取的消息为待获取文本内容信息的初始页面入口链接,提取至少一个文本链接信息,其中,文本链接信息包括的文本链接为上述初始页面入口链接下的子链接;将上述至少一个文本链接信息添加至消息队列。

22、可选地,上述装置还包括:响应于上述主节点从消息队列中获取的消息为上述至少一个文本链接信息,将上述至少一个文本链接信息作为至少一个任务信息,将上述至少一个任务信息分发至上述主从分布式集群中的各个子节点,以供上述各个子节点并行完成针对上述至少一个任务信息的文本内容信息解析。

23、可选地,提取装置可以被配置成:对上述初始页面入口链接信息进行信息解析,得到解析内容;从对应页面源文件中下载上述解析内容,以得到上述至少一个文本链接信息。

24、可选地,上述至少一个任务信息的文本内容信息是通过以下步骤解析的:在一主多从分布式模式下,利用目标消息队列中间件,并行针对上述至少一个任务信息进行文本内容信息解析。

25、可选地,执行装置可以被配置成:对上述目标文本内容信息进行断句处理,得到语句集;对于上述语句集中的每个语句,执行语句分数生成步骤:确定上述目标文本内容信息对应的文本语义向量;确定上述语句对应的语句向量和上述目标文本内容信息中文本标题对应的标题向量;提取上述目标文本内容信息中的第一数目个关键词;确定上述第一数目个关键词与上述语句之间的重合度;确定上述语句向量与上述文本语义向量之间的相似度,以生成第二相似度数值;确定上述语句向量与上述标题向量之间的相似度,以生成第三相似度数值;获取上述语句在上述目标文本内容信息中的位置信息,以及获取上述位置信息对应的加权数值;根据上述加权数值、上述第二相似度数值、上述第三相似度数值和上述重合度,生成上述语句对应的分数。

26、可选地,执行装置还可以被配置成:从上述语句集中筛选出对应分数排名位于前第三数目的语句,作为上述目标文本内容信息的语义信息。

27、第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

28、第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

29、本公开的上述各个实施例中具有如下有益效果:本公开的一些实施例的信息生成方法可以有效地通过各个文本来生成对应各个事件的发展信息。具体来说,造成不能有效生成各个事件的舆情发展信息的原因在于:通常采用的方式常常通过中心事件文本的各个关键词作为事件的主要进展信息。然而,仅仅通过各个关键词之间的组合不能有效的了解到事件的进展情况,造成用户体验较差。基于此,本公开的一些实施例的信息生成方法首先获取各个文本内容信息对应的文本语义向量,以用于后续便于针对各个文本内容信息的聚类处理。然后,通过对上述各个文本内容信息对应的文本语义向量的第一次聚类处理,可以有效的依据所涉及的事件对各个文本内容信息进行划分,使得每个文本语义向量簇中对应的各个文本内容信息所涉及的主要事件大多为同一事件。接着,通过对每个文本语义向量簇中的各个文本语义向量进行进一步地第二次聚类处理,可以解析出对应事件中各个发展阶段中具有代表性的目标文本内容信息。进一步的,通过文本发表时间,对各个发展阶段中的目标文本内容信息进行排序,以使得可以清晰、准确地得到可以表征事件发展的目标文本内容信息序列。最后,通过对目标文本内容信息序列中的每个目标文本内容信息进行语义信息的提取,得到的发展信息可以使得用户更为简便、清晰的掌握事件的整个发展进程。总而言之,上述信息生成方法可以有效地通过各个文本来生成对应各个事件的发展信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1