事件脉络生成方法、装置、设备及存储介质与流程

文档序号:19376261发布日期:2019-12-10 23:54阅读:322来源:国知局
事件脉络生成方法、装置、设备及存储介质与流程

本申请实施例涉及计算机技术领域,尤其涉及一种事件脉络生成方法、装置、设备及存储介质。



背景技术:

在过去的事件脉络生成技术中,通过给定的事件触发词,获取各个时间窗口内的新闻资讯;针对每个时间窗口,分别计算时间窗口内的每个新闻资讯的重要性评分,并从时间窗口内选出重要性评分符合预定要求的新闻资讯,将选出的新闻资讯作为时间窗口的代表性新闻,形成事件节点;将各时间窗口对应的事件节点按照时间顺序进行组合,得到事件脉络。

但是以时间窗口的形式划分事件节点,过于简单粗暴。由于在一个时间窗口内得到的事件节点很可能包括多个事件,或者也可能因为时间窗口划分不当而造成同一事件的事件节点被划分为多个事件节点,因而很容易造成事件节点划分不准确,降低事件脉络准确性的问题。



技术实现要素:

本申请实施例提供一种事件脉络生成方法、装置、设备及存储介质,用以提高生成事件脉络的准确性。

本申请实施例第一方面提供一种事件脉络生成方法,包括:从预先存储的事件中获取包括目标内容的多个第一事件,所述第一事件由多个文本组成;针对每个第一事件,从组成所述第一事件的文本中提取包括所述目标内容的文本,形成第二事件;将所述第二事件作为脉络节点,生成与所述目标内容相关的事件脉络。

本申请实施例第二方面提供一种事件脉络生成装置,包括:第一获取模块,用于从预先存储的事件中获取包括目标内容的多个第一事件,所述第一事件由多个文本组成;提取模块,用于针对每个第一事件,从组成所述第一事件的文本中提取包括所述目标内容的文本,形成第二事件;脉络生成模块,用于将所述第二事件作为脉络节点,生成与所述目标内容相关的事件脉络。

本申请实施例第三方面提供一种计算机设备,包括:一个或多个处理器;显示设备,用于显示事件脉络;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面所述的方法。

本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的方法。

基于以上各方面,本申请实施例通过从预先存储的事件中获取包括目标内容的多个第一事件,针对每个第一事件从组成第一事件的文本中提取包括目标内容的文本,形成第二事件,将第二事件作为脉络节点,生成与目标内容相关的事件脉络。由于本申请实施例中获取到的第一事件中可能包括多个文本,而第一事件包括目标内容不代表第一事件中每个文本中均包括目标内容,而第一事件中不包括目标内容的那些文本则是与目标内容无关的事件,因而本申请实施例在获得第一事件后,通过从组成第一事件的文本中提取包括目标内容的文本形成第二事件,将第二事件作为脉络节点生成与目标内容相关的事件脉络,能够提高事件节点的纯度,进而提高事件脉络的准确性。另外,由于本申请实施例中的时间节点是从组成第一事件的文本中提取获得的,而第一事件又是从预先存储的事件中获得的,而不是像现有技术那样事件节点是基于时间窗口来划分获得的,因而本申请实施例能够避免因为时间窗口划分不当所导致的同一事件被划分为多个事件节点的问题,从而也能够提高事件脉络的准确性。

应当理解,上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。

附图说明

图1是本申请实施例提供的一种事件脉络生成方法的流程图;

图2是本申请实施例提供的一种事件与关键词之间关联关系建立方法的流程图;

图3是本申请实施例提供的一种步骤s13的执行方法流程图;

图4是本申请实施例提供的一种事件脉络生成装置的结构示意图;

图5是本申请实施例提供的一种事件脉络生成装置的结构示意图;

图6是本申请实施例提供的一种脉络生成模块43的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解,下面首先对本申请实施例涉及的名词进行解释:

1、事件,本申请实施例中所称的事件由多个文本组成,该些文本之间的相似度超过预设阈值。

2、事件脉络,由事件节点组成,一个事件节点表示事件发展的一个阶段,事件节点包括事件在该阶段的相关内容。

由背景技术可知,现有技术是通过给定的事件触发词在多个时间窗口内召回与事件相关的新闻资讯,并基于每个时间窗口内召回的新闻资讯生成事件节点。因此,只要给定的事件触发词稍微不完备,就容易造成新闻资讯召回不够全面的问题,对事件脉络的连贯性有较大的影响。并且,基于时间窗口来划分事件节点的方式过于简单粗暴,在一个时间窗口内得到的事件节点很可能包括多个事件,或者也可能因为时间窗口划分不当而造成同一事件的事件节点,被划分为多个事件节点,从而造成事件节点划分不准确,事件脉络准确性低的问题。

针对现有技术存在的问题,本申请实施例提供了一种事件脉络生成方法,该方法通过从预先存储的事件中获取包括目标内容的多个第一事件,针对每个第一事件从组成第一事件的文本中提取包括目标内容的文本,形成第二事件,将第二事件作为脉络节点,生成与目标内容相关的事件脉络。由于本申实施例中获取到的第一事件中可能包括多个文本,而第一事件包括目标内容不代表第一事件中每个文本中均包括目标内容,而第一事件中不包括目标内容的那些文本则是与目标内容无关的事件,因而本申请实施例在获得第一事件后,通过从组成第一事件的文本中提取包括目标内容的文本形成第二事件,将第二事件作为脉络节点生成与目标内容相关的事件脉络,能够提高事件节点的纯度,进而提高事件脉络的准确性。另外,由于本申请实施例中的事件节点是从组成第一事件的文本中提取获得的,而第一事件又是从预先存储的事件中获得的,而不是像现有技术那样基于时间窗口来划分获得,因而能够避免因为时间窗口划分不当所导致的同一事件被划分为多个事件节点的问题,从而从这方面来说也能够提高事件脉络的准确性。

以下将结合附图来具体描述本申请实施例的技术方案。

图1是本申请实施例提供的一种事件脉络生成方法的流程图,该方法可以由一种事件脉络生成装置来执行。参见图1,该方法包括步骤s11-s13:

s11、从预先存储的事件中获取包括目标内容的多个第一事件,所述第一事件由多个文本组成。

其中,本实施例中的目标内容可以是如下的任意一种:关键词,短语、关键字、关键词与关键词和/或关键字的组合。比如,当目标内容为“xx明星出轨”的关键词组合时,需要从预先存储的事件中获取包括“xx明星出轨”字样的关键词的多个事件。当然这里仅为示例说明而不是对目标内容的唯一限定。

本实施例中关于“第一事件”的命名仅是用于将包含目标内容的事件与其他事件进行区别而不具有其他含义。第一事件包括目标内容是指,第一事件中至少有一个文本或者多个文本的结合包括全部的目标内容,而不必须是第一事件中的每个文本均包括全部的目标内容。因而,在一种可能的情况中,组成第一事件的文本中并不是每个文本均包括目标内容,而是有一个或多个文本不包括目标内容。

本实施例预先设定有一个或多个数据库,数据库中预先存储有各种事件,并且数据库中的事件可以根据预设策略进行更新。比如,在一种可能的设计中可以通过监测预设搜索引擎,当预设搜索引擎上某一搜索词在预设时间长度内的搜索次数超过预设阈值时,从网络上召回所有包括该搜索词的文本,并通过聚类的方法,从召回的文本中聚类获得事件,通过将该事件添加到数据库中,来实现对数据库的更新。当然这里仅是为了便于理解所列举的一个示例并不是对数据库更新策略的唯一限定,实际上,数据库的更新策略可以根据需要任意设定。

具体的,事件在数据库中的存储方式可能有多种,在一种可能的方式中,数据库中只存储事件本身,在执行获取第一事件的操作时,可以通过遍历每个事件,并基于组成事件的每个文本的标题和/或正文来判断事件中是否包括目标内容,若存在判断事件为第一事件。在另一种可能的方式中,可以在数据库中存储事件与关键词之间的关联关系,每个事件对应的关键词,均是从组成事件的文本中提取出的关键词。当执行获取第一事件的操作时,可以基于事件与关键词之间的关联关系,查找与目标内容中的目标关键词相对应的事件作为第一事件。其中,当目标内容被具体为关键词或者关键词的组合时,将所述关键词或关键词的组合作为目标关键词,当目标内容被具体为短句时,目标关键词可以被具体为对目标内容进行分词处理后得到的关键词。

s12、针对每个第一事件,从组成所述第一事件的文本中提取包括所述目标内容的文本,形成第二事件。

由于在对s11的解释中提到第一事件中可能存在一个或多个文本中不包括目标内容,也就是说这些文本描述的内容与目标内容无关,若将这些文本也归结到组成事件脉络的事件节点中则会使得事件节点包括多个事件,从而降低了事件节点的纯度。因此,为了提高事件节点的纯度,本实施例在s12中需要从第一事件中提取出包括目标内容的文本,生成第二事件,也就是说本实施例中需要剔除不包括目标内容的文本,以此来保证事件节点的纯度。

具体的,本实施例可以采用多种方式从第一事件中提取包括目标内容的文本:

在一种可能的方式中,可以通过对文本的正文进行分词处理,从而基于分词处理的结果确定第一事件中哪些文本包括目标内容,哪些文本包括目标内容,从而从第一事件中提取出包括目标内容的文本。

在另一种可能的方式中,也可以通过对文本的标题进行分词处理,从而基于分词的结果确定哪些文本中包括目标内容,哪些文本不包括目标内容,进而提取出包括目标内容的文本。

当然上述提供的两种方式仅为了方便理解本申请技术方案所做的示例说明,而并不是对本申请的唯一限定,实际上,实际场景中本领域技术人员可以根据需要设定任意的提纯方式,只要能够从第一事件中剔除不包含目标内容的文本即可。

s13、将所述第二事件作为脉络节点,生成与所述目标内容相关的事件脉络。

本实施例在将第二事件作为脉络节点,生成事件脉络时,可能的操作包括如下几种:

在一种可能的实现方式中,首先针对每个第二事件,依据组成第二事件的文本中每个文本的发布时间,计算第二事件所对应的平均文本发布时间,再将第二事件作为脉络节点,并按照各第二事件所对应的平均文本发布时间,按照时间的先后顺序对脉络节点进行连线,形成事件脉络。

在一种可能的实现方式中,可以先确定各第二事件中最早发布的文本的发布时间,再将第二事件作为脉络节点,按照最早发布时间的先后顺序,对脉络节点进行连线,生成事件脉络。

当然,上述生成事件脉络的方法仅是为了清除说明本实施例技术方案所提供的两种可能方式,而不是对本申请的唯一限定。

进一步的,在基于上述方法生成事件脉络后,若接收到包含上述目标内容的搜索请求,则向用户显示与该目标内容相关联的事件脉络,以方便用户方便快捷的获取整个事件的发展经过。

本实施例通过从预先存储的事件中获取包括目标内容的多个第一事件,针对每个第一事件从组成第一事件的文本中提取包括目标内容的文本,形成第二事件,将第二事件作为脉络节点,生成与目标内容相关的事件脉络。由于实施例中获取到的第一事件中可能包括多个文本,而第一事件包括目标内容不代表第一事件中每个文本中均包括目标内容,而第一事件中不包括目标内容的那些文本则是与目标内容无关的事件,因而本申请实施例在获得第一事件后,通过从组成第一事件的文本中提取包括目标内容的文本形成第二事件,将第二事件作为脉络节点生成与目标内容相关的事件脉络,能够提高事件节点的纯度,进而提高事件脉络的准确性。另外,由于本实施例中的时间节点是从组成第一事件的文本中提取获得的,而第一事件又是从预先存储的事件中获得的,而不是像现有技术那样事件节点是基于时间窗口来划分获得的,因而本实施例能够避免因为时间窗口划分不当所导致的同一事件被划分为多个事件节点的问题,从而也能够提高事件脉络的准确性。

下面结合附图对上述实施例进行进一步的优化和扩展。

图2是本申请实施例提供的一种事件与关键词之间关联关系建立方法的流程图,在本实施例中数据库中预先存储的是事件与关键词之间的关联关系,在获取第一事件时,基于该关联关系,从数据库中获取与目标内容中目标关键词相关联的事件作为第一事件。如图2所示,在图1实施例的基础上,本实施例包括步骤s21-s23.

s21、获取包括第一关键词的多个文本,所述第一关键词在预设时间长度内的搜索次数超过预设次数。

其中,本实施例所称的第一关键词可以是一个关键词,也可以是多个关键词的组合。

举例来说,假设第一关键词包括关键词a和关键词b,且第一关键词在过去一天内的搜索次数超过了预设的100次,那么从预设的数据库中或者从预设网站上爬取同时包括关键词a和关键词b的文本。当然这里仅为示例说明而不是对本申请的唯一限定。

s22、对所述多个文本进行聚类处理,获得一个或多个第三事件。

具体的,本实施例在对包括第一关键词的多个文本进行聚类操作时,可以基于所述多个文本的正文内容进行聚类操作,获得一个或多个第三事件,或者也可以基于所述多个文本的标题进行聚类分析,获得一个或多个第三事件,其中,本实施例对于“第三事件”的命名仅是为了将聚类获得的事件与其他事件进行区分,而不具有其他含义。本实施例以后一种聚类方式为例,该种方式能够在保证聚类准确性的同时,降低聚类操作的计算量,提高效率。

s23、针对每个第三事件,从组成所述第三事件的文本中提取关键词,生成所述第三事件与所述关键词之间的关联关系。

其中,本实施例可以从组成第三事件的文本的正文中提取关键词,也可以从组成第三事件的文本的标题中提取关键词,其具体提取方法本实施例不做具体限定。

举例来说,假设从第三事件k中提取的关键词为,关键词g、关键词f、关键词h,则建立第三事件k与关键词g、关键词f和关键词h之间的关联关系,当然这里仅为示例说明而不是对本申请的唯一限定。

本实施例通过将事件与关键词之间的关联关系存储在数据库中,从而使得在生成事件脉络时能够直接根据该关联关系获取与目标内容相关的事件,提高了事件脉络的生成效率。

图3是本申请实施例提供的一种步骤s13的执行方法流程图,如图3所示,在上述任意实施例的基础上,本实施例提供的方法包括步骤s31-s32。

s31、将所述第二事件作为脉络节点,并在所述脉络节点之间进行相似度计算,将相似度超过预设阈值的脉络节点融合在一起,形成新的脉络节点。

举例来说,假设由第二事件得到的脉络节点包括节点m、节点n、节点l、节点o,其中,经过计算节点m和节点n的相似度超过预设阈值,则将节点m和节点n融合为一个新的节点p,并保持节点l和节点o不变。当然这里仅为示例说明而不是对本申请的唯一限定。

s32、基于融合后形成的新的脉络节点,以及未融合的脉络节点,生成与所述目标内容相关的事件脉络。

本实施例在基于脉络节点生成事件脉络时可以基于各脉络节点中文本的发布时间,将各脉络节点按照时间顺序进行连接,从而形成与目标内容相关的事件脉络,比如,在一种可能的设计中,可以基于各脉络节点中文本的平均发布时间,按照时间的先后顺序对各脉络节点进行连接,形成事件脉络。或者在另一种可能的设计中还可以基于各脉络节点中最先发布的文本的发布时间,并按照时间的先后顺序对各脉络节点进行连接,形成事件脉络。当然这两种可能的方式仅为示例说明而不是对本申请的唯一限定。

本实施例通过将相似度超过预设阈值的节点进行融合形成新的节点,并基于新形成的节点和未进行融合处理的节点形成事件脉络,能够在前述实施例的基础上进一步避免相同事件被分割成多个事件节点的情况,从而能够进一步提高生成的事件脉络的准确性

图4是本申请实施例提供的一种事件脉络生成装置的结构示意图,如图4所示,该装置包括:

第一获取模块41,用于从预先存储的事件中获取包括目标内容的多个第一事件,所述第一事件由多个文本组成;

提取模块42,用于针对每个第一事件,从组成所述第一事件的文本中提取包括所述目标内容的文本,形成第二事件;

脉络生成模块43,用于将所述第二事件作为脉络节点,生成与所述目标内容相关的事件脉络。

在一种可能的设计中,所述装置还包括:显示模块,用于在接收到包含所述目标内容的搜索请求时,显示所述事件脉络。

本实施例提供的事件脉络生成装置能够用于执行图1实施例的技术方案,其执行方式和有益效果类似,在这里不再赘述。

图5是本申请实施例提供的一种事件脉络生成装置的结构示意图,如图5所示,在图4实施例的基础上,所述目标内容包括目标关键词;所述第一获取模块41,包括:

获取子模块411,用于基于预先存储的事件与关键词之间的关联关系,从数据库中获取与所述目标关键词相关联的第一事件。

所述装置还包括:

第二获取模块44,用于获取包括第一关键词的多个文本,所述第一关键词在预设时间长度内的搜索次数超过预设次数;

聚类模块45,用于对所述多个文本进行聚类处理,获得一个或多个第三事件;

关联关系生成模块46,用于针对每个第三事件,从组成所述第三事件的文本中提取关键词,生成所述第三事件与所述关键词之间的关联关系。

在一种可能的设计中,所述聚类模块45,具体用于:基于所述多个文本的标题对所述多个文本进行聚类处理,获得一个或多个第三事件。

本实施例提供的装置能够执行图2实施例的技术方案,其执行方式和有益效果类似,在这里不再赘述。

图6是本申请实施例提供的一种脉络生成模块43的结构示意图,如图6所示,在图4或图5实施例的基础上,脉络生成模块43,包括:

处理子模块431,用于将所述第二事件作为脉络节点,并在所述脉络节点之间进行相似度计算,将相似度超过预设阈值的脉络节点融合在一起,形成新的脉络节点;

生成子模块432,用于基于融合后形成的新的脉络节点,以及未融合的脉络节点,生成与所述目标内容相关的事件脉络。

在一种可能的设计中,所述处理子模块431,具体用于:

基于各脉络节点中文本的发布时间,将各脉络节点按照时间顺序进行连接,形成与所述目标内容相关的事件脉络。

在一种可能的设计中,所述处理子模块431,具体用于:

基于各脉络节点中最早发布的文本的发布时间,将各脉络节点按照时间顺序进行连接,形成与所述目标内容相关的事件脉络。

本实施例提供的装置能够执行图3实施例的技术方案,其执行方式和有益效果类似,在这里不再赘述。

本申请实施例还提供一种计算机设备,包括:一个或多个处理器;

显示设备,用于显示事件脉络;

存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。

本申请实施例还提供在一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1