一种事件聚类方法和装置与流程

文档序号:36937499发布日期:2024-02-02 22:05阅读:17来源:国知局
一种事件聚类方法和装置与流程

本发明涉及计算机,尤其涉及一种事件聚类方法和装置。


背景技术:

1、生活中会发生很多事件,对事件进行分析研判有助于了解事件的起因和影响,更好地维护区域秩序。在对事件进行分析研判时,通常根据事件发生的区域、事件发生的时间、事件内容或者事件类型等信息对事件进行聚类,然后基于聚类结果进行分析研判。例如,根据事件发生的地点对事件进行聚类,然后对同一地点发生的事件进行分析。

2、在实现本发明的过程中,发明人发现现有技术至少存在如下问题:

3、仅根据事件所包括的单一信息对事件进行聚类,忽略了事件所包括的所有信息之间的关联性,导致事件聚类结果不准确。


技术实现思路

1、有鉴于此,本发明实施例提供一种事件聚类方法和装置,能够综合考虑事件所包括的多种信息,提高事件聚类的准确性。

2、为实现上述目的,根据本发明实施例的第一方面,提供一种事件聚类方法,包括:

3、响应于接收到聚类请求,对所述聚类请求所对应的多个事件进行编码,得到每个事件的语义表征和时空表征;

4、对所述每个事件的语义表征和时空表征进行拼接,得到所述每个事件的向量表征;

5、对所述多个事件的向量表征进行聚类,根据聚类结果确定所述每个事件所属的事件集合。

6、可选地,所述语义表征是基于预先训练的事件语义表征模型编码得到的;在得到每个事件的语义表征之前,所述方法还包括:

7、对预先设置的历史事件进行分词,将分词结果转换为对应的字符标识;

8、使用所述字符标识对预先设置的通用语义模型进行前向传播;

9、确定所述通用语义模型在前向传播过程中的损失函数,根据所述损失函数使用预先设置的优化器对所述通用语义模型进行反向传播,得到事件语义表征模型。

10、可选地,使用所述字符标识对预先设置的通用语义模型进行前向传播,包括:

11、使用所述字符标识对预先设置的通用语义模型进行多次前向传播,在每次前向传播的过程中遮盖所述通用语义模型中的一个或者多个网络节点。

12、可选地,确定所述通用语义模型在前向传播过程中的损失函数,包括:

13、将相同事件的字符标识经过多次前向传播所得到的多个语义表征互相作为正样本,将不同事件的字符标识经过多次前向传播所得到的多个语义表征互相作为负样本,根据所述正样本与所述负样本之间的相似度确定所述通用语义模型在前向传播过程中的对比损失函数。

14、可选地,所述时空表征包括:时间表征;对预先设置的多个事件进行编码,得到每个事件的时空表征,包括:

15、从所述多个事件中获取时间信息,对所述时间信息进行归一化处理;

16、确定所述时间表征的维度信息,根据所述维度信息和所述多个事件的时间信息确定时间变化频率;

17、根据所述时间变化频率,对归一化处理后的时间信息进行三角函数编码。

18、可选地,所述时空表征包括:位置表征;对预先设置的多个事件进行编码,得到每个事件的时空表征,包括:

19、从所述多个事件中获取位置信息,对所述位置信息进行归一化处理;

20、确定所述位置表征的维度信息,根据所述维度信息对预先设置的位置频率进行调整,得到位置变化频率;

21、根据所述位置变化频率,对归一化处理后的位置信息进行三角函数编码。

22、可选地,在对所述多个事件的向量表征进行聚类之前,所述方法还包括:

23、判断每个向量表征所包括的语义表征和时空表征的维度是否相等;

24、在向量表征所包括的语义表征和时空表征的维度不相等的情况下,对向量表征所包括的语义表征和时空表征进行归一化处理。

25、根据本发明实施例的第二方面,提供一种事件聚类装置,包括:

26、编码模块,用于响应于接收到聚类请求,对预先设置的多个事件进行编码,得到每个事件的语义表征和时空表征;

27、拼接模块,用于对所述每个事件的语义表征和时空表征进行拼接,得到所述每个事件的向量表征;

28、聚类模块,用于对所述多个事件的向量表征进行聚类,根据聚类结果确定所述每个事件所属的事件集合。

29、可选地,所述语义表征是基于预先训练的事件语义表征模型编码得到的;所述装置还包括:

30、分词模块,用于对预先设置的历史事件进行分词,将分词结果转换为对应的字符标识;

31、前向传播模块,用于使用所述字符标识对预先设置的通用语义模型进行前向传播;

32、反向传播模块,用于确定所述通用语义模型在前向传播过程中的损失函数,根据所述损失函数使用预先设置的优化器对所述通用语义模型进行反向传播,得到事件语义表征模型。

33、可选地,使用所述字符标识对预先设置的通用语义模型进行前向传播,包括:

34、使用所述字符标识对预先设置的通用语义模型进行多次前向传播,在每次前向传播的过程中遮盖所述通用语义模型中的一个或者多个网络节点。

35、可选地,确定所述通用语义模型在前向传播过程中的损失函数,包括:

36、将相同事件的字符标识经过多次前向传播所得到的多个语义表征互相作为正样本,将不同事件的字符标识经过多次前向传播所得到的多个语义表征互相作为负样本,根据所述正样本与所述负样本之间的相似度确定所述通用语义模型在前向传播过程中的对比损失函数。

37、可选地,所述时空表征包括:时间表征;对预先设置的多个事件进行编码,得到每个事件的时空表征,包括:

38、从所述多个事件中获取时间信息,对所述时间信息进行归一化处理;

39、确定所述时间表征的维度信息,根据所述维度信息和所述多个事件的时间信息确定时间变化频率;

40、根据所述时间变化频率,对归一化处理后的时间信息进行三角函数编码。

41、可选地,所述时空表征包括:位置表征;对预先设置的多个事件进行编码,得到每个事件的时空表征,包括:

42、从所述多个事件中获取位置信息,对所述位置信息进行归一化处理;

43、确定所述位置表征的维度信息,根据所述维度信息对预先设置的位置频率进行调整,得到位置变化频率;

44、根据所述位置变化频率,对归一化处理后的位置信息进行三角函数编码。

45、可选地,所述装置还包括:

46、判定模块,用于判断每个向量表征所包括的语义表征和时空表征的维度是否相等;

47、归一化模块,用于在向量表征所包括的语义表征和时空表征的维度不相等的情况下,对向量表征所包括的语义表征和时空表征进行归一化处理。

48、根据本发明实施例的第三方面,提供一种电子设备,包括:

49、一个或多个处理器;

50、存储装置,用于存储一个或多个程序,

51、当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现上述任一实施例所述的方法。

52、根据本发明实施例的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。

53、上述发明中的一个实施例具有如下优点或有益效果:基于语义表征和时空表征对多个事件进行聚类,能够综合考虑事件所包括的多种信息,提高事件聚类的准确性,便于根据聚类结果确定事件所蕴含的规律;基于历史事件训练事件语义表征模型,能够提高语义表征的编码效率和准确性;使用遮盖网络节点的方式对通用语义模型进行多次前向传播,能够扩充通用语义模型的训练样本,避免发生过拟合,起到正则化的效果;基于多次前向传播得到的语义表征,确定对比损失函数,能够使语义表征更准确,突出不同事件的语义表征之间的差异;根据维度确定时间变化频率,根据时间变化频率对时间信息进行三角函数编码,能够提高时间表征的准确性;根据维度确定位置变化频率,根据位置变化频率对位置信息进行三角函数编码,能够提高位置表征的准确性;在语义表征和时空表征的维度不相等的情况下,对语义表征为时空表征进行归一化处理,能够使语义表征和时空表征的维度量纲统一,提高聚类分析的准确性。

54、上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1