一种基于社会媒体平台的社会事件的跟踪和演变方法_2

文档序号：9597918阅读：来源：国知局

步骤S1 :对各个社会事件的文本和视觉信息进行特征提取，对社会事件的多模态信息进行语义层次特征提取，从而获得各个社会事件文档的文本和视觉信息的语义描述。
[0021] 该步骤中，对各个社会事件文档的文本和视觉信息进行特征提取。针对文本信息的特征提取，使用基本的空间向量模型，并利用文本的上下文信息，实现事件文本的特征描述；针对视觉信息的特征提取，通过考虑图像和视频的结构信息，利用稀疏学习和字典学习，从而建立统一的基于词袋模型的视觉语义描述体系，从而实现视觉信息的特征描述。
[0022] 步骤S2 :输入各个社会事件文档的多模态语义描述，使用基于事件的多模态主题模型（mmETM)，对多模态数据的社会事件进行建模，得到代表性的视觉-文本主题和代表性的非视觉主题。
[0023] 社会事件分类表示多模态的媒体文档分类。社会事件文档是由许多文本和视觉数据组成的。许多的主题模型方法被提出用以解决社会事件的多模态主题分析，但是这些传统的主题模型方法仅用到短的文本。然而，在更复杂的实际场景中伴随着更为丰富的文本信息，特别是来自谷歌新闻的大部分多模态的事件文档。每个事件文档包含了长文本和与之对应的图片，且文本和图片并不满足关联的限制。所以我们不能轻易地直接采用传统的主题模型方法。如图2所示，我们可以发现奥巴马和纽约都能很好地被文字和图片表述，然而经济则只能用文本表述。这预示着奥巴马和纽约在文本和图片模式上存在关联，称为语义代表性。我们可以把这些包含明确而清晰的视觉对应部分的主题描述看作代表性的视觉-文本主题，另一方面，文字图像没有明确对应的，如经济，政治，选举等，我们称为代表性的非视觉主题，这些主题都是能够被文字信息合理描述，但很难用图像表达。我们采用本发明的主题建模方法，即基于事件的多模态主题模型（multi-modal Event Topic Model，mmETM)，来有效地挖掘多模态事件数据的文本和视觉信息，并且同时考虑代表性的视觉-文本主题和代表性的非视觉主题。
[0024] 1)问题的定义
[0025] -个社会事件是指在特定的地点和时间发生的一些特定的行为。其在社会媒体平台上有很多相关的文档，事件的挖掘和演变的目的就是在海量的媒体数据中挖掘这些社会事件的多模态主题分布和跟踪时序性的事件数据。给定当前时刻为t的一系列包含长文本和相关图像的社会事件的文档集为Et= {dpA，…，dM}，其中Μ是文档集的数量。每一个文档d包含两个部分：文本部分wd和视觉部分ν d。因为时刻t是一个离散变量，我们根据事件的演变时间来进行设置t的周期。本发明使用新颖的主题建模方法即基于事件的多模态主题模型（multi-modal Event Topic Model，mmETM)，来有效地挖掘社会事件的文档集 Et= {dpA，…，dM}的文本和视觉主题。图3示出本发明中的基于事件的多模态主题模型的示意图。
[0026] 2)基于事件的多模态主题模型（multi-modal Event Topic Model，mmETM)
[0027] 在基于事件的多模态主题模型的建模中，有两类代表性的主题空间：代表性的视觉-文本主题空间分布<，€，和代表性的非视觉主题空间分布<。每一个文档都和两类代表性的主题分布相互关联：Θ d是基于代表性的视觉-文本主题空间的文档-主题分布， 1^是基于代表性的非视觉主题空间的文档-主题分布。在该模型中，本发明使用开关变量 X来控制文档中的词是由代表性的视觉-文本主题空间还是由代表性的非视觉主题空间产生。因此，在时刻t的Et={d1，d2，···，dM}的文档集，本发明的目标是推断出文档-主题的分布Θ#Ρ φ d，以及K代表性的视觉-文本主题空间分布和Η代表性的非视觉主题空间分布#，其中Κ和Η分别是对应空间分布的主题数量。
[0028] 在基于事件的多模态主题模型的假设下，文档集合中的每个文档的生成式过程如下：
[0029] ?对于代表性的视觉-文本主题空间，其中文本主题Ζ"和视觉主题Ζ ν，根据狄利克雷先验分布";和:；^，分别获得代表性的视觉-文本主题空间中#和#的多项分布；
[0030] ?对于代表性的非视觉主题空间，其中文本主题'，根据狄利克雷先验分布；获得代表性的非视觉-文本主题空间中#f的多项分布；
[0031] ?对于每一个文档d:
[0032] 抽样得到一个二项分布：π d，该抽样服从参数为γ的贝塔分布，记为jt d~ Beta ( y)；
[0033] 抽样得到一个关于代表性的视觉-文本主题空间的多项分布0d，记为0d~ Dir(a)，α是狄利克雷先验分布的参数；
[0034] 抽样得到一个关于代表性的非视觉主题空间的多项分布七，记为七~ Dir(β)，β是狄利克雷先验分布的参数；
[0035] 对于每一个文档d的每一个文本单词wd:
[0036] ?根据二项式分布Binomial ( π d)，抽样得到开关变量xdn，记为xdn~ Binomial ( π d);
[0037] 鲁如果xdn= 0,根据多项式分布Mult ( Φ d)，从代表性的非视觉主题空间抽样得到文本单词wd的主题，_记为
[0038] 鲁如果xdn= 1，根据多项式分布Mult(0 d)，从代表性的视觉-文本主题空间抽样得到文本单词wd的主题Z；；，记为
[0039] ?根据多项式分布Λ/"/?%·)，由主题;^抽样得到单词Wd，记为
[0040] 对于每一个文档d的每一个视觉单词vd:
[0041] 鲁如果xdn= 1，根据多项式分布Mult(0 d)，从代表性的视觉-文本主题空间抽样得到文本单词vd的主题，记为
[0042] ?根据多项式分布，由主题4抽样得到单词Vd，记为
[0043] 然后，通过上述的生成式过程，我们采用了 Gibbs采样的方法来得到基于事件的多模态主题模型建模中的代表性的视觉-文本主题空间分布，和代表性的非视觉主题空间分布。公式如下所示：
[0046] 其中，表示第k个代表性的视觉-文本主题空间分布，表示第k个代表性的非视觉主题空间分布，nk,w，nk,v分别表示第k个代表性的视觉-文本主题空间文本单词和视觉单词出现的次数。nh,w分别表示第k个代表性的非视觉主题空间文本单词出现的次数。NW，NV分别表示文本单词和视觉单词的总数。分别表示狄利克雷先验分布的参数。
[0047] 步骤S3 :针对时序性的社会事件数据，利用基于多模态主题模型（_ETM)的在线推断算法，挖掘其多模态的文本和视觉主题，将整个事件过程可视化显示。
[0048] 通过本发明中的基于事件的多模态主题模型，可以在大量的社会媒体数据上挖掘出社会事件的多模态的文本和视觉主题，针对时序性的社会事件数据，本次发明提出了一个基于多模态主题模型（_ETM)的在线推断算法，将整个事件过程可视化显示，以一种清晰的、图形化的界面展示给用户，让用户能够快速知道整个事件的发展演变过程，并且让用户快速了解和分析整个事件的演变过程。具体过程是：时刻t的事件的文档集Et= {七， d2，…，dM}，通过本发明中的基于事件的多模态主题模型挖掘得到时刻t中的社会事件的多模态的文本和视觉主题。在下一个时刻t+Ι，本发明使用上一个时刻t获得的多模态的文本和

完整全部详细技术资料下载

当前第2页1 2 3