情感特征一致性驱动的地理空间点数据采样方法

文档序号:36649449发布日期:2024-01-06 23:33阅读:24来源:国知局
情感特征一致性驱动的地理空间点数据采样方法

本发明属于数据处理,涉及一种情感特征一致性驱动的地理空间点数据采样方法。


背景技术:

1、随着社交媒体的发展,情感分析在许多领域,特别是与地理可视化相结合的领域,已经成为一个越来越有价值的话题。近年来,大量方法被用于从社交媒体中提取用户意见,这在很大程度上支持情感特征的视觉分析(aspect and entity extraction for opinionmining,lei zhang,bing liu 2014/1)。例如,推文的情绪在地图上以不同的颜色进行阴影,以便于直观地了解人群对大型活动的社会反应(whisper:tracing thespatiotemporal process of information diffusion in real time,@article{nancao,yu ru lin xiaohua,sun lazer shixia liu,huamin qu,2012)。此外,视觉变量的统计表明,颜色是传达情绪的最常见的视觉通道。因此,在地理地图上用地图标记颜色来表示位置和编码文本极性可以帮助用户有效地分析特定主题下不同地区的舆情。然而,随着社交媒体数据规模的不断扩大,不同颜色的视觉元素相互重叠,干扰了用户对情感分布的视觉感知,阻碍了用户对大规模地理标注社交媒体数据的情感分布和语义的视觉理解。

2、解决以上问题主要包括两类方法,滤波法和抽样法。在过滤方法中,基于数据项的属性特征来过滤数据项(a visual backchannel for large-scale events,mariangruen,2010/11)。然而,数据项的属性并不总是对应于它们的地理位置分布的,因此使用基于属性的过滤方法不能很好地保持简化数据项的空间分布。相比之下,采样方法能够减少视觉杂乱,同时保持空间分布。

3、现有的采样技术,例如蓝噪声采样(visual abstraction and exploration ofmulti-class scatterplots,haidong chen/wei chen,2014/11),以减少多类散点图的视觉杂波,同时保持相对数据密度和类密度。该方法较好地保留了空间分布,但在采样可视化中容易丢失属性特征。当然,空间分布和情感特征对于大规模地理标记社交媒体数据的探索都是重要的,这给视觉抽象方法的设计带来了巨大的挑战。对于情绪特征的分析,有学者提出了一种识别情绪类别的模型,并将情绪分为积极、消极和中性。为了在采样的地理可视化中保留情感特征,保留其局部区域的分布是非常重要的。此外,采样的社交媒体数据项的排序属性应该与原始数据的排序属性一致。在数据库领域,一种快速采样模型(rapidsampling for visualizations with ordering guarantees,albert kim/ericblais,2015/1),提出了一种在保持排序特性的情况下快速生成近似可视化的方法。因此,这是一种在保持属性值在不同类别之间的分布的同时减少数据集大小的有效方法。

4、然而,快速采样仍然有以下局限性:(1)在采样过程中没有考虑空间信息,很难保持原始数据与采样数据项的空间分布。(2)采样率不稳定,不能由用户根据自己的要求进行控制,因为在以下两种情况下很难得到具有一致排序性质的采样结果:一是类别数量大,二是类别的属性三个值相似,这使得很难获得正确的类别排序。在这项工作中,我们的目标是减少大规模社交媒体数据的规模,同时尽可能保留局部区域的情感分布和全球的空间分布。首先,根据社交媒体的地理位置和情感属性,将社交媒体数据划分为若干初始聚类。随后,从大量的初始聚类开始,自下而上的层次聚类迭代合并地理位置相近的多个聚类,并使用多树编码。然后,利用快速采样对节点的数据项进行采样,以保持局部区域的情感分布。然而,由于样本的随机性,结果可能不能有效地保留节点之间的情感分布。


技术实现思路

1、本发明的目的是提供一种情感特征一致性驱动的地理空间点数据采样方法。

2、本发明所采取的技术方案是:

3、步骤(1)获取开源的社交媒体数据集;社交媒体数据集中每个数据项的属性包括文本信息、用户id、时间、地理坐标。

4、步骤(2)对社交媒体数据集的文本信息进行词干提取后,使用情感分析模型vader进行情感分析,得到文本信息所表达的情感值。

5、步骤(3)对所有数据项使用凝聚分层方法进行聚类,提取局部区域的情感分布;

6、凝聚分层方法首先进行预聚类,得到预簇,然后自底向上聚类,得到聚类树;

7、在预聚类阶段,根据核密度和情感值对数据项进行合理聚类,具体方法是:

8、随机选择一个数据项p,计算其泊松盘半径其中f(p)为基于地理坐标的核密度估计(kde)计算结果,r为设定参数;以数据项p地理坐标为圆心,rp为半径范围内的数据项作为一个初始预簇;

9、对初始预簇内的数据项根据情感值进行筛选,得到预簇;

10、对于初始预簇内的数据项p′的情感值p′sentiment,如|p′sentiment-psentiment|≤λ,则数据项p′与数据项p归属为一个预簇,λ为设定的情感值阈值;

11、重复上述步骤,直到所有的数据项都归属于不同的预簇,且每个数据项仅归属于一个预簇,得到k个预簇。

12、在自底向上聚类阶段,首先根据地理坐标计算两个预聚之间的相似性:预簇vk与预簇vk′平均相似度k,k′∈[1,k],k≠k′;其中vk-sum和vk′-sum分别为预簇vk和预簇vk′所包含数据项的数量,lq′和lq分别数据项q′和数据项q的地理坐标,||·||2表示2范数;如果平均相似度大于等于设定相似性阈值γ则将两个预簇归属为一个一级节点,如果一个预簇与其他任何预簇的平均相似度都小于相似性阈值γ,则该预簇本身作为一级节点;采用相同方法,对一级节点继续进行向上聚类,得到二级节点,以此类推,得到一个根节点;

13、提取各级节点以及根节点所包含预簇的情感分布:计算每个预簇内所有数据项的平均情感值μk,k=1,…,k,得到各级节点以及根节点的情感分布向量,向量中每个维度的元素即为其对应预簇的平均情感值。

14、步骤(4)对所有预簇的数据项进行采样,以保持全局情感分布和局部情感分布;

15、首先从每个预簇任意选择一个数据项作为初始样本,进行第一轮采样,得到每个初始样本的情感值的置信区间;

16、如果一个或多个预簇的置信区间与其他所有预簇的置信区间都不重叠,则停止对这些预簇进行后续采样,将初始样本作为这些预簇的采样样本,并对剩余预簇进行第二轮采样,如果一个或多个预簇的置信区间与其他所有预簇的置信区间都不重叠,则停止对这些预簇进行后续采样,将初始样本和新增样本作为这些预簇的采样样本,并对剩余预簇进行下一轮采样,直到所有预簇的置信区间都不重叠,或者剩余预簇内没有增加样本则结束采样,得到所有预簇的采样样本;

17、由此得到采样后预簇情感分布向量,即一级节点的情感分布向量,向量中每个维度的元素即为其对应预簇的采样样本的平均情感值。

18、步骤(5)计算每个一级节点的情感分布向量对全局情感分布的贡献;

19、wj表示第j个一级节点wj的情感分布向量对全局情感分布的贡献值,j∈[1,j],j为一级节点数量,i=1,…,j,i≠j;μ′k和μ′k′分别表示预簇vk和预簇vk′采样样本的平均情感值;φ(x,y)为一个判断函数,x≥y则φ(x,y)=1,否则φ(x,y)=0;σ(x,y)为另一个判断函数,x=y则σ(x,y)=1,x≠y则σ(x,y)=0;

20、如果采样率小于设定的采样率阈值η′,m为社交媒体数据集的数据项总数,m′为采样的数据项数量,则对贡献值最低的一级节点对应的二级节点所包含的所有预簇进行重新采样,直至达到设定的采样率阈值η′。

21、进一步,步骤(4)中第一轮采样得到的置信区间,是以该初始样本的情感值为中心,上下分别扩展的区间长度设定的置信概率0.9≤δ≤0.95;

22、第二轮以后采样得到的置信区间,是以平均情感值为中心,上下分别扩展的区间长度n表示预簇包含的原始数据项数量,m表示采样轮次。

23、现有的简化地理可视化技术在抽样过程中忽略了情感特征空间分布,容易造成对各地情绪的误解。本发明设计了一种优化的层次聚类方法,根据情感属性和数据项的地理位置提取多尺度区域中的情感分布;并采用回溯平均贡献值最低的采样节点方法,尽可能地保留全局情感分布和空间分布;通过情感轮等一些新颖的交互被设计帮助用户深入地对大规模的带有地理标签的社交媒体数据进行地理空间情感分析。本发明用于大规模地理标记社交媒体数据的简化和探索,旨在保留采样社交媒体数据项的情感特征和空间分布,在简化和探索大规模地理标记社交媒体数据方面的具有有效性和实用性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1