在物理空间上提取网络空间热点事件信息的方法

文档序号:6380858阅读:151来源:国知局
专利名称:在物理空间上提取网络空间热点事件信息的方法
在物理空间上提取网络空间热点事件信息的方法技术领域
本发明属于数字信息处理技术领域,具体涉及与网络多媒体信息相关的数字信息处理,特别是基于多源异质媒体集的协同聚类的在物理空间上提取网络空间热点事件信息的方法。
背景技术
随着信息技术的发展和互联网的普遍应用,越来越多的人习惯于在网络上分享新闻、发表个人见解、讨论热门话题,甚至记录日常生活琐屑。网络空间数据是指在互联网上共享的各类社会感知数据,包括用户共享的文本、图像、视频、音频等多媒体数据。由于快速、便捷、普遍等特点,互联网络已经成为人们获取信息的一个重要途径。然而事物总有其两面性,用户在网络上的正当行为可以促使进步、健康、有益的正面信息在网络空间中传播,而不当行为可能散布反动、迷信、低级的具有误导性或危害性的言论。不当行为甚至可能将进一步误导舆论或者妨碍到公共安全。
相对于网络空间,物理空间中的数据主要指能够反映真实物理存在的信息数据, 包括新闻、监控视频以及原始照片等。可见,来源于确定的物理空间的信息较为可信、真实, 有助于用户辨别来自网络空间的信息的真实性和可靠性。因此研究如何在物理空间中提取网络空间的热点事件信息的方法是非常必要和迫切的。
但是在目前的研究中,网络空间数据的舆情性和物理空间数据的真实性,并没有得到很好的重视和利用。现有方法多数局限于只在单一空间上分析数据,例如对网络空间的热点信息的分析,以及对物理空间数据的异常检测。而针对物理空间和网络空间数据的交互和融合,还没有系统的研究工作。
此外,目前对于热点事件的言论及其相关信息的挖掘,现有方法主要是采用有效的数据集上进行聚类的方法,比如基于谱的分割方法(spectralgraph partition)、k均值聚类(K-means)等,但这些方法都局限于在单一媒体集上。发明内容
(一 )要解决的技术问题
本发明需要解决的技术问题主要为如何利用多源异质数据集之间语义关联,发现网络空间热点事件在物理空间中最为相关的信息样本,以在物理空间上提取网络空间热点事件信息,从而帮助用户甄别网络空间中信息的真实性。
( 二 )技术方案
为了解决上述技术问题,本发明提出了一种在物理空间上提取网络空间热点事件信息的方法,包括如下步骤SI、在网络空间中提取热点事件关键词集;S2、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类;S3、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。
其中步骤SI可以包括对热点事件的每个关键词进行分析,根据每个关键词在各个时间间隔上的突发程度,赋予其不同的突发指数,以此在每个时间间隔上返回一组突发程度较高的关键词集。
其中步骤S2包括S21、计算物理空间中的多源异质信息样本的语义关联度;S22、 根据所述热点事件关键词对物理空间中的多源异质数据集进行协同聚类。
返回到第S222步。
其中步骤S3包括S31、返回物理空间各个数据集中与指定热点事件相关度最高的若干个聚类,其中相关度最高的若干个聚类可以由联合概率大于给定阈值来确定;S32、 在各个数据集返回的聚类上,计算其中的每个样本与热点事件的相似度;S33、每个数据集返回相关度最大的指定个样本作为最终的结果。
(三)有益效果
本发明利用物理空间和网络空间的信息样本的关联性与互补性,提出了多源异质数据集的协同聚类方法,解决了检索物理空间中与网络空间热点事件相关的信息样本,为网络热点事件的言论提供物理空间关联信息作为参考依据,不仅可以让用户快速、全面地了解热点事件的相关信息,同时也增强了用户对不良信息和谣言的辨别能力。
本发明通过计算信息样本间的文本、图片、视频等多媒体信息的相关性,极大地提高了聚类和样本检索的准确性。


图I示出了来自网络空间的热点事件关键词集与来自物理空间的照片集、视频集、新闻集之间的关系;
图2是本发明所提出的在物理空间上提取网络空间热点事件信息的方法的示意图3是本发明采用的基于信息理论(Information Theoretic)的聚类方法求解一般化结构的协同聚类问题的示意图4示出了本发明的一个实施例在各个时间间隔里提取的前15个热点关键词和突发指数;
图5示出了本发明的一个实施例挖掘出来的网络空间热点事件列表;
图6示出了本发明的一个实施例第一周中与各个热点事件相关的物理空间的信息样本。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
如前所述,在本发明中,网络空间数据是指在互联网上,共享的各类社会感知数据,包括用户共享的文本、图像、视频、音频等多媒体数据,物理空间中的数据主要指能够反映真实物理存在的信息数据,包括新闻、监控视频以及原始照片等。
为了有效地挖掘网络空间的热点事件,同时发现物理空间中与之相关的样本信息,本发明提出多源异质数据集的协同聚类的方法。这一方法与传统的聚类技术比较,具有普遍性,且更适合于当前比较热门的微博平台。
多源异质数据集的协同聚类方法考虑来自不同源数据集样本的跨源跨媒体相关性,利用物理空间与网络空间信息的关联性和互补性,对所有数据源数据进行同时聚类。在本发明中,所涉及到的多源异质数据集包括从网络空间检测到的热点事件关键词集,也包括来自物理空间的照片集、视频集和新闻集。
图1示出了来自网络空间的热点事件关键词集与来自物理空间的照片集、视频集、新闻集之间的关系,如图1所示,物理空间与网络空间的各个数据集之间具有两两的相连性与互补性。
图2是本发明所提出的在物理空间上提取网络空间热点事件信息的方法的示意图。图2示出了来自两个空间的多源异质数据集之间的语义关联。由图2可以看出,任意两个数据集都是相关的,这些关联关系就是本发明所提出的协同聚类方法的基础。
本发明的方法包含三个步骤S1、在网络空间中提取热点事件关键词集;S2、对来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类;S3、根据聚类结果提取物理空间中与热点事件相关的信息样本。
SI、在网络空间中提取热点事件关键词集。
事件总是与一组关键词相关的,比如日本2011年3月11日的大地震,这一事件就与“地震”、“核泄露”和“福岛”等关键词相关。因此热点事件关键词提取是热点事件检测的关键步骤。不同于一般的事件检测方法,由于热点事件检测注重分析事件在时间维度上的变化特征,所以本发明对每个关键词进行分析,根据其在各个时间间隔上的突发程度,赋予其不同的突发指数,以此在每个时间间隔上返回一组突发程度较高的关键词集。所谓突发是指在短时间内某一事物发生的频率急剧增多。
本发明把每个关键词看成是一个生命体,当一个新的关键词出现时,他的生命就开始了,随后我们可以利用下面的步骤对其进行分析计算。
摄入新营养在这个关键词存活的每个时间间隔里,它都将根据其当前时间间隔的热度,摄入新的营养,新的营养可以用“词频-比例文档频率”(Term frequency-Proportional document frequency)计算得出。设关键词w的摄入新营养为 newNutri (w),计算公式如下
权利要求
1.ー种在物理空间上提取网络空间热点事件信息的方法,其特征在于,包括如下步骤 51、在网络空间中提取热点寒件关键词集; 52、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类; 53、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。
2.如权利要求1所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述步骤SI包括对热点事件的每个关键词进行分析,根据每个关键词在各个时间间隔上的突发程度,赋予其不同的突发指数,以此在每个时间间隔上返回一组突发程度较高的关键词集,所谓突发是指在短时间内某一事物发生的频率急剧增多。
3.如权利要求2所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,在步骤SI中,在每个时间间隔上,通过下面的公式计算每个关键词的能量方差
4.如权利要求1所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述步骤S2包括 521、计算物理空间中的多源异质信息样本的语义关联度; 522、根据所述热点事件关键词对物理空间中的多源异质数据集进行协同聚类。
5.如权利要求4所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述多源异质信息样本包括文本、图像和视频信息。
6.如权利要求5所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,通过下式公式计算所述多源异质信息样本间的语义相关度C
7.如权利要求6所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述多源异质信息样本的文本、图像和视频的相似度的计算公式为
8.如权利要求4所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述步骤S22包括 设数据源个数为η个,X1, x2,…,1为分别来自不同数据源的样本,ρ12,ρ13,…,Plri, 是任意两个数据集的联合概率矩阵,找到各个数据集上最优的聚类,使得聚类后的联合概率矩阵Λ2,#13,互信息损失最小,其中,两个数据源上的联合概率矩阵可以通过下式计算得出
9.如权利要求8所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述步骤S22包括 5221、首先对每个数据集给定ー个初始聚类,得到相应的聚类后的联合概率矩阵,并计算原始数据集的联合概率矩阵的互信息; 5222、对每个数据集IxJ:寻找这个数据集中任意样本的最优目标聚类,使得满足子目标的线性组合最优,根据IxJ的新的聚类结构,更新聚类后的联合概率矩阵; 5223、将所有数据集的聚类更新后,计算聚类后的联合概率矩阵的互信息; 5224、如果原始互信息与聚类后的互信息的差小于给定阈值,则结束,否则返回到第S222 步。
10.如权利要求8所述的在物理空间上提取网络空间热点事件信息的方法,其特征在于,所述步骤S3包括 ·531、返回物理空间各个数据集中与指定热点事件相关度最高的若干个聚类,其中相关度最高的若干个聚类可以由联合概率大于给定阈值来确定; ·532、在各个数据集返回的聚类上,计算其中的每个样本与热点事件的相似度; ·533、每个数据集返回相关度最大的指定个样本作为最終的結果。
全文摘要
本发明公开了一种在物理空间上提取网络空间热点事件信息的方法,包括如下步骤S1、在网络空间中提取热点事件关键词集;S2、对所述来自网络空间的热点事件关键词集和来自物理空间的数据集进行协同聚类;S3、根据所述协同聚类的聚类结果提取物理空间中与热点事件相关的信息样本。本发明利用物理空间和网络空间的信息样本的关联性与互补性,解决了检索物理空间中与网络空间热点事件相关的信息样本,为网络热点事件的言论提供物理空间关联信息作为参考依据,不仅可以让用户快速、全面地了解热点事件的相关信息,同时也增强了用户对不良信息和谣言的辨别能力。
文档编号G06F17/30GK102982110SQ20121044307
公开日2013年3月20日 申请日期2012年11月8日 优先权日2012年11月8日
发明者徐常胜, 鲍秉坤 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1