基于图形处理单元的异构特征时序数据演化聚类方法

文档序号:8512598阅读:498来源:国知局
基于图形处理单元的异构特征时序数据演化聚类方法
【技术领域】
[0001] 本发明涉及一种并行异构特征时序数据演化聚类方法,尤其涉及一种基于图形处 理单元的异构特征时序数据演化聚类方法,属数据处理技术领域。
【背景技术】
[0002] 在现实世界中,绝大部分数据都带有时间特征,如社会化媒体数据、股票数据、医 疗数据、科学文献数据等。这些数据中的时间特征可以被用来发现事件的演化趋势、检测异 常行为、预测事件发展等。时序数据演化聚类在现实应用中有许多潜在的需求,例如在社会 化媒体数据中,大量用户发布、交流、传播和跟踪各种与社会、政治等相关的热点事件,这个 过程实时反映了人们对正在传播事件的观点及看法。因此,对于政府部门来说,通过演化聚 类方法可以从社会化媒体数据中挖掘出事件的起因、讨论的热度以及人们的观点,同时,随 着事件的进一步发展,还可以挖掘出人们观点及讨论热度的变化。在这个过程中,政府可以 实时地监控、引导舆情的变化。这对于维护社会稳定和国家网络信息安全来说是至关重要 的。
[0003] 近年来,随着信息技术和互联网技术快速发展,特别是移动互联网的迅猛发展, 数据的获取变得越来越容易,数据规模也越来越大。这使得传统的时序数据演化聚类时间 代价太高,不能适应现有的大规模时间数据的演化聚类。此外,由于现实应用的复杂性,这 些应用产生的数据对象通常也包含多种类型的特征,例如社会化媒体数据中包含文本、图 形、视频、标签、表情等特征。如何利用这些异构特征进行综合学习,获取数据集中簇结构的 演化趋势也是时间数据演化聚类的一个难点。
[0004] 现有的多视图数据聚类方法也能够处理异构特征数据的聚类问题。例如2009年, Chi等人通过加权融合图像特征和文本特征进行多视图数据聚类(Chi M, Zhang P, Zhao Y, et al. Web image retrieval reranking with multi-view clustering,www, 2009)〇 但 是,这种简单的对不同量纲的数据进行加权融合会使融合后的数据失去可解释性,而且找 到一组合适的加权参数也是一项非常困难的事情。由于时序数据的特殊性(如时间的延续 性),简单的把时间特征作为异构特征数据的一个视图进行聚类不能得到有效地演化聚类 效果。
[0005] 基于潜层狄利克雷主题模型(Latent Dirichlet Allocation),Wang 和 McCallum 人提出了时间主题模型(Topic over Time,Wang X,McCallum A.Topics over time:a non-Markov continuous-time model of topical trends,ACM SIGKDD,2006) 〇 该方法通 过引入贝塔分布(Beta Distribution)来归一化每个话题在时间维度上的分布,利用话题 在时间分布上的不同来区分在内容上相似的话题。该方法限制每个话题在时间上都必须服 从贝塔分布,然而,现实应用中很多话题在时间上的演化并不服从贝塔分布。此外,时间主 题模型只能利用文本和时间两种特征,现实数据中的其他特征信息并不能被有效利用,从 而提高演化聚类的效果。
[0006] 基于张量非负分解方法,Lin等人提出基于多张量非负分解方法(Metafac, (Y. Lin, J. Sun, P. Castro, R. Konuru, H. Sundaram, and A. Kelliher, ''Metafac: community discovery via relational hypergraph factorization, ACM SIGKDD,2009) 〇 该方法利用 多个张量来表示多种类型的数据特征,然后同时对这些张量进行非负分解来获得每个对象 在每个簇中的隶属度和每个簇中特征的分布。然而该方法不能有效地利用时间特征来发现 簇(或话题)的热点趋势变化。同时,当数据量较大时,张量非负分解的速度非常慢,难以 满足现实应用的要求。此外,2014年,Iiu等人也提出了基于多矩阵非负分解多视图聚类算 法(Liu J, Wang C, Gao J,et al. Multi-view clustering via joint nonnegative matrix factorization,SDM,2013),但是该方法不能够直接有效的处理时间特征并发现簇在时间 维度上的演化趋势。

【发明内容】

[0007] 本发明解决的技术问题是:提出一种基于图形处理单元的异构特征时序数据演化 聚类方法,克服现有技术不能够有效地利用数据中的异构特征进行演化聚类和由于数据量 大而导致的计算速度慢的问题。
[0008] 实现本发明的技术方案是,提供一种基于图形处理单元的异构特征时序数据演化 聚类方法,所述方法将异构数据用多视图方法表示,整个数据集利用多个矩阵来表示;根据 异构数据的大小申请相应的显存空间,并把数据传入显存;利用图形处理单元进行多矩阵 非负分解得到特征模矩阵、时间模矩阵和数据对象分配模矩阵;然后对模矩阵进行归一化 处理,得到每个簇的属性分布、每个对象在簇中的隶属度和簇的演化趋势;最后把所有的计 算结果从显存回传到主存,包括特征模矩阵、时间模矩阵和数据对象分配模矩阵,并释放所 占用的显存空间。
[0009] 本发明方法的实现步骤如下:
[0010] (1)多视图数据表示:提取原始数据的异构特征,每一种类型的特征用一个视图 表示,在计算过程中,一个特征视图数据用一个矩阵表示X i,时序特征用矩阵χτ表示,这 样,数据集可表示为X = {Χτ,X1,X2,...,xp},P为特征矩阵的个数。
[0011] (2)申请显存空间:在运行聚类算法之前,需要申请的显存空间包括:存放原始数 据的空间、聚类算法运行的临时空间和结果存放空间,然后把多视图数据X传到显存中。
[0012] (3)并行非负多矩阵分解:针对显存中存放的多视图数据,本发明设计一种在图 形处理单元上运行的基于平滑约束的并行多矩阵非负分解方法来获得特征模矩阵、时序模 矩阵和数据对象模矩阵,为了获得这三种模矩阵,本发明为算法构建目标函数,设计了三个 计算公式,分别用来计算特征模矩阵、数据对象模矩阵和时序模矩阵。这三个计算是迭代进 行的,其计算顺序为:计算特征模矩阵-> 计算数据对象模矩阵-> 计算时序模矩阵]->[计 算计算特征模矩阵_>计算数据对象模矩阵_>计算时序模矩阵]_>...,迭代循环,一直到目 标函数收敛为止;在计算过程中,每个步骤设计若干个核函数,运行在图形处理单元上。
[0013] (4)归一化模矩阵:针对并行多矩阵分解后的模矩阵做归一化处理,获得每个簇 中特征的分布,每个对象属于不同簇的概率及每个簇的演化趋势。
[0014] (5)释放显存空间:最后算法运行结束后,释放算法所占用的显存空间。
[0015] 本发明提出的基于图形处理单元的异构特征时序数据演化聚类方法,围绕着异构 特征的时序数据展开演化聚类研宄,利用联合多矩阵非负分解的思想融合异构特征进行聚 类,把多矩阵非负分解转化成图形处理器的矩阵乘法、矩阵乘除、矩阵加减等核函数,加快 矩阵分解的运行。同时,本发明矩阵分解的方法来发现簇的演化趋势。在矩阵分解过程中, 利用时间平滑约束来得到更加合理的演化趋势,避免由于噪音带来演化趋势的剧烈振荡。
[0016] 本发明与现有技术比较的有益效果是,本发明通过利用矩阵分解方法来发现簇 (或者话题)的演化趋势,提出了基于平滑约束的多矩阵非负分解方法,可以有效地发现簇 随时间的热度趋势变化。本发明的该特征可以用来追踪社会热点、预测话题趋势变化。
[0017] 传统的矩阵分解速度较慢,特别是当数据量大时,过高的时间代价往使得该方法 难以被广泛使用。本发明通过把多矩阵非负分解转化了矩阵乘法、矩阵加减法、矩阵按元素 操作等,充分发挥图形处理单元在这些操作上速度优势,加快算法的运行。传统的时序演化 聚类算法,通常只能利用单一的特征(如文本特征)。本发明利用多矩阵分解来融合多类型 的特征进行聚类,能够充分利用数据中包含的多种类型的信息,从提高演化聚类的精度。
[0018] 本发明基于图形处理单元的时序数据演化聚类方法能够有效地发现簇及其演化 趋势。同时相比于传统的矩阵分解算法,本发明在速度上可以提高100倍的性能。
【附图说明】
[0019] 图1为本发明的流程图;
[0020] 图2为本发明的一个异构特征数据示例;
[0021] 图3为本发明所需要申请的显存空间;
[0022] 图4为本发明的矩阵乘除核函数示意图;
[0023] 图5为本发明的计算时间模矩阵核函数示意图;
[0024] 图6为本发明的矩阵加法核函数示意图;
[0025] 图7为本发明的并行与串行多矩阵非负分解在模拟数据集上的加速;
[0026] 图7 - 1为迭代次数与加速比的关系曲线;
[0027] 图7 - 2为数据维度与加速比的关系曲线;
[0028] 图7 - 3为数据对象数目与加速比的关系曲线;
[0029] 图7 - 4为矩阵分解的秩(簇的数目)与加速比的关系曲线;
[0030] 图7 - 5为特征视图数目与加速比的关系曲线;
[0031] 图8为本发明的簇的演化趋势图;
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1