基于图形处理单元的异构特征时序数据演化聚类方法_2

文档序号:8512598阅读:来源:国知局
[0032] 图中,1 一 14指话题名称(英文),1表示一个男学生的SARS恶作剧,2表示美国 白宫通过预算,3有示一艘渡船在孟加拉国的帕格拉附近沉没,4表示比利时爆发群流感,5 表示科尔号军舰攻击嫌疑逃犯,6表示西班牙选举,7表示索萨有作弊嫌疑,8表示伊拉克核 地址发生哄抢,9表示曼德拉85岁,10表示法院起诉利比里亚总统,11表示同性恋主教,12 表示科比性侵案,13表示约翰尼·卡什的死亡,14表示爱德华?萨义德享年67岁。
【具体实施方式】
[0033] 下面结合具体实施例,对本发明技术方案进一步说明。
[0034] 如图1所示,本发明的【具体实施方式】是:提供一种基于图形处理单元的异构特征 时序数据演化聚类方法,包括如下步骤:
[0035] 步骤01 :多视图数据表示,提取原始数据的异构特征,每一种类型的特征用一个 矩阵表示,整个数据集可表示为X = {χτ,X1,X2,...,χρ},P为特征矩阵的个数。
[0036] 具体实施过程如下:在现实应用中,数据对象可能包含多种类型的特征,如图2, 一篇学术论文包含关键词、作者、引用和时间等特征。在多视图数据表示步骤中,数据对象 的每一种特征用一个矩阵表示;T = _!χ)ν,1 ?Ξ / S I s ./_ < ",I s !,其中,P为特征种 类,η为数据对象种类,HIi为第i种类型特征的属性数目,为第j个数据对象在第i种类 型特征的第q个属性上的属性值。Χτ为时间特征矩阵,其 中T为数据中时间点的数目,K为数据对象在t时刻的值,当j对象不在t时刻出现时,则 为零。这样,整个数据集用多视图数据表示为X= {χ?χ2,...,#}。
[0037] 步骤02 :申请显存空间,在运行聚类算法之前,需要申请的显存空间包括:存放原 始数据的空间、聚类算法运行的临时空间和结果存放空间,如图3。
[0038] 具体实施过程如下:在申请显存空间步骤中,首先在显存中申请存放原始数据 X= {χ?χ2,...,#}的空间;然后申请计算过程中需要用来存放临时数据的临时空间 XqUq (在更新第q个特征模矩阵时,存放第q个特征视图与上一次第q个特征模矩阵的乘 积,这里不需要为每个Uq, (I < q < p)申请临时显存空间,只需要申请占最大显存空间的 就行,在计算所有特征模矩阵时,共用这块显存空间),临时空间UqOO(在更新第q 个特征模矩阵时,存放第q个特征视图与两个分配矩阵乘积的乘积,同样是申请占最大显 存空间的Uq0T0就行,在计算所有特征模矩阵时,共用这块显存空间),临时空间SumXU(在 更新对象分配矩阵〇时,存放第q个特征视图X与特征模矩阵U乘积的和)和临时空间 SumUtU (在更新对象分配模矩阵0时,存放上一次迭代的对象分配模矩阵0与第q个特征 模矩阵U与其转置乘积的乘积之和)。在更新时间矩阵Χ τ时,也要利用临时变量XqUq与 UqOO。在申请完成这些显存空间后,通过图形处理单元的数据拷贝函数把原始数据X = {Χτ,X1,X2, . . .,Xp}传到显存上,同时把其他临时空间初始化为零。
[0039] 步骤03 :并行非负多矩阵分解,针对显存中存放的多视图数据,设计一种在图形 处理单元上运行的基于平滑约束的并行多矩阵非负分解方法来获得特征模矩阵、时序模矩 阵和数据对象模矩阵,在计算过程中,每个步骤设计若干个核函数,运行在图形处理单元 上。在该步骤中,设计了三个计算公式分别计算三个矩阵的值。这个算法是一个迭代算法, 更新的步骤是:[计算特征模矩阵_>计算数据对象模矩阵_>计算时序模矩阵]_> [计算特 征模矩阵_>计算数据对象模矩阵_>计算时序模矩阵]_>...,迭代循环,一直到目标函数收 敛为止。
[0040] 具体实施过程如下:首先,本发明为算法构建了目标函数:
【主权项】
1. 一种基于图形处理单元的异构特征时序数据演化聚类方法,其特征在于,所述方法 将异构数据用多视图方法表示,整个数据集利用多个矩阵来表示;根据异构数据的大小申 请相应的显存空间,并把数据传入显存;利用图形处理单元进行多矩阵非负分解得到特征 模矩阵、时间模矩阵和数据对象分配模矩阵;然后对模矩阵进行归一化处理,得到每个簇的 属性分布、每个对象在簇中的隶属度和簇的演化趋势;最后把所有的计算结果从显存回传 到主存,包括特征模矩阵、时间模矩阵和数据对象分配模矩阵,并释放所占用的显存空间。
2. 根据权利要求1所述基于图形处理单元的异构特征时序数据演化聚类方法,其特征 在于,所述方法具体包括如下步骤: (1) 多视图数据表示:提取原始数据的异构特征,每一种类型的特征用一个视图表示, 在计算过程中,一个特征视图数据用一个矩阵表示X i,时序特征用矩阵Xτ表示,这样,数据 集可表示为X = {Xτ,X1,X2,...,xp},P为特征矩阵的个数; (2) 申请显存空间:在运行聚类算法之前,需要申请显存空间包括:存放原始数据的空 间、聚类算法运行的临时空间和结果存放空间,然后把多视图数据X传到显存中; (3) 并行多矩阵非负分解:针对显存中存放的多视图数据,在图形处理单元上运行的 基于平滑约束的并行多矩阵非负分解方法来获得特征模矩阵U' (I < q < ρ)、时序模矩阵T 和数据对象模矩阵〇,为了获得这三种模矩阵,设计了三个计算公式,分别用来更新特征模 矩阵、数据对象模矩阵和时序模矩阵;在计算过程中,每个步骤设计若干个核函数,运行在 图形处理单元上; (4) 归一化模矩阵:针对并行多矩阵分解后的模矩阵做归一化处理,获得每个簇中特 征的分布,每个对象属于不同簇的概率及每个簇的演化趋势; (5) 释放显存空间:最后算法运行结束后,释放算法所占用的显存空间。
3. 根据权利要求2所述基于图形处理单元的异构特征时序数据演化聚类方法,其特 征在于,所述三个计算是迭代进行的,其计算顺序为:计算特征模矩阵-> 计算数据对象模 矩阵_>计算时序模矩阵]_> [计算特征模矩阵_>计算数据对象模矩阵_>计算时序模矩 阵]->...,迭代循环,一直到目标函数收敛为止。
4. 根据权利要求2所述基于图形处理单元的异构特征时序数据演化聚类方法,其特征 在于,所述目标函数为:
式中,Γ为第q个特征视图;X τ为时间特征视图;〇为数据对象分配模矩阵;T为时间 特征模矩阵;Utl为第q个特征模矩阵;λ为平滑因子;t 为时间特征模矩阵的第i行。
5. 根据权利要求2所述基于图形处理单元的异构特征时序数据演化聚类方法,其特征 在于,所述更新特征模矩阵的计算如下: 更新第q个特征模矩阵Utl的公式为:
式中,〃,丨为为第q个特征矩阵的第i行,第j列元素的值,最后通过按列归一化,可以转 化为第q类特征中第j个属性在第i个簇中出现的概率; 在计算Utl时,首先利用图形处理单元提供的矩阵乘法函数计算上式中;O和WOtO, 分别存在临时空间XqUq和UqOO中;然后利用核函数计算特征模矩阵Utl;在计算过程中,为 该核函数开启IqXk个线程,每个线程执行一个对元素的乘除操作,Iq为第q种特征的属性 数目,k为簇的数目。
6. 根据权利要求2所述基于图形处理单元的异构特征时序数据演化聚类方法,其特征 在于,所述更新时间特征矩阵T计算公式为:
式中,为时间特征模矩阵的第i行、第j列的值,表示第i个簇在第j个时间点的热度 趋势;在计算时间模矩阵T时,需要先利用图形处理单元提供的矩阵乘法函数计算.〇, 然后再设计核函数计算T的值,该核函数只计算时间模矩阵的中间Ιτ-2列,It为离散化后的 时间戳数目;首列与尾列由中央处理器来计算;因此,需要在图形处理器开启上(IT-2) Xk 个线程,每个线程计算一个元素的值。
7. 根据权利要求2所述基于图形处理单元的异构特征时序数据演化聚类方法,其特征 在于,所述更新数据对象分配矩阵〇的计算公式为:
式中,为数据对象分配模矩阵第i行、第j列的值,通过按行归一化后,可以表示第 i个数据对象在第j个簇中出现的概率;在计算对象分配模矩阵〇时,首先需要利用图形处 理单元提供的矩阵乘法操作计算X tKXqU^OTtT和,然后通过矩阵的加法核函数计 算上式中的分子与分母,最后利用矩阵的乘除核函数计算对象分配模矩阵〇的值。
【专利摘要】一种基于图形处理单元的异构特征时序数据演化聚类方法,包含以下步骤:(1)提取原始数据特征,采用多视图方式表示原始数据的异构特征;(2)申请显存空间,并利用图形处理单元提供的数据传输函数把数据传到图形处理单元的显存中;(3)在图形处理单元上进行多矩阵非负分解,迭代的更新特征模矩阵、时序模矩阵和数据对象模矩阵,直到目标函数收敛为止;(4)归一化模矩阵,得到簇中每个特征的隶属概率、簇的时序演化趋势及每个数据对象隶属于每个簇的概率;(5)最后释放显存空间。本发明利用图形处理单元的高并发性来加速多矩阵非负分解过程,在多视图表示中引入时序特征视图,利用多矩阵非负分解后的时序模矩阵,获得簇随时间的演化趋势。
【IPC分类】G06F17-30
【公开号】CN104834746
【申请号】CN201510266719
【发明人】黄晓辉, 熊李艳, 曾辉, 王传云, 谢昕, 徐剑
【申请人】华东交通大学
【公开日】2015年8月12日
【申请日】2015年5月23日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1