一种可扩展的面向关联的流式图数据划分方法_2

文档序号：8498713阅读：来源：国知局

3);若否，则进入步骤（3-4); (3-3)等待M秒后进入步骤（3-2);其中，M根据流式图数据到达的速度自定义，流式图数据到达越快，M取值越小； (3-4)判断队列中边数是否大于等于滑动窗口中剩余可容纳边数，若是，则进入步骤 (3-5);若否，则进入步骤（3-6); (3-5)将队列中的边填入滑动窗口，直到滑动窗口内的边数达到滑动窗口的阈值，进入步骤（3-7); (3-6)将队列中的边全部填入滑动窗口，进入步骤（3-7); (3-7)获取各节点在当前滑动窗口内的局部入度值，并更新各节点的全局入度值； (3-8)根据所述全局入度值获取各节点PageRank值的第一组成部分；根据边权值占比获取各节点PageRank值的第二组成部分；采用混合近似PageRank方法，结合PageRank值的第一组成部分与PageRank值的第二组成部分，获取各节点的PageRank值。
3. 如权利要求2所述的流式图数据划分方法，其特征在于，步骤（3-8)中所述的采用混合近似PageRank方法获取节点当前PageRank值的过程具体如下： (3-8-1)获取节点全局入度值，并获取节点的PageRank值的第一组成部分
(3-8-2)获取所有指向本节点的边的权值，并获取特定节点指向本节点的边在所有指向本节点的边中的权值占比，从而获取特定节点的PageRank值对本节点PageRank值的
(3-8-3)结合节点的PageRank值的第一组成部分? /)(/()与其PageRank值的第二部分 PR(sub-〇 bj)，获取本节点的PageRank值
其中，d是标准PageRank计算公式中的跳跃因子，N是节点总数，kin是被计算节点的全局入度值，<kin>是所有节点的平均入度值；a是指混合因子，在O~1范围内取值；Sub表示源节点，O w表示目的节点，PR(S ub)是指节点Sub的PageRank值；wpi是边p i在边的总数P
流图到处理当前滑动窗口为止的时间段内边h的数量之和。
4. 如权利要求1或2所述的流式图数据划分方法，其特征在于，步骤⑷具体包括如下子步骤： (4-1)获取子图的起始节点，并由所有起始节点构成起始节点集合；将起始节点集合内的所有起始节点填入队列，构成队列的初始值；获取所述队列的首节点node，并获取所述首节点对应的起始节点集合S(node) = {node}与对应的关联集合A(node) = {node}; 其中，子图起始节点是指入度值为〇的节点； (4-2)根据队列里是否填充有节点，判断队列是否为空，若是，则结束；若否，则进入步骤（4-3); (4-3)获取当前队列的首节点V ;其中，首节点V是子图的起始节点或中间结点； (4-4)判断队列首节点V是否属于子图的起始节点集合，若是，则进入步骤（4-5)，若否，进入步骤（4-6); (4-5)获取首节点V对应的起始节点集合S (V)，获取节点V对应的关联集合A (V)，进入步骤（4-11);其中，节点的起始节点集合S是指在滑动窗口中，与当前节点可达的所有起始节点构成的集合；节点的关联集合A是指与当前节点存在最大关联值的起始节点构成的集合； (4-6)获取由节点u指向首节点v的边（u，v)，获取节点u所对应起始节点集S(u)中节点P、首节点V所对应的关联集合A(V)中节点q，进入步骤（4-10); (4-7)若节点p与首节点V间的关联值Assc (p，v)大于节点q与首节点V间的关联值 Assc (q，v)，则进入步骤（4-8);否则进入步骤（4-9); (4-8)采用节点p与首节点V间的关联值Assc (p，V)代替q与首节点V间的关联值 Assc (q，v)作为首节点V对应关联集合A(V); (4-9)将节点p加入到首节点V的关联集合A(V); (4-10)判断节点p、q所在集合是否为空，若是，进入步骤（4-11);若否，则进入步骤 (4-7)； (4-11)根据集合A (V)内是否有相同起始节点，判断集合A (V)内是否有重复的起始节点，若是，则进入步骤（4-12)，若否，则结束； (4-12)删除集合A(V)内重复的起始节点，进入步骤（4-2)。
5. 如权利要求1至4任一项所述的流式图数据划分方法，其特征在于，所述步骤（6)中的关联聚类方法具体如下： (6-1)根据子图内各起始节点集合与MS值等于1的所有节点对应的关联集合构成聚类结果集合，完成一次聚类，进入步骤（6-2); (6-2)当聚类数量|Rn|大于X *k，或者聚类次数n大于预设的最大合并步骤数MSmax，进入步骤（6-7);否则进入步骤（6-3);其中，Rn是指第n次聚类结束后，获取到的集合的个数；k是指存储节点的个数，X取正整数； (6-3)将聚类次数n加1 ;更新获取到的集合的个数，将合并步骤MS (u) = n的所有节点u对应的关联集合A (u)加入第n次聚类中，并去重，使得两两子集不相交； (6-4)判断第n次聚类Rn内是否存在相交的子集，若是，则进入步骤(6-5)，若否，则进入步骤（6-7); (6-5)判断第i个划分结果Ci和第j个划分结果Cj对应的起始点是否属于u对应的关联集合，若是，则进入步骤（6-6)，若否，则进入步骤（6-4); (6-6)将第i个划分结果Ci与第j个划分结果Cj合并为一个新的划分结果Ci'，将所述新划分结果Ci'合并至第n次聚类Rn，将所述第n次聚类Rn去重，使得其中子集两两不相交；进入步骤（6-4); (6-7)判断划分结果中所含节点数是否大于等于设定的阈值，若否，则将该划分结果数据保留于滑动窗口内，若是，则结束聚类。
6. 如权利要求1所述的流式图数据划分方法，其特征在于，步骤（6)中所述的划分结果规模的阈值设定为滑动窗口阈值的5%~10%。
7. 如权利要求1至6任一项所述的流式图数据划分方法，其特征在于，步骤（7)所述的数据分发方法，具体如下： (7-1)采用近邻传播算法对步骤（6)聚类获得的一个划分结果对应的所有节点进行处理，获取质心； (7-2)若所述质心的数量大于1，进入步骤（7-3);否则进入步骤（7-4); (7-3)在当前划分结果中，获取PageRank值最大的质心，将所述最大质心作为当前划分结果的新质心，进入步骤（7-4); (7-4)若存储节点内已存储信息为零，进入步骤（7-5)，否则进入步骤（7-6); (7-5)采用贪婪算法将节点对应的流式图数据分发至存储节点，将划分结果从大到小对应节点存储容量由小到大放置； (7-6)将当前划分结果的新质心对应的PageRank值发送到各存储节点； (7-7)划分结果分发至当前存储节点后，将所述划分结果的质心的ID以及所述ID对应的PageRank值存入空白索引；根据所述ID的PageRank值由大到小将索引进行排序；对于第i个存储节点，当PageRank值大于等于该存储节点上索引中最小的PageRank值，进入步骤（7-8)，否则进入步骤（7-9);其中，空白索引是指初始状态下各存储节点的空白索引； (7-8)搜索存储节点i的索引，查询是否存在所述新质心，若是，则进入步骤（7-9)，否则进入步骤（7-10); (7-9)将所述划分结果存储于其分发至的存储节点，进入步骤（7-10); (7-10)判断当前所有划分结果是否均分发完毕，若是，则结束；若否，则进入步骤 (7-1) 〇
【专利摘要】本发明公开了一种可扩展的面向关联的流式图数据划分方法，包括以下步骤：(1)对图数据进行预处理，将节点转化为节点ID；(2)将预处理后以ID形式存在的各边加入FIFO，等待进入滑动窗口处理；(3)补全滑动窗口，根据混合近似PageRank方法计算各节点的PageRank值；(4)追踪当前由滑动窗口内各边构成的子图中每个节点对应的起始节点的集合，获取各节点的关联值；(5)对窗口内所有节点采用近邻传播聚类算法，获得若干质心以及对应的簇；(6)经过关联聚类方法的多次迭代得到大小不一的多个划分结果，将规模小于阈值的划分结果留于滑动窗口；(7)对规模达到或超过阈值的划分结果采用数据分发方法发至合适的存储节点；完成图数据划分；相对于现有技术，本发明提出的方法提具有更高的划分质量。
【IPC分类】G06F17-30
【公开号】CN104820705
【申请号】CN201510242491
【发明人】袁平鹏, 金海 , 郝赟, 罗毅
【申请人】华中科技大学
【公开日】2015年8月5日
【申请日】2015年5月13日

完整全部详细技术资料下载

当前第2页1 2