基于p2p点播系统的日志信息网络结构化方法及其系统的制作方法

文档序号:10555437阅读:936来源:国知局
基于p2p点播系统的日志信息网络结构化方法及其系统的制作方法
【专利摘要】本发明公开了一种基于P2P点播系统的日志信息网络结构化方法,包括以下步骤:步骤1:收集用户的日志信息;步骤2:根据节点的日志信息,构造以用户为节点,用户之间的关系为边,通过节点带宽表示权重的社区网络结构;步骤3:根据LabelRank算法对社区网络结构进行社区结构划分;步骤4:对步骤3中的社区结构划分结果进行合并处理;当需要进行数据传输时,采用合并处理后得到的对应社区内的有效节点进行数据传输。同时,本发明还公开了一种基于P2P点播系统的日志信息网络结构化系统,上述的方法和系统能够对有效处理交叉社区的节点的检测,形成更加合理、有效和稳定的P2P网络。
【专利说明】
基于P2P点播系统的日志信息网络结构化方法及其系统
技术领域
[0001] 本发明涉及P2P网络及社区检测算法领域,具体地说是一种基于P2P点播系统的日 志信息网络结构化方法和系统。
【背景技术】
[0002] 随着互联网的高速发展,多媒体在互联网中也得到爆发性的增长,人们渐渐的从 电视、收音机等传统媒介中转到互联网中观看音视频。这种爆发性的增长不仅导致资源提 供商的带宽流量成本剧增,而且还要求网络设备提供商不断的升级改造网络,提高网络传 输速度。而P2P网络作为一种新的网络传输模式在提出不久便引起互联网的一次巨大震动, 它不仅仅是作为一种软件架构形式,也是一种社会模式的体现。P2P网络打破传统的客户 端-服务器模式,形成一种以客户端-客户端(客户端拥有服务器的能力),把客户端转换成 服务器角色的形式,从而提高带宽资源利用率以及减轻资源服务提供商的压力。但是在实 际应用中,P2P网络在稳定性、有效性中常常表现得不尽如人意,一是不稳定,经常会导致用 户在请求资源的过程中中断。二是有效性,用户请求资源的等待时间大多数时候慢于服务 器,这是客户端的带宽和处理器处理能力等硬件导致的。诸如此类的缺点导致P2P发展规模 受限。
[0003] 社区检测划分方法是近年来一个研究热点,学术界对复杂网络的研究掀起一股热 潮,复杂网络是指由众多相互联系、相互作用的个体,依据一定的联系产生的网络结构,其 中蕴含着与之相关的丰富信息。复杂网络网络没有特定的领域,它涉及到数学、物理、社会 学、计算机等诸多领域,并且得到众多领域的科研工作者的关注。为了研究和获取复杂网络 结构的有效信息,需要运用算法对其进行结构划分,例如基于模块度的划分方法、基于层次 结构的划分方法等等,这些算法都致力于解决和发现复杂网络中的合理的社区结构,从而 让我们更好的认识到复杂网络的特性。而P2P网络作为复杂网络之一,利用社区检测划分方 法对其计算、划分,可以发现网络的有效关键信息,从而提高网络的稳定性和有效性。但是 尽管社区检测划分方法得到大量的科研工作者的关注和研究,也取得相当大的成果,但是 对于形式多样的网络结构,依旧存在一些尚未解决的基本问题。例如一些发现算法虽然可 以得到令人比较满意的结果,但是往往需要以牺牲计算代价为结构;一些性能较为优越的 算法,大多则牺牲精确性为代价。这些问题都需要进一步完善。
[0004] 现有技术中,为了解决复杂的P2P网络中的重叠社区的问题,提出了copra算法来 应对,在中国文献资料《基于标签传播的社区挖掘算法研究综述》中详细的记载了重叠 copra算法及其改进算法研究,特别是在对copra算法的改进方法中提出了设定阈值来控制 每个节点的标签数目,从而使新算法不需要初始。
[0005] 此外,在中国专利申请CN201510076028.8公开了一种基于多标签传播的重叠社区 检测方法,包括以下步骤:步骤A,构造社交网络图:读取网络数据,构造以用户为节点,用户 关系为边的社交网络图;步骤B,分析网络粗糙核心:根据社交网络图,以及各节点的度,分 析出社交网络的粗糙核心集合RoughCor e;步骤C,初始化标签集合:计算社交网络中各边两 节点的结构权值,结合步骤B所得RoughCore结果,初始化各节点的标签集合,并判断各节点 核心状态Core Status;步骤D,执行标签传播:在整个社交网络中根据链接密度,计算各节点 新标签集合,同时根据节点核心状态CoreStatus对较小隶属度标签进行过滤,得到初步重 叠社区结果;步骤E,分解不连续社区:在初步重叠社区结果里将不连续社区分解为多个子 社区,得到最终的社交网络重叠社区结构。
[0006] 但是现有技术中的社区结构划分的合理性、有效性和稳定性有待改善。

【发明内容】

[0007] 本发明的目的在于提供一种基于P2P点播系统的日志信息网络结构化方法和系 统,该方法和系统能够对有效处理交叉社区的节点的检测,形成更加合理、有效和稳定的 P2P网络。
[0008] 本发明的具体的技术方案为:一种基于P2P点播系统的日志信息网络结构化方法, 包括以下步骤:
[0009] 步骤1:收集用户的日志信息;
[0010]步骤2:根据节点的日志信息,构造以用户为节点,用户之间的关系为边,通过节点 带宽表示权重的社区网络结构;
[0011] 步骤3:根据LabelRank算法对社区网络结构进行社区结构划分,得到多个社区;其 中,LabelRank算法包含一个操作算子:传递操作;
[0012] 所述的传递操作具体为:在每个节点定义一个IXn的向量P保存标签分布,η为节 点的数量;定义一个邻接矩阵A存储网络结构,则P 1(C)代表节点i属于标签c的概率,标签的 集合用C表示,并且标签的个数初始化为节点的个数n,每次计算都需要更新每个节点的向 量P,公I力π TC . 来解耦网络结构,每次计算r MPJ1。都会增加 inth次幂,如下公式所示:
[0023]
[0024] 计算后,它会使节点中高概率的标签概率的数值增加,低概率的标签概率的数值 减少。
[0025] 在上述的基于P2P点播系统的日志信息网络结构化方法中,所述的裁剪系数具体 为:在向量P中引入了一个操作符OrS义阈值 re[0,l],在计算过程中如果向量P中的标签 概率小于r则把向量中的标签删除掉。
[0026] 在上述的基于P2P点播系统的日志信息网络结构化方法中,所述的条件更新具体 为:定义一个条件更新操作符?q,其含义为当算法过程中只有节点与其邻居节点的标签向 量不相等时才更新该节点,否则不进行更新操作;即在每次迭代中,当节点满足下列公式 时,才进行更新操作;
[0027]
[0028] C丨是节点i在以往计算步骤中概率最大的标签集合,ki表示节点i的度,q是一个实 数值q的取值范围[0,1]。
[0029] 在上述的基于P2P点播系统的日志信息网络结构化方法中,所述的日志信息为用 户ID、视频URL、播放方式、连接服务器时同一组中的Peer数、用户IP、组内其他用户ID、用户 带宽。
[0030] 在上述的基于P2P点播系统的日志信息网络结构化方法中,所述的步骤4具体为
[0031] S41:获取步骤3中的社区结构划分的结果;
[0032] S42:对社区结构划分的结果中的有效节点进行合并,并去除无效节点;
[0033] S43:以文件的形式存储合并后的数据。
[0034] 同时本发明还提供一种用于实现上述的基于P2P点播系统的日志信息网络结构化 方法的系统,包括以下结构:
[0035] 日志收集模块,用于收集用户的日志信息;
[0036] 社区网络结构构造模块,用于根据用户的日志信息,构造以用户为节点,用户之间 的关系为边,通过节点带宽表示权重的社区网络结构;
[0037]社区结构划分模块,用于根据LabelRank算法对社区网络结构进行社区结构划分, 得到多个社区;
[0038] 合并模块:用于对社区结构划分模块得到的社区结构划分结果进行合并处理以除 去社区中的无效节点。
[0039] 在上述的基于P2P点播系统的日志信息网络结构化系统中,所述的合并模块包括 以下子模块:
[0040] 结果获取子模块,用于获取社区结构划分模块得到的社区结构划分的结果;
[0041] 合并子模块,用于对社区结构划分的结果中的有效节点进行合并,并去除无效节 占 .
[0042] 存储子模块,用于以文件的形式存储合并后的数据。
[0043] 与现有技术相比,本发明的有益效果在于:
[0044] 本发明通过采用LabelRank算法对社区网络结构进行社区结构划分,对操作算子-传递操作中对每个节点的标签的概率设置阈值,每个节点只能存在于有限个社区内,即每 个节点保留有限个标签,将属于多个标签的节点输出,达到处理交叉社区的目的。
[0045] 在本发明中,通过研究社区检测方法,分析P2P日志并对其形成的P2P网络进行社 区检测划分,找出P2P网络中的关键信息,形成更加合理、有效和稳定的P2P网络。
【附图说明】
[0046] 图1为本发明实施例1的流程图;
[0047]图2为本发明实施例1的流程图;
[0048]图3和4为本发明实施例1和2的传递操作的原理图;
[0049] 图5-7为本发明实施例1和2未经过合并处理的网络结构图;
[0050] 图8为本发明实施例1经过合并处理的网络结构图;
[0051] 图9为本发明实施例1的结构方框图。
【具体实施方式】
[0052]下面结合【具体实施方式】,对本发明的技术方案作进一步的详细说明,但不构成对 本发明的任何限制。
[0053] 实施例1
[0054]如图1和2所示,一种基于P2P点播系统的日志信息网络结构化方法,包括以下步 骤:
[0055]步骤1:收集用户的日志信息;
[0056]步骤2:根据节点的日志信息,构造以用户为节点,用户之间的关系为边,通过节点 带宽表示权重的社区网络结构;
[0057]节点之间的连接关系由如下算法流程计算:
[0058] 1)用户ID为标识,可以统计到某一时刻播放相同视频URL的Peer数和Peer的ID,由 此节点之间可以形成不具备权重的网络结构关系。
[0059] 2)以用户的带宽关系设定权重系数,从而形成具备权重的网络结构。
[0060] 上述是粗粒度的计算流程,在上述计算流程的基础上,实际计算情况下需要考虑 到以下情况:
[0061 ] 1)统计邻居Peer节点规则。
[0062]当某一节点与其他邻居节点组成网络时,我们需要设置一个阈值,当形成的网络 的节点数量超过阈值时,我们才会把该网络统计到网络结构中,这样可以过滤掉一些小型 网络,因为通常小型网络对形成P2P网络的概率较小。
[0063] 2)计算Peer节点之间的联系。
[0064]当某一节点与其他节点形成联系时,往往需要用一个定量的值来衡量它们之间关 系的紧密程度,而这一紧密程度则用权重来表示,本技术是从节点的网络带宽关系来衡量 形成的网络权重。
[0065]获取节点带宽方法:
[0066]计算节点带宽的方法,因为P2P点播系统是基于Web形式的,因此我们是利用 JavaScript进行测速并记录,从而达到记录用户的带宽信息,我们主要利用JavaScript对 客户端的带宽进行测试。通过获取每一个节点的带宽信息,我们可以通过比例的形式生成 节点之间的权重信息,例如节点A和节点B与视频C有联系,节点A、B的带宽分别为IO O K B、 200KB,则节点A和节点B与视频C的联系分别为1/3和2/3,进行归一化。通过带宽我们可以算 法一定的权重,但是有效权重还需要考虑节点具体的网速速率,如果网速速率小于某个设 定的参数值时,则把权重降低成〇。
[0067]步骤3:根据LabelRank算法对社区网络结构进行社区结构划分,得到多个社区;其 中,LabelRank算法包含四个操作算子:传递操作、膨胀因子、裁剪系数、条件更新;
[0068] 1、传递操作
[0069] 在每个节点定义一个I Xη的向量P保存标签分布,η为节点的数量;定义一个邻接 矩阵A存储网络结构,则P1(C)代表节点i属于标签c的概率,标签的集合用C表示,并且标签 的个数初始化为节点的个数η,毎次计筧都需要更新每个节点的向量P,公式如下:
[0070] ''…⑴
[0071] 其中,Nb(i)是节点i的邻居节点的集合,ki= |Nb(i) I是邻居节点集合的节点数 量,P'Kc)代表更新后节点i属于标签c的概率,任一节点的标签在网络结构中都是唯一的, 然后接着计算可以由矩阵A和向量P如下表示:
[0072] AXP.............(2)
[0073]在传递操作算子中首先需要初始化向量P,初始化的具体方法为:每个节点的标签 列表的概率Plj初始化为邻居节点的权重和的倒数;如下所示:
[0074] Pij=w/ki............(3)
[0075] w表示节点i到节点j的权重;
[0076]经过上述步骤后得到每个节点的向量P;
[0077]在传递操作算子的每次计算的更新过程中,设置一个阈值λ,当节点的所属标签的 概率大于λ时,则保留,小于则舍弃;且当节点中所有的标签概率都小于λ时,则随机选取一 个保留;
[0078]传递操作如图3所示,对每个节点进行初始化,以节点a为例,(b,1/4)代表的是节 点a属于标签b的概率为1/4,因为节点a有4个邻居节点,默认每条边的权重为1,因此得到1/ 4。同时设定阈值λ=1/2,当概率大于等于1/2时则保留;小于则舍弃;当节点所有都小于1/2 时,则随机选取一个,并把概率设置为1。可得到如图4所示结果。
[0079] 2、膨胀因子
[0080]在算法中,我们在向量P中使用膨胀因子Γιη来影响标签传递,其中in是一个实数 值。我们使用膨胀因子来解耦网络结构。每次计算F MPJ1。都会增加 inth次幂,如下公式所 示:
[0081:
[0082]计算后,它会使节点中高概率的标签概率的数值增加,低概率的标签概率数值减 少少。例如,两个标签初始化为0.6和0.4。当in为2时,计算后的标签数值分别为0.6923和 0.4。
[0083] 3、裁剪系数
[0084] 为了避免内存占用过大的问题,我们在向量P中引入了一个操作符OrS义阈值r e[0,l],在计算过程中如果向量P中的标签概率小于r则把向量中的标签删除掉。操作符 Φτ可以与膨胀因子很好的结合使用,减少向量中标签的个数。实验证明,如果把r = 0.1, 则每个节点的标签的平均个数会低于3个。
[0085] 在本发明中,传递操作算子中同样有一个阈值λ,其与本裁剪系数算子作用是不同 的;具体来说,阈值λ是为了使传递操作算子进行优化,使每个节点具有一个或设置限制数 量个数的标签,实现重叠社区的多标签输出。
[0086]但是本裁剪系数算子的作用主要是为了去除LabelRank算法中标签概率过分小的 标签,降低内存占用,提高计算速度。
[0087] 4、条件更新
[0088]
[0089]通过以上三个操作因子对网络结构进行计算依旧不能很好的保证算法的性能,这 是因为上述三个条件对社区检测的过程很难达到收敛,并且划分出来的社区质量低下。因 此定义一个条件更新操作符Θ q,用它来对算法进行改进,其含义为当算法过程中只有节点 与其邻居节点的标签向量不相等时才更新该节点,否则不进行更新操作。这可以使算法只 有满足一定条件时才进行更新并继续社区检测操作,在每次迭代中,当节点满足下列公式 时,才进行更新操作。
[0090]
[0091] 是节点i在以往计算步骤中概率最大的标签集合,ki表示节点i的度,q是一个实 数值(取值范围[0,1])。如果>5 1^52,183油86丨(81,82)返回值为1否则为0,满足上述公式时 更新节点i的标签。公式可以看作成衡量两个节点的相似度。
[0092] 筧法流稈如下衷1:
[0095]步骤4:对步骤3中的社区结构划分结果进行合并处理以除去社区中的无效节点; 当需要进行数据传输时,采用合并处理后得到的对应社区内的有效节点进行数据传输。 [0096] LabelRank算法针对不同的时刻的输入,对网络结构进行划分,从而产生不同时刻 相应的结果,但是考虑到实际的P2P点播系统,主要是要抓取对于某一资源,该节点是否能 够作为资源服务提供方,能够稳定有效的传输的资源。因此我们需要针对每一时刻的划分 结果进行合并处理,合并处理主要对属于同一资源的有效节点进行合并,并且去除一些无 效节点,所谓的无效节点指的是不能作为资源提供方的节点,而是否能够作为资源提供方 的主要考量因素在于节点带宽,也就是本实施例中的权重,合并主要的步骤为:
[0097] S41:获取步骤3中的社区结构划分的结果;
[0098] S42:对社区结构划分的结果中的有效节点进行合并,并去除无效节点;
[0099] S43:以文件的形式存储合并后的数据。
[0100]对结果进行合并去除并以文件的形式对合并结果进行存储,可以有利于点播系统 对结果进行读取,并且快速的定位当前节点的情况,从而判定该节点是否作为有效节点加 入P2P网络。
[0101] 如图5、6、7所示,数字1-4代表的是用户,数字10000以上代表的是视频id,图5、6、7 是由LabelRank根据时刻1-3输出的3个结果,可以很清晰的看到,图中的结果并不能很清晰 的看出网络结构结果。对上述3个时刻的结果进行合并后,结果如图8所示。
[0102] 通过上述的方法,可以加强P2P的网络传输性能,提高P2P资源传输的有效性。通过 把社区检测划分技术应用到日志信息文件的划分,系统可以从以往的运行情况,自动快速 的辨别当前用户的网络性能,从而把用户节点都转化为有效的P2P节点,P2P网络的可靠性 得以保证。
[0103] 特别重要的是,在本发明的LabelRank算法中借鉴和糅合了⑶PRA的思想,在本发 明的传递操作中,设置一个阈值λ,当节点的所属标签的概率大于λ时,则保留,小于则舍 弃;有一例外情况,即当节点中所有的标签概率都小于λ时,则随机选取一个保留,这样可以 使本发明可以克服LabelRank算法无法处理重叠社区的节点的缺陷,使一个节点存在于有 限个社区内,在传递操作中,可以保留每个节点的有限个标签,将属于多个标签的节点输 出,达到处理交叉社区的目的。
[0104] 实施例2
[0105] 本实施例提供一种用于实现实施例1所述的基于P2P点播系统的日志信息网络结 构化方法的系统,包括以下结构:
[0106] 日志收集模块1,用于收集用户的日志信息;
[0107] 社区网络结构构造模块2,用于根据用户的日志信息,构造以用户为节点,用户之 间的关系为边,通过节点带宽表示权重的社区网络结构;
[0108] 社区结构划分模块3,用于根据LabelRank算法对社区网络结构进行社区结构划 分,得到多个社区;
[0109] Labe IRank算法依赖于4个操作算子:
[0110] 1、传递操作
[0111]所述的传递操作具体为:在每个节点定义一个IXn的向量P保存标签分布,η为节 点的数量;定义一个邻接矩阵A存储网络结构,则P1(C)代表节点i属于标签c的概率,标签的 集合用C表示,并且标签的个数初始化为节点的个数n,每次计算都需要更新每个节点的向 量P,公式如下:
[0112] /ιλ
Cl)
[0113] 其中,Nb(i)是节点i的邻居节点的集合,ki= |Nb(i) I是邻居节点集合的节点数 量,P\(C)代表更新后节点i属于标签c的概率,然后接着计算可以由矩阵A和向量P如下表 示:
[0114] AXP.............(2)
[0115] 在传递操作算子中首先需要初始化向量P,初始化的具体方法为:每个节点的标签 列表的概率Plj初始化为邻居节点的权重和的倒数;如下所示:
[0116] Pij=w/ki............(3)
[0117] w表示节点i至Ij节点j的权重;
[0118] 经过上述步骤后得到每个节点的向量P;
[0119] 在传递操作算子的每次计算的更新过程中,设置一个阈值λ,当节点的所属标签的 概率大于λ时,则保留,小于则舍弃;且当节点中所有的标签概率都小于λ时,则随机选取一 个保留;
[0120]传递操作如图3所示,对每个节点进行初始化,以节点a为例,(b,1/4)代表的是节 点a属于标签b的概率为1/4,因为节点a有4个邻居节点,默认每条边的权重为1,因此得到1/ 4。同时设定阈值λ=1/2,当概率大于等于1/2时则保留;小于则舍弃;当节点所有都小于1/2 时,则随机选取一个,并把概率设置为1。可得到如图4所示结果。
[0121] 2、膨胀因子
[0122] 在算法中,我们在向量P中使用膨胀因子Γιη来影响标签传递,其中in是一个实数 值。我们使用膨胀因子来解耦网络结构。每次计算F MPJ1。都会增加 inth次幂,如下公式所 示:
[0123]
[0124] 计算后,它会使节点中高概率的标签概率的数值增加,低概率的标签概率数值减 少。例如,两个标签初始化为0.6和0.4。当in为2时,计算后的标签数值分别为0.6923和0.4。 [0125] 3、裁剪系数
[0126] 为了避免内存占用过大的问题,我们在向量P中引入了一个操作符OrS义阈值r e[0,l],在计算过程中如果向量P中的标签概率小于r则把向量中的标签删除掉。操作符 Φτ可以与膨胀因子很好的结合使用,减少向量中标签的个数。实验证明,如果把r = 0.1,则 每个节点的标签的平均个数会低于3个。
[0127] 4、条件更新
[0128] 通过以上三个操作因子对网络结构进行计算依旧不能很好的保证算法的性能,这 是因为上述三个条件对社区检测的过程很难达到收敛,并且划分出来的社区质量低下。因 此定义一个条件更新操作符Θ q,用它来对算法进行改进,其含义为当算法过程中只有节点 与其邻居节点的标签向量不相等时才更新该节点,否则不进行更新操作。这可以使算法只 有满足一定条件时才进行更新并继续社区检测操作,在每次迭代中,当节点满足下列公式 时,才进行更新操作。
[0129]
[0130] Cf是节点i在以往计算步骤中概率最大的标签集合,ki表示节点i的度,q是一个实 数值(取值范围[0,1])。如果Ad^SubsetU#)返回值为1否则为0,满足上述公式时 更新节点i的标签。公式可以看作成衡量两个节点的相似度。
[0131] 算法流程如下表2: 券9
L0133」合并模块4:用于对社区结构划分模块得到的社区结构划分结果进行合并处理以 除去社区中的无效节点,并通过合并处理后得到的对应社区内的有效节点进行数据传输。
[0134] 所述的合并模块4包括以下子模块:
[0135] 结果获取子模块41,用于获取社区结构划分模块得到的社区结构划分的结果;
[0136] 合并子模块42,用于对社区结构划分的结果中的有效节点进行合并,并去除无效 节点;
[0137] 存储子模块43,用于以文件的形式存储合并后的数据。
[0138] 对结果进行合并去除并以文件的形式对合并结果进行存储,可以有利于点播系统 对结果进行读取,并且快速的定位当前节点的情况,从而判定该节点是否作为有效节点加 入P2P网络。
[0139] 如图5、6、7所示,数字1-4代表的是用户,数字10000以上代表的是视频id,图5、6、7 是由LabelRank根据时刻1-3输出的3个结果,可以很清晰的看到,图中的结果并不能很清晰 的看出网络结构结果。对上述3个时刻的结果进行合并后,结果如图8所示。
[0140] 通过上述的系统,可以加强P2P的网络传输性能,提高P2P资源传输的有效性。通过 把社区检测划分技术应用到日志信息文件的划分,系统可以从以往的运行情况,自动快速 的辨别当前用户的网络性能,从而把用户节点都转化为有效的P2P节点,P2P网络的可靠性 得以保证。
[0141]以上所述的仅为本发明的较佳实施例,凡在本发明的精神和原则范围内所作的任 何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种基于P2P点播系统的日志信息网络结构化方法,其特征在于,包括W下步骤: 步骤1:收集用户的日志信息; 步骤2:根据节点的日志信息,构造W用户为节点,用户之间的关系为边,通过节点带宽 表示权重的社区网络结构; 步骤3:根据LabelRank算法对社区网络结构进行社区结构划分,得到多个社区;其中, LabelRank算法包含一个操作算子:传递操作; 所述的传递操作具体为:在每个节点定义一个IXn的向量P保存标签分布,n为节点的 数量;定义一个邻接矩阵A存储网络结构,贝化I(C)代表节点i属于标签C的概率,标签的集合 用C表示,并且标签的个数初始化为节点的个数n,每次计算都需要更新每个节点的向量P, 公式如下:C1 其中,Nb(i)是节点i的邻居节点的集合,ki=|Nb(i)|是邻居节点集合的节点数量,P'l (C)代表更新后节点i属于标签C的概率,然后接着计算可W由矩阵A和向量P如下表示: AXP.............(2) 在传递操作算子中首先需要初始化向量P,初始化的具体方法为:每个节点的标签列表 的概率Pu初始化为邻居节点的权重和的倒数;如下所示: Pij = w/ki............(3) W表示节点巧Ij节点j的权重; 经过上述步骤后得到每个节点的向量P; 在传递操作算子的每次计算的更新过程中,设置一个阔值A,当节点的所属标签的概率 大于A时,则保留,小于则舍弃;且当节点中所有的标签概率都小于A时,则随机选取一个保 留; 步骤4:对步骤3中的社区中的节点进行合并处理W除去社区中的无效节点。2. 根据权利要求1所述的基于P2P点播系统的日志信息网络结构化方法,其特征在于, 所述的LabelRank算法还包括一个操作算子:膨胀因子; 所述的膨胀因子具体为:在向量P中使用膨胀因子Tin来影响标签传递,其中in是一个 实数值,通过使用膨胀因子来解禪网络结构,每次计算TinP,Pi。都会增加inth次幕,如下公 式所示:计算后,它会使节点中高概率的标签概率的数值增加,低概率的标签概率的数值减少。3. 根据权利要求1所述的基于P2P点播系统的日志信息网络结构化方法,其特征在于, 所述的LabelRank算法还包括一个操作算子:裁剪系数; 所述的裁剪系数具体为:在向量P中引入了一个操作符〇,定义阔值rG[0,l],在计算过 程中如果向量P中的标签概率小于r则把向量中的标签删除掉。4. 根据权利要求1所述的基于P2P点播系统的日志信息网络结构化方法,其特征在于, 所述的LabelRank算法还包括一个操作算子:条件更新; 所述的条件更新具体为:定义一个条件更新操作符0 q,其含义为当算法过程中只有节 点与其邻居节点的标签向量不相等时才更新该节点,否则不进行更新操作;即在每次迭代 中,当节点满足下列公式时,才进行更新操作;C是节点i在W往计算步骤中概率最大的标签集合,ki表示节点i的度,q是一个实数值, q的取值范围[〇,1]。5. 根据权利要求1所述的基于P2P点播系统的日志信息网络结构化方法,其特征在于, 所述的日志信息为用户ID、视频U化、视频播放方式、连接服务器时同一组中的化er数、用户 IP、组内其他用户ID、用户带宽。6. 根据权利要求1所述的基于P2P点播系统的日志信息网络结构化方法,其特征在于, 所述的步骤4具体为 S41:获取步骤3中的社区结构划分的结果; S42:对社区结构划分的结果中的有效节点进行合并,并去除无效节点; S43: W文件的形式存储合并后的数据。7. -种用于实现权利要求1所述的基于P2P点播系统的日志信息网络结构化方法的系 统,其特征在于,包括W下结构: 日志收集模块,用于收集用户的日志信息; 社区网络结构构造模块,用于根据用户的日志信息,构造W用户为节点,用户之间的关 系为边,通过节点带宽表示权重的社区网络结构; 社区结构划分模块,用于根据LabelRank算法对社区网络结构进行社区结构划分,得到 多个社区; 合并模块:用于对社区结构划分模块得到的社区结构划分结果进行合并处理W除去社 区中的无效节点。8. 根据权利要求7所述的基于P2P点播系统的日志信息网络结构化系统,其特征在于, 所述的合并模块包括W下子模块: 结果获取子模块,用于获取社区结构划分模块得到的社区结构划分的结果; 合并子模块,用于对社区结构划分的结果中的有效节点进行合并,并去除无效节点; 存储子模块,用于W文件的形式存储合并后的数据。
【文档编号】H04L29/08GK105915376SQ201610229218
【公开日】2016年8月31日
【申请日】2016年4月13日
【发明人】李 东, 付雅晴, 张国鹏
【申请人】华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1