提供数据、形成聚类及选择目标聚类的方法、系统及设备的制作方法

文档序号:7658792阅读:183来源:国知局
专利名称:提供数据、形成聚类及选择目标聚类的方法、系统及设备的制作方法
技术领域
本发明涉及数据通信技术领域,尤其涉及一种为形成聚类提供数据、形 成聚类及选择目标聚类的方法、系统及设备。
背景技术
在互联网得到广泛应用的今天,互联网中数据通信的技术也在不断向前
发展。其中, 一种叫做对等计算技术(PtoP, Peer to Peer)的数据通信技术 应用的尤其广泛。
对等计算技术也被人们称为点对点技术、或者P2P技术,通常可以定义 为网络的参与者共享他们所拥有的一部分硬件资源,如处理能力、存储能 力、网络连接能力、打印机等,这些共享资源通过网络提供服务和内容,能 被其它对等节点(Peer)直接访问而无需经过中间实体,在此网络中的参与者 既是资源提供者(Server),又是资源获取者(Client )。由于P2P是一种对等 体之间的操作,所以P2P系统中每个对等节点也可以被称为对等体。
比起传统的客户机/服务器(C/S, Client/Server)结构,在采用P2P技术 的网络中,每个对等体都是处于对等的地位,既充当服务器,为其他对等体 提供服务,同时也享用其他对等体提供的服务,网络中的资源和服务分散在 所有对等体上,信息的传输和服务的实现都直接在对等体之间进行,可以无 需中间环节和服务器的介入,避免了可能的瓶颈。
而且,在P2P网络中,随着用户的加入,不仅服务的需求增加了,系统 整体的资源和服务能力也在同步地扩充,理论上其可扩展性几乎可以认为是 无限的。
同时,由于服务是分散在各个对等体之间进行的,部分对等体或网络遭 到破坏对其它部分的影响很小。P2P网络一般在部分对等体失效时能够自动调 整整体拓朴,保持其它对等体的连通性。P2P网络通常都是以自组织的方式建 立起来的,并允许对等体自由地加入和离开,所以其健壮性也很好。
所以,在文件传输、通讯与信息共享、网络游戏等,信息流量很大、有 多用户参与信息交互的场合,P2P技术都得到了广泛的应用。
当P2P系统中对等体的数量非常大时,就需要有效地减少对等体之间的
通信消耗的网络资源,现在一中较常用的方法是将P2P系统中的对等体根据 网络距离划分聚类(Cluster )。
如图l所示,将深圳的对等体划分为一个聚类"深圳",将广州的对等体 划分为一个聚类"广州,,,将西安的对等体划分为一个聚类"西安,,,将纽约 的对等体划分为一个聚类"纽约"。其中聚类深圳里包含对等体111、对等体 112、对等体113、对等体114;;聚类广州里包含对等体121 、对等体122、对 等体123、对等体124;聚类西安里包含对等体131、对等体132、对等体133; 聚类纽约里包含对等体141、对等体142、对等体143、对等体144。
由于距离的原因,划分的聚类间对等体通信时延通常会比聚类内对等体 通信时延大,例如聚类深圳内的对等体之间的通信时延就会比聚类深圳和聚 类纽约之间的通信时延小,通过使对等体优先利用同一个聚类中的对等体资 源,就可以达到减少对等体之间的通信消耗的网络资源的目的。以图l为例, 位于聚类深圳的对等体111想要获取文件A,位于聚类深圳的对等体114和位 于聚类纽约的对等体144都具有文件A,此时将优先从对等体114上获取, 以合理利用网络资源。
但是处于同一个P2P系统聚类间的通信也总是不可避免的,仍以图1为 例,假设位于聚类深圳的对等体113想要获取文件B,而聚类深圳的对等体中 没有文件B,具有文件B的对等体分别为位于聚类广州的对等体124、位于 聚类西安的对等体131、位于聚类纽约的对等体144。此时不同的聚类间网络 距离不同,因此就存在如何选择合适的目标聚类的问题,如果对等体113能 及时了解到不同聚类之间的网络距离差异,就能合理的利用网络资源进行高 速下载。
现有技术通常采用层次聚类的聚类方法为聚类间的通信选择合适的目标 聚类,最初形成的聚类可以被称为初始聚类,在初始聚类的基础上,选取聚 类中具有代表性的对等体测量聚类间的网络距离,将网络距离较近的初始聚
类组成一个更高层次的聚类。
在形成更高层次的聚类时,通常使用全球网络定位(GNP, Global Network Positioning)坐标方式测量对等体之间的网络距离,首先在网络中选取K个对 等体作为目标对等体,之后每个对等体测量它到这K个目标对等体的往返时 间(RTT, RealTimeTime)得到每个对等体到这K个目标对等体之间的网络 距离,得到一个K维的坐标称GNP坐标,计算不同初始聚类中对等体间的网 络距离作为初始聚类间的距离,将网络距离小于某个范围的初始聚类组成一 个新的更高层次的聚类,在进行初始聚类间的通信时,就可以优先利用这些 网络距离较近的初始聚类,每个对等体在需要与外部聚类进行通信时,可以 从这个高级聚类中选择初始聚类,优先使用这些网络距离较近的初始聚类, 与这些初始聚类内的对等体建立连接,显然可以更有效的利用网络资源。
在对现有技术的研究和实践过程中,发明人发现现有技术存在以下问题
由于层次聚类的聚类方法为确定性聚类,在形成新的更高层次的聚类后 的网络状况将不再被考虑,而在实际运行中,由于初始聚类之间的对等体通 信比初始聚类内的对等体通信,需要经过更长的传输网络路径,在这么长的 传输路径上,其实际可用带宽很容易受到网络运行状况的影响而变得不稳定, 也就是说使用层次聚类的聚类方法确定的网络距离反映的是对等体间某 一 时 间点的可用带宽,不能反映网络可用带宽的动态变化特性,相应采用这个网 络距离来为初始聚类间的通信选择合适的目标聚类,在初始聚类间的网络带 宽发生动态变化时,将不能根据这些变化选择较优的目标聚类。

发明内容
本发明 一 实施例要解决的技术问题是提供一种点对点网络中形成聚类的 方法,能够为初始聚类间的通信选择较优的目标聚类。
为解决上述技术问题,本发明提供了一种点对点网络中为形成聚类提供 数据的方法,所述方法包括
获取一段时间内对等体和各外部聚类的高速连接总次数、非高速连接总 次数;并把包括所述高速连接总次数和所述非高速连接总次数的数据作为记 录的数据发送到形成新聚类的聚类服务器。 本发明还提供了 一种点对点网络中形成聚类的方法,所述方法包括
聚类服务器接收对等体实时记录并发送的所述对等体和各外部聚类的高 速连接总次数、非高速连接总次数的数据,并根据所述数据获得所述聚类和 所述外部聚类的高速连接概率,取所述概率达到条件的对应外部聚类形成新 的聚类。
本发明还提供了 一种点对点网络中形成聚类的系统,所述系统包括
对等体,用于记录一段时间内和各外部聚类的高速连接总次数、非高速 连接总次数;并把包括所述高速连接总次数和所述非高速连接总次数的数据 作为记录的数据发送到形成新聚类的聚类服务器;
聚类服务器,用于根据所述记录的数据获得和所述外部聚类的高速连接 概率;取所述概率达到条件的对应外部聚类形成新的聚类。 本发明还提供了一种对等体,所述对等体包括
记录单元,用于记录一段时间内和各外部聚类的高速连接总次数、非高 速连接总次数;
发送单元,用于将所述记录单元记录的数据发送到形成新聚类的聚类服 务器。
本发明还提供了一种聚类服务器,所述聚类服务器包括
概率获取单元,用于根据从对等体收到的本聚类和某一外部聚类的高速 连接总次数、非高速连接总次数,获得和所述外部聚类的高速连接概率;
构造聚类单元,取所述概率获取单元获得的概率达到预设条件的外部聚 类形成新的更高层次的聚类。
本发明另 一实施例要解决的技术问题是提供一种选择目标聚类的方法, 能够为初始聚类间的通信选择较优的目标聚类。
为解决上述技术问题,本发明提供了一种选择目标聚类的方法,所述方 法包括
对等体在需要进行聚类间通信时,选择依据所述对等体所属聚类与外部 聚类之间高速连接概率形成的新的聚类内的外部聚类作为目标聚类,进行聚
类间的通信。
本发明还提供了一种对等体,所述对等体包括
选择单元,用于在所述对等体需要进行聚类间通信时,选择依据所述对 等体所属聚类与外部聚类之间高速连接概率形成的新的聚类内的外部聚类作
为目标聚类;
通信单元,用于与所述目标聚类进行聚类间的通信。
本发明实施例提供的技术方案中,采用实时采集初始聚类内对等体和外 部聚类的连接状况的方法形成聚类,考虑到了初始聚类间的传输带宽的不稳 定性,可以反映到初始聚类间传输带宽的实时状况,而不是过去某一时刻的 状况,对等体在需要进行初始聚类间通信时,可以优先和在此基础上形成的 更高层次的聚类内的初始聚类建立连接,以达到尽量选择高速连接概率大的 初始聚类进行通信,合理利用网络资源的目的。


图1为现有技术结构示意图2为本发明实施例提供的点对点网络中形成聚类的方法实施例流程图; 图3为本发明实施例提供的点对点网络中形成聚类的系统实施例结构图; 图4为本发明实施例提供的选择目标聚类的方法实施例流程图; 图5为本发明实施例提供的对等体实施例二结构图。
具体实施例方式
本发明实施例提供了 一种为形成聚类提供数据、形成聚类及选择目标聚 类的方法、系统及设备,用于为初始聚类间的通信选择较优的目标聚类。
本发明实施例提供的点对点网络中为形成聚类提供数据、及形成聚类的 方法通过实时统计初始聚类间高速连接的概率,挑选出概率较高的初始聚类 组成一个更高层次的聚类,使对等体在进行初始聚类间的通信时,可以优先 利用这些高速连接概率较高的初始聚类。
本发明实施例提供的点对点网络中形成聚类的方法实施例流程如图2所

步骤201、对等体记录连接信息。
P2P系统中的某个对等体在和不属于同一个初始聚类的对等体建立通信 连接时,判断该连接速度是否达到预设的条件,若达到,则为高速连接;若 未达到,则为非高速连接。这个判断可以定时进行,也可以在每次连接中进 行。
预设的条件可以是连接带宽或其他与网络速度相关的条件,以条件为连 接带宽为例,对等体在和不属于同一个初始聚类的对等体建立通信连接时, 测量该通信连接的带宽,若该连接带宽大于预设的阈值,则为高速连接,否 则为非高速连接。
该进行判断的对等体以其测量对象对等体所属初始聚类为目标聚类,该 目标聚类对该对等体而言为一个外部聚类,从该对等体的本地记录取得本对 等体和该外部聚类内所有对等体当前的高速连接总次数及非高速连接总次 数,如果本次连接为高速连接,则和该外部聚类的高速连接总次数加1,否则 和该外部聚类的非高速连接总次数加1,用新的高速连接总次数和非高速连接 总次数更新本地记录,记录下此时的连接信息,该连接信息包括目标聚类 标识、高速连接总次数、非高速连接总次数。
步骤202、对等体将连接信息发送到其所属初始聚类的聚类服务器。
每隔一定的时间,对等体将该连接信息以消息的方式发送到该对等体所 属初始聚类的聚类服务器。发送成功后将本地记录清空或者对记录作已发送 标识,避免下次重复发送。记录的时间长度可以是一个预设的时间长度,也 可以是在对等体本地保存的连接信息中记录的连接数目超过预设的数量所用 的时间长度。
为了保证连接信息的实时性,这里预设的数量不应太大,预设的时间也 不应太长,同时为了保证采样数据的数量,这里预设的数量不应太小,预设 的时间也不应太短。其具体取值可在实际使用中根据需要进行调整。
本实施例中提到的聚类服务器不一定是一个独立的实体,可能由普通对 等体担任,也有可能是一个独立的实体担任。
步骤201和步骤202描述的内容也就是本发明实施例提供的点对点网络
中为形成聚类提供数据的方法实施例。
步骤203、聚类服务器计算与各个初始聚类存在高速连接的概率。
聚类服务器负责接收本初始聚类内对等体发送的连接信息,获取连接信 息中的聚类标识、高速连接总次数、非高速连接总次数的信息,作为一个外 部聚类的数据集保存在本地。
聚类服务器定期读取本地保存的数据集,将数据集中的所有初始聚类看 作外部聚类,计算该初始聚类与各个外部聚类之间存在高速连接的概率。
计算概率的方法有很多种,较常用的有以下两种
计算概率的方法一
将初始聚类内所有对等体发送来的某一个外部聚类的高速连接总次数相 加,非高速连接总次数相加,获得本初始聚类与该外部聚类的高速连接总次 数X、获得本初始聚类与该外部聚类的非高速连接总次数Y,再计算出本初 始聚类与该外部聚类的高速连接的概率Z:
Z=X/ (X+Y )
使用方法一计算出的本聚类与该外部聚类的高速连接的概率Z即为,一 段时间内本聚类与该外部聚类的高速连接总次数,在本聚类与该外部聚类的 连接总次数中占有的比例。
计算概率的方法二
使用贝塔(BETA)函数来计算该初始聚类与各个外部聚类存在高速连接 的概率。
BETA函数为一种概率密度函数,如初始聚类之间的连接,可能具有高速 连接,也有可能不具有高速连接,或者某个时刻具有高速连接,这种情况下 我们可以把初始聚类间具有高速连接看作概率事件,该概率大小必然在0到1 的区间。概率为0表示没有高速连接,概率为1表示一直存在高速连接。实 际中由于网络不稳定的因素存在,可能某个时刻为高速连接,某个时刻为非 高速连接。由于我们的观测数据本身就是一个抽样数据,根据观测数据直接计算的概率值并不等同于高速连接必然以这个概率值发生,只能说以这个概 率值发生的可能性比较大。当每次观测数据独立抽样时,其概率分布即为一
种BETA分布。
也就是说初始聚类间的高速连接可使用基于统计的概率表示,而该概率 密度刀良从Beta分布。
进一步地,在本实施例中,设置一个概率置信度,以该概率置信度衡量 事件发生概率的可信度,在事件发生的概率大于某个概率置信度时,便认为 该事件是可信的,然后对每一个初始聚类的高速连接的BETA分布进行从概 率置信度到1的区间积分,积分结果作为本初始聚类和该初始聚类间存在高 速连接的概率。此时获得的该初始聚类与各个外部聚类存在高速连接的概率 会具有较高的可信度。
计算概率的方法二提供的一种聚类服务器设定概率置信度实施例如下文 所述
将初始聚类内所有对等体发送来的外部聚类的高速连接总次数相加,非 高速连接总次数相加,获得本初始聚类与所有外部聚类的高速连接总次数a、 获得本初始聚类与所有外部聚类的非高速连接总次数b,计算出本初始聚类对 外部聚类的高速连接的概率期望值E (p)和方差Var (p):
E (p ) = a/ ( a+b )
以本初始聚类与所有外部聚类的高速连接总次数a为分子,以本初始聚 类与所有初始聚类连接总数的总和(a+b)为分母,获得概率期望值E (p), 这个概率期望值可以作为该初始聚类与各个外部聚类存在高速连接的概率的 参考值。
Var (p ) =a x b/ ( a+b ) A2 x ( a+b+l )
方差Var (p)计算出的是一个与概率期望值的偏离度。
设概率置信度EP:
EP=M x E(p)+N x Var(p)
其中M、 N为预设的参数,M大于等于l, N大于等于O,使得EP的值
可以在[E (p), l]区间。
使用积分的方法获得概率置信度,在网络中普遍存在高速连接时,概率
置信度会自动调;在网络中普遍存在非高速连接时,概率置信度会自动降低, 能够很好地适应网络的实际环境。
这里概率置信度也可以设置为一个固定值,其取值可以根据系统实际运 行中的状况来确定。
计算概率的方法二通过利用设置好的设概率置信度EP,提供的一种聚类 服务器计算与各个初始聚类存在高速连接的概率实施例如下文所迷
聚类服务器定期对和每一个外部聚类的高速连接的BETA分布进行从概 率置信度EP到1的区间积分,计算出本初始聚类和初始聚类i存在高速连接 概率Pr[i]。
<formula>formula see original document page 14</formula>
其中cc表示和初始聚类i的高速连接次数,p表示和初始聚类i的非高速
连接次数,r为伽马函数 <formula>formula see original document page 14</formula>
Pr[i]表示在置信度Ep条件下本初始聚类和初始聚类i的高速连接概率。
步骤204、聚类服务器将高速连接概率较大的外部聚类组成新的更高层次 的聚类。
在进行初始聚类间的通信时,可以优先利用这个更高层次的聚类内的初 始聚类。选取高速连接概率较大的外部聚类的方法,通常是预设一个条件, 达到这个条件的即认为是高速连接概率较大的外部聚类。这个预设的条件可 以是预设一个概率值,将所有高速连接概率大于这个预设值的外部聚类形成 一个新的更高层次的聚类;也可以是将高速连接概率值按大小排序,取高速 连接概率值排名靠前的初始聚类形成一个新的更高层次的聚类。
聚类服务器将步骤203种计算出来的概率值按大小排序,按照由大到小 的顺序,取排位在前面的预定数目个概率值及其对应的聚类标识,或者取概
率值大于某个预定值的概率值及其对应的聚类标识。以本聚类标识作为关键 字,以概率值及对应的聚类标识作为值,向分布式哈希表(DHT, Distributed Hash Table)网络中的对等体注册,以供P2P系统中的对等体在需要进行初始聚类 间的通信时,可以查询到与这些高速连接概率较高的外部聚类的信息,并优 先使用这些外部聚类,使这些高速连接概率较高的初始聚类形成更高层次的 聚类。
所谓DHT网络就是将需要查找的文件的索引信息一一例如本聚类的标 识,表示成一个(K, V)对, 一个(K, V)对可以称为一个索引条目,K称 为关键字,可以是本聚类的标识、文件名、对等体标识符或其他描述信息的 哈希值,V是实际存储文件的对等体的IP地址或对等体的其他描述信息。所 有的索引条目组成一张大的索引哈希表,只要输入目标K值,就可以从这张 表中查出所有存储该初始聚类信息的对等体地址,然后从中获取该初始聚类 与所有外部聚类的高速连接概率值。
在本发明提供的实施例中,以本聚类标识作为关键字,以概率值及对应 的聚类标识作为值,向DHT网络注册,主要是为了将上述的存放上述的高速 连接概率较高的初始聚类信息,并将这些信息在P2P网络的对等体中实现共 享、查询等功能。也可以使用集中式的服务器或者其它的分布式服务器来替 代DHT网络来实现同样的功能,这些情况下,集中式的服务器或者其它的分 布式服务器可以看作上文所述的DHT网络中的对等体。
在本发明提供的点对点网络中形成聚类的方法实施例中,采用实时采集 初始聚类内对等体和外部聚类的连接状况的方法,在此基础上进行高速连接 概率计算,以高速连接概率高的外部聚类形成新的更高层次的聚类,以供对 等体在需要进行初始聚类间通信时使用。
由于初始聚类之间的对等体通信比初始聚类内的对等体通信,需要经过 更长的传输网络路径,在这么长的传输路径上,其实际可用带宽很容易受到 网络运行状况的影响而变得不稳定,采用实时采集初始聚类内对等体和外部 聚类的连接状况的方法形成聚类,就考虑到了初始聚类间的传输带宽的不稳 定性,可以反映到初始聚类间传输带宽的实时状况,而不是过去某一时刻的
状况,对等体在需要进行初始聚类间通信时,就可以优先和在此基础上形成 的更高层次的聚类内的初始聚类建立连接,以达到尽量选择高速连接概率大 的初始聚类进行通信,合理利用网络资源的目的。
本发明实施例提供的点对点网络中形成聚类的系统实施例如图3所示,
包括对等体310、聚类服务器320、和外部聚类330。 其中对等体310包括
记录单元311,用于记录一段时间内和外部聚类330的高速连接总次数、 非高速连接总次数。
外部聚类可能有很多个,图3中只画出了一个作为代表,多数外部聚类 同时也都是一个和本初始聚类有相同功能及结构的普通初始聚类。
发送单元312,用于将记录单元311记录的数据发送到对等体所属的聚类 服务器320。
清除单元313,用于将记录单元311上的记录清除,以避免下次重复发送。
标识单元314,用于为记录单元311上的记录添加已发送标识,以避免下 次重复发送。
一个初始聚类中通常会有多个对等体,图3中只画出了一个作为代表, 每个对等体都和对等体310的结构功能相类似。
聚类服务器320包括
概率获取单元322,用于根据从发送单元312收到的数据获得和外部聚类 330的高速连接概率。
获得的方式可以是,以该初始聚类与某一个外部聚类的高速连接总次数, 在该初始聚类与该外部聚类的连接总次数中占有的比例为和该外部聚类的高 速连接概率;也可以是使用概率获取单元322内包含的积分单元,根据预设 的概率置信度,对该初始聚类与外部聚类之间的高速连接的贝塔分布进行积 分,以积分结果作为所述高速连接概率。
初始聚类内对等体发送来数据可能包含多个外部聚类的信息,对不同外 部聚类,概率获取单元322都会计算出与他们的高速连接概率。
构造聚类单元321,取概率获取单元322获得的概率达到预设条件的外部
聚类,形成新的更高层次的聚类。
本实施例中提到的聚类服务器不一定是一个独立的实体,可能由普通对 等体担任。
本发明实施例提供的点对点网络中形成聚类的系统实施例的具体运行方 式,与上文描述的点对点网络中形成聚类的方法实施例基本相同,在此不再
详纟田4苗述。
本发明实施例提供的对等体实施例一,与上文点对点网络中形成聚类的
系统实施例中描述的对等体相同,包括记录单元和发送单元。
其中,记录单元,用于记录一段时间内和各外部聚类的高速连接总次数、 非高速连接总次数。
发送单元,用于将记录单元记录的数据发送到对等体所属的聚类服务器。
清除单元,用于将记录单元上的记录清除,以避免下次重复发送。
标识单元,用于为记录单元上的记录添加已发送标识,以避免下次重复 发送。
本发明实施例提供的对等体实施例在系统中的工作方式,与上文描述的 点对点网络中形成聚类的方法实施例基本相同,在此不再详细描述。
本发明实施例提供的聚类服务器实施例,与上文点对点网络中形成聚类 的系统实施例中描述的对等体相同,包括
概率获取单元,用于根据从对等体收到的本初始聚类和各外部聚类的高 速连接总次数、非高速连接总次数,获得和该外部聚类的高速连接概率。
获得的方式可以是,以该初始聚类与某一个外部聚类的高速连接总次数, 在该初始聚类与该外部聚类的连接总次数中占有的比例为和该外部聚类的高 速连接概率;也可以是使用概率获取单元内包含的积分单元,根据预设的概 率置信度,对该初始聚类与外部聚类之间的高速连接的贝塔分布进行积分, 以积分结果作为所述高速连接概率。
初始聚类内对等体发送来数据可能包含多个外部聚类的信息,对不同外
部聚类,概率获取单元都会计算出与他们的高速连接概率。
构造聚类单元,取概率获取单元获得的概率达到预设条件的外部聚类, 形成新的更高层次的聚类。
本实施例中提到的聚类服务器不一定是一个独立的实体,可能由普通对 等体担任。
本发明实施例提供的聚类服务器实施例在系统中的工作方式,与上文描 述的点对点网络中形成聚类的方法实施例基本相同,在此不再详细描述。
本发明实施例提供的选择目标聚类的方法通过实时统计初始聚类间高速 连接的概率,挑选出概率较高的初始聚类组成一个更高层次的聚类,使对等 体在进行初始聚类间的通信时,可以优先利用这些高速连接概率较高的初始 聚类。
本发明实施例提供的选择目标聚类的方法实施例流程如图4所示 步骤401、对等体记录连接信息。
P2P系统中的某个对等体在和不属于同一个初始聚类的对等体建立通信 连接时,判断该连接速度是否达到预设的条件,若达到,则为高速连接;若 未达到,则为非高速连接。这个判断可以定时进行,也可以在每次连接中进 行。
预设的条件可以是连接带宽或其他与网络速度相关的条件,以条件为连 接带宽为例,对等体在和不属于同一个初始聚类的对等体建立通信连接时, 测量该通信连接的带宽,若该连接带宽大于预设的阈值,则为高速连接,否 则为非高速连接。
该进行判断的对等体以其测量对象对等体所属初始聚类为目标聚类,该 目标聚类对该对等体而言为一个外部聚类,从该对等体的本地记录取得本对 等体和该外部聚类内所有对等体当前的高速连接总次数及非高速连接总次 数,如果本次连接为高速连接,则和该外部聚类的高速连接总次数加1,否则 和该外部聚类的非高速连接总次数加1,用新的高速连接总次数和非高速连接 总次数更新本地记录,记录下此时的连接信息,该连接信息包括目标聚类
标识、高速连接总次数、非高速连接总次数。
步骤402、对等体将连接信息发送到其所属初始聚类的聚类服务器。
每隔一定的时间,对等体将该连接信息以消息的方式发送到该对等体所 属初始聚类的聚类服务器。发送成功后将本地记录清空或者对记录作已发送 标识,避免下次重复发送。记录的时间长度可以是一个预设的时间长度,也 可以是在对等体本地保存的连接信息中记录的连接数目超过预设的数量所用 的时间长度。
为了保证连接信息的实时性,这里预设的数量不应太大,预设的时间也 不应太长,同时为了保证采样数据的数量,这里预设的数量不应太小,预设 的时间也不应太短。其具体取值可在实际使用中根据需要进行调整。
本实施例中提到的聚类服务器不一定是一个独立的实体,可能由普通对 等体担任。
步骤403、聚类服务器计算与各个初始聚类存在高速连接的概率。
聚类服务器负责接收本初始聚类内对等体发送的连接信息,获取连接信 息中的聚类标识、高速连接总次数、非高速连接总次数的信息,作为一个外 部聚类的数据集保存在本地。
聚类服务器定期读取本地保存的数据集,将数据集中的所有初始聚类看 作外部聚类,计算该初始聚类与各个外部聚类存在高速连接的概率。
计算概率的方法有很多种,较常用的有以下两种 计算概率的方法一
将初始聚类内所有对等体发送来的某一个外部聚类的高速连接总次数相 加,非高速连接总次数相加,获得本初始聚类与该外部聚类的高速连接总次 数X、获得本初始聚类与该外部聚类的非高速连接总次数Y,再计算出本初 始聚类与该外部聚类的高速连接的概率Z:<formula>formula see original document page 19</formula>
使用方法一计算出的本聚类与该外部聚类的高速连接的概率Z即为,一 段时间内本聚类与该外部聚类的高速连接总次数,在本聚类与该外部聚类的
连接总次数中占有的比例。
计算概率的方法二
使用贝塔(BETA)函数来计算该初始聚类与各个外部聚类存在高速连接 的概率。
BETA函数为一种概率密度函数,如初始聚类之间的连接,可能具有高速 连接,也有可能不具有高速连接,或者某个时刻具有高速连接,这种情况下 我们可以把初始聚类间具有高速连接看作概率事件,该概率大小必然在0到1 的区间。概率为0表示没有高速连接,概率为1表示一直存在高速连接。实 际中由于网络不稳定的因素存在,可能某个时刻为高速连接,某个时刻为非 高速连接。由于我们的观测数据本身就是一个抽样数据,根据观测数据直接 计算的概率值并不等同于高速连接必然以这个概率值发生,只能说以这个概 率值发生的可能性比较大。当每次观测数据独立抽样时,其概率分布即为一 种BETA分布。
也就是说初始聚类间的高速连接可使用基于统计的概率表示,而该概率 密度服从Beta分布。
进一步地,在本实施例中,设置一个概率置信度,以该概率置信度衡量 事件发生概率的可信度,在事件发生的概率大于某个概率置信度时,便认为 该事件是可信的,然后对每一个初始聚类的高速连接的BETA分布进行从概 率置信度到1的区间积分,积分结果作为本初始聚类和该初始聚类间存在高 速连接的概率。此时获得的该初始聚类与各个外部聚类存在高速连接的概率 会具有较高的可信度。
计算概率的方法二提供的一种聚类服务器设定概率置信度实施例如下文 所述
将初始聚类内所有对等体发送来的外部聚类的高速连接总次数相加,非 高速连接总次数相加,获得本初始聚类与所有外部聚类的高速连接总次数a、 获得本初始聚类与所有外部聚类的非高速连接总次数b,计算出本初始聚类对 外部聚类的高速连接的概率期望值E (p)和方差Var (p):
<formula>formula see original document page 20</formula>
以本初始聚类与所有外部聚类的高速连接总次数a为分子,以本初始聚 类与所有初始聚类连接总数的总和(a+b)为分母,获得概率期望值E (p), 这个概率期望值可以作为该初始聚类与各个外部聚类存在高速连接的概率的 参考值。
<formula>formula see original document page 21</formula>
方差Var (p)计算出的是一个与概率期望值的偏离度。
设概率置信度EP:
<formula>formula see original document page 21</formula>
其中M、 N为预设的参数,M大于等于1, N大于等于0,使得EP的值 可以在[E (p), l]区间。
使用积分的方法获得概率置信度,在网络中普遍存在高速连接时,概率 置信度会自动调;在网络中普遍存在非高速连接时,概率置信度会自动降低, 能够很好地适应网络的实际环境。
这里概率置信度也可以设置为 一个固定值,其取值可以根据系统实际运 行中的状况来确定。
计算概率的的方法二通过利用设置好的设概率置信度EP,提供的一种聚 类服务器计算与各个初始聚类存在高速连接的概率实施例如下文所述
聚类服务器定期对和每一个外部聚类的高速连接的BETA分布进行从概 率置信度EP到1的区间积分,计算出本初始聚类和初始聚类i存在高速连接 概率Pr[i]。
<formula>formula see original document page 21</formula>其中a表示和初始聚类i的高速连接次数,P表示和初始聚类i的非高速
连接次数,r为伽马函数
<formula>formula see original document page 21</formula>Pr[i]表示在置信度Ep条件下本初始聚类和初始聚类i的高速连接概率。 步骤404、聚类服务器将高速连接概率较大的外部聚类组成新的更高层次的聚类。
在进行初始聚类间的通信时,可以优先利用这个更高层次的聚类内的初 始聚类。选取高速连接概率较大的外部聚类的方法,通常是预设一个条件, 达到这个条件的即认为是高速连接概率较大的外部聚类。这个预设的条件可 以是预设一个概率值,将所有高速连接概率大于这个预设值的外部聚类形成
一个新的更高层次的聚类;也可以是将高速连接概率值按大小排序,取高速
连接概率值排名靠前的初始聚类形成一个新的更高层次的聚类。
聚类服务器将步骤403种计算出来的概率值按大小排序,按照由大到小
的顺序,取排位在前面的预定数目个概率值及其对应的聚类标识,或者取概 率值大于某个预定值的概率值及其对应的聚类标识。以本聚类标识作为关键
字,以概率值及对应的聚类标识作为值,向分布式哈希表(DHT, Distributed Hash Table)网络中的对等体注册,以供P2P系统中的对等体在需要进行初始聚类 间的通信时,可以查询到与这些高速连接概率较高的外部聚类的信息,并优 先使用这些外部聚类,使这些高速连接概率较高的初始聚类形成更高层次的 聚类。
所谓DHT网络就是将需要查找的文件的索引信息一一例如本聚类的标 识,表示成一个(K, V)对, 一个(K, V)对可以称为一个索引条目,K称 为关键字,可以是本聚类的标识、文件名、对等体标识符或其他描述信息的 哈希值,V是实际存储文件的对等体的IP地址或对等体的其他描述信息。所 有的索引条目组成一张大的索引哈希表,只要输入目标K值,就可以从这张 表中查出所有存储该初始聚类信息的对等体地址,然后从中获取该初始聚类 与所有外部聚类的高速连接概率值。
在本发明提供的实施例中,以本聚类标识作为关键字,以概率值及对应 的聚类标识作为值,向DHT网络注册,主要是为了将上述的存放上述的高速 连接概率较高的初始聚类信息,并将这些信息在P2P网络的对等体中实现共 享、查询等功能。也可以使用集中式的服务器或者其它的分布式服务器来替 代DHT网络来实现同样的功能,这些情况下,集中式的服务器或者其它的分 布式服务器可以看作上文所述的DHT网络中的对等体。
步骤405、对等体在需要进行初始聚类间通信时,通过步骤404形成的聚
类,选择目标聚类。
当P2P系统中的某个对等体需要获取的文件不再本初始聚类内部,需要 进行初始聚类间的通信时,以其所述初始聚类的聚类标识作为关键字从DHT 网络中的任一对等体查询,从返回的查询结果得到和该初始聚类存在高速连 接的目标聚类及其概率值,对等体可以优先利用存在高速连接并且概率值大 的目标聚类进行通信。
在本发明提供的选择目标聚类的方法实施例中,采用实时采集初始聚类 内对等体和外部聚类的连接状况的方法,在此基础上进行高速连接概率计算,
以高速连接概率高的外部聚类形成新的更高层次的聚类,以供对等体在需要 进行初始聚类间通信时使用。
由于初始聚类之间的对等体通信比初始聚类内的对等体通信,需要经过 更长的传输网络路径,在这么长的传输路径上,其实际可用带宽很容易受到 网络运行状况的影响而变得不稳定,采用实时采集初始聚类内对等体和外部 聚类的连接状况的方法形成聚类,就考虑到了初始聚类间的传输带宽的不稳 定性,可以反映到初始聚类间传输带宽的实时状况,对等体在需要进行初始 聚类间通信时,就可以优先和在此基础上形成的更高层次的聚类内的初始聚 类建立连接,以达到尽量选择高速连接概率大的初始聚类进行通信,合理利 用网络资源的目的。
本发明实施例提供的对等体实施例二如图5所示,包括
选择单元510,用于在对等体需要进行聚类间通信时,选择依据对等体所 属聚类与外部聚类之间高速连接概率形成的新的聚类内的外部聚类作为目标 聚类。
在选择单元中又可以包括概率选择单元511,用于选择新的聚类内高速连 接概率高的外部聚类,作为目标聚类。
通信单元520,用于与所述目标聚类进行聚类间的通信。
本发明实施例提供的对等体实施例二在系统中的工作方式,与上文描述 的选择目标聚类的方法实施例基本相同,在此不再详细描述。
是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机 可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种点对点网络中形成聚类的方法、 一种点对点 网络中形成聚类的系统、 一种对等体、 一种聚类服务器、及一种选择目标聚 类的方法、 一种选择目标聚类的系统、 一种对等体、 一种聚类服务器进行了 详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体 实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解 为对本发明的限制。
权利要求
1、一种点对点网络中为形成聚类提供数据的方法,其特征在于,所述方法包括获取一段时间内对等体和各外部聚类的高速连接总次数、非高速连接总次数;并把包括所述高速连接总次数和所述非高速连接总次数的数据作为记录的数据发送到形成新聚类的聚类服务器。
2、 如权利要求2所述的点对点网络中为形成聚类提供数据的方法,其特 征在于,所述获取一段时间内对等体和各外部聚类的高速连接总次数、非高 速连接总次数包括对等体在和外部聚类建立通信连接时,判断所述连接是否为高速连接;若为高速连接,则所述对等体与所述外部聚类高速连接总次数加一,否则所 述对等体与所述外部聚类非高速连接总次数加一;记录一段时间内和所述外部聚类的高速连接总次数、非高速连接总次数。
3、 一种点对点网络中形成聚类的方法,其特征在于,所述方法包括聚类服务器接收对等体记录的所述对等体和各外部聚类的高速连接总次 数、非高速连接总次数的数据,并根据所述数据获得所述聚类和所述外部聚 类的高速连接概率,取所述概率达到条件的对应外部聚类形成新的聚类。
4、 如权利要求3所述的点对点网络中形成聚类的方法,其特征在于,所 述根据所述数据获得和所述外部聚类的高速连接的概率包括所述聚类服务器以一段时间内所述聚类与所述外部聚类的高速连接总次 的概率。
5、 如权利要求3所述的点对点网络中形成聚类的方法,其特征在于,所 述聚类服务器根据所述数据获得和所述外部聚类的高速连接的概率包括所述聚类服务器以预设的概率置信度为积分下限,"1"为积分上限,对 所述聚类与所述外部聚类之间的高速连接的贝塔分布进行积分,以积分结果 作为所述高速连接的概率。
6、 如权利要求5所述的点对点网络中形成聚类的方法,其特征在于,所 述预设的概率置信度包括预设一个固定的值作为概率置信度;或者,根据所述聚类与所述外部聚类的高速连接总次数及非高速连接总 次数,获得所述概率置信度。
7、 如权利要求3、 4、 5或6所述的点对点网络中形成聚类的方法,其特 征在于,取所述概率达到条件的对应外部聚类形成新的聚类包括取所述高速连接的概率大于预设值的对应外部聚类形成一个新的聚类;或者,将各外部聚类按照与其高速连接的概率值进行排序,取排位在前 面的预定数目个对应外部聚类形成一个新的聚类。
8、 一种点对点网络中形成聚类的系统,其特征在于,所述系统包括对等体,用于记录一段时间内和各外部聚类的高速连接总次数、非高速 连接总次数;并把包括所述高速连接总次数和所述非高速连接总次数的数据 作为记录的数据发送到形成新聚类的聚类服务器;聚类服务器,用于根据所述记录的数据获得和所述外部聚类的高速连接 概率;取所述概率达到条件的对应外部聚类形成新的聚类。
9、 如权利要求8所述的点对点网络中形成聚类的系统,其特征在于,所 述聚类服务器包括积分单元,用于以预设的概率置信度为积分下限,"1"为积分上限,对 所述聚类与所述外部聚类之间的高速连接的贝塔分布进行积分,以积分结果 作为所述高速连接概率;构造聚类单元,取所述高速连接概率达到条件的对应外部聚类形成新的 聚类。
10、 一种对等体,其特征在于,所述对等体包括记录单元,用于记录一段时间内和各外部聚类的高速连接总次数、非高速连接总次数;发送单元,用于将所述记录单元记录的数据发送到形成新聚类的聚类服务器。
11、 一种聚类服务器,其特征在于,所述聚类服务器包括概率获取单元,用于接收对等体记录并发送的所述对等体和各外部聚类 的高速连接总次数、非高速连接总次数的数据,并根据所述数据,获得和所 述外部聚类的高速连接概率;构造聚类单元,取所述高速连接概率达到条件的对应外部聚类形成新的 聚类。
12、 如权利要求11所述的聚类服务器,其特征在于,所述概率获取单元 还包括积分单元,用于以预设的概率置信度为积分下限,"1"为积分上限,对 所述聚类与所述外部聚类之间的高速连接的贝塔分布进行积分,以积分结果 作为所述高速连接概率。
13、 一种选择目标聚类的方法,其特征在于,所述方法包括对等体在需要进行聚类间通信时,选择依据所述对等体所属聚类与外部 聚类之间高速连接概率形成的新的聚类内的外部聚类作为目标聚类,进行聚 类间的通信。
14、 如权利要求13所述的选择目标聚类的方法,其特征在于,选择所述 新的聚类内的外部聚类作为目标聚类包括选择所述新的聚类内高速连接概率高的外部聚类作为目标聚类。
15、 一种对等体,其特征在于,所述对等体包括选择单元,用于在所述对等体需要进行聚类间通信时,选择依据所述对 等体所属聚类与外部聚类之间高速连接概率形成的新的聚类内的外部聚类作 为目标聚类; 通信单元,用于与所述目标聚类进行聚类间的通信。
16、如权利要求15所述的对等体,其特征在于,所述选择单元还包括:概率选择单元,用于选择所述新的聚类内高速连接概率高的外部聚类, 作为目标聚类。
全文摘要
本发明公开了一种点对点网络中为形成聚类提供数据的方法,其包括获取一段时间内对等体和各外部聚类的高速连接总次数、非高速连接总次数;并将记录的数据发送到形成新聚类的聚类服务器。本发明方法还公开了一种点对点网络中形成聚类的方法,其包括聚类服务器接收对等体记录并发送的所属对等体和某外部聚类的高速连接总次数、非高速连接总次数的数据,并根据所述数据获得和外部聚类的高速连接概率,取概率达到条件的对应外部聚类形成新的聚类。相应地,本发明方法还公开了一种点对点网络中形成聚类的系统,一种对等体,一种聚类服务器,一种选择目标聚类的方法,以及相应对等体。本发明能够被用来为初始聚类间的通信选择较优的目标聚类。
文档编号H04L12/56GK101364992SQ200710135750
公开日2009年2月11日 申请日期2007年8月10日 优先权日2007年8月10日
发明者施广宇, 龙有水 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1