一种对等网络版权内容相似度图的构建方法及系统的制作方法

文档序号:6486925阅读:131来源:国知局
一种对等网络版权内容相似度图的构建方法及系统的制作方法
【专利摘要】本发明提供了一种对等网络版权内容相似度图的构建方法及系统,该方法基于用户综合客观行为构建对等网络的版权内容相似度图,所述方法包含:步骤101)用于数据集预处理的步骤;步骤102)用于进行节点能力计算的步骤;步骤103)用于聚类分析,最终完成版权内容相似度图构建的步骤;其中,步骤102)进一步包含:步骤102-1)用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤;步骤102-2)用于基于版权内容扩散能力进行若干次的层次过滤的步骤;步骤102-3)用于对版权内容节点进行颜色标定的步骤。本发明首次在CCSG构建过程中建立包括事件行为、行为时间、行为数量和行为性质在内的用户综合客观行为模型,对用户威胁度和内容扩散能力提出了量化标准。
【专利说明】一种对等网络版权内容相似度图的构建方法及系统
【技术领域】
[0001]本发明涉及P2P网络版权内容传播过程中内容相似度图的构建方法,该方法基于发明的用户综合客观行为模型,在原CCSG图基础上建立用户威胁度及版权内容扩散能力模型,为系统建立预警机制及时发现版权侵害行为提供理论支持和指导,即本发明具体提供一种对等网络版权内容相似度图的构建方法及系统。
【背景技术】
[0002]对等网络技术(P2P技术)已被广泛应用于集群计算、协同工作、搜索引擎和文件共享与交换等方面。由于P2P技术的核心是点对点的传播模式,因而相较于传统的客户-服务器的集中处理模式,网络内容传播的管理与控制更为复杂和困难。从目前状况来看,这主要体现在两个方面:对不良内容的传播控制更为复杂和对版权管理更为困难。以P2P文件共享与交换软件BT为例,它克服了传统下载方式的局限性,具有参与下载的人越多,文件下载速度越快的特点。BT软件自动将一个文件分割成若干块,当某一 PC节点在进行下载,它也作为一个对外提供服务的节点,向其他PC供应已经下载的文件块。最终,来自不同节点的文件块在一台PC上融合成了一个完整的文件。从上述P2P文件共享与交换的工作原理可以看出,一台PC在进行下载的同时,也自动进行着上传的行为,成为一台临时的服务器。因此,从版权角度来讲,鉴于P2P技术导致受侵害的用户和版权的数量、范围急剧增加的状况,对版权内容的传播分析与管控变得紧迫和必要。
[0003]目前版权内容的传播分析研究主要集中在内容检测和内容关系网络挖掘两个方面。内容检测主要是利用数字水印及DNA等技术来检测某个音/视频内容是否属于盗版内容;而内容关系网络挖掘旨在通过揭示内容之间的相似度关系来深入发掘P2P用户之间的文件共享关系,深刻反映对等网络内容交互与分布的内部结构,为传播分析与管控提供有效支持。在相关工作中,部分研究者提出了版权内容相似度图(Copyright ContentSimi Iar i ty Graph,CCSG )的概念,对P2P网络内容相似度图的构建和分析进行了相关研究。
[0004]CCSG由内容节点和带权无向边组成,如图1所示。其中,内容节点表示某个音/视频内容,可以综合运用内容名称及内容描述元数据来标识;若存在某个用户同时拥有两个内容,则对应的内容节点可通过无向边连接,特别地,如果同时拥有两个内容的用户数目越大,则意味着内容之间的相似,度越大,对应的无向边权重也越大。
[0005]通过分析我们发现,在CCSG构建过程中,仅仅定性地分析了用户客观行为的事件行为,主要指某个用户下载了某个内容或某个用户上传了某个内容,而对于用户客观行为中的行为时间、行为数量及行为性质,缺乏定量和定性的分析。这里,行为时间主要指用户下载和提供某个内容上传的持续时间,行为数量主要指用户下载/上传了多少个内容,行为性质主要指用户执行该上传/下载行为是偶然行为还是常见行为。我们认为,忽视对用户客观行为的综合定量和定性考虑,将会大大影响内容传播分析与管控的全面性和有效性。CCSG的构建过程是基于用户客观行为的事件行为,通过后台预处理、过滤、融合等手段分析出所有的内容节点及对应的带权无向边,然后构建CCSG的数据存储并最终显示和应用。直观上,我们从CCSG图中是无法查看事件行为的,只能通过鼠标点击或者命令操作,实现内容节点对应的用户事件行为监视。因此,从CCSG的应用角度看,仅仅基于事件行为的CCSG构建、显示和应用是无法完全满足监管需求的。除事件行为外,用户的行为时间、行为数量和行为性质,都可以有效帮助管控人员发掘更深层次的用户行为信息。例如,通过行为时间和行为数量的统计分析,可以判断用户是否属于常见侵权行为,进而判断侵权用户的威胁程度和预测侵权内容扩散趋势,达到预先区域预警和管控的目的。
[0006]本发明针对上述问题,将围绕对等网络内容相似度图CCSG,综合考虑用户客观行为的多个方面,对CCSG构建方法做出重要改进。与原有方法相比,本发明具有的创新之处是在CCSG构建过程中,首次建立包括事件行为、行为时间、行为数量和行为性质在内的用户综合客观行为模型;基于该综合客观行为模型,计算用户威胁程度和内容扩散趋势,并将计算结果导入REGKM聚类算法,从数据预处理和聚类两个步骤对整个构建过程分别实现一头一尾的改进,提高CCSG的全面性和准确性。

【发明内容】

[0007]本发明的目的在于,为克服现有技术在构建对等网络版权内容相似度图时存在的诸多缺陷,本发明提供了一种对等网络版权内容相似度图的构建方法及系统。
[0008]为了实现上述目的,本发明提供了一种对等网络版权内容相似度图的构建方法,该方法基于用户综合客观行为构建对等网络的版权内容相似度图,所述方法包含:
[0009]步骤101)用于数据集预处理的步骤;
[0010]步骤102)用于进行节点能力计算的步骤;
[0011]步骤103)用于聚类分析,最终完成版权内容相似度图构建的步骤;
[0012]其中,所述节点能力计算步骤进一步包含如下子步骤:
[0013]步骤102-1)用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤,且任意用户i的综合客观行为模型COB (i)由以下式(I)、(2)、(3)获取:
[0014]C0B(i) = {B(i, j), j e P}, (I)
[0015]B(i,j) = (Bup (i,j),Bdown(i,j)), (2)
[0016]Bup (i, j) =Bdown (i, j) = (status (i, j), duration (i, j), frequency (i, j), type (i,j)) (3)
[0017]其中,COB(i)表示用户i的综合客观行为模型,B(i,j)表示用户i作用于版权内容j的行为,Bup(i, j)表示用户i上传版权内容j,Bdown(i, j)表示用户i下载版权内容j,status (i, j)表示用户i作用于版权内容j的当前状态,duration(i, j)表示用户i作用于版权内容j的持续时间,frequency (i, j)表示用户i作用于版权内容j的次数,type(i, j)表示系统针对用户i作用于版权内容j的客观行为的性质判定;
[0018]步骤102-2)用于基于版权内容扩散能力进行若干次的层次过滤的步骤;
[0019]步骤102-3)用于对版权内容节点进行颜色标定的步骤。
[0020]上述技术方案中,所述步骤101)对爬虫获得的数据集进行了两次过滤操作,留下能够构建版权内容相似度图的用户节点集和节点关系集。
[0021]上述技术方案中,所述步骤102-1)进一步包含如下子步骤:
[0022]首先,对过滤留下的用户节点集及节点关系集进行用户威胁度计算,并基于大量量化的用户威胁度统计建立用户威胁等级;
[0023]然后,再对用户威胁度进行加权求和,计算得到版权内容节点的扩散能力,并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中,且所述加权操作的系数依据用户威胁等级进行赋值。
[0024]上述技术方案中,所述用户威胁度采用下式获取:
[0025]
【权利要求】
1.一种对等网络版权内容相似度图的构建方法,该方法基于用户综合客观行为构建对等网络的版权内容相似度图,所述方法包含: 步骤101)用于数据集预处理的步骤; 步骤102)用于进行节点能力计算的步骤; 步骤103)用于聚类分析,最终完成版权内容相似度图构建的步骤; 其中,所述节点能力计算步骤进一步包含如下子步骤: 步骤102-1)用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤,且任意用户i的综合客观行为模型COB (i)由以下式(I)、(2)、(3)获取:
C0B(i) = {B(i, j), j e P}, (I) B(i, j) = (BupBdown(2)
Bup (i, j) =Bdown (i, j) = (status (i, j), duration (i, j), frequency (i, j), type(i, j)) (3)其中,COB(i)表示用户i的综合客观行为模型,B(i, j)表示用户i作用于版权内容j的行为,Bup(i,j)表示用户i上传版权内容j,Bd_(i,j)表示用户i下载版权内容j,status (i, j)表示用户i作用于版权内容j的当前状态,duration (i, j)表示用户i作用于版权内容j的持续时间,frequency (i, j)表示用户i作用于版权内容j的次数,type(i, j)表示系统针对用户i作用于版权内容j的客观行为的性质判定; 步骤102-2)用于基于版权内容扩散能力进行若干次的层次过滤的步骤; 步骤102-3)用于对版权内容节点依据节点的扩散能力进行颜色标定的步骤。
2.根据权利要求1所述的对等网络版权内容相似度图的构建方法,其特征在于,所述步骤101)对爬虫获得的数据集进行了两次过滤操作,留下能够构建版权内容相似度图的用户节点集和节点关系集。
3.根据权利要求2所述的对等网络版权内容相似度图的构建方法,其特征在于,所述步骤102-1)进一步包含如下子步骤: 首先,对过滤留下的用户节点集及节点关系集进行用户威胁度计算,并基于大量量化的用户威胁度统计建立用户威胁等级; 然后,再对用户威胁度进行加权求和,计算得到版权内容节点的扩散能力,并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中,且所述加权操作的系数依据用户威胁等级进行赋值。
4.根据权利要求3所述的对等网络版权内容相似度图的构建方法,其特征在于,所述用户威胁度采用下式获取:
T(i) = ?UP.Tup (i) +codown.Tdown(i) (4)U= Σ(S) IioAi)= Σ U-(O)㈨
tup(i, j) = type(i, j).status (i, j).duration (i, j) (7)
tdown(i, j) = type(i, j).status (i, j).duration (i, j) (8) 其中,T⑴表示用户i行为的总体威胁度;TuJi)和TdraJi)分别指代用户i上传行为、下载行为的威胁度;ωυρ和cod_分别指代用户上传行为、下载行为的威胁度权重;tup(i,j)和td?n(i,j)分别指代用户i上传、下载版权内容j的威胁度分别指代上传、下载版权内容j的威胁度权重;type(i, j)、status (i, j)和duration (i, j)表示用户客观行为参数; 其中,用户的威胁度与用户的客观行为存在正相关的关系,即T(i) ocB(i),并且tup(i, j) 00 Bup(i,j),td_(i,j) Bd_(i,j),即用户的客观行为严重程度越高,则用户的威胁能力也就越大。
5.根据权利要求3所述的对等网络版权内容相似度图的构建方法,其特征在于,所述步骤103)进一步包含: 首先,利用REGKM算法对CCSG图中的各节点进行聚类,该算法采用Dijkstra算法来计算任意两点之间的最小距离,通过多次迭代,把距上次迭代选定的k个中心点相近的节点划分成一簇,划分出k个聚类; 然后,接着进行二次簇内聚类即对划分出的每个聚类再次进行一次聚类操作该聚类操作是通过计算簇内节点问的扩散能力的相似度,把扩散能力大小相近的节点聚集到一起,形成簇内扩散能力相近,簇间扩散能力相差较大的两个分簇。
6.一种对等网络版权内容相似度图的构建系统,该系统基于用户综合客观行为构建对等网络的版权内容相似度图,所述系统包含: 预处理模块,用于对数据集进行预处理; 节点能力计算模块,用于进行节点能力计算; 聚类处理模块,用于聚类分析,最终完成版权内容相似度图构建; 其中,所述节点能力计算模块进一步包含: 第一处理子模块,用于基于用户综合客观行为计算用户威胁度与版权内容扩散能力的步骤,且任意用户i的综合客观行为模型COB (i)由以下式(I)、(2)、(3)获取:
C0B(i) = {B(i, j), j e P}, (I) B(i, j) = (BupBdown(2)
Bup (i, j) =Bdown (i, j) = (status (i, j), duration (i, j), frequency (i, j), type(i, j)) (3)其中,COB(i)表示用户i的综合客观行为模型,B(i, j)表示用户i作用于版权内容j的行为,Bup(i,j)表示用户i上传版权内容j,Bd_(i,j)表示用户i下载版权内容j,status (i, j)表示用户i作用于版权内容j的当前状态,duration (i, j)表示用户i作用于版权内容j的持续时间,frequency (i, j)表示用户i作用于版权内容j的次数,type(i, j)表示系统针对用户i作用于版权内容j的客观行为的性质判定; 过滤子模块,用于基于版权内容扩散能力进行若干次的层次过滤; 颜色标定子模块,用于对版权内容节点进行颜色标定。
7.根据权利要求6所述的对等网络版权内容相似度图的构建系统,其特征在于,所述预处理模块对爬虫获得的数据集进行了两次过滤操作,留下能够构建版权内容相似度图的用户节点集和节点关系集。
8.根据权利要求6所述的对等网络版权内容相似度图的构建系统,其特征在于,所述第一处理子模块进一步包含: 威胁度计算单元,用于对过滤留下的用户节点集及节点关系集进行用户威胁度计算,并基于大量量化的用户威胁度统计建立用户威胁等级;扩散能力获取单元,用于对用户威胁度进行加权求和,计算得到版权内容节点的扩散能力,并将用户威胁度和版权内容扩散能力作为附加属性添加到各个节点的成员变量当中,且所述加权操作的系数依据用户威胁等级进行赋值。
9.根据权利要求8所述的对等网络版权内容相似度图的构建系统,其特征在于,所述用户威胁度采用下式获取:
T(i) = ?up * Tup(i) + od_.Tdown(i) (4) U,.)= Σ ?-(^)⑶ U)= Σ H(U)(⑴
iGUjGP,(,j)GE
tup(i, j)=type(i, j).status (i, j).duration (i, j)(7)
tdown(i, j)=type(i, j).status (i, j).duration (i, j) (8) 其中,T⑴表示用户i行为的总体威胁度;TuJi)和TdraJi)分别指代用户i上传行为、下载行为的威胁度;ωυρ和cod_分别指代用户上传行为、下载行为的威胁度权重;tup(i,j)和td?n(i,j)分别指代用户i上传、下载版权内容j的威胁度和气_分别指代上传、下载版权内容j的威胁度权重;type(i, j)、status (i, j)和duration (i, j)表示用户客观行为参数; 其中,用户的威胁度与用户的客观行为存在正相关的关系,即T(i) ocB(i),并且tup(i, j) Bup(i,j),td_(i,j) Bd_(i,j),即用户的客观行为严重程度越高,则用户的威胁能力也就越大。
10.根据权利要求3所述的对等网络版权内容相似度图的构建方法,其特征在于,所述聚类处理模块进一步包含: 第一聚类子模块,用于利用REGKM算法对初步CCSG图中的各节点进行聚类,该算法首先采用Dijkstra算法来计算任意两点之间的最小距离,通过多次迭代,把距上次迭代选定的k个中心点相近的节点划分成一簇,划分出k个聚类; 第二聚类子模块,用于将第一聚类子模块处理的结果进行二次簇内聚类,即对划分出的每个聚类再次进行一次聚类操作,该聚类操作是通过计算簇内节点间的扩散能力的相似度,把扩散能力大小相近的节点聚集到一起,形成簇内扩散能力相近,簇间扩散能力相差较大的两个分簇。
【文档编号】G06F21/10GK103544407SQ201210240796
【公开日】2014年1月29日 申请日期:2012年7月11日 优先权日:2012年7月11日
【发明者】曲本科, 牛温佳, 童恩栋, 苗光胜, 谭红艳, 慈松, 唐晖 申请人:中国科学院声学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1