基于短距无线通信数据的关系挖掘方法与流程

文档序号:16890513发布日期:2019-02-15 23:01阅读:282来源:国知局
基于短距无线通信数据的关系挖掘方法与流程

本发明涉及计算机网络技术领域,尤其涉及一种基于短距无线通信数据的关系挖掘及验证方法。



背景技术:

近年来,随着网络的发展,人与人之间的交流方式也逐渐多样化,不再是局限于传统的面对面交流,甚至不再局限于电话交流的方式。社交媒体软件——一种新兴的交流方式已经受到人们的青睐。人们在使用这些社交媒体软件的过程中,软件会产生大量的数据,通过对这些数据集的收集和研究,我们可以更加清楚地了解社交网络的演变过程。由于有线通信网络技术的优先普及,在线社交网络,如facebook,twitter和新浪微博等,已经成为人们在全球范围内获取和分享信息的主要场所,我们发现人们在现实生活中的交友习惯、生活方式等会影响人们在网络中的一些行为习惯,例如现实生活中关系亲密的两个人在网络中的关系可能也很亲密,他们在网络中的交互时间、交互次数(评论、转发等行为都是一次交互)都高于其他人。

随着internet技术、计算机技术、通信技术和电子技术的飞速发展,更因为人们对信息随时随地获取和交换的迫切需要,无线通信开始在人们的生活中扮演着越来越重要的角色,显示出巨大的发展潜力。而在这其中,作为无线通信技术的一个重要分支——短距离无线通信技术因其在技术、成本、可靠性及可实用性方面的突出优势,正逐渐引起人们越来越广泛的关注,目前常见的短距无线通信包括蓝牙,wifi,zigbee等等。由此而产生的短距离无线网络也逐渐成为研究热点。短距离无线网络指,网络中节点通信距离较短,但可以通过节点移动来建立通信的网络,所以用户的位置信息隐含在无线连接中。如果我们能够找到短距离无线网络中的隐含社会关系,它可以被用来进行更加精准的推荐服务、信息搜索等方面。对社交网络和短距无线网络的综合分析研究已经是大势所趋,但是目前在研究领域中这种跨类型网络的综合分析还很匮乏,很多研究都聚焦在单一种类型的网络中,在单一类型网络探索用户关系、用户关系强度等,而对于短距离无线网络于其他网络之间的用户关系是否存在一定的联系并没有人提出具体合理的研究方法。

以如下现有技术为例来进行说明,如图1所示,此技术提出了一种基于新浪微博微博位置注册数据的个人社会关系研究方法。设计了一个挖掘框架,通过使用其轨迹的空间和时间特征来分析用户之间的相似性,这些特征由新浪微博位置注册数据表示,充分考虑并利用具有大量和离散特征的微博位置登记数据,并从空间和时间维度中筛选数据。从微博位置注册数据中提取“用户活动区域”,以便为每个用建立空间矢量,在此基础上,用户之间的社交关系可以通过用户空间矢量的相似性来挖掘。然而,该方法是一种在线网络的关系挖掘方法,由于短距离无线网络本身的高度动态性,短距离特性,其他网络的挖掘方法不能充分挖掘其关系;同时,现在很多用户在注册时填写的位置信息不准确,与实际位置相差很大,从而导致分析结果与实际结果存在一定差异。



技术实现要素:

本发明的目的是提供一种基于短距无线通信数据的关系挖掘方法,可以准确挖掘出短距离无线网络中的隐含社会关系。

本发明的目的是通过以下技术方案实现的:

一种基于短距无线通信数据的关系挖掘方法,包括:

收集短距离无线通信数据和相应的辅助数据;

对短距离无线通信数据进行预处理,从而获得关系集;

根据获得的关系集使用预设的映射方法来计算相应的映射比例,并配合随机映射比例来验证所述预设的映射方法是否有效,从而筛选出有效的映射方法;

利用筛选出的有效的映射方法进行短距无线通信网络节点到社交网络的映射,从而实现关系挖掘。

由上述本发明提供的技术方案可以看出,通过处理短距离无线网络通信信息,可以找出短距离无线网络中隐含的社会关系,使得短距离无线网络与社交网络关系进行映射,并验证映射方法的合理性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明背景技术提供的现有技术提供的关系挖掘流程图;

图2为本发明实施例提供的一种基于短距无线通信数据的关系挖掘方法的流程图

图3为本发明实施例提供的计算共有兴趣率的示意图;

图4为本发明实施例提供的归一化降序处理结果示意图;

图5为本发明实施例提供的映射类型与映射策略示意图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

本发明实施例提供一种基于短距无线通信数据的关系挖掘方法,如图2所示,其主要包括:

步骤s1、收集短距离无线通信数据和相应的辅助数据。

本发明实施例中,所述短距离无线通信数据中包括:网络中的各节点、存在连接关系的节点对以及节点对连接起始时间和终止时间;

为了提高映射的精确性,还可以收集辅助数据,辅助数据就是其他网络类型的数据,例如从在线社交网络中收集的用户兴趣类型、地理位置等等。

如背景技术所记载的,短距离无线通信可以是蓝牙、wifi、zigbee等。

步骤s2、对短距离无线通信数据进行预处理,从而获得关系集。

预处理主要包括如下三个过程:

1)合并重复数据并删除不可验证数据。

短距离无线通信数据中含有大量冗余信息,将重复节点对的相关数据合并,并删除不可验证数据,形成可验证节点数据集;所述不可验证数据是指某一节点仅在短距无线通信网络中出现,并未在社交网络中出现。

2)计算个体特征值。

所计算的个体特征值包括:直接指标、间接指标与辅助指标;其中:

直接指标包括:根据短距离无线通信数据统计出的节点对的连接总次数、连接总时间与平均连接时间。短距离无线通信数据中包含每次节点对的连接起始时间和终止时间,所以就可以先计算出用户每次连接的时间,然后将重复节点对合并,节点对每出现一次就表明连接了一次,因此可以据此统计出用户的连接总次数、连接总时间,平均连接时间。

间接指标包括:两个节点的共有邻居率、共有地理位置率等;所述两个节点在社交网络中存在关系,短距无线通信网络中没有连接关系,两个节点各自计算它们在短距无线通信网络中共同存在连接关系的节点数量占具有连接关系的节点总数的比例,其较大值作为两个节点的共有邻居率。如图3所示,假设两个节点a,b,在短距离无线网络中没有之间的联系(没有直接的无线通信),但是在在线社交网络中存在关系。在短距离无线网络中a与c,d,e,f,g,h,j有过连接,b与c,d,e,f,g,k,l,z,x有过连接,由此产生间接映射指标共有邻居率,对a而言共有邻居率=5/7≈71.5%;,同理对b而言共有邻居率=5/9≈55.6%,为了方便,本发明实施例定义规定对两个节点ab来说共有邻居率均为71.5%(取两者最大值,但须提出,这种处理方法不唯一)。

两个节点共有地理位置率,也即两个节点共有地理位置占每个节点总地理位置的比例,其较大值作为两个节点的共有地理位置率。

实际上,间接指标种类很多,发明实施例仅以上述两种间接指标为例进行了说明,其他的间接指标可以根据实际情况来选择。

辅助指标包括:每个节点对的共有兴趣率;也即节点对中两个节点共有兴趣占每个节点总兴趣的比例,其较大值作为相应节点对的共有兴趣率。

3)归一化降序处理。

对个体特征进行归一化降序处理。因为需要对数据作图处理,所以要将步骤2)整理出来的数据进行归一化降序处理,从而获得关系集,如图4所示,假设与节点y相连接的节点共有个,yq连接次数为800次、yc为100次、yv为60次、yr为0次,则与b相连的节点连接总次数为1000次,归一化后所占比例如图4所示,无论选取哪个指标,在使用前我们都需要对相同源节点数据进行归一化降序处理,在使用前我们都需要进行归一化降序处理,也即后文在介绍映射方法时所提到各种指标集都进行了归一化降序处理。

步骤s3、根据获得的关系集使用预设的映射方法来计算相应的映射比例,并配合随机映射比例来验证所述预设的映射方法是否有效,从而筛选出有效的映射方法。

由于并非每个映射方法都适用于各个关系集,因此,对于关系集而言,需要对各个映射方法进行验证,以筛选出有效的映射方法,从而准确的实现关系挖掘。

如图5所示,定义四种映射类型:直接映射、间接映射、基于单指标映射与基于多指标映射;定义四种映射策略:基于阈值筛选的映射、基于特征值累加的映射、基于信道对称的映射与基于辅助数据映射;四种映射类型与四种映射策略之间两两组合构成成十六种映射方法。

下面针对各种映射类型、映射策略以及结合后的映射方法进行详细的介绍。

一、映射类型

1)直接映射是指,一部分节点对既在无线短距离网络中存在,也在社交网络中存在,根据不同直接指标将这部分节点对映射回社交网络中。

2)所述间接映射是指,一部分节点对在无线短距离网络中不存在,但在社交网络中存在,则根据这两个节点的间接指标映射回社交网络中。

3)所述基于单指标映射是指,从无线短距离网络提取的各种指标中选取一种指标为基准计算出每个节点对的相应指标,并设定阈值,将指标大于阈值所对应的节点对筛选出来,并映射到社交网络中。

4)所述基于多指标映射是指,从无线短距离网络提取的各种指标中选取至少两种指标t1与t2,并设定相应的阈值m1与m2;将在指标t1下大于阈值m1的节点对筛选出来,记为集合tm1,同时将在指标t2下大于阈值m2的节点对筛选出来,记为集合tm2;之后,从集合tm1与tm2中筛选出相同的节点对,将其映射到社交网络中。

本发明实施例中,所述社交网络为在线社交网络(即facebook,twitter和新浪微博等)或传统社交网络(即,传统的面对面交流、电话交流方式等)。

二、映射策略。

1)基于阈值筛选的映射:针对短距无线通信网络中存在连接关系的节点对使用相同的标准来推断这些节点对是否存在于社交网络中,这个方法简单而快速,适用于数据集中节点对的特征值两极分化较大情况下的研究,如图4中对节点y的相关节点对的筛选适合此方法。

2)基于特征值累加的映射:不同数据集的特征值分布特征不同,当特征值分布较为均匀的时候选择此方法更为合适。使用这种映射方法时,将归一化降序的特征值逐步累加,直到累加值超过阈值,则认为这部分累加值对应的关系存在于社交网络中。还参见图4,假设在无线网络中包含节点x的节点对共有六对,y有四对,并根据某一指标进行归一化降序。a、当根据基于特征值累加的映射来进行筛选时,假设设定的阈值为0.7,则对节点x来说则会筛选出节点对xa、xc、xd,因为两对节点比例之和为0.95大于0.7,对节点y来说只会筛选出节点对yq,因为这一对节点的比例就大于0.7了;b、当根据基于阈值筛选方法筛选时,当阈值0.7,对节点x来说则一个节点对都不符合条件,因为没有一对节点的比例大于0.7,但是对于节点x而言,xa、xc、xd的特征值所占比例在所有与x相连接的节点对中是较大的,即节点x与这三个节点间存在社交关系的可能性最大;对节点y来说还是只会筛选出节点对yq,这就是基于阈值筛选的映射和基于特征值累加的映射方法在数据筛选时的不同,根据不同的数据特征值分布选取合适的方法。

3)基于信道对称的映射:由于通信信道的不对称性造成了短距离无线网络数据的不对称性,但是这种不对称并不能表示存在的社会关系的不对称,因此,提出了一种信道对称策略,其中一些关系在短距离无线网络中是相反的。具体而言,对数据选取某个指标进行预处理后得到关系集y,y中节点间的关系分为两个级别,比例大于等于r的关系属于大比例层,此部分关系集为ysub,小于r的关系属于小比例层。将大比例层的数据进行翻转,即源节点和目的节点互换得到新的关系集,删除新关系集中不可验证数据得到关系集ysub’,再将这个关系集与原关系集合并,从而确定最终的关系集l=y∪ysub’,并在映射时使用确定的最终的关系集l;这种方法可以将部分因为通信信道不对称而缺失的数据补全。

4)基于辅助数据映射:该方法并不适用于每个数据集,除非该数据集中包含一种或多种辅助数据,再结合数据中的一些特征值指标来进行映射。我们所用的数据集中的辅助数据可以从在线社交网络中收集到的用户兴趣类型数据,计算出无线数据中每个节点对的两个节点之间共有兴趣率为多少,与计算共有邻居率类似,两个节点的共有兴趣的个数分别除以每个节点的兴趣总数,同样的取出最大值,这就是这两个节点的共有兴趣率。利用节点对的共有兴趣率来进行映射,若短距无线通信网络中某些节点对没有共有兴趣率,则节点对的共有兴趣率默认为0,这种处理方法并不是唯一的,共有兴趣率默认值可根据实际情况进行设定,或者可根据实际情况进行一些其他处理。

三、将映射策略和映射类型两两组合,构成多种映射方法,通过与随机映射比例相比较,来验证相应映射方法对关系集是否有效。

假设设短距无线通信网络中关系集为y={y1,y2,y3,…,yn};其中的yi表示一个节点对,i=1,2,3,...,n;使用预设的映射方法来计算相应的映射比例包括:利用预设的映射方法确定需要映射的节点对数量q,再计算q个节点对在社交网络中也存在连接关系的节点对数量q与q的比例:p=q/q。

所述随机映射比例计算方式如下:随机从无线数据中筛选出s个节点对,这s个节点对在社交网络也存在连接关系的节点对数量为s,则随机映射比例为:p0=s/s。

所述预设的映射方法包括:

1)基于阈值筛选的单指标直接映射:选取一种直接指标t,并计算每一节点对的相应指标,得到指标集x={x1,x2,x3,…,xn},其中xi所对应的节点对为yi;若指标集x中,存在q个xi大于预设阈值m,则相应的q个节点对映射到社交网络中,并计算映射比例p,若p>u*p0,则说明基于阈值筛选的单指标直接映射方法有效;其中,u为设定的系数,可以根据实际情况来设定。阈值m的设定很重要,当m→0时,直接指标t没有达到筛选的作用,且当m=0时,映射比例等于随机映射比例p0;当m→max(xi)(1≤i≤n)时,筛选的条件过于苛刻。

2)基于阈值筛选的多指标直接映射:选取至少两种直接指标,并设定相应的阈值,计算每一节点对的两种指标,得到两个指标集r={r1,r2,r3,…,rn},z={z1,z2,z3,…,zn};其中ri与zi所对应的节点对为yi;若在不同指标下,存在ri>m1且zi>m2,则节点对yi满足要求;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>u*p0,则说明基于阈值筛选的多指标直接映射方法有效。

3)基于阈值筛选的单指标间接映射:与基于阈值筛选的单指标直接映射相同,区别仅在于将直接指标换成间接指标。

4)基于阈值筛选的多指标间接映射:与基于阈值筛选的多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标。

5)基于特征值累加的单指标直接映射:选取一种直接指标t,并计算每一节点对的相应指标,得到指标集xf={xf1,xf2,xf3,…,xfn},设定阈值m’;将某个节点所在的节点对的前k个节点对的指标累加得到sh,且使得sh>m’时k最小,则所述前k个节点对满足要求;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>u*p0,则说明基于特征值累加的单指标直接映射方法有效。

例如,假设节点h所对应的节点对(h,b1),(h,b2),(h,b3)的指标分别为x1、x2、x3,且x1>x2>x3,当x1+x2>=m’,此时节点对(h,b1),(h,b2)满足要求。

6)基于特征值累加的多指标直接映射,选取至少两种直接指标t1'与t2',并设定相应的阈值m1'与m2',计算每一节点对的两种直接指标,得到两个指标集r={r1',r2',r3',…,rn'},z={z1',z2',z3',…,zn'};对于指标集r,将某个节点h所在的节点对的前k1个节点对的指标累加得到sh1,且使得sh1>m1'时k1最小,对于指标集z,将某个节点h所在的节点对的前k2个节点对的指标累加得到sh2,且使得sh2>m2'时k2最小;筛选出所述k1个节点对与所述前k2个节点对中相同的节点对作为满足要求的节点对;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>u*p0,则说明基于特征值累加的多指标直接映射方法有效。

7)基于特征值累加的单指标间接映射:与基于特征值累加的单指标直接映射相同,区别仅在于将直接指标换成间接指标。

8)基于特征值累加的多指标间接映射:与基于特征值累加的多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标。

9)基于辅助数据单指标直接映射:选取一种直接指标t,计算每一节点对的相应指标,同时,计算每一节点对的辅助指标得到指标集xt={xt1,xt2,xt3,…,xtn}和xr={xr1,xr2,xr3,…,xrn};若存在xti>mt且xri>mr,则节点对yi满足要求,其中mt与mr均为设定的阈值;统计所有满足要求的节点对并映射到社交网络中,计算映射比例p,若p>u*p0,则说明基于辅助数据单指标直接映射方法有效。

10)基于辅助数据多指标直接映射:与基于辅助数据单指标直接映射相同,区别在于采用至少两个直接指标;即,选取至少两个直接指标后,要求一个节点对的相应直接指标与辅助指标都大于相与的阈值才认为相应的节点对满足要求。

11)基于辅助数据单指标间接映射:与基于辅助数据单指标直接映射相同,区别仅在于将直接指标换成间接指标。

12)基于辅助数据多指标间接映射:与基于辅助数据多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标;

13)基于信道对称单指标直接映射:与基于阈值筛选的单指标直接映射原理同时,区别在于将关系集改为关系集l。

14)基于信道对称多指标直接映射:与基于阈值筛选的多指标直接映射原理同时,区别在于将关系集改为关系集l。

15)基于信道对称单指标间接映射:与基于信道对称单指标直接映射相同,区别仅在于将直接指标换成间接指标。

16)基于信道对称多指标间接映射:与基于信道对称多指标直接映射相同,区别仅在于将至少两种直接指标换成至少两种间接指标。

步骤s4、利用筛选出的有效的映射方法进行短距无线通信网络节点到社交网络的映射,从而实现关系挖掘。

本发明实施例中,利用所筛选出的有效的映射方法各自进行短距离无线通信节点到社交网络的映射,再综合所有的映射结果,从而得到最终的关系挖掘结果。

举例来说,假设通过上述方式,筛选出五种有效的映射方法,则利用这五种有效的映射方法各自进行短距离无线通信节点到社交网络的映射,每一种有效的映射方法都将获得一个映射结果,再综合所有的映射结果,也即最终的关系挖掘结果。

本发明实施例上述方案中,将多种类型的社交综合在一起研究,而不是仅仅局限于某一种类型的网络,探索短距离无线网络中可能存在的社交关系,并用传统社交网络或在线社交网络数据来验证方法的有效性。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1