线下移动社交网络中挖掘种子用户的方法和装置与流程

文档序号:18465389发布日期:2019-08-17 02:24阅读:346来源:国知局
线下移动社交网络中挖掘种子用户的方法和装置与流程

本发明涉及设备到设备通信形成的移动社交网络,尤其涉及一种线下移动社交网络中挖掘种子用户的方法。



背景技术:

随着移动通信技术的不断发展,人们越来越倾向于使用以手机为代表的移动设备进行社交、娱乐等,一方面更多移动用户倾向于将线上文件下载到自己的移动设备上来满足自己的工作或娱乐需求,另一方面,用户对高质量移动服务的需求日渐丰富,同时对移动网络性能的要求也不断提高。这导致移动流量不断激增和运营商利润逐渐下降,很多地区现有的移动网络基础设施和链路容量已无法有效处理暴增的移动负载,在这种情况下如何保证用户的服务质量是对移动运营商的巨大挑战。有研究表明在移动网络内存在严重的流行内容重复下载的问题,例如排名前10%的youtube视频能够占据80%的下载量,这种重复下载的过程严重浪费了网络资源,降低这种网内重复下载的一种有效方法利用d2d(devicetodevice,设备到设备)通信的机会主义共享机制,把用户在线上的下载和分享活动转移到线下的依赖d2d转发的短距离传输,以此来达到流量卸载的目的。在用户进行d2d文件传输的过程中会形成与线上社交网络相似的移动社交网络,因此我们可以通过挖掘移动社交网络内的用户关系实现高效的d2d传输。

有研究表明,用户的影响力是逐步积累起来的,对于重新共享有明显的延长存在,这使得预测和分析社交网络中用户的分享行为和流行内容的传播成为了可能。而且,分析和预测线下msn(mobilesocialnetworks,移动社交网络)中的用户d2d分享的行为比线上snss(socialnetworkingsites,社交网站)的用户分享要困难的多,这是因为时间和空间的限制,例如在某个时刻发生d2d分享的用户必须在地理位置上是临近的。现有的研究都不是基于真实的d2d通信大数据进行的,其实验或者是基于模型假设,比如假设用户相遇服从泊松分布,或者其实验所用的数据集相对较小或通过仿真的方法产生用户群体,没有考虑用户间真实分享行为的特征,而且分析维度单一,仅仅考虑了社区的拓扑结构或者节点的中心性度量等维度,没有考虑d2d通信情况下用户的地理位置、权重等特性,这大大限制了他们实验结论的推广和应用。



技术实现要素:

(一)要解决的技术问题

本发明提出了线下移动社交网络中挖掘种子用户的方法,以至少部分解决现有方法中存在的缺乏用户间真实分享行为特征和分析维度单一等问题。

(二)技术方案

根据本发明的一方面,提供了一种线下移动社交网络中挖掘种子用户的方法,包括:

获取数据;

对数据进行清洗并提取所需要的用户维度信息;

根据所获取数据中用户之间的传输记录构建移动社交网络图;

将所述移动社交网络图分解为若干个联通子图;

量化联通子图中用户对之间发送次数的传输权重;

量化用户对之间的位置相似度;

基于所述传输权重和位置相似度计算用户的影响力并排序;

输出排序结果,所得排序排名前设定个节点即作为种子用户。

在进一步的方案中,所述获取数据的方法包括网络爬虫或合作方式。

在进一步的方案中,所述移动社交网络图的构建方式包括:将用户表示为网络图中的节点,将用户之间的传输关系表示为网络图中的有向边,该有向边的方向为发送者指向接收者,并将其传输的次数赋值为该有向边的初始权重属性,所述权重属性公式为w(u,v),其中,w为初始权重值;u和v分别为发送者和接受者。

在进一步的方案中,所述量化联通子图中用户对之间发送次数的传输权重的量化公式为:

其中s(u)为有文件分享活动的用户集合;

u和v分别为发送者和接受者;

w(u,v)为初始权重值,表示用户对之间传输的次数;

为权重值,代表用户对(u,v)之间发送次数的权重。

在进一步的方案中,量化用户对之间的位置相似度的方法包括采用计算用户对之间gps的余弦相似度作为用户对之间的位置相似度,其量化公式为:

其中,lu,lv分别表示用户u与用户v的gps地理位置记录;

lul,lvl分别为用户u及用户v经过设定gps位置的概率;

luv的取值范围为0至1;

为用户对之间位置相似度的权重值。

在进一步的方案中,所述计算用户的影响力包括:求解移动社交网络子图中每个节点的得分;分别比较只加入传输权重的用户得分和只加入gps地理位置相似度的用户得分。

在进一步的方案中,所述的用户得分为seedrank得分。

本发明还提供了一种线下移动社交网络中挖掘种子用户的装置,包括:

存储器,用于存储指令和数据,

处理器,配置为执行所述指令,以便:

获取所述数据,对所述数据进行清洗并提取所需要的用户维度信息;

根据所获取数据中用户之间的传输记录构建移动社交网络图;

将所述移动社交网络图分解为若干个联通子图;

量化联通子图中用户对之间发送次数的传输权重;

量化用户对之间的位置相似度;

基于所述传输权重和位置相似度计算用户的影响力并排序;

输出排序结果,所得排序排名前设定个节点即作为种子用户。

(三)有益效果

本发明基于真实的d2d分享大数据集构建移动社交网络,通过考虑用户之间的权重、位置信息和用户之间结构的关系提出了seedrank算法,通过选取少量的种子用户可以大幅度提高d2d通信覆盖的人数,并且在性能上优于现有技术算法。

附图说明

图1为本发明实施例线下移动社交网络中挖掘种子用户方法的流程图。

图2为d2d通信形成移动社交网络示意图。

图3为本发明实施例选取种子用户并验证结果的流程示意图。

图4为本发明实施例的seedrank算法的原理图。

图5a为本发明实施例实验结果对比图。

图5b为本发明实施例加入了用户之间位置相似度的实验结果对比图。

图5c为本发明实施例加入了用户之间传输权重的实验结果对比图。

图5d为本发明实施例加入了用户之间位置相似度和传输权重的实验结果对比图。

图6为本发明实施例1个种子用户在后5周每周的覆盖人数的对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。

本发明提供了一种线下移动社交网络中挖掘种子用户的方法,图1为本发明实施例的流程图,如图1所示,包括:

获取数据;

对所获取的数据进行清洗并提取所需要的用户维度信息;

根据用户之间的传输记录构建移动社交网络图;

将所述移动社交网络图分解为若干个联通子图;

量化联通子图中用户对之间发送次数的传输权重;

量化用户对之间的位置相似度;

基于所述传输权重和位置相似度计算用户的影响力并排序;

输出排序结果,所得排序排名前设定个节点即作为种子用户。

在本发明的示例实施例中,所述获取数据的方法包括网络爬虫或合作方式,所述的用户得分为seedrank得分。

图2为d2d通信形成移动社交网络示意图,如图2所示,两个用户通过d2d通信技术进行线下内容分享活动,用户1曾经依赖于基础网络设施与用户2进行分享,但是通过d2d技术,用户1可以将手机内的内容直接传输到用户2手机上,而不需要在线下载,移动设备用户越来越倾向于使用这种无需通过基础网络设施的d2d分享方式进行通讯。类似的,大量具有朋友或者亲属关系的用户间的线下d2d通信生成了与线上社交网络类似的大规模社交网络图。

图3为本发明实施例选取种子用户并验证结果的流程示意图,如图3所示,步骤包括:

获取数据,并对所收集的数据进行预处理,在本发明的示例实施例中,所述获取数据的方法包括网络爬虫或合作方式,所述预处理包括清除空值等无效数据以及提取所需要的有效数据信息,所述有效数据信息包括文件类型、md5码,发送者,接收者,时间戳,ip地址,用户gps,以及文件大小,其中一条有效记录如表1所示:

表1:一条有效记录

根据有效数据信息中用户之间的传输关系构建移动社交网络图,在本发明的示例实施例中,所述移动社交网络图将用户表示为网络图中的节点,将用户之间的传输关系表示为网络图中的有向边,并将其传输的次数作为该有向边的初始权重属性,该有向边的方向为发送者指向接收者,该移动社交网络图为一个有向带权图,用来表示移动社交网络中的用户和用户之间的关系,可以表示为g(v,e,p),其中v为节点集,代表用户,e为有向边集,代表用户之间的传输关系,w为有向边的权重集,表示为一个用户指向另一个用户的有向边上的权重。在本发明的一个具体实施例中,vi和vj代表两个用户,而eij代表用户i和j之间存在一条传输关系,对于d2d通信而言即使两个用户之间发生过d2d分享,即如果用户i曾经给用户j传输过文件,则在两个用户之间存在一条由用户i指向用户j的有向边,而边上的初始权重值wij被赋值为传输次数。

将所述移动社交网络图分解为若干个联通子图,在本发明的示例实施例中,采用k-means聚类算法根据用户之间的关系和分享行为把原始的用户网络结构划分成一个个小的社区群组,在同一个群组内的用户对之间至少发生过一次内容分享活动。

在本发明的一个具体实施例中,如表2所示,共得到918570个群组,其中有856040个群组的人数在3-7人之间,58565个群组在8-20人之间,3965个群组在21-369人之间,该3-7人群组以及8-20人群组所蕴含的信息较少,具有较低的分析价值,予以忽略不计,实施例中选用的训练数据的群组人数均在20人以上。

表2:群组划分结果

根据传输记录量化联通子图中用户对之间发送次数的传输权重,图4为本发明实施例的seedrank算法的原理图,如图4所示,发送者会与多个接收者分享文件,在本发明的示例实施例中,发送者与接收者1之间的权重w=6,地理位置相似度g=0.63,与接收者2的权重为w=8,g=0.74,与接收者3的权重为w=5,g=0.51,根据图2中信息以及如下公式计算发送者与接收者之间发送次数的传输权重:

所得

其中s(u)为有文件分享活动的用户集合;

u和v分别为发送者和接受者;

w(u,v)为初始权重值;

根据图4中信息量化用户对之间的位置相似度,所述量化位置相似度的方法包括采用计算用户对之间gps的余弦相似度作为用户对之间的位置相似度,其量化公式为:

其中,lu,lv分别表示用户u与用户v的gps地理位置记录;

lul,lvl分别为用户u及用户v经过设定gps位置的概率;

luv的取值范围为0至1;

为用户对之间位置相似度的权重值。

余弦的取值范围为0-1,其值越接近1则两个用户之间的位置相似度越高,表明用户之间的物理距离越近,他们发生内容分享的可能性越大。在本发明的具体实施例中为了避免0带来的影响,对所有计算结果均加上1。

将上述处理后的数据上传至存储系统,然后以并行计算的方式迭代计算用户的影响力,在本发明的示例实施例中,求解移动社交网络子图中每个节点的seedrank得分表示为srwg(u),并分别比较只加入传输权重的用户得分srw(u)和只加入位置相似度的用户得分srg(u),计算过程包括初始阶段和迭代阶段,其中初始阶段对于网络子图中每一个节点赋予初始的seedrank值为1;迭代阶段即使用并行技术计算子图中各个节点的sr值,在本发明的具体实施例中,使用大数据计算引擎spark在所述迭代阶段计算子图中各个节点的sr值,计算公式为:

其中k为当前迭代阶段,c是阻尼系数,通常设为0.85。

终止条件可以为迭代次数k达到指定的阈值或者相邻两次迭代的seedrank得分值小于指定的阈值ε,即|srk(u)-srk-1(u)|<ε。

根据上一步求得的用户seedrank得分值对用户进行排序,seedrank得分值越高代表用户的影响力越大,所得排序即可以根据需要得到前设定数量个有影响力的种子用户或者在群组内相隔一定数量的种子用户,较佳的,还可以在检验数据上对所选取的种子用户进行验证,在本发明的实例中,将从前8周d2d通信记录所选取的种子用户在后5周分享覆盖的人数作为度量,用于衡量所选取种子用户的性能度量标准。

图5a为本发明实施例实验结果对比图,纵坐标为用户人数,横坐标为实验的周数,在本发明的示例实施例中,每个组选取2个种子节点,每种算法在后5周数据集的传播覆盖人数情况进行对比,如图5a所示,其中pr指原始pagerank算法,sp指seedrank算法,sp0、sp1和sp2分别指所选的两个种子用户之间的距离分别为0跳,1跳和2跳。

g用户之间地理位置相似度,图5b为本发明实施例加入了用户之间位置相似度的实验结果对比图,纵坐标为用户人数,横坐标为实验的周数;w为用户之间的权重,图5c为本发明实施例加入了用户之间传输权重的实验结果对比图,纵坐标为用户人数,横坐标为实验的周数;图5d为本发明实施例加入了用户之间位置相似度和传输权重的实验结果对比图,纵坐标为用户人数,横坐标为实验的周数。

在覆盖数量上,加入w和g的srw+g,如图5d所示,总体覆盖的人数要比不加入w和g的pr和sr,如图5a所示,多大约10人,加入g的srg,如图5b所示,覆盖人数最多,可以达到290多人,说明了位置相似度的重要性,同时,考虑2跳朋友关系的sr2+w+g要比不考虑朋友关系的srwg和一跳朋友关系的sr1+w+g表现好。

图6为本发明实施例1个种子用户在后5周每周的覆盖人数的对比图,其对比了在后5周的加入w和g的seedrank算法与pagerank算法的种子用户覆盖人数,如图6所示,覆盖的用户数随着从第1周到第5周时间的累积而增加,此外,srg算法的结果在1至5周内都超过了其他算法,表明了由于d2d短距离通信的特点,用户分享行为受地理位置的限制非常大,加入w的srw比没有权重的pr算法表现要好,且由结果可知,在移动社交网络中,传输权重因素不如位置相似度因素重要,其中,srw+g的覆盖人数最少,说明地理位置相似性因素和权重因素组合起来对增大覆盖人数帮助不大。

此外,本发明还提供了一种线下移动社交网络中挖掘种子用户的装置,包括:

存储器,用于存储指令和数据,

处理器,配置为执行所述指令,以便:

获取所述数据,对所述数据进行清洗并提取所需要的用户维度信息;

根据所获取数据中用户之间的传输记录构建移动社交网络图;

将所述移动社交网络图分解为若干个联通子图;

量化联通子图中用户对之间发送次数的传输权重;

量化用户对之间的位置相似度;

基于所述传输权重和位置相似度计算用户的影响力并排序;

输出排序结果,所得排序排名前设定个节点即作为种子用户。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1