在线社交网络用户关系强度预测方法与流程

文档序号:12672210阅读:366来源:国知局

本发明涉及在线社交网络用户关系领域,特别涉及一种基于机器学习法和RFM模型的在线社交网络用户关系强度预测方法。



背景技术:

在线社交网络的广泛使用,比如微博、微信,生成一个数据爆发式增长的虚拟社交网络。用户交互和链接形成了网络系统,人与人之间的社会关系有了新的表现方式,对现实社会关系产生影响。然而,互联网环境下,人们对社交网络中的信息掌控能力并不充足,不能够所产生信息进行有效的过滤和屏蔽,容易导致个人隐私的泄露。深入研究后可知,这种信息掌控能力的缺失来自于无法有效地对用户间关系强度的进行判别预测。因此,对大量在线社交网络用户交互数据进行研究,探索人类社会的属性在网络环境的关系,能提高用户隐私安全保护能力,避免大量无用信息的干扰。此外,还有助于各类社交网络应用服务的开发和推广。

关系强度概念是1973年格兰诺维特首次提出,他将关系强度定义为一个持续性的情感强度、亲密程度和服务交换功能,并将关系强度分成强关系和弱关系。本研究在此基础上对关系广度进行了细分,分成了非常强关系、强关系、一般关系、弱关系、非常弱关系。现有对关系强度的研究方法大多使用图或者统计数据来对关系进行描述,这些方法能够表明出用户间的信息传递和强度,但是需要进行假设,有着较强的主观性,导致研究结果不准确,并且现有的研究方法对关系强度的分类模糊不准确。



技术实现要素:

本发明提供一种在线社交网络用户关系强度预测方法,目的在于解决现有对关系强度的预测需要进行假设,存在较强的主观性,导致研究结果不准确,并且现有研究方法对关系强度的分类模糊不准确的问题。

为解决上述问题,本发明实施例提供一种在线社交网络用户关系强度预测方法,其特征在于,具体包括以下步骤:

获取用户状态更新及与好友间的互动数据;

根据RFM模型对用户和好友的互动数据进行目标特征信息的提取;

获取用户自定义关系程度信息;

对目标特征信息和用户自定义关系程度信息进行数据清理;

根据清理后的数据获得数据集;

根据数据集创建初始节点;

判断数据集中元组是否属于同一类;

若是,获取节点并进行标注;

若否,根据属性选择度量法,确定分裂属性和分裂点,依据分裂属性和分裂点进行分裂以获取节点,对获取的节点进行标注;

由获得的若干标注了的节点形成决策树,并对决策树进行剪枝操作后判断用户自定义关系程度是否准确。

作为一种实施方式,若在线社交网络为微博时,RFM模型的R值表示用户与好友最近一次互动时间,F值表示用户和好友互动频率,M值表示为用户更新状态后是否有传达好友。

作为一种实施方式,所述获取用户自定义关系程度信息步骤,包括以下步骤:

通过问卷形式对用户与好友的关系强度进行调查;

根据问卷结果将关系强度分为5类,分别为非常强关系、强关系、一般关系、弱关系、非常弱关系。

作为一种实施方式,还包括以下步骤:

依据目标特征信息对互动数据进行量化说明;

量化说明的方式通过对用户状态更新数据进行文本分析,提取文本中的相关信息,相关信息包括含有传达好友的信息、三个月内与好友的互动频率、三个月内与好友的互动频率的平均值以及与好友的最近一次互动的时间。

作为一种实施方式,所述对决策树进行剪枝操作步骤,具体包括以下步骤:

计算每个标注节点剪枝前和剪枝后的代价复杂度;

比较两者代价复杂度的大小;

选择较小的代价复杂度的方案判断用户自定义关系程度是否准确。

作为一种实施方式,所述代价复杂度为树叶节点的个数和数误分类的元组所占比。

作为一种实施方式,所述根据属性选择度量法,确定分裂属性和分裂点步骤,具体包括以下步骤:

用D1代表数据集中特征元组及对应类标号的合集;

计算数据集中元组的所有类所需的平均信息量,计算公式为:其中,Info(D1)表示数据集中元组的所有类所需的平均信息量,pi表示元组属于某一类特征的概率,m表示数据集内类的个数;

提取特征值,获取数据集按某属性特征划分后的需求信息量,若该属性特征为A属性特征,则数据集按A属性特征划分后的需求信息量表示为SplitInfoA(D1);

根据平均信息量和按某属性特征划分后的需求信息量计算信息增益,若该属性特征为A属性特征,则信息增益的计算公式为:

Gain(A)=Info(D1)-SplitInfo(D1);

根据信息增益和按某属性特征划分后的需求信息量计算信息增益率,选择信息增益率最大的属性特征作为分裂属性,若该属性特征为A属性特征,则信息增益率的

计算公式如下:

根据分裂属性和分裂点进行分裂以获取节点。

作为一种实施方式,所述提取特征值,获取数据集按某属性特征划分后的需求信息量步骤,具体包括以下步骤:

将提取的特征值按某属性特征的值以递增顺序排列;

若该属性特征为A属性特征时,选取相邻值的中点作为可能的分裂点,计算在该分裂点时数据集中按A属性特征划分后的需求信息量,SplitInfoA(D1)的计算公式为:

其中,D1j是D1的A属性特征的第j个值,j∈[1,v];

若该属性特征有v个值,则计算v-1个可能的分裂点相对应的需求信息量的值,选择最小的值作为真实数据集中按A属性特征划分后的需求信息量,该值对应的分裂点为A属性特征的真实分裂点。

作为一种实施方式,还包括以下步骤:

若循环获取节点过程中没有剩余属性特性可以进一步分类或者给定的分支没有元组,则停止该循环获取节点过程。

本发明相比于现有技术的有益效果在于:基于在线社交网络的真实数据所得到的结果,无需提出假设,具有很强的真实性和客观性,对爬取的数据进行目标特征信息提取和学习分类,能够有效的对用户关系进行关系强度估测,具有很强的精确性,此外,RFM模型在社交网络中的应用,能动态描绘出在线社交网络用户的互动强度和价值。

附图说明

图1为本发明的在线社交网络用户关系强度预测方法的流程图。

具体实施方式

以下结合附图,对本发明上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部实施例。

如图1所示,一种在线社交网络用户关系强度预测方法,具体包括以下步骤:

S100:获取用户状态更新及与好友间的互动数据、用户自定义关系程度信息;

步骤S100的具体内容为:获取用户自定义关系程度信息包括以下步骤,首先通过问卷形式对用户与好友的关系强度进行调查,然后根据问卷结果将关系强度分为5类,分别为非常强关系、强关系、一般关系、弱关系、非常弱关系;获取用户状态更新及与好友间的互动数据是通过利用相关爬虫技术。

S200:根据RFM模型对用户和好友的互动数据进行目标特征信息的提取;

步骤S200的具体内容为:若在线社交网络为微博时,RFM模型的R值表示用户与好友最近一次互动时间,F值表示用户和好友互动频率,M值表示为用户更新状态后是否有传达好友,传达方式为@好友方式。

步骤S200除了上述内容外,还包括以下步骤:

S201:依据目标特征信息对互动数据进行量化说明;

S202:量化说明的方式通过对用户状态更新数据进行文本分析,提取文本中的相关信息,相关信息包括含有传达好友的信息、三个月内与好友的互动频率、三个月内与好友的互动频率的平均值以及与好友的最近一次互动的时间。

S300:对目标特征信息和用户自定义关系程度信息进行数据清理;

步骤S300旨在减少数据缺失值和消除属性的冗余,为分类器的构建做好数据准备。

S400:根据清理后的数据获得数据集;

S500:根据数据集创建初始节点;

S600:判断数据集中元组是否属于同一类;

步骤S600的具体内容为:判断数据集中元组是否属于同一类或者是否存在可以分裂的属性。

S700:若数据集中元组属于同一类,获取节点并进行标注;

步骤S700的具体内容为:若数据集中元组属于同一类或不存在可以分裂的属性,获取节点并进行标注。

S800:若数据集中元组不属于同一类,根据属性选择度量法,确定分裂属性和分裂点,依据分裂属性和分裂点进行分裂以获取节点,对获取的节点进行标注;

步骤S800的具体内容为:若数据集中元组不属于同一类或存在可以分裂的属性,根据属性选择度量法,确定分裂属性和分裂点依据分裂属性和分裂点进行分裂以获取节点,对获取的节点进行标注。

其中,根据属性选择度量法,确定分裂属性和分裂点具体包括以下步骤:

S801:计算数据集中元组的所有类所需的平均信息量,计算公式为:其中,Info(D1)表示数据集中元组的所有类所需的平均信息量,pi表示元组属于某一类特征的概率,m表示数据集内类的个数;

S802:提取特征值,获取数据集按某属性特征划分后的需求信息量,若该属性特征为A属性特征,则数据集按A属性特征划分后的需求信息量表示为SplitInfoA(D1),由于此处所提取的特征值为连续值,先将提取的特征值按某属性特征的值以递增顺序排列,选取相邻值的中点作为可能的分裂点,计算在该分裂点时数据集中按A属性特征划分后的需求信息量,SplitInfoA(D1)的计算公式为:

其中,D1j是D1的A属性特征的第j个值,j∈[1,v],若A属性特征有v个值,则计算v-1个可能的分裂点相对应的需求信息量的值,选择最小的值作为真实数据集中按A属性特征划分后的需求信息量,该值对应的分裂点为A属性特征的真实分裂点;

S803:根据平均信息量和按A属性特征划分后的需求信息量计算信息增益,则信息增益的计算公式为:

Gain(A)=Info(D1)-SplitInfo(D1);

S804:根据信息增益和按某属性特征划分后的需求信息量计算信息增益率,选择

信息增益率最大的属性特征作为分裂属性,则信息增益率的计算公式如下:

S805:根据分裂属性和分裂点进行分裂以获取节点。

步骤S800除了上述内容外,还包括以下步骤:

S806:若循环获取节点过程中没有剩余属性特性可以进一步分类或者给定的分支没有元组,则停止该循环获取节点过程。

S900:由获得的若干标注了的节点形成决策树,并对决策树进行剪枝操作后判断用户自定义关系程度是否准确。

其中,对决策树进行剪枝操作具体包括以下步骤:

S901:计算每个标注节点剪枝前和剪枝后的代价复杂度,代价复杂度为树叶节点的个数和数误分类的元组所占比;

S902:比较两者代价复杂度的大小;

S903:选择较小的代价复杂度的方案判断用户自定义关系程度是否准确。

本发明相比于现有技术的有益效果在于:基于在线社交网络的真实数据所得到的结果,无需提出假设,具有很强的真实性和客观性,对爬取的数据进行目标特征信息提取和学习分类,能够有效的对用户关系进行关系强度估测,具有很强的精确性,此外,RFM模型在社交网络中的应用,能动态描绘出在线社交网络用户的互动强度和价值。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1