1.一种在线社交网络用户关系强度预测方法,其特征在于,具体包括以下步骤:
获取用户状态更新及与好友间的互动数据;
根据RFM模型对用户和好友的互动数据进行目标特征信息的提取;
获取用户自定义关系程度信息;
对目标特征信息和用户自定义关系程度信息进行数据清理;
根据清理后的数据获得数据集;
根据数据集创建初始节点;
判断数据集中元组是否属于同一类;
若是,获取节点并进行标注;
若否,根据属性选择度量法,确定分裂属性和分裂点,依据分裂属性和分裂点进行分裂以获取节点,对获取的节点进行标注;
由获得的若干标注了的节点形成决策树,并对决策树进行剪枝操作后判断用户自定义关系程度是否准确。
2.根据权利要求1所述的在线社交网络用户关系强度预测方法,其特征在于,若在线社交网络为微博时,RFM模型的R值表示用户与好友最近一次互动时间,F值表示用户和好友互动频率,M值表示为用户更新状态后是否有传达好友。
3.根据权利要求1所述的在线社交网络用户关系强度预测方法,其特征在于,所述获取用户自定义关系程度信息步骤,包括以下步骤:
通过问卷形式对用户与好友的关系强度进行调查;
根据问卷结果将关系强度分为5类,分别为非常强关系、强关系、一般关系、弱关系、非常弱关系。
4.根据权利要求1所述的在线社交网络用户关系强度预测方法,其特征在于,还包括以下步骤:
依据目标特征信息对互动数据进行量化说明;
量化说明的方式通过对用户状态更新数据进行文本分析,提取文本中的相关信息,相关信息包括含有传达好友的信息、三个月内与好友的互动频率、三个月内与好友的互动频率的平均值以及与好友的最近一次互动的时间。
5.根据权利要求1所述的在线社交网络用户关系强度预测方法,其特征在于,所述对决策树进行剪枝操作步骤,具体包括以下步骤:
计算每个标注节点剪枝前和剪枝后的代价复杂度;
比较两者代价复杂度的大小;
选择较小的代价复杂度的方案判断用户自定义关系程度是否准确。
6.根据权利要求5所述的在线社交网络用户关系强度预测方法,其特征在于,所述代价复杂度为树叶节点的个数和数误分类的元组所占比。
7.根据权利要求1所述的在线社交网络用户关系强度预测方法,其特征在于,所述根据属性选择度量法,确定分裂属性和分裂点步骤,具体包括以下步骤:
用D1代表数据集中特征元组及对应类标号的合集;
计算数据集中元组的所有类所需的平均信息量,计算公式为:其中,Info(D1)表示数据集中元组的所有类所需的平均信息量,pi表示元组属于某一类特征的概率,m表示数据集内类的个数;
提取特征值,获取数据集按某属性特征划分后的需求信息量,若该属性特征为A属性特征,则数据集按A属性特征划分后的需求信息量表示为SplitInfoA(D1);
根据平均信息量和按某属性特征划分后的需求信息量计算信息增益,若该属性特征为A属性特征,则信息增益的计算公式为:
Gain(A)=Info(D1)-SplitInfo(D1);
根据信息增益和按某属性特征划分后的需求信息量计算信息增益率,选择信息增益率最大的属性特征作为分裂属性,若该属性特征为A属性特征,则信息增益率的
计算公式如下:
根据分裂属性和分裂点进行分裂以获取节点。
8.根据权利要求7所述的在线社交网络用户关系强度预测方法,其特征在于,所述提取特征值,获取数据集按某属性特征划分后的需求信息量步骤,具体包括以下步骤:
将提取的特征值按某属性特征的值以递增顺序排列;
若该属性特征为A属性特征时,选取相邻值的中点作为可能的分裂点,计算在该分裂点时数据集中按A属性特征划分后的需求信息量,SplitInfoA(D1)的计算公式为:
其中,D1j是D1的A属性特征的第j个值,j∈[1,v];
若该属性特征有v个值,则计算v-1个可能的分裂点相对应的需求信息量的值,选择最小的值作为真实数据集中按A属性特征划分后的需求信息量,该值对应的分裂点为A属性特征的真实分裂点。
9.根据权利要求1或7或8所述的在线社交网络用户关系强度预测方法,其特征在于,还包括以下步骤:
若循环获取节点过程中没有剩余属性特性可以进一步分类或者给定的分支没有元组,则停止该循环获取节点过程。