基于随机森林的社交网络用户画像方法与流程

文档序号：12722296阅读：753来源：国知局

本发明涉及在线社会网络技术领域，特别涉及一种基于随机森林的社交网络用户画像方法。

背景技术：

在线社会网络的研究是近年来学术研究的重点领域，我国有着世界上规模最大的互联网网民，因此，在互联网的前期推广阶段和现阶段的使用过程中产生了大量的数据。绝大多数的数据资源被闲置，不能很好的处理和商业化应用，造成巨大的损失，同时也不利于社交网络的进一步发展，各大互联网公司纷纷投入巨大的财力和人力对在线社会关系领域开展一系列研究，把互联网的数据资源合理的开发和使用意义重大。

技术实现要素：

本发明提供一种基于随机森林的社交网络用户画像方法，目的在于采用随机森林模型，用于用户的属性标签划分，有效改进了传统的基于小样本抽样划分属性的不足和复杂度的问题。

为解决上述问题，本发明实施例提供一种基于随机森林的社交网络用户画像方法，具体包括如下步骤：

获取在线社交网站的多源属性数据；

将原始多源属性的数据属性集合进行原始属性标号，调用相似度函数对不同属性的数据属性集合遍历相似检测；

根据原始单层多源属性的决策树，将相似度满足阈值范围的数据属性集合合并生成合并属性标签后，采用随机森林算法训练样本；

获取投票众数，将获得的投票众数赋予权重，再按照权重的由大到小排序，获取全部的标签权重值；

保留预设阈值内的标签，形成新的标签属性集用于用户社交网络中属性的画像。

作为一种实施方式，还包括以下步骤：

设定最低检测终止阈值，当相似度小于最低检测终止阈值时，终止该集合的相似度检测。

作为一种实施方式，所述最低检测终止阈值为0.15。

作为一种实施方式，所述相似度函数为：

其中，α为相似度调节参数，α∈[0,1]，ω(x)代表标签相似度较高的两种属性函数。

作为一种实施方式，所述α取值为0.001。

作为一种实施方式，所述保留预设阈值内的标签，形成新的标签属性集用于用户社交网络中属性的画像步骤，具体包括以下步骤：

设定标签众数阈值,当随机森林算法获取的投票众数小于标签众数时，则认为该标签不具代表性，舍弃该标签；

将保留后的标签根据标签权重值由大到小排序，形成新的标签属性集。

作为一种实施方式，所述相似度阈值范围为[0.9,1]。

本发明相比于现有技术的有益效果在于：采用随机森林模型，用于用户的属性标签划分，有效改进了传统的基于小样本抽样划分属性的不足和复杂度的问题。

附图说明

图1为本发明的基于随机森林的社交网络用户画像方法的流程图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部实施例。

如图所示，一种基于随机森林的社交网络用户画像方法，具体包括如下步骤：

S100：获取在线社交网站的多源属性数据，将其导入数据存储系统；

S101：将原始多源属性的数据属性集合进行原始属性标号，调用相似度函数对不同属性的集合遍历相似检测，相似度函数为：

其中，其中，α为相似度调节参数，α∈[0,1]，ω(x)代表标签相似度较高的两种属性函数。但是实际中α取值一般非常小，依赖于样本的测试取值不断修正，根据实验结果表明当α提高一个数量级时，选择的特征非常少，而当α降低一个数量级时获取的数值几乎不变，因此，本实施例中α使用0.001；

S102：设定最低检测终止阈值，当相似度小于最低检测终止阈值时，终止该集合的相似度检测，其中，最低检测终止阈值为0.15；

S103：根据原始单层多源属性的决策树，将相似度满足阈值范围的集合合并生成合并属性标签后，采用随机森林算法训练样本，相似度阈值范围为[0.9,1]；

S104：获取投票众数，将获得的投票众数赋予权重，再按照权重的由大到小排序，获取全部的标签权重值；

S105：保留预设阈值内的标签，形成新的标签属性集用于用户社交网络中属性的画像，具体实施方式为：设定标签众数阈值,当随机森林算法获取的投票众数小于标签众数阈值时，则认为该标签不具代表性，舍弃该标签；将保留后的标签根据标签权重值由大到小排序，形成新的标签属性集，新的标签属性集用于社交网络的用户画像。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：琚春华;胡坤;鲍福光
技术所有人：浙江工商大学
我是此专利的发明人

上一篇：信息推送方法和装置与流程
上一篇：一种社交媒体账号影响力的判断方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。