一种用户分类方法及服务器的制造方法_5

文档序号:9922292阅读:来源:国知局
群。
[ΟΙ84] 进一步参见图4,数据校准(Data Calibrat1n):为了进一步保证训练数据质量,人工定义规则,对候选训练数据集做校正,如下:收集每个状态下高准确率的用户,如经常浏览婚恋交友类网站的用户不能在非“单身”训练集中,经常活跃于母婴类群中的用户不能在非“已婚&育儿”训练集中,相册中包含婚纱照的用户不能出现在非“新婚&已婚”训练集中,等等。小于18岁的用户只可能是“恋爱”或“单身”。据此,可以获取到大量带婚恋状态的用户标注数据集,用于模型的训练。
[0185]可见,通过采用上述方案,就能够基于历史服务数据获取到具备第一属性的至少一个标注用户,再基于至少一个维度的至少一种特征参数、以及标注用户的第一属性确定针对用户的第一属性的分类模型,根据所述分类模型为至少一个目标用户划分类别。如此,能够避免由于用户未填写的第一属性、或者填写第一属性过时,而导致的无法准确的为目标用户划分类别的问题。
[0186]实施例六、
[0187]本发明实施例提供了一种服务器,如图8所示,包括:
[0188]用户获取单元81,用于基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;其中,所述第一属性用于表征所述社交网络用户的婚恋状态;
[0189]模型建立单元82,用于从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;
[0190]分类单元83,用于基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
[0191]其中,所述针对用户的第一属性的分类模型中以用户的特征参数作为输入参数、以用户对应的第一属性的类别作为输出参数。
[0192]用户获取单元81,用于基于社交网络用户的历史服务数据,选取第一属性为第一类别的至少一个第一类初始用户;其中,所述第一属性中包括有第一类别以及第二类别,所述第一类别与所述第二类别不同;所述第一属性可以为用户的婚姻状态;相应的,所述第一属性对应的类别可以为两种,第一类别可以为已婚,第二类别可以为未婚;基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户;基于所述第一类初始用户以及第二类初始用户的历史服务数据,建立针对用户的第一属性的分类模型。
[0193]其中,所述选取第一属性为第一类别的至少一个第一类初始用户的方法可以包括:根据用户的历史服务数据,选取设置第一属性为第一类别的用户作为第一类初始用户。所述第一类别为已婚,相应的,第一类初始用户为已婚用户。这里,首先选取第一类初始用户是由于假设社交网络用户注册时填写的婚恋状态是准确的,只是存在一些长期未及时更新的问题,但是,对于“已婚”状态,一旦用户步入该状态,现实中基本不会改变,所以,我们可以认为是这个状态的下的数据非常准确。
[0194]其中,预设比例可以为根据实际情况进行设置,比如可以从剩余的用户中选取30%的用户作为第二类初始用户;或者,可以选取50%的用户作为第二类初始用户。
[0195]用户获取单元81,用于基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户。
[0196]对于负例的选择,随机策略可能导致Unlabeled data中存在本来应该是Positive而未被标注出来的数据,因为现实中已婚用户占比很高,所以,可以仅从与已知Positivedata差异比较大的数据中随机选取更为可靠的负例用来训练。这里可以通过样本特征(如兴趣偏好分布)之间的余弦相似度作为评判依据。
[0197]所述针对用户的第一属性的分类模型可以为一种二元分类器,用于判断是否“已婚”,采用Logisitic Regress1n(LR)机器学习算法,训练得到模型,即LR Model。
[0198]进一步地,用户获取单元81,用于基于社交网络用户的历史服务数据,选取设置有第一属性的至少一个用户作为待处理用户;基于所述针对用户的第一属性的分类模型对所述待处理用户进行分类得到针对所述待处理用户的分类结果;确定所述待处理用户的第一属性与其对应的分类结果相同的概率,选取概率高于预设概率门限值的待处理用户作为标注用户。
[0199]所述第一属性中设置的内容可以基于用户的标签获得。所述设置有第一属性的至少一个用户中,用户针对第一属性进行设置时,可以存在多种设置内容,可能包含有:已婚、未婚、单身、有子女、新婚、恋爱中、订婚、分手、离异等多种内容;
[0200]相应的,在确定所述待处理用户的第一属性与其对应的分类结果相同的概率时,首先可以根据待处理用户的第一属性中设置的内容,为待处理用户选取对应的类别,比如,已婚的类别可以对应的第一属性中设置的内容有:已婚、新婚、有子女;未婚的类别对应的第一属性中设置的内容有:单身、未婚、恋爱中、订婚、分手以及离异等等。
[0201]优选地,本实施例在选取标注用户之后,还会进一步的保证训练数据的质量,进一步的对标注用户进行校准,具体的,所述选取概率高于预设概率门限值的待处理用户作为标注用户之后,用户获取单元81,用于分别从至少一个维度获取到标注用户对应的历史服务数据;基于所述至少一个维度的历史服务数据,对所述标注用户进行筛选,得到筛选后的标注用户。
[0202]其中,所述至少一个维度可以包括以下至少之一:用户浏览的预设类型网站的频率;用户加入的用户群的类型;用户操作的目标数据的类型;用户的预设类型的属性对应的内容。所述预设类型可以为婚恋类型的网站;用户群可以为单身群、母婴群等;操作的目标数据可以为相册中的照片类型。
[0203]进一步地,用户婚恋状态分类器重点是用户特征抽取和分类算法设计。其中,抽取有效的特征是最为重要的。参见图5,其中,数据源表示所要进行特征提取的用户的数据,特征提取可以为根据至少一个维度进行特征提取,正态分布的特征表示,从提取的特征中选取相互之间不重合的特征。
[0204]本实施例针对用户的第一属性的分类模型的建立、训练以及调整进行说明,所述从至少一个维度获取到所述标注用户对应的至少一种特征参数,包括以下至少之一:
[0205]基于标注用户的历史服务数据获取到所述标注用户的基本属性参数;
[0206]基于标注用户的历史服务数据获取到所述标注用户针对目标数据的操作参数;
[0207]基于标注用户的历史服务数据获取到所述标注用户与除所述标注用户之外的其他用户之间的交互数据确定的交互特征参数。
[0208]主要可以如图6所示,包括以下几类:
[0209]人群属性(Demographics):用户基本属性信息,包括年龄、性别、职业、教育程度、消费习惯、家乡、常驻地等;
[0210]行为爱好(Behav1ral):用户商业兴趣和关键词Tag,挖掘来源包括群、广告点击、移动App、网页浏览等;
[0211]再营销规则(RemarketingRule):根据广告主提交上传的用户标识号码包生成的规则标识信息,还可以根据规则标识信息关联到广告信息。
[0212]进一步地,对上述至少一种特征参数进行说明:
[0213]所述标注用户的基本属性参数,包括以下至少之一:登录位置信息、登录时间段、加入预设名称的群组、以及在所述群组的交互频率;
[0214]所述标注用户针对目标数据的操作参数,至少包括:针对预设类型的目标信息的操作频率以及操作时段;
[0215]所述标注用户与除所述标注用户之外的其他用户之间的交互数据确定的交互特征参数,包括以下至少之一:所述其他用户的性别属性、所述其他用户与所述标注用户之间的交互频率、以及与所述其他用户的登录地址信息。
[0216]相应的,基于所述至少一个维度的历史服务数据,对所述标注用户进行筛选,得到筛选后的标注用户,可以为以下至少之一:
[0217]针对预设类型的目标信息的操作频率以及操作时段符合预设频率以及预设时间段的条件;比如,LBS行为:总活跃在校园中的年轻人更可能是单身或恋爱;在线时间段:总深夜在线用户更可能是未婚用户;好友分组名:是否包含特定称谓的分组,以及互动频率;
[0218]所述标注用户与除所述标注用户之外的其他用户之间的交互数据确定的交互特征参数满足预设条件;
[0219]比如,所述其他用户的性别属性与所述标注用户的性别属性不同,也就是说,所述标注用户经常与异性朋友聊天,更有可能是非单身用户,当然,还可以同时考虑所述标注用户与所述其他用户之间是否为相互均满足所述预设条件,也就是用来判断是否是对方的唯一交互对象;以及还可以判断其他用户是否为包含特定称谓的好友,以及两者之间的互动频率;
[0220]基于标注用户与其他用户的登录行为进行判断,比如,两个男女好友是否经常通过同一个IP登录,尤其区分晚上,周末,节假日;
[0221]另外,还可以获取到所述其他用户的婚恋状态:与联系较多的好友婚恋状态更可能一致。
[0222]基于针对预设类型的目标信息的操作频率以及操作时段,判断针对预设类型的目标信息的操作频率是否满足频率阈值,操作时段是否满足预设时段要求;
[0223]比如,相册分类:近期是否上传了新婚、育儿类相册;
[0224]或者,UGC动态:近期是否发表了情侣、新婚、育儿类的文字。
[0225]参见图7,在图5的基础上,可以根据特征配置从左侧提取出来的多个特征中选取一个或多个特征作为用户特征;再根据标注用户组成的标注数据以及用户特征进行匹配之后,得到训练数据以及测试数据;其中,训练数据和测试数据可以根据实际情况选取,比如可以每4个数据中选取一个作为测试数据剩下的作为
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1