一种用户分类方法及服务器的制造方法_2

文档序号:9922292阅读:来源:国知局
施例提供的方案可以应用于服务器侧。
[0057]其中,所述针对用户的第一属性的分类模型中以用户的特征参数作为输入参数、以用户对应的第一属性的类别作为输出参数。
[0058]执行上述步骤101获取到具备第一属性的至少一个标注用户之前,所述方法还包括:
[0059]基于社交网络用户的历史服务数据,选取第一属性为第一类别的至少一个第一类初始用户;其中,所述第一属性中包括有第一类别以及第二类别,所述第一类别与所述第二类别不同;所述第一属性可以为用户的婚姻状态;相应的,所述第一属性对应的类别可以为两种,第一类别可以为已婚,第二类别可以为未婚;
[0060]基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;
[0061]基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户;
[0062]基于所述第一类初始用户以及第二类初始用户的历史服务数据,建立针对用户的第一属性的分类模型。
[0063]其中,所述选取第一属性为第一类别的至少一个第一类初始用户的方法可以包括:根据用户的历史服务数据,选取设置第一属性为第一类别的用户作为第一类初始用户。所述第一类别为已婚,相应的,第一类初始用户为已婚用户。这里,首先选取第一类初始用户是由于假设社交网络用户注册时填写的婚恋状态是准确的,只是存在一些长期未及时更新的问题,但是,对于“已婚”状态,一旦用户步入该状态,现实中基本不会改变,所以,我们可以认为是这个状态的下的数据非常准确。
[0064]基于上述操作,本实施例还提供了所述从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户,包括:
[0065]基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;
[0066]基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户。
[0067]对于负例的选择,随机策略可能导致Unlabeled data中存在本来应该是Positive而未被标注出来的数据,因为现实中已婚用户占比很高,所以,可以仅从与已知Positivedata差异比较大的数据中随机选取更为可靠的负例用来训练。这里可以通过样本特征(如兴趣偏好分布)之间的余弦相似度作为评判依据。
[0068]所述针对用户的第一属性的分类模型可以为一种二元分类器,用于判断是否“已婚”,采用Logisitic Regress1n(LR)机器学习算法,训练得到模型,即LR Model。
[0069]进一步地,所述获取到具备第一属性的至少一个标注用户,可以包括:
[0070]基于社交网络用户的历史服务数据,选取设置有第一属性的至少一个用户作为待处理用户;
[0071]基于所述针对用户的第一属性的分类模型对所述待处理用户进行分类得到针对所述待处理用户的分类结果;
[0072]确定所述待处理用户的第一属性与其对应的分类结果相同的概率,选取概率高于预设概率门限值的待处理用户作为标注用户。
[0073]所述第一属性中设置的内容可以基于用户的标签获得。所述设置有第一属性的至少一个用户中,用户针对第一属性进行设置时,可以存在多种设置内容,可能包含有:已婚、未婚、单身、有子女、新婚、恋爱中、订婚、分手、离异等多种内容;
[0074]相应的,在确定所述待处理用户的第一属性与其对应的分类结果相同的概率时,首先可以根据待处理用户的第一属性中设置的内容,为待处理用户选取对应的类别,比如,已婚的类别可以对应的第一属性中设置的内容有:已婚、新婚、有子女;未婚的类别对应的第一属性中设置的内容有:单身、未婚、恋爱中、订婚、分手以及离异等等。
[0075]优选地,本实施例在选取标注用户之后,还会进一步的保证训练数据的质量,进一步的对标注用户进行校准,具体的,所述选取概率高于预设概率门限值的待处理用户作为标注用户之后,所述方法还包括:
[0076]分别从至少一个维度获取到标注用户对应的历史服务数据;
[0077]基于所述至少一个维度的历史服务数据,对所述标注用户进行筛选,得到筛选后的标注用户。
[0078]其中,所述至少一个维度可以包括以下至少之一:用户浏览的预设类型网站的频率;用户加入的用户群的类型;用户操作的目标数据的类型;用户的预设类型的属性对应的内容。所述预设类型可以为婚恋类型的网站;用户群可以为单身群、母婴群等;操作的目标数据可以为相册中的照片类型。
[0079]比如,如经常浏览婚恋交友类网站的用户不能在非“单身”训练集中,经常活跃于母婴类群中的用户不能在非“已婚&育儿”训练集中,相册中包含婚纱照的用户不能出现在非“新婚&已婚”训练集中。
[0080]从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户,可以参见图2,也就是说,将至少一个第一类初始用户看作正例(Positive data),从刨除第一类初始用户后剩余的全部用户中随机选择预设比例第二类初始用户作为负例(Negative data),即未标注数据(Unlabeled data),基于第一类初始用户以及第二类初始用户作为训练数据建立并训练针对用户的第一属性的分类模型。
[0081]在图2的基础上,参见图3用于描述上述数据获取(Data Acquisit1n)的处理,具体为:对社交网络有婚恋填写状态的所有用户做分类预估,判断是否为“已婚”人群,概率为p(c I instance),保留满足如下条件的数据作为多分类候选训练数据集:
[0082]p(c = 0 instance,label = 0)>thresholdl
[0083]p(c = I I instance,label = I)>threshold2
[0084]其中,c是针对用户的第一属性的分类模型的预估类别,即基于用户的至少一种第二属性以及分类模型判断用户是否已婚;instance是待处理用户,label是instance标注的类别,即是否“已婚”。Threshold代表截断阈值,thresholdl用来保留预估为未婚的高概率人群,threshold〗用来保留预估为已婚的高概率人群。
[0085]进一步参见图4,数据校准(Data Calibrat1n):为了进一步保证训练数据质量,人工定义规则,对候选训练数据集做校正,如下:收集每个状态下高准确率的用户,如经常浏览婚恋交友类网站的用户不能在非“单身”训练集中,经常活跃于母婴类群中的用户不能在非“已婚&育儿”训练集中,相册中包含婚纱照的用户不能出现在非“新婚&已婚”训练集中,等等。小于18岁的用户只可能是“恋爱”或“单身”。据此,可以获取到大量带婚恋状态的用户标注数据集,用于模型的训练。
[0086]可见,通过采用上述方案,就能够基于历史服务数据获取到具备第一属性的至少一个标注用户,再基于至少一个维度的至少一种特征参数、以及标注用户的第一属性确定针对用户的第一属性的分类模型,根据所述分类模型为至少一个目标用户划分类别。如此,能够避免由于用户未填写的第一属性、或者填写第一属性过时,而导致的无法准确的为目标用户划分类别的问题。
[0087]实施例三、
[0088]本发明实施例提供了一种用户分类方法,如图1所示,所述方法包括:
[0089]步骤101:基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;其中,所述第一属性用于表征所述社交网络用户的婚恋状态;
[0090]步骤102:从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;
[0091]步骤103:基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
[0092]这里,本实施例提供的方案可以应用于服务器侧。
[0093]其中,所述针对用户的第一属性的分类模型中以用户的特征参数作为输入参数、以用户对应的第一属性的类别作为输出参数。
[0094]执行上述步骤101获取到具备第一属性的至少一个标注用户之前,所述方法还包括:
[0095]基于社交网络用户的历史服务数据,选取第一属性为第一类别的至少一个第一类初始用户;其中,所述第一属性中包括有第一类别以及第二类别,所述第一类别与所述第二类别不同;所述第一属性可以为用户的婚姻状态;相应的,所述第一属性对应的类别可以为两种,第一类别可以为已婚,第二类别可以为未婚;
[0096]基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;
[0097]基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户;
[0098]基于所述第一类初始用户以及第二类初始用户的历史服务数据,建立针对用户的第一属性的分类模型。
[0099]其中,所述选取第一属性为第一类别的至少一个第一类初始用户的方法可以包括:根据用户的历史服务数据,选取设置第一属性为第一类别的用户作为第一类初始用户。所述第一类别为已婚,相应的,第一类初始用户为已婚用户。这里,首先选取第一类初始用户是由于假设社交网络用户注册时填写的婚恋状态是准确的,只是存在一些长期未及时更新的问题,但是,对于“已婚”状态,一旦用户步入该状态,现实中基本不会改变,所以,我们可以认为是这个状态的下的数据非常准确。
[0100]其中,预设比例可以为根据实际情况进行设置,比如可以从剩余的用户中选取30%的用户作为第二类初始用户;或者,可以选取50%的用户作为第二类初始用户。
[0101]基于上述操作,本实施例还提供了所述从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1