一种社交业务特征用户的识别方法和装置与流程

文档序号:12063719阅读:279来源:国知局
一种社交业务特征用户的识别方法和装置与流程
本申请涉及计算机的
技术领域
,特别是涉及一种社交业务特征用户的识别方法和一种社交业务特征用户的识别装置。
背景技术
:网络的迅猛发展将人们带入了信息社会和网络经济时代,对企业的发展和个人生活都产生了深刻的影响。为了提高服务的精确度,很多网站都对用户进行识别,针对群体的特性对群体中用户进行服务。例如,对体育爱好群体的用户提供最新的体育新闻,对动漫爱好群体的用户提供最新的动漫资讯等等。目前,用户的识别一般是通过用户行为之间的相似性进行聚类,行为相似的用户聚集在同一个群体中。一方面,这些识别用户的方法仅仅应用了某一种类型的行为数据进行聚类,数量较少,行为片面。另一方面,这些识别用户的方法仅仅集中在当前的时间内,而用户的行为是随着时间而发生变化的。综上,这些识别用户的方法识别精确度较低,无法识别潜在的部分用户。技术实现要素:鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种社交业务特征用户的识别方法和相应的一种社交业务特征用户的识别装置。为了解决上述问题,本申请实施例公开了一种社交业务特征用户的识别方法,包括:获取候选用户的用户数据,所述用户数据包括在第一时间段内关联的第 一社交属性数据和第一业务对象属性数据、在第二时间段内关联的第二社交属性数据和第二业务对象属性数据,所述第二时间段在所述第一时间段之前的一段时间;在部分候选用户中,根据所述第一社交属性数据挖掘社交业务特征用户;采用所述社交业务特征用户的第二社交属性数据和第二业务对象属性数据训练分类器;将近邻用户的第一社交属性数据和第一业务对象属性数据输入所述分类器中,输出所述近邻用户在所述第一时间段之后的一段时间是否为社交业务特征用户的结果,所述近邻用户为除所述社交业务特征用户之外的候选用户。可选地,所述在部分候选用户中,根据所述第一社交属性数据挖掘社交业务特征用户的步骤包括:从所述候选用户的第一社交属性数据中提取与业务处理相关的社交业务消息;采用所述社交业务消息识别社交业务特征用户。可选地,所述采用所述社交业务消息识别社交业务特征用户的步骤包括:按照图计算采用所述社交业务消息识别社交业务特征用户。可选地,所述采用所述社交业务特征用户的第二社交属性数据和第二业务对象属性数据训练分类器的步骤包括:从所述候选用户的第一社交属性数据和第一业务对象属性数据中,选取表征业务处理的第一社交业务特征数据和第一业务对象特征数据;从所述社交业务特征用户的第二社交属性数据和第二业务对象属性数据中,提取与所述第一社交业务特征数据和所述第一业务对象特征数据同类型的第二社交业务特征数据和第二业务对象特征数据;采用所述第二社交业务特征数据和所述第二业务对象特征数据训练分类器。可选地,所述采用所述社交业务特征用户的第二社交属性数据和第二业务对象属性数据训练分类器的步骤还包括:对所述社交业务特征用户的第二社交业务特征数据和第二业务对象特征数据进行特征转换;其中,所述特征转换包括以下的一种或多种:均值转换、方差转换、斜率转换、波峰波谷个数转换。可选地,所述采用所述社交业务特征用户的第二社交属性数据和第二业务对象属性数据训练分类器的步骤还包括:计算近邻用户的第一业务对象特征数据、与所述社交业务特征用户的第一业务对象特征数据之间的相似度;当所述相似度大于预设的相似度阈值时,将所述近邻用户的第一业务对象特征数据、与所述社交业务特征用户的第一业务对象特征数据进行合并。可选地,所述从所述候选用户的第一社交属性数据和第一业务对象属性数据中,选取表征业务处理的第一社交业务特征数据和第一业务对象特征数据的步骤包括:从所述候选用户的第一社交属性数据和第一业务对象属性数据中提取与业务处理相关的第一社交业务候选数据和第一业务对象候选数据;在所述第一社交候选数据和所述第一业务候选数据中,按照重要性进行排序;查找所述候选用户所属行业的选择规则;在排序后的第一社交业务候选数据和第一业务对象候选数据中,选取满足所述选择规则的第一社交业务特征数据和第一业务对象特征数据。可选地,所述将近邻用户的第一社交属性数据和第一业务对象属性数据输入所述分类器中,输出所述近邻用户在所述第一时间段之后的一段时间是否为社交业务特征用户的结果的步骤包括:将近邻用户的第一社交业务特征数据和第一业务对象特征数据输入所述分类器中,输出所述近邻用户在所述第一时间段之后的一段时间是否为社交业务特征用户的结果。可选地,所述将近邻用户的第一社交属性数据和第一业务对象属性数据输入所述分类器中,输出所述近邻用户在所述第一时间段之后的一段时间是否为社交业务特征用户的结果的步骤还包括:对近邻候选用户的第一社交业务特征数据和第一业务对象特征数据进行特征转换;其中,所述特征转换包括以下的一种或多种:均值转换、方差转换、斜率转换、波峰波谷个数转换。本申请实施还公开了一种社交业务特征用户的识别装置,包括:用户数据获取模块,用于获取候选用户的用户数据,所述用户数据包括在第一时间段内关联的第一社交属性数据和第一业务对象属性数据、在第二时间段内关联的第二社交属性数据和第二业务对象属性数据,所述第二时间段在所述第一时间段之前的一段时间;社交业务特征用户挖掘模块,用于在部分候选用户中,根据所述第一社交属性数据挖掘社交业务特征用户;分类器训练模块,用于采用所述社交业务特征用户的第二社交属性数据和第二业务对象属性数据训练分类器;社交业务特征用户识别模块,用于将近邻用户的第一社交属性数据和第一业务对象属性数据输入所述分类器中,输出所述近邻用户在所述第一时间段之后的一段时间是否为社交业务特征用户的结果,所述近邻用户为除所述社交业务特征用户之外的候选用户。可选地,所述社交业务特征用户挖掘模块包括:社交业务消息提取子模块,用于从所述候选用户的第一社交属性数据中提取与业务处理相关的社交业务消息;用户识别子模块,用于采用所述社交业务消息识别社交业务特征用户。可选地,所述用户识别子模块包括:图计算单元,用于按照图计算采用所述社交业务消息识别社交业务特征用户。可选地,所述分类器训练模块包括:特征数据选取子模块,用于从所述候选用户的第一社交属性数据和第一业务对象属性数据中,选取表征业务处理的第一社交业务特征数据和第一业务对象特征数据;特征数据提取子模块,用于从所述社交业务特征用户的第二社交属性数据和第二业务对象属性数据中,提取与所述第一社交业务特征数据和所述第一业务对象特征数据同类型的第二社交业务特征数据和第二业务对象特征数据;数据训练子模块,用于采用所述第二社交业务特征数据和所述第二业务对象特征数据训练分类器。可选地,所述分类器训练模块还包括:第一特征转换子模块,用于对所述社交业务特征用户的第二社交业务特征数据和第二业务对象特征数据进行特征转换;其中,所述特征转换包括以下的一种或多种:均值转换、方差转换、斜率转换、波峰波谷个数转换。可选地,所述分类器训练模块还包括:相似度计算子模块,用于计算近邻用户的第一业务对象特征数据、与所述社交业务特征用户的第一业务对象特征数据之间的相似度;数据合并子模块,用于在所述相似度大于预设的相似度阈值时,将所述近邻用户的第一业务对象特征数据、与所述社交业务特征用户的第一业务对象特征数据进行合并。可选地,所述特征数据选取子模块包括:候选数据提取单元,用于从所述候选用户的第一社交属性数据和第一业务对象属性数据中提取与业务处理相关的第一社交业务候选数据和第一业务对象候选数据;排序单元,用于在所述第一社交候选数据和所述第一业务候选数据中,按照重要性进行排序;选择规则查找单元,用于查找所述候选用户所属行业的选择规则;数据选取单元,用于在排序后的第一社交业务候选数据和第一业务对象候选数据中,选取满足所述选择规则的第一社交业务特征数据和第一业务对象特征数据。可选地,所述社交业务特征用户识别模块包括:数据输入子模块,用于将近邻用户的第一社交业务特征数据和第一业务对象特征数据输入所述分类器中,输出所述近邻用户在所述第一时间段之后的一段时间是否为社交业务特征用户的结果。可选地,所述社交业务特征用户识别模块还包括:第二特征转换子模块,用于对近邻候选用户的第一社交业务特征数据和第一业务对象特征数据进行特征转换;其中,所述特征转换包括以下的一种或多种:均值转换、方差转换、斜率转换、波峰波谷个数转换。本申请实施例包括以下优点:本申请实施例应用社交业务特征用户在第二时间段的第二社交属性数据和第二业务对象属性数据训练分类器,将近邻用户在第一时间段的第一社交属性数据和第一业务对象属性数据输入分类器中,预测近邻用户在一段时间之后是否为社交业务特征用户的结果,通过关联的社交属性数据与业务对象属性数据进行识别,增加了具有关联性的数据量,提高了分类器的精确度,进而提高了识别的精确度,此外,通过第二时间段内的数据训练分类器,使得分类器可以识别在第一时间段内潜在的社交业务特征用户。附图说明图1是本申请的一种社交业务特征用户的识别方法实施例的步骤流程图;图2是本申请的一种社交业务特征用户的识别装置实施例的结构框图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本申请作进一步详细的说明。参照图1,示出了本申请的一种社交业务特征用户的识别方法实施例的步骤流程图,具体可以包括如下步骤:步骤101,获取候选用户的用户数据;在具体实现中,本申请实施例可以应用于云计算平台,即服务器集群,如分布式系统,其存储了海量用户的业务对象,此外,该云计算平台可以与社交网络(如微博、论坛、博客等等)互通,即相同的用户具有业务对象及社交网络。在本申请实施例中,候选用户是相对于识别社交业务特征用户而言的,其本质也为用户,以用户标识进行在云计算平台上表征,即能够代表一个唯一确定的候选用户的信息,用户ID(Identity,身份标识号)、cookie、Mac(MediaAccessControl,媒体访问控制)地址等等。在本申请实施例中,云计算平台可以通过网站日志记录用户数据,存储在数据库中。其中,该用户数据可以包括社交属性数据,即在社交网络中产生的数据,以微博为例,社交属性数据包括个人数据、粉丝数据、状态数据、转发数据、点赞数据等等。除此之外,该用户数据还可以包括业务对象属性数据,即在业务对象进行业务处理时产生的数据。需要说明的是,在不同的领域中可以具有不同的业务对象,即体现该领域特性的数据。例如,在通信领域中,业务对象可以为通信数据;在新闻媒体领域中,业务对象可以为新闻数据;在搜索领域中,业务对象可以为网页;在电子商务(ElectronicCommerce,EC)领域中,业务对象可以为店铺数据,等等。在不同的领域中,虽然业务对象承载领域特性而有所不同,但其本质都是数据,例如,文本数据、图像数据、音频数据、视频数据等等,相对地,对业务对象的处理,本质都是对数据的处理。为使本领域技术人员更好地理解本申请实施例,在本申请实施例中,将店铺数据作为业务对象的一种示例进行说明。在此示例中,业务处理为营销,即业务对象属性数据包括店铺的基础数据(如店铺星级、店铺开店时长以及店铺成交情况等等)、买家特征数据(如买家年龄、性别等等)、商品特征数据(如商品图片质量、商品价格、商品评论等等)、行为数据(如收藏、浏览、加购、下单等等)等等。由于网站一般不断记录用户数据,其时间跨度比较长,通常以分库分表的形式存储。在本申请实施例中,选取其中两个时间段的用户数据,分别为第一时间段和第二时间段,第二时间段在第一时间段之前的一段时间。例如,若第一时间段为2015年9月,第二时间段则可以为2014年9月至2015年8月,则从第二时间段的起始时间至第一时间段的起始时间,两者之间相隔一年的时间。相对于用户数据,即用户数据可以包括在第一时间段内关联的第一社交属性数据和第一业务对象属性数据、在第二时间段内关联的第二社交属性数据和第二业务对象属性数据。其中,第一业务对象属性数据和第二业务对象属性数据为在业务对象进行业务处理时产生的数据。步骤102,在部分候选用户中,根据所述第一社交属性数据挖掘表征业务处理的社交业务特征用户;在本申请实施例中,可以预先从全部候选用户中选取部分候选用户,可以是人工选择的,可以是通过预设的条件过滤的,本申请实施例对此不加以限制。从该部分候选用户中,可以挖掘出表征业务处理的社交业务特征用户,即善于通过社交辅助业务处理的用户,作为分类器的训练样本。在电子商务领域中,业务处理为营销,则社交业务特征用户可以称之为社交营销达人,即善于通过社交辅助营销的用户。在本申请的一个实施例中,步骤102可以包括如下子步骤:子步骤S11,从所述候选用户的第一社交属性数据中提取与业务处理相关的社交业务消息;在具体实现中,可以结合社交网络的描述过滤候选用户的数据,一般的社交业务特征用户(如社交营销达人)多为知名认证用户,如明星、设计师或者论坛版主等,会具有较为明显的社交特征。通过文本挖掘挑选出与业务处理(如营销)相关的社交业务消息,如微博消息、朋友圈消息、论坛的帖、博客的博文等消息中,关于业务处理的消息,如发布新商品的消息、新商品的试玩消息等等。子步骤S12,采用所述社交业务消息识别社交业务特征用户。在具体实现中,可以按照图计算采用所述社交业务消息识别社交业务特征用户,通过图计算,如PageRank,发现社交网络中的“意见领袖”,即与一般用户有较多业务互动的用户,并对这些用户进行排序,选取排序最高的前N个候选用户,从而识别出是否为社交业务特征用户。此外,除了图计算之外,还可以采用其他方式识别社交业务特征用户,本申请实施例对此不加以限制。当然,为了更加精确识别出社交业务特征用户,可以请专门的技术人员进行人工审核,以提高分类器的精确度。步骤103,采用所述社交业务特征用户的第二社交属性数据和第二业务对象属性数据训练分类器;在具体实现中,可以定义从第二时间段的起始时间开始,一段时间t后,在第一时间段,某个用户成为社交业务特征用户(如社交营销达人)。以社交业务特征用户的第二社交属性数据和第二业务对象属性数据作为正样本,以非社交业务特征用户的第二社交属性数据和第二业务对象属性数据作为负样本,通过机器学习的方法训练分类器。在本申请的一个实施例中,步骤103可以包括如下子步骤:子步骤S21,从所述候选用户的第一社交属性数据和第一业务对象属性数据中,选取表征业务处理的第一社交业务特征数据和第一业务对象特征数据;在本申请实施例中,从海量的第一社交属性数据和第一业务对象属性数据中,筛选出最能够代表达人的第一社交业务特征数据和第一业务对象特征数据。在具体实现中,利用业务逻辑,从候选用户的第一社交属性数据和第一业务对象属性数据中提取与业务处理相关的第一社交业务候选数据和第一业务对象候选数据,做成数据池。以电子商务为例,卖家需要与买家进行互动,所以需要不断推出新品,而买家会收藏这些店铺确保不错过新的商品,此外,这些店铺习惯备多少货卖多少商品,动销率会很高,因此,达人会具有更高的动销率、上新商品数、收藏数等特征,可以从海量的数据中筛选出与动销率、上新商品数、买家收藏数等等与达人有关的特征。可以通过机器学习中特征选择的方法,如ROC或者相关系数等,在第一社交候选数据和第一业务候选数据中,按照重要性进行排序;由于不同行业有不同的特性,如女装行业圈女装行业的达人与男装行业圈男装行业的达人的特性不同,所以重要性也不会,因此,可以相同查找候选用户所属行业的选择规则;在排序后的第一社交业务候选数据和第一业务对象候选数据中,选取满足选择规则的第一社交业务特征数据和第一业务对象特征数据。其中,特征的重要性有一个量化的数据,因此,可以划定阈值,使用重要性大于0.7且小于0.9等选择规则筛选特征。子步骤S22,从所述社交业务特征用户的第二社交属性数据和第二业务对象属性数据中,提取与所述第一社交业务特征数据和所述第一业务对象特征数据同类型的第二社交业务特征数据和第二业务对象特征数据;由于以第二时间段的第二社交属性数据和第二业务对象属性数据中作为训练样本,因此,可以提取与筛选后的特征相同类型的第二社交业务特征数据和第二业务对象特征数据。子步骤S23,计算近邻用户的第一业务对象特征数据、与所述社交业务特征用户的第一业务对象特征数据之间的相似度;子步骤S24,当所述相似度大于预设的相似度阈值时,将所述近邻用户的第一业务对象特征数据、与所述社交业务特征用户的第一业务对象特征数据进行合并;在经过专门的技术人员人工审核是否为社交业务特征用户等情景下,社交业务特征用户的数量可能较少,如100个,因此,可以扩充社交业务特征用户的样本数,以便为识别做准备。扩充社交业务特征用户的过程中,可以采用相似过滤的方法,将第一业务对象特征数据进行归一化处理后,两两计算近邻用户与社交业务特征用户的第一业务对象特征数据的相似度,设定相似度阈值去除不相似的第一业务对象特征数据,合并第一业务对象特征数据后,结果即为扩充后的第一业务对象特征数据。以电子商务的店铺的成交、收藏为例:seller_id成交数量收藏数量100110000100100220000300将成交数量和收藏数量归一化到0到1的区间,即为:seller_id成交数量收藏数量10010.330.2510020.660.75利用cosine公式(夹角余弦),1001和1002两个卖家的相似度为(0.33*0.66+0.25*0.75)/(SQRT(0.33^2+0.25^2)*SQRT(0.66^2+0.75^2))。在获取第二社交业务特征数据和第二业务对象特征数据之后,可以以列表的形式输出,包括是否为社交业务特征用户、特征名称、值以及相对应的时间。样本号:1,特征1:XXX,特征2:XXX,……,特征n:XXX,是否达人:1,时间:YYYY-MM-DD样本号:2,特征1:XXX,特征2:XXX,……,特征n:XXX,是否达人:0,时间:YYYY-MM-DD样本号:3,特征1:XXX,特征2:XXX,……,特征n:XXX,是否达人:1,时间:YYYY-MM-DD子步骤S25,对所述社交业务特征用户和所述非社交业务特征用户的第二社交业务特征数据和第二业务对象特征数据进行特征转换;由于筛选出的特征为到第一时间段为止的时间序列中的特征,因此,可以进行特征转换,制作成特征宽表,特征转换可以包括以下的一种或多种:均值转换、方差转换、斜率转换、波峰波谷个数转换。例如,对于上述示例,转换的特征可以如下:样本号:1,特征1均值:10,特征1方差:2,特征1斜率:0.5,特征1波峰数:3,特征1波谷数:5,特征2均值:8,特征1方差:1,特征2斜率:0.9,特征1波峰数:2,特征1波谷数:7,……,是否t时间后为达人:1样本号:1,特征1均值:5,特征1方差:5,特征1斜率:1.2,特征1波峰数:10,特征1波谷数:8,特征2均值:2,特征1方差:4,特征2斜率:0.2,特征1波峰数:5,特征1波谷数:3,……,是否t时间后为达人:1所有的特征可以进行统一变换,只不过均值、方差、斜率、波峰个数、波谷个数可以选取7天,30天,90天等不同时间段。子步骤S26,采用所述第二社交业务特征数据和所述第二业务对象特征数据训练分类器。应用本申请实施例,可以预先设置训练器,用于学习各个维度的数据(即第二社交属性数据和第二业务对象属性数据)的逻辑关系,如支持向量机(SupportVectorMachine,SVM)、决策树(DecisionTree)、随机森林(RandomForest)等等,本申请实施例对此不加以限制。其中,支持向量机是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。随机森林,是用随机的方式建立一个森林,森林里面有很多的决策树组 成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。当然,为了进一步提高分类器的精确度,可以同时采用多种训练器训练分类器,选择在离线环境下表现最好的分类器。步骤104,将近邻用户的第一社交属性数据和第一业务对象属性数据输入所述分类器中,输出所述近邻用户在所述第一时间段之后的一段时间是否为社交业务特征用户的结果,其中,近邻用户为除社交业务特征用户之外的候选用户。在具体实现中,可以对近邻候选用户的第一社交业务特征数据和第一业务对象特征数据进行特征转换;其中,所述特征转换包括以下的一种或多种:均值转换、方差转换、斜率转换、波峰波谷个数转换。将近邻用户的第一社交业务特征数据和第一业务对象特征数据输入分类器中,输出近邻用户在所述第一时间段之后的一段时间是否为社交业务特征用户的结果,即预测近邻用户是否在第一时间段之后,经过一段时间,称为社交业务特征用户。以电子商务为例,若以社交营销达人在2015年9月(第一时间段)之前一年的数据训练分类器,则可以用该分类器识别近邻用户在2016年9月是否成为社交营销达人,若是,则该近邻用户可以称之为潜力社交营销达人。社交营销以其强大的成交爆发以及粉丝效应在电商平台中迅速成为一个快速增长且新颖的运营模式,具有互联网的快时尚且重社交的特征。与传统的低价营销模式不同,社交营销能够带来优质的流量以及极高的转化率,即使产品售价较高,依然能够在新品上架时即时售罄。目前有大量潜力社交营销达人由于社交力量较为薄弱,无法自己单独进行社交运营,因此,在识别潜力社交营销达人之后,可以帮助这些潜力社交营销达人在社交网络中定期组织活动,打造专业代运营机制,降低运营成本以加速销售量的提高。本申请实施例应用社交业务特征用户在第二时间段的第二社交属性数据和第二业务对象属性数据训练分类器,将近邻用户在第一时间段的第一社交属性数据和第一业务对象属性数据输入分类器中,预测近邻用户在一段时间之后是否为社交业务特征用户的结果,通过关联的社交属性数据与业务对象属性数据进行识别,增加了具有关联性的数据量,提高了分类器的精确度,进而提高了识别的精确度,此外,通过第二时间段内的数据训练分类器,使得分类器可以识别在第一时间段内潜在的社交业务特征用户。需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。参照图2,示出了本申请的一种社交业务特征用户的识别装置实施例的结构框图,具体可以包括如下模块:用户数据获取模块201,用于获取候选用户的用户数据,所述用户数据包括在第一时间段内关联的第一社交属性数据和第一业务对象属性数据、在第二时间段内关联的第二社交属性数据和第二业务对象属性数据,所述第二时间段在所述第一时间段之前的一段时间;社交业务特征用户挖掘模块202,用于在部分候选用户中,根据所述第一社交属性数据挖掘社交业务特征用户;分类器训练模块203,用于采用所述社交业务特征用户的第二社交属性数据和第二业务对象属性数据训练分类器;社交业务特征用户识别模块204,用于将近邻用户的第一社交属性数据和第一业务对象属性数据输入所述分类器中,输出所述近邻用户在所述第一时间段之后的一段时间是否为社交业务特征用户的结果,所述近邻用户为除所述社交业务特征用户之外的候选用户。在本申请的一个实施例中,所述社交业务特征用户挖掘模块202可以包括如下子模块:社交业务消息提取子模块,用于从所述候选用户的第一社交属性数据中提取与业务处理相关的社交业务消息;用户识别子模块,用于采用所述社交业务消息识别社交业务特征用户。在本申请的一个实施例中,所述用户识别子模块可以包括如下单元:图计算单元,用于按照图计算采用所述社交业务消息识别社交业务特征用户。在本申请的一个实施例中,所述分类器训练模块203可以包括如下子模块:特征数据选取子模块,用于从所述候选用户的第一社交属性数据和第一业务对象属性数据中,选取表征业务处理的第一社交业务特征数据和第一业务对象特征数据;特征数据提取子模块,用于从所述社交业务特征用户的第二社交属性数据和第二业务对象属性数据中,提取与所述第一社交业务特征数据和所述第一业务对象特征数据同类型的第二社交业务特征数据和第二业务对象特征数据;数据训练子模块,用于采用所述第二社交业务特征数据和所述第二业务对象特征数据训练分类器。在本申请的一个实施例中,所述分类器训练模块203还可以包括如下子模块:第一特征转换子模块,用于对所述社交业务特征用户的第二社交业务特征数据和第二业务对象特征数据进行特征转换;其中,所述特征转换包括以下的一种或多种:均值转换、方差转换、斜率转换、波峰波谷个数转换。在本申请的一个实施例中,所述分类器训练模块203还可以包括如下子模块:相似度计算子模块,用于计算近邻用户的第一业务对象特征数据、与所述社交业务特征用户的第一业务对象特征数据之间的相似度;数据合并子模块,用于在所述相似度大于预设的相似度阈值时,将所述近邻用户的第一业务对象特征数据、与所述社交业务特征用户的第一业务对象特征数据进行合并。在本申请的一个实施例中,所述特征数据选取子模块可以包括如下单元:候选数据提取单元,用于从所述候选用户的第一社交属性数据和第一业务对象属性数据中提取与业务处理相关的第一社交业务候选数据和第一业务对象候选数据;排序单元,用于在所述第一社交候选数据和所述第一业务候选数据中,按照重要性进行排序;选择规则查找单元,用于查找所述候选用户所属行业的选择规则;数据选取单元,用于在排序后的第一社交业务候选数据和第一业务对象候选数据中,选取满足所述选择规则的第一社交业务特征数据和第一业务对象特征数据。在本申请的一个实施例中,所述社交业务特征用户识别模块204可以包括如下子模块:数据输入子模块,用于将近邻用户的第一社交业务特征数据和第一业务对象特征数据输入所述分类器中,输出所述近邻用户在所述第一时间段之后的一段时间是否为社交业务特征用户的结果。在本申请的一个实施例中,所述社交业务特征用户识别模块204还可以包括如下子模块:第二特征转换子模块,用于对近邻候选用户的第一社交业务特征数据和第一业务对象特征数据进行特征转换;其中,所述特征转换包括以下的一种或多种:均值转换、方差转换、斜率转换、波峰波谷个数转换。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的 界定,计算机可读介质不包括非持续性的电脑可读媒体(transitorymedia),如调制的数据信号和载波。本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。以上对本申请所提供的一种社交业务特征用户的识别方法和一种社交业务特征用户的识别装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1