一种数据处理方法和装置与流程

文档序号：12278165阅读：229来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及数据处理技术领域，特别是涉及一种数据处理方法和一种数据处理装置。

背景技术：

应用程序(Application，APP)指的是各种客户端软件程序，用户在使用如智能手机、平板电脑以及笔记本电脑等终端时，通常可以安装各种应用程序，通过应用程序执行各种操作，如玩游戏、浏览网页、观看视频等。

第三方应用平台能够为用户提供应用，即用户可以在第三方应用平台中浏览应用，以及下载应用。

技术实现要素：

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法和相应的数据处理装置。

依据本发明实施例的一个方面，提供了一种数据处理方法，包括：基于用户对应用的操作行为计算不同用户之间的相似度；以用户为顶点，以两个用户之间的相似度为两个相邻顶点的边长，建立各用户之间的用户传播图；将已确定属性标签的用户作为源用户，将所述属性标签标注为所述源用户在所述用户传播图对应顶点的传播属性；将未确定属性标签的用户作为目标用户，按照所述用户传播图查找所述目标用户对应顶点的相邻顶点，依据所述相邻顶点的传播属性预测所述目标用户的属性标签。

可选的，所述基于用户对应用的操作行为计算不同用户之间的相似度，包括：基于用户对应用的操作行为确定用户向量，按照两个用户向量之间的距离计算对应两个用户之间的相似度。

可选的，所述操作行为包括：浏览行为和下载行为；所述基于用户对应用的操作行为确定用户向量，按照两个用户向量之间的距离计算对应两个用户之间的相似度，包括：基于用户对应用的下载行为确定第一向量，以及基于用户对应用的浏览行为确定第二向量；选取两个用户，按照操作行为分别计算所述两个用户对应第一向量之间的第一距离，以及第二向量之间的第二距离；按照权重对所述第一距离和第二距离进行加权求和，确定所述两个用户之间的相似度。

可选的，还包括：基于用户对应用的操作行为确定所述用户在每个属性维度下的属性倾向信息，其中，所述属性倾向信息包括：所述属性维度对应的各类别和每个类别的属性倾向值；按照属性倾向信息确定所述用户在每个属性维度的属性向量，将各属性向量作为所述用户的属性标签。

可选的，按照所述用户传播图查找所述目标用户对应顶点的相邻顶点，包括：确定目标用户在所述用户传播图中对应的顶点；在所述用户传播图中查找所述目标用户对应顶点的相邻顶点，其中，所述相邻顶点的传播属性中标注有属性标签。

可选的，依据所述相邻顶点的传播属性预测所述目标用户的属性标签，包括：按照所述目标用户对应顶点与相邻顶点之间的相似度，将所述相邻顶点的属性标签传播给所述目标用户对应顶点，预测所述目标用户的属性标签。

可选的，还包括：基于所述属性标签为用户推送推荐信息，其中，所述推荐信息包括：与所述属性标签匹配的应用。

根据本发明的另一个方面，还提供了一种数据处理装置，包括：相似度计算模块，用于基于用户对应用的操作行为计算不同用户之间的相似度；传播图建立模块，用于以用户为顶点，以两个用户之间的相似度为两个相邻顶点的边长，建立各用户之间的用户传播图；传播属性标注模块，用于将已确定属性标签的用户作为源用户，将所述属性标签标注为所述源用户在所述用户传播图对应顶点的传播属性；属性标签预测模块，用于将未确定属性标签的用户作为目标用户，按照所述用户传播图查找所述目标用户对应顶点的相邻顶点，依据所述相邻顶点的传播属性预测所述目标用户的属性标签。

可选的，所述相似度计算模块，用于基于用户对应用的操作行为确定用户向量，按照两个用户向量之间的距离计算对应两个用户之间的相似度。

可选的，所述操作行为包括：浏览行为和下载行为；所述相似度计算模块，包括：向量确定子模块，用于基于用户对应用的下载行为确定第一向量，以及基于用户对应用的浏览行为确定第二向量；距离计算子模块，用于选取两个用户，按照操作行为分别计算所述两个用户对应第一向量之间的第一距离，以及第二向量之间的第二距离；相似度确定子模块，用于按照权重对所述第一距离和第二距离进行加权求和，确定所述两个用户之间的相似度。

可选的，还包括：属性标签预确定模块，用于基于用户对应用的操作行为确定所述用户在每个属性维度下的属性倾向信息，其中，所述属性倾向信息包括：所述属性维度对应的各类别和每个类别的属性倾向值；按照属性倾向信息确定所述用户在每个属性维度的属性向量，将各属性向量作为所述用户的属性标签。

可选的，所述属性标签预测模块，包括：顶点查找子模块，用于确定目标用户在所述用户传播图中对应的顶点；在所述用户传播图中查找所述目标用户对应顶点的相邻顶点，其中，所述相邻顶点的传播属性中标注有属性标签。

可选的，所述属性标签预测模块，包括：预测子模块，用于按照所述目标用户对应顶点与相邻顶点之间的相似度，将所述相邻顶点的属性标签传播给所述目标用户对应顶点，预测所述目标用户的属性标签。

可选的，还包括：推荐模块，用于基于所述属性标签为用户推送推荐信息，其中，所述推荐信息包括：与所述属性标签匹配的应用。

用户对应用的操作能够体现出用户的特征从而确定不同用户之间的相似度，从而以用户为顶点以两个相邻顶点的边长构建用户传播图，基于用户传播图中已确定属性标签的源用户，预测相邻顶点对应目标用户的属性标签，采用属性标签标注用户的特征，通过用户传播图提高用户特征的标注效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的数据处理方法实施例的步骤流程图；

图2示出了根据本发明另一个实施例的数据处理方法实施例的步骤流程图；

图3示出了根据本发明一个实施例的数据处理装置实施例的结构框图；

图4示出了根据本发明另一个实施例的数据处理装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

参照图1，示出了根据本发明一个实施例的数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102，基于用户对应用的操作行为计算不同用户之间的相似度。

用户在使用终端，通常会安装各种应用程序(简称应用)执行各种操作，因此会登录第三方应用平台进行应用的下载，第三方应用平台上可以记录用户对应用的各种操作行为，例如浏览使用应用，又如下载应用等。基于用户对应用的操作行为计算不同用户之间的相似度，即按照用户操作的相似性，如是否下载或浏览相同的应用，可以确定任意两个用户之间的相似度。

步骤104，以用户为顶点，以两个用户之间的相似度为两个相邻顶点的边长，建立各用户之间的用户传播图。

本实施例中，按照用户对应用的操作行为可能确定出用户自身的特征，例如用户的性别、年龄等，这些特征可以通过属性标签表示。但不是所有的用户都已经确定了属性标签，因此，为了预测用户的属性标签，可以建立用户传播图以标识不同用户之间的关系，从而基于具有属性标签的用户预测其他用户的属性标签。以用户为顶点V，对于相邻两个顶点之间的边的边长E，可以按照相邻两个顶点对应用户之间的相似度表示，即将相似度作为边长从而创建用户传播图G＝{V,E}。

其中，在创建用户传播图时，确定一个顶点后，可以按照该顶点对应用户与其他用户之间的相似度确定相邻顶点，例如设置一边长阈值，相似度超过该边长阈值对应用户可以作为相邻顶点的用户，同时可以确定出这两个相邻顶点之间的边长。

步骤106，将已确定属性标签的用户作为源用户，将所述属性标签标注为所述源用户在所述用户传播图对应顶点的传播属性。

步骤108，将未确定属性标签的用户作为目标用户，按照所述用户传播图查找所述目标用户对应顶点的相邻顶点，依据所述相邻顶点的传播属性预测所述目标用户的属性标签。

在构建完用户传播图后，图中有些顶点对应的用户已确定出属性标签，而有些顶点对应用户未确定属性标签，将已确定属性标签的用户作为源用户，未确定属性标签的用户作为目标用户。

确定源用户在用户传播图对应的顶点，将所述源用户的属性标签标注为所述顶点的传播属性。在用户传播图中属性标签可以依据相似度进行传播，因此对于目标用户，在用户传播图中查找目标用户对应的顶点及其相邻顶点，该相邻顶点对应用户为源用户，即是属性标签已确定的用户，则可以依据相邻顶点对应源用户的属性标签预测目标用户的属性标签。

综上，用户对应用的操作能够体现出用户的特征从而确定不同用户之间的相似度，从而以用户为顶点以两个相邻顶点的边长构建用户传播图，基于用户传播图中已确定属性标签的源用户，预测相邻顶点对应目标用户的属性标签，采用属性标签标注用户的特征，通过用户传播图提高用户特征的标注效率。

实施例二

在上述实施例的基础上，本实施例详细论述基于用户传播图的属性特征传播预测的步骤。

参照图2，示出了根据本发明另一个实施例的数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤202，基于用户对应用的操作行为确定所述用户在每个属性维度下的属性倾向信息。

步骤204，按照属性倾向信息确定所述用户在每个属性维度的属性向量，将各属性向量作为所述用户的属性标签。

上述提到用户的操作行为表征用户的特征，用户特征的一种表示方式是人口属性，即人口所固有的性质和特点，包括生物属性和社会属性两个方面。生物属性是社会属性的自然条件，并通过社会属性来实现；社会属性是人口区别于生物群体的根本标志。依据划分方式不同，人口属性对应多种不同的维度，例如上述生物属性和社会属性可以是人口属性的两个属性维度，又如生物属性下可以包括性别维度，而社会属性下可以包括人生阶段维度、职业维度等，可以依据需求划分人口属性的维度。且每个维度还可以对应一定的类别，如性别维度包括男性和女性。

因此不同属性维度具有不同的类别，由于同一类用户对应用的下载和浏览往往存在一定的共性，例如，男性用户往往会下载军事类应用，而女性通常会下载购物类应用，正在上学的用户通常会下载词典等工具类因公，而老年用户多使用养生类应用。因此基于用户对应用的操作行为可以识别用户在每个属性维度下的属性倾向，可以采用属性倾向信息表示，则属性倾向信息包括：所述属性维度对应的各类别和每个类别的属性倾向值。

例如，将人口属性倾向规则配置为：标题中包含“武器”的APP的男性倾向分数为0.9，女性倾向分数为0.1；标题中包含“美妆”的APP的女性倾向分数为0.9，男性倾向分数为0.1；APP的描述信息中包含“经期”的APP的女性倾向分数为0.9，男性倾向分数为0.1。

本实施例可以提取各种APP的标题以及简介的各种描述信息，按照该人口属性倾向规则对所述描述信息进行分析，可以采用模型训练等各种分析方式，建立相应的属性倾向判别系统，该属性倾向判别系统可以包括上千条领域规则和APP人口属性倾向规则。还可以包括相应的判定模型等，从而针对未分析过的应用，只需提取其描述信息按照人口属性倾向规则进行分析，即可识别该应用在在各维度的每个类别下的属性倾向值。按照属性倾向信息确定所述用户在每个属性维度的属性向量，将各属性向量作为所述用户的属性标签。

其中，按照人口属性倾向规则不同，人口属性的维度也存在差别，本实施例中维度包括以下至少一种：性别维度、年龄维度、学历维度、购买力维度、职业维度和人生阶段维度。每个维度下可以包括至少两个类别，例如性别维度包括：男性和女性。其中各维度下划分标准不同，包含的类别也不同，例如人生阶段维度包括“正在读中小学”、“正在读大学”、“参加工作”、“准备结婚”、“准备生育”等，年龄维度包括：未成年、成年。可以将一个维度下各类别的属性倾向值的和设为1，即男性的倾向值加上女性的倾向值为1，又如“正在读中小学”、“正在读大学”、“参加工作”、“准备结婚”和“准备生育”各自的倾向值累加后为1。

第三方应用中部分用户已经依据对应用的操作行为确定出了属性标签，例如，性别维度有“男性”、“女性”2种，则该性别维度对应用户的属性标签通过2维向量[dim1,dim2]表示，每一维依次对应“男性”、“女性”，当某用户的实际向量为[0.9,0.1]时，表示该用户是男性的分数为0.9，是女性的分数为0.1。又如，人生阶段维度包括“正在读中小学”、“正在读大学”、“参加工作”、“准备结婚”、“准备生育”共5种类别，人生阶段维度对应用户属性标签通过5维向量[dim1,dim2,dim3,dim4,dim5]表示，每一维依次对应“正在读中小学”、“正在读大学”、“参加工作”、“准备结婚”、“准备生育”。当某用户的实际向量为[0,1.0,0,0,0]时，表示该用户正在读大学。

步骤206，基于用户对应用的操作行为确定用户向量，按照两个用户向量之间的距离计算对应两个用户之间的相似度。

用户在第三方应用平台中对应用进行浏览下载等会产生相应的操作行为信息，依据操作行为信息生成相应的用户向量，然后计算两个用户对应用户向量之间的距离作为这两个用户的相似度，本实施例中相似度可以介于[0,1]之间。

本发明一个可选实施例中，所述操作行为包括：浏览行为和下载行为；所述基于用户对应用的操作行为确定用户向量，按照两个用户向量之间的距离计算对应两个用户之间的相似度，包括：基于用户对应用的下载行为确定第一向量，以及基于用户对应用的浏览行为确定第二向量；选取两个用户，按照操作行为分别计算所述两个用户对应第一向量之间的第一距离，以及第二向量之间的第二距离；按照权重对所述第一距离和第二距离进行加权求和，确定所述两个用户之间的相似度。

本实施例中，例如将第三方应用平台中的每个应用作为用户向量中的一位，按照操作行为区别不同的用户向量，因此基于用户对应用的下载行为确定第一向量，以及基于用户对应用的浏览行为确定第二向量。例如第三方应用平台中包括N个应用，N为正整数。则第一向量和第二向量均为N维向量，如第一向量和第二向量可以表示如(0,1,1,0,0,1……)，对于每个用户，第一向量中各维数值若为0表征未下载该应用，若置为1表征已下载该应用；同理，对于第二向量中各维数值若为0表征未浏览该应用，若置为1表征已浏览该应用。本实施例中还可以按照下载次数进行向量值的配置，如下载两次则对应向量中该维数值为2，其中下载多次可以是针对一种应用卸载后重新安装的下载，也可以是对应用升级更新的下载。

然后选取两个用户，按照操作行为进行区分，即计算两个用户对应第一向量之间的第一距离，以及计算两个用户对应第二向量之间的第二距离，其中对两个向量之间距离的计算方法有多种，例如采用余弦距离，又如采用欧氏距离，Jaccard距离等，实施例未一一列举不应理解为是对本发明的限制。

实际处理中，下载行为和浏览行为对用户而言存在区别的，因此可以对下载行为和浏览行为设置不同的权重，假设下载行为设置第一权重，浏览行为设置第二权重，按照权重对所述第一距离和第二距离进行加权求和，即按照第一权重对第一距离进行加权得到第一加权值，按照第二权重对第二距离进行加权得到第二加权值，然后将第一加权值和第二加权值相加求和确定和值，将该和值作为所述两个用户之间的相似度。

以采用余弦距离计算向量之间的距离为例，则两个用户之间的相似度为计算公式(1)如下：

similarity(user1,user2)

＝cos〈vector_download_user1,vector_download_user2〉*weight_download (1)

+cos〈vector_browse_user1,vector_browse_user2〉*weight_browse

上述公式(1)中：vector_download_user1表示网民user1在下载APP行为上的第一向量，向量的每一维对应一个APP，取值0表示未下载该APP，取值1表示已下载该APP。vector_download_user2类似，表示网民user2在下载APP行为上的第二向量。vector_browse_user1和vector_browse_user2则分别表示网民user1和user2在浏览APP行为上的第二向量。运算符”cos〈vector1,vector2〉表示2个向量的夹角余弦。

下载行为的第一权重通过weight_download控制，浏览行为的第二权重通过weight_browse来控制。通常可以认为下载行为的意图更明确，即行为力度更重，数据可靠性更好，因此可以设置weight_download>。因此，当设置weight_download＝1，weight_browse＝0时，表征只考虑下载行为，反之，设置为weight_browse＝0，weight_download＝0则表征只考虑浏览行为。

通过上述方式可以基于向量计算任意两个用户之间的相似度。

步骤208，以用户为顶点，以两个用户之间的相似度为两个相邻顶点的边长，建立各用户之间的用户传播图。

步骤210，将所述属性标签标注为所述源用户在所述用户传播图对应顶点的传播属性。

本实施例中，将已确定属性标签的用户作为源用户，将未确定属性标签的用户作为目标用户。在构建完用户传播图后，确定源用户在用户传播图对应的顶点，将所述源用户的属性标签标注为所述顶点的传播属性。

步骤212，确定目标用户在所述用户传播图中对应的顶点。

步骤214，在所述用户传播图中查找所述目标用户对应顶点的相邻顶点，其中，所述相邻顶点的传播属性中标注有属性标签。

步骤216，按照所述目标用户对应顶点与相邻顶点之间的相似度，将所述相邻顶点的属性标签传播给所述目标用户对应顶点，预测所述目标用户的属性标签。

在用户传播图中查找目标用户对应的顶点，然后查找该顶点的各相邻顶点，检测该相邻顶点的传播属性是否标注有属性标签，若相邻顶点标注有属性标签，则该相邻顶点为目标相邻顶点，即能够依据相似度传播属性标签的相邻顶点，按照所述目标用户对应顶点与目标相邻顶点之间的相似度，将所述相邻顶点的属性标签传播给所述目标用户对应顶点，预测所述目标用户的属性标签。

本实施例中，每个顶点的属性标签能够按照相似度传播给相邻顶点，在顶点传播的每一步，每个顶点根据相邻顶点的属性标签来更新自己的属性标签，与该顶点相似度越大，其相邻顶点对其标注的影响权值越大，相似顶点的标签越趋于一致，其标签就越容易传播。在标签传播过程中，保持已标注数据的属性标签不变，使其像一个源头把属性标签传向未标注的顶点。从而当迭代过程结束时，相似顶点的概率分布也趋于相似，可以划分到同一个类别中，从而完成标签传播过程。

例如采用如下公式实现属性标签在相邻顶点之间传播。

上述公式(2)(3)中，V表示用户传播图的顶点集，V^l表示在已标注属性标签的顶点集，V\V^l表示在未标注属性标签的顶点集，N(u_i)表示顶点u_i的相邻顶点集。ω_ij表示顶点u_i和顶点u_j之间的边权重，即上述相似度。q_i表示顶点u_i的属性标签分布，是上述公式的训练模型需要学习的参数，q_i(x)表示顶点u_i在属性标签x的分数。r_i表示在上述标注好属性标签的顶点集中的顶点u_i的属性标签分布。U表示维度下各属性标签的均匀分布。λ是正则项系数。

上述公式计算的损失函数Cost(q)由2项组成，前一项用平方损失表示相邻顶点的属性标签分布差异，后一项是正则项，表示属性标签分布与均匀分布的差异。因此，上述目标函数是关于q的凸函数。

对于上述公式，可以采用简单迭代法(simple iterative method)来求解，迭代公式如下：

通过上述各公式可以实现在用户传播图中，按照相邻顶点的相似度对属性标签进行传播，预测所述目标用户的属性标签，从而对于第三应用平台中的各用户，例如新用户可以基于用户在该应用平台中的浏览、下载的行为确定相似度将其作为顶点加入到用户传播图中，从而依据其相邻顶点的属性标签预测该用户对应顶点的属性标签，基于该属性标签确定用户的人口属性。

步骤218，基于所述属性标签为用户推送推荐信息，其中，所述推荐信息包括：与所述属性标签匹配的应用。

用户使用或下载上述应用的过程中通常隐含着一定特征，即同一人口属性类别的用户下载应用时具有共性上述挖掘用户的人口属性以及下载应用的人口属性分布后，可以为APP的推荐提供良好的数据基础。本实施例通过记录有用户的浏览或下载行为的日志数据确定用户的人口属性，从而基于人口属性为用户推荐APP，提高APP个性化推荐、用户属性分析等业务的准确性。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

在上述实施例的基础上，本实施例还提供了一种数据处理装置。

参照图3，示出了根据本发明一个实施例的数据处理装置实施例的结构框图，具体可以包括如下模块：

相似度计算模块302，用于基于用户对应用的操作行为计算不同用户之间的相似度。

传播图建立模块304，用于以用户为顶点，以两个用户之间的相似度为两个相邻顶点的边长，建立各用户之间的用户传播图。

传播属性标注模块306，用于将已确定属性标签的用户作为源用户，将所述属性标签标注为所述源用户在所述用户传播图对应顶点的传播属性。

属性标签预测模块308，用于将未确定属性标签的用户作为目标用户，按照所述用户传播图查找所述目标用户对应顶点的相邻顶点，依据所述相邻顶点的传播属性预测所述目标用户的属性标签。

参照图4，示出了根据本发明另一个实施例的数据处理装置实施例的结构框图，具体可以包括如下模块：

属性标签预确定模块410，用于基于用户对应用的操作行为确定所述用户在每个属性维度下的属性倾向信息，其中，所述属性倾向信息包括：所述属性维度对应的各类别和每个类别的属性倾向值；按照属性倾向信息确定所述用户在每个属性维度的属性向量，将各属性向量作为所述用户的属性标签。

相似度计算模块402，用于基于用户对应用的操作行为计算不同用户之间的相似度。

传播图建立模块404，用于以用户为顶点，以两个用户之间的相似度为两个相邻顶点的边长，建立各用户之间的用户传播图。

传播属性标注模块406，用于将已确定属性标签的用户作为源用户，将所述属性标签标注为所述源用户在所述用户传播图对应顶点的传播属性。

属性标签预测模块408，用于将未确定属性标签的用户作为目标用户，按照所述用户传播图查找所述目标用户对应顶点的相邻顶点，依据所述相邻顶点的传播属性预测所述目标用户的属性标签。

推荐模块412，用于基于所述属性标签为用户推送推荐信息，其中，所述推荐信息包括：与所述属性标签匹配的应用。

本发明一个可选实施例中，所述相似度计算模块402，用于基于用户对应用的操作行为确定用户向量，按照两个用户向量之间的距离计算对应两个用户之间的相似度。

所述操作行为包括：浏览行为和下载行为；所述相似度计算模块402，包括：向量确定子模块40202，用于基于用户对应用的下载行为确定第一向量，以及基于用户对应用的浏览行为确定第二向量；距离计算子模块40204，用于选取两个用户，按照操作行为分别计算所述两个用户对应第一向量之间的第一距离，以及第二向量之间的第二距离；相似度确定子模块40206，用于按照权重对所述第一距离和第二距离进行加权求和，确定所述两个用户之间的相似度。

所述属性标签预测模块408，包括：

顶点查找子模块40802，用于确定目标用户在所述用户传播图中对应的顶点；在所述用户传播图中查找所述目标用户对应顶点的相邻顶点，其中，所述相邻顶点的传播属性中标注有属性标签。

预测子模块40804，用于按照所述目标用户对应顶点与相邻顶点之间的相似度，将所述相邻顶点的属性标签传播给所述目标用户对应顶点，预测所述目标用户的属性标签。

基于所述属性标签可以确定用户属性倾向信息，从而基于用户在各应用统计的属性倾向信息可以确定该用户的人口属性，如性别、年龄、学历、购买力、职业度和人生阶段等各种生物和社会特征，从而可以基于该人口属性统计分析各种数据，还可以应用于各种领域，例如统计分析某一应用下载的人口类型分布，又如在用户的第三方应用平台浏览或下载目标应用时，可以基于该用户的人口属性，为用户推荐该处于该人口属性的类别的用户下载量加大的应用，从而使得推荐更加符合用户需求也更有针对性。还可以基于用户的人口属性为其推荐符合用户需求的广告数据使其更加符合用户的需求。用户使用或下载上述应用的过程中通常隐含着一定特征，即同一人口属性类别的用户下载应用时具有共性，上述挖掘用户的人口属性以及下载应用的人口属性分布后，可以为APP的推荐提供良好的数据基础。本实施例通过记录有用户的浏览或下载行为的日志数据确定用户的人口属性，从而基于人口属性为用户推荐APP，提高APP个性化推荐、用户属性分析等业务的准确性。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的数据处理方法和装置设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A1、一种数据处理方法，包括：基于用户对应用的操作行为计算不同用户之间的相似度；以用户为顶点，以两个用户之间的相似度为两个相邻顶点的边长，建立各用户之间的用户传播图；将已确定属性标签的用户作为源用户，将所述属性标签标注为所述源用户在所述用户传播图对应顶点的传播属性；将未确定属性标签的用户作为目标用户，按照所述用户传播图查找所述目标用户对应顶点的相邻顶点，依据所述相邻顶点的传播属性预测所述目标用户的属性标签。

A2、如A1所述的方法，所述基于用户对应用的操作行为计算不同用户之间的相似度，包括：基于用户对应用的操作行为确定用户向量，按照两个用户向量之间的距离计算对应两个用户之间的相似度。

A3、如A2所述的方法，所述操作行为包括：浏览行为和下载行为；所述基于用户对应用的操作行为确定用户向量，按照两个用户向量之间的距离计算对应两个用户之间的相似度，包括：基于用户对应用的下载行为确定第一向量，以及基于用户对应用的浏览行为确定第二向量；选取两个用户，按照操作行为分别计算所述两个用户对应第一向量之间的第一距离，以及第二向量之间的第二距离；按照权重对所述第一距离和第二距离进行加权求和，确定所述两个用户之间的相似度。

A4、如A1所述的方法，还包括：基于用户对应用的操作行为确定所述用户在每个属性维度下的属性倾向信息，其中，所述属性倾向信息包括：所述属性维度对应的各类别和每个类别的属性倾向值；按照属性倾向信息确定所述用户在每个属性维度的属性向量，将各属性向量作为所述用户的属性标签。

A5、如A4所述的方法，按照所述用户传播图查找所述目标用户对应顶点的相邻顶点，包括：确定目标用户在所述用户传播图中对应的顶点；在所述用户传播图中查找所述目标用户对应顶点的相邻顶点，其中，所述相邻顶点的传播属性中标注有属性标签。

A6、如A5所述的方法，依据所述相邻顶点的传播属性预测所述目标用户的属性标签，包括：按照所述目标用户对应顶点与相邻顶点之间的相似度，将所述相邻顶点的属性标签传播给所述目标用户对应顶点，预测所述目标用户的属性标签。

A7、如A1至A6任一所述的方法，还包括：基于所述属性标签为用户推送推荐信息，其中，所述推荐信息包括：与所述属性标签匹配的应用。

本发明实施例还公开了B8、一种数据处理装置，包括：相似度计算模块，用于基于用户对应用的操作行为计算不同用户之间的相似度；传播图建立模块，用于以用户为顶点，以两个用户之间的相似度为两个相邻顶点的边长，建立各用户之间的用户传播图；传播属性标注模块，用于将已确定属性标签的用户作为源用户，将所述属性标签标注为所述源用户在所述用户传播图对应顶点的传播属性；属性标签预测模块，用于将未确定属性标签的用户作为目标用户，按照所述用户传播图查找所述目标用户对应顶点的相邻顶点，依据所述相邻顶点的传播属性预测所述目标用户的属性标签。

B9、如B8所述的装置，所述相似度计算模块，用于基于用户对应用的操作行为确定用户向量，按照两个用户向量之间的距离计算对应两个用户之间的相似度。

B10、如B9所述的装置，所述操作行为包括：浏览行为和下载行为；所述相似度计算模块，包括：向量确定子模块，用于基于用户对应用的下载行为确定第一向量，以及基于用户对应用的浏览行为确定第二向量；距离计算子模块，用于选取两个用户，按照操作行为分别计算所述两个用户对应第一向量之间的第一距离，以及第二向量之间的第二距离；相似度确定子模块，用于按照权重对所述第一距离和第二距离进行加权求和，确定所述两个用户之间的相似度。

B11、如B8所述的装置，还包括：属性标签预确定模块，用于基于用户对应用的操作行为确定所述用户在每个属性维度下的属性倾向信息，其中，所述属性倾向信息包括：所述属性维度对应的各类别和每个类别的属性倾向值；按照属性倾向信息确定所述用户在每个属性维度的属性向量，将各属性向量作为所述用户的属性标签。

B12、如B11所述的装置，所述属性标签预测模块，包括：顶点查找子模块，用于确定目标用户在所述用户传播图中对应的顶点；在所述用户传播图中查找所述目标用户对应顶点的相邻顶点，其中，所述相邻顶点的传播属性中标注有属性标签。

B13、如B12所述的装置，所述属性标签预测模块，包括：预测子模块，用于按照所述目标用户对应顶点与相邻顶点之间的相似度，将所述相邻顶点的属性标签传播给所述目标用户对应顶点，预测所述目标用户的属性标签。

B14、如B8至B13任一所述的装置，还包括：推荐模块，用于基于所述属性标签为用户推送推荐信息，其中，所述推荐信息包括：与所述属性标签匹配的应用。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗维;
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司;
我是此专利的发明人

上一篇：一种网管系统配置数据管理方法及装置与流程
上一篇：一种数据处理方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。