一种应用于用户画像领域的数据增广方法

文档序号：30384137发布日期：2022-06-11 06:02阅读：来源：国知局

技术特征：
1.一种应用于用户画像领域的数据增广方法,其特征在于：包括以下步骤：s1：根据原始数据中用户的好友关系，构建用户异质网络图，图中每个节点都代表一个用户，图中每一条边都代表连接的两个用户拥有好友关系，通过图神经网络聚合当前节点的邻域节点信息，得到当前节点嵌入向量；s2:根据s1获取的当前节点嵌入向量，通过图神经网络分类器，得到多标签分类概率矩阵，对个节点的每个标签的概率进行过滤，大于阈值的生成节点标签；s3:根据用户异质网络图，利用自监督学习思想，采用图划分技术的自监督学习方式，得到若干个划分后的子图，在每个子图中对无标签节点进行对齐操作，使其与真正的标签匹配，为无标签节点生成伪标签；s4：对s2生成的节点标签、利用s3中生成的伪标签进行自检，一致则加入真实标签集，迭代进行训练多次，以扩充训练数据集。2.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于：所述节点标签数量为1-n个。3.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于：所述s1具体包括：s1.1对待处理的原始数据进行缺失值填充、重复值过滤、异常值处理，得到处理后的用户行为数据；s1.2:利用用户好友关系，构建用户邻接矩阵；利用用户行为数据，构建用户特征矩阵；s1.3:根据所获得用户邻接矩阵和特征矩阵，利用图神经网络模型，通过图卷积算子，聚合邻域节点相关信息，得到节点的嵌入表示。4.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于：所述步骤s2具体包括：s2.1:根据所获得的节点嵌入向量，通过图神经网络分类器，得到节点的多标签分类概率矩阵，矩阵的行数代表用户节点数量，列数代表标签数量；s2.2:根据设置的阈值，对节点标签概率进行过滤，大于阈值的生成节点标签。5.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于：所述步骤s3具体包括：s3.1:根据用户异质网络图的节点表示，计算节点在特征空间上的距离，根据距离计算节点的相似矩阵，以相似矩阵作为输入，利用图划分技术对整个用户异质图进行划分，得到若干个子图；s3.2:在每个子图内，依次对属于每类标签的节点进行分类，然后在分类后的有标记节点嵌入向量中对每个维度计算平均值，得到的新的节点嵌入向量作为简易质心，根据得到的质心，利用欧式距离公式计算无标记节点嵌入向量到质心的距离。6.如权利要求1所述的应用于用户画像领域的数据增广方法,其特征在于：所述步骤s4具体包括：对s2生成的标签、s3部生成的伪标签标签进行自检，一致则加入真实标签集，提高标签精确度，迭代进行训练多次，以扩充训练数据集。7.如权利要求5所述的应用于用户画像领域的数据增广方法,其特征在于：所述欧氏距离公式，如式(1)所示：
其中，x表示节点，y表示质心，x
i
表示表示节点嵌入向量在第i个维度上的数值；y
i
表示质心嵌入向量在第i个维度上的数值；大于设定阈值的被赋予该标签作为伪标签。

技术总结
本发明公开了一种应用于用户画像领域的数据增广方法，涉及用户画像标签预测领域；克服了标签率极低的问题，同时提高模型的泛化性，以便于根据用户行为数据预测多维度多标签的用户画像标签，并且有效结合自监督学习，能够在用户标签率极低的情况下实现用户分类，降低了人工标注数据集的成本，提高了模型的泛化能力，同时克服图神经网络由于拉普拉斯平滑现象导致其在标签率极低的图上性能急剧下降的问题，提高模型分类的准确性。提高模型分类的准确性。提高模型分类的准确性。

技术研发人员：赵相国张官正毕鑫聂豪杰王秋宇
受保护的技术使用者：东北大学
技术研发日：2022.03.09
技术公布日：2022/6/10

完整全部详细技术资料下载

当前第2页1 2