一种微博异构信息的用户画像构建方法

文档序号：25733987发布日期：2021-07-06 18:42阅读：117来源：国知局

本发明属于机器学习和深度学习领域，涉及一种微博异构信息的用户画像构建方法。

背景技术：

在大数据时代，随着数据量的急剧增加，微博用户面临着信息爆炸带来的问题，通过建立用户画像了解用户特征从而进行社区发现及社区推荐变得尤为重要。微博数据存在着大量的异构信息，例如图片视频及文字，通过深度学习方法有效提取这些信息，将其作为用户特征信息组建为用户画像，可以方便对用户进行社区发现及商品推荐。

现有的微博用户画像建立方式主要通过tf-idf及lda方法提取用户关键词，无法简介描述用户兴趣画像，提取的关键词由于维度过多难以有效利用于推荐。

近年来，随着深度学习的发展，文本分类与图像分类技术愈发成熟，收集合适的语料库以及图像数据集分别训练文本及图像分类模型，采集用户的微博文本以及图像数据进行分类，得到用户-主题(user-topic)矩阵。该方法虽然能减少画像构建的兴趣维度同时简洁有效地描述用户画像，但是缺乏可解释性。

因此，本发明亟需一种能够根据微博异构信息进行社区发现以及内容推荐的用户图像构建方法。

技术实现要素：

有鉴于此，本发明的目的在于提供一种微博异构信息的用户画像构建方法，有效利用微博异构内容对微博用户进行准确的兴趣画像构建，解决传统建模方式粒度过细主题不一致的问题。该方法利用神经网络结合tf-idf从不同尺度构建user-topic矩阵以及topic-item矩阵，在不同尺度下对微博用户进行画像构建，并结合聚类方法与知识图谱方法，利用构建好的用户画像数据对用户进行内容推荐及社区发现

为达到上述目的，本发明提供如下技术方案：

一种微博异构信息的用户画像构建方法，对于微博异构信息，分别构建文本及图像分类网络，对于微博用户内容进行主题分类，构建好用户画像；对于用户画像，使用聚类方法及知识图谱对用户进行内容推荐以及社区发现；

该方法具体包括以下步骤：

s1：数据收集：收集合适的文本及图像数据，获取用户微博的文本及图像信息；

s2：数据增强；

s3：模型训练：分别训练图像及文本分类网络；

s4：用户画像构建；使用训练好的分类网络分类得到兴趣标签，并将其加入user-topic矩阵，得到用户画像；

s5：对于不同类的微博，采用tf-idf算法及词性筛选提取关键词，得到细粒度topic-item矩阵；

s6：采用知识图谱思想，利用知识关联，查找关键词的相似词；

s7：对于user-topic矩阵，使用模糊聚类方法，得到不同类的社区，为微博用户进行社区发现；

s8：对用户所在社区进行社区用户相似度计算，选取相似度较高的用户计算步骤s6的关键词子集，求所有相似用户的关键词子集的公共集作为步骤s6的补充推荐。

进一步，步骤s1中，使用爬虫技术，爬取用户微博的内容，包括文本与图像信息。

进一步，步骤s2中，所述数据增强具体包括：对图像数据进行翻转剪切等操作，对文本数据进行同义词替换及词向量扰动等方法。

进一步，所述词向量扰动是利用对抗训练思想的知识增强方法，将文本转换成词向量，在模型训练时按照损失增加的梯度方向对词向量进行一定的噪音干扰，与原本输入一起进行训练，有助于增强模型的泛化能力及准确率。

进一步，步骤s3中，图像及文本分类网络均采用卷积神经网络，其中图像分类网络的卷积核使用3*3尺寸，文本分类网络的卷积核采用(2,3,4)*词向量维度的卷积核，池化层均采用max-pooling，激活函数均使用relu函数；卷积模块后面接入全连接层，设置dropout防止过拟合，训练完成后保存模型。

进一步，步骤s4及s5分别从粗粒度及细粒度两种尺度构建好用户画像，可以有效描述用户的兴趣。粗粒度构建的user-topic矩阵可以用于社区发现，计算相似用户；细粒度构建的topic-item矩阵可以结合知识图谱技术，发现知识关联实体，用于实体推荐。

进一步，步骤s6中，利用词向量构建方法将维基百科数据转成词向量表示，计算用户关键词实体的知识相关实体作为细粒度内容推荐。

进一步，步骤s6中，利用知识图谱的方法不是限定，还可以使用开源的知识图谱如大词林、cn-dbpedia完成或未来更完善的知识图谱系统。

本发明的有益效果在于：本发明可以有效利用微博的异构数据，包括图像及文本数据，对用户画像进行准确建模，解决传统用户画像建模方式粒度过细的缺点。根据用户图像及文本得到的topic-item矩阵进行聚类进行社区发现，可以减少相似用户推荐所需的计算时间。利用知识图谱引入外部知识对用户进行item推荐可以缓解冷启动问题。

本发明通过构建好的用户画像进行社区发现以及结合知识图谱进行内容推荐，可以增加微博用户的使用粘性，并且方便商家精确投放广告，达到双赢的效果。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明实施例构建的文本及图像分类模型的流程图；

图2为本发明利用微博异构信息构建微博用户画像及相关应用的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，本发明设计了一种微博异构信息的用户画像构建方法，首先使用爬虫技术获取用户微博文字内容及图片信息，使用文本与图像分类模型对微博内容进行主题分类，将其作为特征输入user-topic矩阵。通过tf-idf方式提取关键词，结合知识图谱及词向量表示发现关联关键词作为内容推荐；通过对user-topic矩阵进行模糊聚类，从而进行社区发现，为用户推荐相似度较高的用户。

该方法有助于完善现有画像粒度过细的缺点，利用了微博数据的异构特点，结合深度学习神经网络构建文本与图像分类模型，图像与文本分类模型输出的标签作为用户的主题标签，得到user-topic矩阵，采用模糊聚类方法，从粗粒度角度上为用户进行社区发现。其中将分类好的文本进一步使用tf-idf方法选取用户在不同类别的关键词，得到topic-item矩阵，结合知识图谱的实体关系，从细粒度角度为用户进行item推荐。

图1为本发明实施例构建的异构信息分类模型的流程图。如图1所示，该分类模型的构建方法具体包括以下步骤：

1)文本、图像数据集收集

文本可选用开源新闻分类数据集，图像应考虑微博环境下具体特点，选取一部分人脸识别数据集与常见物品数据集组成混合数据集。

2)数据增强及编码

使用数据增强技术对数据进行处理。具体地，图像数据集采用翻转、平移操作，文本数据集可使用同义词替换、词向量上增加扰动等技术。将处理好的数据集转成编码形式，准备输入模型训练。

3)搭建神经网络模块

其中文本分类cnn网络采用(2，3，4)*词向量维度的卷积核尺寸，图像分类cnn网络采用3*3的卷积核尺寸，池化层均采用max-pooling，激活函数均使用relu函数。

4)接入全连接层并训练

在cnn模块后面接入dropout层防止过拟合，dropout值取0.5，而后接入二层全连接层训练至模型收敛，分别保存文本与图像分类模型文件。

图2为本实施例中用户画像构建及相关应用的流程图。如图2所示，该构建方法具体包括以下步骤：

1)使用爬虫技术，爬取用户的异构信息微博，分别包括图像及文本信息。

2)分别将用户文本及图像数据输入训练好的文本及图像分类模型，将两个模型输出的标签作为用户的topic，构成user-topic矩阵，即用户画像。

3)user-topic是一种粗粒度尺度描述用户兴趣的方式，与此对应，对分类好的微博文本采用tf-idf方法提取用户在不同类微博文本下的关键词，得到topic-item矩阵，在细粒度尺度上对用户兴趣进行描绘。

4)对于topic-item的关键词，结合知识图谱思想，发现关键词的关联内容，作为细粒度尺度的内容推荐。具体地，对于关键词，使用python的jieba分词库判断词性，筛选出名词词性的关键词。使用python的gensim库，对于wiki百科的知识进行word2vec建模，得到词语对应的词向量表示。对应item关键词，通过余弦相似度计算其与其他实体的相似度，将相似度较高的词汇返回作为推荐。上述方法不是限定，也可以使用开源的知识图谱如大词林、cn-dbpedia完成。

5)对于构件好的user-topic，采用模糊聚类方法，进行社区发现，作为粗粒度尺度的社区推荐。得到聚类社区后使用欧氏距离作为评价标准，计算用户与社区内其他用户特征的欧氏距离，将欧式距离较小的用户作为推荐。对推荐用户利用步骤3方法构建topic-item，统计推荐用户的item词频，设定词频阈值，将词频大于阈值的item返回子集α，如此操作循环遍历所有推荐用户得到子集，最后求出子集的公共集β。公共集β里的item代表了相同爱好的用户的普遍爱好，可作为步骤4)的补充推荐内容。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁正午;彭宪穅
技术所有人：重庆邮电大学
我是此专利的发明人

上一篇：一种橡胶排气助剂及其制造方法与流程
上一篇：一种基于改性LDHs的无卤复合阻燃剂的制备方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。