一种画像方法、系统、设备及存储介质与流程

文档序号:34764370发布日期:2023-07-13 06:48阅读:47来源:国知局
一种画像方法、系统、设备及存储介质与流程

本公开实施例涉及大数据,具体涉及一种画像方法、系统、设备及存储介质。


背景技术:

1、社会治理的精准化应以社区治理的精准化为基点,利用大数据技术等从不同维度分析社区居民的群体特征,构建社区画像模型。

2、图1为现有技术中的画像方法流程图,如图1所示,现有技术中,构建用户画像模型的大致步骤可以分为数据收集、数据预处理和用户画像建模。数据收集部分根据需要解决的问题选择相对应的数据;数据预处理是对收集到的数据进行特征提取,如文本数据对其进行分词、去停用词、统计词频等操作;用户画像建模是基于处理后的数据特征构建用户画像模型,以抽取出用户的兴趣点。

3、数据收集:

4、收集的数据内容可以有多种类型,1)用户基本属性信息,其中包含了注册时提供的基本信息,如年龄、性别、婚姻状况、教育程度等;2)浏览行为信息,收集用户的行为习惯信息,如用户购买过哪些产品、浏览过哪些网页、浏览时间长短以及在网页上点击、收藏等操作信息;3)用户资源相关属性,例如,如果推荐的是电子商务产品,则可以通过用户对产品的评价信息进行关联计算;4)用户的服务需求,指用户请求的服务,如查询操作等。

5、综合以上内容,数据收集最初是采用用户在注册时的基本信息以及用户为自己贴上的标签等。这些信息较为基础,并且并不一定能够保持准确性。于是希望通过用户的行为来获得信息,收集用户的隐式反馈即观察和跟踪用户的行为习惯,如用户购买过哪些产品、浏览过哪些网页、浏览时间长短以及对事件的态度,是否点赞、转发等。基于社交网络的发展,用户更加频繁地与朋友互动,社交关系也逐渐被用于一种输入数据,用于识别关系圈或是寻找相似的用户。采用以上数据来为用户建模还不够全面,由于近几年互联网的发展以及智能手机的普及,越来越多的用户用照片、语音和小视频结合着文本来表达自己的想法。于是数据源又有了新类型,已不再满足于已有的标记好的属性,而是从文本、图片或者视频等多媒体中去挖掘属性来标记用户。现在数据收集方面的挑战及热点主要是如何结合多种数据类型准确挖掘用户的属性以及如何做到跨平台地进行用户建模。

6、数据预处理:

7、由于真实世界中的数据来源复杂、体积巨大,往往难以避免地存在缺失、噪声、不一致等问题。此外,当数据的维数过高时还会存在所谓的“维度诅咒”问题,过高的维度增加了计算量,反而可能会降低算法的效果。并且有些算法对数据存在特殊的要求,比如基于距离的算法在数据进行归一化之后效果会提升。直接从网站平台上爬取的数据一般是不完整、不同程度的“脏数据”,在进行数据分析建模之前,需要对爬取的“脏数据”进行预处理和标准化,标准化的目的是将数据的各个指标处理成在同一数据级别上,便于评分析。

8、用户画像建模:

9、用户画像建模是在数据预处理后进行行为建模,以抽象得出用户的属性。目前常用的建模方法有:1)遗传算法,其借鉴了进化生物学的现象,用于最优解问题;2)聚类算法是利用统计分析方法把聚类对象分成相似类的过程;3)贝叶斯算法,其前提假设是各个类相互独立,通过贝叶斯公式计算概率分布问题;4)神经网络方法是模拟人脑神经元的工作方式,通过学习、训练模式输出预测结果。随着深度学习的出现,现在较多采用卷积神经网络来训练数据集,特别是将多个数据源进行结合训练得到的结果较好。

10、综上,随着社交网络用户群体的不断扩大,社交网络平台中,用户数据分为用户个人数据、社会关系数据、行为数据与用户生成内容等。利用画像技术对这些数据进行数据建模与知识挖掘,可从中提炼出有价值的信息和知识,实现深层次的个性化知识服务。现有画像研究多集中在单用户画像,其通过收集与分析用户数据,以标签形式刻画用户特征,挖掘这些特征的潜在价值信息,进而抽象出用户的信息全貌。单用户画像在揭示社交网络整体特征方面存在一些不足,如:①从数据层面上看,单用户画像没有充分利用用户社会关系数据,难以全面刻画用户亲近远疏的社会关系;②从技术层面上看,单用户画像难以准确过滤大量噪音数据,导致画像结果常常存在偏差;③从应用层面上看,对社区用户群体进行画像更有利于深层次揭示社区特征,支持更广泛的应用。


技术实现思路

1、本公开实施例提供一种画像方法、系统、设备及存储介质,以解决或缓解现有技术中的以上一个或多个技术问题。

2、根据本公开的一个方面,提供一种画像方法,包括:

3、从各类社交网络或数据平台中获取用户数据;

4、根据不同的用户数据,划分形成显式社区和隐式社区;

5、基于用户数据,结合不同的社区画像方法分别对显式社区和隐式社区进行画像,形成社区画像。

6、在一种可能的实现方式中,所述的根据不同的用户数据,划分形成显式社区和隐式社区包括:

7、基于用户数据中的显性信息,利用分类算法划分形成显式社区,所述显性信息包括用户订阅信息;

8、分析用户数据中的用户特征潜在信息,利用社区发现算法生成隐式社区。

9、在一种可能的实现方式中,所述社区画像方法包括基于用户相似性的画像方法和基于社区差异性的画像方法;

10、所述基于用户相似性的画像方法包括基于单用户画像融合的社区画像方法和基于用户数据的社区画像方法;

11、所述基于社区差异性的画像方法包括基于完整社交网络的差异性画像方法和基于社区自身成员的差异性画像方法。

12、在一种可能的实现方式中,所述的基于单用户画像融合的社区画像方法包括:

13、基于用户数据形成单用户画像;

14、计算不同单用户画像间的相似程度;

15、将相似的单用户画像聚为一类;

16、将聚为一类的单用户画像进行融合,生成典型用户社区画像。

17、在一种可能的实现方式中,所述的基于用户数据的社区画像方法包括:

18、通过分析用户数据,利用每类用户数据相应的画像技术生成社区画像;所述用户数据包括个人数据、行为数据和社会关系数据。

19、在一种可能的实现方式中,所述的基于完整社交网络的差异性画像方法包括:

20、从社交网络整体视角分析与计算社区成员与网络中其他社区成员的差异来进行社区画像。

21、在一种可能的实现方式中,所述的基于社区自身成员的差异性画像方法包括:

22、考虑社区成员和与所述社区成员有紧密关系的社区外成员之间的差异来进行社区画像。

23、在一种可能的实现方式中,所述社区画像的应用场景包括面向精准推荐服务、面向知识发现服务和面向信息传播服务。

24、根据本公开的一个方面,提供一种画像系统,包括:

25、获取单元,用于从各类社交网络或数据平台中获取用户数据;

26、划分单元,用于根据不同的用户数据,划分形成显式社区和隐式社区;

27、形成单元,用于基于用户数据,结合不同的社区画像方法分别对显式社区和隐式社区进行画像,形成社区画像。

28、根据本公开的一个方面,提供一种画像设备,包括:

29、处理器以及存储器;

30、所述存储器用于存储计算机程序,所述处理器调用所述存储器存储的计算机程序,以执行上述任一项所述的画像设方法。

31、根据本公开的一个方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被处理器执行时,使得所述处理器能够执行上述任一项所述的画像方法。

32、本公开的示例性实施例具有以下有益效果:本公开的示例性实施例,对各类社区数据实时、综合建模,构建了全景式动态社区画像;另一方面,基于知识图谱技术进行大规模社区画像,不仅可以充分利用用户数据来挖掘社区的主题网络、传播路径等信息,还可以丰富社区的语义主题,实现社区主题的语义推理与知识发现,为语义搜索、智能问答、推荐系统、数据可视化、大数据分析与决策等应用提供数据支撑;再一方面,通过丰富社区节点语义信息来指导精准社区发现,以及将社区画像在推荐服务中的应用进一步泛化,用于支持更加复杂的辅助决策、寻求潜在合作等知识服务。

33、本技术的一个或多个实施例的细节在下面的附图和描述中提出。本技术的其它特征和优点将从说明书附图变得明显。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1