一种用户画像获取方法与流程

文档序号:15638823发布日期:2018-10-12 21:48阅读:233来源:国知局

本发明涉及信息分类处理领域,具体涉及一种用户画像获取方法。



背景技术:

用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。

在科技资源供需对接中,供方的科技成果与需方的科技需求都是庞大的,对于供方而言,其科技资源数据是详细的、庞大的,作为科技成果展示是明确清晰的,但是作为科技成果输出是乏力的,这是科技资源供需对接方式决定的。大多数情况下,科技资源供需双方需求并不能匹配。其主要原因在于供需双方拥有信息不对等,一方面,供方未能根据市场需求细分占有的科技资源,也无法快速得知需方的意愿;另一方面,需方对自己需求描述不够详尽或描述的需求特征与供方设想相差较大。这导致了当前供需双方科技资源对接极为困难。当供需双方完成充足准备工作的结果时,才能完成科技资源对接,这大大降低了科技资源供需对接效率。即使没有充足的准备工作,需方也需要经过多次搜索调研才能知道想要的供方信息,同时,在需方不断检索中,其使用的检索式是由供方提供的,该检索式细分度不够,同时索引构建并非遵从需方意愿,对需方并不友好,这样的科技资源供需对接是极不便捷的。

由于对用户的分类模糊,无法将科技资源与用户类别对应,造成科技资源供需双方配给不平,故对供需用户的分类及精准角色定位是优化科技资源供需对接方法的第一步,。综上,科技资源用户的分类及用户画像获取问题亟待解决。



技术实现要素:

为了克服现有技术的缺陷,本发明提供一种用户画像获取方法,能够较好地对用户进行分类并对用户的行为进行分析,并根据分类和分析的结果来获取用户画像。

针对上述发明目的,本发明是这样加以解决:一种用户画像获取方法,基于多个用户的基础数据及与基础数据对应的用户行为日志实现,用户行为日志包括用户资源供求行为数据,其特征在于,包括如下步骤:

s1、提取所有用户的基础数据中每个数据的特征信息,利用相应的特征信息对相同类型的基础数据进行聚类分析,并得到多个相应的第一特征集;根据所有第一特征集建立用户分类模型;

s2、提取用户资源供求行为数据中每个数据的特征信息,利用相应的特征信息对相同类型的用户资源供求行为数据进行聚类分析,并得到多个相应的第二特征集,根据所有第二特征集建立用户初始行为模型;根据所有第一特征集、第二特征集,以及用户分类模型来建立行为数据特征集。

s3、将行为数据特征集作为用户行为模型的训练样本,从而建立用户行为模型;

s4、根据用户分类模型和用户行为模型获取用户画像。

通过对用户的基础数据及与基础数据对应的用户行为日志分别进行分类和分析,能做较好地建立用户分类模型和用户行为模型,并通过这两个模型获取不同用户的用户画像。得到用户初始行为模型为后续用户行为分析提供了分类分析的依据。由于用户行为数据属于一种随时间增加的动态数据,再后续对用户行为进行不断分析,优化行为特征集时,直接将相似的行为数据分类存储再进行分析,这样做的好处是,一方面筛检掉冗余数据,给初始行为数据赋予标签,减小处理难度;另一方面,根据分析结果,对初始行为特征分类进行优化,使分类模型更加准确。

进一步地,所述步骤s1中第一特征集的具体形成过程为:

s1.1对相同类型的基础数据进行随机抽取,并对抽取出的数据进行聚类分析得到若干特征值mi;

s1.2对相同类型的基础数据进行分类后进行分层抽样,并对抽样出的数据进行聚类分析得到若干特征值mk;

s1.3根据mi和mk的相似度对mi进行优化,最终得到若干特征值m,形成第一特征集。

进一步地,基础数据中包括描述用户角色特征的一级数据、描述用户资源供求情况的二级数据;步骤s1中的所有第一特征集中包括由一级数据形成的第三特征集以及由二级数据形成的第四特征集,根据第三特征集对第四特征集进行分析,得到它们之间的索引,根据该索引建立用户分类模型。

进一步地,步骤s1.1重复执行多次,在重复执行过程中得到的特征值mi根据抽样次数、抽样比例、聚类分析过程对第一次执行得到的特征值mi进行优化。

进一步地,所述步骤s2中行为数据特征集的具体建立方法为:

s2.1、第二特征集、第三特征集和第四特征集分别包括若干特征值,每个特征值对应相应数量的同类用户,根据特征值对应的不同数量的用户得出相应的权重;根据不同的权重对每个特征值对应的用户进行抽样,计算分别从第二特征集和第四特征集抽样出的用户的相似度,得到相似特征索引q1;

s2.2、根据q1、用户分类模型,对从第一特征集中各个特征值对应抽样出的用户进行相似度分析,得到相似特征索引q2;

s2.3、根据q1和q2建立行为数据特征集。

进一步地,在步骤s4之前,还对用户分类模型进行优化,具体步骤为:实时采集用户资源供求行为数据,首先,根据用户初始行为模型将用户资源供求行为数据进行归类分析,得到各类型用户集的行为特征,根据各类型用户的行为特征演变对用户分类模型进行修正;其次,根据行为特征将用户资源供求行为数据进行归类分析,得到行为特征值,根据行为特征值对用户进行分类,进而对用户分类模型进行修正。

进一步地,对用户分类模型进行第一次修正的具体步骤为:根据用户分类模型,对各类型用户的动态行为数据进行分析,得到行为特征演变模型;行为特征演变模型包括特征值和相应权重的变化,根据行为数据特征集以及行为特征演变模型对用户分类模型及用户数据特征集进行修正。

进一步地,每个行为特征值对应相应数量的用户,相应的权重根据行为特征值对应的不同数量的用户得出;根据与行为特征值对应的权重对行为数据特征集进行分层抽样,对抽样得到的样本进行分析,得到第二行为特征修正因子,利用第二行为特征修正因子再次修正第一特征集的权重。

相比于现有技术,本发明的有益效果在于:通过对用户的基础数据及与基础数据对应的用户行为日志分别进行分类和分析,能做较好地建立用户分类模型和用户行为模型,并通过这两个模型获取不同用户的用户画像。

附图说明

图1是本发明方法的主要流程图。

图2是本发明步骤s1中第一特征集具体形成过程的流程图。

图3是本发明步骤s2中行为数据特征集的具体建立方法的流程图。

具体实施方式

根据下面的实施例和附图对本发明进行详细地说明。

一种用户画像获取方法,基于多个用户的基础数据及与基础数据对应的用户行为日志实现,基础数据中包括描述用户角色特征的一级数据、描述用户资源供求情况的二级数据,用户行为日志包括用户资源供求行为数据。其中一级数据包括身份信息(如从业年份、职务、性别、团队基本信息等)、科研领域、科研成果、潜在研究动态等,二级数据包括用户供求意愿等。对于用户资源供求行为数据,包括时间属性数据、地理属性数据以及按动作分类的用户操作属性数据,对于按动作分类的用户操作数据包括搜索、收藏、交易、咨询等。

本方法包括如图1所示的如下步骤:

s1、以关键词的形式提取所有用户的基础数据中每个数据的特征信息,利用相应的特征信息对相同类型的基础数据,通过k-means算法进行聚类分析,并得到多个相应的第一特征集,其中k-means算法所用的k值由人工选取;根据所有第一特征集建立用户分类模型;

科技资源供需对接实例中,将身份信息作为数据特征集的主键,包括行业背景、从业年份、职务、团队信息等。这些身份信息数据要与其他用户基础数据,如科研成果、研究动态等相结合进行特征分析。首先,提取行业背景关键词,并统计该关键词行业背景下的平均从业年份及标准差;然后,根据行业背景特征对用户的科研成果、研究动态等进行特征分析;最后,根据上述两步结果得到行业成熟度以及行业基本特征。通过该行业基本特征对用户进行一次分类。

s2、提取用户资源供求行为数据中每个数据的特征信息,利用相应的特征信息对相同类型的用户资源供求行为数据进行聚类分析,并得到多个相应的第二特征集,根据所有第二特征集建立用户初始行为模型;根据所有第一特征集、第二特征集,以及用户分类模型来建立行为数据特征集。

科技资源供需对接实例中,用户资源供求行为数据包括供需两方面数据。用户已占有的科技资源信息称之为用户资源供求数据,包括用户可以公开的仪器设备、技术手段、专利方法等。用户需要提供的技术方案、仪器设备、实际场景解决方案等属于用户资源需求数据。用户资源供求数据通常包括仪器数据、专利数据、应用方案数据等,这些数据需要通过一般自然语义分析法进行处理得到其中的关键词,通过特征分析进一步得到供方用户的角色特征。用户资源需求数据通常包括具体的需求信息,如所需的仪器、技术手段等,也包括一些模糊需求信息。对于具体的需求信息进行特征分析得到需方用户的第一角色特征;对于模糊需求信息,如描述应用场景或需求目的等,从应用对象的角度人工提取关键词,同样通过特征分析得到需方用户的第二角色特征;

s3、将行为数据特征集作为用户行为模型的训练样本,从而建立用户行为模型;

s4、根据用户分类模型和用户行为模型获取用户画像。

通过对用户的基础数据及与基础数据对应的用户行为日志分别进行分类和分析,能做较好地建立用户分类模型和用户行为模型,并通过这两个模型获取不同用户的用户画像。

更优地,如图2所示所述步骤s1中第一特征集的具体形成过程为:

s1.1对相同类型的基础数据进行随机抽取,并对抽取出的数据进行聚类分析得到若干特征值mi;

s1.2对相同类型的基础数据进行分类后进行分层抽样,并对抽样出的数据进行聚类分析得到若干特征值mk;

s1.3根据mi和mk的相似度对mi进行优化,最终得到若干特征值m,形成第一特征集。

更优地,步骤s1中的所有第一特征集中包括由一级数据形成的第三特征集以及由二级数据形成的第四特征集,根据第三特征集对第四特征集进行分析,得到它们之间的索引,根据该索引建立用户分类模型。

更优地,步骤s1.1重复执行多次,在重复执行过程中得到的特征值mi根据抽样次数、抽样比例、聚簇离散度、聚簇演化等信息对第一次执行得到的特征值mi进行优化。聚簇为在聚类分析过程中划分形成的数据聚集区域。

更优地,如图3所示,所述步骤s2中行为数据特征集的具体建立方法为:

s2.1、第二特征集、第三特征集和第四特征集分别包括若干特征值,每个特征值对应相应数量的同类用户,根据特征值对应的不同数量的用户得出相应的权重;根据不同的权重对每个特征值对应的用户进行抽样,计算分别从第二特征集和第四特征集抽样出的用户的相似度,得到相似特征索引q1;

科技资源供需对接实例中,用户行为的目的是为了解决供需问题,描述用户资源供求情况的二级数据与用户资源供求行为数据密切相关,故需将行为数据得到的第二征集与用户资源供求数据得到的第四特征对接。

s2.2、根据q1、用户分类模型,对从第一特征集中各个特征值对应抽样出的用户进行相似度分析,得到相似特征索引q2;

s2.3、根据q1和q2建立行为数据特征集。

更优地,在步骤s4之前,还对用户分类模型进行优化,具体步骤为:实时采集用户资源供求行为数据,首先,根据用户初始行为模型将用户资源供求行为数据进行归类分析,得到各类型用户集的行为特征,根据各类型用户的行为特征演变对用户分类模型进行修正;其次,根据行为特征将用户资源供求行为数据进行归类分析,得到行为特征值,根据行为特征值对用户进行分类,进而对用户分类模型进行修正。

首先,由于用户资源供求行为数据是一种随时间增加的动态数据;其次,由于未建立完善的科技资源用户行为分析模型,没有明确的分类标准。因此,需要通过对用户资源供求行为数据进行分类,对不同类型的行为的具体内容进行分析,以得到用户行为特征值,在分析过程中,由于用户资源供求行为数据具有较高的复杂度,极大的体量,需使用神经网络算法对行为内容进行提取分类,以减少行为内容关键词,找到各类用户最主要行为特征值。

更优地,对用户分类模型进行第一次修正的具体步骤为:根据用户分类模型,对各类型用户的动态行为数据进行分析,得到行为特征演变模型;行为特征演变模型包括特征值和相应权重的变化,根据行为数据特征集以及行为特征演变模型对用户分类模型及用户数据特征集进行修正。

用户动态行为数据通过科技资源对接门户网站中获取,通常包含浏览记录、搜索记录、交易记录、咨询记录等,每种行为数据都包括了时间、地点、动机、结果等信息。时间通常指该行为执行的时长;地点通常指该行为执行地点;动机通常指该行为之前用户的行为特征值,称之为动机特征,该动机特征通过该行为之前的行为特征和用户当前角色特征得到;结果是对用户该行为的评价,主要通过对用户整个行为过程内在联系的分析得到。例如某用户输入与仪器信息相关的关键词“荧光显微镜”用于搜索“荧光显微镜”供求信息,门户网站罗列所有可共享的“荧光显微镜”,用户浏览这些信息,通过咨询选中某一“荧光显微镜”并完成交易,至此用户行为结束。根据用户该行为,具体的分析步骤是:1、获取用户id,根据用户id查找用户数据信息,根据用户数据特征集确定该用户的特征信息,根据特征信息确定用户类别,然后获取该类别用户的行为数据特征;2、记录用户行为信息,根据实例有,搜索行为及搜索内容“荧光”、“显微镜”,浏览行为及浏览时长、浏览数据量,咨询行为及咨询内容记录,交易行为及交易详细信息;3、对用户行为信息进行语义及特征分析得到该用户当前行为特征值,比较该特征值与该类用户的行为特征,从而对该类用户特征模型进行优化,进而随着用户行为数据体量的增大,还可以从中得到该类用户的行为特征变化趋势,进一步优化用户数据模型;4、关于用户的动机特征获取及行为评价,该部分工作对用户特征修正方式起监督作用,其动机特征值及行为评价由用户角色特征及用户行为复杂度决定。

更优地,每个行为特征值对应相应数量的用户,相应的权重根据行为特征值对应的不同数量的用户得出;根据与行为特征值对应的权重对行为数据特征集进行分层抽样,对抽样得到的样本进行分析,得到第二行为特征修正因子,利用第二行为特征修正因子再次修正第一特征集的权重。

上述权重由数据偏离度、聚簇交叉复杂度、特征层次度决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1