一种用户行为分析方法、装置、计算机设备及存储介质与流程

文档序号:24061509发布日期:2021-02-26 16:11阅读:123来源:国知局
一种用户行为分析方法、装置、计算机设备及存储介质与流程

[0001]
本发明涉及计算机技术领域,更具体地说,涉及一种用户行为分析方法、装置、计算机设备及存储介质。


背景技术:

[0002]
随着通信技术的飞速发展,人们对手机、电脑等终端的功能需求不断增多,各种应用于终端的互联网产品已逐渐成为人们日常工作和生活中必不可少的工具。互联网产品的业务指标(比如,留存率等)能够体现互联网产品的市场前景、为互联网产品发展提供决策依据。
[0003]
目前对业务指标的分析中,需要基于业务人员的业务经验从众多用户行为中确定出产生影响业务指标的魔法数字的用户行为。魔法数字的本质是通过分析、调研找到活跃用户和非活跃用户之间的行为差异,并通过产品设计和运营,尽可能地让所有新用户体验到产品价值。比如,用户在一周内添加了7个好友,用户在这个时刻体验到了产品的真正价值,“1周内加7个好友”就是魔法数字。
[0004]
这种业务指标分析方式依赖于业务人员对用户行为的人工分析,不仅分析成本高、而且分析效率低;并且,这种分析方式受限于人工经验,若人工经验不足,往往会导致分析结果不准确。


技术实现要素:

[0005]
有鉴于此,为解决上述问题,本发明提供一种用户行为分析方法、装置、计算机设备及存储介质,以实现对用户行为和业务指标之间关系的自动分析,降低分析成本、提高分析效率和分析结果的准确性,技术方案如下:
[0006]
一种用户行为分析方法,包括:
[0007]
从多个用户行为中确定待进行互联网产品业务指标影响分析的目标用户行为;
[0008]
获取所述互联网产品的用户数据中与所述目标用户行为匹配的至少一个用户行为数据,所述用户行为数据表征用户在所述业务指标指示的观察周期内产生所述目标用户行为的频次以及在所述观察周期后用于对业务指标的指标信息产生影响的所述用户的业务结果;
[0009]
基于所述至少一个用户行为数据对待训练业务结果预测模型进行训练生成业务结果预测模型;
[0010]
从所述业务结果预测模型中获取所述目标用户行为与所述业务指标的关联信息,所述关联信息表征所述目标用户行为对所述业务指标的影响程度
[0011]
一种用户行为分析装置,包括:
[0012]
第一确定单元,用于从多个用户行为中确定待进行互联网产品业务指标影响分析的目标用户行为;
[0013]
第一获取单元,用于获取所述互联网产品的用户数据中与所述目标用户行为匹配
的至少一个用户行为数据,所述用户行为数据表征用户在所述业务指标指示的观察周期内产生所述目标用户行为的频次以及在所述观察周期后用于对业务指标的指标信息产生影响的所述用户的业务结果;
[0014]
第一生成单元,用于基于所述至少一个用户行为数据对待训练业务结果预测模型进行训练生成业务结果预测模型;
[0015]
第二获取单元,用于从所述业务结果预测模型中获取所述目标用户行为与所述业务指标的关联信息,所述关联信息表征所述目标用户行为对所述业务指标的影响程度。
[0016]
一种计算机设备,包括:处理器以及存储器,所述处理器以及存储器通过通信总线相连;其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储程序,所述程序用于实现所述用户行为分析方法。
[0017]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器加载并执行,实现所述用户行为分析方法的各步骤。
[0018]
本申请提供一种用户行为分析方法、装置、计算机设备及存储介质,从多个用户行为中确定待进行互联网产品业务指标影响分析的目标用户行为;并获取互联网产品的用户数据中与目标用户行为匹配的至少一个用户行为数据;进而基于至少一个用户行为数据对待训练业务结果预测模型进行训练生成业务结果预测模型;以从业务结果预测模型中获取目标用户行为与业务指标的关联信息,实现对用户行为对业务指标的影响程度的自动分析,为魔法数据的分析提供依据,不仅降低了分析成本,而且提高了分析效率和分析结果的准确性。
附图说明
[0019]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0020]
图1为本申请实施例提供的一种无监督用户行为分析方法的ui界面示意图;
[0021]
图2为本申请实施例提供的一种无监督用户行为分析方法的详情界面示意图;
[0022]
图3为本申请实施例提供的一种用户行为分析方法流程图;
[0023]
图4(a)-(d)为本申请实施例提供的用户行为分析方法示意图;
[0024]
图4(e)为本申请实施例提供的一种第一显示界面示意图;
[0025]
图4(f)为本申请实施例提供的另一种第一显示界面示意图;
[0026]
图5为本申请实施例提供的另一种用户行为分析方法流程图;
[0027]
图6(a)为本申请实施例提供的一种hdfs页面的示意图;
[0028]
图6(b)为本申请实施例提供的一种分析结果示意图;
[0029]
图7为本申请实施例提供的一种用户行为分析工具架构图;
[0030]
图8为本申请实施例提供的一种按照业务理解将用户进行分群的结构示意图;
[0031]
图9为本申请实施例提供的一种数据信息示意图;
[0032]
图10(a)为本申请实施例提供的一种浏览器新增用户留存分析结果示意图;
[0033]
图10(b)为本申请实施例提供的一种浏览器网页示意图;
[0034]
图11为本申请实施例提供的一种用户行为分析装置的结构示意图;
[0035]
图12为本申请实施例提供的一种计算机设备的实现方式结构图。
具体实施方式
[0036]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0037]
目前对业务指标的分析中,需要基于业务人员的业务经验从众多用户行为中确定出产生影响业务指标的魔法数字的用户行为。这种业务指标分析方式依赖于人工对用户行为的分析,不仅分析成本高、而且分析效率低;并且,这种分析方式受限于人工经验,若人工经验不足,往往会产生分析结果不准确的情况。
[0038]
人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0039]
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0040]
机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0041]
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
[0042]
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
[0043]
首先,本申请发明人提出一种无监督用户行为分析方法,自动分析用户行为和业务指标之间的相关系数,为分析产生影响业务指标的魔法数字的用户行为提供便利和依据,降低分析成本、提高分析效率和分析结果的准确性。
[0044]
无监督用户行为分析方法主要是采用相关系数的方法,无监督用户行为分析方法的ui界面可以如图1所示。图1第一行表示:在距离首次登录互联网产品的七天内至少点击3次【ios-首页-底部个人中心】的新用户,次周留存率为71.2%。
[0045]
示例性的,【ios-首页-底部个人中心】这个用户行为与互联网产品的次周留存率有很强的正相关关系。相关系数越高说明【ios-首页-底部个人中心】这个用户行为与次周留存率的相关性越大,促进这个用户行为,可以大幅提高次周留存率。
[0046]
点击图1中每一行,还可以查看该行指示的用户行为在不同频次范围的用户量占比、次周留存率和相关系数。比如,点击图1中第一行,还可以查看该第一行指示的【ios-首页-底部个人中心】这一用户行为在不同频次范围的用户量占比、次周留存率和相关系数。
[0047]
示例性的,点击图1中第一行后可以显示如图2所示的详情界面。如图2所示的详情界面中显示有如下内容:
[0048]
第一,不同频次范围的【ios-首页-底部个人中心】这一用户行为与次周留存率之间的相关系数。
[0049]
示例性的,不同频次范围的【ios-首页-底部个人中心】这一用户行为与次周留存率之间的相关系数可以包括:【ios-首页-底部个人中心】这个用户行为的频次范围为至少1次时,【ios-首页-底部个人中心】这个用户行为和次周留存率之间的相关系数、【ios-首页-底部个人中心】这个用户行为的频次范围为至少2次时,【ios-首页-底部个人中心】这个用户行为和次周留存率之间的相关系数、【ios-首页-底部个人中心】这个用户行为的频次范围为至少3次时,【ios-首页-底部个人中心】这个用户行为和次周留存率之间的相关系数等等。
[0050]
第二,【ios-首页-底部个人中心】这个用户行为分别在每个频次范围的用户量占比。【ios-首页-底部个人中心】这个用户行为在一个频次范围的用户量占比可以为:【ios-首页-底部个人中心】这个用户行为在这个频次范围的用户量占【ios-首页-底部个人中心】这个用户行为在所有频次范围的用户总量的比例。
[0051]
示例性的,【ios-首页-底部个人中心】这个用户行为分别在每个频次范围的用户量占比可以包括:产生至少1次【ios-首页-底部个人中心】这个用户行为的用户量占比、产生至少2次【ios-首页-底部个人中心】这个用户行为的用户量占比、产生至少3次【ios-首页-底部个人中心】这个用户行为的用户量占比等等。
[0052]
第三,【ios-首页-底部个人中心】这个用户行为分别在每个频次范围的次周留存率。【ios-首页-底部个人中心】这个用户行为在一个频次范围的次周留存率可以为:产生这个频次范围的【ios-首页-底部个人中心】这个用户行为的用户的次周留存率。
[0053]
示例性的,【ios-首页-底部个人中心】这个用户行为分别在每个频次范围的次周留存率可以包括:产生至少1次【ios-首页-底部个人中心】这个用户行为的用户的次周留存率、产生至少2次【ios-首页-底部个人中心】这个用户行为的用户的次周留存率、产生至少3次【ios-首页-底部个人中心】这个用户行为的用户的次周留存率等等。
[0054]
相关系数表示了用户行为、用户行为的频次范围与次周留存相关关系的强弱,范围在-1到+1之间。当相关系数是+1时,表示新用户7天内做到这个用户行为频次范围,第二周就一定会回访互联网产品,当然这在现实生活中不太可能出现。通常相关系数大于0.4时,表示比较强的相关关系,而小于0.2时,就表示相关关系非常弱,或者不相关。有的时候相关系数会出现负数,表示用户执行了这个用户行为,有可能第二周就不会回访,这当然是我们不希望看到的。
[0055]
计算相关系数的方法非常多,包括皮尔逊相关系数、斯皮尔曼ρ相关系数、点二列
相关系数和phi相关系数,在无监督用户行为分析方法场景中,采用点二列相关系数和phi相关系数偏多。
[0056]
这种情况下,相关性分析是一种无监督的统计模型,只分析用户行为和分析目标的线性相关关系,如果某个用户行为对分析目标很重要,但不是线性相关,很难通过相关系数确定用户行为和分析目标之间的关系。分析目标是指分析的对象,分析目标可以为业务指标,业务指标可以为次周留存率、次日留存率等等。并且,无监督用户行为分析方法中如果用户行为较多,需要挨个分析每个用户行为和业务指标的相关系数,计算较复杂。
[0057]
有鉴于此,本申请发明人进一步提出一种有监督用户行为分析方法,不仅适用于线性相关场景、还适用于非线性相关场景,并且能够把多个用户行为一起放在业务结果预测模型做计算,业务结果预测模型计算过程中不仅考虑了用户行为的行为频次,而且可以一次输出多个用户行为和业务指标的关联信息,用户行为和业务指标的关联信息表征用户行为对业务指标的影响程度(用户行为对业务指标的影响程度也可以认为是用户行为对业务指标的重要程度),为分析产生影响业务指标的魔法数字的用户行为提供便利和依据,降低分析成本、提高分析效率和分析结果的准确性。
[0058]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明提供的一种有监督用户行为分析方法作进一步详细的说明。
[0059]
图3为本申请实施例提供的一种用户行为分析方法流程图,如图3所示的用户行为分析方法是一种有监督的用户行为分析方法,该方法包括:
[0060]
s301、从多个用户行为中确定待进行互联网产品业务指标影响分析的目标用户行为;
[0061]
示例性的,业务人员在进行用户行为分析时,首先需要确定待分析的互联网产品,获取所确定的互联网产品待分析的业务指标,以及从多个用户行为中选取目标用户行为,以分析目标用户行为对互联网产品的业务指标的影响。本申请实施例基于目标用户行为与互联网产品的业务指标的关联信息体现目标用户行为对互联网产品的业务指标的影响。
[0062]
图4(a)为本申请实施例提供的第一信息输入界面示意图。参见图4(a),用户可以通过“1,选择日期”选择需要分析的日期;还可以基于“2,选择产品”选择需要分析的互联网产品(也可以称为产品线)。
[0063]
以待分析的业务指标与留存率相关为例,选择的日期为新登录用户首次登录选择的互联网产品的日期。比如,若业务人员选择2020年09月03日以及互联网产品1,则需要对2020年09月03日首次登录互联网产品1的新用户的用户数据进行用户行为分析。
[0064]
示例性的,可以将每个用户行为称为一个特征,参见图4(a),业务人员还可以通过“3,点击获取特征列表”步骤显示第二信息输入界面,第二信息输入界面参见图4(b)。如图4(b)所示的第二界面中显示有预先设置的多个用户行为,多个用户行为构成用户行为列表(即,特征列表)。
[0065]
示例性的,图4(b)中选取的日期为“sep 4th,19”,选取的互联网产品的名称为“音兔”,确定在“sep 4th,19”日期首次登录“音兔”这一互联网产品的新用户,并针对多个用户行为中的每个用户行为,从所确定的新用户中查询执行该用户行为的用户数。参见图4(b)还可以针对用户行为列表中的每个用户行为,在用户行为列表中显示执行该用户行为的用户数(用户量),执行该用户行为的用户数可以认为是该用户行为的对应人数。
[0066]
更进一步的,用户行为列表中还设置有分别与每个用户行为相关的复选框,这样,业务人员结合用户行为列表中显示的用户行为和执行用户行为的用户数,从用户行为列表中勾选其想要分析的目标用户行为,即,从用户行为列表中勾选其想要分析的特征。
[0067]
参见图4(b),业务人员还可以对用户行为列表中用户行为按照用户数进行逆序或顺序排序。比如,可以按用户行为对应的用户数逆序排序,以便于业务人员选择用户数多的用户行为进行分析。
[0068]
参见图4(b),还可以借用筛选器filter data用数学表达式进行筛选,参见图4(b)筛选出用户数大于50000的所有用户行为。
[0069]
进一步,以业务指标与留存率相关为例,业务人员还可以填写想要看的留存天数,比如,业务人员填写的留存天数为7天时,业务指标为次周留存率;业务人员填写的留存天数为1天时,业务指标为次日留存率。
[0070]
以上仅仅是本申请实施例提供的对待分析的业务指标的优选设置方式,有关待分析的业务指标的具体设置方式发明人可根据自己的需求进行设置,在此不做限定。
[0071]
更进一步的,业务人员还可以填写想要抽样的用户数。若业务人员不填写或填写的为负数,表示全量。即,将在“sep 4th,19”日期首次登录“音兔”这一互联网产品的所有新用户进行全量用户行为分析。若业务人员填写了想要抽样的用户数,且业务人员填写的用户数不是负数,则从全量中抽取业务人员填写的想要抽样的用户数的新用户,进而对抽取出的新用户进行用户行为分析。
[0072]
示例性的,用户行为列表中被选中的用户行为可以称为目标用户行为,业务人员点击如图4(b)中的“分析左边中选中特征的重要度”按钮,对目标用户行为进行用户行为分析得到目标用户行为和业务指标的关联信息。
[0073]
需要说明的是,用户行为列表还可以支持字符串模糊匹配进行用户行为筛选,比如,用户输入字符串,在用户行为列表中显示与字符串模糊匹配成功的各个用户行为。参见图4(c)显示的用户行为列表详细界面,当用户输入的字符串为“rqd”和“>10000”时,从用户行为列表中显示与“rqd”匹配成功且用户数大于10000的各个用户行为。
[0074]
示例性的,如图4(b)-(c)所示的用户行为列表中显示的每个用户行为均为英文描述,进一步的,还可以在用户行为列表中添加每个用户行为的中文描述。
[0075]
示例性的,也可以在用户行为列表中仅显示用户行为的中文描述。
[0076]
有关用户行为列表中用于描述用户行为的语言发明人可根据自己的需求进行设置,在此不做限定。
[0077]
s302、获取互联网产品的用户数据中与目标用户行为匹配的至少一个用户行为数据;
[0078]
本申请实施例中,用户行为数据表征用户在业务指标指示的观察周期内产生目标用户行为的频次以及在观察周期后用于对业务指标的指标信息产生影响的用户的业务结果。
[0079]
示例性的,互联网产品的用户数据可以来源于灯塔数据源、离线数据处理平台(比如,tdw)、本地文件。灯塔数据源可以存储于服务器集群,比如impala服务器集群、clickhouse服务器集群等。从灯塔数据源获取到的用户数据可以称为灯塔数据,从tdw获取到的用户数据可以称为hdfs数据。
[0080]
示例性的,从多个用户行为中确定的待进行互联网产品业务指标影响分析的目标用户行为的个数可以为至少一个。即,从多个用户行为中确定待进行互联网产品业务指标影响分析的至少一个目标用户行为。
[0081]
本申请实施例中,获取互联网产品的用户数据中与目标用户行为匹配的至少一个用户行为数据,包括:获取互联网产品中至少一个用户的用户数据;检测用户的用户数据是否表征用户在业务指标指示观察周期内产生至少一个目标用户行为;如果用户的用户数据表征用户在业务指标指示观察周期内产生至少一个目标用户行为,从用户数据中获取表征用户在业务指标指示的观察周期内产生的至少一个目标用户行为的第一数据;从用户的用户数据中获取表征用户在观察周期后产生的用于影响业务指标的指标信息的第二数据;第一数据和第二数据构成用户的用户行为数据;如果用户的用户数据未表征用户在业务指标指示的观察周期内产生至少一个目标用户行为,确定用户的用户数据中不存在与目标用户行为匹配的用户行为数据。
[0082]
以业务指标与留存率相关为例,可以获取互联网产品的用户数据,互联网产品的用户数据包括使用互联网产品的每个用户的用户数据,从互联网产品的用户数据中筛选出首次登录互联网产品的日期为所选择的日期的新用户的用户数据;并检测新用户的用户数据是否表征新用户在业务指标指示的观察周期内产生了至少一个目标用户行为。
[0083]
如果新用户的用户数据表征新用户在业务指标指示的观察周期内产生至少一个目标用户行为,从新用户的用户数据中获取表征新用户在业务指标指示的观察周期内产生的至少一个目标用户行为的第一数据;以及根据新用户的用户数据获取表征该新用户在观察周期后产生的用于影响业务指标的指标信息的第二数据;第一数据和第二数据构成该新用户的用户行为数据。该新用户的用户行为数据可以认为是互联网产品的用户数据中与目标用户行为匹配的一条用户行为数据。
[0084]
用户行为数据表征用户在业务指标指示的观察周期内产生目标用户行为的频次以及在观察周期后该用户的用于对业务指标的指标信息产生影响的业务结果。用户的用户行为数据包括第一数据和第二数据,第一数据表征用户在业务指标指示的观察周期内产生目标用户行为的频次,第二数据可以为观察周期后该用户产生的用于影响业务指标的指标信息的业务结果。
[0085]
比如,业务指标为次周留存率时,若至少一个目标用户行为分别为用户行为1和用户行为2,则与至少一个目标用户行为匹配的用户行为数据包括第一数据和第二数据,第一数据为新用户在距离首次登录互联网产品的7天内执行用户行为1的频次和执行用户行为2的频次,第二数据表征新用户登录第8天在互联网产品的实际留存情况,该留存情况影响次周留存率这一业务指标的指标信息。新用户登录第8天在互联网产品的实际留存情况要么为留存,要么为未留存。若新用户在第8天登录互联网产品,则新用户登录第8天在互联网产品的实际留存情况为留存;若新用户在第8天未登录互联网产品,则新用户登录第8天在互联网产品的实际留存情况为未留存。
[0086]
示例性的,业务指标指示的观察周期可以为用户产生用于影响业务指标的指标信息的第二数据的等待时长。以业务指标与留存率相关为例,业务指标指示的观察周期可以为用户在如图4(a)-(b)所示的界面中填写的留存天数。
[0087]
进一步的,如果新用户的用户数据未表征新用户在业务指标指示的观察周期内产
生至少一个目标用户行为,确定该新用户的用户数据中不存在与目标用户行为匹配的用户行为数据。
[0088]
s303、基于至少一个用户行为数据对待训练业务结果预测模型进行训练生成业务结果预测模型;
[0089]
本申请实施例,将用户行为数据输入至待训练业务结果预测模型得到待训练业务结果预测模型对用户行为数据中第一数据的预测业务结果;以预测业务结果趋近于用户行为数据中第二数据为目标,对待训练业务结果预测模型进行训练生成业务结果预测模型。
[0090]
示例性的,业务结果预测模型可以为有监督模型,有监督模型可以为随机森林模型、xgboost模型等等。
[0091]
s304、从业务结果预测模型中获取目标用户行为与业务指标的关联信息,关联信息表征目标用户行为对业务指标的影响程度。
[0092]
以业务结果预测模型为随机森林模型为例,可以获取业务结果预测模型中基尼不纯度算法的输出结果,该输出结果包括至少一个目标用户行为中每个目标用户行为与业务指标的关联信息。
[0093]
示例性的,可以将至少一个用户行为数据作为随机森林模型需要的数据输入(样本),对随机森林模型进行训练以获取目标用户行为与业务指标的关联信息的过程如下:
[0094]
·
通过有放回抽样方法从样本中选取n个样本作为训练集;
[0095]
·
用上述训练集生成一棵决策树。生成过程包括:
[0096]
a,随机不重复地选择d个特征
[0097]
b,利用这d个特征分别对训练集进行划分,找到最佳的划分特征(基尼不纯度)
[0098]
·
若预设随机森林中决策树的个数为8,则重复前两个步骤共8次,8为随机森林中决策树的个数;
[0099]
说明:本申请实施例提供的一种用户行为分析方法只需要随机森林模型的训练模块(基尼不纯度算法),得到特征的重要度结果,不需要随机森林模型中的预测模块(即,不需要随机森林中利用基尼不纯度算法的输出结果进行业务结果预测的模块)。
[0100]
示例性的,用户行为可以称为特征,特征与业务指标的关联信息可以表征特征对业务指标的影响程度,即表征特征对业务指标的重要度,特征重要度的计算过程(基尼不纯度算法)如下:
[0101]
特征重要度(feature importance)用fi来表示,将gini指数用gi来表示,假设有m个特征x1,x2,x3,...,xm,要计算出每个特征xj的gini不纯度fi(j),也就是第j个特征在随机森林的所有决策树中节点分裂不纯度的平均改变量。
[0102]
gini指数的计算公式为:
[0103][0104]
其中,k表示有k个频次范围,pmk表示特征m当频次范围等于k时的用户占比,特征xj在频次范围k的重要度fijk:
[0105]
fijk=gik-gil-gir
[0106]
其中,gil和gir分别表示分枝后两个新节点gini指数。
[0107]
特征m的gini不纯度fi(m)为fijk在8颗决策树总和的平均值,特征m的gini不纯度
可以认为是特征m和业务指标的关联信息。
[0108]
参见图4(d)所示的分析结果显示界面,该分析结果显示界面中展示有用户点击如图4(b)所示的“分析左边中选中特征的重要度”按钮后,对图4(b)中选中的目标用户行为进行用户行为分析的重要度结果;重要度结果包括至少一个目标用户行为中每个目标用户行为与业务指标的关联信息。
[0109]
示例性的,目标用户行为与业务指标的关联信息表征目标用户行为对业务指标的影响程度。即,目标用户行为对业务指标的重要度。
[0110]
目标用户行为对业务指标的影响程度越大,说明目标用户行为对业务指标影响越大,目标用户行为对业务指标越重要,目标用户行为对业务指标的重要度越高。
[0111]
本申请实施例提供的一种用户行为分析方法,可以实现对用户行为对业务指标的重要度的自动分析,因为对业务指标重要度越高的用户行为产生影响业务指标的魔法数字的可能性越高,所以基于对用户行为的重要度的自动分析,为从众多用户行为中确定出产生魔法数字的用户行为提供便利。这样,不需要如现有技术一样完全依赖人工经验从众多用户行为中确定出产生影响业务指标的魔法数字的用户行为,降低了分析成本、提高了分析效率和分析结果的准确性。
[0112]
图5为本申请实施例提供的另一种用户行为分析方法流程图。
[0113]
如图5所示,该方法包括:
[0114]
s501、从多个用户行为中确定待进行互联网产品业务指标影响分析的目标用户行为;
[0115]
s502、获取互联网产品的用户数据中与目标用户行为匹配的至少一个用户行为数据;
[0116]
本申请实施例中,获取互联网产品中至少一个用户的用户数据,包括:确定数据获取条件,数据获取条件与用户数据来源渠道、产生用户数据的用户所属用户类别,和/或用户数据所属的互联网产品中的功能相关;获取互联网产品中满足数据获取条件的至少一个用户的用户数据。
[0117]
相应的,可以从至少一个用户的用户数据中获取与目标用户行为匹配的至少一个用户行为数据,基于此可以基于满足数据获取条件的用户行为数据进行用户行为分析。
[0118]
这种情况下,特征列表中用户行为的用户量为可以为至少一个用户的用户数据中表征产生该用户行为的用户数据的条数。
[0119]
示例性的,可以按照业务理解将用户进行分群,通常分群方式包括新老用户分群、按渠道分群、按功能模块分群等等,每个群体都通过相同的方式进行用户行为分析以寻找特征重要度和拐点。
[0120]
s503、基于至少一个用户行为数据对待训练业务结果预测模型进行训练生成业务结果预测模型;
[0121]
s504、从业务结果预测模型中获取目标用户行为与业务指标的关联信息,关联信息表征目标用户行为对业务指标的影响程度;
[0122]
本申请实施例提供的如图5所示的步骤s501-s504的执行过程与上述如图4所示的步骤s401-s404的执行过程相同,有关步骤s501-s504的具体执行方式,请参见上述描述,在此不做赘述。
[0123]
s505、将至少一个用户行为数据划分成多个用户行为数据集,一个用户行为数据仅属于一个用户行为数据集,不同用户行为数据集对应不同的频次范围;
[0124]
本申请实施例可以对目标用户行为进行分析,确定目标用户行为与业务指标的关联信息,如果目标用户行为的个数为至少一个,则确定至少一个目标用户行为中每个目标用户行为与业务指标的关联关系。
[0125]
结合图4(d),业务人员可以从至少一个目标用户行为中选取一个目标用户行为,比如用户可以选取“rqd_applaunched”这一目标用户行为,进而生成该被选取的目标用户行为的数据信息。参见图4(d),若业务人员想要生成数据信息的用户行为不为目标用户行为,可以从特征列表中勾选其想要生成数据信息的用户行为。
[0126]
示例性的,目标用户行为可以称为第一用户行为,待进行数据信息生成的用户行为称为第二用户行为,以业务指标与留存率相关,第二用户行为的数据信息可以包括留存曲线和渗透率。
[0127]
进一步的,参见图4(d)显示有两种用户行为数据划分方式,其中,一种用户行为数据划分方式为线性切分区间,另一种用户行为数据划分方式为按人数切分区间。
[0128]
示例性的,业务人员可以选取两种用户行为数据划分方式中的任意一种用户行为数据划分方式,参见图4(d)业务人员选取了按人数切分区间。
[0129]
更进一步的,业务人员还可以选取频次区间,参见图4(d)所示的特征区间范围可以认为是业务人员选取的频次区间,以便于实现对第二用户行为在被选取的频次区间的数据信息的生成。
[0130]
示例性的,若业务人员点击如图4(d)“点击查看留存曲线和渗透率”按钮,可以实现对第二用户行为在频次区间的数据信息的生成。
[0131]
本申请实施例,若用户行为数据划分方式为线性切分区间,则将至少一个用户行为数据划分成多个用户行为数据集的方式可以为:确定至少一个频次范围,不同频次范围之间不存在频次重叠;针对至少一个频次范围中的每个频次范围,将至少一个用户行为数据中表征第二用户行为的频次位于该频次范围的用户行为数据确定为属于该频次范围对应的用户行为数据集合。
[0132]
示例性的,可以依据频次间隔将频次区间划分成多个频次范围,频次范围由起始频次和结束频次构成,频次范围中结束频次和起始频次之间的差值可以认为是频次间隔,不同频次范围的频次间隔相同。
[0133]
相应的,针对至少一个用户行为数据中的每个用户行为数据执行如下过程:确定该用户行为数据表征的第二用户行为的频次所属的频次范围,该用户行为数据表征的第二用户行为的频次所属的频次范围可以认为是该用户行为数据所属的频次范围。这样,针对每个频次范围而言,属于该频次范围的所有用户行为数据可以构成该频次范围对应的用户行为集合。
[0134]
比如,若频次区间为【10,20),该频次区间被划分成两个频次范围,一个频次范围为【10,15),另一个频次范围为【15,20),且至少一个用户行为数据包括5个用户行为数据,这5个用户行为数据分别为用户行为数据1、用户行为数据2、用户行为数据3、用户行为数据4和用户行为数据5,若用户行为数据1表征执行第二用户行为的频次为10次、用户行为数据2表征执行第二用户行为的频次为16次、用户行为数据3表征执行第二用户行为的频次为12
次、用户行为数据4表征执行第二用户行为的频次为8次、用户行为数据5表征执行第二用户行为的频次为18次,则与【10,15)频次范围对应的用户行为数据集包括用户行为数据1和用户行为数据3;与【15,20)频次范围对应的用户行为数据集包括用户行为数据2和用户行为数据5,其中,用户行为数据4既不属于与【10,15)频次范围对应的用户行为数据集,也不属于与【15,20)频次范围对应的用户行为数据集。
[0135]
本申请实施例,若用户行为数据划分方式为按人数切分区间,则将至少一个用户行为数据划分成多个用户行为数据集的方式可以为:按照表征的第二用户行为的频次对至少一个用户行为数据进行排序生成第一数据序列;将第一数据序列切分成至少一个第二数据序列,不同的第二数据序列中用户行为数据的条数相同。
[0136]
示例性的,可以从至少一个用户行为数据中确定表征第二用户行为的频次在频次区间内的各个用户行为数据,进而按照表征的第二用户行为的频次对所确定的各个用户行为数据进行排序得到数据序列(该数据序列可以称为第一数据序列,也可以称为第一用户行为数据序列),进而将第一数据序列中用户行为数据的排序依次将第一数据序列切分成至少一个子数据序列(每个子数据序列可以称为一个第二数据序列,也可以称为第二用户行为数据序列),每个第二数据序列均可以看成一个用户行为数据集合,以一个第二数据序列为例,该第二数据序列中的用户行为数据构成一个用户行为数据集合,不同的第二数据序列中用户行为数据的条数相同。这种情况下,不同的用户行为数据集因用户行为数据的不同,所以不同用户行为数据集对应的频次范围不同。
[0137]
比如,至少一个用户行为数据包括5条用户行为数据,分别用户行为数据6、用户行为数据7、用户行为数据8、用户行为数据9和用户行为数据10,频次区间为【10,20),若用户行为数据6表征执行第二用户行为的频次为10次、用户行为数据7表征执行第二用户行为的频次为16次、用户行为数据8表征执行第二用户行为的频次为12次、用户行为数据9表征执行第二用户行为的频次为8次、用户行为数据10表征执行第二用户行为的频次为18次,则用户行为数据9表征的第二用户行为的频次没有位于频次区间,则忽略用户行为数据9,仅对用户行为数据6、用户行为数据7、用户行为数据8和用户行为数据10进行排序,如果按照表征第二用户行为的频次对用户行为数据进行升序排序的话,对用户行为数据6、用户行为数据7、用户行为数据8和用户行为数据10进行排序得到的第一数据序列依次由用户行为数据6、用户行为数据8、用户行为数据7和用户行为数据10构成。如果按照2个用户行为数据划分成一个用户行为数据集合为例,则第一数据序列被划分成的两个第二数据序列分别为第二数据序列1和第二数据序列2,第二数据序列1依次由用户行为数据6和用户行为数据8构成,第二数据序列2依次由用户行为数据7和用户行为数据10构成,用户行为数据6和用户行为数据8构成一个用户行为数据集合,用户行为数据7和用户行为数据10构成一个用户行为数据集合。
[0138]
s506、根据用户行为数据集中的用户行为数据生成与用户行为数据集相关的数据信息,数据信息包括业务指标的指标信息。
[0139]
示例性的,与用户行为数据集相关的数据信息不仅可以包括根据用户行为数据集计算的业务指标的指标信息,还可以包括用户行为数据集中用户行为数据条数。
[0140]
进一步的,本申请实施例提供的一种用户行为分析方法还可以在第一显示界面中展示数据信息图像,数据信息图像表征分别与至少一个用户行为数据集中每个用户行为数
据集相关的数据信息。
[0141]
示例性的,第一显示界面用于响应对数据信息图像中第一图像区域的选取操作,触发在第二显示界面中放大显示数据信息图像中位于第一图像区域的目标图像;第二显示界面用于响应对目标图像的拖动操作,显示目标图像中与拖动操作匹配的第二图像区域的图像细节。
[0142]
图4(e)提供一种第一显示界面示意图,该第一显示界面也可以称为数据信息显示界面。如图4(e)所示的第一显示界面中展示有数据信息图像,数据信息图像表征分别与至少一个用户行为数据集中每个用户行为数据集相关的数据信息,以业务指标与留存率相关为例,用户行为数据集相关的数据信息包括根据该用户行为数据集计算出的留存率和该用户行为数据集中用户行为数据的条数,用户行为数据集中用户行为数据的条数可以认为是用户行为数据集对应的用户数,也可以称为用户行为数据集的渗透率。至少一个用户行为数据集中各个用户行为数据的留存率连接成的曲线可以认为是留存曲线(retention rate)。
[0143]
参见图4(e),数据信息图像包括业务指标曲线和/或柱状图。业务指标曲线表征每个用户行为数据集在业务指标的指标信息。以业务指标与留存率相关为例,业务指标曲线可以为留存曲线。数据信息图像中柱状图表征至少一个用户行为数据集中每个用户行为数据集中用户行为数据的条数,用户行为数据集中用户行为数据的条数也可以认为是用户行为数据集对应的用户数。
[0144]
留存曲线对决策可以提供这样的帮助:a,寻找留存提升最快的点,结合用户的渗透率,引导这个点的用户流转往往能带来很大的业务提升。b,寻找留存曲线的拐点,引导用户流转到这一点roi一般比较好,越过这一点,再进行提升往往边际效应会下降。
[0145]
参见图4(f)所示的另一种第一显示界面示意图,第一界面显示界面示意图中数据信息图像可以直接选择区域放大查看。示例性的,可以响应业务人员选取数据信息图像中的第一图像区域的操作,放大显示数据信息图像中位于第一图像区域的目标图像。
[0146]
作为本申请实施例的一种优选实施方式,可以在第二显示界面中显示目标图像。
[0147]
示例性的,第二显示界面支持用鼠标上下左右拖动查看第二显示界面上放大显示的目标图像中不同区域的细节。比如,业务人员可以通过鼠标对第二显示界面上放大显示的目标图像执行拖动操作,以在第二显示界面上显示目标图像中与拖动操作相关区域的图像细节。即,显示目标图像中与拖动操作匹配的第二图像区域的图像细节。
[0148]
在第二显示界面中对目标图像执行拖动操作,确定目标图像中位于第二显示界面中心点的目标像素,从目标图像中确定以该目标像素为中心点的图像区域作为与拖动操作匹配的第二图像区域,放大显示目标图像中第二图像区域的图像细节。其中,目标图像中以目标像素为中心点的图像区域的面积可以为预设面积。有关,预设面积的具体大小发明人可根据自己的需求进行设置,在此不做限定。
[0149]
进一步的,本申请实施例提供的一种用户行为分析方法,还可以确定业务指标曲线的拐点,业务指标曲线为以频次范围为横坐标,以指标信息为纵坐标的曲线;将业务指标曲线中与拐点对应的频次范围确定为目标用户行为的魔法数字。
[0150]
示例性的,在确定至少一个目标用户行为中每个目标用户行为和业务指标的关联信息后,从至少一个目标用户行为中确定第二用户行为,以生成第二用户行为的数据信息,
数据信息包括业务指标曲线和渗透率。
[0151]
目标用户行为和业务指标的关联信息表征的目标用户行为对业务指标的影响程度越大,目标用户行为产生影响业务指标的魔法数字的可能性越大。
[0152]
示例性的,关联信息和影响程度正相关,关联信息越大,关联信息表征的影响程度越大。可以从至少一个目标用户行为中选取关联信息超过预先设置的目标关联信息的目标用户行为,分别将被选取的每个目标用户行为确定为一个第二用户行为,进而分别生成每个第二用户行为的数据信息。
[0153]
示例性的,还可以响应业务人员的选取操作从至少一个目标用户行为中确定被选取的每个目标用户行为作为一个第二用户行为。
[0154]
进一步的,业务人员还可以选取除至少一个目标用户行为以外的其他用户行为作为第二用户行为,在此不做限定。
[0155]
示例性的,可以确定第二用户行为的数据信息中业务指标曲线的拐点,业务指标曲线为以频次范围为横坐标,以指标信息为纵坐标的曲线;将业务指标曲线中与拐点对应的频次范围确定为第二用户行为的魔法数字。
[0156]
进一步的,可以判断第二用户行为和业务指标的关联信息是否超过目标关联信息,如果第二用户行为和业务指标的关联信息超过目标关联信息,确定第二用户行为的数据信息所包括的业务指标曲线中的拐点,将业务曲线中拐点对应的频次范围确定为第二用户行为的魔法数字。
[0157]
本申请实施例提供的一种用户行为分析方法还可能在实现对目标用户行为和业务指标的关联信息的分析的基础上,自动实现对目标用户行为中魔法数据的分析,由此,进一步降低了分析成本、提高了分析效率和分析结果的准确性。
[0158]
示例性的,若互联网产品的用户数据来源于tdw时,从tdw中获取到的用户数据可以认为是hdfs数据,下面对获取hdfs数据的方式进行说明。
[0159]
简单地说,只需要指定互联网产品的用户数据所保存的hdfs地址,接下来就可以完成上述的特征重要度分析和留存曲线的分析。但很多时候我们所知道的出库地址是一个大的路径,可以利用如图6(a)所示的hdfs页面上“展示文件路径列表”找到所需的数据文件的路径。当然,如果原本就知道数据文件的hdfs地址,完全可以跳过这一步直接后面的分析。
[0160]
将上面复制的数据文件地址粘贴到输入框中就可以进行分析了。因为tdw的出库任务出库的文件是不带header(表头)的,所以需要填写数据文件的特征header。注意数据文件中必须有一列是retain_label,用1和0表示是否留存。进一步的,业务人员可以预览数据,也可以跳过预览直接开始后面的分析,分析结果参见图6(b)。需要说明的是,后面的分析流程与上文描述的分析流程并无二致,唯一的不同就是分析留存曲线时是填入特征名称,而不是从下拉框选取。
[0161]
图7为本申请实施例提供的一种用户行为分析工具架构图。
[0162]
如图7所示,该用户行为分析工具支持用户多种数据源输入,包括灯塔数据源、tdw和本地文件,将数据进行用户分群和特征构造。以业务指标与留存率相关为例,通过随机森林、xgboost算法、决策树等,输出特征重要度,以及频率、留存率的二维关系曲线,根据分析结论进行线上行动闭环。即,线上应用分析结论。
[0163]
示例性的,该用户行为分析工具进行用户行为分析的过程如下:
[0164]
1、用户配置文件输入
[0165]
原始用户行为配置:指定原始数据(互联网产品的用户数据)、指定特征数据。
[0166]
2、数据准备:根据指定的原始数据和特征数据进行用户分群和特征构造
[0167]
示例性的,参见图8,按照业务理解将用户进行分群,通常分群方式包括新老用户分群、按渠道分群、按功能模块分群等等,每个群体都通过相同的方式寻找特征重要度和拐点;根据分析目标定义模型的0/1label,如分析目标是新增次留,那第二天留下来的用户是正样本1,未留下来的用户是负样本0;将用户数据转化为业务结果预测模型需要的特征格式,宽表格式:用户id、行为id1-value、行为id2-value

。其中,value为频次。
[0168]
3、业务结果预测模型训练输出特征重要度
[0169]
通过1准备好业务结果预测模型需要的数据输入,随机森林树的个数可以指定为8,树的深度在满足不纯度条件后自动停止,构建随机森林模型,通过计算gini不纯度得到特征重要度。
[0170]
4、频率和留存率二维曲线确定拐点
[0171]
统计重要的用户行为不同频率对应的留存率和用户量,频率分段是用户可以指定的,比如观看时长(分钟)这个特征,按照5来划分是指每5分钟为一个区间:1~5、6~10、11~15

,统计不同区间用户群的用户量和该用户群的留存率,将数据可视化如图9所示,观察图中曲线寻找拐点,对应的横轴特征频率,就是魔法数字,即当用户行为发生到该频率,留存会有大幅提升。要注意的是,这里是相关关系,不是因果关系。
[0172]
参见图10(a)为本申请实施例提供的一种浏览器新增用户留存分析结果示意图,该浏览器新增用户留存分析结果中显示有通过用户行为分析工具分析出的影响浏览器新增用户留存的各个重要的用户行为。基于该浏览器新增用户留存分析结果,在浏览器网页的小房子图标处增加标记信息【比如,如图10(b)在浏览器网页的小房子图标处增加一个小点】,以引导用户点击小房子图标,经统计分析,通过在浏览器网页的小房子图标处增加标记信息,可以使得对feeds置顶率提升1.4%,资讯次留提升0.4%。并且,本申请实施例提供的用户行为分析工具可以实现对用户行为的自动分析,有效缩短了纯人工分析的周期(比如,从1周缩短至1.5天)。
[0173]
图11为本申请实施例提供的一种用户行为分析装置的结构示意图。
[0174]
如图11所示,该装置包括:
[0175]
第一确定单元1101,用于从多个用户行为中确定待进行互联网产品业务指标影响分析的目标用户行为;
[0176]
第一获取单元1102,用于获取互联网产品的用户数据中与目标用户行为匹配的至少一个用户行为数据,用户行为数据表征用户在业务指标指示的观察周期内产生目标用户行为的频次以及在观察周期后用于对业务指标的指标信息产生影响的用户的业务结果;
[0177]
第一训练单元1103,用于基于至少一个用户行为数据对待训练业务结果预测模型进行训练生成业务结果预测模型;
[0178]
第二获取单元1104,用于从业务结果预测模型中获取目标用户行为与业务指标的关联信息,关联信息表征目标用户行为对业务指标的影响程度。
[0179]
进一步的,本申请实施例提供的用户行为分析装置还包括:
[0180]
划分单元,用于将至少一个用户行为数据划分成多个用户行为数据集,一个用户行为数据仅属于一个用户行为数据集,不同用户行为数据集对应不同的频次范围;
[0181]
生成单元,用于根据用户行为数据集中的用户行为数据生成与用户行为数据集相关的数据信息,数据信息包括业务指标的指标信息。
[0182]
在本申请实施例中,优选的,划分单元,包括:
[0183]
排序单元,用于按照表征的目标用户行为的频次对至少一个用户行为数据进行排序生成第一数据序列;
[0184]
切分单元,用于将第一数据序列切分成至少一个第二数据序列,不同的第二数据序列中用户行为数据的条数相同;
[0185]
或者,
[0186]
第二确定单元,用于确定至少一个频次范围,不同频次范围之间不存在频次重叠;
[0187]
第三确定单元,用于针对至少一个频次范围中的每个频次范围,将至少一个用户行为数据中表征目标用户行为的频次位于该频次范围的用户行为数据确定为属于该频次范围对应的用户行为数据集合。
[0188]
在本申请实施例中,优选的,与用户行为数据集相关的数据信息还包括用户行为数据集中用户行为数据条数。
[0189]
进一步的,本申请实施例提供的用户行为分析装置还包括:
[0190]
展示单元,用于在第一显示界面中展示数据信息图像,数据信息图像表征分别与至少一个用户行为数据集中每个用户行为数据集相关的数据信息;
[0191]
其中,第一显示界面用于响应对数据信息图像中第一图像区域的选取操作,触发在第二显示界面中放大显示数据信息图像中位于第一图像区域的目标图像;第二显示界面用于响应对目标图像的拖动操作,显示目标图像中与拖动操作匹配的第二图像区域的图像细节。
[0192]
在本申请实施例中,优选的,数据信息图像包括业务指标曲线和/或柱状图;
[0193]
其中,业务指标曲线表征每个用户行为数据集在业务指标的指标信息;柱状图表征每个用户行为数据集中用户行为数据条数。
[0194]
进一步的,本申请实施例提供的用户行为分析装置还包括:
[0195]
第四确定单元,用于确定业务指标曲线的拐点,业务指标曲线为以频次范围为横坐标,以指标信息为纵坐标的曲线;
[0196]
第五确定单元,用于将业务指标曲线中与拐点对应的频次范围确定为目标用户行为的魔法数字。
[0197]
在本申请实施例中,优选的,第一获取单元,包括:
[0198]
第三获取单元,用于获取互联网产品中至少一个用户的用户数据;
[0199]
检测单元,用于检测用户的用户数据是否表征用户在业务指标指示观察周期内产生至少一个目标用户行为;
[0200]
第四获取单元,用于如果用户的用户数据表征用户在业务指标指示观察周期内产生至少一个目标用户行为,从用户数据中获取表征用户在业务指标指示的观察周期内产生的至少一个目标用户行为的第一数据;
[0201]
第五获取单元,用于从用户的用户数据中获取表征用户在观察周期后产生的用于
影响业务指标的指标信息的第二数据;第一数据和第二数据构成用户的用户行为数据;
[0202]
第六确定单元,用于如果用户的用户数据未表征用户在业务指标指示的观察周期内产生至少一个目标用户行为,确定用户的用户数据中不存在与目标用户行为匹配的用户行为数据。
[0203]
在本申请实施例中,优选的,第一训练单元,包括:
[0204]
第七确定单元,用于将用户行为数据输入至待训练业务结果预测模型得到待训练业务结果预测模型对用户行为数据中第一数据的预测业务结果;
[0205]
第二训练单元,用于以预测业务结果趋近于用户行为数据中第二数据为目标,对待训练业务结果预测模型进行训练生成业务结果预测模型。
[0206]
在本申请实施例中,第二获取单元,包括:
[0207]
第六获取单元,用于获取业务结果预测模型中基尼不纯度算法的输出结果,输出结果包括至少一个目标用户行为中每个目标用户行为与业务指标的关联信息。
[0208]
在本申请实施例中,优选的,第三获取单元,包括:
[0209]
第八确定单元,用于确定数据获取条件,数据获取条件与用户数据来源渠道、产生用户数据的用户所属用户类别,和/或用户数据所属的互联网产品中的功能相关;
[0210]
第七获取单元,用于获取互联网产品中满足数据获取条件的至少一个用户的用户数据。
[0211]
在本申请实施例中,优选的,第一确定单元,包括:
[0212]
显示单元,用于显示预先设置的多个用户行为以及每个用户行为的用户量,用户行为的用户量指示满足数据获取条件且表征产生用户行为的用户数据的条数;
[0213]
第九确定单元,用于基于用户行为的用户量在多个用户行为中进行用户行为选取操作,将被选取的用户行为确定为待进行互联网产品业务指标影响分析的目标用户行为。
[0214]
如图12所示,为本申请实施例提供的计算机设备的一种实现方式的结构图,该计算机设备包括:
[0215]
存储器1201,用于存储程序;
[0216]
处理器1202,用于执行程序,程序具体用于:
[0217]
从多个用户行为中确定待进行互联网产品业务指标影响分析的目标用户行为;
[0218]
获取互联网产品的用户数据中与目标用户行为匹配的至少一个用户行为数据,用户行为数据表征用户在业务指标指示的观察周期内产生目标用户行为的频次以及在观察周期后用于对业务指标的指标信息产生影响的用户的业务结果;
[0219]
基于至少一个用户行为数据对待训练业务结果预测模型进行训练生成业务结果预测模型;
[0220]
从业务结果预测模型中获取目标用户行为与业务指标的关联信息,关联信息表征目标用户行为对业务指标的影响程度。
[0221]
处理器1202可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit)。
[0222]
控制设备还可以包括通信接口1203以及通信总线1204,其中,存储器1201、处理器1202以及通信接口1203通过通信总线1204完成相互间的通信。
[0223]
本申请实施例还提供了一种可读存储介质,其上存储有计算机程序,计算机程序
被处理器加载并执行,实现上述的用户行为分析方法的各步骤,具体实现过程可以参照上述实施例相应部分的描述,本实施例不做赘述。
[0224]
本申请还提出了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述用户行为分析方法方面或用户行为分析装置方面的各种可选实现方式中所提供方法,具体实现过程可以参照上述相应实施例的描述,不做赘述。
[0225]
本申请提供一种用户行为分析方法、装置、计算机设备及存储介质,从多个用户行为中确定待进行互联网产品业务指标影响分析的目标用户行为;并获取互联网产品的用户数据中与目标用户行为匹配的至少一个用户行为数据;进而基于至少一个用户行为数据对待训练业务结果预测模型进行训练生成业务结果预测模型;以从业务结果预测模型中获取目标用户行为与业务指标的关联信息,实现对用户行为对业务指标的影响程度的自动分析,为魔法数据的分析提供依据,不仅降低了分析成本,而且提高了分析效率和分析结果的准确性。
[0226]
以上对本发明所提供的一种用户行为分析方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
[0227]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0228]
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0229]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1