基于TF-IDF的用户价值评估方法及系统实现方法与流程

文档序号:33001479发布日期:2023-01-18 01:21阅读:107来源:国知局
基于TF-IDF的用户价值评估方法及系统实现方法与流程
基于tf-idf的用户价值评估方法及系统实现方法
技术领域
1.本发明涉及用户信息价值评估相关技术领域,尤其涉及一种基于tf-idf的用户价值评估方法及系统实现方法。


背景技术:

2.tf-idf(term frequency

inverse document frequency)是一种用于信息检索和数据挖掘的常用加权技术。
3.近年来,评估用户价值的方式主要是对经典模型或技术的优化和升级,引用其他技术领域方法的文献或者专利较为缺乏。
4.经过海量检索,发现现有技术公开号为cn109993582a,公开一种基于rfmca模型的多指标客户细分方法,包括:获取网络数据与本地数据,构造样本数据,并对样本数据进行预处理;对预处理后的数据进行分析,并构建基于rfmca模型的多指标客户细分模型;对多指标客户细分模型的结果进行评估,得到细分后的数据,并与传统细分指标进行对比分析;对细分后的数据进行类内关联规则挖掘。
5.发现现有技术公开号为cn112184046a,公开广告业务用户价值评估方法、装置、设备及存储介质,包括以下步骤:获取用户与广告业务的关联指标,利用所述关联指标创建指标向量;利用层次分析法对所述关联指标进行计算,获得所述关联指标的对应权重向量;根据所述指标向量与权重向量计算用户价值分数。
6.综上所述,tf-idf模型是一种统计方法,但目前主要被广泛应用在自然语言处理、信息检索领域。在自然语言处理领域,常用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度;在信息检索领域,常作为文件与用户查询之间相关程度的度量或评级,该tf-idf还尚未在用户价值评估领域被广泛应用。
7.有鉴于上述的缺陷,本设计人积极加以研究创新,以期创设一种基于tf-idf的用户价值评估方法及系统实现方法,使其更具有产业上的利用价值。


技术实现要素:

8.为解决上述技术问题,本发明的目的是提供一种基于tf-idf的用户价值评估方法及系统实现方法。
9.为实现上述目的,本发明采用如下技术方案:
10.本发明目的之一:
11.一种基于tf-idf的用户价值评估方法,依次包括以下步骤:
12.步骤s101、获取用户终端行为数据;
13.步骤s102、进行用户分组;
14.步骤s103、将行为依据发生时间升序排列,并以用户为单位生成行为组合;
15.步骤s104、计算时序组合的tf-idf权重值,计算时序组合的转化率;
16.步骤s105、结合步骤s104结果,以tf-idf为纵轴,以转化率为横轴,绘制四象限图;
17.步骤s106、根据可视化呈现结果,进行行为价值分析,实现用户价值评估方法。
18.作为本发明的进一步改进,步骤s101中采集用户在终端平台发生的行为数据;
19.步骤s102中以用户为单元进行数据汇总,并生成行为序列文本;
20.步骤s103中依据n-gram思想,对步骤s102中获得的行为序列文本,从第一项开始,每次向后移动一个行为,生成多个时序行为组合数据;
21.步骤s104中依据tf-idf算法计算时序组合的权重值,依据业务系统计算时序组合的转化率;
22.步骤s105中依据可视化象限图的方式抽象化分析问题、提供决策支持。
23.作为本发明的进一步改进,在步骤s104的tf-idf算法中,tf-idf表示为tf*idf;
24.tf表示用户某一行为或行为组合的出现频率,计算公式为tf
i,j
=n
ij
/∑kn
kj
,其中,n
ij
表示用户发生某一行为或行为组合的次数,∑kn
kj
表示用户发生所有行为或行为组合的总次数;
25.idf是逆文本频率指数,计算公式为idfi=lg|d|/|1+d|(j:ti∈dj),其中,d表示发生行为或行为组合数据的用户总数,d表示发生某种行为或行为组合的用户数。
26.作为本发明的进一步改进,在步骤s105中的可视化象限图方法为四象限分析法,四象限图分析法是在平面内通过对两个相互独立的指标的正反两个方向进行两两组合,最终将事物划分到四个组合区域,对每个区域进行分析并制定相应的策略。
27.本发明目的之二:
28.一种基于tf-idf的用户价值评估系统实现方法,依次包括以下步骤:
29.步骤s101、获取用户终端行为数据;
30.步骤s102、进行用户分组;
31.步骤s103、将行为依据发生时间升序排列,并以用户为单位生成行为组合;
32.步骤s104、计算时序组合的tf-idf权重值,计算时序组合的转化率;
33.步骤s107、根据tf-idf值为时序组合的转化率赋权;
34.步骤s108、识别高价值用户行为组合,实现用户价值评估系统。
35.作为本发明的进一步改进,步骤s101中采集用户在终端平台发生的行为数据;
36.步骤s102中以用户为单元进行数据汇总,并生成行为序列文本;
37.步骤s103中依据n-gram思想,对步骤s102中获得的行为序列文本,从第一项开始,每次向后移动一个行为,生成多个时序行为组合数据;
38.步骤s104中依据tf-idf算法计算时序组合的权重值,依据业务系统计算时序组合的转化率。
39.作为本发明的进一步改进,在步骤s104的tf-idf算法中,tf-idf表示为tf*idf;
40.tf表示用户某一行为或行为组合的出现频率,计算公式为tf
i,j
=n
ij
/∑kn
kj
,其中,n
ij
表示用户发生某一行为或行为组合的次数,∑kn
kj
表示用户发生所有行为或行为组合的总次数;
41.idf是逆文本频率指数,计算公式为idfi=lg|d|/|1+d|(j:ti∈dj),其中,d表示发生行为或行为组合数据的用户总数,d表示发生某种行为或行为组合的用户数。
42.作为本发明的进一步改进,在步骤s107中,赋权过程的计算公式为:新转化率=转化率*tfidf,使用tfidf值弱化常见行为,该赋权过程有助于保留重要但不常见的行为。
43.借由上述方案,本发明至少具有以下优点:
44.1、本发明通过结合组合tf-idf权重值和转化率绘制象限图的方式,使得业务人员无需对原始数据进行预处理,便于快速来识别用户的高价值组合行为;
45.2、本发明可以快速实现单用户的行为价值评估,有助于对业务人员洞察用户行为偏好,从而有针对性地计划营销活动,挖掘有意向的潜在高价值客户。
46.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
47.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
48.图1是本发明一种基于tf-idf的用户价值评估方法及系统实现方法的流程图;
49.图2是本发明一种基于tf-idf的用户价值评估方法的流程图;
50.图3是本发明一种基于tf-idf的用户价值评估系统实现方法的流程图;
51.图4是本发明第一实施例的示意图;
52.图5是本发明第二实施例的示意图;
53.图6是本发明第三实施例的示意图。
具体实施方式
54.下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
55.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
56.实施例
57.如图1~图6所示,
58.本发明目的之一:
59.如图2,一种基于tf-idf的用户价值评估方法,依次包括以下步骤:
60.步骤s101、获取用户终端行为数据;
61.步骤s102、进行用户分组;
62.步骤s103、将行为依据发生时间升序排列,并以用户为单位生成行为组合;
63.步骤s104、计算时序组合的tf-idf权重值,计算时序组合的转化率;
64.步骤s105、结合步骤s104结果,以tf-idf为纵轴,以转化率为横轴,绘制四象限图;
65.步骤s106、根据可视化呈现结果,进行行为价值分析,实现用户价值评估方法。
66.优选的,步骤s101中采集用户在终端平台发生的行为数据;
67.步骤s102中以用户为单元进行数据汇总,并生成行为序列文本;
68.步骤s103中依据n-gram思想,对步骤s102中获得的行为序列文本,从第一项开始,每次向后移动一个行为,生成多个时序行为组合数据;
69.步骤s104中依据tf-idf算法计算时序组合的权重值,依据业务系统计算时序组合的转化率;
70.步骤s105中依据可视化象限图的方式抽象化分析问题、提供决策支持。
71.优选的,在步骤s104的tf-idf算法中,tf-idf表示为tf*idf;
72.tf表示用户某一行为或行为组合的出现频率,计算公式为tf
i,j
=n
ij
/∑kn
kj
,其中,n
ij
表示用户发生某一行为或行为组合的次数,∑kn
kj
表示用户发生所有行为或行为组合的总次数;
73.idf是逆文本频率指数,计算公式为idfi=lg|d|/|1+d|(j:ti∈dj),其中,d表示发生行为或行为组合数据的用户总数,d表示发生某种行为或行为组合的用户数。
74.优选的,在步骤s105中的可视化象限图方法为四象限分析法,四象限图分析法是在平面内通过对两个相互独立的指标(属性、性质、特征)的正反两个方向进行两两组合,最终将事物划分到四个组合区域,对每个区域进行分析并制定相应的策略。传统分析中采用的散点图较好展示数据的分布和聚合情况,在散点图横轴和纵轴添加中位数(或者平均值)辅助线,即可将二维平面划分为四个象限,实现可视化象限图方法。结合四象限图指标,可根据象限内容,提供决策建议。
75.本发明目的之二:
76.如图3,一种基于tf-idf的用户价值评估系统实现方法,依次包括以下步骤:
77.步骤s101、获取用户终端行为数据;
78.步骤s102、进行用户分组;
79.步骤s103、将行为依据发生时间升序排列,并以用户为单位生成行为组合;
80.步骤s104、计算时序组合的tf-idf权重值,计算时序组合的转化率;
81.步骤s107、根据tf-idf值为时序组合的转化率赋权;
82.步骤s108、识别高价值用户行为组合,实现用户价值评估系统。
83.优选的,步骤s101中采集用户在终端平台发生的行为数据;
84.步骤s102中以用户为单元进行数据汇总,并生成行为序列文本;
85.步骤s103中依据n-gram思想,对步骤s102中获得的行为序列文本,从第一项开始,每次向后移动一个行为,生成多个时序行为组合数据;
86.步骤s104中依据tf-idf算法计算时序组合的权重值,依据业务系统计算时序组合的转化率。
87.优选的,在步骤s104的tf-idf算法中,tf-idf表示为tf*idf;
88.tf表示用户某一行为或行为组合的出现频率,计算公式为tf
i,j
=n
ij
/∑kn
kj
,其中,n
ij
表示用户发生某一行为或行为组合的次数,∑kn
kj
表示用户发生所有行为或行为组合的总次数;
89.idf是逆文本频率指数,计算公式为idfi=lg|d|/|1+d|(j:ti∈dj),其中,d表示发
生行为或行为组合数据的用户总数,d表示发生某种行为或行为组合的用户数。
90.优选的,在步骤s107中,赋权过程的计算公式为:新转化率=转化率*tfidf,使用tfidf值弱化常见行为,该赋权过程有助于保留重要但不常见的行为。
91.参照图1所示,一种基于tf-idf的用户价值评估方法及评估系统实现方法,包括以下步骤:
92.步骤s101、采集用户在终端平台发生的行为数据;
93.步骤s102、依据指定规则,以用户为单元进行数据汇总,并生成行为序列文本;
94.步骤s103、依据n-gram思想,对步骤s102获得的行为序列文本,从第一项开始,每次向后移动一个行为,生成多个时序行为组合数据;
95.步骤s104、依据tf-idf算法计算时序组合的权重值,依据业务系统计算时序组合的转化率;
96.步骤s105、结合s104步骤结果,以tf-idf权重值为纵轴,以转化率为横轴,绘制象限图;
97.步骤s106、根据可视化呈现结果,进行行为价值分析,完成用户价值评估方法;
98.步骤s107、根据tf-idf值为时序组合的转化率赋权;
99.步骤s108、识别高价值用户行为组合,实现用户价值评估系统。
100.本实例提供了一种用户价值评估的方法,通过行为组合tf-idf权重值和转化率相结合绘制象限图的方式,使得业务人员无需对原始数据进行预处理,便于快速来识别用户的高价值组合行为;同时本实例快速实现单用户的行为价值评估,有助于对业务人员洞察用户行为偏好,从而有针对性地计划营销活动,挖掘有意向的潜在高价值客户。
101.作为上述实施例的一种可行的实现方式,tf-idf实际上就是tf*idf。
102.在常规的情况下:
103.其中,tf是词频(term frequency),表示词条在文档d中出现的频率,计算公式为tf
i,j
=n
ij
/∑kn
kj
,公式中n
ij
表示某个词在文档中出现的次数,∑kn
kj
表示文档中所有词出现的次数总和。
104.其中,idf是逆文本频率指数(inverse document),其计算公式为idfi=lg|d|/|1+d|(j:ti∈dj),公式中d表示语料中所有的文档总数,d表示语料中出现某个词的文档数量,公式中的1是为了防止分母为0的情况,lg是以10为底的对数,具有类似于增强区分度的作用。它的主要思想是如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t具有很好的类别区分能力。
105.本发明是tf-idf算法的新应用,因而以上所述指标均被赋予新含义。其中,tf是用户某一行为或行为组合的出现频率,n
ij
表示用户发生某一行为或行为组合的次数,∑kn
kj
表示用户发生所有行为或行为组合的总次数,d表示发生行为或行为组合数据的用户总数,d表示发生某种行为或行为组合的用户数。
106.其中,所述赋权过程的计算公式为:新转化率=转化率*tfidf,使用tfidf值弱化常见行为,该赋权过程有助于保留重要但不常见的行为。若某行为或组合行为是用户的高频行为,在整个用户群体中是低频出现,那么这个行为将具有高tfidf值,它对这个用户来说,就是关键行为。
107.本发明的第一实施例:参照图4所示,在终端平台发生的行为数据需要进行一步操
作,即以用户为单元,汇总该用户所有终端行为数据,并将行为数据依据时间升序排列,最终生成以用户为单元的行为序列文本集合。
108.本发明的第二实施例:参照图5所示,作为上述实施例的一种可行的实现方式,用户时序行为组合数据生成的方式如下,基于生成的以用户为单元的序列文本,依据n-gram思想,将连续的n个用户行为组合在一起形成一个带有时序的行为组合,从第一项开始,每次向后移动一个行为,生成多个时序行为组合数据。
109.本发明的第三实施例:参考图6所示,作为上述实施例的一种可行的实现方式,可视化象限图分析的方式如下,基于生成的组合行为tf-idf和转化率,以tf-idf权重值为纵轴,以转化率为纵轴,绘制散点图,将横轴与纵轴指标中位数作为辅助线添加,可视化结果将组合行为分布到4个象限,并快速帮助业务人员判断高价值、潜在高价值和低价值行为组合,评估用户价值。
110.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指列所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
111.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接:可以是机械连接,也可以是电连接,可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
112.以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1