业务标签的生成方法及其装置、计算机存储介质、电子终端与流程

文档序号:30848244发布日期:2022-07-23 03:42阅读:83来源:国知局
业务标签的生成方法及其装置、计算机存储介质、电子终端与流程

1.本技术涉及数据处理技术领域,具体涉及一种业务标签的生成方法及其装置、计算机存储介质、电子终端。


背景技术:

2.在企业信息网站与crm(customer relationship management,中文为:客户关系管理)系统的业务场景中,为了实现匹配用户的兴趣推荐、公司间相似度计算、搜索结果的排序等等,需要针对目标公司生成业务标签。但是,由于生成业务标签依赖的数据(比如针对行业的业务标签是公司侧数据中的经营范围数据)是非结构化数据,使其无法真正运用到实际生产中去,因此难以有效地生成业务标签,或者生成难度较大。


技术实现要素:

3.本技术实施例提供一种业务标签的生成方法及其装置、计算机存储介质、电子终端,用以克服或者缓解现有技术中存在的上述技术问题。
4.本技术采用的技术方案为:
5.一种业务标签的生成方法,其包括:
6.对每个目标公司的描述文本进行分词处理,得到若干特征词;
7.根据每个特征词在所有目标公司的描述文本中出现的次数,确定所述每个特征词的全局词频;
8.根据所述每个特征词在同一统计属性的目标公司对应的描述文本中出现的次数,确定所述每个特征词的局部词频;
9.针对归属同一统计属性的每一目标公司,根据其对应的每个特征词的全局词频和局部词频,确定所述每个特征词对业务标签生成的贡献度;
10.根据所述贡献度,确定归属同一统计属性的目标公司的业务标签。
11.可选地,所述根据其对应的每个特征词的全局词频和局部词频,确定所述每个特征词对业务标签生成的贡献度,包括:根据其对应的每个特征词的全局词频和局部词频,计算所述每个特征词的词分值,以将所述词分值作为该特征词对每一目标公司对业务标签生成的贡献度。
12.可选地,所述根据其对应的每个特征词的全局词频和局部词频,计算所述每个特征词的词分值,包括:基于y=f2*log(1/f1),根据其对应的每个特征词的全局词频和局部词频,计算所述每个特征词的词分值,其中,f1为所述全局词频,f2为所述局部词频,y为所述词分值。
13.可选地,所述根据所述贡献度,确定归属同一统计属性的目标公司的业务标签,包括:
14.根据所述贡献度的大小,从归属同一统计属性的目标公司对应的所有特征词中筛选出贡献度大的若干个特征词,以作为该行业或者同一地域的业务关键词;
15.基于所述业务关键词对每个目标公司的特征词进行过滤,只保留每个目标公司的特征词中与所述业务关键词相同的特征词,以作为该目标公司的业务标签。
16.可选地,所述根据所述贡献度,确定归属同一统计属性的目标公司的业务标签之后,还包括:
17.确定目标用户的行为指向的目标公司;
18.根据所述目标用户的行为指向的目标公司的业务标签,确定所述目标用户的兴趣标签。
19.可选地,所述根据所述贡献度,确定归属同一统计属性的目标公司的业务标签之后,还包括:
20.计算为所述目标用户的不同行为分配的权重;
21.所述根据所述目标用户的行为指向的目标公司的业务标签,确定所述目标用户的兴趣标签,包括:基于不同行为对应的权重,根据所述目标用户的行为指向的目标公司的业务标签,确定所述目标用户的兴趣标签。
22.可选地,所述计算为所述目标用户的不同行为分配的权重,包括:
23.确定所述不同行为的重要程度,以及所述不同行为的时效性;
24.基于所述重要程度以及所述时效性,计算为所述目标用户的不同行为分配的权重。
25.可选地,所述基于不同行为对应的权重,根据所述目标用户的行为指向的目标公司的业务标签,确定所述目标用户的兴趣标签,包括:
26.针对所述目标用户的不同行为指向的同一目标公司,将每一行为对应的权重作为该目标公司的各个业务标签对确定所述兴趣标签的贡献度;
27.针对所述目标用户的不同行为指向的所有目标公司,对所有所述业务标签对确定所述兴趣标签的贡献度进行排序,确定其中贡献度大的若干个业务标签作为所述目标用户的兴趣标签。
28.一种业务标签的生成装置,其包括:
29.分词单元,用于对每个目标公司的描述文本进行分词处理,得到若干特征词;
30.第一词频统计单元,用于根据每个特征词在所有目标公司的描述文本中出现的次数,确定所述每个特征词的全局词频;
31.第二词频统计单元,用于根据所述每个特征词在同一统计属性的目标公司对应的描述文本中出现的次数,确定所述每个特征词的局部词频;
32.贡献度确定单元,用于针对归属同一统计属性的每一目标公司,根据其对应的每个特征词的全局词频和局部词频,确定所述每个特征词对业务标签生成的贡献度;
33.业务标签确定单元,用于根据所述贡献度,确定归属同一统计属性的目标公司的业务标签。
34.一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施本技术实施例任一所述的方法。
35.一种电子终端,所述电子终端包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施本技术实施例任一所述的方法。
36.本技术实施例中,通过对每个目标公司的描述文本进行分词处理,得到若干特征词;根据每个特征词在所有目标公司的描述文本中出现的次数,确定所述每个特征词的全局词频;根据所述每个特征词在同一统计属性的目标公司对应的描述文本中出现的次数,确定所述每个特征词的局部词频;针对归属同一统计属性的每一目标公司,根据其对应的每个特征词的全局词频和局部词频,确定所述每个特征词对业务标签生成的贡献度;根据所述贡献度,确定归属同一统计属性的目标公司的业务标签,从而实现了业务标签的有效生成,或者降低了业务标签的生成难度。
附图说明
37.图1为本技术实施例的应用场景示意图;
38.图2为本技术实施例一种业务标签的生成方法流程示意图;
39.图3为本技术实施例中确定业务标签的流程示意图;
40.图4为本技术实施例提供的一种用户的兴趣标签生成方法流程示意图;
41.图5为本技术实施例提供的一种计算权重的流程示意图;
42.图6为本技术实施例确定目标用户的兴趣标签步骤的流程示意图;
43.图7为本技术实施例一种业务标签的生成装置的结构示意图;
44.图8为本技术实施例中电子终端的结构示意图。
具体实施方式
45.为使本技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
46.本技术实施例中,通过对每个目标公司的描述文本进行分词处理,得到若干特征词;根据每个特征词在所有目标公司的描述文本中出现的次数,确定所述每个特征词的全局词频;根据所述每个特征词在同一统计属性的目标公司对应的描述文本中出现的次数,确定所述每个特征词的局部词频;针对归属同一统计属性的每一目标公司,根据其对应的每个特征词的全局词频和局部词频,确定所述每个特征词对业务标签生成的贡献度;根据所述贡献度,确定归属同一统计属性的目标公司的业务标签,从而实现了业务标签的有效生成,或者降低了业务标签的生成难度。
47.可选地,所述同一统计属性包括同一行业、同一地域中至少其一。
48.图1为本技术实施例的应用场景示意图;如图1所示,在所述应用场景中设置有后台服务端101以及前端的应用程序,后台服务端至少用于存储每个目标公司的描述文本,所述前端的应用程序可以安装在电子终端102上,在使用所述应用程序的过程中,以提供企业信息网站或者crm系统。另外后台服务端通过执行业务标签的生成方法,通过对每个目标公司的描述文本进行分词处理,得到若干特征词;根据每个特征词对业务标签生成的贡献度,确定归属同一统计属性的目标公司的业务标签,从而实现了业务标签的有效生成,或者降低了业务标签的生成难度。
49.其中,所述方法还包括:针对归属同一统计属性的每一目标公司,根据其对应的每个特征词的全局词频和局部词频,确定所述每个特征词对业务标签生成的贡献度。该步骤可以包括在根据每个特征词对业务标签生成的贡献度,确定归属同一统计属性的目标公司
的业务标签的步骤中,或者在其之前执行。
50.所述方法还包括:
51.根据每个特征词在所有目标公司的描述文本中出现的次数,确定所述每个特征词的全局词频;
52.根据所述每个特征词在同一统计属性的目标公司对应的描述文本中出现的次数,确定所述每个特征词的局部词频。
53.上述确定全局词频和局部词频的步骤可以包括在针对归属同一统计属性的每一目标公司,根据其对应的每个特征词的全局词频和局部词频,确定所述每个特征词对业务标签生成的贡献度的步骤中,或者在其之前执行。
54.图1实施例中,所述后台服务端可以为独立的服务器,或者服务器集群中的一个服务器或者若干个服务器。所述电子终端可以台式计算机、平板、笔记本电脑或者移动终端等。
55.图2为本技术实施例一种业务标签的生成方法流程示意图;如图2所示,其包括:
56.s201、对每个目标公司的描述文本进行分词处理,得到若干特征词;
57.可选地,在一具体应用场景中,可以针对后台服务端上的所有公司作为目标公司,其对应的目标文本作为步骤s201处理的对象。
58.可选地,在一具体应用场景中,所述目标公司的描述文本可以从工商网站上获取到描述文本,也可以是从其他第三方渠道获取到的描述文本,只要包括了特征词即可。所述描述文本的格式不做特别限定。
59.可选地,在一具体应用场景中,可以通过目标公司的id,从后台服务端获取对应的描述文本。
60.可选地,在一具体应用场景中,所述对每个目标公司的描述文本进行分词处理,得到若干特征词,可以包括:每个目标公司的描述文本对照自定义的分词词典进行分词,生成有向无环图;再根据选择的分词模式,根据所述分词词典在所述有向无环图上寻找字符之间的最短路径后,以对描述文本中的句子进行截取,得到若干特征词。通过公这种方式,基于分词词典和有向无环图以及最短路径的处理方式,使得本应属于一个词的字符串不会被误分,从而保证了分词的准确性,另外,还保证了分词过程的快速性。
61.可替代地,在其他一应用场景中,利用分词训练集和测试集训练分词模型,当分词模型的分词准确度达到要求时,使用该分词模型对对每个目标公司的描述文本进行分词处理,得到若干特征词。该分词模型的类型可以根据应用场景的需求,灵活选择。
62.s202、根据每个特征词在所有目标公司的描述文本中出现的次数,确定所述每个特征词的全局词频;
63.可选地,在一具体应用场景中,可以以目标公司为单位,从其对应每个描述文本中提取的所有特征词存储在同一个数据表中,基于该数据表执行上述步骤s202,从而确定所述每个特征词的全局词频(或者又称之为全量词频)。
64.s203、根据所述每个特征词在同一统计属性的目标公司对应的描述文本中出现的次数,确定所述每个特征词的局部词频;
65.可选地,在一具体应用场景中,可以基于行业(或者地域)对目标公司对应的数据表进行划分,将属于同一行业(或者同一地域)的所有目标公司对应的数据表划分到同一个
数据子集里面,统计每个特征词在该数据子集中出现的次数,从而得到对应的局部词频。
66.可选地,在其他一具体应用场景中,上述步骤s202、s203并无严格的时序要求,可以并行执行,也可以步骤s203先于步骤s202执行。
67.此处,需要说明的是,在执行上述步骤s202、s203时,针对重复的特征词,可以去重,也可以不去重,具体根据应用场景的需求来定,比如如果算力支持,则不用去重,如果算力有限,则进行去重。
68.s204、针对归属同一统计属性的每一目标公司,根据其对应的每个特征词的全局词频和局部词频,确定所述每个特征词对业务标签生成的贡献度;
69.可选地,在一具体应用场景中,所述步骤s204中根据其对应的每个特征词的全局词频和局部词频,确定所述每个特征词对业务标签生成的贡献度,包括:根据其对应的每个特征词的全局词频和局部词频,计算所述每个特征词的词分值,以将所述词分值作为该特征词对每一目标公司对业务标签生成的贡献度。
70.即根据归属同一上述数据子集下的目标公司的特征词的全局词频和局部词频,计算所述每个特征词的词分值。
71.可选地,在一具体应用场景中,所述根据其对应的每个特征词的全局词频和局部词频,计算所述每个特征词的词分值,包括:基于y=f2*log(1/f1),根据其对应的每个特征词的全局词频和局部词频,计算所述每个特征词的词分值,其中,f1为所述全局词频,f2为所述局部词频,y为所述词分值。
72.参见公式y=f2*log(1/f1),由于是针对归属同一统计属性的目标公司对应的局部词频和全局词频,而y与f2(局部词频)成正比,跟f1(全局词频)成反比,因此,通过上述公式处理,就可以使得那些对业务标签有较高贡献但局部词频较高而全局词频较低的特征词的词分值较高,而那些对业务标签有较低贡献但局部词频较低而全局词频较高的特征词的词分值较低。
73.可选地,在一具体应用场景中,上述log的底可以为任何实数:10、5、2等,根据实际情况调节。
74.可选地,上述以log为例进行说明,但是实际上,在计算词分值时,并不局限于只能使用log函数,也可以使用其他函数,只要可以达到使得那些对业务标签有较高贡献但局部词频较高而全局词频较低的特征词的词分值较高,而那些对业务标签有较低贡献但局部词频较低而全局词频较高的特征词的词分值较低的目的即可。
75.s205、根据所述贡献度,确定归属同一统计属性的目标公司的业务标签。
76.可选地,在一具体应用场景中,如图3所示,为本技术实施例中确定业务标签的流程示意图;如图3所示,所述根据所述贡献度,确定归属同一统计属性的目标公司的业务标签,包括:
77.s215、根据所述贡献度的大小,从归属同一统计属性的目标公司对应的所有特征词中筛选出贡献度大的若干个特征词,以作为该行业或者同一地域的业务关键词;
78.可选地,在一具体应用场景中,比如设置贡献度阈值,据此,从归属同一统计属性的目标公司对应的所有特征词中筛选出贡献度大于所述贡献度阈值的特征词,作为该行业或者同一地域的业务关键词,并将该业务关键词添加到公司侧关键词表中进行管理。
79.s225、基于所述业务关键词对每个目标公司的特征词进行过滤,只保留每个目标
公司的特征词中与所述业务关键词相同的特征词,以作为该目标公司的业务标签。
80.可选地,在一具体应用场景中,可以基于所述业务关键词对归属同一统计属性的目标公司对应的所有特征词进行过滤,或者,不考虑行业或者地域,对所有目标公司对应的所有特征词进行过滤。
81.图4为本技术实施例提供的一种用户的兴趣标签生成方法流程示意图;如图4所示,其包括:
82.s401、确定目标用户的行为指向的目标公司;
83.可选地,在一具体应用场景中,所述目标用户的行为可以包括浏览、搜索、关注、监控等行为。该行为可以是历史行为,也可以是实时行为。
84.s402、根据所述目标用户的行为指向的目标公司的业务标签,确定所述目标用户的兴趣标签。
85.可选地,在一具体应用场景中,所述所述目标用户的行为指向的目标公司的业务标签可以根据本技术实施例提供的业务标签的生成方法生成。比如,具体地在其中所述贡献度,确定归属同一统计属性的目标公司的业务标签之后执行上述步骤s401-s402。
86.比如,在一具体应用场景中,上述图4提供的方法,也可以为本技术实施例中生成目标公司的业务标签的方法的组成步骤。
87.可选地,在一具体应用场景中,图4中的用户的兴趣标签生成方法还可以包括:计算为所述目标用户的不同行为分配的权重;具体地,该计算权重的步骤可以在上述根据所述贡献度,确定归属同一统计属性的目标公司的业务标签之后执行。具体地,比如在步骤s401之前执行。
88.可选地,在一具体应用场景中,所述根据所述目标用户的行为指向的目标公司的业务标签,确定所述目标用户的兴趣标签,包括:基于不同行为对应的权重,根据所述目标用户的行为指向的目标公司的业务标签,确定所述目标用户的兴趣标签。
89.可选地,在一具体应用场景中,图5为本技术实施例提供的一种计算权重的流程示意图;如图5所示,所述计算为所述目标用户的不同行为分配的权重,包括:
90.s400a、确定所述不同行为的重要程度,以及所述不同行为的时效性;
91.比如,在一具体应用场景中,监控、关注、搜索、浏览的重要程度依次递减,但关注、监控、搜索、浏览的时效性依次递减。
92.可选地,在一具体应用场景中,在确定出不同行为的时效性后,根据时效性表征的时间远近确定权重衰减值,时效性约新的,权重衰减值越小,否则,权重衰减值越大。
93.可选地,在一具体应用场景中,可以通过对行为日志分析,从而确定所述不同行为的重要程度,以及所述不同行为的时效性。
94.可选地,在确定出不同行为的重要程度,根据重要程度大小确定初始权重,重要程度越高的,初始权重越大,否则,初始权重越小。
95.s400b、基于所述重要程度以及所述时效性,计算为所述目标用户的不同行为分配的权重。
96.具体地,可以基于不同行为的所述初始权重和权重衰减值,计算对应的权重,比如,直接对所述初始权重和权重衰减值进行乘积运算,得到的运算结果作为对应行为的权重。
97.通过上述步骤s400a和400b,综合考虑了行为的重要程度以及时效性,从而保证了权重的准确性。
98.图6为本技术实施例确定目标用户的兴趣标签步骤的流程示意图;如图6所示,在一具体应用场景中,所述基于不同行为对应的权重,根据所述目标用户的行为指向的目标公司的业务标签,确定所述目标用户的兴趣标签,包括:
99.s412、针对所述目标用户的不同行为指向的同一目标公司,将每一行为对应的权重作为该目标公司的各个业务标签对确定所述兴趣标签的贡献度;
100.s422、针对所述目标用户的不同行为指向的所有目标公司,对所有所述业务标签对确定所述兴趣标签的贡献度进行排序,确定其中贡献度大的若干个业务标签作为所述目标用户的兴趣标签。
101.可选地,也将通过执行步骤s422得到的若干个业务标签添加到用户侧关键词表中以对目标用户的兴趣标签进行统一管理。
102.可选地,上述目标公司的业务标签和目标用户的兴趣标签并非固定不变,也可以根据需求,重新执行上述实施例的方法进行更新,从而保证目标公司的业务标签和目标用户的兴趣标签的时效性。
103.图7为本技术实施例一种业务标签的生成装置的结构示意图;如图7所示,其包括:
104.分词单元701,用于对每个目标公司的描述文本进行分词处理,得到若干特征词;
105.第一词频统计单元702,用于根据每个特征词在所有目标公司的描述文本中出现的次数,确定所述每个特征词的全局词频;
106.第二词频统计单元703,用于根据所述每个特征词在同一统计属性的目标公司对应的描述文本中出现的次数,确定所述每个特征词的局部词频;
107.贡献度确定单元704,用于针对归属同一统计属性的每一目标公司,根据其对应的每个特征词的全局词频和局部词频,确定所述每个特征词对业务标签生成的贡献度;
108.业务标签确定单元705,用于根据所述贡献度,确定归属同一统计属性的目标公司的业务标签。
109.可选地,在一具体应用场景中,所述贡献度确定单元704具体用于根据其对应的每个特征词的全局词频和局部词频,计算所述每个特征词的词分值,以将所述词分值作为该特征词对每一目标公司对业务标签生成的贡献度。
110.可选地,在一具体应用场景中,所述贡献度确定单元704具体用于基于y=f2*log(1/f1),根据其对应的每个特征词的全局词频和局部词频,计算所述每个特征词的词分值,其中,f1为所述全局词频,f2为所述局部词频,y为所述词分值。
111.可选地,在一具体应用场景中,所述业务标签确定单元705具体用于:根据所述贡献度的大小,从归属同一统计属性的目标公司对应的所有特征词中筛选出贡献度大的若干个特征词,以作为该行业或者同一地域的业务关键词;以及基于所述业务关键词对每个目标公司的特征词进行过滤,只保留每个目标公司的特征词中与所述业务关键词相同的特征词,以作为该目标公司的业务标签。
112.可选地,在一具体应用场景中,还包括兴趣标签生成单元,用于在根据所述贡献度,确定归属同一统计属性的目标公司的业务标签之后,确定目标用户的行为指向的目标公司;以及根据所述目标用户的行为指向的目标公司的业务标签,确定所述目标用户的兴
趣标签。
113.可选地,在一具体应用场景中,还包括权重计算单元,用于在根据所述贡献度,确定归属同一统计属性的目标公司的业务标签之后,计算为所述目标用户的不同行为分配的权重;
114.可选地,在一具体应用场景中,所述兴趣标签生成单元具体用于:基于不同行为对应的权重,根据所述目标用户的行为指向的目标公司的业务标签,确定所述目标用户的兴趣标签。
115.可选地,在一具体应用场景中,所述权重计算单元具体用于确定所述不同行为的重要程度,以及所述不同行为的时效性;以及基于所述重要程度以及所述时效性,计算为所述目标用户的不同行为分配的权重。
116.所述兴趣标签生成单元具体用于针对所述目标用户的不同行为指向的同一目标公司,将每一行为对应的权重作为该目标公司的各个业务标签对确定所述兴趣标签的贡献度;以及针对所述目标用户的不同行为指向的所有目标公司,对所有所述业务标签对确定所述兴趣标签的贡献度进行排序,确定其中贡献度大的若干个业务标签作为所述目标用户的兴趣标签。
117.本技术实施例还提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施本技术实施例任一所述业务标签的生成方法。
118.图8为本技术实施例中电子终端的结构示意图;如图8所示,电子终端包括:存储器801以及处理器802,所述存储器上存储有计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施本技术任一实施例中的任一所述业务标签的生成方法。
119.以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1