一种用于进行用户分层的语义处理方法与流程

文档序号:36090701发布日期:2023-11-18 09:07阅读:27来源:国知局
一种用于进行用户分层的语义处理方法与流程

本发明涉及用户分层领域,尤其涉及一种用于进行用户分层的语义处理方法。


背景技术:

1、在产品迭代的过程中,用户的需求也会发生不同的变化。此时需要做用户分层,为不同用户提供个性化服务。用户分层是根据不同用户的行为特征划分成不同的用户群,进而制定不同的产品策略来满足其差异化需求,从而充分发挥每个层级用户的价值,达成产品目标。

2、现有的用户分层方法,经常使用一些结构化用户特征数据,结合一定的人工或规则的方法进行用户分层的,效率低且不够全面。另外,在海量的聊天会话文本数据中,通常包含了较为丰富的用户信息,可以用来进行用户分层及圈选工作,以获得更为完整的用户画像特征。

3、然而,鉴于文本数据非结构化属性,文本数据的挖掘难度较高,因此使用文本数据进行用户分层方法较为有限。现有的一些技术虽然可以一定程度上实现聊天会话文本的挖掘,但对于聊天会话中的文本信息度,缺乏较为精准的定位,加之客户的兴趣点可能会不断变化,笼统的文本数据挖掘可能导致所挖掘的用户标签缺乏时效性。


技术实现思路

1、本发明的目的在于提供一种用于进行用户分层的语义处理方法,通过对高频问句的识别,确定圈定用户在当下最关心的话题,并结合关键词提取技术和语义模型的相似度计算,可以实现自动打标和分层,不仅可以实现更精准的定位,而且可以节省人工成本,提升自动化水平,便于推广复制。

2、实现本发明目的的技术方案如下:

3、一种用于进行用户分层的语义处理方法,包括:

4、构建用户画像标签体系,根据聊天会话场景和业务需求搭建用户画像标签体系,所述用户画像标签体系包括若干初始标签;

5、构建用户分层初始化模型,基于当前用户的用户对话文本确定用户的初始标签,所述初始标签对应初步分层信息;

6、对获取的用户对话文本中的问句进行至少两次关键词筛选,根据筛选结果挖掘标签,所述标签对应三个结果,所述标签属于初始标签,或所述标签位于所述用户画像标签体系中,或所述标签作为新标签添加进入用户画像标签体系,同时新标签用于更新用户分层。

7、优选地,对用户对话文本中的问句筛选包括:

8、构建自然语言处理算法模型,对获取的用户对话文本中提取第一关键词;

9、构建分类算法模型,针对用户对话文本的句子,判断并提取其中的问句,同时基于提取的第一关键词,问句的匹配及相似度计算定位出高频问句;

10、采用聚类算法对收集的高频问句进行聚类,以得到用一类簇下高频问句下的第二关键词,并基于所述第二关键词更新初始标签,以形成用户新标签,所述新标签用于更新用户分层。

11、其中用于分层主要用于确定客户类型,确定圈定用户在当下最关心的话题,并针对该用户类型更精准进行信息推送等,以提升工作效率。

12、优选地,构建语级语义模型,对获取的关键词进行标签标定,进行相似度计算,确定筛选出的关键词的标签归属。

13、优选地,构建自然语言处理算法模型具体包括:

14、对获取到的用户对话文本进行文本清洗加工、分句、分词处理后,然后采用keybert算法,并通过设定阈值、去停用词,自动输出信息度高的关键词。

15、优选地,使用keybert算法作为关键词的提取。

16、上述关键词提取模型使用keybert算法,主要基于transformer架构的多头注意力机制。通过注意力机制和相似度计算,可以输出对话中的词权重,根据词权重即可获得关键词的重要性,进而获取到有效关键词。

17、其中,多头注意力机制的的表达式为:

18、

19、上述表达式中,q、k、v均表示输入对话向量,其中,对话向量是由原始的对话内容通过文本编码技术所得。进一步计算对话向量中的自注意力,将原始的对话向量,通过线性运算,转变为q、k、v三个分支,以更好地计算对话向量中的相关性,从而可以更好地突出关键字词的权重,进而得到字词的权重得分,作为后续关键词确定的主要依据。

20、本发明实施例基于keybert模型输出的关键词得分,可以设定一个阈值,来确定哪些关键词需要过滤。

21、优选地,所述第一关键词代表用户信息量的大小,包括但限于用户的个人画像属性、关注点,提取第一关键词用于高频问句识别。

22、优选地,基于提取的第一关键词,问句的匹配及相似度计算定位出高频问句具体包括:

23、根据第一关键词,判断获得问句中,是否包含第一关键词,如果包含第一关键词,则直接认定为高频句子,进入并存储到高频问句候选集s;

24、对于获得的问句,如果没有包含第一关键词,则需要进一步根据算法模型,计算该问句与高频问句候选集s中的高频问句的相似度,并设定阈值;高于阈值的,认为该问句与高频问句候选集s中的高频问句语义相似度高,则该问句可以进入到高频问句候选集s;反之,如果低于阈值,则舍弃该问句。

25、现有技术都是基于全文本进行挖掘。但问句通常更精准地包含了用户的意图,所以先精准确定问句,再对问句进行挖掘,更符合用户的真实需求,并且所挖掘的用户标签的时效性更好(因为用户的问题更能代表当下用户感兴趣的点);不同用户,可能会问相同、相似的问题,识别出高频问题,也是为了更加精准定位到用户真实的标签。

26、优选地,采用聚类算法对收集的高频问句进行聚类具体包括:

27、基于相似度算法,根据不同的高频问句进行不同类簇进行分类,同一类簇所提取的用户初始标签信息,可以作为一类用户的初始标签信息。

28、在进行二次关键词提取的时候,能够进行二次筛选定位,进一步提升用户分层的准确性和实效性;针对不同的聚类簇,进一步挖掘用户画像标签的信息。

29、高频问句代表用户关注点和相关的问句集,则进一步在该圈定的问句集中挖掘用户标签,更能代表用户的真实标签属性。

30、优选地,在更新初始标签之前还包括对第二关键词进行处理,通过阈值设定,确认中心词,所述中心词与所述初始标签进行词向量的相似度计算,根据设定的阈值确定类簇的标签。

31、优选地,所述用户对话文本包括但不限于用户实时的、静态存储聊天会话文本。

32、与现有技术相比,本发明的有益效果是:

33、1.通过人工初始化定义的画像标签,结合自然语言处理算法技术,可以实现用户自动分层圈选,以及标签库的自动更新,大大节省人工成本。

34、2.结合自然语言处理算法技术,通过问句分类和高频问句识别,实现更为精准定位的用户分层目标。



技术特征:

1.一种用于进行用户分层的语义处理方法,其特征在于,包括:

2.根据权利要求1所述的一种用于进行用户分层的语义处理方法,其特征在于,对用户对话文本中的问句筛选包括:

3.根据权利要求1所述的一种用于进行用户分层的语义处理方法,其特征在于,构建语义模型,对获取的关键词进行标签标定,进行相似度计算,确定筛选出的关键词的标签归属。

4.根据权利要求1所述的一种用于进行用户分层的语义处理方法,其特征在于,构建自然语言处理算法模型具体包括:

5.根据权利要求4所述的一种用于进行用户分层的语义处理方法,其特征在于,使用keybert算法作为关键词的提取;keybert算法基于transformer架构的多头注意力机制,其中,多头注意力机制的的表达式为:

6.根据权利要求1所述的一种用于进行用户分层的语义处理方法,其特征在于,所述第一关键词代表用户信息量的大小,包括但限于用户的个人画像属性、关注点,提取第一关键词用于高频问句识别。

7.根据权利要求1-6任意一项所述的一种用于进行用户分层的语义处理方法,其特征在于,基于提取的第一关键词,问句的匹配及相似度计算定位出高频问句具体包括:

8.根据权利要求7所述的一种用于进行用户分层的语义处理方法,其特征在于,采用聚类算法对收集的高频问句进行聚类具体包括:

9.根据权利要求8所述的一种用于进行用户分层的语义处理方法,其特征在于,在更新初始标签之前还包括对第二关键词进行处理,通过阈值设定,确认中心词,所述中心词与所述初始标签进行词向量的相似度计算,根据设定的阈值确定类簇的标签。

10.根据权利要求7所述的一种用于进行用户分层的语义处理方法,其特征在于,所述用户对话文本包括但不限于用户实时的、静态存储聊天会话文本。


技术总结
本发明提供了一种用于进行用户分层的语义处理方法,包括:构建用户画像标签体系,根据聊天会话场景和业务需求搭建用户画像标签体系,所述用户画像标签体系包括若干初始标签;构建用户分层初始化模型,基于当前用户的用户对话文本确定用户的初始标签,所述初始标签对应初步分层信息;对获取的用户对话文本中的问句进行至少两次关键词筛选,根据筛选结果挖掘标签,所述标签对应三个结果,所述标签属于初始标签,或所述标签位于所述用户画像标签体系中,或所述标签作为新标签添加进入用户画像标签体系,同时新标签用于更新用户分层。通过对高频问句的识别,可以实现自动打标和分层,不仅可以实现更精准的定位,而且可以节省人工成本。

技术研发人员:谢鹏
受保护的技术使用者:上海众调信息科技有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1