一种基于大语言模型的用户画像方法、装置、设备及介质与流程

文档序号:37057335发布日期:2024-02-20 21:04阅读:20来源:国知局
一种基于大语言模型的用户画像方法、装置、设备及介质与流程

本发明属于人工智能,具体涉及一种基于大语言模型的用户画像方法、装置、设备及介质。


背景技术:

1、用户画像是许多企业,特别是广告营销、运营、电商、游戏、金融等等行业企业,必不可少的运营步骤,通过各种方式精确获得用户偏好,以减少广告投放成本,提高营销推广效率。传统的用户画像方式是从各个维度收集用户数据,如用户浏览过的网页、网购订单、订购刊物、发表帖子,以及各种问卷填表和测试等等,进行收集和分析。

2、为了使收集的数据能产生画像效果,需要建立有效的鉴别方法和算法,或标签系统,或知识图谱,或行为分析,或测试题库等等。但是这些现有方法都是基于用户已产生的信息数据基础上,是被动式的、静态的收集和分析方式,只能刻画用户的消费偏好、行为偏好等显性特征,不仅效率低,若用户状态发生变化,也无法及时更新修正用户画像信息。同时,这种被动、静态的用户画像方法无法深度挖掘、刻画用户的隐形特征。实际上,一个人的人格特征非常复杂,不仅有表面上呈现出来的各种消费偏好、行为偏好,还有内在的精神状态、观点倾向,特别是在某种特定情况下产生的应激反应,往往才能体现出该人的真实性格特征,而这类隐性的人格特征在现有的互联网模式下是很难获得的,因为现有互联网模式仅是一个信息交换系统,而非一个生命体验系统,因此现有的用户画像方式无法真正获得用户内在的生命状态的画像。

3、专利文献cn116127204a记载了一种多视角用户画像方法、多视角用户画像系统、设备和介质。该方法包括对用户的原始数据集进行数据清洗,并进行向量化处理,构建用户图结构数据,得到降维后的用户社交向量,根据用户活跃度信息和用户自适应性参数,利用用户类别分类网络对用户聚合特征进行多层级分类处理,生成用户画像信息。该方法仍然基于用户已产生的原始数据进行清洗加工分析,由于数据量有限,产生的用户画像也不够精确。

4、专利文献cn112231556a记载了一种基于对话场景的用户画像方法、装置、设备及介质,该方法涉及数字医疗技术领域,包括获取目标对话数据;根据所述目标对话数据,获取历史对话数据;对所述目标对话数据、所述历史对话数据进行预处理,得到待理解对话数据;对所述待理解对话数据进行特征提取,得到目标意图特征、目标实体特征、目标标签属性特征;根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像,得到目标用户画像特征。从而基于上下文依赖丰富了特征,解决了无特征或只有少量人工特征的情况,得到了丰富的用户画像。该方法采用用户已产生历史对话数据,建立一套评分系统,按轮次衰减法进行评分筛选用户特征。该方式的缺点在于,作为基础的上下文对话往往分散零碎,且有很多语义不明确的情形,据此提取的各项特征会与实际产生较大偏差,生成的用户画像也不够精确。


技术实现思路

1、本发明的目的是提供一种基于大语言模型的用户画像方法、装置、计算机设备及计算机可读存储介质,用以解决现有用户画像技术因无法真正获得用户内在生命状态画像而导致生成的用户画像不够精确的问题。

2、为了实现上述目的,本发明采用以下技术方案:

3、第一方面,提供了一种基于大语言模型的用户画像方法,包括:

4、获取基于人格理论建立的多个用户画像分类集,其中,所述用户画像分类集包含有m个人物类型模板,所述人物类型模板包含有n个人格特征标签,m和n分别表示正整数;

5、针对在所述多个用户画像分类集中的各个用户画像分类集,先采用半人工模拟自然对话的方式,通过人工调试获得专用的语料生成提示词模版库,然后根据对应的人物类型模板,在所述语料生成提示词模版库中采用相应的提示词模版,生成对应的话术语料库,其中,所述话术语料库包含有多个话术语料以及与所述多个话术语料一一对应的多个语料标注信息,所述语料标注信息包含有话术意图和用户人格特征类型,所述提示词模版用于向大语言模型提供与当前对话文本语义相关的用户人格特征标签的可选列表;

6、根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签;

7、利用所述数据标注集和基于transformer架构的语言生成模型,基于用户画像分类集,训练多个transformer架构的任务型垂直领域对话模型,并针对各个所述任务型垂直领域对话模型,通过对应模型训练,在每次用户进入对应领域话题时,由对应模型输出在最小轮次对话成本的对话策略,以便作为对应的最优对话策略,其中,所述任务型垂直领域对话模型的每轮对话均有一个属于对应的用户画像分类领域的话题ti,以便对抽取出来的用户特征cti进行标注,所述任务型垂直领域对话模型是通过标注和训练优质的领域话术语料,达到优化对话成本和提高用户画像完成度的目的;

8、使用基于所述多轮对话语料库进行大语言模型训练得到的对话机器人,按照所述最优对话策略使用自然语言与目标用户进行对话交流,并由预训练的对话模型基于当前对话状态自动调整对话策略,获取用户应答内容,然后进行语义分析,提取在所述用户应答内容中的关键词,再然后与各个所述人物类型模板进行语义相似度计算的对比匹配,最后选取具有最大相似度的人物类型模板作为匹配结果,建立用户人格特征标签集,以便完成对所述目标用户的用户画像。

9、基于上述
技术实现要素:
,提供了一种能够在互联网或元宇宙等场景下以自然语言方式与用户交流互动并完成用户画像的新方案,即是先预先建立一套覆盖面广的人格模板数据库,利用大语言模型训练对话机器人,建立对话机器人的最优对话策略,通过对话机器人在元宇宙、互联网及智能交互设备等多种场景下与用户进行自然语言交流,在多轮对话中进行语义分析,获得关键词与人格模版匹配,从而获得用户精准画像,能够同时挖掘用户显性特征和隐性特征,具有更高的准确性,是一种主动式、动态的用户画像方式,极大提高用户画像的精准度和即时性,便于实际应用和推广。

10、在一个可能的设计中,所述多个用户画像分类集包含有基于身体特征信息、家庭信息、职业信息、健康信息、教育信息、知识偏好信息、运动偏好信息、音乐偏好信息、休闲偏好信息、娱乐偏好信息、饮食偏好信息、出行偏好信息、消费偏好信息、旅游偏好信息和/或游戏偏好信息进行用户画像分类所得的多个人物类型模板集合;

11、和/或,所述多个用户画像分类集包含有若干对用户画像分类父集与用户画像分类子集,进而形成有基于决策树的用户画像分类结构,以建立多项人格特征之间的关联关系,其中,每个用户画像分类父集包含有至少一个用户画像分类子集。

12、在一个可能的设计中,根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,包括:

13、根据所述各个用户画像分类集的对话语料库,由人工撰写专用提示词模版,形成模板对话策略,并将专用提示词模版输入大语言模型进行多轮多次对话模拟,生成模板会话数据,其中,所述多轮多次对话模拟是根据提示词模版扩展对话内容,提出相关性问题和/或转移话题,使对话继续下去,以便生成更多问题及对话数据;

14、采用人工方式对所述模板会话数据进行清洗和修正,建立起以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签。

15、在一个可能的设计中,在所述多轮多次对话模拟中按照如下步骤s311~s314来生成对话:

16、s311.通过随机生成的多样化对话参数来填充提示词模版,并将填充后的提示词模版导入大语言模型,以获得对话相关用户人格特征标签集cs={c1,c2,...,ck},然后执行步骤s312,其中,所述多样化对话参数包含有场景设定、角色设定、情绪设定和/或话题设定,k表示对话相关用户特征总数,ck表示第k个对话相关用户人格特征标签;

17、s312.判断k是否等于0,若是,则执行步骤s314,否则先执行步骤s313,再执行步骤s314;

18、s313.按照如下步骤s3131~s3132遍历在所述对话相关用户人格特征标签集cs中的各个对话相关用户人格特征标签:

19、s3131.针对在所述对话相关用户人格特征标签集cs中的第j个对话相关用户人格特征标签cj,基于预先人工编写的提示词模版框架及指令,根据对应的人格特征标签自动匹配生成完整的提示词模版,然后基于该提示词模版获得对应的特征值vj,再然后执行步骤s3132,其中,j表示小于等于k的正整数;

20、s3132.基于预先人工编写的蕴含提示词模版框架及指令,根据所述第j个对话相关用户人格特征标签cj自动匹配生成蕴含提示词模版,并将该蕴含提示词模版导入所述大语言模型中,获得所述特征值vj与vnew的如下蕴含关系:若vnew蕴含vj,则返回执行步骤s3131;若vj蕴含vnew,则用vnew更新vj, 并更新对话生成策略;若vj与vnew冲突,则调用冲突消解策略,其中,vnew是从新的对话句子中获得的特征值;

21、s314.调用对话生成策略,填充用于生成新一轮对话的对话生成模版,并调用大语言模型模拟不同角色进行相互对话问答,以在每轮对话中得到用户回答,再然后返回执行步骤s311。

22、在一个可能的设计中,所述对话成本基于大语言模型调用次数和会话消耗量来计算得到,其中,所述会话消耗量是指每次大语言模型调用时输入和输出的文本总长度;

23、和/或,所述用户画像完成度按照如下公式计算得到:

24、

25、式中,i表示正整数,表示在用户特征集合c中的第i个用户特征的人工预设特征权重,表示所述第i个用户特征的特征获取置信度,表示在时刻所述第i个用户特征槽位上的且通过文本嵌入模型获得的对话匹配文本向量,表示在所述第i个用户特征的语料库中的特征文本,表示计算向量之间距离的函数,表示所述第i个用户特征的人格模板相似系数,当时,抽取所述第i个用户特征作为所述用户特征cti。

26、在一个可能的设计中,在获取所述目标用户的某个人格特征标签后,所述方法还包括:

27、根据多个人格特征标签之间的关联关系,确定是否存在与所述某个人格特征标签具有关联关系的另一个人格特征标签,其中,所述关联关系预先利用开源数据集的线性回归用户画像预测算法建立得到;

28、若存在,则将所述另一个人格特征标签标注给所述目标用户。

29、在一个可能的设计中,在通过某轮对话得到所述目标用户的至少一个新人格特征标签后,所述方法还包括:

30、判断在所述目标用户当前的人格特征标签集合中是否存在与任一新人格特征标签冲突的某个已有人格特征标签,其中,所述任一新人格特征标签属于所述至少一个新人格特征标签;

31、若存在,则对所述任一新人格特征标签和所述某个已有人格特征标签进行个人特征冲突消解处理,使所述人格特征标签集合包含有所述任一新人格特征标签或所述某个已有人格特征标签,其中,所述个人特征冲突消解处理具体包括:

32、获取用户与对话机器人的历史对话序列,其中,表示当前对话次数,表示小于的正整数,表示在第次对话中的用户发言,表示在所述第次对话中的对话机器人发言,表示语言模型经过分类特征抽取在所述历史对话序列的对话窗口内获取的用户特征描述、相关类型和文本向量,所述对话窗口是指当前语言模型可以处理的对话轮次;

33、若相关类型与某个已获取用户画像因分类不一致发生冲突,则扫描已有特征描述序列,抽取与相关类型相关的特征描述序列,并由文本嵌入模型获取对应的文本向量集合,以及还通过改写的否定描述,生成的反向文本向量集合,其中,所述相关是指人格特征描述上的语义相关,所述文本嵌入模型用于输入文本且输出该文本的高维向量;

34、遍历在与中的所有文本向量对:与,分别计算文本向量的语义相似距离和,其中,表示计算向量之间距离的函数,并有,表示空文本;

35、判断如下条件公式是否成立:

36、

37、式中,表示为所述第次对话预设的时效因子且为纯小数;

38、若是,则判定相关类型推翻由确定的已有特征分类,并更新用户画像,反之则保持用户画像结果不变。

39、第二方面,提供了一种基于大语言模型的用户画像装置,包括有依次通信连接的分类集获取模块、语料库编辑模块、大语言模型应用模块、对话策略优化模块和对话语义分析模块;

40、所述分类集获取模块,用于获取基于人格理论建立的多个用户画像分类集,其中,所述用户画像分类集包含有m个人物类型模板,所述人物类型模板包含有n个人格特征标签,m和n分别表示正整数;

41、所述语料库编辑模块,用于针对在所述多个用户画像分类集中的各个用户画像分类集,先采用半人工模拟自然对话的方式,通过人工调试获得专用的语料生成提示词模版库,然后根据对应的人物类型模板,在所述语料生成提示词模版库中采用相应的提示词模版,生成对应的话术语料库,其中,所述话术语料库包含有多个话术语料以及与所述多个话术语料一一对应的多个语料标注信息,所述语料标注信息包含有话术意图和用户人格特征类型,所述提示词模版用于向大语言模型提供与当前对话文本语义相关的用户人格特征标签的可选列表;

42、所述大语言模型应用模块,用于根据所述各个用户画像分类集的话术语料库,利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库,并得到能够体现思维链推理能力的数据标注集,其中,所述数据标注集由标签对的序列构成,所述标签对是指具有关联性的话题标签与人格特征标签;

43、所述对话策略优化模块,用于利用所述数据标注集和基于transformer架构的语言生成模型,基于用户画像分类集,训练多个transformer架构的任务型垂直领域对话模型,并针对各个所述任务型垂直领域对话模型,通过对应模型训练,在每次用户进入对应领域话题时,由对应模型输出在最小轮次对话成本的对话策略,以便作为对应的最优对话策略,其中,所述任务型垂直领域对话模型的每轮对话均有一个属于对应的用户画像分类领域的话题ti,以便对抽取出来的用户特征cti进行标注,所述任务型垂直领域对话模型是通过标注和训练优质的领域话术语料,达到优化对话成本和提高用户画像完成度的目的;

44、所述对话语义分析模块,用于使用基于所述多轮对话语料库进行大语言模型训练得到的对话机器人,按照所述最优对话策略使用自然语言与目标用户进行对话交流,并由预训练的对话模型基于当前对话状态自动调整对话策略,获取用户应答内容,然后进行语义分析,提取在所述用户应答内容中的关键词,再然后与各个所述人物类型模板进行语义相似度计算的对比匹配,最后选取具有最大相似度的人物类型模板作为匹配结果,建立用户人格特征标签集,以便完成对所述目标用户的用户画像。

45、第三方面,本发明提供了一种计算机设备,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意可能设计所述的用户画像方法。

46、第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或第一方面中任意可能设计所述的用户画像方法。

47、上述方案的有益效果:

48、(1)本发明创造性提供了一种能够在互联网或元宇宙等场景下以自然语言方式与用户交流互动并完成用户画像的新方案,即是先预先建立一套覆盖面广的人格模板数据库,利用大语言模型训练对话机器人,建立对话机器人的最优对话策略,通过对话机器人在元宇宙、互联网及智能交互设备等多种场景下与用户进行自然语言交流,在多轮对话中进行语义分析,获得关键词与人格模版匹配,从而获得用户精准画像,能够同时挖掘用户显性特征和隐性特征,具有更高的准确性,是一种主动式、动态的用户画像方式,极大提高用户画像的精准度和即时性,便于实际应用和推广;

49、(2)由于是基于大语言模型训练对话机器人,建立最优对话策略,通过对话机器人与用户的日常交流方式,由对话机器人在会话聊天中向用户主动提问各类兴趣偏好,轻松、自然、贴切,毫无违和感,不但很容易地获取用户日常工作生活偏好,还能够通过更深层次的话题交流,引导用户陈述内心世界中的观点、倾向、偏好等等,从而建立更全面、更生动、更人格化的用户画像。基于本方法建立的用户特征冲突消解规则,可以随着时间变化,在后续对话中自动更新用户画像;

50、(3)这种以人格特征描述用户画像的方式与现有的以标签描述用户画像方式相比,更加全面、具体,颗粒度更细,因而用户画像的精度更高;本方法采用以人物类型为主的人格化用户画像方式,而不是传统的以标签为主的用户画像方式,将用户作为一个整体进行人格画像,避免了标签式用户画像法的碎片化、静态、抽象等明显缺点,人物形象更加饱满、生动、具体,也更符合虚拟世界中的社交需要;本方法通过树状逐级递进方法,在多个人格特征之间建立了关联性,可以从一个特征可以推导出其他特征,为预测扩展模型提供了依据;

51、(4)本方法是为满足用户画像需求,模拟对话交流过程,因而撰写编辑的语料素材有很强的针对性和连贯性,能把话题内容控制在有效合理的范围内,避免低质量语料的侵入,也节省了人工清洗数据的时间和成本。

52、(5)现有用户画像方式为收集已有资料(包括对话数据)+问卷答题+测试,尚无以人机对话方式进行用户画像的方法。本方法的核心即通过大语言模型训练“有对话能力”的对话机器人,使对话机器人能够以自然语言方式与用户进行对话交流,经过大模型训练,对话机器人在无人操控的情况下,拥有强大对话能力。在大模型训练中获得的对话数据经过人工清洗,获得高质量的小模型训练语料,生成有思维链推理能力的数据标注集;

53、(6)可采取最少的对话轮数获得特定的人格特征标注数据。大语言模型的训练内容较为宽泛,目的是防止跑题和纠正偏题;小模型专门用于用户画像,有更强的针对性,就某项主题递进展开,更加明确具体又不生硬,避免话题泛化,不着边际,建立最优对话策略,提高画像效率;

54、(7)本方法将用户画像融入对话机器人中,由对话机器人与用户在自然状态下聊天对话,通过广泛的预设话题和自动产生的扩展话题,多方位、多维度提取用户人格特征,进行用户画像;

55、(8)可在产生某一个特征后,自动扩展出多个关联标注,这些关联标注构成下一轮会话的主题,得到进一步的明确,实现立体化、多维度的用户画像;

56、(9)现有常规的用户画像方法由于使用已有信息数据进行画像,是静态的、被动的数据,用户如果不提供或不表达,就不能获取新数据,因此不存在用户特征冲突情况。而在本方法中,由于是从用户对话中提取动态信息数据,因此容易发生前后不一致的情况,或随时间推移,用户境况发生变化,人格特征发生显著变化。这一功能在现实中非常有用,改变了现有用户画像方法难以动态更新、与实际情况偏差较大的状态;

57、(10)常规用户画像方法是给用户贴标签,由于标签数量有限,很难得到用户完整的画像构建,因而这样的用户画像仅能满足某种特定的用途需求,例如广告投放、电商推送、信息推送等等。而在许多互联网平台上,特别是元宇宙场景中,对用户画像的要求很高,需要获得更多的社交数据、情感数据以及其他偏好数据等,从而建立该用户在虚拟世界中的人格画像,平台系统才能据此精准推送各种虚拟道具、社交关系、特定事件、特定地图,以及各种内容服务等等。因此,本方法在特征标签基础上,增加了人格模版,每个人格模版都是一个标签集,能够全方位、多维度刻画用户人格特征,这一方法在元宇宙场景中有很高的实用价值,使用户在虚拟世界中建立人格画像成为可能;

58、(11)由于是以提取用户的人格特征为主,是一种主动式的、动态的、实时的用户画像方法,可以随时感知用户状态变化,并通过长期持续的自然对话交流,获得常规方法不易获得的用户隐性人格特征和偏好。在对话机器人与用户的自然聊天中,用户不经意中流露出的各种信息,更能够真切、精确的反映该用户的个性特征、兴趣偏好以及观点倾向,这些生活细节中的偏好无法通过答题方式获得,而在对话机器人与用户的自然聊天中,可以轻易获得,完全消除了用户的抵触排斥心理,这在元宇宙、互联网、广告、媒体、电商等实际应用中有极大的价值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1