画像构建方法、训练方法及其相关装置与流程

文档序号：37832430发布日期：2024-05-07 19:07阅读：6来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及数据处理，特别是涉及一种画像构建方法、训练方法及其相关装置。

背景技术：

1、随着互联网的发展，企业拥有大量的用户数据，这些数据包括用户的基本信息、购买行为、浏览行为等。通过对这些数据的分析，企业可以更好地了解用户的需求和喜好，从而提供更个性化的服务。

2、然而，传统的客户画像系统通常依赖于人工分析和判断，效率低下，而且容易受到主观因素的影响。因此，如何利用先进的技术手段，自动化地构建客户画像并更好的赋能营销活动，成为了当前的一个重要问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种画像构建方法、训练方法及其相关装置，能够准确地提高用户画像标签。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供一种画像构建方法，该方法包括：获取用户的对话数据和行为数据；分别基于对话数据和行为数据进行标签提炼，得到至少一个第一标签和至少一个第二标签；基于各第一标签和各第二标签，构建用户的用户画像标签。

3、其中，对话数据包括来自于多个渠道的子对话数据；基于对话数据进行标签提炼，得到至少一个第一标签的步骤包括：利用各子对话数据，形成对话轨迹；对对话轨迹进行标签提炼，得到至少一个第一标签。

4、其中，利用各子对话数据，形成对话轨迹，包括：对各子对话数据进行语音识别，得到各子对话数据的对话文本；利用各子对话文本，生成对话文本，作为对话轨迹。

5、其中，利用各子对话文本，生成对话文本，包括：查找出文本长度不满足长度要求的至少一个子对话文本，以作为至少一个待总结文本；分别对至少一个待总结文本进行摘要总结，得到至少一个摘要文本；利用各摘要文本、以及文本长度满足长度要求的子对话文本，生成对话轨迹数据；对对话轨迹进行标签提炼，得到至少一个第一标签，包括：对对话文本进行标签提炼，得到至少一个第一标签。

6、其中，长度要求包括文本长度大于长度阈值。

7、其中，利用各子对话文本，生成对话文本，包括：获取各子对话数据的发生时间，作为各子对话文本的发生时间；按照子对话文本的发生时间的先后顺序，将各子对话文本串接，得到对话文本。

8、其中，分别基于对话数据和行为数据进行标签提炼，得到至少一个第一标签和至少一个第二标签的步骤是利用大语言模型执行。

9、其中，基于各第一标签和各第二标签，构建用户的用户画像标签，包括：从至少一个第一标签中，剔除与第二标签相同的标签，得到剩余的第一标签；或者，从至少一个第二标签中，剔除与第一标签相同的标签，得到剩余的第二标签；基于剩余的第一标签和至少一个第二标签，或者，基于剩余的第二标签和至少一个第一标签，得到用户的用户画像标签。

10、其中，用户画像标签为至少一个；在基于各第一标签和各第二标签，构建用户的用户画像标签之后，方法还包括：对于各用户画像标签，响应于用户画像标签的标签类别已存在于用户画像池中，将用户画像标签保存至用户画像池的对应标签类别下；响应于用户画像标签的标签类别不存在用户画像池中，在用户画像池中创建用户画像标签对应的标签类别，并将用户画像标签保存至用户画像池中用户画像标签对应的标签类别下。

11、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种构建模型的训练方法，该方法包括：获取样本用户的样本对话数据和样本行为数据；利用样本对话数据和样本行为数据，分别对画像构建模型进行训练，以使训练收敛后的画像构建模型能够基于对话数据和行为数据进行标签提炼而得到至少一个第一标签和至少一个第二标签，从而能够基于各第一标签和各第二标签构建用户画像标签。

12、其中，样本对话数据包括第一子样本对话数据和第二子样本对话数据，样本行为数据包括第一子样本行为数据和第二子样本行为数据，第二子样本对话数据上标注有至少一个第一标注标签，第二子样本行为数据上标注有至少一个第二标注标签；利用样本对话数据和样本行为数据，分别对画像构建模型进行训练，包括以下至少一个步骤：利用第一子样本对话数据和第一子样本行为数据，对画像构建模型进行无监督训练；利用画像构建模型，分别基于第二子样本对话数据和第二子样本行为数据进行标签提炼，得到至少一个第一预测标签和至少一个第二预测标签；基于第一差异和第二差异，对画像构建模型的网络参数进行调整，第一差异为至少一个第一预测标签与至少一个第一标注标签之间的差异，第二差异为至少一个第二预测标签与至少一个第二标注标签之间的差异。

13、其中，画像构建模型为大语言模型。

14、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种画像构建装置，该装置包括：获取模块，用于获取用户的对话数据和行为数据；标签提炼模块，用于分别基于对话数据和行为数据进行标签提炼，得到至少一个第一标签和至少一个第二标签；构建模块，用于基于各第一标签和各第二标签，构建用户的用户画像标签。

15、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种画像构建模型的训练装置，该装置包括：获取模块，用于获取样本用户的样本对话数据和样本行为数据；训练模块，用于利用样本对话数据和样本行为数据，分别对画像构建模型进行训练，以使训练收敛后的画像构建模型能够基于对话数据和行为数据进行标签提炼而得到至少一个第一标签和至少一个第二标签，从而能够基于各第一标签和各第二标签构建用户画像标签。

16、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该电子设备包括处理器和存储器，存储器存储有程序指令，处理器用于执行程序指令以实现上述的方法。

17、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质存储有程序指令，程序指令能够被执行以实现上述的方法。

18、上述技术方案，各第一标签是基于对话数据进行标签提炼得到的，各第二标签是基于行为数据进行标签提炼得到的，所以，基于至少一个第一标签和至少一个第二标签构建用户画像标签，即，结合表征用户多方面信息的各标签构建用户画像标签，多方面地了解用户的互动行为，从而在建立对用户互动行为的充分理解上构建用户画像标签，提高了构建的用户画像标签的准确性和效率。

19、进一步地，由于构建的用户画像标签的准确性，所以，用户画像标签能够准确反映用户的行为和偏好；因此，在后续的营销活动中，基于用户画像标签，能够准确筛选出符合营销需求的人群。

技术特征：

1.一种画像构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对话数据包括来自于多个渠道的子对话数据；基于所述对话数据进行标签提炼，得到所述至少一个第一标签的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述利用各所述子对话数据，形成对话轨迹，包括：

4.根据权利要求3所述的方法，其特征在于，所述利用各所述各对话文本，生成对话文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述长度要求包括所述文本长度大于长度阈值。

6.根据权利要求3所述的方法，其特征在于，所述利用各所述子对话文本，生成对话文本，包括：

7.根据权利要求1所述的方法，其特征在于，所述分别基于所述对话数据和所述行为数据进行标签提炼，得到至少一个第一标签和至少一个第二标签的步骤是利用大语言模型执行。

8.根据权利要求1所述的方法，其特征在于，所述基于各所述第一标签和各所述第二标签，构建所述用户的用户画像标签，包括：

9.根据权利要求1所述的方法，其特征在于，所述用户画像标签为至少一个；在所述基于各所述第一标签和各所述第二标签，构建所述用户的用户画像标签之后，所述方法还包括：

10.一种画像构建模型的训练方法，其特征在于，所述方法包括：

11.根据权利要求10所述的方法，其特征在于，所述样本对话数据包括第一子样本对话数据和第二子样本对话数据，所述样本行为数据包括第一子样本行为数据和第二子样本行为数据，所述第二子样本对话数据上标注有至少一个第一标注标签，所述第二子样本行为数据上标注有至少一个第二标注标签；所述利用所述样本对话数据和所述样本行为数据，分别对画像构建模型进行训练，包括以下至少一个步骤：

12.根据权利要求10所述的方法，其特征在于，所述画像构建模型为大语言模型。

13.一种画像构建装置，其特征在于，所述装置包括：

14.一种画像构建模型的训练装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器存储有程序指令，所述处理器用于执行所述程序指令以实现如权利要求1-12任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序指令，所述程序指令能够被执行以实现如权利要求1-12任一项所述的方法。

技术总结
本申请公开了一种画像构建方法、训练方法及其相关装置，该方法包括：获取用户的对话数据和行为数据；分别基于对话数据和行为数据进行标签提炼，得到至少一个第一标签和至少一个第二标签；基于各第一标签和各第二标签，构建用户的用户画像标签。通过上述方式，本申请能够准确地提高用户画像标签。

技术研发人员：鲁天书,戚晓成
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：
技术公布日：2024/5/6

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鲁天书,戚晓成
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。