一种文本处理方法、装置、存储介质及电子设备与流程

文档序号:37058883发布日期:2024-02-20 21:09阅读:10来源:国知局
一种文本处理方法、装置、存储介质及电子设备与流程

本说明书涉及计算机,尤其涉及一种文本处理方法、装置、存储介质及电子设备。


背景技术:

1、随着计算机技术的快速发展,诸如消费金融场景等相关场景下每天均会出现大量的事件,为了将事件的新闻报道、用户评论聚合到一起需要将新闻报道、用户评论等长文本表示为特定维度的文本表示向量。


技术实现思路

1、本说明书提供了一种文本处理方法、装置、存储介质及电子设备,所述技术方案如下:

2、第一方面,本说明书提供了一种文本处理方法,所述方法包括:

3、获取至少一个事件长文本,提取所述事件长文本的文本关键词集合;

4、基于所述事件长文本和所述文本关键词集合采用文本表示模型进行长文本编码,得到文本表示向量。

5、第二方面,本说明书提供了一种文本处理装置,所述装置包括:

6、数据处理模块,用于获取至少一个事件长文本,提取所述事件长文本的文本关键词集合;

7、文本编码模块,用于基于所述事件长文本和所述文本关键词集合采用文本表示模型进行长文本编码,得到文本表示向量。

8、第三方面,本说明书提供了一种文本表示模型训练方法,所述方法包括:

9、创建初始文本表示模型,获取样本训练数据集,所述样本训练数据集包括多个样本长文本和每个所述样本长文本对应的样本文本关键词集合;

10、基于所述样本长文本和所述样本文本关键词集合对所述初始文本表示模型进行至少一轮模型对比学习训练,以确定针对所述初始文本表示模型的对比学习模型损失;

11、基于所述对比学习模型损失对所述初始文本表示模型进行模型参数调整,直至所述初始文本表示模型完成模型训练,得到文本表示模型。

12、第四方面,本说明书提供了一种文本处理装置,所述装置包括:

13、模型训练模块,用于创建初始文本表示模型,获取样本训练数据集,所述样本训练数据集包括多个样本长文本和每个所述样本长文本对应的样本文本关键词集合;

14、所述模型训练模块,还用于基于所述样本长文本和所述样本文本关键词集合对所述初始文本表示模型进行至少一轮模型对比学习训练,以确定针对所述初始文本表示模型的对比学习模型损失;

15、参数调整模块,用于基于所述对比学习模型损失对所述初始文本表示模型进行模型参数调整,直至所述初始文本表示模型完成模型训练,得到文本表示模型。

16、第五方面,本说明书提供一种计算机存储介质,所述计算机存储介质存储有至少一条指令,所述指令适于由处理器加载并执行本说明书一个或多个实施例的方法步骤。

17、第六方面,本说明书提供一种计算机程序产品,所述计算机程序产品存储有至少一条指令,所述指令适于由处理器加载并执行本说明书一个或多个实施例的方法步骤。

18、第七方面,本说明书提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行本说明书一个或多个实施例的方法步骤。

19、本说明书一些实施例提供的技术方案带来的有益效果至少包括:

20、在本说明书一个或多个实施例中,通过先提取事件长文本的关键词组成文本关键词集合,然后再对事件长文本进行文本编码时结合文本关键词集合,对编码过程融合关键词的语义信息,保留了长文本中重要的关键词信息,避免了不重要文本的影响,实现了对事件长文本的精准编码表示,避免在长文本编码情形下丢失重要的关键信息和提升针对长文本的文本表示能力。



技术特征:

1.一种文本处理方法,所述方法包括:

2.根据权利要求1所述的方法,所述基于所述事件长文本和所述文本关键词集合采用文本表示模型进行长文本编码,得到文本表示向量,包括:

3.根据权利要求2所述的方法,所述通过所述文本表示模型确定所述事件长文本所包含的多个短文本对应的全局文本语义和确定所述文本关键词集合对应的关键词语义,对所述全局文本语义和所述关键词语义进行融合得到文本表示向量,包括:

4.根据权利要求1所述的方法,所述提取所述事件长文本的文本关键词集合,包括:

5.根据权利要求1所述的方法,所述至少一个事件长文本包括至少一组第一事件长文本和第二事件长文本,

6.一种文本表示模型训练方法,所述方法包括:

7.根据权利要求6所述的方法,所述基于所述样本长文本和所述样本文本关键词集合对所述初始文本表示模型进行至少一轮模型对比学习训练,以确定针对所述初始文本表示模型的对比学习模型损失,包括:

8.根据权利要求7所述的方法,所述基于所述样本关键词语义和所述关键词类别向量确定关键对比综合损失,包括:

9.根据权利要求8所述的方法,所述基于所述样本关键词语义确定关键词随机隐退对比损失,包括:

10.根据权利要求8所述的方法,所述基于所述样本关键词语义确定所述关键词语义对比损失,包括:

11.根据权利要求8所述的方法,所述基于所述样本关键词语义确定所述关键词语义对比损失,包括:

12.根据权利要求7所述的方法,所述基于所述样本文本表示向量确定文本对比综合损失,包括:

13.一种文本处理装置,所述装置包括:

14.一种文本表示模型训练装置,所述装置包括:

15.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~5或6~12任意一项的方法步骤。

16.一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行如权利要求1~5或6~12任意一项的方法步骤。

17.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~5或6~12任意一项的方法步骤。


技术总结
本说明书公开了一种文本处理方法、装置、存储介质及电子设备,其中,方法包括:获取至少一个事件长文本,提取所述事件长文本的文本关键词集合,基于事件长文本和文本关键词集合采用文本表示模型进行长文本编码,得到文本表示向量。

技术研发人员:张可尊,邓俊豪,林轩,李松,刘正勇,徐文强,王照国,郑茂宗,霍静静
受保护的技术使用者:蚂蚁财富(上海)金融信息服务有限公司
技术研发日:
技术公布日:2024/2/19
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1