文本处理方法、装置、计算机设备和存储介质与流程

文档序号:34011164发布日期:2023-04-29 22:31阅读:33来源:国知局
文本处理方法、装置、计算机设备和存储介质与流程

本技术涉及自然语言处理,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。


背景技术:

1、银行在处理不良资产业务中,每笔业务包括几十至几百份pdf、word、jpg、截屏、影印件、手写文件(含征信类文件、尽职调查报告、核销报告、诉讼类文件等),资料涉及业务前中后台、覆盖面广、类型庞杂。审查范围除核销条件外,还包含保全处置环节是否完整、分行端审查申报流程是否合规、申报文件及证书材料是否规范、分行保全基础管理是否扎实等多个维度。审核文件极多,工作量极大。

2、目前,常规方法是采用预训练语言模型抽取多文档信息的特征。为了保证预训练语言模型识别准确率达到业务需要(92%+),每种文件都重复常规预训练语言模型训练流程,即标注和预训练语言模型调参的训练过程,采用人工进行标注比较费时费力,而且很难覆盖所有现有文件种类,并且某些业务场景下会遇到预训练语言模型未处理过的文件种类,不能保证新增待解析文件的识别准确率。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够适应少量标注数据或没有标注数据的文件特征提取场景,提高待解析文件的识别准确率的文本处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本技术提供了一种文本处理方法,所述方法包括:

3、获取待解析文本;待解析文本为未标注的文本或者标注的文本;

4、将待解析文本转换为文本字符串;文本字符串包括待解析文件中的提示信息和答案信息;

5、按照预先确定的提示模板,将文本字符串中提示信息和答案信息分别填充至提示模板中;

6、将填充后的提示模板输入预先训练好的强化学习智能体中,输出提示模板中的答案信息,将答案信息转换为强化学习智能体的预测结果。

7、在其中一个实施例中,所述方法还包括:

8、若提示模板为连续型提示模板,且强化学习智能体的预测结果与提示模板中答案信息不相符,则冻结强化学习智能体的网络参数,更新提示模板的权重矩阵参数,直至强化学习智能体的预测结果与提示模板中答案信息相符。

9、在其中一个实施例中,所述方法还包括:

10、获取多个样本;每个样本包括文本数据和标注文本数据中答案信息的标签;

11、将多个样本输入至强化学习智能体中,输出预测结果,根据预测结果与样本的标签之间的差异,确定强化学习智能体输出的预测结果的奖励信息;

12、根据奖励信息以及预设的损失函数,更新强化学习智能体的网络参数,完成一次训练;

13、迭代多次训练过程,当损失函数满足目标值时,停止训练,得到训练好的强化学习智能体。

14、在其中一个实施例中,将多个样本输入至强化学习智能体中,输出预测结果,根据预测结果与样本的标签之间的差异,确定强化学习智能体输出的预测结果的奖励信息,包括:

15、将多个样本输入至强化学习智能体中,确定强化学习智能体响应于各样本在当前环境状态下输出预测结果的第一奖励值,与强化学习智能体响应于各样本在下一环境状态输出预测结果的第二奖励值之间的奖励误差值;

16、根据强化学习智能体分别在当前环境下的第一势函数和下一环境下的第二势函数,确定奖励设计函数;第一势函数用于评估当前环境的质量;第二势函数用于评估下一环境的质量;

17、根据奖励误差值和奖励设计函数,确定强化学习智能体输出的预测结果的奖励信息。

18、在其中一个实施例中,确定强化学习智能体响应于各样本在当前环境状态下输出预测结果的第一奖励值,与强化学习智能体响应于各样本在下一环境状态输出预测结果的第二奖励值之间的奖励误差值,包括:

19、将多个样本输入至强化学习智能体中,强化学习智能体响应于各样本的当前环境状态,并基于强化学习智能体初始化的网络参数,输出对各样本的预测结果,对各样本的预测结果进行评分,将评分值作为强化学习智能体响应于各样本在当前环境状态下输出预测结果的第一奖励值;

20、强化学习智能体响应于各样本的下一环境状态,并基于强化学习智能体初始化的网络参数,输出对各样本的预测结果,对各样本的预测结果进行评分,将评分值作为强化学习智能体响应于各样本在下一环境状态下输出预测结果的第二奖励值;

21、根据第一奖励值和第二奖励值之间的差值,确定第一奖励值和第二奖励值之间奖励误差值。

22、在其中一个实施例中,根据强化学习智能体分别在当前环境下的第一势函数和下一环境下的第二势函数,确定奖励设计函数,包括:

23、针对强化学习智能体在当前环境下的迁移学习过程中,根据强化学习智能体分别在源域和目标域的奖励函数,确定强化学习智能体分别在当前环境下的第一势函数;

24、针对强化学习智能体在下一环境下的迁移学习过程中,根据强化学习智能体分别在源域和目标域的奖励函数,确定强化学习智能体分别在下一环境下的第二势函数;

25、根据第二势函数与第一势函数,确定奖励设计函数。

26、第二方面,本技术还提供了一种文本处理装置。所述装置包括:

27、获取模块,用于获取待解析文本;待解析文本为未标注的文本或者标注的文本;

28、转换模块,用于将待解析文本转换为文本字符串;文本字符串包括待解析文件中的提示信息和答案信息;

29、填充模块,用于按照预先确定的提示模板,将文本字符串中提示信息和答案信息分别填充至提示模板中;

30、预测模块,用于将填充后的提示模板输入预先训练好的强化学习智能体中,输出提示模板中的答案信息,将答案信息转换为强化学习智能体的预测结果。

31、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

32、获取待解析文本;待解析文本为未标注的文本或者标注的文本;

33、将待解析文本转换为文本字符串;文本字符串包括待解析文件中的提示信息和答案信息;

34、按照预先确定的提示模板,将文本字符串中提示信息和答案信息分别填充至提示模板中;

35、将填充后的提示模板输入预先训练好的强化学习智能体中,输出提示模板中的答案信息,将答案信息转换为强化学习智能体的预测结果。

36、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

37、获取待解析文本;待解析文本为未标注的文本或者标注的文本;

38、将待解析文本转换为文本字符串;文本字符串包括待解析文件中的提示信息和答案信息;

39、按照预先确定的提示模板,将文本字符串中提示信息和答案信息分别填充至提示模板中;

40、将填充后的提示模板输入预先训练好的强化学习智能体中,输出提示模板中的答案信息,将答案信息转换为强化学习智能体的预测结果。

41、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

42、获取待解析文本;待解析文本为未标注的文本或者标注的文本;

43、将待解析文本转换为文本字符串;文本字符串包括待解析文件中的提示信息和答案信息;

44、按照预先确定的提示模板,将文本字符串中提示信息和答案信息分别填充至提示模板中;

45、将填充后的提示模板输入预先训练好的强化学习智能体中,输出提示模板中的答案信息,将答案信息转换为强化学习智能体的预测结果。

46、上述文本处理方法、装置、计算机设备和存储介质,通过将待解析文本转换为文本字符串,文本字符串包括待解析文件中的提示信息和答案信息,将文本字符串中提示信息和答案信息分别填充至提示模板中,将填充后的提示模板输入预先训练好的强化学习智能体中,输出提示模板中的答案信息,将答案信息转换为强化学习智能体的预测结果。利用提示模板将待解析文本处理成统一格式的规范格式,可以保证强化学习智能体能够执行零标注或者少标注的待解析文本的新场景,即使出现强化学习智能体从未处理过的文件种类,也可以通过微调提示模板的权重矩阵参数,使得强化学习智能体可以适应新增的文本处理场景,保证新增待解析文件的识别准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1