本发明涉及自然语言处理,具体地,涉及一种基于bert和条件随机场的养老信息要素抽取方法、存储介质及设备。
背景技术:
1、随着社会老龄化,养老相关的数据量日益增大,包括:养老金发放记录、养老服务使用数据、健康数据等,通过对养老信息自动抽取关键要素可以极大提高数据处理的效率和准确性。在商业领域,通过对养老信息的抽取,为老年人提供更个性化、更贴心的服务。
2、但是,传统的养老信息抽取基于规则和词典的方法,对于未遇到的情境或新的词汇可能失效,导致养老信息抽取要素的准确性不足,且在养老信息抽取要素过程中常基于统计的方法,需要大量的特征工程和数据预处理,增加了实现的复杂性,同时,传统的方法很难捕捉长距离的上下文信息,从而可能错过某些关键要素。
技术实现思路
1、针对现有技术中存在的问题,本发明提供了一种基于bert和条件随机场的养老信息要素抽取方法、存储介质及设备,大大提高了养老信息抽取要素的准确性。
2、为实现上述技术目的,本发明采用如下技术方案:一种基于bert和条件随机场的养老信息要素抽取方法,具体包括如下步骤:
3、步骤1、收集养老信息,通过双向编码机制进行编码,输入bert模型中,生成上下文敏感词向量;
4、步骤2、通过stanford parser开源工具提取养老信息中的特征向量,将对应养老信息的上下文敏感词向量与特征向量进行拼接,得到拼接向量;
5、步骤3、依次将拼接向量输入条件随机场模型中通过动量法进行训练,直至动量不在发生变化,完成对条件随机场模型的训练;
6、步骤4、将实时获取的养老信息通过步骤1和2得到拼接向量,将拼接向量输入训练好的条件随机场模型中,抽取出养老信息要素。
7、进一步地,所述bert模型参数设置包括:隐藏层大小、注意力头数和堆叠层数。
8、进一步地,步骤3包括如下子步骤:
9、步骤301、将一个拼接向量输入条件随机场模型中,获取标签矩阵,通过softmax函数计算标签的发射概率矩阵,通过标签计算转移概率矩阵;
10、步骤302、将转移概率和发射概率输入对数似然函数中,通过随机梯度下降的动量法确定对数似然函数的变化率;
11、步骤303、重复步骤301-302,直至对数似然函数的变化率不在发生变化,完成对条件随机场模型的训练。
12、进一步地,所述转移概率矩阵的计算过程为:
13、
14、其中,表示从标签i转移到标签j的指数化权重,n表示标签总数,k表示n的索引。
15、进一步地,所述发射概率矩阵的计算过程为:
16、
17、其中,pi表示标签i的发射概率,表示拼接向量转化为指数数值。
18、进一步地,所述对数似然函数l的计算过程为:
19、
20、其中,d表示训练次数。
21、进一步地,所述随机梯度下降的动量法的更新过程为:
22、
23、
24、其中,v是动量项,γ是动量因子,η是学习率,是损失函数l对条件随机场模型参数θ的梯度。
25、进一步地,本发明还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行所述的基于bert和条件随机场的养老信息要素抽取方法。
26、进一步地,本发明还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现所述的基于bert和条件随机场的养老信息要素抽取方法。
27、与现有技术相比,本发明具有如下有益效果:本发明基于bert和条件随机场的养老信息要素抽取方法通过bert模型中的自注意力机制,关注养老信息的所有位置,这意味着无论养老信息是在近距离还是远距离,都可以被有效地捕获和处理,从而深入捕获养老信息的上下文信息,同时,通过自注意力机制可以自动捕获养老信息中有用的特征,降低数据处理的复杂性;而将上下文敏感词向量与特征向量进行拼接,提供了更加丰富和综合的信息,有助于进行更准确的要素抽取,再将拼接向量输入条件随机场模型中进行养老信息要素的抽取,可以捕获拼接向量中标签之间的依赖关系,相对于独立预测每个标签,条件随机场模型考虑了标签间的连续性和依赖性,从而更准确地进行养老信息要素的抽取。
1.一种基于bert和条件随机场的养老信息要素抽取方法,其特征在于,具体包括如下步骤:
2.根据权利要求1所述的一种基于bert和条件随机场的养老信息要素抽取方法,其特征在于,所述bert模型参数设置包括:隐藏层大小、注意力头数和堆叠层数。
3.根据权利要求1所述的一种基于bert和条件随机场的养老信息要素抽取方法,其特征在于,步骤3包括如下子步骤:
4.根据权利要求3所述的一种基于bert和条件随机场的养老信息要素抽取方法,其特征在于,所述转移概率矩阵的计算过程为:
5.根据权利要求4所述的一种基于bert和条件随机场的养老信息要素抽取方法,其特征在于,所述发射概率矩阵的计算过程为:
6.根据权利要求5所述的一种基于bert和条件随机场的养老信息要素抽取方法,其特征在于,所述对数似然函数l的计算过程为:
7.根据权利要求5所述的一种基于bert和条件随机场的养老信息要素抽取方法,其特征在于,所述随机梯度下降的动量法的更新过程为:
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如权利要求1-7任一项所述的基于bert和条件随机场的养老信息要素抽取方法。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如权利要求1-7任一项所述的基于bert和条件随机场的养老信息要素抽取方法。