一种基于对比学习的BERT模型去偏方法及系统

文档序号:33643756发布日期:2023-03-29 02:52阅读:来源:国知局

技术特征:
1.一种基于对比学习的bert模型去偏方法,其特征在于:包括以下步骤:s1.获取训练数据集,根据训练数据集中数据的属性将训练数据集表示为属性数据集;s2.生成属性数据集中数据的正负对,组合属性数据集中数据及其正负对生成对比学习数据集;s3.引入bert模型,通过bert模型将对比学习数据集进行编码,并通过bert模型对编码后的对比学习数据进行对比学习训练;s4.获取待去偏的数据集,通过训练后的bert模型对待去偏的数据集进行检测去偏。2.根据权利要求1所述的基于对比学习的bert模型去偏方法,其特征在于:所述的步骤s1中,获取训练数据集,根据训练数据集中数据的属性将训练数据集表示为属性数据集,具体步骤为;s101.获取数据集,将数据集分为训练数据集、验证集、测试集;s102.分析训练数据集中具有多个属性的数据的属性,整理训练数据集中具有多个属性的数据的n个属性;s103.根据整理出的属性,将训练数据集中具有多个属性的数据表示为属性数据x
i
={v1,v2,

,v
n
},并将属性数据组成属性数据集;其中,x
i
表示第i个属性数据,v1,v2,v
n
分别表示该数据的第1个,第2个,第n个属性的状态数。3.根据权利要求2所述的基于对比学习的bert模型去偏方法,其特征在于:所述的步骤s2中,生成属性数据集中数据的正负对,组合属性数据集中数据及其正负对生成对比学习数据集,具体步骤为:s201.分析属性数据集,确定一个或多个重要属性;s202.将与属性数据集中的数据x
i
的重要属性语义相反的属性数据集中的数据作为数据x
i
的负例x
i-;s203.将与属性数据集中的数据x
i
的重要属性相近的属性数据集中的数据作为数据x
i
的正例x
i+
;s204.组合x
i
、x
i-、x
i+
,得到数据组si:s205.将数据组si组合,生成对比学习数据集。4.根据权利要求3所述的基于对比学习的bert模型去偏方法,其特征在于:所述的步骤s3中,通过bert模型将对比学习数据集进行编码具体为:通过bert编码器将对比学习数据集中的数据x
i
编码为h
i
,编码为编码为编码为5.根据权利要求4所述的基于对比学习的bert模型去偏方法,其特征在于:所述的步骤s3中,对比学习训练中,编码后的学习数据目标的损失函数为:
其中,τ为对比损失中的温度系数,用来控制模型对负样本的区分度,n为批次大小。6.根据权利要求4所述的基于对比学习的bert模型去偏方法,其特征在于:所述的步骤s3中,通过bert模型对编码后的对比学习数据进行对比学习训练,具体为:bert模型采用并联的工作模式,对每一个属性对应的编码后的对比学习数据进行对比学习训练:bert=bert(v1,v2,

,vn)对应每一个属性vi,训练中采用损失函数l
vi
,总损失函数为:l
all
=α1l
v1
+α2l
v2
+


n
l
vn
其中,α1、α2、

、α
n
为每个各个属性对应的损失权重。7.根据权利要求1所述的基于对比学习的bert模型去偏方法,其特征在于:所述的步骤s4中,获取待去偏的数据集,通过训练后的bert模型对待去偏的数据集进行检测去偏,具体步骤为:s401.获取待去偏的数据集(y1、y2、

、yn2),n2为待去偏的数据集中数据的数量;s402.通过训练后的bert模型对待去偏的数据集进行编码:bert(y1,y2…
y
n2
)=(h11,h12…
h1
n2
);s403.设置一个二类分类器将编码后的待去偏的数据集进行二分类:classifier(h11,h12…
h1
n2
)=(score1,score2);s404.使用softmax激活函数并取最大概率作预测标签:logits=max(sofmax(score1,score2));s405.根据预测标签,使用训练后的bert模型进行检测对待去偏数据集中的偏见的训练;s406.根据检测到的偏见结果,对待去偏数据集进行去偏。8.根据权利要求2所述的基于对比学习的bert模型去偏方法,其特征在于:步骤s3后,还通过验证集检测了训练后的bert模型的性能指标;bert模型的性能指标包括准确度,加权f1,宏f1和roc曲线下面积的auc值。9.根据权利要求2所述的基于对比学习的bert模型去偏方法,其特征在于:检测了训练后的bert模型的性能指标后,还通过测试集评估了训练后的bert模型的公平性;bert模型的公平性指标通过计算测试集中数据的每个属性的真阳率/真阴率之间的平等差异和假阳率/假阴率之间的平等差异,并汇总各个属性的比率与总体比率的差值得到。10.一种基于对比学习的bert模型去偏系统,其特征在于:包括数据获取模块、属性划分模块、数据组合模块、bert模型、训练模块;所述的数据获取模块用于获取训练数据集;所述的属性划分模块用于根据训练数据集中数据的属性将训练数据集表示为属性数据集;所述的数据组合模块用于生成属性数据集中数据的正负对,组合属性数据集中数据及其正负对生成对比学习数据集;所述的bert模型用于将对比学习数据集进行编码和对编码后的对比学习数据进行对比学习训练;
所述的数据获取模块还用于获取待去偏的数据集;所述的bert模型还用于对待去偏的数据集进行检测去偏。

技术总结
本发明涉及计算机的深度学习技术领域,公开了一种基于对比学习的BERT模型去偏方法及系统,包括以下步骤:S1.获取训练数据集,根据训练数据集中数据的属性将训练数据集表示为属性数据集;S2.生成属性数据集中数据的正负对,组合属性数据集中数据及其正负对生成对比学习数据集;S3.引入Bert模型,通过Bert模型将对比学习数据集进行编码,并通过Bert模型对编码后的对比学习数据进行对比学习训练;S4.获取待去偏的数据集,通过训练后的Bert模型对待去偏的数据集进行检测去偏。本发明解决了现有技术效率低,准确性低的问题,且具有能够了解数据高阶特征的特点。数据高阶特征的特点。数据高阶特征的特点。


技术研发人员:阳爱民 何俊亨 覃冠球 白期风
受保护的技术使用者:广东工业大学
技术研发日:2022.08.16
技术公布日:2023/3/28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1