社会偏见测量方法、系统和计算机介质

文档序号:32134468发布日期:2022-11-09 12:09阅读:来源:国知局

技术特征:
1.一种社会偏见测量方法,其特征在于,包括以下步骤:s1:划分数据集为训练集、验证集和测试集;s2:使用bert对训练集进行表征,获得训练集中输入问答句子的表征c
i
;s3:构建两阶段提示的对比学习神经网络,利用步骤s2得到表征c
i
进行训练,并输出代表社会偏见的标签信息,保存对比学习神经网络训练学习到的参数集;s4:使用验证集验证对比学习神经网络在训练集上学习到的参数集,保存在验证集上效果最好的参数集作为最终参数集,并利用测试集对最终参数集进行测试,得到训练好的对比学习神经网络;s5:利用训练好的对比学习神经网络进行社会偏见类别预测。2.根据权利要求1所述的社会偏见测量方法,其特征在于,所述步骤s1中的数据集d从网络抓取并构建与社会偏见相关的对话数据,每个数据条目为由一对问答组成的两轮对话,包括四个子集:种族、性别、地区和职业,每个子集的数据又分成四个部分,分别是:无偏见相关的数据、反偏见相关的数据、中性偏见相关的数据和偏见相关的数据。3.根据权利要求2所述的社会偏见测量方法,其特征在于,所述步骤s1中按照8:1:1的比例将数据集划分为训练集t、验证集e和测试集v。4.根据权利要求1所述的社会偏见测量方法,其特征在于,所述步骤s2中使用bert对训练集进行表征,获得训练集中输入问答句子的表征c
i
,具体为:训练集t中每个序列的第一个标记是分类标记[cls],与该标记相对应的最终隐藏状态被用作分类任务的聚合序列表示,标记[sep]被用于对话的句子之间和整个序列的结尾处,对于一个给定的标记,其输入表示是由相应的标记x
i
、分割y
i
和位置嵌入z
i
相加而构建的,最终的隐藏状态被用作该句子的语义表示向量c
i
,因此,对话的表征c
i
被计算如下:c
i
=bert(x
i
,y
i
,z
i
)。5.根据权利要求4所述的社会偏见测量方法,其特征在于,所述步骤s3中的两阶段提示的对比学习神经网络,具体为:所述两阶段提示的对比学习神经网络先识别文本是否涉及公平性话题,再识别涉及公平性话题的文本的偏向性,包括:给定一系列n个词嵌入c
e
={c1,c2,

,c
n
},其中e是嵌入空间的维数,利用提示模板将输入的文本重构为“[cls]{question}[sep]{answer}这句回答[mask]存在社会偏见,内容上是[mask]偏见的[sep]”,参数其中p是提示模板的长度,两个参数拼接得到新的文本表征训练过程中,同时更新参数p
e
和c
e
,第一阶段的条件生成为pr
θ
(y1|c
new
),y1={0,1},标签0表示文本不涉及公平性话题,标签1表示文本涉及公平性话题,第二阶段的条件生成为pr
θ
(y2|c
new
),y2={0,1,2},标签0表示无偏见,标签1表示中性,标签2表示有偏见。6.根据权利要求5所述的社会偏见测量方法,其特征在于,分别为两个阶段构建相应的损失进行学习:
对两个阶段的提示学习损失加权得到最终的损失:l
p
=α*l
p1
+(1-α)*l
p2
l
p
是两阶段提示学习的结果,l
p1
是第一阶段提示学习损失,l
p2
是第二阶段提示学习的损失。α是可调节参数,且α∈{0,1}。7.根据权利要求6所述的社会偏见测量方法,其特征在于,所述两阶段提示的对比学习神经网络还加入对比学习,具体为:将一个批次中所有句子表示为{x
i
,y
i
}
i∈i
,其中i={1,

,k}是句子的索引,k是该批次中包含的样本数量,y
i
∈{0,1,2,3},给定样本的第一阶段概率表示q1(c
i
),其索引为i,假设句子x
i
在该批次内其相同标签的样本集合定义为s={s:s∈i,y
p
=y
i
∧p≠i},大小为|s|,批次的反向对比损失是:批次的反向对比损失是:其中τ是一个进行优化的温度参数,下标为i对应锚点样本,下标为s对应正样本,l
sup
是对比学习损失。8.根据权利要求7所述的社会偏见测量方法,其特征在于,两阶段提示的对比学习神经网络总的损失为:l=β*l
sup
+(1-β)*l
p
l是两阶段提示的对比学习神经网络总的损失,l
sup
是对比学习损失,l
p
是提示学习损失,β是可调节参数,且β∈{0,1}。9.一种社会偏见测量系统,其特征在于,包括:划分模块,所述划分模块用于划分数据集为训练集、验证集和测试集;表征模块,所述表征模块用于使用bert对训练集进行表征,获得训练集中输入问答句子的表征c
i
;两阶段提示对比学习神经网络模块,所述两阶段提示对比学习神经网络模块用于构建两阶段提示的对比学习神经网络,利用表征模块得到表征c
i
进行训练,并输出代表社会偏见的标签信息,保存对比学习神经网络训练学习到的参数集;验证测试模块,所述训练模块用于使用验证集验证对比学习神经网络在训练集上学习到的参数集,保存在验证集上效果最好的参数集作为最终参数集,并利用测试集对最终参数集进行测试,得到训练好的对比学习神经网络;预测模块,所述预测模块利用训练好的对比学习神经网络进行社会偏见类别预测。10.一种计算机介质,其特征在于,所述计算机介质被处理器执行时,实现权利要求1至8任一项所述的社会偏见测量方法。

技术总结
本发明公开一种社会偏见测量方法、系统和计算机介质,方法包括:S1:划分数据集为训练集、验证集和测试集;S2:使用BERT对训练集进行表征,获得训练集中输入问答句子的表征C


技术研发人员:阳爱民 白期风 林楠铠 王纪刚 覃冠球
受保护的技术使用者:广东工业大学
技术研发日:2022.08.04
技术公布日:2022/11/8
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1