本发明属于电网故障处置,特别涉及一种电网故障处置辅助决策的生成方法、系统、设备及介质。
背景技术:
1、随着特高压电网以及新能源的快速发展,电网故障形态日益复杂,电网故障处置对调控人员综合业务能力的要求不断提高;具体解释性的,故障发生时,要求调控人员实时分析电网运行薄弱环节,全景监视风险防控重点部位,准确快速判断故障原因并采取事故恢复措施。具体解释性的,目前调度控制系统以监视、分析为主,决策与执行环节大都依赖调控人员的经验积累和应变能力,各类调度操作规程、事故预案、监控处置方式等大量文本形式的知识均需由调控人员进行反复记忆和查询。
2、上述故障处置方式不仅容易产生疏忽或遗漏,执行效率较低,且调控经验和能力难于共享和传承,故障处理的精准性和规范性很难得到保证。为应对未来愈加复杂的电网故障形态,突破依赖经验的调度决策与操作瓶颈,亟需借助智能化技术将调控人员的经验、操作逻辑等提炼为知识,以丰富故障判断、恢复决策手段,帮助调控人员主动、快速、全面地掌控故障处理的关键信息,为故障处理提供相应的辅助决策。
3、现有技术中,已经公开了一些借助知识图谱的辅助决策生成方案;示例解释性的,主要是采用知识图谱作为实现故障信息解析判别、智能辅助决策及多维度的人机交互的引擎。然而,非结构化文本数据的知识自动化抽取仍处于起步阶段,不少规则和经验并没有显示地体现在规程本文之中,而是隐含在广泛的专业背景知识中,构建知识图谱的难度很大,进而会影响电网故障处置辅助决策的适用范围和准确度;另外,采用知识图谱推理技术生成智能辅助决策提示文本,生成的文本往往与电力领域业务人员的表达方式有区别,不方便电力领域业务人员进行理解。
技术实现思路
1、本发明的目的在于提供一种电网故障处置辅助决策的生成方法、系统、设备及介质,以解决上述存在的一个或多个技术问题。本发明提供的技术方案,具体是一种基于人类反馈对齐的电网故障处置辅助决策文本生成方案,其基于transformer架构及人类反馈对齐调整,可实现电网故障处置辅助决策提示文本生成,具有适用范围和准确度较好,以及容易被电力领域业务人员理解的优点。
2、为达到上述目的,本发明采用以下技术方案:
3、本发明第一方面提供的一种电网故障处置辅助决策的生成方法,包括以下步骤:
4、获取电力调度故障处置信息以及查询问题;
5、基于获取的所述电力调度故障处置信息以及查询问题,利用完成人类反馈对齐的电力大语言模型进行查询,输出电网故障处置辅助决策提示文本;
6、其中,所述完成人类反馈对齐的电力大语言模型是以基于transformer架构的预训练电力大语言模型为基础,并完成人类反馈对齐训练后获得的。
7、本发明生成方法的进一步改进在于,所述完成人类反馈对齐的电力大语言模型的训练步骤包括:
8、基于预先获取的电力文本资料,对基于transformer架构的电力大语言模型进行自监督预训练,获得自监督预训练后的电力大语言模型;
9、采用指令学习的方式,对获得的所述自监督预训练后的电力大语言模型进行有监督微调,获得有监督微调后的电力大语言模型;其中,所述有监督微调用于使有监督微调后的电力大语言模型能够在故障发生、发展、控制与恢复处置的全过程中以问答的形式向外部输出调度决策依据、建议或提示;
10、采用人类反馈对齐训练,对获得的所述有监督微调后的电力大语言模型进行微调,获得所述完成人类反馈对齐的电力大语言模型。
11、本发明生成方法的进一步改进在于,所述基于预先获取的电力文本资料,对基于transformer架构的电力大语言模型进行自监督预训练,获得自监督预训练后的电力大语言模型的步骤包括:
12、将预先获取的电力文本资料中的字按照unicode方式进行编码,形成电力文本字序列u={u1,...,ui,...,un};其中,ui表示电力文本序列u中第i个字,i∈[1,n],n表示电力文本序列的维度;
13、将电力文本字序列输入基于transformer架构的电力大语言模型进行处理,并采用adagrad方法基于l1损失对基于transformer架构的电力大语言模型的模型参数进行更新,获得自监督预训练后的电力大语言模型;
14、其中,所述基于transformer架构的电力大语言模型对输入的电力文本字序列进行处理的表达式为,
15、h0=uwe+wp;
16、
17、
18、式中,h0表示电力大语言模型的输入,0表示模型的输入层;u=(ui-k,...,ui-1)表示第i个字的前k个字;we表示字编码矩阵;wp表示字位置编码矩阵;hl表示电力大语言模型的输入,l表示模型的输入层;n表示基于transformer架构的电力大语言模型的层数,与电力文本序列u的维度一致;p(ui)为模型预测的第i个字的概率分布;
19、计算l1损失的损失函数为,
20、l1(u)=-∑ilog pf(ui|ui-k,...,ui-1;θ);
21、式中,l1(u)表示电力大语言模型在预训练阶段的损失函数;i表示电力文本序列中第i个字的序号;k表示电力文本序列的前k个字;pf表示电力语言大模型f的条件概率,θ表示模型f的参数向量;
22、采用adagrad方法基于l1损失对基于transformer架构的电力大语言模型的模型参数进行更新的步骤中,更新表达式为,
23、
24、
25、式中,gt表示参数向量θt+1的梯度向量;t为预训练阶段模型参数更新迭代的次数;α为总学习率,∈表示避免除数为零的平滑项。
26、本发明生成方法的进一步改进在于,所述采用指令学习的方式,对获得的所述自监督预训练后的电力大语言模型进行有监督微调,获得有监督微调后的电力大语言模型的步骤包括:
27、采用电网调度知识问答集进行指令学习;其中,所述电网调度知识问答集中的一条电力问答表示为q=(y1,...,yn|x1,...,xn);其中,x1,...,xn为电力调度问题,y1,...,yn为问题的答案;
28、进行有监督微调时,使用adagrad方法基于l2损失对模型参数进行更新,更新表达式为,
29、
30、
31、式中,t+1、t+2均表示微调阶段模型参数更新迭代的次数;
32、计算l2损失的损失函数表示为,
33、l2(q)=-∑(x,y)log pf(y1,...,yn|x1,...,xn;θf);
34、式中,l2(q)为电力大语言模型在微调阶段的损失函数;f表示电力语言大模型。
35、本发明生成方法的进一步改进在于,所述采用人类反馈对齐训练,对获得的所述有监督微调后的电力大语言模型进行微调,获得所述完成人类反馈对齐的电力大语言模型的步骤包括:
36、基于所述有监督微调后的电力大语言模型,获取电力调度人员的问题x=(x1,...,xn),并输出d个回答
37、获取电力调度人员对于d个回答的排序,并采用adagrad方法基于l3损失对模型参数进行更新,更新表达式为,
38、
39、
40、式中,t+1、t+2、t+3均表示模型参数更新中的迭代次数;
41、计算l3损失的损失函数表示为,
42、l3=lrank+lft;
43、式中,l3表示最终的损失函数;lrank表示电力大语言模型f输入排名的损失值;lft表示部分微调监督学习的损失值;
44、
45、式中,ri表示回答yj输出排名,ri<rj指的是回答yj的排名高于回答yi;pi和pj分别表示yi和yj在人类反馈对齐的电力大语言模型下的条件概率;
46、
47、式中,θf表示电力语言大模型的参数向量;||yi||表示整个答案的长度;pf(yi|x,θf)表示yi电力大语言模型f下的条件概率;
48、lft=-∑tlogpf(yi′|x);
49、i′=arg maxiri;
50、式中,i′表示排名ri中最大值的索引值;yi′表示y集合中的第i′个回答;pf(yi′|x)表示yi′电力大语言模型f下的条件概率。
51、本发明第二方面提供的一种电网故障处置辅助决策的生成系统,包括:
52、输入模块,用于获取电力调度故障处置信息以及查询问题;
53、查询模块,用于基于获取的所述电力调度故障处置信息以及查询问题,利用完成人类反馈对齐的电力大语言模型进行查询,输出电网故障处置辅助决策提示文本;
54、其中,所述完成人类反馈对齐的电力大语言模型是以基于transformer架构的预训练电力大语言模型为基础,并完成人类反馈对齐训练后获得的。
55、本发明生成系统的进一步改进在于,所述完成人类反馈对齐的电力大语言模型的训练步骤包括:
56、基于预先获取的电力文本资料,对基于transformer架构的电力大语言模型进行自监督预训练,获得自监督预训练后的电力大语言模型;
57、采用指令学习的方式,对获得的所述自监督预训练后的电力大语言模型进行有监督微调,获得有监督微调后的电力大语言模型;其中,所述有监督微调用于使有监督微调后的电力大语言模型能够在故障发生、发展、控制与恢复处置的全过程中以问答的形式向外部输出调度决策依据、建议或提示;
58、采用人类反馈对齐训练,对获得的所述有监督微调后的电力大语言模型进行微调,获得所述完成人类反馈对齐的电力大语言模型。
59、本发明生成系统的进一步改进在于,所述基于预先获取的电力文本资料,对基于transformer架构的电力大语言模型进行自监督预训练,获得自监督预训练后的电力大语言模型的步骤包括:
60、将预先获取的电力文本资料中的字按照unicode方式进行编码,形成电力文本字序列u={u1,...,ui,...,un};其中,ui表示电力文本序列u中第i个字,i∈[1,n],n表示电力文本序列的维度;
61、将电力文本字序列输入基于transformer架构的电力大语言模型进行处理,并采用adagrad方法基于l1损失对基于transformer架构的电力大语言模型的模型参数进行更新,获得自监督预训练后的电力大语言模型;
62、其中,所述基于transformer架构的电力大语言模型对输入的电力文本字序列进行处理的表达式为,
63、h0=uwe+wp;
64、
65、
66、式中,h0表示电力大语言模型的输入,0表示模型的输入层;u=(ui-k,...,ui-1)表示第i个字的前k个字;we表示字编码矩阵;wp表示字位置编码矩阵;hl表示电力大语言模型的输入,l表示模型的输入层;n表示基于transformer架构的电力大语言模型的层数,与电力文本序列u的维度一致;p(ui)为模型预测的第i个字的概率分布;
67、计算l1损失的损失函数为,
68、l1(u)=-∑ilog pf(ui|ui-k,...,ui-1;θ);
69、式中,l1(u)表示电力大语言模型在预训练阶段的损失函数;i表示电力文本序列中第i个字的序号;k表示电力文本序列的前k个字;pf表示电力语言大模型f的条件概率,θ表示模型f的参数向量;
70、采用adagrad方法基于l1损失对基于transformer架构的电力大语言模型的模型参数进行更新的步骤中,更新表达式为,
71、
72、
73、式中,gt表示参数向量θt+1的梯度向量;t为预训练阶段模型参数更新迭代的次数;α为总学习率,∈表示避免除数为零的平滑项。
74、本发明生成系统的进一步改进在于,所述采用指令学习的方式,对获得的所述自监督预训练后的电力大语言模型进行有监督微调,获得有监督微调后的电力大语言模型的步骤包括:
75、采用电网调度知识问答集进行指令学习;其中,所述电网调度知识问答集中的一条电力问答表示为q=(y1,...,yn|x1,...,xn);其中,x1,...,xn为电力调度问题,y1,...,yn为问题的答案;
76、进行有监督微调时,使用adagrad方法基于l2损失对模型参数进行更新,更新表达式为,
77、
78、
79、式中,t+1、t+2均表示微调阶段模型参数更新迭代的次数;
80、计算l2损失的损失函数表示为,
81、l2(q)=-∑(x,y)log pf(y1,...,yn|x1,...,xn;θf);
82、式中,l2(q)为电力大语言模型在微调阶段的损失函数;f表示电力语言大模型。
83、本发明生成系统的进一步改进在于,所述采用人类反馈对齐训练,对获得的所述有监督微调后的电力大语言模型进行微调,获得所述完成人类反馈对齐的电力大语言模型的步骤包括:
84、基于所述有监督微调后的电力大语言模型,获取电力调度人员的问题x=(x1,...,xn),并输出d个回答
85、获取电力调度人员对于d个回答的排序,并采用adagrad方法基于l3损失对模型参数进行更新,更新表达式为,
86、
87、
88、式中,t+1、t+2、t+3均表示模型参数更新中的迭代次数;
89、计算l3损失的损失函数表示为,
90、l3=lrank+lft;
91、式中,l3表示最终的损失函数;lrank表示电力大语言模型f输入排名的损失值;lft表示部分微调监督学习的损失值;
92、
93、式中,ri表示回答yj输出排名,ri<rj指的是回答yj的排名高于回答yi;pi和pj分别表示yi和yj在人类反馈对齐的电力大语言模型下的条件概率;
94、
95、式中,θf表示电力语言大模型的参数向量;||yi||表示整个答案的长度;pf(yi|x,θf)表示yi电力大语言模型f下的条件概率;
96、lft=-∑tlog pf(yi′|x);
97、i′=arg maxiri;
98、式中,i′表示排名ri中最大值的索引值;yi′表示y集合中的第i′个回答;pf(yi′|x)表示yi′电力大语言模型f下的条件概率。
99、本发明第三方面提供的一种电子设备,包括:
100、至少一个处理器;以及,
101、与所述至少一个处理器通信连接的存储器;其中,
102、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本发明第一方面中任一项所述的电网故障处置辅助决策的生成方法。
103、本发明第四方面提供的一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现本发明第一方面中任一项所述的电网故障处置辅助决策的生成方法。
104、与现有技术相比,本发明具有以下有益效果:
105、本发明提供的电网故障处置辅助决策的生成方法,具体是一种基于人类反馈对齐的电网故障处置辅助决策提示文本生成方法,其利用完成人类反馈对齐的电力大语言模型输出电网故障处置辅助决策提示文本,具有适用范围和准确度较好,以及容易被电力领域业务人员理解的优点。
106、本发明进一步优选的技术方案,通过模型训练的方式将电力调度非结构化文本数据中所含的规则、经验、背景知识等全部训练到电力大语言模型中,实现了端到端的电网故障处置辅助决策提示文本生成,避免了非结构化文本数据的知识自动化抽取技术成熟度低导致的文本生成准确率偏低的问题。
107、本发明进一步优选的技术方案,采用了人类反馈对齐的技术对电力大语言模型进行最终调整,使其输出的结果更符合人类的语言习惯,避免了电力大语言模型存在的幻觉现象,提高了电力大语言模型生成电网故障处置辅助决策提示文本的可靠性。