一种基于困惑度筛选的电力通信调度数据意图识别方法

文档序号:42981662发布日期:2025-09-15 11:52阅读:32来源:国知局

本发明涉及电力通信调度数据领域,特别是一种基于困惑度筛选的电力通信调度数据意图识别方法。


背景技术:

1、随着新型电力系统的持续发展,电力通信调度正逐步从传统的人工操作向智能化、自动化方向演进。电力系统规模日益扩大,新能源接入比例不断提升,调度任务呈现出高频、多样、时效性强等特点,对调度系统的智能识别与响应能力提出了更高要求。

2、近年来,基于深度学习的意图识别方法成为智能调度系统的重要研究方向,其中以transformer为代表的自然语言处理模型凭借其在长文本建模和语义特征提取方面的优势,已被逐步引入电力通信调度领域。

3、然而,尽管transformer具备强大的建模能力,当前基于transformer的电力通信调度意图识别方法在实际应用中仍存在准确率不足的问题。一方面,调度语料中普遍存在语言质量参差不齐、语义表达不规范等现象,直接影响模型训练效果;另一方面,缺乏有效的数据筛选机制导致模型容易受到低质量样本的干扰,限制了transformer模型在语义建模和分类精度方面的发挥。如何在现有transformer建模框架下,引入面向电力通信语料的数据质量评价机制,提升模型对调度指令、专业术语及多轮对话意图的理解能力,进而显著增强意图识别的准确性,成为推动调度系统智能化升级、保障电网调度安全稳定运行的关键技术难题之一。


技术实现思路

1、(一)解决的技术问题

2、本发明涉及电力通信调度领域,尤其是一种结合语言模型困惑度筛选的电力通信调度数据意图识别方法,旨在提升现有调度系统中意图识别的准确率与智能化水平,解决当前基于transformer模型的意图识别方法对低质量语料敏感、训练精度受限等关键技术问题。

3、(二)技术方案

4、当前电力通信调度系统在处理复杂指令、告警语句与多轮对话场景中,迫切需要具备高识别准确率和强泛化能力的语义建模方法。

5、本发明创新性地引入语言模型困惑度(perplexity,ppl)筛选机制,结合多头自注意力的transformer架构,对电力调度语料进行双层优化:前期通过困惑度筛选提升语料质量,后期通过深度建模提取高阶语义特征,形成协同增强的意图识别流程。

6、一种基于困惑度筛选的电力通信调度数据意图识别方法,方法包括以下步骤:

7、s1、收集整年电力通信业务调度咨询相关数据,所述数据涵盖但不限于传输业务、pcm业务、vpn业务等典型电力通信调度数据,包括段包含n轮问题的询问对话、与所述n轮问题相关的知识以及所述问题的回复;

8、s2、对电力通信调度业务数据进行预处理,仅保留英语和简体中文数据;随后,对语料库进行字符编码标准化处理(如统一为utf-8编码),并去除乱码、非法字符,得到预处理后的通信业务调度数据;

9、s3、对得到的预处理数据使用基于kenlm算法构建的n-gram语言模型进行困惑度(perplexity, ppl)计算,通过该语言模型中的trie结构高效查询每个语料样本的语言概率,评估其语言流畅度与合理性。将所有样本的困惑度值按升序排序,其中困惑度排名前30%的数据被判定为高质量数据,困惑度排名在30%至60%区间的数据被判定为中等质量数据,仅保留上述两类数据作为后续模型训练的输入数据。

10、s4、对于自动评分后的数据进一步执行数据清洗操作,具体包括:基于预设规则对语料内容进行语义一致性和格式规范性校验,移除含有特殊符号、语义冲突或格式异常的样本;同时执行内容去重操作,剔除重复、近似重复或重复模板类对话内容,生成结构清晰、无重复的高质量数据序列;

11、s5、构建基于多头自注意力机制的transformer模型,通过位置编码(positionalencoding)嵌入序列顺序信息,使用自注意力模块对融合特征向量赋予上下文相关的动态权重,实现对电力通信调度数据语义表示的深层建模;使用构建的transformer模型的注意力模块中对预处理过后的电力通信调度数据进行预训练,得到最终输出特征矩阵;

12、s6、将得到的最终输出特征矩阵输入至全连接层,进行线性变换;随后通过relu(rectified linear unit)激活函数完成非线性处理,最终输入至softmax层以生成意图预测的概率分布p。根据概率分布p和设定的阈值,确定最终的调度意图标签,输出意图识别结果。

13、其中,所述transformer编码器通过引入自注意力机制,能够同时关注输入序列中的所有特征项,实现特征间的依赖关系建模。该机制能够根据各个特征的重要性动态分配权重,从而突出关键语义特征并抑制无关信息;进一步地,多头注意力机制通过并行计算多个独立的注意力子层,使模型在不同表示子空间中同步捕捉输入序列的多维语义特征,增强对复杂意图模式的识别能力。

14、进一步地,所述s1中电力通信调度系统相关数据的类别包括但不限于电力负载调度、设备状态监控、故障处理、通信链路维护及能源优化管理。

15、进一步地,所述s3中困惑度评分机制基于使用kneser-ney平滑策略构建的n-gram语言模型,利用trie结构对样本进行高效概率查询并计算困惑度perplexity,ppl,按升序排序后筛选前30%和30%–60%区间的样本作为训练数据。

16、进一步地,所述s5中的transformer模型包括编码器结构,所述编码器结构由多个transformer编码层堆叠组成,每一编码层包括多头自注意力机制和前馈神经网络模块。

17、进一步地,所述s6中输出特征矩阵输出结果为意图类别对应的概率分布,通过softmax层进行计算,并依据设定的决策阈值确定最终的意图标签。

18、(三)有益效果

19、综上所述,本发明通过引入基于困惑度评分的语料筛选机制,在语料质量评价机制、数据筛选策略与transformer建模结构三个层面形成协同优化,显著提升训练样本的语言合理性与语义一致性,有效解决现有模型在电力调度领域应用中存在的识别不准确、语义理解能力不足等问题;突破了当前电力调度语义识别中的关键瓶颈问题,为构建高性能智能调度系统提供了强有力的技术支撑。



技术特征:

1.一种基于困惑度筛选的电力通信调度数据意图识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于困惑度筛选的电力通信调度数据意图识别方法,其特征在于:所述s1中电力通信调度系统相关数据的类别包括但不限于电力负载调度、设备状态监控、故障处理、通信链路维护及能源优化管理。

3.根据权利要求1所述的一种基于困惑度筛选的电力通信调度数据意图识别方法,其特征在于:所述s3中困惑度评分机制基于使用kneser-ney平滑策略构建的n-gram语言模型,利用trie结构对样本进行高效概率查询并计算困惑度perplexity,ppl,按升序排序后筛选前30%和30%–60%区间的样本作为训练数据。

4.根据权利要求1所述的一种基于困惑度筛选的电力通信调度数据意图识别方法,其特征在于:所述s5中的transformer模型包括编码器结构,所述编码器结构由多个transformer编码层堆叠组成,每一编码层包括多头自注意力机制和前馈神经网络模块。

5.根据权利要求1所述的一种基于困惑度筛选的电力通信调度数据意图识别方法,其特征在于:所述s6中输出特征矩阵输出结果为意图类别对应的概率分布,通过softmax层进行计算,并依据设定的决策阈值确定最终的意图标签。

6.根据权利要求1所述的一种基于困惑度筛选的电力通信调度数据意图识别方法,其特征在于:所述s3中,kenlm算法利用trie反向前缀树对n-gram记录按后缀顺序suffixorder排序存储,每层n-gram表为有序数组结构,在查询时,为提升搜索速度,引入插值查找interpolation search算法,其估算目标词在数组中的可能位置如下:

7.根据权利要求1所述的一种基于困惑度筛选的电力通信调度数据意图识别方法,其特征在于:所述s5中,编码器通过查询向量(q)、键向量(k)和值向量(v)计算每个值向量的权重分数,并将这些权重与值向量结合,得到加权和;注意力计算公式如下:


技术总结
本发明涉及电力通信调度数据领域,本发明提出了一种基于困惑度筛选的电力通信调度数据意图识别方法,包括以下步骤:收集整年电力通信调度系统咨询相关数据,所述数据涵盖但不限于传输业务、PCM业务、VPN业务等典型电力通信调度数据;利用KenLM算法构建n‑gram语言模型计算样本困惑度Perplexity,PPL,并通过TRIE结构高效检索语言概率值,筛选中、高质量语料以提升语义一致性和表达规范性;结合语义规则过滤和内容去重,提炼出结构更规范、信息无冗余的高质量数据。随后,基于多头自注意力机制构建Transformer模型,提取上下文语义特征,经过多层编码器获得最终特征矩阵;最后通过全连接层与Softmax分类层输出意图预测概率分布,并依据阈值确定最终调度意图标签。

技术研发人员:刘云清,陈仲军,陈晓娟
受保护的技术使用者:长春理工大学
技术研发日:
技术公布日:2025/9/14
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1