本发明属于自然语言处理,具体涉及一种基于指针网络的输变电线路缺陷文本命名实体识别方法。
背景技术:
1、随着智能电网的不断推进,连接到配电网的设备数量和覆盖范围都在不断扩大。随之电网生产管理系统内存储的输变电线路缺陷文本数据呈爆发式增长,为电力运检带来了新的挑战。但目前输变电线路的维护主要依赖运维人员的主观性决策,需要运维人员反复查阅和记忆大量以非结构化文本形式存储的输变电线路缺陷信息,容易产生疏忽遗漏,从而导致缺陷设备处理不及时,引发一系列级联故障,影响电力生产效率,因此,电力系统亟需将非结构化的输变电线路缺陷文本数据进行提炼,形成结构化的数据,实现输变电线路缺陷文本智能化管理。而命名实体识别是实现文本智能化管理最基础、最关键的任务之一,旨在快速地从复杂的文本中提炼出具有特定含义或指代性的实体。
2、研究命名实体识别的方法经过了基于字典与规则、基于机器学习、以及基于深度学习三种重要阶段。随着双向编码器表示模型bert、ernie等预训练语言模型的提出,预训练-微调的训练方式受到了越来越多的关注,并且取得了巨大的成功。研究人员正在逐渐将重点转向预训练语言建模,以便通过依据上下文动态调节词向量,更好地利用缺陷文本的语义特征,提高模型的学习效率和泛化能力。但现有的命名实体识别研究主要是将命名实体识别任务转化为序列标注任务来解决,这种方法能有效解决可以转化为序列标注任务的连续实体识别问题,但难以解决嵌套实体和不连续实体的实体识别问题。
技术实现思路
1、本发明是为了解决上述问题而进行的,目的在于提供一种基于指针网络的输变电线路缺陷文本命名实体识别方法。
2、本发明提供了一种基于指针网络的输变电线路缺陷文本命名实体识别方法,具有这样的特征,包括以下步骤:s1、将输变电线路缺陷文本分为原始训练集d和原始测试集t;s2、经过bert-wwm预训练语言模型的embedding层和双向transformer层,得到训练集每个字符对应的特征向量表示,生成训练集对应的词向量;s3、经过span解码层,得到实体的首尾,并将实体首尾拼接得到输变电线路缺陷文本实体;s4、将输变电线路缺陷文本实体的span表示并行输入softmax层,得到最终的输变电线路缺陷文本命名实体及其对应的实体类别。
3、在本发明提供的基于指针网络的输变电线路缺陷文本命名实体识别方法中,还可以具有这样的特征:s1、输变电线路缺陷文本按8:2的比例分为原始训练集d和原始测试集t。
4、在本发明提供的基于指针网络的输变电线路缺陷文本命名实体识别方法中,还可以具有这样的特征:embedding层包括token embedding、segment embedding、以及positional embedding。
5、在本发明提供的基于指针网络的输变电线路缺陷文本命名实体识别方法中,还可以具有这样的特征:双向transformer层包括标准transformer结构中的encoder部分。
6、发明的作用与效果
7、根据本发明所涉及的基于指针网络的输变电线路缺陷文本命名实体识别方法,利用bert-wmm预训练语言模型得到词向量,再利用span指针网络标注,然后将实体span表示并行输入softmax进行实体分类。本方法可以从电力缺陷文本中识别出电力领域专业命名实体,实现输变电线路缺陷文本的结构化管理,帮助一线工作人员更准确高效的管理输变电线路缺陷文本,及时处理缺陷设备,保障电网系统安全可靠的高效运行。
1.一种基于指针网络的输变电线路缺陷文本命名实体识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于指针网络的输变电线路缺陷文本命名实体识别方法,其特征在于:
3.根据权利要求1所述的基于指针网络的输变电线路缺陷文本命名实体识别方法,其特征在于:
4.根据权利要求1所述的基于指针网络的输变电线路缺陷文本命名实体识别方法,其特征在于: