针对桥梁管养文本数据的多特征融合命名实体识别方法、装置与流程

文档序号:35917216发布日期:2023-10-30 10:12阅读:60来源:国知局
针对桥梁管养文本数据的多特征融合命名实体识别方法、装置与流程

本技术实施例涉及人工智能,尤其涉及一种针对桥梁管养文本数据的多特征融合命名实体识别方法、装置、电子设备及计算机程序产品。


背景技术:

1、近年来,桥梁管养领域发展迅速,积累了大量文本数据。这些数据中蕴含着高质量的专业理论知识和实践经验,因此智能化地分析和利用这些数据成为未来发展的方向。然而,目前桥梁管养领域的智能化水平仍处于发展阶段,与新一代人工智能技术的结合不深,尤其是在利用自然语言处理算法处理海量文本数据方面的研究还相对较少。

2、另一方面,在人工智能领域中,随着bert(bidirectional encoderrepresentation from transformers)的出现,基于bert构建的命名实体识别技术能够更准确高效地提取领域内的专业实体。这些从文本数据中提取出的专业实体可以用于多个方面。首先,它们可以用于构建知识图谱,进而搭建问答系统,帮助实现智能化的知识管理和知识问答。其次,这些实体可以用于实现高效准确的智能化检索,即通过从用户问题中抽取出的实体名进行智能搜索。最后,这些实体还可以用于构建基于实体的文本摘要自动生成系统。

3、然而,目前自然语言处理领域内的命名实体识别技术架构主要为bert+crf(conditional random field)或bert+bilstm(bi-directional long short-termmemory)+crf的模式。研究方向主要集中在添加特征和拆分任务等方面。在添加特征方面,主要是在现有架构上添加领域内的字特征、词特征等,而很少有针对桥梁管养领域数据进行细粒度多特征融合的算法研究。在拆分任务方面,命名实体识别任务被拆分为实体抽取和实体分类任务,但在实体分类任务中对于桥梁管养领域数据中实体词较长的情况,缺乏相关的分析和优化研究。

4、因此,未来的研究方向应该是更深入地将桥梁管养领域与新一代人工智能技术相结合,特别是在利用自然语言处理算法处理海量文本数据方面。同时,需要针对桥梁管养领域的特点,进行细粒度多特征融合的算法研究,并对实体词较长的情况进行分析和优化。这样才能更好地实现桥梁管养领域的智能化发展。


技术实现思路

1、本技术的目的在于提出一种针对桥梁管养文本数据的多特征融合命名实体识别方法、装置、电子设备及计算机程序产品,用于解决或者克服现有技术中存在的上述技术问题。

2、一种针对桥梁管养文本数据的多特征融合命名实体识别方法,其包括:

3、获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;

4、对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签;

5、基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;

6、基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;

7、获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。

8、一种针对桥梁管养文本数据的多特征融合命名实体识别装置,针对获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形,其包括:

9、第一融合训练单元,用于基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;

10、第二融合训练单元,基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;

11、实体抽取使能单元,用于获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。

12、一种电子设备,针对获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形,其包括:存储器以及处理器,所述存储器上存储有计算机可执行程序,所述计算机可执行程序被所述处理器运行时,执行如下步骤:

13、基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;

14、基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;

15、获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。

16、一种计算机程序产品,针对获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形,其上存储有计算机可执行程序,所述计算机可执行程序被运行时执行如下步骤:

17、基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;

18、基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;

19、获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。

20、本技术中提供的技术方案中,通过获取桥梁管养样本数据,并对所述桥梁管养样本数据进行预处理,得到桥梁管养样本语句和桥梁管养样本词;对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签;基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练,直至训练结束,得到完成训练的实体抽取模型;基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练,直至训练结束,得到完成训练的实体分类模型;获取待处理的桥梁管养数据,并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词,基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。为此,可以达到如下技术效果:

21、针对桥梁管养领域中实体词较长且实体类别较多的情况,针对性采用两阶段任务模型(实体抽取模型和实体分类模型)以适应实体类别较多的现状,并且在两阶段任务中的分类任务中,提升缓解实体词较长可能带来的输入信息的损失问题,以提升实体分类任务的效果。此外,为更好的针对性利用桥梁管养领域的特征,在两阶段任务中的抽取任务中,引入了词特征和句特征,并采用注意力模块学习基于注意力的融合方式。基于上面两个方面的改进,使得训练好的模型能够更好地识别桥梁管养领域的命名实体,为后续的知识图谱、智能问答和智能搜索研究和应用打下了基础,提高了桥梁管养领域数据的智能化利用水平和效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1