一种文本数据的实体提取方法、系统、设备和介质与流程

文档序号：37689400发布日期：2024-04-18 21:06阅读：7来源：国知局

本发明涉及数据识别，特别是涉及一种文本数据的实体提取方法、系统、设备和介质。

背景技术：

1、随着互联网的不断发展，大量的文本信息被发布在互联网上。如何从这些文本中提取出有用的实体信息，对于信息检索、知识图谱构建等任务具有重要意义。

2、传统的实体提取方法主要依赖于规则和特征工程，但其在处理复杂文本时的效果不佳。近年来深度学习技术在实体提取任务上取得了显著的成果，尤其是卷积神经网络在图像识别等领域的成功应用，为实体提取提供了新的思路。然而，现有的卷积神经网络模型在实体提取任务中仍然存在一定的局限性，如参数固定、难以适应不同场景等问题。

技术实现思路

1、本发明的目的解决现有技术中参数固定、难以适应不同场景的问题，提高实体提取及实体分类的准确性。

2、为了实现上述目的，第一方面，本发明提供一种文本数据的实体提取方法，所述方法包括：

3、将原始文本数据进行分词和去停用词的预处理操作，并将预处理后的文本数据转换为词向量表示，所述词向量基于预训练模型生成；

4、基于卷积神经网络，通过引入上下感知卷积学习策略构建多层感知的卷积神经网络模型；

5、通过所述卷积神经网络模型对文本数据进行实体分类，确定文本中的实体类别；

6、基于所述词向量和实体类别，对所述卷积神经网络模型进行训练；

7、将实际文本数据输入训练后的所述卷积神经网络模型，从中识别出实体信息。

8、进一步地，所述基于卷积神经网络，通过引入上下感知卷积学习策略构建多层感知的卷积神经网络模型，包括：

9、根据任务需求，确定卷积神经网络模型的网络结构；所述网络结构包括依次连接的多个卷积层、池化层和全连接层；

10、其中，每一个卷积层的输入分别连接当前卷积层的输出和上一卷积层的输出；

11、初始化所述卷积神经网络模型的模型参数并选取激活函数。

12、进一步地，所述通过所述卷积神经网络模型对文本数据进行实体分类，确定文本中的实体类别，包括：

13、通过所述卷积神经网络模型的全连接层对文本数据进行实体分类；

14、使用softmax激活函数计算每个类别的概率分布；

15、根据概率分布确定文本中的实体类别。

16、进一步地，所述基于所述词向量和实体类别，对所述卷积神经网络模型进行训练，包括：

17、将词向量表示的文本数据输入所述卷积神经网络模型，得到模型识别结果；

18、计算所述模型识别结果与真实实体类别之间的交叉熵损失；

19、使用sgd优化算法迭代更新模型参数。

20、进一步地，使用sgd优化算法迭代更新模型参数之后，还包括：

21、根据训练过程中的损失计算模型识别的准确率；

22、根据所述准确率，调整所述卷积神经网络模型的模型参数。

23、进一步地，所述将实际文本数据输入训练后的所述卷积神经网络模型，从中识别出实体信息，还包括：

24、为所述实体信息添加标签，所述标签包括人名和地名。

25、进一步地，所述对所述卷积神经网络模型进行训练还包括：迁移学习训练和增量学习训练；

26、所述迁移学习训练包括：

27、通过在大规模数据集上预训练卷积神经网络模型，将其知识迁移到实体提取任务上；

28、所述增量学习训练包括：

29、在原有模型的基础上，使用新数据进行增量学习。

30、第二方面，本发明提供一种文本数据的实体提取系统，用以实现上述方法，所述系统包括：

31、数据处理模块，用于将原始文本数据进行分词和去停用词的预处理操作，并将预处理后的文本数据转换为词向量表示，所述词向量基于预训练模型生成；

32、模型构建模块，用于基于卷积神经网络，通过引入上下感知卷积学习策略构建多层感知的卷积神经网络模型；

33、实体分类模块，用于通过所述卷积神经网络模型对文本数据进行实体分类，确定文本中的实体类别；

34、模型训练模块，用于基于所述词向量和实体类别，对所述卷积神经网络模型进行训练；

35、信息识别模块，用于将实际文本数据输入训练后的所述卷积神经网络模型，从中识别出实体信息。

36、第三方面，本发明提供一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如上所述的文本数据的实体提取方法。

37、第四方面，本发明提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上所述的文本数据的实体提取方法。

38、本发明提供的一种文本数据的实体提取方法、系统、设备和介质，与现有技术相比，其有益效果在于：本发明采用卷积神经网络进行实体提取，引入上下感知卷积学习策略，充分利用文本数据的上下文信息，提高提取的性能；使用交叉熵损失函数和随机梯度下降优化算法进行模型训练，使模型更好地拟合训练数据；根据概率对模型输出进行实体分类，使提取出的内容的分类更具准确性；使用不同数据集对提取模型进行评估优化，具有更好的通用性和扩展性。

技术特征：

1.一种文本数据的实体提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文本数据的实体提取方法，其特征在于，所述基于卷积神经网络，通过引入上下感知卷积学习策略构建多层感知的卷积神经网络模型，包括：

3.根据权利要求2所述的文本数据的实体提取方法，其特征在于，所述通过所述卷积神经网络模型对文本数据进行实体分类，确定文本中的实体类别，包括：

4.根据权利要求1所述的文本数据的实体提取方法，其特征在于，所述基于所述词向量和实体类别，对所述卷积神经网络模型进行训练，包括：

5.根据权利要求4所述的文本数据的实体提取方法，其特征在于，使用sgd优化算法迭代更新模型参数之后，还包括：

6.根据权利要求1所述的文本数据的实体提取方法，其特征在于，所述将实际文本数据输入训练后的所述卷积神经网络模型，从中识别出实体信息，还包括：

7.根据权利要求1所述的文本数据的实体提取方法，其特征在于，所述对所述卷积神经网络模型进行训练还包括：迁移学习训练和增量学习训练；

8.一种文本数据的实体提取系统，其特征在于，所述系统包括：

9.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1至7中任一项所述的文本数据的实体提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至7中任一项所述的文本数据的实体提取方法。

技术总结
本发明涉及数据识别技术领域，公开了一种文本数据的实体提取方法、系统、设备和介质。本发明将原始文本数据进行分词和去停用词的预处理操作，并将预处理后的文本数据转换为词向量表示，词向量基于预训练模型生成；基于卷积神经网络，通过引入上下感知卷积学习策略构建多层感知的卷积神经网络模型；通过卷积神经网络模型对文本数据进行实体分类，确定文本中的实体类别；基于词向量和实体类别，对卷积神经网络模型进行训练；将实际文本数据输入训练后的卷积神经网络模型，从中识别出实体信息。本发明引入上下感知卷积学习策略，充分利用文本数据的上下文信息，提高了提取的性能，提取出的内容的分类更具准确性。

技术研发人员：童俊,王一达,李昂,杜猛俊,钱锦,王宇辉,徐树良,陈涛,陈元中,章弈,杨涛,陈国涛,王若丁,杨谊,柳东辰
受保护的技术使用者：国网浙江省电力有限公司杭州供电公司
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：童俊,王一达,李昂,杜猛俊,钱锦,王宇辉,徐树良,陈涛,陈元中,章弈,杨涛,陈国涛,王若丁,杨谊,柳东辰
技术所有人：国网浙江省电力有限公司杭州供电公司
我是此专利的发明人

上一篇：一种高稳定性的维生素B6注射液的制备方法与流程
上一篇：一种5G移动通信信号测试设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。