1.一种基于bert类模型的阅读理解式新闻文本事件抽取方法,其特征在于,包括如下步骤:
步骤1,收集中文新闻文本语料,并从中文新闻文本语料中获得事件类型表和事件类型表中每一个事件类型对应的论元表;
步骤2,将事件类型表中的事件类型和论元表中的论元按照顺序排列;
步骤3,根据论元表设计不同问题,问题的先后顺序与论元表中的论元先后顺序相同;
步骤4,将步骤1收集的中文新闻文本语料按比例划分为训练集、验证集和测试集,并根据事件类型表和论元表对训练集和验证集进行标注;
步骤5,将标注好的训练集和验证集转换为指定格式数据;该指定格式数据包括两种形式:第一种形式的指定格式数据包含事件类型信息;第二种形式的指定格式数据包含论元信息;
步骤6,利用转换为指定格式数据的训练集和验证集输入bert类模型进行训练和验证,分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型;
步骤7,使用训练得到的事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测,得到测试集的事件类型以及对应的论元抽取的预测结果。
2.根据权利要求1所述的基于bert类模型的阅读理解式新闻文本事件抽取方法,其特征在于,步骤4中每个标注好的中文新闻文本语料涉及的事件类型、对应论元以及论元在文本语料中的起止位置都可获得。
3.根据权利要求2所述的基于bert类模型的阅读理解式新闻文本事件抽取方法,其特征在于,给不同中文新闻文本语料一个独特的id标签。
4.根据权利要求1所述的基于bert类模型的阅读理解式新闻文本事件抽取方法,其特征在于,步骤6中利用转换为指定格式数据的训练集和验证集输入bert类模型进行训练和验证,得到事件类型多分类模型的方法为:
(1)在bert类模型上层接上softmax层;
(2)将训练集中第一种形式的指定格式数据输入bert类模型进行训练,得到初始事件类型多分类模型;
(3)将验证集中第一种形式的指定格式数据输入初始事件类型多分类模型,根据初始事件类型多分类模型在验证集上的表现调整训练参数,得到最终的事件类型多分类模型。
5.根据权利要求1所述的基于bert类模型的阅读理解式新闻文本事件抽取方法,其特征在于,第二种形式的指定格式数据包含的论元信息包括论元的对应问题有无答案,答案的起止位置、问题的长度以及该问题是否有多个答案的信息。
6.根据权利要求5所述的基于bert类模型的阅读理解式新闻文本事件抽取方法,其特征在于,步骤6中利用转换为指定格式数据的训练集和验证集输入bert类模型进行训练和验证,得到问题有无答案的二分类模型的方法为:
(1)在bert类模型上层接上softmax层;
(2)将训练集中第二种形式的指定格式数据输入bert类模型进行训练,经过训练得到初始问题有无答案的二分类模型;
(3)将验证集中第二种形式的指定格式数据输入初始问题有无答案的二分类模型,根据初始问题有无答案的二分类模型在验证集上的表现调整训练参数,得到最终的问题有无答案的二分类模型。
7.根据权利要求5所述的基于bert类模型的阅读理解式新闻文本事件抽取方法,其特征在于,步骤6中利用转换为指定格式数据的训练集和验证集输入bert类模型进行训练和验证,得到论元抽取模型的方法为:
(1)将训练集中第二种形式的指定格式数据输入bert类模型进行训练,得到初始论元抽取模型;
(2)将验证集中第二种形式的指定格式数据输入初始论元抽取模型,根据初始论元抽取模型在验证集上的表现调整训练参数,得到最终的初始论元抽取模型。
8.根据权利要求1所述的基于bert类模型的阅读理解式新闻文本事件抽取方法,其特征在于,所述新闻文本事件抽取方法还包括:
步骤8,对预测结果做事件类型和论元去重,得到测试集上事件类型和论元抽取的最终结果。
9.根据权利要求8所述的基于bert类模型的阅读理解式新闻文本事件抽取方法,其特征在于,对预测结果做事件类型和论元去重的方法为:将测试集中单个样本的事件类型和对应论元的抽取结果分别存入对应的列表中,每新存入一个事件类型或对应论元时,判断对应的列表中是否已经出现过要存入的事件类型或对应论元,若尚未出现过则存入列表,否则不存入,处理完成预测结果后,对应列表中的结果即是测试集上事件类型和论元抽取的最终结果。