文本层次结构的分割方法及装置、存储介质、计算机设备与流程

文档序号:35468008发布日期:2023-09-16 10:17阅读:30来源:国知局
文本层次结构的分割方法及装置、存储介质、计算机设备与流程

本技术涉及一种人工智能、金融、数字医疗,特别是涉及一种文本层次结构的分割方法及装置、存储介质、计算机设备。


背景技术:

1、在自然任务处理中,将文本分割为主题可以显着改善信息检索或语音识别任务的表现,例如,将金融机构或医疗机构等语音客服的通话录音进行文本主题分割等场景。同时,在主题检测、跟踪系统以及总结问题等应用场景中,同样也需要基于对话文本分割技术对语音转录的文档进行分割,因此,对文本主题分割技术的研究日趋深入。

2、目前,现有的文本分割技术仅能够满足对文本进行线性分割,即找到文档中各个主题段之间的边界并对其做切割,其中,该文档是由多个连续的不同主题片段构成的。而当现有的文本分割技术被应用于较为复杂的应用场景中时,例如,在具有多结构层次的语音转录文档或小说文档中既有篇章结构又有段落结构(段落被视为每一个篇章内的子主题),除了在线性分割的基础上外,还需要对各个主题片段内进行子主题的分割。然而,现有的基于监督学习技术构建的文本分割模型均无法满足对层次较为复杂的文本进行分割,进而导致金融机构或医疗机构等场景的语音转录文档语义识别的准确率降低。


技术实现思路

1、有鉴于此,本技术提供一种文本层次结构的分割方法及装置、存储介质、计算机设备,主要目的在于改善现有无法满足对层次较为复杂的文本进行分割的需求,进而导致金融机构或医疗机构等场景的语音转录文档语义识别的准确率低下的技术问题。

2、依据本技术一个方面,提供了一种文本层次结构的分割方法,包括:

3、获取待分割文本,所述待分割文本包含多个语句;

4、基于已完成模型训练的文本分割概率预测模型分别对各个所述语句进行分割概率预测处理,得到各个所述语句的主题分割概率值以及段落分割概率值,所述文本分割概率预测模型是基于预训练编码器、卷积神经网络以及多任务概率预测模型构建的;

5、根据各个所述语句的主题分割概率值以及段落分割概率值分割所述待分割文本,生成所述待分割文本的文本层次结构分割结果。

6、优选的,所述文本分割概率预测模型包括主题分割概率预测子模型以及段落分割概率预测子模型,所述基于已完成模型训练的文本分割概率预测模型分别对各个所述语句进行分割概率预测处理,得到各个所述语句的主题分割概率值以及段落分割概率值,具体包括:

7、基于所述主题分割概率预测子模型对各个所述语句进行主题分割概率预测处理,得到各个所述语句的主题分割概率值;

8、基于所述段落分割概率预测子模型对各个所述语句进行段落分割概率预测处理,得到各个所述语句的段落分割概率值。

9、优选的,所述基于已完成模型训练的文本分割概率预测模型分别对各个所述语句进行分割概率预测处理之前,所述方法还包括:

10、基于已完成模型训练的预处理子模型、初始主题分割概率预测子模型以及初始段落分割概率预测子模型构建初始文本分割概率预测模型,所述预处理子模型是基于预训练编码器构建的,所述初始主题分割概率预测子模型是基于多任务概率预测模型构建的,所述初始段落分割概率预测子模型是基于卷积神经网络以及多任务概率预测模型共同构建的。

11、优选的,所述基于已完成模型训练的预处理子模型、初始主题分割概率预测子模型以及初始段落分割概率预测子模型构建初始文本分割概率预测模型之后,所述方法还包括:

12、基于最小化算法对所述初始主题分割概率预测子模型以及初始段落分割概率预测子模型的损失函数之和进行最小化处理,以优化所述初始文本分割概率预测模型,得到已完成模型训练的文本分割概率预测模型。

13、优选的,所述根据各个所述语句的主题分割概率值以及段落分割概率值分割所述待分割文本,生成所述待分割文本的文本层次结构分割结果,具体包括:

14、获取目标语句的主题分割概率值以及段落分割概率值;

15、若所述主题分割概率值大于第一预设分割概率阈值,则将所述目标语句作为新主题的首个语句;

16、若所述主题分割概率值小于或等于所述第一预设分割概率阈值,且所述段落分割概率值大于第二预设分割概率阈值,则将所述目标语句作为新段落的首个语句;

17、若所述主题分割概率值小于或等于所述第一预设分割概率阈值,且所述段落分割概率值小于或等于所述第二预设分割概率阈值,则不进行分割;

18、遍历所述待分割文本所包含的各个语句,生成所述待分割文本的文本层次结构分割结果。

19、优选的,所述根据各个所述语句的主题分割概率值以及段落分割概率值生成所述待分割文本的文本层次结构分割结果,还包括:

20、若所述主题分割概率值大于所述第一预设分割概率阈值,且所述段落分割概率值小于或等于所述第二预设分割概率阈值,则触发重新预测线程,以更新各个所述语句的主题分割概率值以及段落分割概率值。

21、优选的,所述基于已完成模型训练的预处理子模型、初始主题分割概率预测子模型以及初始段落分割概率预测子模型构建初始文本分割概率预测模型之前,所述方法还包括:

22、基于预训练编码器构建初始预处理子模型;

23、基于预设机器算法对所述初始预处理子模型进行预训练处理,得到已完成模型训练的预处理子模型。

24、依据本技术另一个方面,提供了一种文本层次结构的分割装置,包括:

25、获取模块,用于获取待分割文本,所述待分割文本包含多个语句;

26、预测模块,用于基于已完成模型训练的文本分割概率预测模型分别对各个所述语句进行分割概率预测处理,得到各个所述语句的主题分割概率值以及段落分割概率值,所述文本分割概率预测模型是基于预训练编码器、卷积神经网络以及多任务概率预测模型构建的;

27、分割模块,用于根据各个所述语句的主题分割概率值以及段落分割概率值分割所述待分割文本,生成所述待分割文本的文本层次结构分割结果。

28、优选的,所述文本分割概率预测模型包括主题分割概率预测子模型以及段落分割概率预测子模型,所述预测模块,具体包括:

29、主题分割预测单元,用于基于所述主题分割概率预测子模型对各个所述语句进行主题分割概率预测处理,得到各个所述语句的主题分割概率值;

30、段落分割预测单元,用于基于所述段落分割概率预测子模型对各个所述语句进行段落分割概率预测处理,得到各个所述语句的段落分割概率值。

31、优选的,所述预测模块之前,所述装置还包括:

32、第一构建模块,用于基于已完成模型训练的预处理子模型、初始主题分割概率预测子模型以及初始段落分割概率预测子模型构建初始文本分割概率预测模型,所述预处理子模型是基于预训练编码器构建的,所述初始主题分割概率预测子模型是基于多任务概率预测模型构建的,所述初始段落分割概率预测子模型是基于卷积神经网络以及多任务概率预测模型共同构建的。

33、优选的,所述构建模块之后,所述装置还包括:

34、优化模块,用于基于最小化算法对所述初始主题分割概率预测子模型以及初始段落分割概率预测子模型的损失函数之和进行最小化处理,以优化所述初始文本分割概率预测模型,得到已完成模型训练的文本分割概率预测模型。

35、优选的,所述分割模块,具体包括:

36、获取单元,用于获取目标语句的主题分割概率值以及段落分割概率值;

37、分割单元,用于若所述主题分割概率值大于第一预设分割概率阈值,则将所述目标语句作为新主题的首个语句;

38、所述分割单元,还用于若所述主题分割概率值小于或等于所述第一预设分割概率阈值,且所述段落分割概率值大于第二预设分割概率阈值,则将所述目标语句作为新段落的首个语句;

39、所述分割单元,还用于若所述主题分割概率值小于或等于所述第一预设分割概率阈值,且所述段落分割概率值小于或等于所述第二预设分割概率阈值,则不进行分割;

40、生成单元,用于遍历所述待分割文本所包含的各个语句,生成所述待分割文本的文本层次结构分割结果。

41、优选的,所述分割模块,还包括:

42、更新单元,用于若所述主题分割概率值大于所述第一预设分割概率阈值,且所述段落分割概率值小于或等于所述第二预设分割概率阈值,则触发重新预测线程,以更新各个所述语句的主题分割概率值以及段落分割概率值。

43、优选的,所述第一构建模块之前,所述装置还包括:

44、第二构建模块,用于基于预训练编码器构建初始预处理子模型;

45、预训练模块,用于基于预设机器算法对所述初始预处理子模型进行预训练处理,得到已完成模型训练的预处理子模型。

46、根据本技术的又一方面,提供了一种存储介质,所述存储介质中存储有至少一条可执行指令,所述可执行指令使处理器执行如上述文本层次结构的分割方法对应的操作。

47、根据本技术的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

48、所述存储器用于存放至少一条可执行指令,所述可执行指令使所述处理器执行上述文本层次结构的分割方法对应的操作。

49、借由上述技术方案,本技术实施例提供的技术方案至少具有下列优点:

50、本技术提供了一种文本层次结构的分割方法及装置、存储介质、计算机设备,首先获取待分割文本,所述待分割文本包含多个语句;其次基于已完成模型训练的文本分割概率预测模型分别对各个所述语句进行分割概率预测处理,得到各个所述语句的主题分割概率值以及段落分割概率值,所述文本分割概率预测模型是基于预训练编码器、卷积神经网络以及多任务概率预测模型构建的;最后根据各个所述语句的主题分割概率值以及段落分割概率值分割所述待分割文本,生成所述待分割文本的文本层次结构分割结果。与现有技术相比,本技术实施例通过基于预训练编码器、卷积神经网络以及多任务概率预测模型构建的文本分割概率预测模型预测待分割文本中所包含的各个语句作为新主题起始的概率值,以及作为新段落起始的概率值,并根据每个语句的两个概率值确定在该语句处是否进行分割,以及如何分割,实现了对层次较为复杂的文本进行分割的目的,提高了文本层次结构分割的精度,从而提高了金融机构或医疗机构等场景的语音转录文档语义识别的准确率。

51、上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1