本发明涉及医学影像处理,尤其涉及一种基于跨视图语义对齐的医学报告生成方法、系统、终端及计算机可读存储介质。
背景技术:
1、随着科技的发展,大规模标注的医学图像数据集促进了基于深度学习的医学图像理解的发展,近年来,基于深度学习的视觉语言(vision language,vl)表示学习,它在大量自然出现的配对图像文本上进行预训练,即使标签有限也能在各种关于自然语言领域的vl下游任务中有不错的表现。
2、将vl表示学习从自然语言领域转移到医学领域时,与自然语言领域中文本和图像大多呈现一一对应关系,医学图像的检查需要根据每个患者独特的临床属性和个性化的临床需求,从而获取数量不同的视图,并且医学图像中的病理通常只占据很小的比例,所以需要准确地对病理对应的视觉信息进行捕获。现有的工作虽然尝试解决上述问题,但都只考虑了单个视图和文本之间的对应关系,没有考虑到多个视图之间细粒度的语义对齐,从而无法有效整合信息,导致生成的医学报告内容不准确。
3、因此,现有技术还有待于改进和发展。
技术实现思路
1、本发明的主要目的在于提供一种基于跨视图语义对齐的医学报告生成方法、系统、终端及计算机可读存储介质,旨在解决现有技术中没有考虑多个视图之间细粒度的语义对齐,无法有效整合信息,导致生成的医学报告内容不准确的问题。
2、为实现上述目的,本发明提供一种基于跨视图语义对齐的医学报告生成方法,所述基于跨视图语义对齐的医学报告生成方法包括如下步骤:
3、获取多个不同视角的图像,并将所有所述图像输入预先训练完成的视图自适应网络,所述视图自适应网络对所有所述图像进行压缩融合处理,得到多视图全局表示;
4、将所述多视图全局表示输入预先训练完成的跨视图语义对齐网络,所述跨视图语义对齐网络对所述多视图全局表示进行兴趣提取处理,得到感兴趣文本局部表征;
5、根据所述感兴趣文本局部表征获取医学文本内容,并根据所述医学文本内容生成医学报告。
6、可选地,所述的基于跨视图语义对齐的医学报告生成方法,其中,所述获取多个不同视角的图像,并将所有所述图像输入预先训练完成的视图自适应网络,所述视图自适应网络对所有所述图像进行压缩融合处理,得到多视图全局表示,具体包括:
7、接收用户输入的多个不同视角的图像;
8、将所有所述图像输入预先训练完成的视图自适应网络,所述视图自适应网络分别对每个所述图像进行表征压缩处理,得到每个所述图像对应的私有子空间;
9、将所有所述私有子空间进行融合,得到共同子空间,将所述共同子空间作为多视图全局表示。
10、可选地,所述的基于跨视图语义对齐的医学报告生成方法,其中,所述跨视图语义对齐网络的训练过程,具体包括:
11、获取样本图像集和样本报告文本集;
12、根据所述视图自适应网络得到所述样本图像集对应的训练多视图全局表示;
13、对所述训练多视图全局表示进行分割,得到多个训练多视图局部表示;
14、将所述样本报告文本集输入预先训练完成的自然语言模型,得到多个单词文本表征,其中,所述单词文本表征和训练多视图局部表示一一对应;
15、根据所有所述训练多视图局部表示和所有所述单词文本表征计算全局损失和局部损失;
16、根据所述全局损失和所述局部损失完成对跨视图语义对齐网络的训练。
17、可选地,所述的基于跨视图语义对齐的医学报告生成方法,其中,所述根据所有所述训练多视图局部表示和所有所述单词文本表征计算全局损失和局部损失,具体包括:
18、根据每个所述训练多视图局部表示和对应的单词文本表征进行计算,得到每个所述训练多视图局部表示对应的第一注意力矩阵和每个所述单词文本表征对应的第二注意力矩阵;
19、根据每个所述第一注意力矩阵对每个所述训练多视图局部表示进行更新,得到多个更新多视图局部表示;
20、根据每个所述第二注意力矩阵对每个所述单词文本表征进行更新,得到多个更新单词文本表征;
21、分别将所有所述更新多视图局部表示和所有所述更新单词文本表征进行加权融合,得到更新多视图全局表示和更新全局文本表征;
22、根据所述更新多视图全局表示和所述更新全局文本表征计算全局损失,并根据所有所述更新多视图局部表示和所有所述更新单词文本表征计算局部损失。
23、可选地,所述的基于跨视图语义对齐的医学报告生成方法,其中,所述将所述多视图全局表示输入预先训练完成的跨视图语义对齐网络,所述跨视图语义对齐网络对所述多视图全局表示进行兴趣提取处理,得到感兴趣文本局部表征,具体包括:
24、将所述多视图全局表示输入预先训练完成的所述跨视图语义对齐网络,将所述多视图全局表示分割为多个视图局部表示;
25、分别根据每个所述视图局部表示和对应的实际单词文本表征计算对应的注意力矩阵,其中,所述实际单词文本表征由所述跨视图语义对齐网络训练完成后得到;
26、将所有所述注意力矩阵转换为可视化图形,并根据所述可视化图形获取感兴趣子区域;
27、根据所述感兴趣子区域从所有所述实际单词文本表征选取对应的感兴趣文本局部表征。
28、可选地,所述的基于跨视图语义对齐的医学报告生成方法,其中,所述根据所述感兴趣文本局部表征获取医学文本内容,并根据所述医学文本内容生成医学报告,具体包括:
29、根据所述感兴趣文本局部表征从预设的文本库中选取对应的医学文本内容;
30、对所述医学文本内容进行语义分析处理,得到多个医学关键词;
31、将所有所述医学关键词填入预设的医学报告模板,生成医学报告。
32、可选地,所述的基于跨视图语义对齐的医学报告生成方法,其中,所述基于跨视图语义对齐的医学报告生成方法还包括:
33、分别根据每个所述注意力矩阵对每个所述实际单词文本表征进行更新;
34、将所有完成更新的实际单词文本表征进行加权融合,得到实际文本全局表征;
35、根据所述实际文本全局表征进行图像文本检索或零点文本分类,得到对应的检索结果或分类结果。
36、此外,为实现上述目的,本发明还提供一种基于跨视图语义对齐的医学报告生成系统,其中,所述基于跨视图语义对齐的医学报告生成系统包括:
37、全局表示获取模块,用于获取多个不同视角的图像,并将所有所述图像输入预先训练完成的视图自适应网络,所述视图自适应网络对所有所述图像进行压缩融合处理,得到多视图全局表示;
38、兴趣表征获取模块,用于将所述多视图全局表示输入预先训练完成的跨视图语义对齐网络,所述跨视图语义对齐网络对所述多视图全局表示进行兴趣提取处理,得到感兴趣文本局部表征;
39、医学报告生成模块,用于根据所述感兴趣文本局部表征获取医学文本内容,并根据所述医学文本内容生成医学报告。
40、此外,为实现上述目的,本发明还提供一种终端,其中,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于跨视图语义对齐的医学报告生成程序,所述基于跨视图语义对齐的医学报告生成程序被所述处理器执行时实现如上所述的基于跨视图语义对齐的医学报告生成方法的步骤。
41、此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有基于跨视图语义对齐的医学报告生成程序,所述基于跨视图语义对齐的医学报告生成程序被处理器执行时实现如上所述的基于跨视图语义对齐的医学报告生成方法的步骤。
42、本发明中,获取多个不同视角的图像,并将所有所述图像输入预先训练完成的视图自适应网络,所述视图自适应网络对所有所述图像进行压缩融合处理,得到多视图全局表示;将所述多视图全局表示输入预先训练完成的跨视图语义对齐网络,所述跨视图语义对齐网络对所述多视图全局表示进行兴趣提取处理,得到感兴趣文本局部表征;根据所述感兴趣文本局部表征获取医学文本内容,并根据所述医学文本内容生成医学报告。本发明通过跨视图语义对齐网络,实现了多个图像之间的细粒度语义对齐,从而提高了对多个图像的特征提取能力和信息整合能力,使得生成的医学报告内容更加准确。