一种基于分类器的扩散模型图形符号异常识别与校正方法

文档序号:37797066发布日期:2024-04-30 17:07阅读:8来源:国知局
一种基于分类器的扩散模型图形符号异常识别与校正方法

本发明涉及图像处理和机器学习,具体指一种基于分类器的扩散模型图形符号异常识别与校正方法。


背景技术:

1、在自动化图像生成领域,扩散模型已经在自动生成高质量图像的领域中显示出了卓越的能力,尤其是在生成自然场景图像和人物肖像等方面。这些模型通过学习大量数据,能够模拟图像的分布并生成新的图像实例。然而,当应用于生成含有精细结构和规范符号的图形,如流程图、工程图纸或方框中文字符时,模型往往面临生成精度和清晰度不足的问题。这些问题主要表现为符号边缘的模糊、结构的扭曲、以及元素间的错误对齐。

2、在实际应用中,例如自动化文档编辑、图形设计和工程绘图等领域,这些问题成为了一个显著的瓶颈。设计师和工程师依赖精确和规范的图形表示来进行沟通和创作,任何生成的异常都可能导致误解或进一步的编辑成本。

3、现有技术中,深度学习方法已广泛应用于图像识别和生成任务。这些模型通过学习大量样本来提取特征并建立复杂的图像表示。然而,这些方法在处理细节丰富和结构特定的图形符号生成时,仍然面临挑战。这些挑战包括难以捕捉精细的结构细节、维持符号间的准确对齐以及保持图形的整体清晰度。

4、此外,虽然存在一些专门用于图形和符号识别的算法,如基于形态学的方法和结构分析,但这些方法往往在处理高度复杂和多变的生成任务时不够灵活或准确。因此,开发一种新的方法,能够结合扩散模型的生成能力与深度学习的识别精度,以解决生成过程中的这些具体问题,对于提高自动化图形生成的质量和实用性至关重要。


技术实现思路

1、本发明针对现有技术的不足,提出一种基于分类器的扩散模型图形符号异常识别与校正方法,结合了深度学习技术和图形符号识别技术,以提高生成图形的准确性和清晰度,特别适用于自动化文档处理、图形设计和相关领域中的图像生成和优化。

2、为了解决上述技术问题,本发明的技术方案为:

3、一种基于分类器的扩散模型图形符号异常识别与校正方法,包括如下步骤:

4、步骤1、获取数据,所述数据中包括流程图中的图形符号和结构的图像数据;

5、步骤2、数据预处理并制作flowtextnet数据集

6、步骤2-1、将获取的数据通过扰动、变形、删除关键元素、修改元素的位置和关系,从而生成不符合标准的负面样本;

7、步骤2-2、所述负面样本使用图像生成脚本创建图像,保存标注信息;

8、步骤2-3、应用数据增强并保存增强后的图像及其标注;

9、步骤2-4、将所有来源的图像和标注信息合并到一起,生成一个flowtextnet数据集;

10、步骤3、构建一个识别异常图形符号引导扩散的分类器模型,所述分类器模型包括依次连接的输入层、3层特征提取网络、两个全连接层和输出层,所述特征提取网络包括卷积层和每层卷积层后的relu激活函数以及2×2最大池化层;

11、所述输出层使用softmax,用于输出预测异常概率,

12、所述分类器模型的损失函数使用softmax交叉熵损失和ctc损失:

13、

14、

15、其中,λ为权重参数,c是类别数,yi是真实标签,是预测概率,p(π|x)是给定输入图像x下可能对齐序列π的概率,p(l|π)是标签序列l给定对齐序列π的概率;

16、步骤4、应用flowtextnet数据集训练分类器模型;

17、步骤5、获取待识别和校正的图像数据,通过训练好的分类器模型得到异常概率;

18、步骤6、对原始的图像数据进行ddim正向加噪处理,得到加噪后的数据xt;

19、步骤7、对数据xt进行ddim逆扩散处理得到数据xt-1;

20、步骤8、应用步骤5得到的异常概率,将数据xt-1作为输入通过分类器引导调整得到最终的校正后的数据x′t-1。

21、作为优选,所述分类器模型的输入层维度为3*256*256,输入层通道数为3,三层所述特征提取网络中,卷积层分别为:输入通道数3,输出通道数16,卷积核尺寸3×3,卷积步进1,补偿same;输入通道数16,输出通道数32,卷积核尺寸5×5,卷积步进1,补偿same;输入通道数32,输出通道数64,卷积核尺寸3×3,卷积步进1,补偿same。

22、作为优选,每层所述特征提取网络输出特征表达式如下:

23、fln×n=relu(wln×n*fl-1+bl)

24、其中,是第l层的输出特征,滤波器大小为n×n;fl-1是前一层的输出特征图;是第1层的卷积核权重bl是第l层的偏置项;*表示卷积运算;relu激活函数用于引入非线性。

25、作为优选,第一个所述全连接层输入神经元个数256,输出神经元个数128;第二个所述连接层输入神经元个数128,输出神经元个数2。

26、作为优选,所述步骤6中,加噪的方法为:

27、定义x0为原始数据,时间步长{t1,t2,...,tn},给定时间步t∈[1,n],噪声数据xt通过以下表达式表示:

28、

29、其中是累积乘积的噪声水平,定义为:

30、

31、αs为每一步的比例因子;

32、其中的噪声模式表达式,是关于噪声数据xt-1和时间步t的函数:

33、∈θ(xt-1,t)

34、整个时刻表的迭代后,得到逐渐增加噪声的数据序列{x1,x2,...,xn}。

35、作为优选,所述步骤7中,所述数据序列{x1,x2,...,xn}的去噪方法为:

36、从噪声数据xn开始,应用ddim扩散模型逐步去除噪声,所述ddim扩散模型去除噪声的表达式如下:

37、

38、所述噪声数据xn在去噪过程中,使用均方损失来计算损失值:

39、

40、作为优选,所述步骤8中,ddim模型在去噪过程中,获取分类器模型生成的图像的异常概率并通过异常概率对去噪过程进行引导调整,表达式如下:

41、

42、其中x′t-1为引导调整后的图像,γ调整参数控制分类器引导的强度。

43、作为优选,所述分类器模型的训练方法为:获取flowtextnet的数据集中的图像数据,通过pytorch框架进行训练,学习率开始设置为0.001,批量大小为64,训练轮次为100;优化器采用标准的adam优化器,反向传播调用‘.backward()’,根据权重的梯度更新权重。

44、作为优选,所述分类器模型的损失函数与ddim扩散模型的损失函数权重比为1:β,其中β为ddim扩散模型的损失函数的权重系数。

45、本发明具有以下的特点和有益效果:

46、采用上述技术方案,构建了基于卷积网络的专用流程图形符号分类器,用于提高字符生成的准确性和清晰度。分类器能够分析和识别生成过程中的异常模式,然后调整生成过程以减少失真和模糊。这种方法提高了整体生成质量,使输出的图形和文字更符合预期效果。本发明结合了深度学习技术和图形符号识别技术,专门针对扩散模型在生成图形符号时的异常问题,如流程图和方框中文字符等图像。通过这种结合,提高了生成图形的准确性和清晰度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1