一种基于文本的三维体素模型生成方法

文档序号：26759099发布日期：2021-09-25 05:12阅读：来源：国知局

技术特征：
1.一种基于文本的三维体素模型生成方法，其特征在于：包括如下步骤，步骤一：将文本描述输入到语义编码器中得到文本和三维体素模型的联合语义特征，语义编码器由语义编码器架构中预训练得到的文本编码器实现；步骤二：通过条件生成对抗网络框架使生成器获得生成匹配文本描述三维体素模型的能力；步骤三：通过重建模型标签的判别器，指导生成器训练生成更为精致的三维体素模型；步骤四：通过使生成器在不同阶段生成不同分辨率下的三维体素模型，将所述三维模型传递给不同阶段的判别器，并对其结果进行联合训练，使生成器能够应对高分辨率模型生成任务且生成三维体素模型更精致；步骤五：通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细节能力，提升三维体素模型生成结果的精致度和分辨率。2.如权利要求1所述的一种基于文本的三维体素模型生成方法，其特征在于：还包括步骤六，将从文本生成的三维体素模型用于跨模态生成领域中，解决相关工程技术问题；所述相关工程技术问题包括多媒体教育资源构建、三维体素模型编辑和计算机教学辅助。3.如权利要求1或2所述的一种基于文本的三维体素模型生成方法，其特征在于：步骤一实现方法为，通过引入三元组损失拉近相似文本的特征向量之间的距离，加大不相似文本的特征向量之间的距离，实现从文本中提取文本三维体素模型联合语义特征的训练；评价相似的准则是是否描述同一张三维体素模型，三元组损失的引入迫使文本编码器忽略文本表达形式的差异，从文本中提取出理想的文本三维体素模型联合特征；此编码器架构主要包含三个相同的文本编码器和一个三维体素模型编码器；通过使用{t1，t2，t3}作为文本编码器的输入，其中{t1，t2}是相同三维体素模型对应的不同文本，{t2，t3}是描述不同三维体素模型的两个文本；损失函数被定义为：j＝d(e1，e2)+max(α
‑
d(e2，e3)，0)其中d(.)是通过计算两个特征的l2距离得到的，ei是文本ti的特征向量，超参数α被用来限制不相似文本向量之间的最小距离；通过最小化该损失函数，优化整个文本编码器架构；当存在此三元组损失并不能充分利用一个批次中的其他数据的问题，在训练过程中，通过引入另一个三元组损失解决此问题；通过将模型调整为两个相同的文本编码器和一个三维体素模型编码器；给定一个真实三维体素模型集s和相对应的文本对集合t，其中三维体素模型编码器；给定一个真实三维体素模型集s和相对应的文本对集合t，其中包含两个描述相同三维体素模型的不同文本；文本编码器采用t＝{t1，t2，
…
，tm}作为输入，每一个文本都有一个正样本对tk；对于每个正样本对来说，训练批次中其余文本对中的任意文本与正样本对中的任意文本都互成负样本对；批次中每个文本都有一个正样本，有多个负样本；因此，为每个正样本对计算损失时，不仅需要拉近两个正样本之间的距离，同时需要考虑正样本对中的每一个样本产生的负样本对，通过最小距离阈值α将所述负样本对之间的距离推远；为每个正样本对(t
i
，
t
j
)定义如下损失函数：j
i，j
＝log(∑(i，m)∈n exp(α
‑
d
i，m
)+∑(j，n)∈n exp(α
‑
d
j，n
))+max(δ，d
i，j
)其中n代表批次中的除该文本对以外的其余文本集合，超参数α代表不相似文本向量之间距离的最小阈值，d
i，j
＝||si
‑
sj||2与d(.)含义相同；在训练过程中，三维体素模型编码器会提取公共但无意义的三维体素模型特征，导致所有文本特征都映射到同一三维体素模型特征上；虽然所述满足配对的文本特征和三维体素模型特征相似的条件，但并不能证明文本编码器已得到一个理想的联合嵌入；通过引入一个环状损失函数，通过在当前得到的文本特征映射到配对的三维体素模型特征时，确保三维体素模型特征能够映射回文本特征；通过计算实际环形分布和理想分布之间的交叉熵来实现环形损失，实际环形分布被定义如下：其中φ(.)表示文本编码器，ω(.)表示三维体素模型编码器，文本特征和三维体素模型特征有相同的维度；
⊙
代表向量之间的点击操作，sts表示文本特征和三维体素模型特征之间的相似度，sts转置得到sst；环状损失函数被定义为：lc＝h(s
tst
，t)其中h(.)表示两个分布之间的交叉熵函数；此文本编码器的目的是保证提取出文本三维体素模型共享的语义特征，因此描述相同三维体素模型的两个文本对应的特征是相似的；理想情况下，从一个文本特征出发，映射到匹配的三维体素模型特征，再映射回文本特征，映射回相同类的文本特征的概率是相同的；通过同时构建文本编码器和三维体素模型编码器，通过约束同一三维体素模型的不同描述经文本编码器后相似，以及文本编码结果向模型编码结果映射后再反向映射回来与原编码相似的方法，对文本编码器进行约束，获得能够建立文本与三维体素模型关系映射的文本编码器。4.如权利要求3所述的一种基于文本的三维体素模型生成方法，其特征在于：步骤二实现方法为，通过使用条件生成对抗网络，实现生成结果与文本匹配的目的；在生成器上，通过将输入的文本向量与噪声向量相结合，将结合后的向量作为生成器的输入，达到为生成对抗网络的生成器添加约束的目的；在判别器上，通过将三维体素模型与条件向量作为双输入传递给判别器的方法，使判别器能够为生成结果与模型的匹配程度做出评估；在训练过程中，判别器需要处理两类错误，分别为生成的三维体素模型不够精致和生成的三维体素模型与文本向量不匹配；在训练过程中，通过将数据分为三组，协调训练的方式，达到分离上文所述两种错误源的目的，进而显著提升训练速度与训练效果；所述三组数据分别为生成数据组、匹配的真实数据组和不匹配的真实数据组；生成数据组包含由生成器生成的三维体素模型与输入的文本，此组数据使用下标fake表示；匹配的真实数据组包含数据集中的三维体素模型数据及与此数据相匹配的文本，此组数据使用下标match表示；不匹配的真实数据组包含数据集中的三维体素模型数据及与此数据不相匹配的文本此组数据使用下标mismatch表示；网络使用如下公式作为训练的损失函数；
在此公式中f()为判别器网络，s为输入的三维体素模型，t为输入的文本，其中最后一项为偏置，为随机混合的真假数据，此部分用于保证生成对抗网络的lipschiz连续的条件；在训练中生成器尽可能的使此公式结果变小，判别器尽可能的使此公式的结果变大，通过达成对抗提升生成器的生成效果，使生成器获得生成匹配文本描述三维体素模型的能力。5.如权利要求4所述的一种基于文本的三维体素模型生成方法，其特征在于：步骤三实现方法为，类别标签带有三维体素模型的大量信息，使用类别标签训练可以帮助网络理解文本信息，并且通过重建分类标签能够监督网络提升三维体素模型的生成效果；通过为判别器增加辅助分类器，达到为判别器增加标签重建功能的目的；改进后的判别器网络以三维体素模型和文本向量为输入，此判别器实现两个功能，包括对模型真伪的判别及对模型类别标签的重建，此模型以判别结果与重建的类别标签为输出；此判别器首先通过一段卷积神经网络提取特征，在此之后分别将此段特征传递给类标签重建网络和模型真伪判别网络中去；类标签重建网络以模型特征为输入生成模型类别标签，模型真伪判别网络以模型特征及文本向量为输入生成对模型真伪及模型与文本匹配程度的判别结果；在生成对抗网络的训练过程中，同时进行对分类器的训练；通过同时将生成器的生城结果与数据集中的数据作为输入来训练分类器，能够使分类器的训练速度与生成对抗网络同步，达到更好的引导的效果；将分类器对生成的三维体素模型的分类结果与真实标签进行匹配计算梯度传递给生成器可辅助生成器的训练；所述过程的损失函数如下式所示；lc＝e[logp(c＝c|x
real
)]+e[logp(c＝c|x
fake
)]公式中c代表生成的标签即为重建的标签，x代表真实的标签，生成器和判别器共同努力达到使此公式值更小的目的；通过计算生成的标签c与真实的标签x的差异引导生成器训练，即通过判别器重建标签引导生成器训练，达到生成更为精致的三维体素模型的目的。6.如权利要求5所述的一种基于文本的三维体素模型生成方法，其特征在于：步骤四实现方法为，在生成高分辨率三维体素模型的任务中，数据量随模型分辨率提高而提高，拟合难度也随之提升；通过构建级联的生成对抗网络，同时生成多个不同分辨率下的结果，再使用多个不同分辨率下的判别器结合真实数据对生成结果进行评判，通过将所述评估结果进行综合并作为损失函数计算梯度，实现在生成器网络的不同部分对其添加约束的功能，实现同时对生成器的中间及结尾添加约束的目的；其过程表示为如下公式；此公式中f
i
表示第i个判别器，此公式综合所有分辨率下判别器对其对应的三维体素模型生成结果的评估，使生成器能够应对高分辨率模型生成任务且生成三维体素模型更精致。7.如权利要求6所述的一种基于文本的三维体素模型生成方法，其特征在于：步骤四实现方法为，
在高分辨率模型的判别器中，分辨率提高的同时三维体素模型的纹理细节增多，采用原判别器会导致部分局部细节被忽略，网络无法达到最好的效果，原有的方法只能对整体进行评估；通过引入拒不判别器的方案，在原判别器网络的基础上添设新的局部判别器，该判别器只针对于判断模型的局部细节并将其反馈给生成器用于其对生成模型细节任务的训练；由于同时只处理模型的一小部分，此网络在能够应对高分辨率模型带来的高数据量问题与高分辨率模型被高度压缩所导致的模型特征不能充分的描述模型的问题；其过程表示为如下公式；此公式中，代表模型的局部，此处通过将模型各个部分判别结果的平均值作为损失训练，此系统获得处理局部细节特征的能力；在实际训练中，判别器尽可能使此公式值更大而生成器尽可能使此公式值缩小；改进后的高分辨率判别器神经网络以三维体素模型和文本向量为输入，此判别器实现三个功能，包括对模型整体真伪的判别，对模型局部真伪的判别及对模型类别标签的重建，此模型以对模型整体及局部的判别结果与重建的类别标签为输出；此判别器首先通过一段卷积神经网络提取特征，在此之后分别将此段特征传递给类标签重建网络和模型真伪判别网络中去；类标签重建网络以模型特征为输入生城模型类别标签，模型真伪判别网络以模型特征及文本向量为输入生成对三维体素模型真伪及三维体素模型与文本匹配程度的判别结果；通过在高分辨率模型判别器中加入局部判别器使得生成对抗网络具备处理三维体素模型细节的能力，使生成的高分辨率三维体素模型在局部细节上更逼真，提升三维体素模型生成结果的精致度和分辨率。

技术总结
本发明公开的一种基于文本的三维体素模型生成方法，属于从文本到三维体素模型的跨模态生成领域。本发明通过文本编码器将自然语言处理为计算机能够理解的文本向量；通过条件生成对抗网络框架使生成器获得生成匹配文本描述模型的能力；通过重建模型标签的判别器，指导生成器训练生成更为精致的模型；通过使生成器在不同阶段生成不同分辨率下的三维体素模型，将三维体素模型传递给不同阶段的判别器，并对其结果进行联合训练，使生成器能够应对高分辨率模型生成任务且生成模型更精致；通过在高分辨率模型判别器中加入局部判别器提升其处理高数据量及模型细节能力，提升三维体素模型生成结果的精致度和分辨率。本发明具有适用性广、生成效果好的优点。生成效果好的优点。生成效果好的优点。

技术研发人员：余月杨越李博闻
受保护的技术使用者：北京理工大学
技术研发日：2021.06.28
技术公布日：2021/9/24

完整全部详细技术资料下载

当前第2页1 2