三维点云表征模型构建方法、装置、电子设备和存储介质与流程

文档序号:36834225发布日期:2024-01-26 16:50阅读:16来源:国知局
三维点云表征模型构建方法、装置、电子设备和存储介质与流程

本发明涉及计算机视觉,尤其涉及三维点云表征模型构建方法、装置、电子设备和存储介质。


背景技术:

1、随着三维点云传感器(例如lidar)的快速发展以及在现实世界应用中不断增长的需求,如自动驾驶、增强/虚拟现实(ar/vr)和机器人技术,三维点云表征学习成为三维计算机视觉和图形领域的基本问题之一,近年来得到了显著关注。在过去几年的研究中,对于扩展视觉或者语言模型进行了广泛的研究,这导致了计算机视觉和自然语言处理领域的革命。然而,扩展大型的三维基础模型仍然是一个未解决的问题。数据驱动方法在各种三维点云理解任务(如点云分类、点云部分分割、实例分割、检测、重建等)方面取得了巨大的进展,然而这些方法往往需要针对每个不同的下游任务设计特定的框架。因此,如何扩展三维表征模型的规模以全面理解爆炸性增长的三维数据仍然具有挑战性。主要挑战表现在两个方面。首先这些3d骨干结构在不同下游任务的数据集上,每个骨干结构为追求性能提升都需要专门设计的扩展策略,这需要大量的人工设计工作,难以实现。其次,扩展模型规模将导致在没有参数初始化的情况下难以实现收敛,并且使训练不稳定。


技术实现思路

1、为了解决三维点云表征模型构建复杂的问题,本发明提供了如下技术方案。

2、本发明在第一方面提供了一种三维点云表征模型构建方法,包括:

3、采集三维点云数据集,根据所述三维点云数据集确定相匹配的图像数据集和文本数据集,将所述点云数据集、所述图像数据集和所述文本数据集组成训练样本;

4、将二维transformer编码器结构扩展形成点云编码器,将所述点云编码器与预训练的文本编码器和图像编码器构建为统一编码网络,并将所述训练样本输入到所述统一编码网络中,依次提取所述训练样本的点云特征、图像特征和文本特征;

5、利用所述点云特征、图像特征和文本特征对所述统一编码网络进行训练,以优化所述点云编码器的网络参数,得到训练后的三维点云表征模型,并将所述三维点云表征模型应用于下游任务中。

6、优选地,所述根据所述三维点云数据集确定相匹配的图像数据集和文本数据集,进一步包括:

7、收集大规模三维数据集,渲染所述三维数据集中的三维模型,得到渲染图像,并为所述渲染图像添加文本描述,生成点云-图像配对数据和点云-文本配对数据。

8、优选地,所述预训练的文本编码器和图像编码器是基于图文对比学习模型eva-clip的文本编码器和图像编码器。

9、优选地,所述将二维transformer编码器结构扩展形成点云编码器,进一步包括:

10、将二维transformer编码器中的分词器替换为点云分词器,以实现点云嵌入,所述点云分词器使用fps和knn算法将点分组成局部块,然后使用一维卷积层从所述局部块中提取分词后的点云的特征。

11、优选地,所述将所述训练样本输入到所述统一编码网络中,依次提取所述训练样本的点云特征、图像特征和文本特征,进一步包括:

12、将训练样本表示为n个三元组n为样本数量,其中pi、ii、ti分别表示来自同一个三维模型的点云及其对应的图像数据和文本数据;

13、将所述三元组分别输入到点云编码器fp、文本编码器ft和图像编码器fi获得三种模态的特征:

14、

15、其中和分别表示点云、图像和文本在一个训练集中的第i个样本的特征,是对向量进行长度归一化的运算|f|是对f向量进行长度归一化的运算。|fp(pi)|、|fi(pi)|和|ft(ti)|分别表示对fp(pi)、fi(pi)和ft(ti)三个向量进行归一化运算。

16、优选地,所述利用所述点云特征、图像特征和文本特征对所述统一编码网络进行训练,进一步包括:

17、使用adam优化器,初始学习率设置为0.001,并按照余弦学习率调度逐渐减小学习率,采用随机深度正则化算法,同时利用特征随机裁剪算法,随机屏蔽50%的点云分词特征。

18、优选地,所述下游任务包括零样本分类、少样本分类、点云场景理解、零样本点云零部件分割、少样本点云零部件分割、三维形状检索和点云编辑任务。

19、本发明在第二方面提供了一种三维点云表征模型构建装置,包括:

20、训练样本处理单元,用于采集三维点云数据集,根据所述三维点云数据集确定相匹配的图像数据集和文本数据集,将所述点云数据集、所述图像数据集和所述文本数据集组成训练样本;

21、网络构建单元,用于将二维transformer编码器结构扩展形成点云编码器,将所述点云编码器与预训练的文本编码器和图像编码器构建为统一编码网络,并将所述训练样本输入到所述统一编码网络中,依次提取所述训练样本的点云特征、图像特征和文本特征;

22、网络训练单元,用于利用所述点云特征、图像特征和文本特征对所述统一编码网络进行训练,以优化所述点云编码器的网络参数,得到训练后的三维点云表征模型,并将所述三维点云表征模型应用于下游任务中。

23、本发明第三方面提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行前述第一方面的方法。

24、本发明第四方面提供了一种存储介质,所述存储介质存储有多条指令,所述多条指令可被处理器读取并执行前述第一方面的方法。

25、本发明的有益效果是:

26、本发明的三维点云表征模型构建方法和装置,通过直接利用二维预训练模型或多模态大型模型作为初始化模型,能够稳定学习过程,采用二维图像或者自然语言处理的扩展策略来扩展三维点云模型,基于统一框架提供了切换到成熟预训练模型的灵活性,同时不产生额外的成本,并避免了额外的成本和专门的三维数据预训练。



技术特征:

1.一种三维点云表征模型构建方法,其特征在于,包括:

2.根据权利要求1所述的三维点云表征模型构建方法,其特征在于,所述根据所述三维点云数据集确定相匹配的图像数据集和文本数据集,进一步包括:

3.根据权利要求1所述的三维点云表征模型构建方法,其特征在于,所述预训练的文本编码器和图像编码器是基于图文对比学习模型eva-clip的文本编码器和图像编码器。

4.根据权利要求1所述的三维点云表征模型构建方法,其特征在于,所述将二维transformer编码器结构扩展形成点云编码器,进一步包括:

5.根据权利要求1所述的三维点云表征模型构建方法,其特征在于,所述将所述训练样本输入到所述统一编码网络中,依次提取所述训练样本的点云特征、图像特征和文本特征,进一步包括:

6.根据权利要求1所述的三维点云表征模型构建方法,其特征在于,所述利用所述点云特征、图像特征和文本特征对所述统一编码网络进行训练,进一步包括:

7.根据权利要求1所述的三维点云表征模型构建方法,其特征在于,所述下游任务包括零样本分类、少样本分类、点云场景理解、零样本点云零部件分割、少样本点云零部件分割、三维形状检索和点云编辑任务。

8.一种三维点云表征模型构建装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1至7任一项所述的三维点云表征模型构建方法。

10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1至7任一项所述的三维点云表征模型构建方法。


技术总结
本发明公开了三维点云表征模型构建方法、装置、电子设备和存储介质,属于机器视觉领域。该方法包括,采集三维点云数据集,确定相匹配的图像数据集和文本数据集,并组成训练样本;将二维transformer编码器结构扩展形成点云编码器,将点云编码器与预训练的文本编码器和图像编码器构建为统一编码网络,并将训练样本输入到统一编码网络中,提取点云特征、图像特征和文本特征;利用点云特征、图像特征和文本特征对统一编码网络进行训练,以优化点云编码器,得到三维点云表征模型并应用于下游任务。本发明利用二维预训练或多模态大模型中的预训练模型作为初始化模型,无需额外的成本或专门的三维预训练。

技术研发人员:马宝睿,周俊昇,王金生,王鑫龙,黄铁军,刘玉身
受保护的技术使用者:北京智源人工智能研究院
技术研发日:
技术公布日:2024/1/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1