对由至少一个传感器感测到的点云几何数据进行编码/解码的方法和装置与流程

文档序号：37905589发布日期：2024-05-09 21:52阅读：20来源：国知局

本技术一般而言涉及点云压缩，并且具体地涉及对由至少一个传感器感测到的点云几何数据进行编码/解码的方法和装置。

背景技术：

1、本节旨在向读者介绍本领域的各个方面，这些方面可以与下面描述和/或要求保护的本技术的至少一个实施例的各个方面有关。本讨论被认为有助于向读者提供背景信息以促进更好地理解本技术的各个方面。

2、作为3d数据的表示的一种格式，点云最近获得了关注，因为它们在表示所有类型的物理对象或场景方面具有多种能力。点云可以被用于各种目的，诸如文化遗产/建筑物，其中以3d方式扫描如雕像或建筑物之类的物体，以便在不发送或不访问物体的情况下共享物体的空间配置。而且，它是确保在物体可能被破坏的情况下保存物体的知识的方式；例如，被地震破坏的寺庙。此类点云通常是静态的、彩色的和巨大的。

3、另一个用例是在拓扑学和制图学中，其中使用3d表示允许地图不限于平面并且可以包括地貌。谷歌地图现在是3d地图的良好示例，但使用网格而不是点云。不过，点云可以是3d地图的合适数据格式，并且此类点云通常是静态的、彩色的且巨大的。

4、虚拟现实(vr)、增强现实(ar)和沉浸式世界最近成为热门话题，并被许多人预见为2d平面视频的未来。其基本理念是让观众沉浸在周围环境中，而标准电视只允许观众观看他/她眼前的虚拟世界。根据观众在环境中的自由度，沉浸感有几个层次。点云是分发vr/ar世界的良好格式候选。

5、汽车行业，尤其是可预见的自动驾驶汽车，也是可以大量使用点云的领域。自动驾驶汽车应当能够“探测”它们的环境，以基于检测到的它们的最接近的附近物体的存在和性质以及道路配置做出良好的驾驶决策。

6、点云是位于三维(3d)空间中的点集合，可选地为每个点附加附加值。这些附加值通常被称为属性。属性可以是例如三分量颜色、材料特性(如反射率)和/或与点相关联的表面的双分量法向量。

7、因此，点云是几何数据(3d空间中点的位置，通常由3d笛卡尔坐标x、y和z表示)和属性的组合。

8、点云可以由各种类型的设备感测，如相机的阵列、深度传感器、激光器(光检测和测距，也称为激光雷达)、雷达，或者可以由计算机生成(例如，在电影后期制作中)。取决于用例，点云可以有数千到数十亿个点用于制图应用。点云的原始表示要求每个点的比特数非常多，每个笛卡尔坐标x、y或z至少有十几个比特，并且可选地为(一个或多个)属性提供更多比特，例如10比特的三倍以用于颜色。

9、在许多应用中，通过仅消耗合理数量的比特率或存储空间同时维持可接受的(或优选地非常好的)体验质量，能够向最终用户分发点云或将它们存储在服务器中，是非常重要的。这些点云的高效压缩是使许多沉浸式世界的分发链实用的关键点。

10、对于由最终用户进行的分发和可视化，例如在ar/vr眼镜或任何其他支持3d的设备上，压缩可以是有损的(如在视频压缩中)。其他用例确实要求无损压缩，如医疗应用或自动驾驶，以避免更改从压缩和传输的点云的后续分析中获得的决策的结果。

11、直到最近，大众市场还没有解决点云压缩(又名pcc)问题，也没有可用的标准化的点云编解码器。2017年，标准化工作组iso/jct1/sc29/wg11，又名运动图像专家组或mpeg，发起了关于点云压缩的工作项目。这带来了两个标准，即

12、·mpeg-i第5部分(iso/iec 23090-5)或基于视频的点云压缩(又名v-pcc)

13、·mpeg-i第9部分(iso/iec 23090-9)或基于几何的点云压缩(又名g-pcc)

14、v-pcc编码方法通过对3d对象执行多次投影来压缩点云，以获得打包到图像(或处理动态点云时的视频)中的2d图块。然后使用现有的图像/视频编解码器压缩获得的图像或视频，从而允许充分利用已经部署的图像和视频解决方案。就其本质而言，v-pcc仅在密集和连续的点云上是高效的，因为图像/视频编解码器无法压缩非平滑的图块，例如从激光雷达感测到的稀疏几何数据的投影中获得的非平滑的图块。

15、g-pcc编码方法有两种用于压缩感测到的稀疏几何数据的方案。

16、第一种方案基于占用树，在本地是八叉树、四叉树或二叉树中的任何类型的树，表示点云几何形状。被占用的节点(即，与包括点云的至少一个点的立方体/长方体相关联的节点)被拆分直到达到一定尺寸，并且被占用的叶节点提供点的3d位置，通常在这些节点的中心处。占用信息通过占用数据(二进制数据，标志)携带，占用标志发信号通知节点的每个子节点的占用状态。通过使用基于邻居的预测技术，可以获得密集点云的占用数据的高水平压缩。稀疏点云也可以通过直接编码节点内非最小尺寸的点的位置来解决，当节点中仅存在孤立点时停止树构造；这种技术被称为直接编码模式(dcm)。

17、第二种方案基于预测树，其中每个节点表示一个点的3d位置，并且节点之间的父/子关系表示从父到子的空间预测。这种方法只能解决稀疏点云，并提供比占用树更低时延和更简单解码的优势。但是，相对于第一种基于占用的方法，压缩性能仅稍微好一点，并且编码也是复杂的，因为编码器在构造预测树时必须(在潜在预测器的长列表中)集中寻找最佳预测器。

18、在这两种方案中，属性(解码)编码是在完成几何(解码)编码之后执行的，实际上导致了两次编码。因此，联合几何/属性低时延是通过使用将3d空间分解成独立编码的子体积的切片获得的，而无需在子体积之间进行预测。当使用许多切片时，这会严重影响压缩性能。

19、将对编码器和解码器简单性、低时延和压缩性能的要求结合在一起仍然是现有点云编解码器尚未令人满意解决的问题。

20、重要的用例是传输由安装在移动车辆上的至少一个传感器感测到的稀疏几何数据。这通常要求简单且低时延的嵌入式编码器。要求简单性，因为编码器可能部署在并行执行其他处理(诸如(半)自动驾驶)的计算单元上，从而限制了点云编码器可用的处理能力。还要求低时延以允许从汽车到云端的快速传输，以便基于多车辆采集实时查看本地交通，并基于交通信息做出足够快速的决策。虽然通过使用5g可以使传输时延足够低，但编码器本身不应因编码而引入太多时延。而且，压缩性能极其重要，因为从数百万辆汽车到云端的数据流预计将非常庞大。

21、与自旋激光雷达感测到的稀疏几何数据相关的特定先验已在g-pcc中得到利用，并已经导致非常显著的压缩增益。

22、首先，g-pcc利用来自自旋激光雷达头10的感测的仰角(相对于水平地面)，如图1和图2中所描绘的。激光雷达头10包括传感器11(例如，激光器)的集合，这里表示了五个传感器。自旋激光雷达头10可以围绕竖直轴z旋转以感测物理对象的几何数据。然后，激光雷达感测到的几何数据用球坐标(r3d,φ,θ)表示，其中r3d是点p距激光雷达头的中心的距离，φ是激光雷达头相对于参考物自旋的方位角，并且θ是自旋激光雷达头10的传感器k相对于水平参考平面的仰角。

23、沿着方位角的规律分布已经在激光雷达感测到的数据上观察到，如图3上所描绘的。这种规律性在g-pcc中用于获得点云的准1d表示，其中，直到噪声，只有半径r3d属于连续的值范围，而角度φ和θ仅取离散数量的值，至i-1，其中i是用于感测点的方位角的数量，并且至nsensor-1，其中nsensor是自旋激光雷达头10的传感器的数量。基本上，g-pcc表示二维(离散)角坐标空间(φ,θ)上的激光雷达感测到的稀疏几何数据，如图3上所描绘的，以及每个点的半径值r3d。

24、通过在球坐标空间中通过使用角度的离散性质基于已经编码的点预测当前点的位置，这种准1d特性已在g-pcc中在占用树和预测树两者中得到利用。

25、更精确地说，占用树大量使用dcm，并通过使用上下文自适应熵编码器对节点内的点的直接位置进行熵编码。然后从点位置到角坐标(φ,θ)的本地转换以及这些角坐标相对于从先前编码的点获得的离散角坐标(φi,θj)的位置获得上下文。使用这个角坐标空间的准1d性质(r2d,φi,θj)，预测树直接编码角坐标(r2d,φ,θ)中点位置的第一版本，其中r2d是水平xy平面上的投影半径，如图4上所描绘的。然后，将球坐标(r2d,φ,θ)转换成3d笛卡尔坐标(x,y,z)，并对xyz残差进行编码以解决坐标转换的误差、仰角和方位角的近似以及潜在噪声。

26、g-pcc确实使用角度先验来更好地压缩自旋激光雷达感测到的稀疏几何数据，但不使编码结构适应感测的次序。就其本质而言，占用树在输出点之前必须编码到其最后的深度。这种占用数据是按照所谓的广度优先次序进行编码的：首先对根节点的占用数据进行编码，指示其被占用的子节点；然后对每个被占用的子节点的占用数据进行编码，指示被占用的孙子节点；依此类推，在树深度上迭代，直到可以确定叶节点并将对应点提供/输出到应用或(一个或多个)属性编码方案。关于预测树，编码器可以自由选择树中的点的次序，但为了获得良好的压缩性能，为了优化预测准确性，g-pcc建议每个传感器编码一棵树。这主要具有与每个传感器使用一个编码切片相同的缺点，即，非最优压缩性能，因为不允许传感器之间的预测并且不提供编码器低时延。更糟糕的是，每个传感器应当有一个编码处理，并且核心编码单元的数量应当等于传感器的数量；这是不切实际的。

27、简而言之，在用于感测点云的稀疏几何数据的自旋传感器头的框架中，现有技术没有解决将编码和解码的简单性、低时延和压缩性能相结合的问题。

28、此外，通过使用自旋传感器头感测点云的稀疏几何数据具有一些缺点，并且可以使用其他类型的传感器头。

29、生成自旋传感器头的自旋(旋转)的机械零件容易损坏并且成本高昂。另外，根据构造，视角必须为2π。这不允许以高频率感测特定的感兴趣区域，例如感测车辆前方可能比感测后方更有趣。实际上，在大多数情况下，当传感器附接到车辆时，2π视角的大部分被车辆本身遮挡，而被遮挡的视角不需要被感测。

30、最近出现了新类型的传感器，允许更灵活地选择待感测的区域。在大多数的最近设计中，传感器可以更自由地并且以电子方式(从而避免易碎的机械零件)移动，以获得3d场景中的多种感测路径，如图5中所描绘的。在图5上，示出了四个传感器的集合。它们的相对感测方向(即，方位角和仰角)相对于彼此是固定的，但是它们总体上沿着二维角坐标(φ,θ)空间上的虚线描绘的可编程感测路径来感测场景。然后，可以沿着感测路径规律地感测点云的点。如图6上所图示的，当检测到感兴趣区域r时，一些传感器头还可以通过增加其感测频率来调整其感测频率。这种感兴趣区域r可以与例如在前一帧中先前分段的或在感测期间动态分段的近距离对象、移动对象或任何对象(行人、其他车辆等)相关联。图7示意性地示出了由包括两个传感器的传感器头使用的感测路径(典型的之字形感测路径)的另一个示例，当检测到感兴趣区域(灰色阴影点和灰色散列点)时这两个传感器能够增加它们的感测频率。使用之字形感测路径可以有利地用于感测3d场景的有限(方位角)角扇区。由于传感器可以附接到车辆，除非传感器位于汽车的顶部，否则其感兴趣的视口必然受到阻碍场景的车辆本身的存在的限制。因此，具有有限探测角扇区的传感器受到高度关注，并且更容易集成到车辆。

31、如图8中所描绘的，包括单个传感器的传感器头也可以用于感测多个位置(图8上的两个竖直位置)，例如使用随旋转(这里为竖直旋转)而振荡的镜上的反射。在这种情况下，不是使用传感器的集合，而是使用沿着感测路径(这里为之字形感测路径)处于不同角位置(即，图8上具有不同仰角)的单个传感器来模仿使用多个传感器的集合的感测。为了简单起见，在下面的描述和权利要求中，“传感器头”可以是指物理传感器的集合或模仿传感器的集合的感测仰角索引的集合。另外，本领域技术人员将理解的是，“传感器”也可以指在每个感测仰角索引位置中的传感器。

32、将编码器和解码器的简单性、低时延和任何类型的传感器感测到的点云的压缩性能的要求结合在一起仍然是现有点云编解码器尚未令人满意地解决的问题。

33、考虑到前述内容设计了本技术的至少一个实施例。

技术实现思路

1、下一节呈现了至少一个实施例的简化概要以便提供对本技术的一些方面的基本理解。本概要不是实施例的详尽概述。它不旨在识别实施例的关键或重要元素。以下概要仅以简化形式呈现实施例中的至少一个的一些方面作为在文档中其他地方提供的更详细描述的前序。

2、根据本技术的第一方面，提供了一种将由占用二维空间的离散位置集合中的一些离散位置的有序粗略点(coarse point)表示的点云几何数据编码到比特流中的方法，所述有序粗略点根据基于二维空间的坐标的字典次序进行排序，其中该方法包括将指示与点云的点相关联的被占用的粗略点是否是后被占用的粗略点的数据编码到比特流中，当被占用的粗略点在字典次序中的次序索引低于与点云的先前编码的点相关联的第一参考粗略点的次序索引时，该被占用的粗略点被认为是后被占用的粗略点；如果数据指示被占用的粗略点是后被占用的粗略点，则获得在后被占用的粗略点的次序索引和第二参考粗略点的次序索引之间的后点次序索引差；以及将后点次序索引差的幅度编码到比特流中。

3、根据本技术的第二方面，提供了一种从比特流中解码由占用二维空间的离散位置集合中的一些离散位置的有序粗略点表示的点云几何数据的方法，所述有序粗略点根据基于二维空间的坐标的字典次序进行排序，其中该方法包括从比特流中解码指示与点云的点相关联的被占用的粗略点是否是后被占用的粗略点的数据，当被占用的粗略点在字典次序中的次序低于与点云的先前解码的点相关联的第一参考粗略点的次序时，该被占用的粗略点被认为是后被占用的粗略点；以及如果数据指示被占用的粗略点是后被占用的粗略点，则从比特流中解码后被占用的粗略点的次序索引和第二参考粗略点的次序索引之间的后点次序索引差的幅度。

4、在一些实施例中，所述第一参考粗略点可以是最后编码或解码的被占用的粗略点或者是在字典次序中具有最高次序的先前编码或解码的被占用的粗略点，并且其中所述第二参考粗略点是第一参考粗略点或与等于第一参考粗略点的次序移位一偏移量的次序相关联的粗略点。

5、在一些实施例中，数据可以是指示与点云的点相关联的被占用的粗略点是否为后被占用的粗略点的二进制数据，并且可以基于指示至少一个先前编码或解码的被占用的粗略点是否为后被占用的粗略点的至少一个其他二进制数据对数据进行熵编码或解码。

6、在一些实施例中，后点次序索引差的幅度可以通过将与二维空间的坐标相关联的两个正偏移量编码到比特流中进行编码，或者后点次序索引差的幅度可以通过从比特流中解码与二维空间的坐标相关联的两个正偏移量进行解码。

7、在一些实施例中，对正偏移量之一进行编码或解码可以包括对总和等于所述正偏移量的第一正值和第二正值进行编码或解码。

8、在一些实施例中，对第一正值或第二正值进行编码或解码可以包括对表示所述第一正值或第二正值的二进制数据的序列进行熵编码或解码。

9、在一些实施例中，对另一正偏移量进行编码或解码可以包括对表示所述另一正偏移量的二进制数据的序列进行熵编码或解码。

10、根据本技术的第三方面，提供了一种将由占用二维空间的离散位置集合中的一些离散位置的有序粗略点表示的点云几何数据编码到比特流中的装置。该装置包括被配置为执行根据本技术的第一方面的方法的一个或多个处理器。

11、根据本技术的第四方面，提供了一种从比特流中解码由占用二维空间的离散位置集合中的一些离散位置的有序粗略点表示的点云几何数据的装置。该装置包括被配置为执行根据本技术的第二方面的方法的一个或多个处理器。

12、根据本技术的第五方面，提供了一种表示由占用二维空间的离散位置集合中的一些离散位置的有序粗略点表示的点云几何形状的编码的点云数据的比特流，所述有序粗略点根据基于二维空间的坐标的字典次序进行排序，其中比特流还包括指示与点云的点相关联的被占用的粗略点是否是后被占用的粗略点的数据，当被占用的粗略点在字典次序中的次序低于与点云的先前编码的点相关联的参考粗略点的次序时，该被占用的粗略点被认为是后被占用的粗略点。

13、根据本技术的第六方面，提供了一种包括指令的计算机程序产品，当程序被一个或多个处理器执行时，该指令使得一个或多个处理器执行根据本技术的第一方面的方法。

14、根据本技术的第七方面，提供了一种非暂态存储介质，该非暂态存储介质携带用于执行根据本技术的第一方面的方法的程序代码的指令。

15、根据本技术的第八方面，提供了一种包括指令的计算机程序产品，当程序被一个或多个处理器执行时，该指令使得一个或多个处理器执行根据本技术的第二方面的方法。

16、根据本技术的第九方面，提供了一种非暂态存储介质，该非暂态存储介质携带用于执行根据本技术的第二方面的方法的程序代码的指令。

17、实施例中的至少一个的具体性质以及该实施例中的至少一个的其他目的、优点、特征和用途将从以下结合附图对示例的描述中变得明显。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：乔纳森·塔奎特,塞巴斯蒂安·拉瑟利
技术所有人：北京小米移动软件有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。