邻近位姿融合引导的单幅图像场景六自由度定位方法

文档序号:10594174阅读:237来源:国知局
邻近位姿融合引导的单幅图像场景六自由度定位方法
【专利摘要】本发明公开了邻近位姿融合引导的单幅图像场景六自由度定位方法,首先从已标记内参和位置信息的参考图像库中检索出输入图像的一组邻近图像集;然后估计出输入图像与每一个邻近图像之间的相对位姿,并结合邻近图像的位姿,得到输入图像的一组候选位姿集;最后通过融合输入图像的候选位姿集,得到输入图像的六自由度位姿。为此,在估计输入图像与相似图像之间的相对位姿时,本发明提出了一种基于奇异值分解的快速估计算法。在融合候选位姿集时,定义了一个有效的几何误差函数,通过最小化误差函数值,得到输入图像的位置信息,其姿态信息由候选位姿的姿态信息平均计算得到。
【专利说明】
邻近位姿融合引导的单幅图像场景六自由度定位方法
技术领域
[0001] 本发明设及计算机视觉、计算机图像处理、增强现实等领域,尤其设及邻近位姿融 合引导的单幅图像场景六自由度定位方法。
【背景技术】
[0002] 图像的位姿信息对于很多基于位置的服务非常关键,例如旅行路线推荐、图像导 览、基于位置的图像检索、增强现实场景生成、自动驾驶等。图像的六自由度位姿信息包括 =个自由度的位置信息和=个自由度的姿态信息。标注图像的六自由度位姿信息是非常耗 时和困难的,因此研究图像六自由度位姿信息的自动计算方法具有非常重要的意义。
[0003] 针对图像六自由度位姿信息的计算,现有的文献中提出了很多方法。一些方法利 用了场景的=维点云模型,场景的=维点云模型往往通过在场景的大量图像上应用运动恢 复结构算法重建得到。利用场景=维点云模型,运些方法将图像定位问题建模为二维图像 到=维场景间的注册问题。从而通过查找输入图像上特征点与=维点云模型之间的匹配点 对,并应用直接线性变换算法(direct linear transformation algorithm,简称DLT)估计 出输入图像的位姿信息。在此方法流程下,运些方法主要目的在于找到尽量多的稳定的匹 配点对。受益于预先重建好的=维点云模型,运些方法常常可W得到较好的结果。但是如果 场景=维点云模型不存在的话,运些方法将无法发挥作用。同时重建场景的=维点云模型 也是一个很耗时的过程,因而无法及时使用最新的含有位姿信息的图片数据,方法的灵活 性不够。
[0004] 除了基于=维点云模型的工作,另外一些方法通过识别输入图像中的地标,并将 地标的位置信息迁移到输入图像上,从而定位输入图像。或者检索出输入图像的一组邻近 图像,并综合考虑运组邻近图像的位置信息,得到输入图像的最终位置信息。受益于识别方 法或者检索方法可W处理大规模的数据,运种方法通常也可W处理大规模数据,但是运种 方法只能计算出输入图像的位置信息,很难计算出输入图像的六自由度信息。

【发明内容】

[0005] 本发明技术解决问题:针对上述技术存在的问题,提供邻近位姿融合引导的单幅 图像场景六自由度定位方法,该方法直接使用包含有位姿信息的图像数据,不需要重建场 景的=维点云模型,因而具有很好的灵活性。
[0006] 本发明技术解决方案:邻近位姿融合引导的单幅图像场景六自由度定位方法,对 于一幅输入图像I,应用基于内容的相似图像检索方法从参考图像集中检索出一组输入图 像的邻近图像集。其中参考图像集中的每张图像均标注了六自由度的位姿信息,并且已经 标定了相机内参。然后,通过已标定的参考图像标定,估计出输入图像I与每个邻近图像N之 间的相对位姿,结合邻近图像的位姿,得到输入图像的一组候选位姿集。最后,定义了一个 几何误差函数,通过最小化该函数,融合输入图像的候选位姿集,得到输入图像的最终位置 信息。输入图像的位置确定后,其姿态信息由两个候选姿态信息平均计算得到,从而完成输 入图像的六自由度定位。
[0007] 本发明主要通过W下技术方案实现,如图1所示:对于一幅输入图像,首先应用视 觉词袋检索算法从参考图像集中检索出一组输入图像的邻近图像集。具体来说,提取参考 图像集中每个图像上的尺度变换不变特征作为局部特征,并应用k均值聚类算法计算得到 视觉单词树,且建立的视觉单词树包含20000~40000个视觉描述符。利用所得到的视觉单 词树,计算输入图像和参考图像集中每个图像的视觉描述文本,即每个图像的所有局部特 征对于视觉单词树的每个视觉单词的统计直方图。通过计算输入图像与参考图像集中每个 图像的视觉描述文本的差异,选取差异最小的15~30个参考图像作为输入图像的邻近图 像。然后,估计输入图像I与每个邻近图像N之间的相对位姿,结合邻近图像的位姿,得到输 入图像的候选位姿。具体来说:a)提取输入图像与邻近图像中的所有尺度变换不变特征,并 寻找输入图像上的特征点与邻近图像特征点之间的匹配,从而得到一组匹配点对。b)在匹 配点对中随机选取11对特征点对,使用运些特征点对,建立线性方程组,通过奇异值分解算 法求解线性方程组,得到输入图像与邻近图像之间的基础矩阵。C)从得到的基础矩阵中估 计出输入图像的焦距,从而得到输入图像与邻近图像之间的本征矩阵。d)使用5点算法从得 到的本征矩阵中估计出输入图像与邻近图像的相对位姿,结合邻近图像的位姿,从而得到 输入图像的一个候选位姿。e)重复b)到d)的过程200次,选取最好的相对位姿计算结果,选 取准则为:在每个得到的相对位姿基础上,计算输入图像与邻近图像满足外极几何约束的 特征匹配点对个数,个数最多的作为最终的结果。在输入图像与每个邻近图像的相对位姿 基础上,比较满足外极几何约束的匹配点对个数,只选择匹配点对个数最多的两个作为输 入图像的候选位姿。最后,通过定义并最小化一个几何误差,得到输入图像的最终位姿,几 何误差的定义方法是:由于候选位姿只是输入图像与邻近图像的相对位姿,因此一个候选 位姿只能决定输入图像的位置应该在一条直线上,多个候选位姿对应多条直线,所定义的 几何误差即为输入图像位置到直线的距离平方之和;同时由于输入图像与邻近图像的位置 较为接近,为了方法的稳定,增加了输入图像位置到邻近图像位置的距离平方和作为正则 项。输入图像的位置确定后,其姿态信息由两个候选位姿的姿态信息平均计算得到,从而实 现输入图像的六自由度定位。
[0008] 本发明与现有技术相比的优点在于:本发明能够直接利用含有位姿信息的图片定 位输入图像,不需要重建场景的=维点云模型,具有良好的灵活性,并且所定义的几何误差 函数能够有效的从一组候选位姿集中得到输入图像的最终位姿信息,从而实现单幅图像场 景的六自由度定位。
【附图说明】
[0009] 图1为本发明的总体流程示意图;
[0010] 图2为输入图像的邻近图像检索结果示例图;
[0011] 图3为通过多个融合候选位姿得到输入图像最终位姿的方法示意图;
[0012] 图4为部分定位结果的在=维空间中的可视化结果。
【具体实施方式】
[0013] 下面结合附图对本发明做进一步的详细说明,W令本领域技术人员参照说明书文 字能够据W实施。
[0014] 本发明假设已经存在一个标记好内参和六自由度位姿信息的参考图像集,对于输 入图像,在参考图像集的基础上,计算其六自由度位姿信息。同时,为了能够提高方法的适 用性,假设输入图像的内参未标定,且假设输入图像的内参包括焦距f和一阶径向崎变入两 个参数。
[0015] 在上述条件下,如图1所示,对于一幅输入图像,(1)首先使用视觉词袋检索算法从 参考图像集中检索出一组输入图像的邻近图像,检索方法的具体过程包括:
[0016] (11)提取参考图像集中每个图像上的尺度变换不变特征作为局部特征,并应用k 均值聚类算法计算得到视觉单词树,且建立的视觉单词树包含30000个视觉描述符。
[0017] (12)利用所得到的视觉单词树,计算输入图像和参考图像集中每个图像的视觉描 述文本,即每个图像的所有局部特征关于视觉单词树中每个视觉单词的统计直方图。
[0018] (13)通过计算输入图像与参考图像集中每个图像的视觉描述文本的差异,选取差 异最小的20个参考图像作为输入图像的邻近图像。如图2所示,为3幅输入图像,及其部分邻 近图像检索结果的示例图。
[0019] (2)接着,在邻近图像检索结果上,估计输入图像与每个邻近图像之间的相对位 姿。(21)为此,对于输入图像和每个邻近图像,先寻找他们之间的匹配点对。分别在其中提 取尺度变换不变特征,对于输入图像上的一个特征点£,假设邻近图像上与其特征描述符 的欧式距离最近的特征点为沪,第二近的特征点为巧,如果:
[0020]
(!)
[0021] 那么f八将作为输入图像和邻近图像之间的一对匹配点,其中是特征 乐和£描述符之间的欧式距离。
[0022] (22)通过该方法,可W获得到一组输入图像与邻近图像之间的匹配点对,记为
其中i为匹配点对下标,m为匹配点对个数。对于一对匹配点 f',9〉,化们的齐次坐标分别记为1)成(却,7。,1)哺9成(耐,7。,1八其中却和义。分别是点乎和 点9的横坐标,yp和yq分别是点IP和点£的纵坐标。由于本发明假设输入图像具有一阶径向 崎变参数\,因此特征点每的无崎变齐次坐标可^记为9。^(^。,7。,1+'2)\其中
是特征点這到崎变中屯、的欧式距离,U和V分别为崎变中屯、的横坐标 和纵坐标,并且假设崎变中屯、在图像中屯、。根据外极几何理论,一对匹配点的无崎变齐次坐 标应该满足外极几何约束方程:
[0023] P 中 Qu = O, (2)
[0024] 其中F是输入图像与邻近图像之间的基础矩阵。
[002引由于pK(Xp,yp,l)T,quK(Xq,yq,l+r2)T,因此外极几何约束方程可W变形为:
[0026]
(3)
[0027] 其中,fi是基础矩阵F的第i个列向量,即F=[f if2 f3]。同时,为了和传统的基础 矩阵相区别,将矩阵[fl f2 f3 M3]记为V,并称之为单边径向基础矩阵。
[0028] 受估计基础矩阵的8点算法启发,本发明提出了使用11对匹配点估计单边径向基 础矩阵V,将算法简称为11点算法。通过分析外极几何约束方程(3),可W发现,该方程对于 单边径向基础矩阵V中的每个元素都是线性的,且常数项为0,因此为齐次线性方程。而且单 边径向基础矩阵V是非零的,由于V中包含12个元素,因此可W通过构建包含11个方程的齐 次线性方程组,并应用奇异值分解算法求解该齐次线性方程组,得到的非零解即对应单边 径向基础矩阵V。由于每个匹配点对可W得到一个齐次线性方程,因此需要11对匹配点对, 得到的齐次线性方程组为:
[0029] Av = O, (4)
[0030] 其中V是单边径向基础矩阵V按行优先的向量形式,A为系数矩阵。假设第i对匹配 点对f片9.〉对应于第i个齐次线性方程,对应于系数矩阵A的第i行,其对应的系数向量为 ,.\,乂i,。通过对A进行奇异值分解,对应于最小 奇异值的右奇异向量即为V的解。
[0031] 由于基础矩阵F=[fl f2 f3]为秩为2的矩阵,且V=[fl f2 f3 M3]的每一列都是 矩阵F的列向量的线性组合,因此V的秩也为2,但是通过奇异值分解求得的矩阵不一定满足 此约束,因此需要强制初步得到的矩阵V满足此约束。由于通过奇异值分解算法可W找到矩 阵在弗罗贝尼乌斯范数下的最相似矩阵,本发明再次应用奇异值分解算法优化矩阵V。为 此,首先对初始矩阵V后两列组成的矩阵应用奇异值分解,并且只保留最大的奇异值,其余 奇异值设置为0,从而得到后两列的秩为1的最相似矩阵,通过求解运两列的线性相关系数, 即可得到一阶径向崎变参数A。然后,对初始矩阵V的前=列做奇异值分解,并保留最大的前 两个奇异值,其余奇异值设置为0,从而得到秩为2的最相似矩阵,该矩阵即为估计得到的F。 从而得到最终的V=[fl f2 f3 M3]。
[0032] (23)在估计得到的基础矩阵F、一阶径向崎变参数A、单边径向基础矩阵V的基础上 进一步估计输入图像与邻近图像之间的本征矩阵,从而估计他们之间的相对位姿。由于邻 近图像的内参已知,因此为了推导方便,可W假设邻近图像的内参矩阵为单位矩阵,因此输 入图像与邻近图像之间的本征矩阵E为:
[003;3] E=FK (5)
[0034] 其中,K为输入图像的内参矩阵,因为输入图像的一阶径向崎变参数A已经估计得 到,因此可W认为输入图像仅有一个内参,即焦距f,那么相应的K是一个对角矩阵,对角线 的元素依次为f,f,l。由于基础矩阵的性质,其具有两个相等的非零奇异值,也就是说,基础 矩阵满足:
[0035] 2 邸化-tr(邸T 化=0, (6)
[0036] 其中trO为求矩阵的迹,将方程(5)带入(6)可得:
[0037] 2FKK中Tp-tr (FKfpT)F = O, (7)
[0038] 方程(7)实际为一个矩阵方程,因此可W得到9个关于焦距平方f2的线性方程,我 们W第一行第一列为例,可W得到:
[0039] ㈱
[0040]
[0041] 货
[0042] 其中FiJ是矩阵F的第i行第巧U个元素,fi是矩阵F的第巧揃列向量。通过分别求解 运9个方程,可W得到9个焦距值,取平均即可得到最终的焦距值。
[0043] (24)得到焦距值后,应用方程(5)即可得到基础矩阵E,在此基础上,通过计算机视 觉领域经典的5点算法即可从基础矩阵E中估计出输入图像与参考图像的相对位姿。特别 的,定义一个投影矩阵为P= [R t],其中R为3 X 3的旋转矩阵,t为平移向量。定义Pn= [Rn tn]为邻近图像在世界坐标系中的投影矩阵,Prn= [Rrn trn]为输入图像相对于邻近图像坐 标系的投影矩阵。因此,得到输入图像关于两个邻近图像的相对位姿,即两个运样的相对投 影矩阵。
[0044] (25)由于随机选择的11个点对中有可能存在误差较大或者错误的匹配点,因此本 发明从所有匹配点中随机选择200次,估计结果,并使用计算得到的单边径向基础矩阵检查 所有的匹配点对是否满足外极几何约束,即计算方程(3)的左值,根据经验,小于9的即认为 满足该约束,将满足约束的匹配点对称为内点对,不满足约束的称为外点对,并记录内点对 的个数。将内点对最多的结果作为最终的结果。
[0045] (26)对于输入图像和每一个邻近图像,均使用上述算法估计单边径向基础矩阵, 并记录内点对个数,留下两个内点对个数最多的邻近图像对应的相对位姿计算结果,其余 结果则被舍弃。
[0046] (3)最后融合运两个相对位姿,得到输入图像最终的位姿。首先计算输入图像的姿 态,即输入图像的旋转矩阵。定义邻近图像相对于世界坐标系的投影矩阵是Pn=[Rn tn],输 入图像相对于邻近图像坐标系的投影矩阵是Prn= [Rrn trn],那么输入图像相对于世界坐标 系的旋转矩阵Rr是:
[0047] Rr = RrnRn, (10)
[004引并且该旋转矩阵可W分解为=个围绕坐标轴旋转的基本旋转矩阵的连乘,每个基 本旋转矩阵对应一个欧拉角。在本发明中,旋转矩阵分解为依次围绕z-x-y轴的=个旋转矩 阵,对应于0Z,0X,0y =个欧拉角。对于得到的两个候选旋转矩阵,分别求得其对应的=个欧 拉角,并取欧拉角的平均,并计算平均后欧拉角对应的旋转矩阵,即可得到输入图像的旋转 矩阵,即输入图像的姿态信息。
[0049]在得到输入图像的姿态信息后,计算输入图像的位置信息,即可完成输入图像的 六自由度位置信息计算。由于相对位姿无法确定尺度信息,因此得到输入图像与一个邻近 图像的相对位姿后,无法确定输入图像的准确位置信息,只能确定输入图像在一条直线L 上。给定输入图像相对于邻近图像坐标系的投影矩阵,将其确定的直线L的方程记为:
[00加 ]
(…
[0051]其中直线上的特点可W选邻近图像的位置1,根据邻近图像的投影矩阵,可得: [0化2]
(1巧
[0053] 直线的方向d可W根据邻近图像的投影矩阵Pn和输入图像相对于邻近图像坐标系 的投影矩阵Prn得到:
[0054]
(B)
[0055] 在直线L确定后,不难发现,一条直线并不能确定输入图像的位置,因此本发明使 用了两个邻近图像,因此能够得到两条直线,记为^和12,两条直线的交点,即为输入图像的 位置。由于计算误差的存在,直线^和12常常并不相交,因此,为了计算稳定,本发明定义了 一个几何误差函数:
[0056] G=Gi+Gn, (14)
[0057] 该几何误差函数包括输入图像到两条直线的距离平方之和Gi,且定义为:
[0化引
, Ij 5)
[0化9]其中,x=[x,y,z]T是输入图像的位置,巧2(x,L,;)是输入图像到直线以的距离平 方,如图3所示为巧(X L,)的示意图,定义巧为:
[0060]
(1巧
[0061] Gn为正则项,是输入图像到邻近图像距离的平方和:
[0062]
(1巧
[006引其中,巧(、1,)是输入图像到邻近图像Ii的距离平方:
[0064]
(18)
[0065] 由于几何误差函数G是关于输入图像位置X的凸二次函数,因此对G求关于X的每个 元素的偏导,并令偏导为0,可得到关于图像位置X的线性方程组:
[0066]
0巧
[0067] 求解该线性方程组,即可得到输入图像的位置。
[0068] 如图4所示,为使用本方法的完成单幅图像场景六自由度定位,并在=维空间中进 行可视化的结果,其中每个图像对应的六自由度信息用一个四棱锥表示,锥顶表示图像的 位置,椎体的方向表示图像对应的姿态信息。
【主权项】
1. 邻近位姿融合引导的单幅图像场景六自由度定位方法,其特征在于实现步骤如下: 步骤一、对于输入图像I,应用视觉词袋检索算法从参考图像集中检索出一组输入图像 的邻近图像集,其中参考图像集中的每张图像均标注了六自由度的位姿信息,并且已经标 定了相机内参; 步骤二、对邻近图像集中的每个邻近图像N标定输入图像的内参,在此基础上,估计出 输入图像I与每个邻近图像N之间的相对位姿,结合邻近图像的位姿,从而得到输入图像的 一组候选位姿集; 步骤三、定义一个几何误差函数,通过最小化几何误差函数,融合输入图像的候选位姿 集,得到输入图像的最终位置信息;输入图像的位置确定后,其姿态信息由两个候选位姿的 姿态信息平均计算得到,从而实现图像场景的六自由度定位。2. 根据权利要求1所述的邻近位姿融合引导的单幅图像场景六自由度定位方法,其特 征在于:所述步骤一中视觉词袋检索算法的具体实现过程包括: (11) 提取参考图像集中每个图像上的尺度变换不变特征作为局部特征,并应用k均值 聚类算法计算得到视觉单词树,且建立的视觉单词树包含20000~40000个视觉描述符; (12) 利用所得到的视觉单词树,计算输入图像和参考图像集中每个图像的视觉描述文 本,即每个图像的所有局部特征在视觉单词树上的统计直方图; (13) 通过计算输入图像与参考图像集中每个图像的视觉描述文本的差异,选取差异最 小的15~30个参考图像作为输入图像的邻近图像。3. 根据权利要求1所述的邻近位姿融合引导的单幅图像场景六自由度定位方法,其特 征在于:所述步骤二中输入图像I与每个邻近图像N之间的相对位姿估计,结合邻近图像的 位姿,从而得到输入图像的一组候选位姿集通过如下步骤实现的: (21) 提取输入图像与邻近图像中的所有尺度变换不变特征,并寻找输入图像上的特征 点与邻近图像特征点之间的匹配,从而得到一组匹配点对; (22) 在匹配点对中随机选取11对特征点对,使用这些特征点对,建立线性方程组,通过 奇异值分解算法求解线性方程组,得到输入图像与邻近图像之间的基础矩阵; (23) 从得到的基础矩阵中估计出输入图像的焦距,从而得到输入图像与邻近图像之间 的本征矩阵; (24) 使用计算机视觉领域经典的5点算法从得到的本征矩阵中估计出输入图像与邻近 图像的相对位姿,从而得到输入图像的一个候选位姿; (25) 重复(22)到(24)的过程,选取最好的相对位姿计算结果,选取准则为:在每个得到 的相对位姿基础上,计算输入图像与邻近图像满足外极几何约束的特征匹配点对个数,个 数最多的作为最终的结果; (26) 在估计输入图像与每个邻近图像的相对位姿基础上,比较满足外极几何约束的匹 配点对个数,只选择匹配点对个数最多的两个作为输入图像的候选位姿。4. 根据权利要求1所述的邻近位姿融合引导的单幅图像场景六自由度定位方法,其特 征在于:所述步骤三中几何误差的定义方法是:首先定义几何误差为输入图像位置到直线 的距离平方之和;然后,由于输入图像与邻近图像的位置较为接近,为了使方法的结果更稳 定,在几何误差中增加了输入图像位置到邻近图像位置的距离平方和作为正则项。
【文档编号】G06F17/30GK105956074SQ201610279856
【公开日】2016年9月21日
【申请日】2016年4月28日
【发明人】陈小武, 宋亚斐, 李甲, 赵沁平, 王小刚, 张宇
【申请人】北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1