图像处理设备、对象选择方法和程序的制作方法

文档序号:6353111阅读:279来源:国知局
专利名称:图像处理设备、对象选择方法和程序的制作方法
技术领域
本发明涉及一种图像处理设备、对象选择方法和程序。
背景技术
用户在家中或者办公室中操作的电子设备的数量逐年增加。此外,一个电子设备 的功能变得越来越多样化。因此,操作这种电子设备的用户的负担越来越重。考虑到此,开 发了使用一个遥控设备来使得能够操作多个电子设备的技术。然而,为了实现将遥控功能 集成到一个设备中,当在用户所在的环境中存在多个可远程操作的设备要进行控制时,需 要提供识别用户打算操作哪个设备的手段。例如,日本专利申请公开11-345024号提出了一种遥控设备,其通过采用语音识 别技术,根据用户的语音来识别遥控目标设备和控制的细节。

发明内容
然而,在根据语音识别遥控目标设备和控制的细节时,当存在多个同一类型的设 备时,尤其当在这些设备之间进行区分时,识别处理变得复杂。例如,当在起居室和起居 室隔壁的房间两者中都存在电视机时,除非增加修饰语,诸如“较小的” TV或者“起居室中 的”TV,否则无法适当地指定希望的电视机。此外,当不能识别指定目标设备的词时,可能尽 管用户打算关闭一个电视,但是关闭了另一设备(另一电视或者另一类型的设备)。此外,虽然例如可以根据用户的姿势来识别遥控目标设备等,但是仅利用姿势难 以在位于沿着用户的视线排列的位置处(或者位于彼此接近的位置处)的多个设备之间进 行区分。考虑到前述问题,期望提供一种新颖并改进的图像处理设备、对象选择方法和程 序,其能够在多个电子设备之间进行区分,并且能够容易地选择一个作为遥控的目标。根据本发明的实施例,提供了一种图像处理设备,包括数据存储单元,其存储用 于标识能够由用户操作的对象的对象标识数据以及指示每个对象的外观的特征的特征数 据;环境地图存储单元,其存储基于通过使用成像设备对真实空间进行成像获得的输入图 像和存储在数据存储单元中的特征数据而生成的环境地图,环境地图表示存在于真实空间 中的一个或更多个对象的位置;以及选择单元,其从存储于环境地图存储单元的环境地图 中包括的对象中,选择基于对象标识数据被识别为能够操作的至少一个对象,作为候选对 象,该候选对象是用户的可能操作目标。图像处理设备还可以包括图像输出单元,其根据输入图像生成用于允许用户识 别由选择单元选择的候选对象在屏幕上的位置的输出图像,并将所生成的输出图像输出到 显不设备。所述环境地图存储单元还可以存储指示基于输入图像和特征数据确定的成像设 备的位置的成像位置数据,以及基于存储在环境地图存储单元中的环境地图和成像位置数 据,计算每个候选对象在输出图像中的位置。
4
图像处理设备还可以包括用户接口,用于允许用户从候选对象中指定要操作的 对象。所述用户接口可以在检测到用户输入时从候选对象中确定位于输出图像的中心 或者中心附近的对象,作为要操作的对象。当在检测到用户输入时多个候选对象位于输出图像的中心的情况下,用户接口可 以从候选对象中确定在输出图像中具有最小尺寸的候选对象,作为要操作的对象。特征数据可以包括指示每个对象的三维形状的形状数据,以及图像输出单元可以 通过基于形状数据生成包围屏幕上每个候选对象的框,并将所生成的框叠加在输入图像 上,来生成输出图像。图像处理设备还可以包括成像设备和显示设备,以及成像设备的成像平面和显 示设备的屏幕被布置为面对彼此相反的方向。根据本发明的另一实施例,提供了一种图像处理设备中的图像处理方法,所述图 像处理设备包括数据存储单元,其存储用于标识能够由用户操作的对象的对象标识数据 以及指示每个对象的外观的特征的特征数据,所述方法包括步骤基于通过使用成像设备 对真实空间进行成像而获得的输入图像和存储在数据存储单元中的特征数据生成环境地 图,环境地图表示存在于真实空间中的一个或更多个对象的位置;以及从所生成的环境地 图中包括的对象中,选择基于对象标识数据被识别为能够操作的至少一个对象,作为候选 对象,候选对象是用户的可能操作目标。根据本发明的另一实施例,提供了一种程序,用于使用于控制包括存储用于标识 能够由用户操作的对象的对象标识数据以及指示每个对象的外观的特征的特征数据的数 据存储单元的图像处理设备的计算机用作环境地图生成单元,其基于通过使用成像设备 对真实空间进行成像获得的输入图像和存储在数据存储单元中的特征数据而生成环境地 图,环境地图表示存在于真实空间中的一个或更多个对象的位置;以及选择单元,其从由环 境地图生成单元生成的环境地图中包括的对象中,选择基于对象标识数据被识别为能够操 作的至少一个对象,作为候选对象,候选对象成为用户的可能操作目标。根据上述本发明的实施例,可以提供一种图像处理设备、对象选择方法和程序,其 能够在多个电子设备之间进行区分,并且容易地选择一个作为遥控的目标。


图1是用于示出根据实施例的图像处理设备的概览的示意图;图2是示出根据实施例的图像处理设备的结构的示例的框图;图3是示出根据实施例的环境地图生成单元的详细结构的示例的框图;图4是示出根据实施例的自身位置检测处理的流程的示例的流程图;图5是用于示出在对象上设置的特征点的说明图;图6是用于示出特征点的增加的说明图;图7是用于示出预测模型的示例的说明图;图8是用于示出特征数据的结构的示例的说明图;图9是示出根据实施例的对象识别处理的流程的示例的流程图;图10是用于示出对象识别数据的结构的示例的说明图11是示出根据实施例的设备识别处理的流程的示例的流程图;图12是示出根据实施例的候选对象选择处理的流程的示例的流程图;图13是示出由根据实施例的图像输出单元生成的输出图像的示例的说明图;图14是示出由根据实施例的图像输出单元生成的输出图像的另一示例的说明 图;图15是示出由根据实施例的图像输出单元生成的输出图像的又一示例的说明 图;图16是示出由根据实施例的图像输出单元生成的输出图像的再一示例的说明 图;图17是示出由根据实施例的图像输出单元生成的输出图像的再一示例的说明 图;图18是示出由根据实施例的图像输出单元生成的输出图像的再一示例的说明 图;图19是示出通用计算机的硬件结构的示例的框图;以及图20是示出根据可选示例的图像处理设备的结构的示例的框图。
具体实施例方式下文中,参考附图,详细描述本发明的优选实施例。注意,在本说明书和附图中,用 相同的附图标记表示具有基本相同的功能和结构的构成元素,并且省略对这些构成元素的 重复说明。以下面的顺序描述“具体实施例方式”。1.根据实施例的图像处理设备的概览2.根据实施例的图像处理设备的示例性结构2--1.成像单元
2--2.环境地图生成单元
2--3.环境地图存储单元
2--4.数据存储单元
2--5.设备识别单元
2--6.选择单元
2--7.图像输出单元
2--8.用户接口
2--9.发送单元3.硬件结构4.总结5.可选示例<1.根据实施例的图像处理设备的概览〉图1是用于示出根据本发明实施例的图像处理设备的概览的示意图。图1示出具 有根据本发明实施例的图像处理设备100的用户所在的环境1。参考图1,在环境1内部存在包括对象10a、10b、10c、IOcUlOe和IOf的多个对象。对象IOa是电视机,对象IOb是扬声器,对象IOc是DVD播放器,对象IOd是打印机,对象 IOe是移动信息终端,对象IOf是桌子。在这些对象中,对象10a、10b、IOc和IOd例如是可 以遥控的受控设备。另一方面,对象IOe和IOf例如是不能遥控的对象。图像处理设备100通过使用成像设备对环境1进行成像,由此获得一系列输入图 像。然后,图像处理设备100对获得的输入图像执行后面描述的根据实施例的图像处理,然 后在图像处理设备100的屏幕上显示作为图像处理的结果输出的图像。输出的图像是允许 用户在屏幕上把作为由用户操作的候选的候选对象的位置识别出来的图像。此外,图像处理设备100优选具有与遥控设备一样的功能。当图像处理设备100 用作遥控设备时,用户可以基于在屏幕上显示的上述输出的图像,指定要操作的对象。注意,虽然在图1中作为图像处理设备100的示例示出了移动电话终端,但是图像 处理设备100不限于该示例。例如,图像处理设备100可以是具有成像设备的移动电话终 端、游戏终端、数字摄像机或者其它类型的电子设备。此外,图像处理设备100可以例如是 以摄像机作为视力的机器人等。在下面的部分进一步详细描述图像处理设备100的结构的 示例。<2.根据实施例的图像处理设备的示例性结构〉图2是示出根据本发明实施例的图像处理设备100的结构的示例的框图。参考图 2,图像处理设备100包括成像单元102、环境地图生成单元110、环境地图存储单元120、数 据存储单元130、设备识别单元140、选择单元160、图像输出单元170、用户接口 180和发送 单元190。[2-1.成像单元]例如,成像单元102可以被实现为具有诸如电荷耦合器件(CCD)或者互补金属氧 化物半导体(CMOS)的成像元件的成像设备。成像单元102将通过对诸如图1所示的环境1 的真实空间进行成像而生成的图像作为输入图像输出到环境地图生成单元110、设备识别 单元140和图像输出单元170。[2-2.环境地图生成单元]环境地图生成单元110基于从成像单元102输入的输入图像以及存储在数据存储 单元130中的要在后面描述的对象的特征数据生成环境地图,环境地图表示存在于真实空 间中的一个或更多个对象的位置等。图3是示出根据实施例的环境地图生成单元的详细结构的示例的框图。参考图3, 环境地图生成单元110包括自身位置检测单元112、图像识别单元114和构建单元116。(1)自身位置检测单元自身位置检测单元112基于从成像单元102输入的输入图像和存储在数据存 储单元130中的特征数据,动态地检测取得输入图像的成像设备的位置。例如,同样,在 成像设备具有单目摄像机的情况下,自身位置检测单元112可以通过应用在“Real-Time Simultaneous Localization and Mapping with a Single Camera,,(Andrew J. Davison, Proceedings of the 9th IEEE International Conference on Computer Vision Volume 2,2003,pp. 1403-1410)中公开的SLAM技术,针对每个帧动态地确定摄像机的位置和姿势 以及特征点在摄像机的成像平面上的位置。首先,参考图4描述应用SLAM技术的自身位置检测单元112进行的自身位置检测处理的整个流程。接下来,参考图5至图7详细描述自身位置检测处理。图4是示出应用SLAM技术的自身位置检测单元112进行的自身位置检测处理的 流程的示例的流程图。在图4中,当自身位置检测处理开始时,自身位置检测单元112首先 初始化状态变量(步骤S102)。在本实施例中,状态变量是包括摄像机的位置和姿势(旋转 角度)、摄像机的移动速度和角速度以及一个或更多个特征点的位置作为元素的矢量。然 后,自身位置检测单元112从成像单元102顺序获得输入图像(步骤S112)。可以针对每个 输入图像(即每个帧)重复从步骤S112到步骤S118的处理。在步骤S114,自身位置检测单元112跟踪存在于输入图像中的特征点。例如,自身 位置检测单元112从输入图像中检测预先存储在数据存储单元130中的每个特征点的小片 (例如特征点周围的3X3 = 9个像素的小图像)。后面在更新状态变量时,使用这里检测 到的小片的位置,即特征点的位置。在步骤S116,自身位置检测单元112例如基于预定预测模型生成下一帧的状态变 量的预测值。此外,在步骤S118,自身位置检测单元112使用在步骤S116生成的状态变量 的预测值和根据在步骤S114检测到的特征点的位置的观测值,更新状态变量。自身位置检 测单元112基于扩展卡尔曼滤波原理执行步骤S116和S118的处理。作为该处理的结果,输出针对每个帧更新后的状态变量的值。下文中,更具体地描 述跟踪特征点(步骤S114)、预测状态变量(步骤S116)和更新状态变量(步骤S118)的每 个处理的配置。(1-1)跟踪特征点在本实施例中,数据存储单元130预先存储指示与可能存在于真实空间中的物理 对象相对应的对象的特征的特征数据。特征数据包括关于一个或更多个特征点的小图像, 即小片,每个小片例如表示每个对象的外观的特征。例如,小片可以是由特征点周围的3X3 =9个像素构成的小图像。图5示出对象的两个示例以及在每个对象上设置的特征点(FP)和小片的示例。图 5左侧的对象是表示电视的对象(参考图5中的5a)。包括特征点FPl的多个特征点被设 置在该对象上。此外,与特征点FPl相关地定义小片Pthl。此外,图5右侧的对象是表示圆 形桌子的对象(参考图5中的5b)。包括特征点FP2的多个特征点被设置在该对象上。此 外,与特征点FP2相关地定义小片Pth2。在从成像单元102获得输入图像时,自身位置检测单元112将输入图像中包括的 部分图像与预先存储在数据存储单元130中的图5所示的每个特征点的小片进行匹配。然 后,自身位置检测单元112指定输入图像中包括的每个特征点的位置(例如检测到的小片 的中心像素的位置),作为匹配的结果。应该注意对于跟踪特征点(图4中的步骤S114),不需要预先在数据存储单元 130中存储关于要跟踪的所有特征点的数据。例如,在图6所示的示例中,在时间T = t-1, 在输入图像中检测到3个特征点(参考图6中的6a)。接下来,当在时间T = t摄像机的位 置或者姿势改变时,在输入图像中仅存在在时间T = t-Ι存在于输入图像中的3个特征点 中的一个。在这种情况下,自身位置检测单元112可以在存在输入图像的特性像素图案的 位置新设置特征点,并且对后续帧在自身位置检测处理中使用新的特征点。例如,在图6所 示的示例中,在时间T = t在对象上设置5个新特征点(参考图6中的6b)。这是SLAM技术的特征,据此,可以降低预先设置所有特征点的成本,使用数量增加的特征点可以提高处 理的准确度。(1-2)预测状态变量在本实施例中,自身位置检测单元112使用以下面的等式表示的状态变量X作为 状态变量,应用于扩展卡尔曼滤波。[等式1]

ω χX= (1) Pl等式(1)中的状态变量X的第一元素表示摄像机在作为真实空间中设置的坐标系 的全局坐标系(x,y,z)中的三维位置,如下面的等式所示。[等式2]
X =
、、 yc
vzcy
(2)此外,状态变量的第二元素是具有作为与表示摄像机的姿势的旋转矩阵相对应的 元素的四元数的四维矢量ω。注意,可以使用欧拉角代替四元数来表示摄像机的姿势。此 外,状态变量的第三元素和第四元素分别表示摄像机的移动速度和角速度。此外,状态变量的第五和随后的元素表示特征点FPi (i = Ρ··Ν)在全局坐标系中 的三维位置Pi,如下面的等式所示。注意,如上所述,特征点的数量N可能在处理期间改变。[等式3] ρ,=
W
\ziJ
⑶自身位置检测单元112基于在步骤S102初始化的状态变量X的值或者在前一帧 中更新的状态变量X的值,针对最新的帧生成状态变量的预测值。如下面的等式所示,依照 根据多维正态分布的扩展卡尔曼滤波的状态等式来生成状态变量的预测值。[等式4]预测状态变量X = F(X, a) + w (4)这里,F表示关于系统的状态转变的预测模型,“a”表示预测条件。此外,w表示高 斯噪声,其例如可以包括模型近似误差、观测误差等。通常,高斯噪声w的平均为0。图7是用于示出根据本实施例的预测模型的示例的说明图。参考图7,示出了根据 本实施例的预测模型中的两个预测条件。首先,作为第一条件,假设特征点在全局坐标系中 的三维位置不改变。也就是说,设特征点FPl在时间T的三维位置为ρτ,则满足以下关系。
[等式5]
权利要求
1.一种图像处理设备,包括数据存储单元,其存储用于标识能够由用户操作的对象的对象标识数据以及指示每个 对象的外观的特征的特征数据;环境地图存储单元,其存储基于通过使用成像设备对真实空间进行成像获得的输入图 像和存储在所述数据存储单元中的所述特征数据而生成的环境地图,所述环境地图表示存 在于所述真实空间中的一个或更多个对象的位置;以及选择单元,其从存储于所述环境地图存储单元的所述环境地图中包括的对象中,选择 基于所述对象标识数据被识别为能够操作的至少一个对象,作为候选对象,所述候选对象 是用户的可能操作目标。
2.根据权利要求1所述的图像处理设备,还包括图像输出单元,其根据所述输入图像生成用于允许用户识别由所述选择单元选择的所 述候选对象在屏幕上的位置的输出图像,并将所生成的输出图像输出到显示设备。
3.根据权利要求2所述的图像处理设备,其中所述环境地图存储单元还存储指示基于所述输入图像和所述特征数据确定的所述成 像设备的位置的成像位置数据,以及基于存储在所述环境地图存储单元中的所述环境地图和所述成像位置数据,计算每个 候选对象在所述输出图像中的位置。
4.根据权利要求2所述的图像处理设备,还包括用户接口,用于允许用户从候选对象中指定要操作的对象。
5.根据权利要求4所述的图像处理设备,其中所述用户接口在检测到用户输入时从候选对象中确定位于所述输出图像的中心或者 中心附近的对象,作为所述要操作的对象。
6.根据权利要求5所述的图像处理设备,其中当在检测到用户输入时多个候选对象位于所述输出图像的中心的情况下,所述用户接 口从所述候选对象中确定在所述输出图像中具有最小尺寸的候选对象,作为所述要操作的 对象。
7.根据权利要求2所述的图像处理设备,其中所述特征数据包括指示每个对象的三维形状的形状数据,以及所述图像输出单元通过基于所述形状数据生成包围所述屏幕上每个候选对象的框,并 将所生成的框叠加在所述输入图像上,来生成所述输出图像。
8.根据权利要求2所述的图像处理设备,还包括所述成像设备和所述显示设备,以及所述成像设备的成像平面和所述显示设备的屏幕被布置为面对彼此相反的方向。
9.一种图像处理设备中的图像处理方法,所述图像处理设备包括数据存储单元,其 存储用于标识能够由用户操作的对象的对象标识数据以及指示每个对象的外观的特征的 特征数据,所述方法包括步骤基于通过使用成像设备对真实空间进行成像而获得的输入图像和存储在所述数据存 储单元中的所述特征数据生成环境地图,所述环境地图表示存在于所述真实空间中的一个 或更多个对象的位置;以及从所生成的环境地图中包括的对象中,选择基于所述对象标识数据被识别为能够操作 的至少一个对象,作为候选对象,所述候选对象是用户的可能操作目标。
10. 一种程序,用于使用于控制包括存储用于标识能够由用户操作的对象的对象标识 数据以及指示每个对象的外观的特征的特征数据的数据存储单元的图像处理设备的计算 机用作环境地图生成单元,其基于通过使用成像设备对真实空间进行成像获得的输入图像和 存储在所述数据存储单元中的所述特征数据而生成环境地图,所述环境地图表示存在于所 述真实空间中的一个或更多个对象的位置;以及选择单元,其从由所述环境地图生成单元生成的环境地图中包括的对象中,选择基于 所述对象标识数据被识别为能够操作的至少一个对象,作为候选对象,所述候选对象是用 户的可能操作目标。
全文摘要
提供了一种图像处理设备、对象选择方法和程序。图像处理设备包括数据存储单元,其存储用于标识能够由用户操作的对象的对象标识数据以及指示每个对象的外观的特征的特征数据;环境地图存储单元,其存储基于通过使用成像设备对真实空间进行成像获得的输入图像和存储在数据存储单元中的特征数据而生成的环境地图,环境地图表示存在于真实空间中的一个或更多个对象的位置;以及选择单元,其从存储于环境地图存储单元的环境地图中包括的对象中,选择基于对象标识数据被识别为能够操作的至少一个对象,作为候选对象,候选对象是用户的可能操作目标。
文档编号G06F3/01GK102129290SQ20111000662
公开日2011年7月20日 申请日期2011年1月5日 优先权日2010年1月12日
发明者周藤泰广, 多井坚一郎, 松田晃一, 福地正树, 郭晶晶 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1