可穿戴设备的图像序列场景分割方法

文档序号:6552298阅读:239来源:国知局
可穿戴设备的图像序列场景分割方法
【专利摘要】本发明公开了一种可穿戴设备的图像序列场景分割方法,主要解决现有技术鲁棒性差、操作复杂的问题。其实现步骤是:1.对采集得到的RGB彩色图像序列计算其两两相邻帧间的相似性系数;2.计算RGB彩色图像序列的质量评价系数并对其进行中值滤波,得到无冲击干扰的图像质量评价系数;3.结合中值滤波后的图像质量评价系数曲线,通过快速联合双边滤波器对图像序列帧间相似性系数进行细化处理,得到RGB彩色图像序列的场景边界描述曲线;4.求解场景边界描述曲线的局部极大值点,作为图像序列的场景分割点。本发明能有效地定位图像序列中场景变化点的位置,并保留图像序列的时间关系,可用于各个场景中代表性图像的提取。
【专利说明】可穿戴设备的图像序列场景分割方法

【技术领域】
[0001] 本发明属于图像处理【技术领域】,特别涉及一种图像序列场景分割方法,可用于各 个场景中代表性图像的提取,大幅度降低生活日志的数据冗余。

【背景技术】
[0002] 目前,图像序列分割方法的研究对象主要集中在普通应用中,而针对可穿戴设备 中图像应用的研究却较少,同时,可穿戴设备的应用方兴未艾,在不同领域均有很大的发展 空间。
[0003] 可穿戴设备即直接穿在身上,或是整合到用户的衣服或配件的一种便携式设备。 可穿戴设备不仅仅是一种硬件设备,更是通过软件支持以及数据交互、云端交互来实现强 大的功能,可穿戴设备将会对人们的生活、感知带来很大的转变。例如我们熟知的谷歌眼镜 (Google Project Glass),是由谷歌公司于2012年4月发布的一款"拓展现实"眼镜,它极 大的颠覆了人们对电子设备的使用方法,可以通过声音控制拍照、视频通话和辨明方向,以 第一视角记录生活,完全解放双手。
[0004] 人类的记忆力总是有限的,健忘便是常见的一种记忆力出错现象。多年来,人们一 直幻想能在人脑中植入能储存记忆的元件等方法来增强自己的记忆力。尽管这种技术仍然 停留在幻想阶段,但人类却一直在努力发明助记技术。从古代原始人的壁画方式,到现代人 发明的硅半导体存储技术,而摄像技术也是其中的一种。不过普通的摄像设备一般只能记 录在时间上有所间断的几段视频或几张图片,不能比较完整地记录下事件的整个过程和每 一个环节。而最近微软研究院的一个研究小组则试图在这方面有所突破,他们在摄像设备 中加入摄像头和传感器,可以自动以数秒的短时间进行拍摄,以便对记忆起到更好更细致 的还原作用。研究小组并将这种可穿戴设备起名为SenseCam。
[0005] 利用可穿戴设备进行生活记录,不仅可以帮助那些记忆力不好的人群,比如患有 神经退行性疾病的人等,并且等若干年之后,人们还可以和其他人分享以前的生活场景,提 高生活质量和增强幸福感。微软的SenseCam基本上就是一台具有超广角鱼眼镜头的数码 相机,可以像挂件一样挂在胸前以第一视角记录用户的日常生活。SenseCam采用全自动拍 摄的设计,使用者可以选择每三十秒自拍一张,或者也可以透过内置的光热传感器,在环境 有所变化时再进行拍摄。然而,问题随之而来,持续的穿戴此生活记录仪设备产生大量的图 像数据,经年累月,可能保存数几千万张照片,数据量可能高达250TB。过去10年来,计算机 的计算能力大幅度提高,面对浩瀚的信息海洋,人们迫切希望能够快速高效地获取所需要 的特定图像信息,能高效检索、分析并显示海量信息,并有效地组织和管理大规模的图像数 据。
[0006] 鉴于利用可穿戴设备得到的图像序列具有明显的时间性和场景性等特点,即人们 在不同的时间段可能做不同的事情。研究者们一般通过分析相邻帧间的相似性的方法,将 这些数据分割成若干场景。理想情况下把一天的时间所获取的图像数据,分割成吃早饭、公 司上班、午饭、打篮球、回家等不同的场景,为以后的检索、查看提供了很大的便利。更进一 步,可以通过挑选每个场景中典型的高质量图像,形成场景的表示集合,大大的降低了数据 冗余,从而便于进行后续更多的处理。因此,针对大量的存在冗余的图像数据,如何进行有 效地场景分割已成为一个重要的研究课题。目前,主要集中在视频分割、特征提取、描述结 构分析和镜头检索等方面。
[0007] 借助镜头分割可将图像序列分成一系列镜头,但以镜头为单元划分视频节目常基 于视觉特征进行,这表明镜头内容的语义信息尚未很好的利用。另一方面,镜头还不足以描 述有语义意义的事件或活动。为此,需要对图像序列进行更高层的抽象,将内容上有关系的 镜头结合起来,常称为镜头聚类,或者情节分割、镜头聚集等,而因此得到的镜头集合体也 有多种叫法,如场景,视频片断、情节、故事单元等。类似于用关键帧代表镜头,也可以使用 有代表性的帧来代表镜头聚集体,以简洁地表达基于语义内容层次的场景内容。目前关于 对图像序列进行场景分割的方法主要有以下几类:
[0008] Lin & Hauptmann 等人在论文 "Structuring continuous video recordings of everyday life using time-constrained clustering" (In Multimedia Content Analysis, Management, and Retieval SPIE-IST Electronic Imaging, 2006.)中提出一种 基于时间限制的K-Means聚类方法进行场景分割,除此之外,该论文还对基于时间限制的 K-Means聚类方法和传统的K-Means聚类方法进行了对比。实验结果表明基于时间限制的 K-Means聚类方法优于传统的聚类方法,但是此方法没有识别所有场景的边界,不是有多个 独立的场景单独罗列,而是将所有同类的场景进行合并,丢失了图像序列之间的时间关系。
[0009] Doherty & Smeaton 在论文"Automatically segmenting lifelog data into events,'(In Image Analysis for Multimedia Interactive Services, 2008. WIAMIS'08. Ninth International Workshop on (pp. 20-23). IEEE.)中利用 MPEG-7 描述子的直方图距离 来比较相邻帧间的相似性,并使用了基于参数与非参数的阈值方法进行场景分割,能较好 的对场景进行分割,但是提取MPEG-7特征比较复杂,并且此方法只利用相邻帧间的相似性 确定场景分割点,在干扰比较大的情况下,比如手遮挡设备镜头等较短场景存在时,该相似 性曲线不能较准确的描述场景的变化,因此该方法鲁棒性较差。
[0010] Doherty & Smeaton 在论文 "Multimodal Segmentation of Lifelog Data"(In RIA02007-Large_Scale Semantic Access to Content (Text, Image,Video and Sound),2007)中提出利用SenseCam获得的多种数据信息融合进行场景分割,并比较了利 用不同信息及其融合方法进行场景分割的实验效果。比如,利用加速度传感器得到的数据 适合分割用户发生在不同运动环境的场景,图像和亮度传感器数据的信息融合方法适合亮 度和位置变化的不同场景。总体上说,此方法并未完全利用图像的内容信息,由于外部传感 器的使用,算法比较复杂。除此之外,该论文中场景分割的阈值为固定值,不具有自适应性。
[0011] Wang 等人在论文"VFerret:Content-Based Similarity Search Tool for Continuous Archived Video,'(In CARPE Third ACM workshop on Capture, Archival and Retrieval of Personal Experiences, 2006.)中将整个视频分割成每5分钟一个的视频片 段,即每5分钟代表一个场景,然而真实生活中每个场景并不一定总是5分钟长度,所以该 文章方法不能自适应于所有的情况,具有很大的局限性。
[0012] 综上所述,根据图像序列的特征,仅仅利用相邻帧间的相似性,显然不是有效的图 像序列场景分割的方法,偶然的镜头抖动或遮挡将会使相似性函数值大幅降低,很明显此 处不宜作为场景分割点。而利用多传感器的方法,通过多种数据融合进行场景分割操作复 杂,适用情况具有局限性。基于时间限制的K-Means聚类方法虽然比传统的聚类方法效果 好,但是仍具有聚类方法普遍存在的问题,主要因为丢失了序列的时间关系。


【发明内容】

[0013] 本发明的目的在于提出一种可穿戴设备的图像序列场景分割方法,以解决现有技 术鲁棒性差、操作复杂的问题,有效地定位图像序列中场景变化点的位置,并保留图像序列 的时间关系。
[0014] 为实现上述目的,本发明的技术方案包括如下步骤:
[0015] (1)通过可穿戴设备的日常采集,得到RGB彩色图像序列,其中R代表红色,G代表 绿色,B代表蓝色;
[0016] (2)获取每帧RGB彩色图像8X8X8bins的512维RGB颜色直方图数据,得到RGB 彩色图像序列的颜色直方图数据集合X ;
[0017] (3)计算图像序列的颜色直方图数据集合X中两两相邻帧间RGB颜色直方图的巴 氏距离,作为帧间相似性的度量,得到RGB彩色图像序列的帧间相似性系数集合S,用两两 相邻帧间相似性系数作为纵坐标值,图像序列帧数作为横坐标值,获得该图像序列的帧间 相似性曲线I s(x,y),其中(X,y)是曲线中任一点的坐标;
[0018] (4)将RGB彩色图像序列转换为256级灰度图像序列,计算每帧灰度图像的质量 评价系数,得到图像质量评价系数集合P,对质量评价系数集合P进行一维中值滤波,得到 图像质量评价系数集合q,用每帧图像的评价系数作为纵坐标值,图像序列帧数作为横坐标 值,得到该图像序列中值滤波后的图像质量评价系数曲线I q(x,y);
[0019] (5)结合中值滤波后的图像质量评价系数曲线Iq(x,y),通过快速联合双边滤波器 对图像序列帧间相似性曲线I s(x,y)值进行细化处理,得到多信息指导下反应场景变化的 场景边界描述曲线1。(17);
[0020] (6)求解场景边界描述曲线1。(1,7)的局部极大值点,作为图像序列的场景分割 点。
[0021] 本发明具有以下优点:
[0022] 第一,本发明采用图像序列相邻两帧间的相似性和每帧图像质量评价系数方法确 定场景分割点,仅仅利用了图像本身包含的信息,尽量多的使用了视觉信息,系统结构简 单,同时解决了聚类方法中丢失图像序列时间关系的问题;
[0023] 第二,本发明对相邻两帧间相似性的幅度与每帧图像质量评价的边缘信息进行融 合,克服了传统技术中只利用一种信息的弊端;
[0024] 第三、由于本发明利用快速联合双边滤波器,且得到的场景边界描述曲线既保持 了局部的平滑,也具有良好的边缘细节,使得本发明进一步提高了图像序列场景边界识别 的准确度,进而提高了场景分割的效果;
[0025] 第四,由于本发明采用局部极大值的方法确定场景分割点,其分割阈值可以自主 设定,场景分割可以在不同的尺度进行,使得本发明拥有更广泛的适用性。

【专利附图】

【附图说明】
[0026] 图1为本发明的实现流程图;
[0027] 图2为用本发明获得Office图像序列的两两相邻帧间图像相似性系数曲线图;
[0028] 图3为用本发明获得Office图像序列的每帧图像质量评价系数曲线图;
[0029] 图4为用本发明获得Office图像序列的中值滤波后的图像质量评价系数曲线图;
[0030] 图5为用本发明获得Office图像序列的快速联合双边滤波器信息融合后的系数曲 线图;
[0031] 图6为用本发明在阈值h = 0. 2条件下获得Office图像序列的场景分割结果图;
[0032] 图7为用本发明在阈值h = 0. 5条件下获得Office图像序列的场景分割结果图;
[0033] 图8为用本发明在阈值h = 0. 5条件下获得Outdoor图像序列的场景分割结果图。

【具体实施方式】
[0034] 下面结合附图对本发明做进一步详细地描述。
[0035] 参照图1,本发明的具体实现步骤如下:
[0036] 步骤一,获取RGB彩色图像序列。
[0037] 通过可穿戴设备的日常采集,得到RGB彩色图像序列,其中R代表红色,G代表绿 色,B代表蓝色。
[0038] 步骤二,计算RGB彩色图像序列两两相邻帧间相似性系数。
[0039] 2. 1)获取RGB彩色图像序列的颜色直方图数据:
[0040] 在图像的形状、颜色、纹理等特征中,颜色特征是最显著、最可靠、最稳定的视觉特 征,是人识别图像的主要感知特征。相对于几何特征而言,颜色对图像中子对象的大小和方 向的变化都不敏感,具有相当强的鲁棒性。同时,在许多情况下,颜色又是描述一幅图像最 简便而有效的特征。颜色直方图所描述的是不同色彩在整幅图像中所占的比例,而并不关 心每种色彩所处的空间位置,即对于图像中帧间的对象或物体的移动不敏感,而且经过归 一化的颜色直方图还具有尺度不变性。
[0041] 据此,本发明使用RGB颜色特征,获取RGB彩色图像序列的颜色直方图数据。具体 实现步骤如下 :
[0042] 2. 1. 1)将每帧RGB彩色图像每个像素的R、G、B分量值转化为颜色直方图Η值,即 将R分量右移5位,记为R5,将G分量右移2位,记为G 2,将Β分量左移1位,记为I,得到 H = B_i+G2+R5,其中Η取值范围为[0-511];
[0043] 2. 1. 2)遍历每帧图像的每个像素,找到颜色直方图Η值,将该Η值对应的像素个数 I累加1,获得一组表示图像像素对应每个Η值的像素数量的数据Υω= {Υ',Υ0^,…,Y(k) i,…Y(k)512},其中i取值范围为[l_512],k取值范围为[l-n],n为RGB彩色图像序列长度;
[0044] 2. 1.3)根据步骤2. 1.2)得到的数据,计算得到一组归一化的数据:X(k)=
[0045] 其中,Xi(k)表示对应Η值的像素个数归一化值ι

【权利要求】
1. 一种可穿戴设备的图像序列场景分割方法,包括如下步骤: (1)通过可穿戴设备的日常采集,得到RGB彩色图像序列,其中R代表红色,G代表绿 色,B代表蓝色; ⑵获取每帧RGB彩色图像8 X 8 X 8bins的512维RGB颜色直方图数据,得到RGB彩色 图像序列的颜色直方图数据集合X ; (3) 计算图像序列的颜色直方图数据集合X中两两相邻帧间RGB颜色直方图的巴氏距 离,作为帧间相似性的度量,得到RGB彩色图像序列的帧间相似性系数集合S,用两两相邻 帧间相似性系数作为纵坐标值,图像序列帧数作为横坐标值,获得该图像序列的帧间相似 性曲线I s(x,y),其中(x,y)是曲线中任一点的坐标; (4) 将RGB彩色图像序列转换为256级灰度图像序列,计算每帧灰度图像的质量评价系 数,得到图像质量评价系数集合P,对质量评价系数集合P进行一维中值滤波,得到图像质 量评价系数集合q,用每帧图像的评价系数作为纵坐标值,图像序列帧数作为横坐标值,得 到该图像序列中值滤波后的图像质量评价系数曲线I q(x,y); (5) 结合中值滤波后的图像质量评价系数曲线Iq(x,y),通过快速联合双边滤波器对图 像序列帧间相似性曲线I s(x,y)值进行细化处理,得到多信息指导下反应场景变化的场景 边界描述曲线Lky); (6) 求解场景边界描述曲线1。(1,7)的局部极大值点,作为图像序列的场景分割点。
2. 根据权利要求1所述的可穿戴设备的图像序列场景分割方法,其特征在于:步骤(2) 所述的得到RGB彩色图像序列的颜色直方图数据集合X,按如下步骤进行: 2a)将每帧RGB彩色图像每个像素的R、G、B分量值转化为颜色直方图Η值,即将R分 量右移5位,记为R5,将G分量右移2位,记为G2,将Β分量左移1位,记为B_i,得到Η = B_i+G2+R5,其中Η取值范围为[0-511]; 2b)遍历每帧图像的每个像素,找到颜色直方图Η值,将该Η值对应的像素个数t累 加1,获得一组表示图像像素对应每个Η值的像素数量的数据Y(k) = {Y(k\,Y(k)2,…,Y',··· Y(k)512},其中i取值范围为[1-512],k取值范围为[1-n],η为图像序列长度; 2c)根据步骤2b)得到的数据,计算得到一组归一化的数据: = {χ⑴ ,…,χω,.χ?}, 其中,Xi(k)表示对应Η值的像素个数归一化值,
i = 1…512,式中ΝΧΝ 为第k帧图像的总像素数; 2d)由每帧图像的颜色直方图数据X(k)得到该图像序列的颜色直方图数据集合:X = {x(1),x(2),…,x(k),...x (n)}。
3. 根据权利要求1所述的可穿戴设备的图像序列场景分割方法,其特征在于:步骤(3) 所述的得到RGB彩色图像序列的帧间相似性系数集合S,按如下步骤进行: 3a)计算图像序列的颜色直方图数据集合X中两两相邻帧间RGB颜色直方图的相似性 系数St : St = -ln(BC(X(t),X(t+1))),t = 1...T-1, 式中,
x(t)和x(t+1)分别代表前后相邻两帧图像512维 的颜色直方图数据,T为数据长度; 3b)由两两相邻帧间RGB颜色直方图的相似性系数St得到RGB彩色图像序列的帧间相 似性系数集合:S =以,S2,…,St,…ST_J。
4. 根据权利要求1所述的可穿戴设备的图像序列场景分割方法,其特征在于:步骤(4) 所述的将RGB彩色图像序列转换为256级灰度图像序列,是将每帧彩色图像每个像素的R、 G、B分量值转换为灰度图像对应像素的亮度值L :L = RXO. 299+GXO. 587+BX0. 114,式中 R、G、B分别代表红色、绿色、蓝色分量值。
5. 根据权利要求1所述的可穿戴设备的图像序列场景分割方法,其特征在于:步骤(4) 所述的计算每帧灰度图像的质量评价系数,得到图像质量评价系数集合P,按如下步骤进 行: 4a)分别计算每帧灰度图像的亮度平均值μ f和亮度均方差σ/:
式中,If(l,j)为图像序列中第f帧图像像素灰度值,(1,j)为图像序列中第f帧灰度 图像中任一像素的坐标,NXN为图像序列中第f帧灰度图像的大小; 4b)根据步骤4a)得到的数据,计算每帧图像的质量评价系数pf:
4c)由每帧图像的质量评价系数&得到该图像序列的质量评价系数集合:p = {Pl,p2,…,pf,…巧},其中f取值范围为[1-F],F为图像序列的质量评价系数数据的长度。
6. 根据权利要求1所述的可穿戴设备的图像序列场景分割方法,其特征在于:步骤(4) 所述的对质量评价系数集合P进行一维中值滤波,得到图像质量评价系数集合q,其表示公 式如下: q = {q^ q2,…,…qK},其中r取值范围为[1-R],R为数据长度,q1?表示第r巾贞图像 的质量评价系数一维中值滤波后的值,

其他 式中med为取中位数操作,Μ为邻域的大小,本实例取值为Μ = 5。
7. 根据权利要求1所述的可穿戴设备的图像序列场景分割方法,其特征在于:步骤(5) 所述的通过快速联合双边滤波器对图像序列帧间相似性曲线I s(x,y)值进行细化处理,得 到多信息指导下反应场景变化的场景边界描述曲线1。(1,7),按如下步骤进行: 5a)将图像序列帧间相似性系数曲线Is(x,y)和中值滤波后的图像质量评价系数曲线 I,(X,y)作为快速联合双边滤波器的输入参数,并对I,(X,y)的空域分辨率和值域分辨率分 别进行16倍和10倍的降采样,得到网格化的三维空间(xd,yd,Id),其中x d,yd,Id分别为降 采样后的空间横、纵坐标及幅值; 5b)利用网格化的三维空间(xd,yd,Id)构造幅值三维数组I data(xd,yd,Id)和权值三维数 组 iw(X(i,y<i,id); 5c)遍历中值滤波后的图像质量评价系数曲线I,(x,y)的每个元素,将该I,(x,y) 和图像序列帧间相似性系数曲线Is(x,y)中相同位置元素的幅值累加到幅值三维数组 Wxd,y<i,U中,同时将权值三维数组L(xd,y<i,D累加1; 5d)分别对累加后的幅值三维数组Idata(xd,yd,Id)和权值三维数组I w(xd,yd,Id)进行三 维高斯滤波,得到幅值滤波结果I' data(xd,yd,Id)和权值滤波结果I' w(xd,yd,Id),并对其进行 归一化处理得到幅值归一化结果: In (Xd,y^d,Id) - I data (Xd,Yd,Id) · Zl w (X(l,Yd,Id),其中· / 表点 fe ; 5e)对幅值归一化结果IN(xd,yd,Id)进行三线性插值运算,得到场景边界描述曲线数 据; 5f)用1减去场景边界描述曲线数据的每个元素,得到最终的场景边界描述曲线数据 a= {ai,a2,…ae,…,av},其中,a e表示场景边界描述曲线的第e个数据,e的取值范围为 [1-v],v为场景边界描述曲线数据长度; 5g)将步骤5f)得到的数据作为纵坐标值,图像序列帧数作为横坐标值,得到该图像序 列场景边界描述曲线1。0^,7)。
8.根据权利要求1所述的可穿戴设备的图像序列场景分割方法,其特征在于:步骤(6) 所述的求解场景边界描述曲线1。(17)的局部极大值点,按如下步骤进行: 6a)计算场景边界描述曲线Ijx, y)的一阶导数数据集合d,其表示公式如下:d = {屯,d2,…dg,…,dj,其中,dg表示第g个一阶导数数据值,g的取值范围为[1-G],G为一阶 导数数据长度,

其他 6b)对步骤6a)得到的一阶导数数据进行平滑滤波处理,得到平滑滤波后的数据集合 U,其表示公式如下: u=⑴"队,…,ug,…UG}, 其中,ug表示第g个一阶导数数据进行平滑滤波后的值,

其他 6c)寻找平滑滤波后一阶导数的零点,作为局部极大值点,即为图像序列的场景分割 点。
【文档编号】G06T7/00GK104063871SQ201410317539
【公开日】2014年9月24日 申请日期:2014年7月4日 优先权日:2014年7月4日
【发明者】孙伟, 郭宝龙, 张西南, 陈龙, 赵丹 申请人:西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1