一种基于聚合通道特征的快速行人检测方法

文档序号:10613243阅读:303来源:国知局
一种基于聚合通道特征的快速行人检测方法
【专利摘要】本发明公布了一种基于聚合通道特征的快速行人检测方法,包括前期位置标定过程和后期位置筛选过程;前期位置标定过程聚合输入视频或图像中的多个通道特征信息,构建输入图像或视频在尺度空间中的图像金字塔,对每个尺度计算各个通道特征的图像,识别作为存在行人判别依据的特征,初步提取行人位置;后期位置筛选过程使用卷积神经元网络分类器对前期标定的每个位置做进一步筛选,进一步检测图片或视频中出现的行人,得到检测结果。采用本发明技术方案,在训练数据量大时,分类器可自动选择出具有较好识别能力的特征,作为行人判别依据,方法的鲁棒性高;也提高了行人检测的精度。
【专利说明】
一种基于聚合通道特征的快速行人检测方法
技术领域
[0001 ]本发明属于计算机视觉技术领域,涉及行人检测方法,尤其涉及一种基于聚合通 道特征的快速行人检测方法,针对输入图像或视频,标定其中存在的行人的准确位置。
【背景技术】
[0002] 在计算机视觉的研究中,对象检测技术有着比较长的研究历史,其中行人检测问 题作为其子问题而存在,是指通过一系列自动化的处理流程完成输入图像或者视频中所存 在行人位置标定的过程,其中位置标定由一个矩形框来表示,需要给出该矩形框的左上角 和右下角(或矩形框的长、宽)的坐标信息。由于输入图像中行人的姿态、光照的强弱、是否 有遮挡、场景的变换以及拍摄角度的不同,都会影响最终的检测效果。因此,使用一种鲁棒 的方法检测图像(或视频)输入中存在的行人显得非常重要。
[0003] 通过获得图像或视频中所包含行人的准确定位,机器人将可以感知周围的状况; 无人机可以对特定行人进行跟踪拍摄,或者完成自动送货;无人驾驶则可以根据输入中距 离行人的远近提前预判并进行有效避让,提高无人驾驶的安全性;在移动支付领域也可以 通过生物特征来完成身份验证;对于多媒体网站则可以实现信息自动过滤,节省大量的人 力物力,同时进化网络环境;特别是在公共安全领域,近年来随着恐怖事件的频繁发生而加 大了人们对于智能安全系统建设的需求,而行人对象识别与检测技术就可以为其提供基础 性的支持,使得对监控视频中的语义信息做进一步筛选成为可能,并在公共安全遭受损害 前提前预警,在危机事件发生后对于危险分子快速定位,防止事件蔓延,因此该技术应用范 围将非常广阔。
[0004]在行人检测的研究历程中出现了很多优秀算法。使用梯度直方图(Histogram of Gradient,HOG)特征加支持向量机(Support Vector Machine,SVM)的滑动窗口算法能够较 好的克服光照的影响,因此应用较为广泛,但其在处理遮挡问题时表现不佳。Felzenszwalb 和Girshick等人通过研究发现,可以使用局部可形变模型(Deformable Part Model,DPM) 来描述待检测行人各个部位以及整体之间的关系,从而可以有效克服遮挡问题,但是该方 法计算过程较为复杂,运行速度较慢。

【发明内容】

[0005] 为了克服上述现有技术的不足,本发明提供一种基于聚合通道特征的快速行人检 测方法,前期标定通过聚合输入视频和/或图像中的多个通道特征信息,选择出具有较好识 别能力的特征作为存在行人的判别依据,增加了方法的鲁棒性,再使用卷积神经元网络分 类器对前期标定的每个位置做进一步筛选,提高对输入视频和图像中行人进行检测的精 度,为智能监控等领域提供基础性技术支持。
[0006] 本发明的原理是:针对输入图像或视频,行人检测即需要标定其中存在的行人的 准确位置,本发明首先聚合输入视频和/或图像中的多个通道特征信息,获取聚合通道特 征。通道特征是指对于原始输入图像的某种输出响应,用公式C= Ω (I)来表示。对于灰度图 像而言,可以认为其本身即为最朴素的通道,而彩色图像包含了 RGB三个颜色通道,同时也 可以计算其对应的灰度通道或者CIELUV(色彩空间中的亮度(L)和色度(U,V)通道,也称LUV 通道)。在此基础上,一阶通道特征可以定义为对某个输入通道在一定区域的像素之和,用f (C)表示。而高阶通道特征则定义为使用任意多幅一阶通道特征相互叠加后计算出的结果。 利用不同通道的特征进行组合,所得到的结果向量称为聚合通道特征,可作为输入图像某 一个区域的特征表示。然后,对于输入图像或者视频,构建其在尺度空间中的图像金字塔, 对每个尺度计算其对应的各个通道特征的图像。但是,如果每个尺度的特征图像都要重复 计算的话,将会非常耗时,因此,在计算过程中使用快速算法来构建图像特征金字塔,本发 明中采用原始尺度的特征图像通过尺度缩放得到该尺度上图像的各个通道特征图像。之 后,通过训练决策树模型(使用迭代变换(Iterative Dichotomiser 3, ID3)算法),从所有 特征通道中自动选择出具有较好鉴别能力的特征,作为行人的分类依据,并通过该分类器 提取各个尺度中行人可能出现的位置,在原始输入的尺度空间中进行标注,完成行人位置 的初步提取。最后,本发明通过采用卷积神经元网络作为分类器模型,筛选所标注的每个行 人位置,检测图片或视频中出现的行人。
[0007] 本发明提供的技术方案是:
[0008] -种基于聚合通道特征的快速行人检测方法,包括前期位置标定过程和后期位置 筛选过程;聚合输入视频或图像中的多个通道特征信息,构建输入图像或视频在尺度空间 中的图像金字塔,对每个尺度计算各个通道特征的图像,识别作为存在行人判别依据的特 征,初步提取行人位置;后期位置筛选过程使用卷积神经元网络分类器对前期标定的每个 位置做进一步筛选,提高对输入视频和图像中行人进行检测的精度;具体包括如下步骤:
[0009] 1)对每幅输入图像或视频,计算得到所述图像或视频的多通道的特征图像;
[0010] 2)构建特征图像金字塔:利用步骤1)计算出的特征图像,得到所述图像或视频在 尺度空间内的特征图像金字塔;
[0011] 3)根据步骤2)得到的特征图像金字塔,对所述图像或视频中待识别的图像目标区 域,使用所述区域内所有通道的特征图像,将所述区域表示为统一维度的特征向量,作为聚 合通道特征;
[0012] 4)使用决策树模型进行训练,从步骤3所述特征向量中自动选择出行人鉴别特征 作为判别标准,训练得到决策树分类器,通过滑动窗口扫描对不同尺度大小的行人进行位 置标定,标定位置表示为在窗口所在区域添加标注;
[0013] 5)使用卷积神经元网络模型对步骤4)得到的每个位置进行筛选,得到最后的检测 结果。
[0014] 针对上述基于聚合通道特征的快速行人检测方法,进一步地,所述多通道包括LUV 通道、梯度方向通道和梯度幅值通道。
[0015] 针对上述基于聚合通道特征的快速行人检测方法,进一步地,步骤2)具体通过对 所述输入图像进行上下采样的方法,构建得到所述输入图像在尺度空间内的特征图像金字 塔。
[0016] 针对上述基于聚合通道特征的快速行人检测方法,进一步地,步骤3)中,所述特征 图像金字塔中包含的尺度为五个;所述通道为八个;所述聚合通道特征具体通过如下操作 得到:
[0017] 设定输入图像为I;待识别图像区域为R,在I的特征图像金字塔中包含五个尺度, 记为Li,L2, . . .,L5;各个尺度上八个特征通道的图像记为PXy(x=l,. . .,5;y = l, . . .,8),每 个尺度上待识别图像区域R对应的区域记为ri,r2,. . .,n;设i = l. .5,对尺度U下的区域ri, 将所述各通道图像Ply(y= 1,...,8)上的相应区域列在一起,形成区域Γι的聚合通道特征。
[0018] 针对上述基于聚合通道特征的快速行人检测方法,进一步地,步骤4)所述训练得 到决策树分类器具体为:在使用决策树模型进行训练过程中,计算特征向量中每个维度的 特征所带来的信息增益,对信息增益进行排序,依次选取出当前信息增益最大的特征,代表 鉴别能力最强的行人鉴别特征,将所述行人鉴别特征作为所述决策树的结点,得到决策树 分类器。
[0019] 在本发明实施例中,所述决策树模型具体为迭代变换算法,输入为训练集D、特征 集X和阈值ε,输出为决策树T;所述迭代变换算法执行如下操作得到决策树分类器:
[0020] 41)通过式1计算得到特征向量中每个维度的特征XiS训练集D所带来的信息增益 g(D,Xi):
[0021] g(D,Xi)=H(D)-H(D|Xi)(式 1)
[0022] 式1中
V为训练数据集D本身的熵,其中pk为训练数据集D中 第k个类别出现的概率,k只有两个取值,k=l代表行人和k = 2代表非行人;
1为特征t给定条件下训练集D的条件熵;
[0023] 42)对步骤41)得到的不同特征向量所得信息增益进行排序,选取出信息增益最大 的特征向量作为行人鉴别特征,将所述行人鉴别特征作为所述决策树的结点,得到决策树 分类器。
[0024] 针对上述基于聚合通道特征的快速行人检测方法,进一步地,步骤4)所述标注形 式(x,y,w,h),其中(x,y)为所述区域左上角的坐标,(w,h)为所述区域的宽度和高度。
[0025] 针对上述基于聚合通道特征的快速行人检测方法,进一步地,步骤5)所述使用卷 积神经元网络模型对步骤4)得到的每个位置进行筛选,所述卷积神经元网络分类模型采用 AlexNet网络结构,包括五个卷基层和两个全连接层;通过对步骤4)得到的图像中所有添加 标注的区域,使用所述AlexNet网络进行再次分类,标注出行人,完成行人检测。
[0026] 更进一步地,所述再次分类包括如下步骤:
[0027] 51)通过所述AlexNet网络的五个卷基层将要分类的每个区域r表示成一个4096维 的向量,作为区域r的特征向量;
[0028] 52)通过一个分类层Softmax层,输入步骤51)所述4096维的特征向量,输出一个2 维向量;所述输出向量中的第一维表示所述区域r识别为行人的概率,所述输出向量中的第 二维表示所述区域r识别不为行人的概率;
[0029] 53)通过设定概率阈值,确定所述区域r是否为行人,完成行人检测。
[0030] 在本发明实施例中,步骤53)所述设定值为0.9。
[0031] 与现有技术相比,本发明的有益效果是:
[0032] -种基于聚合通道特征的快速行人检测方法,包括前期位置标定过程和后期位置 筛选过程;聚合输入视频或图像中的多个通道特征信息,构建输入图像或视频在尺度空间 中的图像金字塔,对每个尺度计算各个通道特征的图像,识别作为存在行人判别依据的特 征,初步提取行人位置;后期位置筛选过程使用卷积神经元网络分类器对前期标定的每个 位置做进一步筛选,提高对输入视频和图像中行人进行检测的精度。与现有技术相比,本发 明技术方案具有如下特点:
[0033] ( - )本发明利用了输入中的多个通道特征的信息,因此在拥有很多训练数据时, 分类器可以自动选择出具有较好识别能力的特征,将其作为判别某个位置是否可能存在行 人的判别依据,增加了方法的鲁棒性。
[0034] (二)本发明在得到最终结果前,使用卷积神经元网络分类器对前期标定的每个位 置做进一步筛选,提高了检测精度。
【附图说明】
[0035] 图1是本发明提供的基于聚合通道特征的快速行人检测方法的流程框图。
[0036] 图2是本发明实施例通过滑动窗口扫描对不同尺度大小的行人进行位置标定示意 图。
[0037] 图3是本发明实施例使用到的聚合通道特征;
[0038] 其中,(a)为输入的图像;(b)为L颜色通道的图像;(c)为U颜色通道的图像;(d)为V 颜色通道的图像;(e)为梯度幅值通道的图像;(f)为第一个梯度方向通道的图像;(g)为第 二个梯度方向通道的图像;(h)为第三个梯度方向通道的图像;(i)为第四个梯度方向通道 的图像。
[0039] 图4是本发明实施例根据多通道特征图像在尺度空间构建得到特征图像金字塔的 示意图;
[0040] 其中,(a)是原始尺度梯度幅值通道的图像;(b)是(a)缩放75%后对应尺度上梯度 幅值通道的图像;(c)是(a)缩放50%或对应尺度上梯度幅值通道的图像;(d)是(a)缩放 25 %后对应尺度上梯度幅值通道的图像。
[0041] 图5是本发明实施例使用多通道特征图像生成图像区域块特征向量的示意图;
[0042] 其中,(a)是输入图像;(b)-(i)对应图3说明的各个通道,包括LUV通道、梯度方向 通道和梯度幅值通道,同时用矩形框标注出其中待识别区域;(j)是图像中待识别区域的聚 合通道特征。
[0043] 图6是本发明实施例使用卷积神经元网络对前期提取的行人位置进行分类过程的 示意图。
[0044]图7是本发明实施例在INRIA行人数据集上采用本发明方法与其它现有方法的性 能指标对比图;
[0045] 其中,横坐标为平均误检数,单位为个/帧;纵坐标为漏检率,单位为% ;0URs为本 发明提供方法;VJ为OpenCV中使用的方法;H0G为梯度直方图(Hi stogram of Gradient); ACF为聚合通道特征(Aggregate Channel Features)。
【具体实施方式】
[0046] 下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范 围。
[0047] 本发明提供一种基于聚合通道特征的快速行人检测方法,包括前期位置标定过程 和后期位置筛选过程;图1是本发明实施例中的基于聚合通道特征的快速行人检测方法的 流程框图。前期标定通过聚合输入视频和/或图像中的多个通道特征信息;通过构建输入图 像或者视频在尺度空间中的图像金字塔,对每个尺度计算其对应的各个通道特征的图像; 选择出具有较好识别能力的特征作为存在行人的判别依据,增加了方法的鲁棒性,初步提 取行人位置;后期位置筛选过程使用卷积神经元网络分类器对前期标定的每个位置做进一 步筛选,提高对输入视频和图像中行人进行检测的精度,为智能监控等领域提供基础性技 术支持。其中,图像尺度空间金字塔是对于一幅图像进行缩放后得到的一组图像,他们是对 不同距离和不同清晰度条件下输入图像的映射。卷积神经元网路是计算机视觉中所使用的 一种分类器模型,它的作用是将不同类别的图片区分开来。
[0048] 基于多通道聚合特征完成行人检测过程,需要对不同尺度大小的行人完成位置标 定,整个过程称为滑动窗口扫描,图2是本发明实施例通过滑动窗口扫描对不同尺度大小的 行人进行位置标定示意图。滑动窗口扫描过程中,需要对图像中不同大小的区域块进行判 定,通过不断调整区域块大小并穷尽搜索整幅图像,得到其中行人。本发明提供一种基于聚 合通道特征的快速行人检测方法,在具体实施中,主要包括如下步骤(见图1):
[0049] 1)对每幅输入图像,计算其各个通道的特征图像;
[0050] 本实施例中,对每幅输入图像计算了图像的LUV通道、梯度方向通道和梯度幅值通 道的特征;图3表示了本实施使用到的聚合通道特征,其中,(a)为输入的图像;(b)为L颜色 通道的图像;(c)为U颜色通道的图像;(d)为V颜色通道的图像;(e)为梯度幅值通道的图像; (f)为第一个梯度方向通道的图像;(g)为第二个梯度方向通道的图像;(h)为第三个梯度方 向通道的图像;(i)为第四个梯度方向通道的图像。
[0051] 2)构建特征图像金字塔:利用上一步计算出的特征图像,得到其在尺度空间内的 特征图像金字塔;
[0052] 此过程直接通过将原始特征图像上下采样的形式,构建尺度空间内特征图像金字 塔,该特征图像金字塔作为下一步骤的输入;图4是本发明实施例根据多通道特征图像在尺 度空间构建得到特征图像金字塔的示意图;其中,(a)是原始尺度梯度幅值通道的图像;(b) 是(a)缩放75%后对应尺度上梯度幅值通道的图像;(c)是(a)缩放50%或对应尺度上梯度 幅值通道的图像;(d)是(a)缩放25%后对应尺度上梯度幅值通道的图像。
[0053] 3)对待识别的图像目标区域,使用该区域内所有通道的特征图像将该区域表示为 统一维度的特征向量,作为聚合通道特征;
[0054]设定输入图像为I,待识别图像区域为R,在I的特征图像金字塔中包含五个尺度 (Li,L2, . . .,L5)上十个特征通道的图像PXy(x = l,. . .,5;y = l,. . .,10),每个尺度上待识别 图像区域R对应的区域为n,r2, . . .,r5。对尺度1^下的区域^,取各通道图像Ply(y = l,..., 10)上的对应区域列在一起,形成^的聚合通道特征。图5示意了本实施例使用各通道特征 图像生成图像区域块特征向量;其中,(a)是输入图像;(b)-(i)对应图3说明的各个通道,包 括LUV通道、梯度方向通道(图中(f)-(i)显示了6个梯度方向通道中的4个作为示例)和梯度 幅值通道,同时用矩形框标注出其中待识别区域;(j)是图像中待识别区域的聚合通道特 征。本实施例中,对于不同大小的图像区域,将其归一化到128x64维度的向量上进行表示。 [00 55] 4)使用决策树模型(本发明实施例采用迭代变换(Iterative Dichotomiser 3, ID3)算法)自动选择出其中具有鉴别能力的特征(行人鉴别特征)作为判别标准,训练得到 决策树分类器,通过滑动窗口扫描对不同尺度大小的行人进行位置标定,获得待测试图像 中行人可能出现的位置;
[0056] 在训练过程中,ID3算法首先计算特征向量中每个维度的特征XiS训练集D所带来 的信息增益8(〇,&)(亦称为互信息),通过如下公式(式1)计算得到:
[0057] g(D,Xi)=H(D)_H(D|Xi)(式 1)
[0058] 其中
为训练数据集D本身的熵,pk为训练数据集D中第k个 类别出现的概率,此处k只有两个取值,k=l(行人)和k = 2(非行人);
为特征t给定条件下训练集D的条件熵;
[0059]之后对不同特征所得信息增益进行排序,选取出当前鉴别能力最强的特征(信息 增益最大)作为决策树的结点,得到决策树分类器。ID3算法的输入为训练集D、特征集X和阈 值ε,输出为决策树T,具体计算过程如下:
[0060 ] (a)若D中所有实例属于同一个类Ck,贝Τ为单结点树,并将Ck作为该结点的类标记, 返回T;
[0061 ] (b)若Χ= Φ,则T为单结点树,将D中实例数最多的类Ck作为该结点的类标记,返回 T;
[0062] (c)否则,当X辛Φ时,计算X中各个特征对D的信息增益,选择信息增益最大的特征 Xi,若乂:的信息增益小于ε,则T为单结点树,并将D中实例数最多的类Ck作为该结点的类标 记,返回T;
[0063] (d)若Xi的信息增益大于等于ε,对每一个可能值幻,按照Xiixp将D划分为若 干非空子集仏,将仏中实例数最大的类作为标记,构建子结点,由结点及其子结点构成树T, 返回T;
[0064] (e)对第j个子结点,以仏为训练集,以X-iXJS特征集,递归地调用(a)-(d),得到 子树Tj,返回Tj。
[0065] 对测试图像,通过滑动窗口的方法获得当前待判别区域,使用训练好的决策树模 型判别该区域是否是行人,若判别结果为正,则为该窗口所在区域添加标注,标注形式为 (x,y,w,h),其中(x,y)为该区域左上角的坐标,(w,h)为该区域的宽度和高度;
[0066] 5)使用卷积神经元网络模型对上述得到的每个位置进行筛选,得到最后的检测结 果。
[0067] 对上一步得到的图像中所有标注过的区域,使用卷积神经元网络分类模型对此区 域进行再次分类。本发明在实验中采用了 AlexNet网络结构(实际实施过程可不限于该网络 结构),此网络中有五个卷积层:卷积层Uconvl,包含96个11x11x3的卷积核),卷积层2 (conv2,包含256个5x5的卷积核),卷积层3(conv3,包含384个3x3的卷积核),卷积层4 (conv4,包含384个3x3的卷积核),卷积层5(conv5,包含256个3x3的卷积核);两个全连接 层:全连接层l(fcl,输入为6X6X256维的卷积特征向量,输出为4096维)和全连接层2 (fc2,输入和输出均为4096维)。这个过程中对于要分类的每个区域r,经过此网络的计算 后,将会得到一个4096维(fc2的输出维度)的特征向量作为此区域的特征表达,使用该表 达,通过一个分类层(Softmax层,该层依据本发明任务添加,它的输入为fc2层所输出的 4096维的向量,输出为2维的向量,输出向量中每个维度的取值范围在[0,1]区间内,其中第 一维表示此区域为行人的概率,第二维表示此区域不为行人的概率),从而得到该区域是否 为行人。图6是本发明实施例使用卷积神经元网络对前期提取的行人位置进行分类过程的 示意图。如图6所示,对所得概率值大于0.9的区域,标注其为行人,标注形式为(x,y,w,h, s),其中(x,y,w,h)与步骤4中标注意义相同,s为所得概率值,从而得到最后的检测结果。
[0068] 在本发明实施例中,我们采用了输入图像的颜色特征通道,具体使用图像的 CIELUV色彩空间而非原始的RGB空间,因为CIELUV色彩空间中光照的变化对所提取的特征 干扰较小。对于每个点所计算得到的梯度方向,将其量化到六个角度范围内,并用该方向梯 度幅值对其进行加权,得到六个梯度方向的特征通道。六个角度范围为:[0,V3],〇/3,2π/ 3],(2jt/3,3?],(Jr,4jt/3],(4jt/3,5jt/3],(5jt/3,2jt]。
[0069] 最后,还将梯度幅值本身单独作为一个特征通道。因此,对于输入有总共十个特征 通道的数据作为其特征表示。
[0070] 对于检测性能的评测,采用平均误检数(False Positive Per Image,FPPI)与漏 检率(Miss rate)指标作为最终评测指标,该值表示固定误检数时,每幅图像的漏检率是多 少,该指标数值越低说明算法的检测性能越好。图7显示了本发明与其他一些成熟算法在通 用的INRIA行人数据集下检测性能指标的结果对比,其中横坐标为平均误检数(单位:个/ 帧),纵坐标为漏检率(%) D〇URS为本发明方法的检测性能,从图中可看出,本发明方法OURs 的检测性能优于VJ(0penCV中使用的方法)、梯度直方图(Histogram of Gradient,H0G)算 法和聚合通道特征(Aggregate Channel Features,ACF)算法的检测性能。
[0071] 需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技 术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是 可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求 书界定的范围为准。
【主权项】
1. 一种基于聚合通道特征的快速行人检测方法,包括前期位置标定过程和后期位置筛 选过程;前期位置标定过程聚合输入视频或图像中的多个通道特征信息,构建输入图像或 视频在尺度空间中的图像金字塔,对每个尺度计算各个通道特征的图像,识别作为存在行 人判别依据的特征,初步提取行人位置;后期位置筛选过程使用卷积神经元网络分类器对 前期标定的每个位置做进一步筛选,提高对输入视频和图像中行人进行检测的精度;具体 包括如下步骤: 1) 对每幅输入图像或视频,计算得到所述图像或视频的多通道的特征图像; 2) 构建特征图像金字塔:利用步骤1)计算出的特征图像,得到所述图像或视频在尺度 空间内的特征图像金字塔; 3) 根据步骤2)得到的特征图像金字塔,对所述图像或视频中待识别的图像目标区域, 使用所述区域内所有通道的特征图像,将所述区域表示为统一维度的特征向量,作为聚合 通道特征; 4) 使用决策树模型进行训练,从步骤3所述特征向量中自动选择出行人鉴别特征作为 判别标准,训练得到决策树分类器,通过滑动窗口扫描对不同尺度大小的行人进行位置标 定,标定位置表示为在窗口所在区域添加标注; 5) 使用卷积神经元网络模型对步骤4)得到的每个位置进行筛选,得到最后的检测结 果。2. 如权利要求1所述基于聚合通道特征的快速行人检测方法,其特征是,所述多通道包 括LUV通道、梯度方向通道和梯度幅值通道。3. 如权利要求1所述基于聚合通道特征的快速行人检测方法,其特征是,步骤2)具体通 过对所述输入图像进行上下采样的方法,构建得到所述输入图像在尺度空间内的特征图像 金字塔。4. 如权利要求1所述基于聚合通道特征的快速行人检测方法,其特征是,步骤3)中,所 述特征图像金字塔中包含的尺度为五个;所述通道为十个;所述聚合通道特征具体通过如 下操作得到: 设定输入图像为I;待识别图像区域为R,在I的特征图像金字塔中包含五个尺度,记为 Li,L2, . . .,Ls;各个尺度上十个特征通道的图像记为Pxy(x=l,. . .,5;y=l,. . . ,10),每个尺 度上待识别图像区域R对应的区域记为η,η,...,rs;设i = l. .5,对尺度以下的区域ri,将所 述各通道图像Piy(y=l,...,1〇)上的相应区域列在一起,形成区域ri的聚合通道特征。5. 如权利要求1所述基于聚合通道特征的快速行人检测方法,其特征是,步骤4)所述训 练得到决策树分类器具体为:在使用决策树模型进行训练过程中,计算特征向量中每个维 度的特征所带来的信息增益,对信息增益进行排序,依次选取出当前信息增益最大的特征, 代表鉴别能力最强的行人鉴别特征,将所述行人鉴别特征作为所述决策树的结点,得到决 策树分类器。6. 如权利要求5所述基于聚合通道特征的快速行人检测方法,其特征是,所述决策树模 型具体为迭代变换算法,输入为训练集D、特征集X和阔值ε,输出为决策树T;所述迭代变换 算法执行如下操作得到决策树分类器: 41)通过式1计算得到特征向量中每个维度的特征Xi为训练集D所带来的信息增益g(D, Xi): g 化,Xi)=H(D)-!KD|Xi) (式 1) 式冲:训II练数据集D本身的赌,其中pk为训练数据集帥第k个类别 出现的概率,k只有两个取值,k= 1代表行人和k=2代表非行人 为特征Xi给定条件下训练集D的条件赌;42)对步骤41)得到的不同特征向量所得信息增益进行排序,选取出信息增益最大的特 征向量作为行人鉴别特征,将所述行人鉴别特征作为所述决策树的结点,得到决策树分类 器。7. 如权利要求1所述基于聚合通道特征的快速行人检测方法,其特征是,步骤4)所述标 注的形式为(x,y,w,h);其中,(x,y)为所述区域左上角的坐标,(w,h)为所述区域的宽度和 高度。8. 如权利要求1所述基于聚合通道特征的快速行人检测方法,其特征是,步骤5)所述使 用卷积神经元网络模型对步骤4)得到的每个位置进行筛选,所述卷积神经元网络分类模型 采用Ale曲et网络结构,包括五个卷积层和两个全连接层;通过对步骤4)得到的图像中所有 添加标注的区域,使用所述AlexNet网络进行再次分类,标注出行人,完成行人检测。9. 如权利要求8所述基于聚合通道特征的快速行人检测方法,其特征是,所述再次分类 包括如下步骤: 51) 通过所述AlexNet网络的五个卷基层将要分类的每个区域r表示成一个4096维的向 量,作为区域r的特征向量; 52) 通过一个分类层Softmax层,输入步骤51)所述4096维的特征向量,输出一个2维向 量;所述输出向量中的第一维表示所述区域r识别为行人的概率,所述输出向量中的第二维 表示所述区域r识别不为行人的概率; 53) 通过设定概率阔值,确定所述区域r是否为行人,完成行人检测。10. 如权利要求9所述基于聚合通道特征的快速行人检测方法,其特征是,步骤53)所述 概率阔值设定为0.9。
【文档编号】G06K9/62GK105975929SQ201610287163
【公开日】2016年9月28日
【申请日】2016年5月4日
【发明人】王文敏, 黄颖, 王荣刚, 李革, 董胜富, 王振宇, 李英, 赵辉, 高文
【申请人】北京大学深圳研究生院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1