一种基于Bag-of-features模型的自学习行人计数方法及装置制造方法

文档序号:6513545阅读:139来源:国知局
一种基于Bag-of-features模型的自学习行人计数方法及装置制造方法
【专利摘要】本发明涉及一种基于Bag-of-features模型的自学习行人计数方法,该计数方法包括:建立预先采集的视频图像样本的Bag-of-features模型,采用支持向量机作为分类器训练获得初始状态下的基于Bag-of-features模型的行人分类器;提取符合支持向量机基本分类条件的当前视频图像的前景区域,并对当前视频图像的搜索窗口进行区域划分,根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样本;根据提取的高置信度样本实时更新Bag-of-features模型的参数,进而更新基于Bag-of-features模型的行人分类器,通过所述行人分类器实现行人计数。本发明能够自动提取视频中的高置信度行人和非行人样本,进行实时调整Bag-of-features模型参数,提高系统对多场景的适应能力和计数准确性。
【专利说明】-种基于Bag-of-features模型的自学习行人计数方法及 装置

【技术领域】
[0001] 本发明涉及数字图像处理、计算机视觉、模式识别领域,特别是涉及一种基于 Bag-of-features模型的自学习行人计数方法和装置。

【背景技术】
[0002] 基于视频的行人计数系统能够智能分析图像,得到摄像机视野范围内的行人数 目,在公共场所有很大的应用价值。随着计算机视觉计数的飞速发展,该领域的研究和产品 化受到广泛关注。
[0003] 基于行人检测跟踪的行人计数算法是一种主流的方法。该方法首先通过背景 建模、帧差法等方法分割出前景区域,检测行人目标,并进一步跟踪检出区域,实现行人 计数° 例如,Zhao 等人(Xi Zhao, E. Delleandrea, Liming Chen. A People Counting System based on Face Detection and Tracking in a Video.Proc of6th IEEE International Conference on Advanced Video and Signal Based Surveillance. Genoa, Italy, 2009:67-72)和 Zu 等人(Keju Zu, Fuqiang Liu, and Zhipeng Li. Counting pedestrian in crowded subway scene. IEEE2nd International Congress on In Image and Signal Processing, 2009)采用检测跟踪行人头部的方法,Li等人(M. Li, Z. Zhang, K. Huang,and T.Tan. Estimating the number of people in crowded scenes by MID based foreground segmentation and head-shoulder detection. Proc of19th IEEE International Conference on Pattern Recognition. Tampa, Florida, USA, 2008:1 - 4) 采用头肩检测的方法来实现行人计数。Wen等人(Wusheng Wen, Mengfen Ho, and Chunglin Huang. People tracking and counting for applications in video surveillance system. International Conference on In Audio, Language and Image Processing, 2008)先采用模板匹配的方法检测前景中的行人区域,并进一步采 用霍夫变换的方法最终确定行人头部轮廓。Rittscher等人(Jens Rittscher, Peter H Tu, and Nils Krahnstoever.Simultaneous estimation of segmentation and shape. IEEE Computer Society Conference on In Computer Vision and Pattern Recognition, pages486 - 493, 2005)利用行人轮廓的先验知识分割前景图像,得到行人个 体并计数,该类方法假设行人个体是互不遮挡的,适用于行人密度较低的场景。
[0004] 现有及上述的基于行人检测的人数计数算法在行人检测环节大都采用离线训练 的分类器,通过人工收集大量样本训练分类器以实现行人检测。然而在实际应用中,视频监 控系统将面临复杂多样的应用场景,场景中的行人样本和背景差异很大,离线采集训练不 仅耽误时间更重要的是影响了系统的实际应用价值。


【发明内容】

[0005] 鉴于以上问题,本发明提供了一种基于视觉词袋模型Bag-of-features模 型的在线自适应学习的行人计数方法,通过在线自动采集高置信度样本,实时更新 Bag-of-feature模型参数,使系统在Bag-of-features模型上具备自适应学习功能,有效 提高了系统对不同场景的适应能力,减少人工干预,增加应用价值。
[0006] 本发明的目的通过以下技术方案来实现:
[0007] -种基于Bag-of-features模型的自学习行人计数方法包括:
[0008] 建立预先采集的视频图像样本的Bag-of-features模型,采用支持向量机作为分 类器训练获得初始状态下的基于Bag-of-features模型的行人分类器;
[0009] 提取符合支持向量机基本分类条件的当前视频图像的前景区域,并对当前视频图 像的搜索窗口进行区域划分,根据所述前景区域和所述搜索窗口内的特征点提取当前视频 图像的高置信度样本;
[0010] 根据提取的高置信度样本实时更新Bag-of-features模型的参数,进而更新基于 Bag-of-features模型的行人分类器,通过所述行人分类器实现行人计数。
[0011] 进一步,所述建立视频图像样本的Bag-of-features模型包括如下步骤:
[0012] 提取预先采集的视频图像中的正样本和负样本中的感兴趣特征点,对感兴趣特征 点进行特征描述;其中,所述正样本为行人样本,所述负样本为非行人样本;
[0013] 采用聚类方法将进行特征描述的感兴趣特征点划分成不同的类别,将每一个类别 作为一个视觉词条,所有的类别构成Bag-of-features模型的视觉词典库;
[0014] 将正样本和负样本分别划分成η个区域,将每个区域以及正样本和负样本作为整 体区域内的特征点与视觉词条进行样本映射,获得每个特征点的直方图,形成视频图像样 本的Bag-of-features模型;其中,η不小于正整数4。
[0015] 进一步,所述提取符合支持向量机基本分类条件的当前视频图像的前景运动区域 包括:
[0016] 采用混合高斯背景建模方法提取当前视频图像的背景区域,将所述背景区域与当 前图像帧进行比较,提取当前视频图像的前景区域;
[0017] 所述根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信 度样本包括,当所述搜索窗口内的前景像素点的数目与搜索窗口内所有像素点的数目之比 不小于设定阈值时,将所述搜索窗口提取为高置信度正样本;当所述搜索窗口内的前景像 素点的数目与搜索窗口内所有像素点的数目之比小于设定阈值时,将所述搜索窗口提取为 高置信度负样本。
[0018] 进一步,所述对当前视频图像的搜索窗口进行区域划分包括:
[0019] 将搜索窗口沿横向平均分为3个横向子区域,沿纵向平均分为2个纵向子区域;
[0020] 所述根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信 度样本包括,
[0021] 统计各个横向子区域和纵向子区域内的特征点的数目;
[0022] 当各个横向子区域之间的特征点的数目差异和各个纵向子区域之间的特征点的 数目差异不大于设定阈值时,将所述搜索窗口提取为高置信度正样本;
[0023] 当各个横向子区域之间的特征点的数目差异和各个纵向子区域之间的特征点的 数目差异小于设定阈值时,将所述搜索窗口提取为高置信度负样本。
[0024] 进一步,所述根据提取的高置信度样本对Bag-of-features模型的各项参数进行 实时更新包括:
[0025] 提取所述高置信度正样本和所述高置信度负样本中的感兴趣特征点,对感兴趣特 征点进行特征描述,将每个感兴趣特征点根据欧氏距离映射到距离最近的m个视觉词条; 其中,m小于视觉词条的总数目;
[0026] 根据每个视觉词条所映射的感兴趣特征点的数目,对所有视觉词条进行降序排 序;
[0027] 在降序排序后的视觉词条中选择包含正样本数目最多的N+个在支持向量机分类 器中权重为正的视觉词条和包含负样本数目最多的f个在支持向量机分类器中权重为负 的视觉词条;
[0028] 将待更新的词条进行维度加和并加权方式,对已选择的N+个视觉词条和f个视觉 词条进行更新。
[0029] 进一步,所述提取预先采集的视频图像中的正样本和负样本中的感兴趣特征点包 括:
[0030] 提取正样本和负样本中的边缘信息,通过对边缘信息的下采样获得正样本和负样 本中的感兴趣特征点。
[0031] 进一步,所述对感兴趣特征点进行特征描述包括:
[0032] 选择以关键点为中心的16 X 16区域,计算每个区域中每个特征点的梯度值,将 16 X 16区域中所有特征点的梯度值用一个中心在该区域中央且标准差为1.5倍的区域宽 度的高斯函数加权;所述关键点为感兴趣特征点
[0033] 将所述16 X 16区域分为16个4X4的小区域,在每个小区域中统计所有特征点 的梯度直方图,将直方图分为8个方向,形成128维特征向量;其中,在统计所有特征点的梯 度直方图时,将所有大于设定阈值的梯度直方图均设置为该设定阈值;
[0034] 将所述特征向量归一化完成对感兴趣特征点的特征描述。
[0035] 进一步,所述获得每个特征点的直方图包括:
[0036] 所述样本映射为将正样本和负样本中的每个特征点用视觉词典库中的视觉词条 近似代替,通过统计视觉词典库中每个视觉词条在样本图像中出现的次数得到相应直方图 特征;或者,所述样本映射为将正样本和负样本中的每个特征点根据欧式距离映射到距离 最近的m个视觉词条,通过统计视觉词典库中每个视觉词条在样本图像中出现的次数得到 相应直方图特征;其中,m小于视觉词条的总数目。
[0037] 本发明还提供一种基于Bag-of-features模型的自学习行人计数装置,该计数 装置包括:Bag-of-features模型及行人分类器建立模块,用于建立预先采集的视频图像 样本的Bag-of-features模型,采用支持向量机作为分类器训练获得初始状态下的基于 Bag-of-features模型的行人分类器;高置信度样本提取模块,用于提取符合支持向量机 基本分类条件的当前视频图像的前景区域,并对当前视频图像的搜索窗口进行区域划分, 根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样本;更新模 块,用于根据提取的高置信度样本实时更新Bag-of-features模型的参数,进而更新基于 Bag-of-features模型的行人分类器,通过所述行人分类器实现行人计数。
[0038] 本发明的优点在于:
[0039] 本发明能够自动提取视频中的高置信度行人和非行人样本,以此获取该场景内行 人和背景特点,并根据提取的高置信度样本实时更新Bag-of-features模型的参数,实现 了在使用多摄像头的大场景环境下对行人数量的准确统计。

【专利附图】

【附图说明】
[0040] 图1为本发明第一实施例提供的行人计数方法流程图;
[0041] 图2为本发明第一实施例提供的建立Bag-of-features模型的方法流程图;
[0042] 图3为本发明第一实施例提供的连接图像边缘点的示意图;
[0043] 图4为本发明第一实施例提供的样本映射的硬投票示意图;
[0044] 图5为本发明第一实施例提供的样本映射的软投票示意图;
[0045] 图6为本发明第一实施例提供的提取高置信度样本的方法流程图;
[0046] 图7为本发明第一实施例提供的搜索窗口进行区域划分的示意图;
[0047] 图8为本发明第一实施例提供的基于Bag-Of-Features模型参数更新的方法流程 图;
[0048] 图9为本发明第二实施例提供的行人计数装置图。

【具体实施方式】
[0049] 本发明实现基于Bag-of-features模型的在线自适应学习的区域行人计数方法。 首先预先采集训练样本,包括正负样本(正样本为行人样本,负样本为非行人样本,非必须 为当前场景),提取正负样本中的感兴趣特征点,采用SIFT特征(Scale-invariant feature transform)的描述方法描述该感兴趣特征点。对训练样本采用K-means聚类方法将进行特 征描述的感兴趣特征点划分成不同的类别得到视觉词条(codebook),并生成特征最终得到 初始的Bag-of-features模型。在实时运行阶段,当针对特定场景进行区域行人计数时,该 方法能够实时采集当前场景下的高置信度正负样本,并实时更新Bag-of-features模型的 各项参数,从而提高系统对特定场景的自适应能力。
[0050] 图1所示为本发明行人计数方法流程图,该方法包括:
[0051] 建立预先采集的视频图像样本的Bag-of-features模型,采用支持向量机作为分 类器训练获得初始状态下的基于Bag-of-features模型的行人分类器;所述初始状态是针 对某一应用场景时,系统刚开始运行的状态。
[0052] 提取符合支持向量机基本分类条件的当前视频图像的前景区域,并对当前视频图 像的搜索窗口进行区域划分,根据所述前景区域和所述搜索窗口内的特征点提取当前视频 图像的高置信度样本;
[0053] 根据提取的高置信度样本实时更新Bag-of-features模型的参数,进而更新基于 Bag-of-features模型的行人分类器,通过所述行人分类器实现行人计数。
[0054] 图2为本发明建立Bag-of-features模型的方法流程图。如图2所示,建立视频 图像样本的Bag-of-features模型包括如下步骤:
[0055] 步骤一:提取感兴趣特征点并进行特征点描述;具体为:提取预先采集的视频图 像中的正样本和负样本中的感兴趣特征点,对感兴趣特征点进行特征描述;其中,所述正样 本为行人样本,所述负样本为非行人样本。
[0056] 1)步骤一包括提取训练样本的感兴趣特征点,采用如下方法:
[0057] 为了获得足够的感兴趣特征点,先预先采集训练样本,包括正负样本(行人样本和 非行人样本),首先提取样本边缘信息,对边缘信息下采样得到感兴趣特征点。下采样的采 样频率与对感兴趣特征点数目的需求相关。此处的下采样指对每一帧视频图像中的像素点 间隔提取,取采样频率为6个像素间隔。
[0058] 本发明采用Canny算子进行边缘检测以提取样本边缘信息。Canny算子采用的是 先平滑然后求导数的方法,具体包括如下步骤:
[0059] (a)采用Canny算子用高斯函数对样本图像进行图像平滑,并去除图像噪声。
[0060] 高斯函数用公式(1)表示:
[0061]

【权利要求】
1. 一种基于Bag-of-features模型的自学习行人计数方法,其特征在于,该计数方法 包括: 建立预先采集的视频图像样本的Bag-of-features模型,采用支持向量机作为分类器 训练获得初始状态下的基于Bag-of-features模型的行人分类器; 提取符合支持向量机基本分类条件的当前视频图像的前景区域,并对当前视频图像的 搜索窗口进行区域划分,根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像 的高置信度样本; 根据提取的高置信度样本实时更新Bag-of-features模型的参数,进而更新基于 Bag-of-features模型的行人分类器,通过所述行人分类器实现行人计数。
2. 根据权利要求1所述的一种基于Bag-of-features模型的自学习行人计数方法,其 特征在于,所述建立视频图像样本的Bag-of-features模型包括如下步骤: 提取预先采集的视频图像中的正样本和负样本中的感兴趣特征点,对感兴趣特征点进 行特征描述;其中,所述正样本为行人样本,所述负样本为非行人样本; 采用聚类方法将进行特征描述的感兴趣特征点划分成不同的类别,将每一个类别作为 一个视觉词条,所有的类别构成Bag-of-features模型的视觉词典库; 将正样本和负样本分别划分成n个区域,将每个区域以及正样本和负样本作为整体区 域内的特征点与视觉词条进行样本映射,获得每个特征点的直方图,形成视频图像样本的 Bag-of-features模型;其中,n不小于正整数4。
3. 根据权利要求1或2所述的一种基于Bag-of-features模型的自学习行人计数 方法,其特征在于,所述提取符合支持向量机基本分类条件的当前视频图像的前景区域包 括: 采用混合高斯背景建模方法提取当前视频图像的背景区域,将所述背景区域与当前图 像帧进行比较,提取当前视频图像的前景区域; 所述根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样 本包括,当所述搜索窗口内的前景像素点的数目与搜索窗口内所有像素点的数目之比不小 于设定阈值时,将所述搜索窗口提取为高置信度正样本;当所述搜索窗口内的前景像素点 的数目与搜索窗口内所有像素点的数目之比小于设定阈值时,将所述搜索窗口提取为高置 信度负样本。
4. 根据权利要求3所述的一种基于Bag-of-features模型的自学习行人计数方法,其 特征在于,所述对当前视频图像的搜索窗口进行区域划分包括: 将搜索窗口沿横向平均分为3个横向子区域,沿纵向平均分为2个纵向子区域; 所述根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样 本包括, 统计各个横向子区域和纵向子区域内的特征点的数目; 当各个横向子区域之间的特征点的数目差异和各个纵向子区域之间的特征点的数目 差异不大于设定阈值时,将所述搜索窗口提取为高置信度正样本; 当各个横向子区域之间的特征点的数目差异和各个纵向子区域之间的特征点的数目 差异小于设定阈值时,将所述搜索窗口提取为高置信度负样本。
5. 根据权利要求4所述的一种基于Bag-of-features模型的自学习行人计数方法,其 特征在于,所述根据提取的高置信度样本对Bag-of-features模型的参数进行实时更新包 括: 提取所述高置信度正样本和所述高置信度负样本中的感兴趣特征点,对感兴趣特征点 进行特征描述,将每个感兴趣特征点根据欧氏距离映射到距离最近的m个视觉词条;其中, m小于视觉词条的总数目; 根据每个视觉词条所映射的感兴趣特征点的数目,对所有视觉词条进行降序排序; 在降序排序后的视觉词条中选择包含正样本数目最多的N+个在支持向量机分类器中 权重为正的视觉词条和包含负样本数目最多的f个在支持向量机分类器中权重为负的视 觉词条; 将待更新的词条进行维度加和并加权方式,对已选择的N+个视觉词条和f个视觉词条 进行更新。
6. 根据权利要求2所述的一种基于Bag-of-features模型的自学习行人计数方法,其 特征在于,所述提取预先采集的视频图像中的正样本和负样本中的感兴趣特征点包括:提 取正样本和负样本中的边缘信息,通过对边缘信息的下采样获得正样本和负样本中的感兴 趣特征点。
7. 根据权利要求6所述的一种基于Bag-of-features模型的自学习行人计数方法,其 特征在于,所述对感兴趣特征点进行特征描述包括 : 选择以关键点为中心的16X16区域,计算每个区域中每个特征点的梯度值,将每个区 域中所有特征点的梯度值用一个中心在该区域中央且标准差为1. 5倍的区域宽度的高斯 函数加权;其中,所述关键点为感兴趣特征点; 将所述16X 16区域分为16个4X4的小区域,在每个小区域中统计所有特征点的梯度 直方图,将梯度直方图分为8个方向,形成128维特征向量;其中,在统计所有特征点的梯度 直方图时,将所有大于设定阈值的梯度直方图均设置为该设定阈值; 将所述特征向量归一化完成对感兴趣特征点的特征描述。
8. 所述根据权利要求7所述的一种基于Bag-of-features模型的自学习行人计数方 法,其特征在于,所述获得每个特征点的直方图包括:所述样本映射为将正样本和负样本中 的每个特征点用视觉词典库中的视觉词条近似代替,通过统计视觉词典库中每个视觉词条 在样本图像中被映射的次数得到相应直方图特征;或者,所述样本映射为将正样本和负样 本中的每个特征点根据欧式距离映射到距离最近的m个视觉词条,通过统计视觉词典库中 每个视觉词条在样本图像中被映射的次数得到相应直方图特征;其中,m小于视觉词条的 总数目。
9. 一种基于Bag-of-features模型的自学习行人计数装置,其特征在于,所述计数装 置包括: Bag-of-features模型及行人分类器建立模块,用于建立预先采集的视频图像样 本的Bag-of-features模型,采用支持向量机作为分类器训练获得初始状态下的基于 Bag-of-features模型的行人分类器; 高置信度样本提取模块,用于提取符合支持向量机基本分类条件的当前视频图像的前 景区域,并对当前视频图像的搜索窗口进行区域划分,根据所述前景区域和所述搜索窗口 内的特征点提取当前视频图像的高置信度样本; 更新模块,用于根据提取的高置信度样本实时更新Bag-of-features模型的参数,进 而更新基于Bag-of-features模型的行人分类器,通过所述行人分类器实现行人计数。
【文档编号】G06M11/00GK104517127SQ201310449781
【公开日】2015年4月15日 申请日期:2013年9月27日 优先权日:2013年9月27日
【发明者】黄磊, 李静雯 申请人:汉王科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1