基于运动检测结合多通道融合的教师运动跟踪方法

文档序号:2551844阅读:224来源:国知局
专利名称:基于运动检测结合多通道融合的教师运动跟踪方法
技术领域
本发明涉及的是一种电信技术领域的运动跟踪方法,具体的说,涉及的是 一种基于运动检测结合多通道融合的教师运动跟踪方法。
背景技术
随着互联网技术的成熟,移动3G网络的蓬勃发展,远程教育E-learning作 为一种新的教育模式在教育中所占的比重将会越来越大。在E-learning中,一 个重要的概念就是"智能教室",在智能教室中,教师可以方便的使用鼠标、键 盘、固定话筒、无线话筒、激光笔、讲台显示器、触摸屏、大屏幕的墙面投影、 等离子电视和电子白板等高科技产品以在传统教室中一样自然的方式同时给现 场的学生和远程的学生进行授课并且互动。为了给远程学生提供一个临场感更 强的远程教学体验,客观需要系统自动跟踪主讲教师,并自动进行变焦予以拉 近拉远,将高清的教师视频图像传输到远程学生端。
通常,运动人像的自动跟踪系统基于图像分析完成,由摄像头、图像采集 卡、计算机、云台和跟踪软件组成。摄像头获取实时视频,经图像采集卡转换 为图像,计算机上的跟踪软件进行图像分析检测运动人像,给云台发出转动变 焦命令,实现对目标的跟踪。当前世界上已有不少通过图像分析的运动人像自 动跟踪的方法和系统。但是,跟踪软件通过图像分析的方法实现实时自动跟踪 往往存在很多困难,主要问题有,环境中背景对运动人像的遮挡容易造成目标 丢失,外界环境存在的变化如开关灯,大屏幕墙面投影内容的变化等容易引起 系统判断错误以及存在多个运动人像时不能自动识别跟踪目标的问题。
经对现有技术的文献检索发现,中国专利申请号为200610024077. 8的专利 提出了一种结合时域差分和空域分级的运动人像实时自动跟踪方法,该方法包 括图像采集卡采集的图像,在低空间分辨率级别,通过时域差分处理后,在 自适应阈值作用下,经腐蚀运算,得到二值化差分图;在二值化差分图中搜寻
运动人像目标,若找到目标则进行下一步;若没有搜寻到运动人像目标,则提 高空间分辨率,计算所增加部分的二值化差分图,再重新进行搜寻;根据当前 和历史的运动人像目标区域,进行转动和变焦控制,实现实时跟踪和变焦。该 方法通过空域分级减少了计算量,提高了实时性,具有一定的优点,但是对于 目标遮挡问题,跟踪目标识别问题以及当外界环境出现较大变化问题都未作说 明或未作考虑。

发明内容
本发明针对上述现有技术的不足,提供一种基于运动检测结合多通道融合 的教师运动跟踪方法,采用语音信号检测,原始鼠标设备信号检测和视频图像 运动人像检测三个通道融合的方法,使其不仅不受物体遮挡,外界环境变化的 影响,能够实时检测运动人像的位置,而且还能自动识别主讲教师,自动控制 云台转动变焦,跟踪主讲教师。
本发明是通过以下技术方案实现的,包括以下步骤
步骤一,语音信号检测。通过声卡采集音频信号,对输入的音频信号先进 行高通滤波,减弱以噪音为主的信号能量。接着对音频信号进行短时处理,计 算短段间的平均能量。在静音阈值作用下,判定当前状态为语音状态还是静音 状态。
所述的语音信号检测,是指对固定话筒是否有声音的检测。
所述的高通滤波,是指让高频信号通过而不让低频信号通过,其作用是 滤去音频信号中的低音成分,增强中音和高音成分。
所述的短时处理,是指把语音信号分成一些短段(或称为分析帧)来进 行处理。这些短段具有固定的特性,短段间经常有一定的重叠组成一段语音。
所述的静音阈值作用,是指以先验静音平均能量作为静音阈值,将短段 间的平均能量与之比较,大于该阈值,则认为当前状态为语音状态,否则为静 音状态。
步骤二,原始鼠标设备信号检测。通过操作系统的应用程序接口实时监视 鼠标动作,如果鼠标有动作,通过检测到的对应原始鼠标设备的设备唯一标志 号来判断是哪个原始鼠标设备有操作。
所述的原始鼠标设备,是指鼠标,触摸屏,手写板等设备。 所述的原始鼠标设备检测,是指对鼠标,触摸屏,手写板等是否有操作 的检测。
所述的操作系统,是指,windows操作系统。
所述的原始鼠标设备唯一标志号,是指Windows操作系统为每个原始鼠标
设备分配的唯一标志号。
步骤三,视频图像运动人像检测识别。通过对图像采集卡采集的每一帧图 像与混合多高斯背景模型进行背景差分,在自适应阈值作用下,得到二值化差 分图,更新混合多高斯背景模型。对二值化差分图像通过腐蚀计算降低分辨率 级别,通过连通区域结合运动人像先验知识搜寻运动人像区域。对每个搜寻到 的运动人像区域进行色彩特征提取,与前一刻的主讲教师的区域色彩特征进行 匹配,找到与主讲教师最匹配的运动人像,更新主讲教师区域色彩特征。
所述的混合多高斯背景模型,是指背景图像的每一个像素分别用《个高斯 分布模型表示其在时间域上的值概率。即
其中,r是混合高斯模型中高斯分布的个数, 一般取为3-5; X,是像素在 f时刻的值,由红、绿、蓝三色分量构成。P(X,)表示像素在f时刻值为A的概率, W,,(表示时刻t混合高斯模型中第i个高斯分布的权重;A,和2^分别表示时刻t
混合高斯模型中第/个高斯分布的均值向量和协方差矩阵。^表示高斯分布概率 密度函数。
<formula>formula see original document page 9</formula>
其中,r表示红色分量,g表示绿色分量,6表示蓝色分量,红、绿、蓝分
量相互独立。O"表示高斯分布中对应颜色分量的标准差。《个高斯分布按照权重 值从大到小排序。
所述的背景差分,是指对图像帧中每个像素值《与它对应的混合高斯模
型进行匹配计算,如果像素值《与《个混合高斯分布中的第/个高斯分布的均
值的距离小于2. 5倍该高斯分布的标准差,则认为该像素值与这个高斯分布匹 配。
所述的在自适应阈值作用下,得到二值化差分图,是指预定阈值r (0.5《r《i),以根据权重排序后的k个高斯分布中的权重和大于r的前b个高
斯分布为背景该像素的最佳描述。艮口
如果前一步背景差分所得该像素与该前b个高斯分布中的任何一个匹配,则
该像素值置为i,表示该像素点属于前景,否则该像素值置为o,表示该像素点
属于背景。
所述的更新混合多高斯背景模型,是指更新像素值对应的《个混合高斯
分布的均值/z,协方差矩阵i:和权重w。
均值、协方差更新规则为-
①当该像素值匹配至少一个高斯分布时对于不匹配的高斯分布,均值和 协方差矩阵保持不变。对于匹配的高斯分布的均值和协方差按下式更新-
其中,p为高斯分布的更新率。如果背景稳定,更新率适合小,如果背景
变化较快,更新率适合大。
②当该像素值不匹配任何一个对应的混合高斯分布时,对权中最小的高斯 分布,即最不可能代表背景的高斯分布重新赋值。即
<formula>formula see original document page 10</formula>
其中,y表示最不可能代表背景的那个高斯分布。^表示初始化的各颜色 分量的方差。/表示一个3X3的单位矩阵。
权重的更新规则为
① 对于匹配的高斯分布,权重更新为
<formula>formula see original document page 11</formula>
② 对于不匹配的高斯分布,权重更新为
<formula>formula see original document page 11</formula>
其中a为权重的更新率。 所述的对二值化差分图像通过腐蚀计算降低分辨率级别,是指设定分辨 率降低率为W,原二值化差分图像的连续的每一个n*n的像素点集合归一化为
降低分辨率后的新图像的一个像素点。w的大小可以为2 — 5。通过降低分辨率, 图像大小减小为原来的;。例如,当n为4时,通过降低分辨率级别,宽640像 素,高480像素的图像将成为宽160像素,高120像素的图像。所谓的腐蚀计算指 通过统计原二值图像中每个wxw的矩阵区域中像素点值为l的个数,如果超过阈
值M个(<formula>formula see original document page 11</formula>),则降低分辨率后对应的像素值为l,否则为0。
所述的通过连通区域结合运动人像先验知识搜寻运动人像区域,是指在 二值化差分图像中找出像素值均为l(即前景像素点)的像素点构成的连通区域, 再根据运动人像先验知识(即人体高宽比范围),判定该连通区域是否为运动人 像区域。连通区域具体指这样的区域区域中任意2个像素值为1的像素点都能 用一条由区域内像素值为l的像素点连成的曲线相连。
所述的运动人像区域的色彩特征提取,是指对运动人像区域的像素各种
颜色特征进行统计,并将统计结果进行归一化,以此代表该运动人像目标的色
彩特征。颜色特征,即红、绿、蓝三色分量构成的颜色表述,将每色分量值(0-255)
平均映射到10个子区间,则每个像素值的颜色共有10X10X10二1000种可能具 体表述。统计结果归一化公式为
其中,A(c,)表示t时刻运动人像区域/中第;种颜色表述的像素点所占比 例;巧(c,)表示t时刻运动人像区域/中第/种颜色表述的像素点个数;|/|表示
运动人像区域/中像素点的个数。
所述的与前一刻的主讲教师的区域色彩特征进行匹配,找到与主讲教师最
匹配的运动人像,是指将?时刻搜寻到的每个运动人像区域与卜l时刻的跟踪
目标区域的色彩特征进行比较,差异最小的运动人像区域为跟踪目标的新区域。 色彩特征比较公式为
其中,/表示f时刻的搜寻到的第y个运动人像区域,/'表示f-l时刻的跟 踪目标区域,D(/"/)表示f时刻的搜寻到的第y个运动人像区域与卜l时刻的 跟踪目标区域的色彩特征差异。
所述的更新主讲教师区域色彩特征,是指在Z-1时刻跟踪目标区域的色
彩特征的基础上结合,时刻的与主讲教师最匹配的运动人像的色彩特征重新定 义跟踪目标区域的色彩特征。具体更新方法为
其中/^表示跟踪目标区域的最新色彩特征;化—,表示卜l时刻跟踪目 标区域的色彩特征;A表示t时刻的色彩特征;《为色彩特征的更新率,
步骤四,融合分析步骤一至三的三个通道检测结果,识别主讲教师所在位
SK(c')+/v(c')
『(c,) = " 、 (c, ) + (1 —(f,)
置,控制云台转向主讲教师,进行变焦予以拉近拉远。 所述的识别主讲教师所在位置,具体为
1) 当语音通道检测到语音信号时,得到结论主讲教师现在所在位置为话 筒所在区域;
2) 当原始鼠标设备通道检测到原始鼠标设备信号时,得出结果主讲教师 现在所在位置为检测到的原始鼠标设备信号的对应原始鼠标设备所在的区域;
3) 当视频图像运动人像检测通道检测到有运动人像时,如果运动人像有多 个,通过色彩特征,找到与历史跟踪过程中的主讲教师最匹配的那个运动人像。 如果之前没有主讲教师,则检测到的运动人像中随即选择一个认为最匹配。然后 根据前一刻的主讲教师位置、语音通道结果和原始鼠标设备通道结果进行融合判 断,具体为-
a) 当前一刻主讲教师位置在话筒区域或者原始鼠标设备(如鼠标,键 盘,触摸屏,手写板)区域,并且当前时刻检测到的运动人像中有人在该区域, 则得出结果主讲教师当前所在位置依旧为话筒区域或者原始鼠标设备区域;如 果与主讲教师最匹配的运动人像在话筒区域或者原始鼠标设备区域,则认为该运 动人像与主讲教师最匹配。否则,认为在话筒区域或者原始鼠标设备区域的运动 人像与主讲教师最匹配。这种情况,可以帮助智能的选择多个运动人像中哪个最 有可能是主讲教师。
b) 当前一刻主讲教师位置在话筒区域或者原始鼠标设备(如鼠标,键 盘,触摸屏,手写板)区域,但是当前时刻检测到的运动人像中没人在该区域, 如果当前语音信号检测通道检测到话筒有声音或者当前原始鼠标设备信号检测 通道检测到有鼠标操作,则得出结果主讲教师当前所在位置依旧为话筒区域或 者原始鼠标设备区域。这种情况可能由于主讲教师站在讲台后讲话,由于被遮挡 导致视频图像没有检测到运动人像,而话筒有声音或者原始鼠标设备有操作。
C) 当前一刻主讲教师位置在话筒区域或者原始鼠标设备(如鼠标,键
盘,触摸屏,手写板)区域,但是当前时刻检测到的运动人像中没人在该区域, 如果当前原始鼠标设备信号检测通道也没有检测到话筒有声音或者鼠标有操作, 则得出结果主讲教师当前所在位置为最匹配的运动人像所在位置。
d) 当前一刻主讲教师位置在话筒,原始鼠标设备所在区域之外,则得
出结果主讲教师当前所在位置为最匹配的运动人像所在位置。 步骤五,循环步骤一到步骤四,实时跟踪运动教师。
本发明不仅能够被应用于远程教育智能教室中,还能被推广应用于电视会 议、可视电话及网络会议中,能够准确实时地采集现场主讲人员的图像,传输给 远端参与者,让他们获得一个临场感更强的远程交互体验。


图l是本发明方案整体工作流程图2是本发明视频图像中运动人像检测流程示意图3是本发明多通道检测结果融合过程示意图4是本发明实施例的实施场景图5是本发明实施例的场景转移图。
具体实施例方式
下面结合附图对本发明的实施例作详细说明本实施例在以本发明技术方案 为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护 范围不限于下述的实施例。
本实施例用于在远程教育的智能教室中自动实时跟踪主讲教师,采集主讲教 师的实时图像。
如图1所示,本实施例包括以下几个步骤
步骤一,通过声卡采集智能教室中教师使用的话筒产生的音频信号,本实 施例中的信号的采样率为8kHz。对输入的音频信号先进行高通滤波处理,减弱
智能教室内以噪音为主的信号能量。接着对音频信号进行短时处理,计算每个 短段间的平均能量。在静音阈值作用下,判定当前状态为语音状态还是静音状 态。
所述的高通滤波,是指让高频信号通过而不让低频信号通过,其作用是 滤去音频信号中的低音成分,增强中音和高音成分。
所述的短时处理,是指把语音信号分成一些短段(或称为分析帧)来进 行处理。这些短段具有固定的特性,短段间经常有一定的重叠组成一段语音。 本实施例中选择输入1024字节的音频信号数据的时间段为一个短段。
所述的静音阈值作用,是指以先验静音平均能量作为静音阈值,将短段间
的平均能量与之比较,大于该阈值,则认为当前状态为语音状态,否则为静音状 态。本实施例中静音值为100。
步骤二,通过操作系统的应用程序接口实时监视引起鼠标动作的原始鼠标设 备号,识别是多个原始鼠标设备中的哪个引起。
所述的原始鼠标设备,是指鼠标,键盘,触摸屏等。本实施例中包括鼠 标,键盘,触摸屏和手写板4个原始鼠标设备。 所述的操作系统,是指,windows操作系统。
步骤三,摄像头获取智能教室教师活动范围全景视频,经图像采集卡转换为
图像,在图像中进行运动人像检测识别,具体检测过程如图2所示。
步骤四,按照如图3的融合过程处理步骤一到步骤三的三个通道的检测结果。
步骤五,通过步骤四的融合处理,得到主讲教师当前所在的位置。 步骤六,根据主讲教师位置信息,向云台发送控制命令,让云台转向主讲教 师,并进行变焦予以拉近拉远。
如图2所示,视频图像的运动人像检测和识别过程包括以下步骤
步骤一,摄像头获取智能教室教师活动范围全景视频,经图像采集卡转换 为图像。通过第一帧图像初时化混合多高斯背景模型。其中图像采集卡转换的
图像分辨率为宽640像素,高480像素。
所述的混合多高斯背景模型,是指背景图像的每一个像素分别用^个高斯 分布模型表示其在时间域上的值概率。即

其中,《是混合高斯模型中高斯分布的个数, 一般取为3-5; x,是像素在f时
刻的值,由红、绿、蓝三色分量构成。P(x,)表示像素在f时刻值为x,的概率,气,
表示时刻t混合高斯模型中第/个高斯分布的权重;A,,和I^分别表示时刻t混
合高斯模型中第/个高斯分布的均值向量和协方差矩阵。"表示高斯分布概率密 度函数。
<formula>formula see original document page 16</formula>
其中,r表示红色分量,g表示绿色分量,6表示蓝色分量,红、绿、蓝分
量相互独立。O"表示高斯分布中对应颜色分量的标准差。《个高斯分布按照权重
值从大到小排序。
本实施例中X取值为5。每一个像素由5个高斯分布模型描述。通过第一帧
图像初始化混合多高斯背景模型时第l个高斯分布的权重初始化为l,红、绿、 蓝三色分量的高斯分布均值初始化为第一帧图像中对应分量的值,三个分量的 高斯分布标准差均初始化为5;其他4个高斯分布的权重初始化为0,三色分量的
高斯分布均值初始化为O,三色分量的高斯分布的标准差均初始化为5。
步骤二,将帧图像与混合多高斯背景模型进行背景差分。
所述的背景差分,是指对图像帧中每个像素值Xf与它对应的混合高斯模 型进行匹配计算,如果像素值《与《个混合高斯分布中的第/个高斯分布的均
值的距离小于2. 5倍该高斯分布的标准差,则认为该像素值与这个高斯分布匹配。
步骤三,经过背景差分后,在自适应阈值作用下,得到二值化差分图,更 新混合多高斯背景模型。
所述的在自适应阈值作用下,得到二值化差分图,是指预定阈值r (0.5《rsi),以根据权重排序后的k个高斯分布中的权重和大于r的前b个高
斯分布为背景该像素的最佳描述。艮P:
如果前一步背景差分所得该像素与该前B个高斯分布中的任何一个匹配,则该像 素值置为l,表示该像素点属于前景,否则该像素值置为O,表示该像素点属于
背景。本实施例中阈值r的取值为o.7。
所述的更新混合多高斯背景模型,是指更新像素值对应的《个混合高斯 分布的均值/z,协方差矩阵S和权重W。
均值,协方差更新规则为
1. 当该像素值匹配至少一个高斯分布时对于不匹配的高斯分布,均值和 协方差矩阵保持不变。对于匹配的高斯分布的均值和协方差按下式更新
<formula>formula see original document page 17</formula>
其中,p为高斯分布的更新率。如果背景稳定,更新率适合小,如果背景 变化较快,更新率适合大。本实施例中高斯分布更新率p取值为l,其中 w附为历史匹配该高斯分布的图像帧数累积之和。
2. 当该像素值不匹配任何一个对应的混合高斯分布时,对权中最小的高斯 分布,即最不可能代表背景的高斯分布重新赋值。即
其中,y表示最不可能代表背景的那个高斯分布。(j。表示初始化的各颜色
分量的标准差。/表示一个3X3的单位矩阵。本实施例中各颜色分量的方差 的 初始化值为5。
权重的更新规则为
1. 对于匹配的高斯分布,权重更新为
2. 对于不匹配的高斯分布,权重更新为
其中"为权重的更新率。本实施例中对于智能教室中经常会有变化的背景 区域(如投影屏幕区域)的权重更新率a取值为0.008,对于稳定背景区域的权
重更新率a取值为O. 002。
步骤四,对二值化差分图像通过腐蚀计算降低分辨率级别。 所述的对二值化差分图像通过腐蚀计算降低分辨率级别,是指设定分辨
率降低率为W,原二值化差分图像的连续的每一个wxn的像素点集合归一化为 降低分辨率后的新图像的一个像素点。w的大小可以为2 — 5。通过降低分辨率, 图像大小减小为原来的;。例如,当n为4时,通过降低分辨率级别,宽640像 素,高480像素的图像将成为宽160像素,高120像素的图像。所谓的腐蚀计算指 通过统计原二值图像中每个"x"的矩阵区域中像素点值为l的个数,如果超过阔
值Af个(0.5."、MSm2),则降低分辨率后对应的像素值为l,否则为0。本实
施例中n取值为4,经过降低分辨率,宽640像素,高480像素的二值化差分图像, 成为宽160像素,高120像素的图像。阈值M为O. 7X4X4 = 11. 2。
步骤五,通过连通区域结合运动人像先验知识在步骤四处理后的二值化差 分图中搜寻运动人像区域。
所述的通过连通区域结合运动人像先验知识搜寻运动人像区域,是指在 二值化差分图像中找出像素值均为l(即前景像素点)的像素点构成的连通区域, 再根据运动人像先验知识(即人体高宽比范围),判定该连通区域是否为运动人 像区域。连通区域具体指这样的区域区域中任意2个像素值为1的像素点都能 用一条由区域内像素值为l的像素点连成的曲线相连。
步骤六,对每个搜寻到的运动人像区域进行色彩特征提取。
所述的运动人像区域的色彩特征提取,是指对运动人像区域的像素各种
颜色特征进行统计,并将统计结果进行归一化,以此代表该运动人像目标的色
彩特征。颜色特征,即红、绿、蓝三色分量构成的颜色表述,将每色分量值(0-255) 平均映射到10个子区间,则每个像素值的颜色共有IOX 10X 10 = IOOO种可能具 体表述。统计结果归一化公式为
其中,^(c,)表示t时刻运动人像区域/中第/种颜色表述的像素点所占比 例;//,(c,)表示t时刻运动人像区域/中第/种颜色表述的像素点个数;|/|表示
运动人像区域/中像素点的个数。
步骤七,与前一刻的主讲教师的区域色彩特征进行匹配,找到与主讲教师 最匹配的运动人像,更新主讲教师区域色彩特征。
所述的与前一刻的主讲教师的区域色彩特征进行匹配,找到与主讲教师最
匹配的运动人像,是指将Z时刻搜寻到的每个运动人像区域与Z-1时刻的主讲
教师区域的色彩特征进行比较,差异最小的运动人像区域为主讲教师的新区域。 色彩特征比较公式为
其中,/表示/时刻的搜寻到的第y个运动人像区域,/'表示f-l时刻的跟 踪目标区域,D(/"/)表示/时刻的搜寻到的第y个运动人像区域与f-l时刻的 主讲教师区域的色彩特征差异。
所述的更新主讲教师区域色彩特征,是指在,-l时刻主讲教师的色彩特征
的基础上结合f时刻的与主讲教师最匹配的运动人像的色彩特征重新定义主讲 教师的色彩特征。具体更新方法为
其中4,表示跟踪目标区域的最新色彩特征;/^表示卜1时刻跟踪目标区 域的色彩特征;^表示t时刻的色彩特征;"为色彩特征的更新率,0< ^1。 本实施例中色彩特征的更新率"的值为0.9。
如图3所示,本实施例中的多通道检测结果融合过程为
1.当语音通道检测到语音信号时,得到结果主讲教师现在所在位置为话
筒所在区域。
2. 当原始鼠标设备通道检测到原始鼠标设备信号时,得出结果主讲教师 现在所在位置为检测到的原始鼠标设备信号的对应原始鼠标设备所在的区域。
3. 当视频图像运动人像检测通道检测到有运动人像时,如果运动人像有多 个,通过色彩特征,找到与历史跟踪过程中的主讲教师最匹配的那个运动人像。 如果之前没有主讲教师,则检测到的运动人像中随即选择一个认为最匹配。然后 根据前一刻的主讲教师位置、语音通道结果和原始鼠标设备通道结果进行判断, 具体有以下七种可能情况
情况一,前一刻主讲教师位置在话筒区域,并且当前时刻检测到的运动人像 中有人在该区域,则得出结果主讲教师当前所在位置依旧为话筒所在区域,如 果与主讲教师最匹配的运动人像在话筒区域,则依旧认为该运动人像与主讲教师 最匹配。否则,认为在话筒区域的运动人像与主讲教师最匹配。这种情况,可以 帮助智能的识别多个运动人像中哪个最有可能是主讲教师,从而让云台正确跟
踪o
情况二,前一刻主讲教师位置在话筒区域,但是当前时刻检测到的运动人像 中没人在该区域,如果当前语音信号检测通道检测到话筒有声音,则得出结果 主讲教师当前所在位置依旧为话筒所在区域。这种情况可能由于主讲教师站在讲 台后讲话,由于被遮挡导致视频图像没有检测到运动人像,而话筒有声音。
情况三,前一刻主讲教师位置在话筒区域,但是当前时刻检测到的运动人像 中没人在该区域,如果当前语音信号检测通道检测到话筒也没有声音,则得出结 果主讲教师当前所在位置为最匹配的运动人像所在位置。
情况四,前一刻主讲教师位置在原始鼠标设备(如鼠标,键盘,触摸屏,手 写板)所在区域,并且当前时刻检测到的运动人像中有人在该区域,则得出结果 主讲教师当前所在位置依旧为原始鼠标设备所在区域,如果与主讲教师最匹配的 运动人像在原始鼠标设备区域,则依旧认为该运动人像与主讲教师最匹配。否则, 认为在原始鼠标设备区域的运动人像与主讲教师最匹配。这种情况,可以帮助智 能的识别多个运动人像中哪个最有可能是主讲教师,从而让云台正确跟踪。
情况五,前一刻主讲教师位置在原始鼠标设备(如鼠标,键盘,触摸屏,手 写板)所在区域,但是当前时刻检测到的运动人像中没人在该区域,如果当前原
始鼠标设备信号检测通道检测到有鼠标操作,则得出结果主讲教师当前所在位 置为对应原始鼠标设备所在区域。这种情况可能由于主讲教师站在讲台后操作电 脑等原因,由于被遮挡导致视频图像没有检测到运动人像,而鼠标设备有操作。
情况六,前一刻主讲教师位置在原始鼠标设备(如鼠标,键盘,触摸屏,手 写板)所在区域,但是当前时刻检测到的运动人像中没人在该区域,如果当前原 始鼠标设备信号检测通道也没有检测到鼠标操作,则得出结果主讲教师当前所 在位置为最匹配的运动人像所在位置。
情况七,前一刻主讲教师位置在话筒,原始鼠标设备所在区域之外,则得出 结果主讲教师当前所在位置为最匹配的运动人像所在位置。
如图4所示,为本发明实施例的实施场景图。该实施场景为远程教育中心的 一个智能教室。在该教室中有固定话筒,教师使用的电脑(配有鼠标,键盘,手 写板和触摸屏),大面积投影幕,拍摄视频图像的摄像头,跟踪教师运动的云台 和数据计算处理服务器(配有图像采集卡,声卡) 一台。摄像头拍摄教师活动范 围的视频图像,摄像头数据线连接服务器上的采集卡,通过采集卡转换为图像, 检测教师的运动人像。教师电脑上检测鼠标,键盘,手写板和触摸屏是否有人操 作,并把结果通过网络传给服务器。固定话筒数据线连接服务器上的声卡,通过 声卡采集音频信号,检测是否有人使用固定话筒。通过对话筒,鼠标,键盘,手 写板和触摸屏信号的检测以及视频图像的运动人像检测,判断出当前教师所在的 位置,控制云台转向教师,进行变焦予以拉近拉远。
如图5所示,为本发明实施例的场景转移图。转移图中选择了 4个典型场景, 分别为
场景l:教师在讲台区域,使用话筒授课,使用手写板或鼠标或键盘使用电 脑上课件。
场景2, 3:教师在授课过程中走动。
场景4:教师走动到触摸屏附近,通过触摸屏使用电脑上的课件。 各个连续场景间的转换如场景1到场景2,场景2到场景3等主要由于教师 的运动引起。通过视频图像对于运动人像的检测,实现实时的教师跟踪。
非连续场景的切换如场景3到场景1,场景4到场景1等主要是由于上课前
期,学生在教师授课范围内走动,服务器只能检测到运动人像,而没有语音信号
和原始鼠标设备信号,无法立即自动识别哪个运动人像为主讲教师引起的。当主 讲教师开始授课,使用话筒,鼠标,键盘,手写板或触摸屏等授课用具时,服务 器就自动识别多个运动人像中离被使用的授课用具最近的运动人像为主讲教师, 将场景从错误的跟踪目标上切换到授课用具(即主讲教师)所在区域。
权利要求
1、一种基于运动检测结合多通道融合的教师运动跟踪方法,其特征在于,包括以下步骤步骤一,语音信号检测通过声卡采集音频信号,对输入的音频信号先进行高通滤波,减弱以噪音为主的信号能量,接着对音频信号进行短时处理,计算短段间的平均能量,在静音阈值作用下,判定当前状态为语音状态还是静音状态;步骤二,原始鼠标设备信号检测通过操作系统的应用程序接口实时监视鼠标动作,如果鼠标有动作,通过检测的对应原始鼠标设备的设备唯一标志号来判断是哪个原始鼠标设备有操作;步骤三,视频图像运动人像检测识别通过对图像采集卡采集的每一帧图像与混合多高斯背景模型进行背景差分,在自适应阈值作用下,得到二值化差分图,更新混合多高斯背景模型,对二值化差分图像通过腐蚀计算降低分辨率级别,通过连通区域结合运动人像先验知识搜寻运动人像区域,对每个搜寻到的运动人像区域进行色彩特征提取,与前一刻的主讲教师的区域色彩特征进行匹配,找到与主讲教师最匹配的运动人像,更新主讲教师区域色彩特征;步骤四,融合分析步骤一至三的三个通道检测结果,识别主讲教师所在位置,控制云台转向主讲教师,进行变焦予以拉近拉远;步骤五,循环步骤一到步骤四,实时跟踪运动教师。
2、 根据权利要求l所述的基于运动检测结合多通道融合的教师运动跟踪方 法,其特征是,所述的混合多高斯背景模型,具体为-背景图像的每一个像素分别用K个高斯分布模型表示其在时间域上的值概 率,即<formula>formula see original document page 2</formula>其中,K是混合高斯模型中高斯分布的个数,取3-5; xt是像素在t时刻的值,由红、绿、蓝三色分量构成;P(Xt)表示像素在t时刻值为xt,的概率,wi,t表示时 刻t混合高斯模型中第i个高斯分布的权重;ui,t和<formula>formula see original document page 2</formula>分别表示时刻t混合高斯 模型中第z'个高斯分布的均值向量和协方差矩阵;^表示高斯分布概率密度函数;<formula>formula see original document page 3</formula>其中,r表示红色分量,g表示绿色分量,6表示蓝色分量,红、绿、蓝分量相互独立;CT表示高斯分布中对应颜色分量的标准差;K个高斯分布按照权重值从大到小排序。
3、 根据权利要求l所述的基于运动检测结合多通道融合的教师运动跟踪方法,其特征是,所述的背景差分,是指对图像帧中每个像素值X,与它对应的混合高斯模型进行匹配计算,如果像素值《与K个混合高斯分布中的第/个高斯分布的均值的距离小于2. 5倍该高斯分布的标准差,则认为该像素值与这个高 斯分布匹配。
4、 根据权利要求l所述的基于运动检测结合多通道融合的教师运动跟踪方 法,其特征是,所述的更新混合多高斯背景模型,是指更新像素值对应的〖个 混合高斯分布的均值//,协方差矩阵S和权重w,其中均均值p,协方差矩阵s:更新规则为①当该像素值匹配至少一个高斯分布时对于不匹配的高斯分布,均值和 协方差矩阵保持不变,对于匹配的高斯分布的均值和协方差按下式更新<formula>formula see original document page 3</formula>其中,p为高斯分布的更新率,p取值为l,其中^m为历史匹配该高s應斯分布的图像帧数累积之和;3②当该像素值不匹配任何一个对应的混合高斯分布时,对权中最小的高斯 分布,即最不可能代表背景的高斯分布重新赋值,即y = arg, mi+,M} —,0,、,=cr02./其中,y表示最不可能代表背景的那个高斯分布,^表示初始化的各颜色 分量的标准差,/表示一个3X3的单位矩阵;权重W的更新规则为① 对于匹配的高斯分布,权重更新为= w,m +a(l-W,,—0其中a为权重的更新率;② 对于不匹配的高斯分布,权重更新为w,^(l-a)w,"其中"为权重的更新率。
5、 根据权利要求l所述的基于运动检测结合多通道融合的教师运动跟踪方法,其特征是,所述的通过腐蚀计算降低分辨率级别,是指设定分辨率降低 率为w,原二值化差分图像的连续的每一个wxw的像素点集合归一化为降低分 辨率后的新图像的一个像素点,通过降低分辨率,图像大小减小为原来的^;所谓的腐蚀计算指通过统计二值图像中每个wxn的矩阵区域中像素点值为l的个数,如果超过阈值M个,0.5. 2《M^w2,则降低分辨率后对应的像素值 为l,否则为0。
6、 根据权利要求l所述的基于运动检测结合多通道融合的教师运动跟踪方 法,其特征是,所述的运动人像区域进行色彩特征提取,是指对运动人像区 域的像素各种颜色特征进行统计,并将统计结果进行归一化,以此代表该运动 人像目标的色彩特征,颜色特征即红、绿、蓝三色分量构成的颜色表述,将每 色分量值0-255平均映射到10个子区间,则每个像素值的颜色共有10X 10X 10 =1000种可能具体表述,统计结果归一化公式为其中,A(c,)表示t时刻运动人像区域/中第/种颜色表述的像素点所占比例Htci表示t时刻运动人像区域/中第i种颜色表述的像素点个数;|/|表示运动人像区域/中像素点的个数。
7、根据权利要求l所述的基于运动检测结合多通道融合的教师运动跟踪方 法,其特征是,所述的与前一刻的主讲教师的区域色彩特征进行匹配,是指将/时刻搜寻到的每个运动人像区域与Z-l时刻的主讲教师区域的色彩特征进行比较,差异最小的运动人像区域为主讲教师的新区域,色彩特征比较公式为其中,/表示/时刻的搜寻到的第y个运动人像区域,/表示f-l时刻的跟 踪目标区域,Z)(/p/)表示,时刻的搜寻到的第7个运动人像区域与卜l时刻的主讲教师区域的色彩特征差异。
8、根据权利要求l所述的基于运动检测结合多通道融合的教师运动跟踪方法,其特征是,所述的更新主讲教师区域色彩特征,是指在卜l时刻主讲教师的色彩特征的基础上结合f时刻的与主讲教师最匹配的运动人像的色彩特征 重新定义主讲教师的色彩特征,具体更新方法为其中/f^表示跟踪目标区域的最新色彩特征;化—,表示Z-1时刻跟踪目标 区域的色彩特征;/z,表示t时刻的色彩特征;a为色彩特征的更新率,0< ^1。
9、根据权利要求l所述的基于运动检测结合多通道融合的教师运动跟踪方法,其特征是,所述的识别主讲教师所在位置,具体为当语音通道检测到语音信号时,得到结论主讲教师现在所在位置为话筒所在区域;当原始鼠标设备通道检测到原始鼠标设备信号时,得出结果主讲教师现在 所在位置为检测到的原始鼠标设备信号的对应原始鼠标设备所在的区域;5 当视频图像运动人像检测通道检测到有运动人像时,如果运动人像有多个, 通过色彩特征,找到与历史跟踪过程中的主讲教师最匹配的那个运动人像;如果 之前没有主讲教师,则检测到的运动人像中随即选择一个认为最匹配,然后根据 前一刻的主讲教师位置、语音通道结果和原始鼠标设备通道结果进行判断。
10、根据权利要求9所述的基于运动检测结合多通道融合的教师运动跟踪方 法,其特征是,所述的根据前一刻的主讲教师位置、语音通道结果和原始鼠标设 备通道结果进行判断,具体为当前一刻主讲教师位置在话筒区域或者原始鼠标设备区域,并且当前时刻检 测到的运动人像中有人在该区域,则得出结果主讲教师当前所在位置依旧为话 筒区域或者原始鼠标设备区域;如果与主讲教师最匹配的运动人像在话筒区域或 者原始鼠标设备区域,则认为该运动人像与主讲教师最匹配,否则,认为在话筒 区域或者原始鼠标设备区域的运动人像与主讲教师最匹配;当前一刻主讲教师位置在话筒区域或者原始鼠标设备区域,但是当前时刻检 测到的运动人像中没人在该区域,如果当前语音信号检测通道检测到话筒有声音 或者当前原始鼠标设备信号检测通道检测到有鼠标操作,则得出结果主讲教师 当前所在位置依旧为话筒区域或者原始鼠标设备区域;当前一刻主讲教师位置在话筒区域,原始鼠标设备区域,但是当前时刻检测 到的运动人像中没人在该区域,如果当前原始鼠标设备信号检测通道也没有检测 到鼠标操作,则得出结果主讲教师当前所在位置为最匹配的运动人像所在位置;当前一刻主讲教师位置在话筒,原始鼠标设备所在区域之外,则得出结果 主讲教师当前所在位置为最匹配的运动人像所在位置。
全文摘要
一种基于运动检测结合多通道融合的教师运动跟踪方法,步骤一,语音信号检测;步骤二,原始鼠标设备信号检测;步骤三,视频图像运动人像检测识别;步骤四,融合分析步骤一至三的三个通道检测结果,识别主讲教师所在位置,控制云台转向运动教师,进行变焦予以拉近拉远。步骤五,循环步骤一至步骤四,实时跟踪运动教师。本发明不仅能够被应用于远程教育智能教室中,还能被推广应用于电视会议、可视电话及网络会议中,能够准确实时地采集现场主讲人员的图像,传输给远端参与者,让他们获得一个临场感更强的远程交互体验。
文档编号G09B5/00GK101394479SQ20081020042
公开日2009年3月25日 申请日期2008年9月25日 优先权日2008年9月25日
发明者元 吴, 申瑞民, 罗全锋, 红 郑, 刚 陈 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1