一种适用于中文的自动唇语识别系统的制作方法

文档序号:7624608阅读:3379来源:国知局
专利名称:一种适用于中文的自动唇语识别系统的制作方法
技术领域
本发明涉及一种自动唇语识别系统,特别涉及一种适用于中文的自动唇语识别系 统,属于自动唇语识别技术领域。
背景技术
唇语识别或唇读是人机交互(Human-Computer Interaction, HCI)中很引人注目 的领域,它在自动语言识别(Automatic Speech Recognition, ASR)系统中起着重要作用。 人类语言感知是一个很自然的多模态过程。听力受损的人群会充分利用唇语的提示,即使 正常人也可以利用视觉信息来增强对语言的理解,特别是在嘈杂环境中。利用视觉通道的 信息会有效地提高现代自动语言识别系统的性能和鲁棒性。唇语识别任务一般包含三个主要步骤①在发音图像序列中检测脸部及唇部区 域;②从唇部区域提取适合分类的特征;③使用唇部区域特征进行唇语识别。针对第①步,已有方法中主要使用图像处理的算法来定位脸部及唇部区域,此类 方法容易受到光照、角度、旋转、遮挡等影响,会产生一定误差。第②步中提到的唇语特征,在已有的文献中分为三大类(1)低层的基于纹理的 特征;(2)高层的基于轮廓的特征;(3)前二者的组合。这些特征中,基于轮廓的特征中的唇 部几何特征(如唇的高度、宽度、角度)以及唇部运动特征被认为是最可用的视觉信息。关 于唇形轮廓线分割的大量近期工作都使用了可变形模板(deformable model),其中一种有 效方法就是使用Snake模型和改进的Snake模型,如梯度矢量流(Gradient Vector Flow, GVF) Snake模型、虚拟静电场(Virtual Electric Field,VEF) Snake模型、卷积虚拟静电场 (Convolutional Virtual Electric Field, Convolutional VEF) Snake 模型。相比较而言, 卷积虚拟静电场Snake模型通过使用虚拟静电场(virtual electric field, VEF)作为外 力(external force),以及使用卷积(convolution)机制,该模型可以更快速准确地定位 唇部轮廓。在第③步使用唇部区域特征进行唇语识别中,广泛使用的分类方法是隐马尔科夫 模型(hidden markov model (HMM))0隐马尔科夫模型在语言识别中很有用,因为它可以自 然地对语言的时域特性进行建模。但是考虑到语言的本质属性,隐马尔科夫模型的分段式
及依I^t生白勺 段设(the piece-wise stationary and independence assumptions) 是该模型的两个局限。本发明中使用到的一项重要的已有技术是基于卷积虚拟静电场Snake模型的唇 形跟踪算法。吕坤等人在文献《基于卷积虚拟静电场Snake模型的唇形跟踪算法》(第六届和谐 人机环境联合学术会议,2010)中公开了基于卷积虚拟静电场Snake模型的唇形跟踪算法 的详细设计。本发明使用到的另外一项重要的已有技术是典型相关判别分析 (Discriminative Analysis of Canonical Correlation, DCC)方法。
6
T.-K. Kim 等人在文献〈〈Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations)) (IEEE Transactions On Pattern Analysis And Machine Intelligence, Vol. 29,No. 6 (2007))中公开了典型相关判别分析方法的操作 步骤。该方法中通过引入一个变换矩阵T来最大化同类数据集(within-class sets)的相 似度(用典型相关系数和表示),最小化异类数据集(between-class sets)的相似度,以达 到更好的识别效果。近年来典型相关判别分析方法已被成功地应用于图像集匹配、人脸或物体识别等 领域,因此将典型相关判别分析方法用于解决唇语识别问题从理论上讲是一个简单而有效 的方法。但是,目前为止,还未查找到将典型相关判别分析方法用于自动唇语识别识别中的 相关文献及实际应用。

发明内容
本发明的目的是为了克服已有技术存在的不足,提出了一种适用于中文的自动唇 语识别系统。本发明的目的是通过下述技术方案实现的。一种适用于中文的自动唇语识别系统,包括头戴式摄像头、人机交互模块、唇部 轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获 取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。其连接关系为头戴式摄像头的输出端与人机交互模块的输入端连接;人机交互 模块的输出端与唇部轮廓定位模块的输入端连接;唇部轮廓定位模块的输出端与几何向量 获取模块的输入端连接;几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造 模块的输入端连接;运动向量获取模块的输出端与特征矩阵构造模块的输入端连接;特征 矩阵构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接;变 换矩阵T获取模块与存储器A连接;转换特征矩阵获取模块与存储器A和存储器B连接;存 储器A和存储器B还与典型相关判别分析模块的输入端连接;典型相关判别分析模块的输 出端与人机交互模块的输入端连接。各模块及设备的主要功能是头戴式摄像头的主要功能是获取被试者发出的汉字发音图像序列。人机交互模块的主要功能是①提供一个闭合轮廓曲线,以供被试者调整头戴式 摄像头的位置,使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中。 ②获取头戴式摄像头拍摄的汉字发音图像序列;③对典型相关判别分析模块的结果进行输出。唇部轮廓定位模块的主要功能是使用吕坤等人在文献《基于卷积虚拟静电场 Snake模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图 像上的唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。几何向量获取模块的主要功能是从唇部轮廓定位模块输出的汉字发音图像序列 中的每帧图像的唇部轮廓曲线中获取唇部几何特征向量;并且为了弥补不同被试者之间的 唇形差异以及图像缩放比例差异,对唇部几何特征向量做归一化操作,得到归一化操作后 的唇部几何特征向量,并输出至运动向量获取模块和特征矩阵构造模块。
运动向量获取模块的主要功能是以经过归一化操作的唇部几何特征向量为基 础,构造每帧图像的唇部运动特征向量,然后将唇部运动特征向量输出至特征矩阵构造模 块。特征矩阵构造模块的主要功能是构造汉字发音图像序列的特征矩阵,然后将汉 字发音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块。变换矩阵T获取模块的主要功能是针对训练数据的汉字发音图像序列的特征矩 阵,米用 T.-K. Kim等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations)) (IEEE Transactions On Pattern Analysis And Machine Intelligence, Vol. 29,No. 6 (2007))中提出的典型相关判别分析方法进行处理, 得到变换矩阵T,并将其存储到存储器A。转换特征矩阵获取模块的主要功能是使用变换矩阵T依次对训练数据的汉字发 音图像序列的特征矩阵进行转换,得到转换特征矩阵,并将训练数据的汉字发音图像序列 的转换特征矩阵存储到存储器A。存储器A 存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵。存储器B 存储测试数据的汉字发音图像序列的转换特征矩阵。典型相关判别分析模块从存储器B中获取当前测试数据的转换特征矩阵与存储 器A中的每个训练数据的转换特征矩阵的典型相关系数和,然后进一步对这些典型相关系 数和进行处理,获得当前测试数据的识别结果,并将该识别结果输出到人机交互模块。所述自动唇语识别系统的工作过程分为系统训练过程和系统测试过程系统训练过程的工作流程为步骤1. 1 选取m个汉字作为训练数据,m彡5且m为正整数;步骤1. 2 人机交互模块显示一个闭合轮廓曲线。步骤1. 3 被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置, 使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头 戴式摄像头的位置,使得被试者的唇部区域被包含在步骤1. 2中所述的闭合轮廓曲线中。步骤1. 4 被试者以每秒钟1个汉字的语速对步骤1. 1中所述的m个汉字进行发 音,同时头戴式摄像头的拍摄速度为每秒η帧,η ^ 25且η为正整数;因此每个汉字发音的 视频流由η帧图像序列组成;将一个汉字的η帧图像序列称为一个汉字发音图像序列;头 戴式摄像头将拍摄的汉字发音图像序列发送至人机交互模块。步骤1. 5 人机交互模块将步骤1. 2中所述闭合轮廓曲线和步骤1. 4中所述的头 戴式摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块。步骤1. 6 唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模 型的唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部 轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块。其中对每个汉字发音 图像序列中的第一个图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线 采用人机交互模块提供的闭合轮廓曲线;对该汉字发音图像序列中的其它图像的唇部轮廓 进行定位时,卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结 果曲线。步骤1. 7 几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中获取唇部几何特征向量,用gi表示,i表示一个汉字发音图像序列中各帧图像的顺序 号,1 < i < η且i为正整数;并且为了弥补不同被试间的唇形差异以及图像缩放比例差异, 对唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用gi'表 示;然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模 块。获取经过归一化操作后的唇部几何特征向量的具体操作步骤为步骤1. 7. 1 计算唇部轮廓曲线水平方向的极值,得到左右嘴角的点坐标。步骤1. 7. 2 将左右嘴角两点用一条直线相连,以左右嘴角点的中点为圆心,称该 圆心为点0,按顺时针方向旋转该直线5次,每次旋转30度;每旋转一次将会得到直线与唇 形曲线相交的两条线段,总共得到12条线段,从左嘴角开始按顺时针顺序分别用L1 L12表 示这12条线段的长度,称该12条线段的长度L1 L12为辐射向量;将左右嘴角两点间的直 线旋转90度时,与唇形曲线相交的上交点和下交点分别成为点A和点B。步骤1. 7. 3 从左右嘴角两点中任选一点,称该点为点Q,将点Q分别与点A和点B 用直线相连;Z AQO用Q1表示,Z BQO用θ 2表示,可根据L1 L12,得到Q1* θ 2的角度, 进而得到θ工和θ 2的余弦值;步骤1. 7. 4 =L1 L12以及θ i和θ 2的余弦值就构成了一帧图像中的唇部几何特 征向量;由于1^和L7是连接左右嘴角线段长度的一半,所以它们的值相等,因此在唇部几何 特征向量中去掉L7,即一帧图像中的唇部几何特征向量gi = [L1, -,L6, L8,…L12,Cosei,
COS θ 2]1 ;步骤1.7.5 为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部 几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用gi'表示; gi'是一个 13 维横向量,gi' = [L1',…,L6',L8',…L12',cose” C0s θ 2];其中,
Lj-LjZL^'J = 1'2,…6,8,…,12,是一个汉字发音图像序列的第一帧图像中
左右嘴角间距离。步骤1.8 运动向量获取模块以经过归一化操作的唇部几何特征向量为基础,构 造每帧图像的唇部运动特征向量(用Pi表示),Pi是一个13维横向量,Pi= (gi' _gi_/ )/ At,其中,g/ = g/,At是两个连续帧的时间间隔;然后将唇部运动特征向量Pi输出至 特征矩阵构造模块;步骤1. 9 特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵(用 Zf表示,其中f表示训练数据的汉字发音图像序列的顺序号,1 < f < m且f为正整数),然 后将训练数据的汉字发音图像序列的特征矩阵Zf分别输出至变换矩阵T获取模块和转换 特征矩阵获取模块。构造汉字发音图像序列的特征矩阵的具体操作步骤为步骤1. 9. 1 依次对汉字发音图像序列中的每帧图像作如下操作将唇部几何特 征向量与唇部运动特征向量相连接,形成联合特征向量(用Vi表示),Vi是一个26维列向
S^vj =[gl'1,pir ;步骤1.9.2 汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图 像的联合特征向量Vi组合而成,因此训练数据的汉字发音图像序列的特征矩阵Zf = Iv1, 步骤1. 10 变换矩阵T获取模块针对m个训练数据的汉字发音图像序列的特征矩 阵Zf,采用T. -K. Kim等人提出的典型相关判别分析方法进行处理,得到变换矩阵T e R26xr,r < 26,且r为正整数,R表示实数,并将变换矩阵T存储到存储器A。步骤1. 11 转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵 T依次对训练数据的汉字发音图像序列的特征矩阵Zf进行转换,得到转换特征矩阵Zf'= τ%,并训练数据的汉字发音图像序列的转换特征矩阵Zf'存储到存储器Α。经过上述步骤的操作,即可完成对所述自动唇语识别系统的训练。系统测试过程的工作流程为步骤2. 1 从m个训练数据中选取m'个汉字作为测试数据,m' Sm且m'为正整数。步骤2. 2 人机交互模块显示一个闭合轮廓曲线。步骤2. 3 被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置, 使其直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头 戴式摄像头的位置,使得被试者的唇部区域被包含在步骤2. 2中所述的闭合轮廓曲线中。步骤2. 4 被试者以每秒钟1个汉字的语速对步骤2. 1中所述的m'个汉字进行发 音,同时头戴式摄像头的拍摄速度为每秒η帧;因此每个汉字发音的视频流由η帧图像序列 组成;将一个汉字的η帧图像序列称为一个汉字发音图像序列;头戴式摄像头将拍摄的汉 字发音图像序列发送至人机交互模块。步骤2. 5 人机交互模块将步骤2. 2中所述闭合轮廓曲线和步骤2. 4中所述的汉 字发音图像序列发送至唇部轮廓定位模块。步骤2. 6 与系统训练过程中的步骤1. 6的操作相同。步骤2. 7 与系统训练过程中的步骤1. 7的操作相同。步骤2. 8 与系统训练过程中的步骤1. 8的操作相同。步骤2. 9 特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵(用 Ze表示,其中e表示测试数据的汉字发音图像序列的顺序号,l^e^m'且e为正整数), 然后将测试数据的汉字发音图像序列的特征矩阵Ze输出至转换特征矩阵获取模块。构造 汉字发音图像序列的特征矩阵的具体操作步骤为步骤2. 9. 1 依次对汉字发音图像序列中的每帧图像作如下操作将唇部几何 特征向量与唇部运动特征向量相连接,形成联合特征向量Vi,Vi是一个26维列向量,
PtiT;步骤2.9.2 汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图 像的联合特征向量Vi组合而成,因此测试数据的汉字发音图像序列的特征矩阵Ze = Iv1,
权利要求
1. 一种适用于中文的自动唇语识别系统,包括头戴式摄像头、人机交互模块、唇部轮 廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取 模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块;其连接关系为头戴式摄像头的输出端与人机交互模块的输入端连接;人机交互模块 的输出端与唇部轮廓定位模块的输入端连接;唇部轮廓定位模块的输出端与几何向量获取 模块的输入端连接;几何向量获取模块的输出端与运动向量获取模块和特征矩阵构造模块 的输入端连接;运动向量获取模块的输出端与特征矩阵构造模块的输入端连接;特征矩阵 构造模块的输出端与变换矩阵T获取模块和转换特征矩阵获取模块的输入端连接;变换矩 阵T获取模块与存储器A连接;转换特征矩阵获取模块与存储器A和存储器B连接;存储 器A和存储器B还与典型相关判别分析模块的输入端连接;典型相关判别分析模块的输出 端与人机交互模块的输入端连接; 各模块及设备的主要功能是头戴式摄像头的主要功能是获取被试者发出的汉字发音图像序列; 人机交互模块的主要功能是①提供一个闭合轮廓曲线,以供被试者调整头戴式摄像 头的位置,使得头戴式摄像头获取的被试者的唇部区域被包含在该闭合轮廓曲线中;②获 取头戴式摄像头拍摄的汉字发音图像序列;③对典型相关判别分析模块的结果进行输出; 唇部轮廓定位模块的主要功能是使用吕坤等人在文献《基于卷积虚拟静电场Snake 模型的唇形跟踪算法》中提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的 唇部轮廓进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块;几何向量获取模块的主要功能是从唇部轮廓定位模块输出的汉字发音图像序列中的 每帧图像的唇部轮廓曲线中获取唇部几何特征向量;并且为了弥补不同被试者之间的唇形 差异以及图像缩放比例差异,对唇部几何特征向量做归一化操作,得到归一化操作后的唇 部几何特征向量,并输出至运动向量获取模块和特征矩阵构造模块;运动向量获取模块的主要功能是以经过归一化操作的唇部几何特征向量为基础,构 造每帧图像的唇部运动特征向量,然后将唇部运动特征向量输出至特征矩阵构造模块;特征矩阵构造模块的主要功能是构造汉字发音图像序列的特征矩阵,然后将汉字发 音图像序列的特征矩阵输出至变换矩阵T获取模块和转换特征矩阵获取模块;变换矩阵T获取模块的主要功能是针对训练数据的汉字发音图像序列的特征矩阵, 米用 T.-K. Kim 等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》中提出的典型相关判别分析方法进行处理,得到 变换矩阵T,并将其存储到存储器A ;转换特征矩阵获取模块的主要功能是使用变换矩阵T依次对训练数据的汉字发音图 像序列的特征矩阵进行转换,得到转换特征矩阵,并将训练数据的汉字发音图像序列的转 换特征矩阵存储到存储器A ;存储器A 存储变换矩阵T以及训练数据的汉字发音图像序列的转换特征矩阵; 存储器B 存储测试数据的汉字发音图像序列的转换特征矩阵; 典型相关判别分析模块从存储器B中获取当前测试数据的转换特征矩阵与存储器A 中的每个训练数据的转换特征矩阵的典型相关系数和,然后进一步对这些典型相关系数和 进行处理,获得当前测试数据的识别结果,并将该识别结果输出到人机交互模块;所述自动唇语识别系统的工作过程分为系统训练过程和系统测试过程 系统训练过程的工作流程为步骤1. 1 选取m个汉字作为训练数据,m彡5且m为正整数; 步骤1. 2 人机交互模块显示一个闭合轮廓曲线;步骤1. 3 被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其 直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式 摄像头的位置,使得被试者的唇部区域被包含在步骤1. 2中所述的闭合轮廓曲线中;步骤1. 4 被试者以每秒钟1个汉字的语速对步骤1. 1中所述的m个汉字进行发音,同 时头戴式摄像头的拍摄速度为每秒η帧,η > 25且η为正整数;因此每个汉字发音的视频 流由η帧图像序列组成;将一个汉字的η帧图像序列称为一个汉字发音图像序列;头戴式 摄像头将拍摄的汉字发音图像序列发送至人机交互模块;步骤1. 5 人机交互模块将步骤1. 2中所述闭合轮廓曲线和步骤1. 4中所述的头戴式 摄像头拍摄的汉字发音图像序列发送至唇部轮廓定位模块;步骤1. 6 唇部轮廓定位模块使用吕坤等人在文献《基于卷积虚拟静电场Snake模型的 唇形跟踪算法》提出的唇形跟踪算法依次对汉字发音图像序列中的每帧图像上的唇部轮廓 进行定位,得到唇部轮廓曲线,并将其输出至几何向量获取模块;其中对每个汉字发音图像 序列中的第一个图像的唇部轮廓进行定位时,卷积虚拟静电场Snake模型的初始曲线采用 人机交互模块提供的闭合轮廓曲线;对该汉字发音图像序列中的其它图像的唇部轮廓进行 定位时,卷积虚拟静电场Snake模型的初始曲线采用该图像的前一图像的唇部定位结果曲 线.一入 ,步骤1. 7 几何向量获取模块依次从汉字发音图像序列中每帧图像的唇部轮廓曲线中 获取唇部几何特征向量,用gi表示,i表示一个汉字发音图像序列中各帧图像的顺序号, 1 < i < η且i为正整数;并且为了弥补不同被试间的唇形差异以及图像缩放比例差异,对 唇部几何特征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用g/表示; 然后将归一化操作后的唇部几何特征向量输出至运动向量获取模块和特征矩阵构造模块; 获取经过归一化操作后的唇部几何特征向量的具体操作步骤为步骤1. 7. 1 计算唇部轮廓曲线水平方向的极值,得到左右嘴角的点坐标; 步骤1. 7. 2 将左右嘴角两点用一条直线相连,以左右嘴角点的中点为圆心,称该圆心 为点0,按顺时针方向旋转该直线5次,每次旋转30度;每旋转一次将会得到直线与唇形曲 线相交的两条线段,总共得到12条线段,从左嘴角开始按顺时针顺序分别用L1 L12表示 这12条线段的长度,称该12条线段的长度L1 L12为辐射向量;将左右嘴角两点间的直线 旋转90度时,与唇形曲线相交的上交点和下交点分别成为点A和点B ;步骤1. 7. 3 从左右嘴角两点中任选一点,称该点为点Q,将点Q分别与点A和点B用直 线相连;Z AQO用Q1表示,Z BQO用θ 2表示,可根据L1 L12,得到Q1* θ 2的角度,进 而得到θ工和θ 2的余弦值;步骤1. 7. 4 =L1 L12以及θ工和θ 2的余弦值就构成了一帧图像中的唇部几何特征向 量;由于L1和L7是连接左右嘴角线段长度的一半,所以它们的值相等,因此在唇部几何特 征向量中去掉L7,即一帧图像中的唇部几何特征向量& = [L1,…,L6, L8,…L12,Cosei,COS θ 2]1 ;步骤1. 7. 5 为了弥补不同被试间的唇形差异以及图像缩放比例差异,对唇部几何特 征向量gi做归一化操作,得到归一化操作后的唇部几何特征向量,用g/表示;g/是一个 13 维横向量,g/ = [L1',-,L6',L8',…L12' ,CoseijCose2];其中,Uj = Lj/Lramer,j = 1,2,…6,8,…,12,E^;是一个汉字发音图像序列的第一帧图像中左右嘴角间距离; 步骤1.8 运动向量获取模块以经过归一化操作的唇部几何特征向量为基础,构造每 帧图像的唇部运动特征向量,用Pi表示,Pi是一个13维横向量,Pi = (g/ _gi_/ )/At, 其中,g/ = gl',At是两个连续帧的时间间隔;然后将唇部运动特征向量Pi输出至特征 矩阵构造模块;步骤1. 9 特征矩阵构造模块构造训练数据的汉字发音图像序列的特征矩阵,用Zf表 示,其中f表示训练数据的汉字发音图像序列的顺序号,1 < f < m且f为正整数;然后将 训练数据的汉字发音图像序列的特征矩阵Zf分别输出至变换矩阵T获取模块和转换特征 矩阵获取模块;构造汉字发音图像序列的特征矩阵的具体操作步骤为步骤1. 9. 1 依次对汉字发音图像序列中的每帧图像作如下操作将唇部几何特征 向量与唇部运动特征向量相连接,形成联合特征向量,用Vi表示,Vi是一个26维列向量, Vi=EgZt5Pllt5步骤1. 9. 2 汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联 合特征向量Vi组合而成,因此训练数据的汉字发音图像序列的特征矩阵Zf = Iv1, V2,...,vn} e R26xn ;步骤1. 10:变换矩阵T获取模块针对m个训练数据的汉字发音图像序列的特征矩阵 Zf,采用T. -K. Kim等人提出的典型相关判别分析方法进行处理,得到变换矩阵T e R26xr, r < 26,且r为正整数,R表示实数,并将变换矩阵T存储到存储器A ;步骤1. 11 转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T依 次对训练数据的汉字发音图像序列的特征矩阵4进行转换,得到转换特征矩阵Zf' = Τ%, 并训练数据的汉字发音图像序列的转换特征矩阵Zf'存储到存储器A ; 经过上述步骤的操作,即可完成对所述自动唇语识别系统的训练; 系统测试过程的工作流程为步骤2.1:从m个训练数据中选取m'个汉字作为测试数据,m'≤!!!且!!!'为正整数; 步骤2. 2 人机交互模块显示一个闭合轮廓曲线;步骤2. 3 被试人将头戴式摄像头固定在头部;被试人调整头戴式摄像头的位置,使其 直接拍摄被试脸的下半部分,拍摄图像发送至人机交互模块显示;被试人再次调整头戴式 摄像头的位置,使得被试者的唇部区域被包含在步骤2. 2中所述的闭合轮廓曲线中;步骤2. 4 被试者以每秒钟1个汉字的语速对步骤2. 1中所述的m'个汉字进行发音, 同时头戴式摄像头的拍摄速度为每秒η帧;因此每个汉字发音的视频流由η帧图像序列组 成;将一个汉字的η帧图像序列称为一个汉字发音图像序列;头戴式摄像头将拍摄的汉字 发音图像序列发送至人机交互模块;步骤2. 5 人机交互模块将步骤2. 2中所述闭合轮廓曲线和步骤2. 4中所述的汉字发 音图像序列发送至唇部轮廓定位模块;步骤2. 6 与系统训练过程中的步骤1. 6的操作相同;步骤2. 7 与系统训练过程中的步骤1. 7的操作相同; 步骤2. 8 与系统训练过程中的步骤1. 8的操作相同;步骤2. 9 特征矩阵构造模块构造测试数据的汉字发音图像序列的特征矩阵,用Ze表 示,其中e表示测试数据的汉字发音图像序列的顺序号,l^e^m'且e为正整数;然后将 测试数据的汉字发音图像序列的特征矩阵Ze输出至转换特征矩阵获取模块;构造汉字发音 图像序列的特征矩阵的具体操作步骤为步骤2. 9. 1 依次对汉字发音图像序列中的每帧图像作如下操作将唇部几何特 征向量与唇部运动特征向量相连接,形成联合特征向量Vi,Vi是一个26维列向量, ν, ^^,'',Ρ]1;步骤2. 9.2 汉字发音图像序列的特征矩阵由该汉字发音图像序列中的每帧图像的联 合特征向量Vi组合而成,因此测试数据的汉字发音图像序列的特征矩阵Ze = Iv1, V2,...,vn} e R26xn ;步骤2. 10 转换特征矩阵获取模块从存储器A中读取变换矩阵T,并使用变换矩阵T对 测试数据的汉字发音图像序列的特征矩阵Ze进行转换,得到转换特征矩阵^ =TTZe,并将 测试数据的汉字发音图像序列的转换特征矩阵V存储到存储器B ;步骤2. 11 典型相关判别分析模块从存储器A中读取全部训练数据的转换特征矩阵 Zf',从存储器B中读取当前测试数据的汉字发音图像序列的转换特征矩阵Z/,然后采 用 T.-K. Kim 等人在文献《Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations》中提出的典型相关判别分析方法计算该测试数 据的转换特征矩阵^与每个训练数据的转换特征矩阵Zf'的典型相关系数和;由于训练 数据中可能存在重复的汉字,因此同一个汉字对应的典型相关系数和有1个或1个以上,所 以进一步计算出训练数据中的每个汉字对应的典型相关系数和的平均值,并从这些平均值 中取出最大值,将该最大值在训练数据中对应的汉字输出到人机交互模块; 步骤2. 12 人机交互模块显示典型相关判别分析模块传输过来的汉字; 经过上述步骤,即可完成对测试数据的自动分类识别。
全文摘要
一种自动唇语识别系统,包括头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵T获取模块、转换特征矩阵获取模块、存储器A、存储器B、典型相关判别分析模块。头戴式摄像头用来录制汉字发音图像序列,通过人机交互模块传输至唇部轮廓定位模块,其使用卷积虚拟静电场Snake模型从中检测及跟踪唇部轮廓;几何向量获取模块和运动向量获取模块从唇部轮廓中分别提取出几何和运动特征,并将它们联合起来作为典型相关判别分析模块的输入特征矩阵;典型相关判别分析模块计算特征矩阵间的相似度,处理后获取识别结果。本发明系统与已有唇语识别系统相比较,具有更高的识别准确率。
文档编号H04N7/18GK102004549SQ20101055825
公开日2011年4月6日 申请日期2010年11月22日 优先权日2010年11月22日
发明者吕坤, 张欣, 贾云得 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1