信号处理的方法与装置的制造方法_3

文档序号:9371987阅读:来源:国知局
漏、误判的几率;第一终端输出与 用户当前语音信号匹配的用户情感状态,第一终端对应的用户根据用户情感状态控制自身 的情绪,第二终端的用户根据第一终端输出的用户情感状态,知晓对方情绪并作出通话继 续还是结束的决策,提高了用户情感状态呈现的实时性,通话双方均可互相知晓自身和对 方的情感状态。
[0084] 可选地,在本发明实施例步骤110之后还包括第一终端获取用户当前图像信号, 根据用户当前语音信号以及用户当前图像信号一同确定用户情感状态的步骤。通过该步 骤,使得第一终端在利用用户当前语音信号的基础上,还结合用户当前图像信号共同确定 用户情感状态,更加准确、快速地确定用户情感状态。具体步骤如下:
[0085] 所述第一终端获取摄像头采集的用户当前图像信号,所述摄像头与所述第一终端 连接;
[0086] 所述第一终端确定所述用户当前图像信号中脸部图像的第一特征区域的第一特 征值和第二特征区域的第二特征值;
[0087] 当所述差值不大于所述能量阈值时,所述第一终端获取与能量值最小的差值语音 信号对应的用户情感状态所匹配的第一参考特征区域的第一参考特征值和第二参考特征 区域的第二参考特征值,以及与能量值次小的差值语音信号对应的用户情感状态所匹配的 第三参考特征区域的第三参考特征值和第四参考特征区域的第四参考特征值;
[0088] 利用所述最小能量值、所述第一特征值、所述第二特征值、所述第一参考特征值和 所述第二参考特征值,所述第一终端确定能量值最小的差值语音信号的第一均方值;
[0089] 利用所述次小能量值、所述第一特征值、所述第二特征值、所述第三参考特征值和 所述第四参考特征值,所述第一终端确定能量值次小的差值语音信号的第二均方值;
[0090] 当所述第一均方值小于所述第二均方值时,所述第一终端将与能量值最小的差值 语音信号对应的用户情感状态作为与所述用户当前语音信号匹配的用户情感状态。
[0091] 具体地,第一终端获取麦克风采集的用户当前语音信号后,还获取与第一终端连 接的摄像头采集的用户当前图像信号。
[0092] 在本发明实施例中,第一终端利用现有技术的脸部识别技术将用户当前图像信号 中的脸部图像提取出,并将提取出的脸部图像的图像分辨率进行标准格式的转换。在本发 明实施例中,第一终端将脸部图像的图像分辨率转换为QCIF格式,其像素为176X144像 素。
[0093] 第一终端确定用户当前图像信号中脸部图像的第一特征区域的第一特征值和第 二特征区域的第二特征值,所述第一特征区域具体为脸部图像中用户眉毛、眼睛区域,所述 第一特征值具体为用户眉毛、眼睛区域的面积值S,所述第二特征区域具体为脸部图像中用 户嘴巴区域,所述第二特征值具体为用户嘴巴区域的面积值S';
[0094] 进一步地,第一终端确定第一特征值和第二特征值具体包括:第一终端利用现有 技术的脸部识别技术,获取脸部图像中脸部边缘的坐标信息,并将脸部图像所占的区域分 为上下两个区域,上部分区域为用户眼睛、眉毛所占区域,下部分区域为用户嘴巴所占区 域。
[0095] 第一终端在上部分区域中分别获取每个像素点的亮度信息Y'和色度信息Cr'、 Cb',获取相邻像素点的亮度信息差值Δ ,相邻像素点的色度差值ACr'、ACb';由 于用户的眉毛、眼睛、嘴巴与周边皮肤在亮度和色度上明显不一样,因此,用户的眉毛、目艮 睛、嘴巴对应的像素点和周边皮肤的像素点之间的亮度信息差值ΔΥ',色度差值ACr'、 ACb'较大。第一终端利用现有技术基于局部的锐化能量检测技术,分别确定表征用户眉 毛、眼睛的第一特征区域和表征用户嘴巴的第二特征区域,也即是获取第一特征区域、第二 特征区域的边界坐标信息。
[0096] 可以理解的是,第一终端确定的第一特征区域的数量可为1个或两个。在本发明 实施例中,以第一终端确定的第一特征区域的数量为1个进行后续说明。
[0097] 第一终端确定第一特征区域后,第一终端计算第一特征区域所占的面积值S,第一 终端利用第一特征区域的边界坐标信息(例如:如图4所示,最高点A点、最低点D点、最左 边点B点和最右边点C点对应坐标),计算第一特征区域的面积值S。所述第一特征区域的 面积值S具体通过公式一确定:
[0098] S = (c - b)*(a' 一d') (公式一)
[0099] 其中,c为最右边点横坐标;b为最左边点横坐标;a'为最1?点纵坐标;d'为最低 点纵坐标。
[0100] 同理,第一终端利用公式一计算第二特征区域的面积值S',在此不再复述。
[0101] 根据步骤120的判断,第一终端判断次小能量值与最小能量值的差值是否大于预 设的能量阈值;如果次小能量值与最小能量值的差值不大于能量阈值,则第一终端获取与 能量值最小的差值语音信号对应的用户情感状态所匹配的第一参考特征区域的第一参考 特征值和第二参考特征区域的第二参考特征值,以及与能量值次小的差值语音信号对应的 用户情感状态所匹配的第三参考特征区域的第三参考特征值和第四参考特征区域的第四 参考特征值。
[0102] 需要说明的是,在本发明实施例中,参考数据库中还存储了与每个用户情感状态 一一对应的脸部图像,且每个脸部图像与每个参考语音信号一一对应。其中,作为示例而非 限定,参考数据库中存储了 7个脸部图像,且每个脸部图像表征1个参考语音信号以及用户 情感状态。如表2所示。
[0103] 表2语音信号、情感状态与脸部图像对应表
[0104]
[0105]
[0106] 如表2所不,母个服部囹诼与1个蔘;诏·首佰亏以及用尸?肯丨恐狖态对应。在表2 中,图像1为"高兴"情感状态的参考图像,其包括的Sl为"高兴"情感状态下第一参考特 征区域的参考特征值;S' 1为"高兴"情感状态下第二参考特征区域的参考特征值。同理, 图像2-图像7所包括的特征值不再复述。
[0107] 可以理解的是,图像1中第一参考特征区域的参考特征值可为1个第一参考特征 区域的参考特征值,也可为两个第一参考特征区域的参考特征值之和。在表2中,以第一参 考特征区域的参考特征值为1个第一参考特征区域的参考特征值为例进行后续说明。
[0108] 例如,预设的能量阈值为β = 30 ;次小能量值为δ Jj = 25,最小能量值为δ 3 = 10,则次小能量值与最小能量值的差值为15,次小能量值与最小能量值的差值不大于能量 阈值,则第一终端获取与能量值最小的差值语音信号Y 3对应的用户情感状态"悲伤"所匹配 的图像3中第一参考特征区域的第一参考特征值S3和第二参考特征区域的第二参考特征 值S' 3,以及与能量值次小的差值语音信号Y5对应的用户情感状态"恐惧"所匹配的图像 5中第三参考特征区域的第三参考特征值S5和第四参考特征区域的第四参考特征值S' 5。
[0109] 第一终端利用最小能量值、第一特征值、第二特征值、第一参考特征值和第二参考 特征值,第一终端确定能量值最小的差值语音信号的第一均方值;利用次小能量值、第一特 征值、第二特征值、第三参考特征值和第四参考特征值,第一终端确定能量值次小的差值语 音信号的第二均方值。
[0110] 根据前述的例子,第一终端利用最小能量值S3、第一特征值S、第二特征值S'、第 一参考特征值S3和第二参考特征值S i 3确定能量值最小的差值语音信号Y3的第一均方 值Q3。所述第一均方值Q3具体通过公式二确定:
[0111] Q= [(I(S1)MS-S1)MS^ -S,J2]1/2 (公式二)
[0112] 其中,所述Q为第一均方值;所述K为固定系数;所述δ i为所述差值语音信号的 能量值;所述S、所述S'为特征值;所述S1、所述S' 参考特征值。
[0113] 同理,第一终端确定能量值次小的差值语音信号Y5的第二均方值Q5。
[0114] 第一终端判断第一均方值Q3是否小于第二均方值Q5,如果第一均方值Q3小于第 二均方值Q5,则第一终端将与能量值最小的差值语音信号Y 3对应的用户情感状态"悲伤" 作为与用户当前语音信号匹配的用户情感状态;如果第二均方值Q5小于第二均方值Q3,则 第一终端将与能量值次小的差值语音信号Y 5对应的用户情感状态"恐惧"作为与用户当前 语音信号匹配的用户情感状态。
[0115] 可选地,在本发明实施例步骤110之前还包括第一终端创建参考库的步骤。
[0116] 第一终端在执行步骤110之前收集多个用户的语音信号和脸部图像特征,进而建 立参考库。例如,第一终端收集的用户的语音信号包括用户在愤怒、高兴、悲伤、惊讶、厌恶、 恐惧或中性等几种状态下的语音信号和脸部图像(所述脸部图像:用户眉毛、眼睛嘴巴等 特征区域的面积)。
[0117] 需要说明的是,参考库中的脸部图像的图像格式为QCIF,其像素为176X144像 素。为减少脸部图像占用的内存,第一终端将脸部图像的特征区域的特征值进行存储后,将 原始脸部图像删除。
[0118] 实施例二
[0119] 相应地,
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1