信号处理的方法与装置的制造方法_3

文档序号：9371987阅读：来源：国知局

漏、误判的几率；第一终端输出与用户当前语音信号匹配的用户情感状态，第一终端对应的用户根据用户情感状态控制自身的情绪，第二终端的用户根据第一终端输出的用户情感状态，知晓对方情绪并作出通话继续还是结束的决策，提高了用户情感状态呈现的实时性，通话双方均可互相知晓自身和对方的情感状态。
[0084] 可选地，在本发明实施例步骤110之后还包括第一终端获取用户当前图像信号，根据用户当前语音信号以及用户当前图像信号一同确定用户情感状态的步骤。通过该步骤，使得第一终端在利用用户当前语音信号的基础上，还结合用户当前图像信号共同确定用户情感状态，更加准确、快速地确定用户情感状态。具体步骤如下：
[0085] 所述第一终端获取摄像头采集的用户当前图像信号，所述摄像头与所述第一终端连接；
[0086] 所述第一终端确定所述用户当前图像信号中脸部图像的第一特征区域的第一特征值和第二特征区域的第二特征值；
[0087] 当所述差值不大于所述能量阈值时，所述第一终端获取与能量值最小的差值语音信号对应的用户情感状态所匹配的第一参考特征区域的第一参考特征值和第二参考特征区域的第二参考特征值，以及与能量值次小的差值语音信号对应的用户情感状态所匹配的第三参考特征区域的第三参考特征值和第四参考特征区域的第四参考特征值；
[0088] 利用所述最小能量值、所述第一特征值、所述第二特征值、所述第一参考特征值和所述第二参考特征值，所述第一终端确定能量值最小的差值语音信号的第一均方值；
[0089] 利用所述次小能量值、所述第一特征值、所述第二特征值、所述第三参考特征值和所述第四参考特征值，所述第一终端确定能量值次小的差值语音信号的第二均方值；
[0090] 当所述第一均方值小于所述第二均方值时，所述第一终端将与能量值最小的差值语音信号对应的用户情感状态作为与所述用户当前语音信号匹配的用户情感状态。
[0091] 具体地，第一终端获取麦克风采集的用户当前语音信号后，还获取与第一终端连接的摄像头采集的用户当前图像信号。
[0092] 在本发明实施例中，第一终端利用现有技术的脸部识别技术将用户当前图像信号中的脸部图像提取出，并将提取出的脸部图像的图像分辨率进行标准格式的转换。在本发明实施例中，第一终端将脸部图像的图像分辨率转换为QCIF格式，其像素为176X144像素。
[0093] 第一终端确定用户当前图像信号中脸部图像的第一特征区域的第一特征值和第二特征区域的第二特征值，所述第一特征区域具体为脸部图像中用户眉毛、眼睛区域，所述第一特征值具体为用户眉毛、眼睛区域的面积值S，所述第二特征区域具体为脸部图像中用户嘴巴区域，所述第二特征值具体为用户嘴巴区域的面积值S';
[0094] 进一步地，第一终端确定第一特征值和第二特征值具体包括：第一终端利用现有技术的脸部识别技术，获取脸部图像中脸部边缘的坐标信息，并将脸部图像所占的区域分为上下两个区域，上部分区域为用户眼睛、眉毛所占区域，下部分区域为用户嘴巴所占区域。
[0095] 第一终端在上部分区域中分别获取每个像素点的亮度信息Y'和色度信息Cr'、 Cb',获取相邻像素点的亮度信息差值Δ ，相邻像素点的色度差值ACr'、ACb';由于用户的眉毛、眼睛、嘴巴与周边皮肤在亮度和色度上明显不一样，因此，用户的眉毛、目艮睛、嘴巴对应的像素点和周边皮肤的像素点之间的亮度信息差值ΔΥ'，色度差值ACr'、 ACb'较大。第一终端利用现有技术基于局部的锐化能量检测技术，分别确定表征用户眉毛、眼睛的第一特征区域和表征用户嘴巴的第二特征区域，也即是获取第一特征区域、第二特征区域的边界坐标信息。
[0096] 可以理解的是，第一终端确定的第一特征区域的数量可为1个或两个。在本发明实施例中，以第一终端确定的第一特征区域的数量为1个进行后续说明。
[0097] 第一终端确定第一特征区域后，第一终端计算第一特征区域所占的面积值S，第一终端利用第一特征区域的边界坐标信息（例如：如图4所示，最高点A点、最低点D点、最左边点B点和最右边点C点对应坐标），计算第一特征区域的面积值S。所述第一特征区域的面积值S具体通过公式一确定：
[0098] S = (c - b)*(a' 一d'）（公式一）
[0099] 其中，c为最右边点横坐标；b为最左边点横坐标；a'为最1?点纵坐标；d'为最低点纵坐标。
[0100] 同理，第一终端利用公式一计算第二特征区域的面积值S'，在此不再复述。
[0101] 根据步骤120的判断，第一终端判断次小能量值与最小能量值的差值是否大于预设的能量阈值；如果次小能量值与最小能量值的差值不大于能量阈值，则第一终端获取与能量值最小的差值语音信号对应的用户情感状态所匹配的第一参考特征区域的第一参考特征值和第二参考特征区域的第二参考特征值，以及与能量值次小的差值语音信号对应的用户情感状态所匹配的第三参考特征区域的第三参考特征值和第四参考特征区域的第四参考特征值。
[0102] 需要说明的是，在本发明实施例中，参考数据库中还存储了与每个用户情感状态一一对应的脸部图像，且每个脸部图像与每个参考语音信号一一对应。其中，作为示例而非限定，参考数据库中存储了 7个脸部图像，且每个脸部图像表征1个参考语音信号以及用户情感状态。如表2所示。
[0103] 表2语音信号、情感状态与脸部图像对应表
[0104]
[0105]
[0106] 如表2所不，母个服部囹诼与1个蔘；诏·首佰亏以及用尸?肯丨恐狖态对应。在表2 中，图像1为"高兴"情感状态的参考图像，其包括的Sl为"高兴"情感状态下第一参考特征区域的参考特征值；S' 1为"高兴"情感状态下第二参考特征区域的参考特征值。同理，图像2-图像7所包括的特征值不再复述。
[0107] 可以理解的是，图像1中第一参考特征区域的参考特征值可为1个第一参考特征区域的参考特征值，也可为两个第一参考特征区域的参考特征值之和。在表2中，以第一参考特征区域的参考特征值为1个第一参考特征区域的参考特征值为例进行后续说明。
[0108] 例如，预设的能量阈值为β = 30 ;次小能量值为δ Jj = 25,最小能量值为δ 3 = 10,则次小能量值与最小能量值的差值为15,次小能量值与最小能量值的差值不大于能量阈值，则第一终端获取与能量值最小的差值语音信号Y 3对应的用户情感状态"悲伤"所匹配的图像3中第一参考特征区域的第一参考特征值S3和第二参考特征区域的第二参考特征值S' 3,以及与能量值次小的差值语音信号Y5对应的用户情感状态"恐惧"所匹配的图像 5中第三参考特征区域的第三参考特征值S5和第四参考特征区域的第四参考特征值S' 5。
[0109] 第一终端利用最小能量值、第一特征值、第二特征值、第一参考特征值和第二参考特征值，第一终端确定能量值最小的差值语音信号的第一均方值；利用次小能量值、第一特征值、第二特征值、第三参考特征值和第四参考特征值，第一终端确定能量值次小的差值语音信号的第二均方值。
[0110] 根据前述的例子，第一终端利用最小能量值S3、第一特征值S、第二特征值S'、第一参考特征值S3和第二参考特征值S i 3确定能量值最小的差值语音信号Y3的第一均方值Q3。所述第一均方值Q3具体通过公式二确定：
[0111] Q= [(I(S1)MS-S1)MS^ -S，J2]1/2 (公式二）
[0112] 其中，所述Q为第一均方值；所述K为固定系数；所述δ i为所述差值语音信号的能量值；所述S、所述S'为特征值；所述S1、所述S' 参考特征值。
[0113] 同理，第一终端确定能量值次小的差值语音信号Y5的第二均方值Q5。
[0114] 第一终端判断第一均方值Q3是否小于第二均方值Q5,如果第一均方值Q3小于第二均方值Q5,则第一终端将与能量值最小的差值语音信号Y 3对应的用户情感状态"悲伤" 作为与用户当前语音信号匹配的用户情感状态；如果第二均方值Q5小于第二均方值Q3,则第一终端将与能量值次小的差值语音信号Y 5对应的用户情感状态"恐惧"作为与用户当前语音信号匹配的用户情感状态。
[0115] 可选地，在本发明实施例步骤110之前还包括第一终端创建参考库的步骤。
[0116] 第一终端在执行步骤110之前收集多个用户的语音信号和脸部图像特征，进而建立参考库。例如，第一终端收集的用户的语音信号包括用户在愤怒、高兴、悲伤、惊讶、厌恶、恐惧或中性等几种状态下的语音信号和脸部图像（所述脸部图像：用户眉毛、眼睛嘴巴等特征区域的面积）。
[0117] 需要说明的是，参考库中的脸部图像的图像格式为QCIF，其像素为176X144像素。为减少脸部图像占用的内存，第一终端将脸部图像的特征区域的特征值进行存储后，将原始脸部图像删除。
[0118] 实施例二
[0119] 相应地，

完整全部详细技术资料下载

当前第3页1 2 3 4 5