多模态说话人身份识别方法、装置和设备与流程

文档序号：28427951发布日期：2022-01-12 00:38阅读：来源：国知局

技术特征：
1.一种多模态说话人身份识别方法，其特征在于，所述方法包括：获取会话场景的视频数据和音频数据；对所述视频数据进行人脸检测和唇形检测，得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列；根据所述参会人的所述唇形框序列和所述音频数据，确定所有参会人中的说话人和所述说话人对应的音频数据；根据所述说话人的所述人脸框数据提取所述说话人的视觉特征，并根据所述说话人对应的音频数据提取所述说话人的音频特征；根据所述视觉特征和所述音频特征对所述说话人进行身份识别。2.根据权利要求1所述的方法，其特征在于，所述根据所述参会人的所述唇形框序列和所述音频数据，确定所有参会人中的说话人和所述说话人对应的音频数据，包括：以滑窗方式将所述会话场景的音频数据输入到训练好的多模态说话人检测模型；针对每个滑窗内的音频数据，由所述训练好的多模态说话人检测模型轮询所有参会人的所述子视频数据中的唇形框序列，以确定与每个滑窗内的音频数据对应的说话人。3.根据权利要求2所述的方法，其特征在于，所述轮询所有参会人的所述子视频数据中的唇形框序列，确定与每个滑窗内的音频数据对应的说话人，包括：对每个所述参会人的子视频数据的每一帧数据执行如下操作：将所述一帧数据之前的m帧数据、所述一帧数据以及所述一帧数据之后的m帧数据中的唇形框序列输入到所述训练好的多模态说话人检测模型，其中m为大于0的自然数；由所述多模态说话人检测模型对所述唇形框序列提取视觉特征，对所述滑窗内的音频数据提取音频特征，将所述视频特征和所述音频特征拼接融合后提取时序联系，输出所述一帧数据的语音激活检测得分，以确定所述参会人是否为所述滑窗内的音频数据对应的说话人。4.根据权利要求3所述的方法，其特征在于，所述多模态说话人检测模型包括视频特征提取网络、音频特征提取网络和长短时记忆网络。5.根据权利要求1所述的方法，其特征在于，所述根据所述视觉特征和所述音频特征对所述说话人进行身份识别，包括：将所述视觉特征和所述音频特征分别与数据库中特征匹配，得到所述视觉特征的匹配结果和所述音频特征的匹配结果；根据所述视觉特征的匹配结果和所述音频特征的匹配结果确定多模态融合策略，并根据所确定的多模态融合策略得到所述说话人的身份识别结果；其中，所述多模态融合策略包括：根据所述视觉特征的匹配结果和所述音频特征的匹配结果这两者来确定所述说话人的身份识别结果；或者，根据所述视觉特征的匹配结果和所述音频特征的匹配结果这两者中的一者来确定所述说话人的身份识别结果。6.根据权利要求1或5所述的方法，其特征在于，所述根据所述视觉特征和所述音频特征对所述说话人进行身份识别，包括：将所述视觉特征与第一数据库中的特征进行匹配，得到与所述视觉特征匹配的前n个身份标识以及与每个所述身份标识对应的视觉相似度，其中n为自然数，且n大于或等于1；将所述音频特征与第二数据库中的特征进行匹配，得到与所述音频特征匹配的前n个
身份标识以及与每个所述身份标识对应的音频相似度，其中n为自然数，且n大于或等于1；所述根据所述视觉特征的匹配结果和所述音频特征的匹配结果确定多模态融合策略，并根据所确定的多模态融合策略得到所述说话人的身份识别结果，包括：当与所述视觉特征匹配的前n个身份标识和与所述音频特征匹配的前n个身份标识中存在相同的身份标识时，对于所述相同的身份标识中的每个身份标识，计算与所述身份标识对应的视觉相似度和音频相似度的加权平均值，并将所述相同的身份标识中具有最大所述加权平均值的身份标识确定为所述说话人的身份识别结果；当与所述视觉特征匹配的前n个身份标识和与所述音频特征匹配的前n个身份标识中不存在相同的身份标识时，确定所述视觉相似度和所述音频相似度中的最大值，并将所述最大值对应的身份标识确定为所述说话人的身份识别结果。7.根据权利要求1所述的方法，其特征在于，所述根据所述说话人的所述人脸框数据提取所述说话人的视觉特征，包括：对所述说话人的所述子视频数据中的每个人脸框进行特征提取，得到所述每个人脸框的视觉特征；将所述说话人的所述子视频数据中的所有人脸框的视觉特征进行平均，得到所述说话人的视觉特征。8.根据权利要求1所述的方法，其特征在于，所述根据所述说话人对应的音频数据提取所述说话人的音频特征，包括：对所述说话人对应的音频数据进行滑窗处理；对各个滑窗内的音频数据提取音频特征；将所述说话人对应的音频数据的所有滑窗内的音频数据的音频特征进行平均，得到所述说话人的音频特征。9.根据权利要求1所述的方法，其特征在于，所述视频数据和音频数据是整个会议的视频数据和音频数据，或者，所述视频数据和所述音频数据是会议过程中实时采集的数据。10.一种多模态说话人身份识别装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行如权利要求1-9中的任一项所述的多模态说话人身份识别方法。11.一种多模态说话人身份识别设备，其特征在于，所述设备包括图像采集装置、拾音装置和权利要求10所述的多模态说话人身份识别装置，其中所述图像采集装置用于采集会议视频数据，所述拾音装置用于采集会议音频数据，所述多模态说话人身份识别装置用于基于所述会议视频数据和所述会议音频数据执行多模态说话人身份识别。12.根据权利要求11所述的设备，其特征在于，所述拾音装置为单通道麦克风阵列。13.一种存储介质，其特征在于，所述存储介质上存储有程序指令，在所述程序指令被计算机或处理器运行时执行如权利要求1-9中的任一项所述的多模态说话人身份识别方法。

技术总结
本发明公开一种多模态说话人身份识别方法、装置和设备，该方法包括：获取会话场景的视频数据和音频数据；对所述视频数据进行人脸检测和唇形检测，得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列；根据所述参会人的所述唇形框序列和所述音频数据，确定所有参会人中的说话人和所述说话人对应的音频数据；根据所述说话人的所述人脸框数据提取所述说话人的视觉特征，并根据所述说话人对应的音频数据提取所述说话人的音频特征；根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。景下提高说话人身份识别的准确性。景下提高说话人身份识别的准确性。

技术研发人员：程虎殷保才刘文超李渊强
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：2021.09.17
技术公布日：2022/1/11

完整全部详细技术资料下载

当前第2页1 2