多模态说话人身份识别方法、装置和设备与流程

文档序号：28427951发布日期：2022-01-12 00:38阅读：190来源：国知局

1.本技术涉及语音识别技术领域，更具体地涉及一种多模态说话人身份识别方法、装置和设备。

背景技术：

2.通常会议记录需要记录员对会议进行记录并整理成会议摘要，需要较强的专业知识和人力投入。说话人分离技术解决“谁何时说话”问题，能够自动地将不同说话人的内容分开，并将每个人的说话内容与提前注册好的身份信息进行匹配，生成会议记录，因此提升说话人的身份识别能力在会话场景显得尤为重要。
3.由于语音便于获取，当前会话场景主流的说话人身份识别主要基于声纹特征。为了将声纹与目标人身份匹配，往往需要参会人提前注册好声纹库。其整体流程主要为：利用说话人分离技术将说话人内容分开，然后对相同说话人提取声纹特征与提前注册好的声纹库进行匹配，确定说话人身份信息。
4.人脸识别技术在会话场景很少被应用，主要由于会话场景存在大量侧脸、背面等场景，此外大型会议室目标距离摄像头的距离也过远，难以获取清晰的面部特征。人脸识别技术主要先通过人脸检测获取目标区域，然后对面部区域提取特征与人脸库进行匹配。近场场景下，由于能够获取到清晰的面部特征，但声纹容易受背景噪声，目标人说话音色变化等影响，人脸识别往往具有更好的识别效果。
5.基于声纹的说话人识别技术，其准确性与声纹库的大小、性别分布以及环境噪声等都息息相关。当声纹库较大时，声纹匹配的准确性有明显的降低；此外声纹在同性别之间的区分能力也差于异性。当环境噪声较强时，也会影响说话人身份识别的效果。人脸识别技术虽然具有很高的准确率，但前提是能够提取有区分性的面部特征，所以人脸识别技术的应用场景也主要以近场为主。对于会议室这种存在遮挡、走动、距离较远等的复杂场景，难以保证每时刻都能获取目标人清晰的面部特征，单纯基于人脸特征的身份识别效果也有些差强人意。
6.对于银行交易场景，同时采用多种模态进行多方位认证，提高了身份识别准确性。但银行场景一般都默认同一时刻只有一个人进行认证，即需要采用人机交互的方式，人为地将脸部区域置于设备的感应框内，其多模态认证方式也基本采用级联方式：即当第一种模态认证通过后，才进行下一种模态认证；如果前一种模态未通过，设备会进行提醒，持续进行验证。而会话场景是一种更自由场景，如果采用人机交互方式，难以在会话场景推广。此外会话场景通常有多人同时参会，如何将当前时刻的音频与参会目标人的面部特征进行匹配也是会话场景多模态说话人身份识别任务亟需解决的问题。
7.目前，已有一些融合多模态信息对参会人员进行身份识别，并对上述问题提出了解决方案。但是这些解决方案仍有许多问题。例如，有的解决方案利用参会人员表情确定当前说话人，但这种定位是不太准确的，尤其是真实场景，说话人可能并没有丰富的表情特征，很难建立面部表情与语音之前的联系。此外，有的解决方案采用麦克风整列，利用声源
定位实现说话人定位，利用定位的位置绑定对应的视觉特征。声源定位虽然能够实现说话人定位，但是当说话人角度较小时，其区分难度较大。除此之外，该方案对硬件也提出更大要求，会议设备需要配置多通道的麦克风阵列，不同类型的阵列还需要进行定制，极大地影响产品的推广性。

技术实现要素：

8.为了解决上述问题中的至少一个而提出了本技术。根据本技术一方面，提供了一种多模态说话人身份识别方法，所述方法包括：获取会话场景的视频数据和音频数据；对所述视频数据进行人脸检测和唇形检测，得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列；根据所述参会人的所述唇形框序列和所述音频数据，确定所有参会人中的说话人和所述说话人对应的音频数据；根据所述说话人的所述人脸框数据提取所述说话人的视觉特征，并根据所述说话人对应的音频数据提取所述说话人的音频特征；根据所述视觉特征和所述音频特征对所述说话人进行身份识别。其中，会话场景可以是会议场景。
9.在本技术的一个实施例中，所述根据所述参会人的所述唇形框序列和所述音频数据，确定所有参会人中的说话人和所述说话人对应的音频数据，包括：以滑窗方式将所述会话场景的音频数据输入到训练好的多模态说话人检测模型；针对每个滑窗内的音频数据，由所述训练好的多模态说话人检测模型轮询所有参会人的所述子视频数据中的唇形框序列，以确定与每个滑窗内的音频数据对应的说话人。
10.在本技术的一个实施例中，所述轮询所有参会人的所述子视频数据中的唇形框序列，确定与每个滑窗内的音频数据对应的说话人，包括：对每个所述参会人的子视频数据的每一帧数据执行如下操作：将所述一帧数据之前的m帧数据、所述一帧数据以及所述一帧数据之后的m帧数据中的唇形框序列输入到所述训练好的多模态说话人检测模型，其中m为大于0的自然数；由所述多模态说话人检测模型对所述唇形框序列提取视觉特征，对所述滑窗内的音频数据提取音频特征，将所述视频特征和所述音频特征拼接融合后提取时序联系，输出所述一帧数据的语音激活检测得分，以确定所述参会人是否为所述滑窗内的音频数据对应的说话人。
11.在本技术的一个实施例中，所述多模态说话人检测模型包括视频特征提取网络、音频特征提取网络和长短时记忆网络。
12.在本技术的一个实施例中，所述根据所述视觉特征和所述音频特征对所述说话人进行身份识别，包括：将所述视觉特征和所述音频特征分别与数据库中特征匹配，得到所述视觉特征的匹配结果和所述音频特征的匹配结果；根据所述视觉特征的匹配结果和所述音频特征的匹配结果确定多模态融合策略，并根据所确定的多模态融合策略得到所述说话人的身份识别结果；其中，所述多模态融合策略包括：根据所述视觉特征的匹配结果和所述音频特征的匹配结果这两者来确定所述说话人的身份识别结果；或者，根据所述视觉特征的匹配结果和所述音频特征的匹配结果这两者中的一者来确定所述说话人的身份识别结果。
13.在本技术的一个实施例中，所述根据所述视觉特征和所述音频特征对所述说话人进行身份识别，包括：将所述视觉特征与第一数据库中的特征进行匹配，得到与所述视觉特征匹配的前n个身份标识以及与每个所述身份标识对应的视觉相似度，其中n为自然数，且n
大于或等于1；将所述音频特征与第二数据库中的特征进行匹配，得到与所述音频特征匹配的前n个身份标识以及与每个所述身份标识对应的音频相似度，其中n为自然数，且n大于或等于1；所述根据所述视觉特征的匹配结果和所述音频特征的匹配结果确定多模态融合策略，并根据所确定的多模态融合策略得到所述说话人的身份识别结果，包括：当与所述视觉特征匹配的前n个身份标识和与所述音频特征匹配的前n个身份标识中存在相同的身份标识时，对于所述相同的身份标识中的每个身份标识，计算与所述身份标识对应的视觉相似度和音频相似度的加权平均值，并将所述相同的身份标识中具有最大所述加权平均值的身份标识确定为所述说话人的身份识别结果；当与所述视觉特征匹配的前n个身份标识和与所述音频特征匹配的前n个身份标识中不存在相同的身份标识时，确定所述视觉相似度和所述音频相似度中的最大值，并将所述最大值对应的身份标识确定为所述说话人的身份识别结果。
14.在本技术的一个实施例中，所述根据所述说话人的所述人脸框数据提取所述说话人的视觉特征，包括：对所述说话人的所述子视频数据中的每个人脸框进行特征提取，得到所述每个人脸框的视觉特征；将所述说话人的所述子视频数据中的所有人脸框的视觉特征进行平均，得到所述说话人的视觉特征。
15.在本技术的一个实施例中，所述根据所述说话人对应的音频数据提取所述说话人的音频特征，包括：对所述说话人对应的音频数据进行滑窗处理；对各个滑窗内的音频数据提取音频特征；将所述说话人对应的音频数据的所有滑窗内的音频数据的音频特征进行平均，得到所述说话人的音频特征。
16.在本技术的一个实施例中，所述视频数据和音频数据是整个会议的视频数据和音频数据，或者，所述视频数据和所述音频数据是会议过程中实时采集的数据。
17.根据本技术另一方面，提供了一种多模态说话人身份识别装置，所述装置包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行上述多模态说话人身份识别方法。
18.根据本技术再一方面，提供了一种多模态说话人身份识别设备，所述设备包括图像采集装置、拾音装置和上述多模态说话人身份识别装置，其中所述图像采集装置用于采集会议视频数据，所述拾音装置用于采集会议音频数据，所述多模态说话人身份识别装置用于基于所述会议视频数据和所述会议音频数据执行多模态说话人身份识别。
19.在本技术的一个实施例中，所述拾音装置为单通道麦克风阵列。
20.根据本技术实施例的多模态说话人身份识别方法、装置和设备将多模态vad技术与说话人身份识别进行融合，将音频特征与视觉特征进行匹配，能够在复杂多样的会话场景下提高说话人身份识别的准确性。
附图说明
21.通过结合附图对本技术实施例进行更详细的描述，本技术的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本技术实施例的进一步理解，并且构成说明书的一部分，与本技术实施例一起用于解释本技术，并不构成对本技术的限制。在附图中，相同的参考标号通常代表相同部件或步骤。
22.图1示出根据本技术实施例的多模态说话人身份识别方法的示意性流程图。
23.图2示出根据本技术实施例的多模态说话人身份识别方法中采用的多模态说话人检测模型的轮询过程示意图。
24.图3示出根据本技术实施例的多模态说话人身份识别方法中采用的多模态说话人检测模型对每个参会人的子视频数据的处理流程示意图。
25.图4示出根据本技术实施例的多模态说话人身份识别方法中采用的多模态融合策略的示例性示意图。
26.图5示出根据本技术实施例的多模态说话人身份识别方法的整个流程的总结性示意图。
27.图6示出根据本技术实施例的多模态说话人身份识别装置的示意性结构框图。
28.图7示出根据本技术实施例的多模态说话人身份识别设备的示意性结构框图。
具体实施方式
29.为了使得本技术的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本技术的示例实施例。显然，所描述的实施例仅仅是本技术的一部分实施例，而不是本技术的全部实施例，应理解，本技术不受这里描述的示例实施例的限制。基于本技术中描述的本技术实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其他实施例都应落入本技术的保护范围之内。
30.图1根据本技术实施例的多模态说话人身份识别方法100的示意性流程图。如图1所示，多模态说话人身份识别方法100可以包括如下步骤：
31.在步骤s110，获取会话场景的视频数据和音频数据。
32.在步骤s120，对视频数据进行人脸检测和唇形检测，得到参会人的子视频数据和子视频数据中的人脸框数据和唇形框序列。
33.在步骤s130，根据参会人的唇形框序列和音频数据，确定所有参会人中的说话人和说话人对应的音频数据。
34.在步骤s140，根据说话人的人脸框数据提取说话人的视觉特征，并根据说话人对应的音频数据提取说话人的音频特征。
35.在步骤s150，根据视觉特征和音频特征对说话人进行身份识别。
36.在本技术的实施例中，通过从会话场景的视频数据中提取的参会人的人脸框数据和唇形框序列，能够确定所有参会人中的说话人和说话人对应的音频数据，即通过唇形运动特征与音频特征的一致性从参会人中挑选出说话人，实现了基于多模态说话人检测(voice activity detection，简称为vad)技术将音频数据与说话人视觉特征的绑定，从而实现了对说话人的更准确辨别；接着，根据说话人的视觉特征和相对应的音频特征对说话人进行身份识别，以确定说话人身份，由于说话人的准确辨别，因而结合说话人视觉特征和音频特征的身份识别结果也更为准确，从而能够满足各种复杂多样的会话场景。
37.在本技术的实施例中，步骤s120中的人脸检测可以采用各种开源模型。直接进行唇形检测的开源方案较少，但有较多的唇形关键点检测模型可供选择。本技术对使用何种方案的检测模型不做限定。为了方便起见，本技术的方案可以基于自采的街道和园区数据，通过人工对人脸框和唇形框进行标注，并基于yolov5框架同时对人脸框和唇形框进行检测。其中唇形框连同音频数据可以一并用于训练多模态说话人检测模型，人脸框可用于提
取人脸特征，稍后将在下文中描述。
38.在本技术的实施例中，步骤s130中的根据参会人的唇形框序列和音频数据，确定所有参会人中的说话人和说话人对应的音频数据，可以包括：以滑窗方式将会话场景的音频数据输入到训练好的多模态说话人检测模型(下文中简称为多模态vad)；针对每个滑窗内的音频数据，由训练好的多模态说话人检测模型轮询所有参会人的子视频数据中的唇形框序列，以确定与每个滑窗内的音频数据对应的说话人。下面结合图2来描述。
39.如图2所示，将当前音频数据(一个滑窗内的音频数据)与参会人1的唇形框序列(简称为唇形序列)输入多模态vad，多模态vad将输出语音激活检测得分(以下简称为vad得分)。当参会人1的视觉信息(唇形框序列)与语音信息(音频数据)不一致时，多模态vad得分较低，表明该参会人1不是当前音频数据的说话人，即当前音频数据与参会人1不匹配；反之，如果多模态vad得分高于阈值，则表明当前音频数据与参会人1匹配。如果当前音频数据与参会人1匹配，则可以无需输入其他参会人(参会人2到参会人n的唇形框序列)。如果当前音频数据与参会人1不匹配，则将当前音频数据(一个滑窗内的音频数据)与参会人2的唇形框序列输入多模态vad，多模态vad将输出vad得分，这与前述的参会人1的描述一样，此处不再赘述。同样地，如果当前音频数据与参会人2匹配，则可以无需输入其他参会人(参会人3到参会人n的唇形框序列)。如果当前音频数据与参会人2不匹配，则将当前音频数据(一个滑窗内的音频数据)与参会人3的唇形框序列输入多模态vad，多模态vad将输出vad得分，以此类推。最终，能够确定与每个滑窗内的音频数据对应的说话人。
40.在本技术的实施例中，前述的轮询所有参会人的子视频数据中的唇形框序列，确定与每个滑窗内的音频数据对应的说话人，可以包括：对每个参会人的子视频数据的每一帧数据执行如下操作：将一帧数据之前的m帧数据、一帧数据以及一帧数据之后的m帧数据中的唇形框序列输入到训练好的多模态说话人检测模型，其中m为大于0的自然数；由多模态说话人检测模型对唇形框序列提取视觉特征，对滑窗内的音频数据提取音频特征，将视频特征和音频特征拼接融合后提取时序联系，输出一帧数据的语音激活检测得分，以确定参会人是否为滑窗内的音频数据对应的说话人。下面结合图3来描述。
41.图3示出了根据本技术实施例的多模态说话人身份识别方法中采用的多模态说话人检测模型对每个参会人的子视频数据的处理流程示意图。如图3所示，多模态vad可以包括视觉特征提取网络(图3中表示为视觉encoder)、音频特征提取网络(图3中表示为音频encoder)和长短时记忆网络(图3中表示为lstm)。其中，一个参会人的唇形框序列输入至该视觉特征提取网络，由该视觉特征提取网络提取视觉特征；滑窗内的音频数据输入至音频特征提取网络，由该音频特征提取网络提取音频特征；然后，视频特征与音频特征进行拼接融合，输入到长短时记忆网络中提取时序上的联系，最后输出vad得分(图3中表示为vad score)。
42.其中，在输入唇形框序列时，可以将一帧数据之前的m帧数据、一帧数据以及一帧数据之后的m帧数据中的唇形框序列输入到训练好的多模态vad，其中m为大于0的自然数。例如，在一个示例中，m等于2，即，将当前帧数据的前后各2帧数据(共5帧唇形框)输入到多模态vad。一般地，唇形框可统一缩放到预设尺寸，诸如80*80大小，相应地，视觉特征提取网络的输入为5*80*80。在一个示例中，音频滑窗的窗长为2秒，窗移为1秒。在本技术的实施例中，对视觉特征提取网络和音频特征提取网络不做限定。示例性地，视觉特征提取网络可以
为3d-resnet18；音频特征提取网络可以为sincnet；视觉特征提取网络可以基于lip reading数据训练的开源模型进行参数初始化。
43.总体地，每帧数据都可以得到一个vad得分，最终，基于每帧数据的vad得分，可确定某个参会人是否与当前音频数据匹配。以此方式，如果步骤s110获取的视频数据和音频数据是会议过程中实时采集的数据，那么步骤s120和s130可以实时确定每次采集的音频数据对应的说话人。如果步骤s110获取的视频数据和音频数据是整个会议过程的视频数据和音频数据(即会议结束后离线处理)，那么步骤s120和s130可以整理出音频数据中出现的所有说话人以及每个说话人对应的音频片段。此外，经过了步骤s120和s130，为未说话的参会人以及静音段进行了过滤。
44.下面继续描述方法100后续的步骤s140和s150。
45.在本技术的实施例中，步骤s140中的根据说话人的人脸框数据提取说话人的视觉特征，可以包括：对说话人的子视频数据中的每个人脸框进行特征提取，得到每个人脸框的视觉特征；将说话人的子视频数据中的所有人脸框的视觉特征进行平均，得到说话人的视觉特征。
46.由于会话场景获取的视觉目标不是单帧的图像，而是连续的视频信息，因此可以首先获取说话人的子视频数据(即获取的整体视频数据中一个参会人(该参会人在获取的音频数据为其中至少一段音频数据的说话人)的视频数据，例如可以基于交并比iou对时序上人脸检出框进行跟踪匹配而得到该子视频数据)，并对该子视频数据中每个(步骤s120获得的)人脸框进行特征提取，并按照滑动平均方式更新视觉特征，从而得到该说话人的视觉特征。示例性地，本技术采用2d-resnet18训练人脸识别模型进行特征提取，将每个目标均编码成512维的特征向量。此外，在提取视觉特征之前，还可以对人脸框进行人脸对齐、颜色标准化等预处理，得到对齐后的人脸图像。
47.在本技术的实施例中，步骤s140中的根据说话人对应的音频数据提取说话人的音频特征，可以包括：对说话人对应的音频数据进行滑窗处理；对各个滑窗内的音频数据提取音频特征；将说话人对应的音频数据的所有滑窗内的音频数据的音频特征进行平均，得到说话人的音频特征。
48.在一个示例中，滑窗的窗长为2秒，窗移为1秒。关于音频特征的提取，本技术对使用何种特征提取网络不做限定。示例性地，可采用和文本无关的x-vector提取网络，将每一滑窗的音频数据均提均编码成512维特征向量。然后，对同一说话人的音频特征，利用平均方式得到该说话人的音频特征。
49.在本技术的实施例中，步骤s150中的根据视觉特征和音频特征对说话人进行身份识别，可以包括：将视觉特征和音频特征分别与数据库中特征匹配，得到视觉特征的匹配结果和音频特征的匹配结果；根据视觉特征的匹配结果和音频特征的匹配结果确定多模态融合策略，并根据所确定的多模态融合策略得到说话人的身份识别结果；其中，多模态融合策略包括：根据视觉特征的匹配结果和音频特征的匹配结果这两者来确定说话人的身份识别结果；或者，根据视觉特征的匹配结果和音频特征的匹配结果这两者中的一者来确定说话人的身份识别结果。
50.在该实施例中，在得到一个说话人的视觉特征和音频特征之后，不是直接对两种特征拼接后与数据库中特征匹配(方案一)，也不是直接将两者分别与数据库中匹配后进行
加权融合(方案二)。在本技术中，申请人通过实验发现，不同场景下模态贡献度不同，具体表现为：当近场场景且背景噪声较大时，视觉特征应增大权重；反之远场场景且背景噪声较小时，音频特征应增大权重。前述的方案一直接对特征进行融合，两模态对结果贡献度相同，其结果也往往是次优的；方案二基于单模态匹配结果进行加权融合能够部分解决上述问题，但加权融合的权重是预先设置好的超参，无法推广到更多复杂场景。此外当某种模态数据极其不可靠时，例如：极端高噪场景或者脸部不可见时，此时应该有倾向地选择其中一种模态，而非盲目地将多模态结果进行融合。基于上述发现，本技术提出一种更适合多模态会话场景的融合策略，该融合策略根据视觉特征的匹配结果和音频特征的匹配结果确定是根据这两者来确定身份识别结果，还是根据其中的一者来确定说话人的身份识别结果。下面进一步具体描述。
51.在本技术的实施例中，步骤s150中的根据视觉特征和音频特征对说话人进行身份识别，可以包括：将视觉特征与第一数据库中的特征进行匹配，得到与视觉特征匹配的前n个身份标识以及与每个身份标识对应的视觉相似度，其中n为自然数，且n大于或等于1；将音频特征与第二数据库中的特征进行匹配，得到与音频特征匹配的前n个身份标识以及与每个身份标识对应的音频相似度，其中n为自然数，且n大于或等于1；根据视觉特征的匹配结果和音频特征的匹配结果确定多模态融合策略，并根据所确定的多模态融合策略得到说话人的身份识别结果，可以包括：当与视觉特征匹配的前n个身份标识和与音频特征匹配的前n个身份标识中存在相同的身份标识时，对于相同的身份标识中的每个身份标识，计算与身份标识对应的视觉相似度和音频相似度的加权平均值，并将相同的身份标识中具有最大加权平均值的身份标识确定为说话人的身份识别结果；当与视觉特征匹配的前n个身份标识和与音频特征匹配的前n个身份标识中不存在相同的身份标识时，确定视觉相似度和音频相似度中的最大值，并将最大值对应的身份标识确定为说话人的身份识别结果。
52.其中，与视觉特征匹配的前n个身份标识和与音频特征匹配的前n个身份标识可以分别表示为[v1,v2,...,vn],[a1,a2,...,an]；每个身份标识对应的视觉相似度和每个身份标识对应的音频相似度可以表示为[t
v1
,t
v2
,...,t
vn
],[t
a1
,t
a2
,...,t
an
]。然后，多模态融合策略为：基于上述匹配结果进行判断融合，表示为如下公式：
[0053][0054]
上述公式的含义为：如果音频特征和视频特征各自匹配的前n个(top-n)身份标识(id)中存在相同id，则计算id一致的相似性加权融合，其中融合后相似性最高对应的id即为最终的身份识别结果；此外，通过top-n去除某一模态相似性特别高，但另一模态相似性较低的目标(稍后结合图4所示的示例来描述)，从而可以提升准确率。如果音频特征和视频特征各自匹配的top-n中不存在相同id，则说明存在一种模态匹配结果不可靠，此时如果对结果直接进行融合可能产生错误，本技术直接对两种模态的top-1目标按照相似性进行选择，即如果t
v1
＞t
a1
，则匹配id为v1，反之为a1。
[0055]
图4示出根据本技术实施例的多模态说话人身份识别方法中采用的多模态融合策略的示例性示意图。如图4所示，给出了视觉相似性前三名和音频相似性前三名，其中，存在两个相同id，即身份标识2和身份标识5，其中身份标识2的视觉相似性和音频相似性的加权
融合值为0.845，身份标识5的视觉相似性和音频相似性的加权融合值为0.775(在该示例中以加权系数均为0.5为例)。因此，身份标识2为最终的身份识别结果。
[0056]
以上示例性地描述了根据本技术实施例的多模态说话人身份识别方法100，图5示出了根据本技术实施例的多模态说话人身份识别方法的整个流程的总结性示意图，可以基于前文的描述结合图5来理解该方法。
[0057]
基于上面的描述，根据本技术实施例的多模态说话人身份识别方法将多模态vad技术与说话人身份识别进行融合，将音频特征与视觉特征进行匹配；此外根据本技术实施例的多模态说话人身份识别方法在会话场景中使用多模态信息进行说话人身份确认，并提出一种针对会话场景的多模态特征融合技术，能够在复杂多样的会话场景下提高说话人身份识别的准确性。
[0058]
相对于背景技术中提及的几个多模态方案，本技术的方案利用多模态vad技术(音频特征和唇形运动特征一致性)确定当前说话人，能够实现更准确辨别。此外，本技术对硬件设备要求低，无需定制优化，只需要单通道的拾音设备和摄像头，对硬件要求低，推广性更好。此外，本技术的多模态融合策略可以在某种模态不可靠时提高身份识别的准确性。
[0059]
下面结合图6描述根据本技术实施例的多模态说话人身份识别装置600的示意性结构框图。如图6所示，多模态说话人身份识别装置600可以包括存储器610和处理器620，存储器610存储有由处理器620运行的计算机程序，所述计算机程序在被处理器620运行时，使得处理器620执行前文所述的根据本技术实施例的多模态说话人身份识别方法。本领域技术人员可以结合前文所述的内容理解根据本技术实施例的多模态说话人身份识别装置600的具体操作，为了简洁，此处不再赘述具体的细节，仅描述处理器620的一些主要操作。
[0060]
在本技术的一个实施例中，所述计算机程序在被处理器620运行时，使得处理器620执行如下步骤：获取会话场景的视频数据和音频数据；对所述视频数据进行人脸检测和唇形检测，得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列；根据所述参会人的所述唇形框序列和所述音频数据，确定所有参会人中的说话人和所述说话人对应的音频数据；根据所述说话人的所述人脸框数据提取所述说话人的视觉特征，并根据所述说话人对应的音频数据提取所述说话人的音频特征；根据所述视觉特征和所述音频特征对所述说话人进行身份识别。
[0061]
在本技术的一个实施例中，所述计算机程序在被处理器620运行时，使得处理器620执行的所述根据所述参会人的所述唇形框序列和所述音频数据，确定所有参会人中的说话人和所述说话人对应的音频数据，包括：以滑窗方式将所述会话场景的音频数据输入到训练好的多模态说话人检测模型；针对每个滑窗内的音频数据，由所述训练好的多模态说话人检测模型轮询所有参会人的所述子视频数据中的唇形框序列，以确定与每个滑窗内的音频数据对应的说话人。
[0062]
在本技术的一个实施例中，所述计算机程序在被处理器620运行时，使得处理器620执行的所述轮询所有参会人的所述子视频数据中的唇形框序列，确定与每个滑窗内的音频数据对应的说话人，包括：对每个所述参会人的子视频数据的每一帧数据执行如下操作：将所述一帧数据之前的m帧数据、所述一帧数据以及所述一帧数据之后的m帧数据中的唇形框序列输入到所述训练好的多模态说话人检测模型，其中m为大于0的自然数；由所述多模态说话人检测模型对所述唇形框序列提取视觉特征，对所述滑窗内的音频数据提取音
频特征，将所述视频特征和所述音频特征拼接融合后提取时序联系，输出所述一帧数据的语音激活检测得分，以确定所述参会人是否为所述滑窗内的音频数据对应的说话人。
[0063]
在本技术的一个实施例中，所述多模态说话人检测模型包括视频特征提取网络、音频特征提取网络和长短时记忆网络。
[0064]
在本技术的一个实施例中，所述计算机程序在被处理器620运行时，使得处理器620执行的所述根据所述视觉特征和所述音频特征对所述说话人进行身份识别，包括：将所述视觉特征和所述音频特征分别与数据库中特征匹配，得到所述视觉特征的匹配结果和所述音频特征的匹配结果；根据所述视觉特征的匹配结果和所述音频特征的匹配结果确定多模态融合策略，并根据所确定的多模态融合策略得到所述说话人的身份识别结果；其中，所述多模态融合策略包括：根据所述视觉特征的匹配结果和所述音频特征的匹配结果这两者来确定所述说话人的身份识别结果；或者，根据所述视觉特征的匹配结果和所述音频特征的匹配结果这两者中的一者来确定所述说话人的身份识别结果。
[0065]
在本技术的一个实施例中，所述计算机程序在被处理器620运行时，使得处理器620执行的所述根据所述视觉特征和所述音频特征对所述说话人进行身份识别，包括：将所述视觉特征与第一数据库中的特征进行匹配，得到与所述视觉特征匹配的前n个身份标识以及与每个所述身份标识对应的视觉相似度，其中n为自然数，且n大于或等于1；将所述音频特征与第二数据库中的特征进行匹配，得到与所述音频特征匹配的前n个身份标识以及与每个所述身份标识对应的音频相似度，其中n为自然数，且n大于或等于1；所述根据所述视觉特征的匹配结果和所述音频特征的匹配结果确定多模态融合策略，并根据所确定的多模态融合策略得到所述说话人的身份识别结果，包括：当与所述视觉特征匹配的前n个身份标识和与所述音频特征匹配的前n个身份标识中存在相同的身份标识时，对于所述相同的身份标识中的每个身份标识，计算与所述身份标识对应的视觉相似度和音频相似度的加权平均值，并将所述相同的身份标识中具有最大所述加权平均值的身份标识确定为所述说话人的身份识别结果；当与所述视觉特征匹配的前n个身份标识和与所述音频特征匹配的前n个身份标识中不存在相同的身份标识时，确定所述视觉相似度和所述音频相似度中的最大值，并将所述最大值对应的身份标识确定为所述说话人的身份识别结果。
[0066]
在本技术的一个实施例中，所述计算机程序在被处理器620运行时，使得处理器620执行的所述根据所述说话人的所述人脸框数据提取所述说话人的视觉特征，包括：对所述说话人的所述子视频数据中的每个人脸框进行特征提取，得到所述每个人脸框的视觉特征；将所述说话人的所述子视频数据中的所有人脸框的视觉特征进行平均，得到所述说话人的视觉特征。
[0067]
在本技术的一个实施例中，所述计算机程序在被处理器620运行时，使得处理器620执行的所述根据所述说话人对应的音频数据提取所述说话人的音频特征，包括：对所述说话人对应的音频数据进行滑窗处理；对各个滑窗内的音频数据提取音频特征；将所述说话人对应的音频数据的所有滑窗内的音频数据的音频特征进行平均，得到所述说话人的音频特征。
[0068]
在本技术的一个实施例中，所述视频数据和音频数据是整个会议的视频数据和音频数据，或者，所述视频数据和所述音频数据是会议过程中实时采集的数据。
[0069]
下面结合图7描述根据本技术实施例的多模态说话人身份识别设备700的示意性
结构框图。如图7所示，多模态说话人身份识别设备700可以包括图像采集装置710、拾音装置720和身份识别装置730，其中图像采集装置710用于采集会议视频数据，拾音装置720用于采集会议音频数据，身份识别装置730为前文所述的多模态说话人身份识别装置600，其用于基于会议视频数据和会议音频数据执行多模态说话人身份识别。本领域技术人员可以结合前文所述的内容理解根据本技术实施例的多模态说话人身份识别设备700的具体操作，为了简洁，此处不再赘述。
[0070]
如前文所述的，本技术的方案对硬件设备要求低，无需定制优化，只需要单通道的拾音设备和摄像头，对硬件要求低，推广性更好。因此，在本技术的一个实施例中，拾音装置720可以为单通道麦克风阵列。
[0071]
此外，根据本技术实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本技术实施例的多模态说话人身份识别方法的相应步骤。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器、或者上述存储介质的任意组合。所述存储介质可以是一个或多个计算机可读存储介质的任意组合。
[0072]
此外，根据本技术实施例，还提供了一种计算机程序，所述计算机程序被计算机或处理器运行时用于执行本技术实施例的多模态说话人身份识别方法的相应步骤。
[0073]
基于上面的描述，根据本技术实施例的多模态说话人身份识别方法、装置和设备将多模态vad技术与说话人身份识别进行融合，将音频特征与视觉特征进行匹配；此外根据本技术实施例的多模态说话人身份识别方法、装置和设备在会话场景中使用多模态信息进行说话人身份确认，并提出一种针对会话场景的多模态特征融合技术，能够在复杂多样的会话场景下提高说话人身份识别的准确性。
[0074]
尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本技术的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本技术的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本技术的范围之内。
[0075]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0076]
在本技术所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其他的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。
[0077]
在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本技术的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
[0078]
类似地，应当理解，为了精简本技术并帮助理解各个发明方面中的一个或多个，在
对本技术的示例性实施例的描述中，本技术的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本技术的方法解释成反映如下意图：即所要求保护的本技术要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本技术的单独实施例。
[0079]
本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0080]
此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其他实施例中所包括的某些特征而不是其他特征，但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0081]
本技术的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本技术实施例的一些模块的一些或者全部功能。本技术还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本技术的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。
[0082]
应该注意的是上述实施例对本技术进行说明而不是对本技术进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本技术可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0083]
以上所述，仅为本技术的具体实施方式或对具体实施方式的说明，本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。本技术的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程虎;殷保才;刘文超;李渊强
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：基于测量值和外部电子装置所获得的信息来控制眼科系统的方法与流程
上一篇：一种3或6工位玻璃成形机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。