用于处理视频和相关音频的方法和装置及检索方法和装置的制造方法

文档序号：9751022阅读：156来源：国知局

用于处理视频和相关音频的方法和装置及检索方法和装置的制造方法
【技术领域】
[0001]本发明涉及人脸识别技术领域，更具体地涉及一种用于处理视频和相关音频的方法和装置及检索方法和装置。
【背景技术】
[0002]在很多场景下，需要对人们说过的话进行记录并且需要知道每个人的具体说话内容。下面以会议场景为例进行描述。对会议进行记录在很多场合下都是必须的，记录的方式通常包括采用文字、音频或视频等进行记录。采用文字进行记录的方式最便于检索，但成本较大;采用视频或音频进行记录的方式成本较低，但存储和检索都存在不小的困难。具体来说，前者的缺点主要在于人力成本耗费很大，同时在与会人员的人数较多时，对速记人员的能力提出了挑战。后者往往是整个会议被记录为一大段音频或者视频，虽然会议被完整地记录下来了，不过由于不知道每段语音和人物的对应关系，因此无法便利地进行检索。

【发明内容】

[0003]考虑到上述问题而提出了本发明。本发明提供了一种用于处理视频和相关音频的方法和装置以及检索方法和装置。
[0004]根据本发明一方面，提供了一种用于处理视频和相关音频的方法。该方法包括:
[0005]获取包括一个或多个对象的一个或多个人脸的视频；
[0006]对所述视频中的每个视频帧进行人脸检测，以识别所述一个或多个人脸；
[0007]获取与所述视频在相同时间段内采集的包括所述一个或多个对象中的至少部分对象的语音的音频；
[0008]针对所述一个或多个人脸中的至少部分人脸中的每一个，
[0009]确定所述音频中的、与该人脸相对应的音频部分；
[0010]将该人脸与对应的音频部分关联起来，
[0011 ]其中，所述至少部分人脸分别属于所述至少部分对象。
[0012]示例性地，在所述针对所述一个或多个人脸中的至少部分人脸中的每一个确定所述音频中的、与该人脸相对应的音频部分之前，所述方法进一步包括:
[0013]针对所述至少部分人脸中的每一个，
[0014]根据该人脸的嘴部动作对所述视频进行分段，以获得与该人脸相对应的初始视频段；
[0015]根据所述音频中的语音特征对所述音频进行分段，以获得与该人脸相对应的初始音频段；以及
[0016]根据与该人脸相对应的初始视频段和初始音频段获得所述视频中的、与该人脸相对应的有效视频段和所述音频中的、与该人脸相对应的有效音频段；
[0017]所述针对所述一个或多个人脸中的至少部分人脸中的每一个确定所述音频中的、与该人脸相对应的音频部分包括:
[0018]针对所述至少部分人脸中的每一个，确定与该人脸相对应的有效音频段为与该人脸相对应的音频部分。
[0019]示例性地，所述针对所述一个或多个人脸中的至少部分人脸中的每一个将该人脸与对应的音频部分关联起来包括:
[0020]针对所述至少部分人脸中的每一个，
[0021]对于与该人脸相对应的每个有效视频段，从该有效视频段的所有视频帧中选择人脸质量最佳的视频帧；
[0022]将所选择的视频帧和与该有效视频段对应的有效音频段关联起来，以形成一个视频音频组合。
[0023]示例性地，所述方法进一步包括:
[0024]针对特定视频音频组合所对应的人脸对所述特定视频音频组合中的视频帧进行人脸特征提取，以获得特定人脸特征，其中，所述特定视频音频组合是所述至少部分人脸所对应的所有视频音频组合之一；
[0025]对所述特定视频音频组合中的有效音频段进行声音特征提取，以获得特定声音特征；
[0026]针对所述所有视频音频组合中的其余视频音频组合中的每一个，
[0027 ]计算所述特定人脸特征与该视频音频组合所对应的人脸特征之间的人脸相似度；
[0028]计算所述特定声音特征与该视频音频组合所对应的声音特征之间的声音相似度；
[0029]计算所述特定视频音频组合与该视频音频组合之间的人脸相似度与声音相似度的平均值，以获得所述特定视频音频组合与该视频音频组合之间的平均相似度；
[0030]如果所述特定视频音频组合与该视频音频组合之间的平均相似度大于相似度阈值，则将所述特定视频音频组合与该视频音频组合归类到同一对象。
[0031]示例性地，所述针对所述至少部分人脸中的每一个根据与该人脸相对应的初始视频段和初始音频段获得所述视频中的、与该人脸相对应的有效视频段和所述音频中的、与该人脸相对应的有效音频段包括:
[0032]针对所述至少部分人脸中的每一个，将与该人脸相对应的初始视频段确定为与该人脸相对应的有效视频段，并且将与该人脸相对应的初始音频段确定为与该人脸相对应的有效音频段。
[0033]示例性地，所述针对所述至少部分人脸中的每一个根据与该人脸相对应的初始视频段和初始音频段获得所述视频中的、与该人脸相对应的有效视频段和所述音频中的、与该人脸相对应的有效音频段包括:
[0034]针对所述至少部分人脸中的每一个，
[0035]根据与该人脸相对应的初始视频段和初始音频段的分段时间确定统一分段时间；
[0036]根据所述统一分段时间对所述视频和所述音频进行统一分段，以获得与该人脸相对应的有效视频段和有效音频段。
[0037]示例性地，所述音频是由统一麦克风采集的，
[0038]所述针对所述至少部分人脸中的每一个根据所述音频中的语音特征对所述音频进行分段以获得与该人脸相对应的初始音频段包括:
[0039]根据所述音频中的语音特征对所述音频进行分段，以获得混合音频段；以及
[0040]针对所述至少部分人脸中的每一个，从所述混合音频段中选择在采集时间上和与该人脸相对应的初始视频段一致的混合音频段作为与该人脸相对应的初始音频段。
[0041]示例性地，所述音频包括分别由一个或多个定向麦克风所采集的一路或多路音频，
[0042]在所述获取与所述视频在相同时间段内采集的包括所述一个或多个对象中的至少部分对象的语音的音频之前，所述方法进一步包括:
[0043]控制所述一个或多个定向麦克风分别朝向所述至少部分对象以采集所述一路或多路音频；
[0044]所述针对所述至少部分人脸中的每一个根据所述音频中的语音特征对所述音频进行分段以获得与该人脸相对应的初始音频段包括:
[0045]针对所述至少部分人脸中的每一个，根据由朝向该人脸所对应的对象的定向麦克风所采集的一路音频中的语音特征对该路音频进行分段，以获得与该人脸相对应的初始音频段。
[0046]示例性地，所述定向麦克风的数目等于或大于所述一个或多个人脸的数目。
[0047]示例性地，在所述控制所述一个或多个定向麦克风分别朝向所述至少部分对象以采集所述一路或多路音频之前，所述方法进一步包括:
[0048]根据所述一个或多个人脸的人脸特征和/或动作确定每个人脸的优先级；以及
[0049]按照每个人脸的优先级确定所述一个或多个定向麦克风要朝向的对象作为所述至少部分对象。
[0050]示例性地，所述针对所述至少部分人脸中的每一个根据该人脸的嘴部动作对所述视频进行分段按照以下规则实施:
[0051]针对所述至少部分人脸中的每一个，如果该人脸的嘴部在第一时刻从闭合状态变化到张开状态并且在所述第一时刻之前的第一预定时段内持续处于闭合状态，则将所述第一时刻作为视频分段开始时间，如果该人脸的嘴部在第二时刻从张开状态变化到闭合状态并且在所述第二时刻之后的第二预定时段内持续处于闭合状态，则将所述第二时刻作为视频分段结束时间，
[0052]其中，所述视频的、位于相邻的视频分段开始时间和视频分段结束时间之间的部分为所述初始视频段。
[0053]示例性地，所述针对所述至少部分人脸中的每一个根据所述音频中的语音特征对所述音频进行分段按照以下规则实施:
[0054]如果所述音频中的语音在第三时刻从不发声状态变化到发声状态并且在所述第三时刻之前的第三预定时段内持续处于不发声状态，则将所述第三时刻作为音频分段开始时间，如果所述音频中的语音在第四时刻从发声状态变化到不发声状态并且在所述第四时刻之后的第四预定时段内持续处于不发声状态，则将所述第四时刻作为音频分段结束时间，
[0055]其中，所述音频的、位于相邻的音频分段开始时间和音频分段结束时间之间的部分为所述初始音频段。
[0056]示例性地，在所述针对所述一个或多个人脸中的至少部分人脸中的每一个确定所述音频中的、与该人脸相对应的音频部分之后，所述方法进一步包括:
[0057]针对所述至少部分人脸中的每一个，
[0058]对与该人脸相对应的音频部分进行语音识别，以获得代表与该人脸相对应的音频部分的文本文件；
[0059]将所述文本文件与该人脸关联起来。
[0060]示例性地，所述方法进一步包括:输出期望信息，
[0061]其中，所述期望信息包括以下项中的一项或多项:所述视频、所述音频、包含所述一个或多个人脸中的特定人脸的视频帧、包含所述特定人脸的视频帧的采集时间、与所述特定人脸相对应的音频部分和与所述特定人脸相对应的音频部分的采集时间。
[0062]根据本发明另一方面，提供了一种检索方法，包括:
[0063]接收针对目标人脸的检索指示；
[0064]根据所述检索指示从数据库中查找所述目标人脸的相关信息；以及
[0065]输出所述目标人脸的相关信息；
[0066]其中，所述数据库用于存储根据上文所述的用于处理视频和相关音频的方法进行处理的视频以及音频和/或与所述至少部分人脸中的每一个相对应的音频部分，
[0067]并且其中，所述目标人脸的相关信息包括以下项中的一项或多项:包含所述目标人脸的视频帧、包含所述目标人脸的视频帧的采集时间、与所述目标人脸相对应的音频部分和与所述目标人脸相对应的音频部分的采集时间。
[0068]根据本发明另一方面，提供了一种用于处理视频和相关音频的装置。该装置包括:
[0069]第一获取模块，用于获取包括一个或多个对象的一个或多个人脸的视频；
[0070]人脸检测模块，用于对所述视频中的每个视频帧进行人脸检测，以识别所述一个或多个人脸；
[0071]第二获取模块，用于获取与所述视频在相同时间段内采集的包括所述一个或多个对象中的至少部分对象的语音的音频；
[0072]音频部分确定模块，用于针对所述一个或多个人脸中的至少部分人脸中的每一个，确定所述音频中的、与该人脸相对应的音频部分，其中，所述至少部分人脸分别属于所述至少部分对象；以及
[0073]音频关联模块，用于针对所述至少部分人脸中的每一个，将该人脸与对应的音频部分关联起来。
[0074]示例性地，所述装置进一步包括:
[0075]视频分段模块，用于针对所述至少部分人脸中的每一个，根据该人脸的嘴部动作对所述视频进行分段，以获得与该人脸相对应的初始视频段；
[0076]音频分段模块，用于针对所述至少部分人脸中的每一个，根据所述音频中的语音特征对所述音频进行分段，以获得与该人脸相对应的初始音频段;以及
[0077]有效视频及音频获得模块，用于根据与该人脸相对应的初始视频段和初始音频段获得所述视频中的、与该人脸相对应的有效视频段和所述音频中的、与该人脸相对应的有效音频段；
[0078]所述音频部分确定模块包括确定子模块，用于针对所述至少部分人脸中的每一个，确定与该人脸相对应的有效音频段为与该人脸相对应的音频部分。
[0079]示例性地，所述音频关联模块包括:
[0080]视频帧选择子模块，用于针对所述至少部分人脸中的每一个，对于与该人脸相对应的每个有效视频段，从该有效视频段的所有视频帧中选择人脸质量最佳的视频帧；以及
[0081]关联子模块，用于将所选择的视频帧和与该有效视频段对应的有效音频段关联起来，以形成一个视频音频组合。
[0082]示例性地，所述装置进一步包括:
[0083]人脸特征提取模块，用于针对特定视频音频组合所对应的人脸对所述特定视频音频组合中的视频帧进行人脸特征提取，以获得特定人脸特征，其中，所述特定视频音频组合是所述至少部分人脸所对应的所有视频音频组合之一；
[0084]声音特征提取模块，对所述特定视频音频组合中的有效音频段进行声音特征提取，以获得特定声音特征；
[0085]人脸相似度计算模块，用于针对所述所有视频音频组合中的其余视频音频组合中的每一个，计算所述特定人脸特征与该视频音频组合所对应的人脸特征之间的人脸相似度；
[0086]声音相似度计算模块，用于针对所述其余视频音频组合中的每一个，计算所述特定声音特征与该视频音频组合所对应的声音特征之间的声音相似度；
[0087]平均相似度计算模块，用于针对所述其余视频音频组合中的每一个，计算所述特定视频音频组合与该视频音频组合之间的人脸相似度与声音相似度的平均值，以获得所述特定视频音频组合与该视频音频组合之间的平均相似度；
[0088]归类模块，用于针对所述其余视频音频组合中的每一个，如果所述特定视频音频组合与该视频音频组合之间的平均相似度大于相似度阈值，则将所述特定视频音频组合与该视频音频组合归类到同一对象。
[0089]示例性地，所述有效视频及音频获得模块包括:
[0090]有效视频段确定子模块，用于针对所述至少部分人脸中的每一个，将与该人脸相对应的初始视频段确定为与该人脸相对应的有效视频段;以及
[0091]有效音频段确定子模块，用于针对所述至少部分人脸中的每一个，将与该人脸相对应的初始音频段确定为与该人脸相对应的有效音频段。
[0092]示例性地，所述有效视频及音频获得模块包括:
[0093]统一分段时间确定子模块，用于针对所述至少部分人脸中的每一个，根据与该人脸相对应的初始视频段和初始音频段的分段时间确定统一分段时间；
[0094]统一分段子模块，用于根据所述统一分段时间对所述视频和所述音频进行统一分段，以获得与该人脸相对应的有效视频段和有效音频段。
[0095]示例性地，所述音频是由统一麦克风采集的，
[0096]所述音频分段模块包括:
[0097]第一分段子模块，用于根据所述音频中的语音特征对所述音频进行分段，以获得混合音频段；以及
[0098]音频段选择子模块，用于针对所述至少部分人脸中的每一个，从所述混合音频段中选择在采集时间上和与该人脸相对应的初始视频段一致的混合音频段作为与该人脸相对应的初始音频段。
[0099]示例性地，所述音频包括分别由一个或多个定向麦克风所采集的一路或多路音频，
[0100]所述装置进一步包括:
[0101]控制模块，用于控制所述一个或多个定向麦克风分别朝向所述至少部分对象以采集所述一路或多路音频；
[0102]所述音频分段模块包括:
[0103]第二分段子模块，用于针对所述至少部分人脸中的每一个，根据由朝向该人脸所对应的对象的定向麦克风所采集的一路音频中的语音特征对该路音频进行分段，以获得与该人脸相对应的初始音频段。
[0104]示例性地，所述定向麦克风的数目等于或大于所述一个或多个人脸的数目。
[0?05]示例性地，所述装置进一步包括:
[0106]优先级确定模块，用于根据所述一个或多个人脸的人脸特征和/或动作确定每个人脸的优先级；以及
[0107]对象确定模块，用于按照每个人脸的优先级确定所述一个或多个定向麦克风要朝向的对象作为所述至少部分对象。
[0108]示例性地，所述视频分段模块按照以下规则对所述视频进行分段:
[0109]针对所述至少部分人脸中的每一个，如果该人脸的嘴部在第一时刻从闭合状态变化到张开状态并且在所述第一时刻之前的第一预定时段内持续处于闭合状态，则将所述第一时刻作为视频分段开始时间，如果该人脸的嘴部在第二时刻从张开状态变化到闭合状态并且在所述第二时刻之后的第二预定时段内持续处于闭合状态，则将所述第二时刻作为视频分段结束时间，
[0110]其中，所述视频的、位于相邻的视频分段开始时间和视频分段结束时间之间的部分为所述初始视频段。
[0111]示例性地，所述音频分段模块按照以下规则对所述音频进行分段:
[0112]如果所述音频中的语音在第三时刻从不发声状态变化到发声状态并且在所述第三时刻之前的第三预定时段内持续处于不发声状态，则将所述第三时刻作为音频分段开始时间，如果所述音频中的语音在第四时刻从发声状态变化到不发声状态并且在所述第四时刻之后的第四预定时段内持续处于不发声状态，则将所述第四时刻作为音频分段结束时间，
[0113]其中，所述音频的、位于相邻的音频分段开始时间和音频分段结束时间之间的部分为所述初始音频段。
[0114]示例性地，所述装置进一步包括:
[0115]语音识别模块，用于针对所述至少部分人脸中的每一个，对与该人脸相对应的音频部分进行语音识别，以获得代表与该人脸相对应的音频部分的文本文件；以及
[0116]文本关联模块，用于将所述文本文件与该人脸关联起来。
[0117]示例性地，所述装置进一步包括输出模块，用于输出期望信息，
[0118]其中，所述期望信息包括以下项中的一项或多项:所述视频、所述音频、包含所述一个或多个人脸中的特定人脸的视频帧、包含所述特定人脸的视频帧的采集时间、与所述特定人脸相对应的音频部分和与所述特定人脸相对应的音频部分的采集时间。
[0119]根据本发明另一方面，提供了一种检索装置，包括:
[0120]接收模块，用于接收针对目标人脸的检索指示；
[0121 ]查找模块，用于根据所述检索指示从数据库中查找所述目标人脸的相关信息；以及
[0122]输出模块

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许欣然;印奇;
技术所有人：北京旷视科技有限公司;北京小孔科技有限公司;
我是此专利的发明人

上一篇：一种用于学习者自适应学习的问答方法及装置的制造方法
上一篇：一种基于地理主题模型的信息处理方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。