一种信息处理方法以及信息处理装置的制造方法_2

文档序号：8459406阅读：来源：国知局

法，该方法包括:
[0028]获取光场摄像单元摄录的视频文件；
[0029]确定视频文件中光场图像帧的焦点；
[0030]基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。
[0031]通过上述部分可以看出，由于采用了获取光场摄像单元摄录的视频文件，并确定视频文件中光场图像帧的焦点，并基于已确定焦点的光场图像帧，生成视频文件的预览视频文件的技术方案，所生成的视频文件的预览视频文件中的光场图像帧是具有焦点的，也即该预览视频文件能够方便地供用户预览，所以解决了现有技术中存在的由于光场相机摄录获得的视频文件没有焦点，不便于预览的技术问题，实现了将光场相机摄录的视频文件转换为具有焦点的预览视频文件，从而便于预览的技术效果。
[0032]为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0033]本发明实施例提供一种信息处理方法，请参考图1，图1是本发明实施例提供的信息处理方法的流程图，如图1所示，该方法包括:
[0034]S1:获取光场摄像单元摄录的视频文件；
[0035]S2:根据视频文件中的音频信息和/或人脸信息，确定视频文件中光场图像帧的隹占.
[0036]S3:基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。
[0037]在接下来的部分中，将以本发明实施例提供的信息处理方法的应用在视频电话会议上为例，来进行详细的举例描述。
[0038]在步骤SI中，光场摄像单元具体可以是光场相机，其摄录的视频文件均是由光场图像帧组成，光场图像帧记录了拍摄该光场图像帧时该场景下光线的所有方向的信息，从而可以以该光场图像帧中任一点作为焦点。
[0039]获取光场摄像单元摄录的视频文件，具体来讲，可以是获得光场摄像单元已经摄录完成的视频文件，也可以是获得光场相机正在拍摄的视频文件，在此不做限制。
[0040]在通过步骤SI获取光场摄像单元摄录的视频文件后，本发明实施例提供的信息处理方法进入步骤S2，即:根据视频文件中的音频信息和/或人脸信息，确定视频文件中光场图像帧的焦点。
[0041]在步骤S2中，该视频文件具体可以是一个视频会议的视频文件，该视频文件记录了该视频会议的进行过程，具体来讲，确定视频文件中光场图像帧的焦点，可以是:通过对光场图像帧进行人脸识别，确定光场图像帧中的参会者所在的位置；根据参会者所在的位置，并通过视频文件中的音频信息和/或唇动识别，确定参会者中的讲话者所在的位置；将讲话者所在的位置确定为视频文件中光场图像帧的焦点。
[0042]在具体实施过程中，根据视频文件中的音频信息和/或唇动识别，确定参会者中的讲话者所在的位置，包括以下三种方式:第一种，仅根据视频文件中的音频信息，确定参会者中的讲话者所在的位置；第二种，仅根据视频文件中的唇动识别，确定参会者中的讲话者所在的位置；第三种，同时根据视频文件中的音频信息和唇动识别，确定参会者中的讲话者所在的位置。
[0043]在接下来的部分中，将结合实际情况，分别对上述确确定参会者中的讲话者所在的位置的三种方式进行介绍。
[0044]第一种方式:根据视频文件中的音频信息，确定参会者中的讲话者所在的位置，具体来讲，可以包括:对视频文件中的音频信息进行分析，确定光场图像帧中的讲话者所在的位置，该音频信息由一麦克风阵列在光场摄像单元摄录视频文件时同步获得。
[0045]请参考图2，图2是本发明实施例提供的通过视频文件中的音频信息，确定参会者中的讲话者所在的位置的示意图，如图2所示，在参加视频电话会议的第一分会场中，包括三个参会者，光场摄像单元在摄录该三个参会者参加会议的过程的时候，麦克风阵列同时获得第一分会场中的音频信息，如图2所示，在本实施例中，麦克风阵列可以包括2个麦克风阵列，在实际应用中，麦克风阵列可以包括3个、4个或者更多数量的麦克风，在此不做限制。
[0046]在具体实施过程中，首先，对该光场图像帧进行人脸识别，从而可以确定该光场图像中贞中的三个参会者以及该三个参会者所在的位置。
[0047]接着，可以采用基于时延估计的声源定位方法来确定光场图像帧中的讲话者所在的位置，在实际应用中，可以分两步进行，首先获得麦克风阵列的时间差估计(Time DelayEstimat1n, TDE)，即计算声源到麦克风阵列之间的时间差，然后根据时间差估计和麦克风阵列的位置，确定该视频文件中的音频信息中最强声音的发声位置，该最强声音的发声位置即是该光场图像帧中的讲话者所在的位置。
[0048]当然，除了前述所说的基于时延估计的声源定位方法之外，还可以采用其他算法，例如基于可控波束形成的方法或基于高分辨率谱估计的方法等等来确定该视频文件中的音频信息中光场图像帧对应的最强声音的发声位置，在此就不再赘述了。
[0049]在确定该视频文件中的音频信息中光场图像帧中的讲话者所在的位置被确定以后，即可以确定该光场图像帧中的讲话者所在的位置为该光场图像帧的焦点。
[0050]在确定该光场图像帧的焦点以后，即能够根据该光场图像帧所记录的光场信息，对该光场图像帧进行重聚焦处理，从而获得以讲话者为焦点的光场图像帧，在此就不再赘述了。
[0051]通过上述第一种方式对该视频文件中的每一光场图像帧进行处理之后，即能够分别确定出每一光场图像帧中的讲话者所在的位置，接着确定出该光场图像帧的焦点，然后将各个已确定焦点的光场图像帧结合在一起，从而可以生成光场摄像单元摄录的视频文件的预览视频文件，由于预览视频文件中每一光场图像帧都具有焦点，所以实现了将光场相机摄录的视频文件转换为具有焦点的预览视频文件，从而便于预览的技术效果。
[0052]第二种方式:根据视频文件中的人脸识别，确定参会者中的讲话者所在的位置，具体来讲，可以包括:对光场图像帧进行唇动识别，并根据唇动识别的结果，确定光场图像帧中唇动的人脸所在的位置；确定唇动的人脸所在的位置为光场图像帧中讲话者所在的位置。
[0053]请参考图3，图3是本发明实施例提供的通过唇动识别，确定参会者中的讲话者所在的位置的示意图，如图3所示，在参加视频电话会议的第一分会场中，包括3个参会者，在光场摄像单元摄录获得该三个参会者参加会议的过程所获得的视频文件中，对每一光场图像帧都进行人脸识别，从而获得每一光场图像帧的人脸图像，然后将该光场图像帧与前一光场图像帧进行对比，从而确定光场图像帧中唇动的人脸所在的位置，也即对该光场图像帧进行唇动识别，确定该光场图像帧中讲话者所在的位置。当然，除了通过对两个光场图像帧进行对比而进行唇动识别之外，还可以直接根据人脸图像中的嘴唇形状，与预先建立的嘴唇模型进行比较，从而确定该光场图像帧中发生唇动的人脸图像，在此就不再赘述了。
[0054]例如，请继续参考图3，如图3所示，第二光场图像帧与第一光场图像帧进行对比之后，可以确定参会者A所在的位置为唇动的人脸所在的位置，继而确定唇动的人脸所在的位置为光场图像帧中讲话者所在的位置，该视频文件的后续光场图像帧的焦点确定方式与第二光场图像帧的焦点确定方式一样，在此就不再赘述了。
[0055]当然，若第一光场图像帧为该视频文件的起始光场图像帧，由于该视频文件的第一光场图像帧没有对比对象，所以可以使用一预设的方式为第一光场图像帧设置焦点，例如设置第一光场图像帧的正中央为焦点等等，也可以在确定出第二光场图像帧的焦点之后，再根据第二光场图像帧的焦点确定第一光场图像帧的焦点等等，另外，因为第一光场图像帧对整个

完整全部详细技术资料下载

当前第2页1 2 3 4