一种信息处理方法以及信息处理装置的制造方法_3

文档序号：8459406阅读：来源：国知局

视频文件的预览效果影响很小，所以还可以不设置第一光场图像帧的焦点等等，当然，通过本实施例的介绍，本领域所属的技术人员能够根据实际情况，选择其他合适的方式来设置第一光场图像帧的焦点，在此就不再赘述了。
[0056]在确定该光场图像帧的焦点以后，即能够根据该光场图像帧所记录的光场信息，对该光场图像帧进行重聚焦处理，从而获得以讲话者为焦点的光场图像帧，在此就不再赘述了。
[0057]通过上述第二种方式对该视频文件中的每一光场图像帧进行处理之后，即能够分别确定出每一光场图像帧中讲话者所在的位置，接着确定出该光场图像帧的焦点，然后将各个已确定焦点的光场图像帧结合在一起，从而可以生成光场摄像单元摄录的视频文件的预览视频文件，由于预览视频文件中每一光场图像帧都具有焦点，所以实现了将光场相机摄录的视频文件转换为具有焦点的预览视频文件，从而便于预览的技术效果。
[0058]第三种方式:根据视频文件中的音频信息和唇动识别，确定参会者中的讲话者所在的位置，具体来讲，可以包括:对音频信息进行分析，获得光场图像帧对应的最强声音；对光场图像帧进行唇动识别，并根据唇动识别的结果，确定光场图像帧中唇动的人脸；匹配最强声音与唇动的人脸，确定与最强声音匹配的唇动的人脸所在的位置为讲话者所在的位置。
[0059]请参考图4，图4是本发明实施例提供的通过视频文件中的音频信息和唇动识别，确定参会者中的讲话者所在的位置的示意图，如图4所示，在参加视频电话会议的第一分会场中，包括3个参会者，在光场摄像单元摄录获得该三个参会者参加会议的过程所获得的视频文件的时候，同时还通过声音采集单元，如麦克风或者麦克风阵列采集该第一分会场中的音频信息，对该音频信息进行分析，从而获得需要确定焦点的光场图像帧对应的最强声音，例如，可以是获得第一光场图像巾贞对应的最强声音。
[0060]然后对需要确定焦点的光场图像帧进行唇动识别，并根据唇动识别的结果，确定第一光场图像帧中唇动的人脸，例如，可以是对第一光场图像帧进行唇动识别，然后根据人脸识别的结果，确定第一光场图像帧中唇动的人脸，请继续参考图4，如图4所示，第一光场图像帧中包括2个唇动的人脸。
[0061]当然，上述获得该光场图像帧对应的最强声音这一步骤与确定该光场图像帧中唇动的人脸这一步骤的执行顺序不限定，可以调换顺序，也可以同时执行，在此不做限制。
[0062]接着，匹配前述步骤中获得的最强声音与唇动的人脸的唇部动作，具体来讲，唇部动作可以通过提取人脸上的唇部特征，然后对提取出的人脸上的唇部特征进行唇语识别，例如可以采用隐马尔可夫模型(Hidden Markov Model, HMM)算法来进行唇语识别,最后再将该光场图像帧对应的最强声音与根据唇动的人脸的唇部动作进行唇语识别后的结果进行匹配。
[0063]最后，确定与该最强声音匹配的唇动的人脸所在的位置为参会者中的讲话者所在的位置，例如，如图4所示，与最强声音匹配的唇动的人脸所在的位置为参会者A所在的位置，则可以确定参会者A所在的位置为讲话者所在的位置。
[0064]在确定该光场图像帧的焦点以后，即能够根据该光场图像帧所记录的光场信息，对该光场图像帧进行重聚焦处理，从而获得以讲话者为焦点的光场图像帧，在此就不再赘述了。
[0065]通过上述第三种方式对该视频文件中的每一光场图像帧进行处理之后，即能够分别确定出每一光场图像帧中的讲话者所在的位置，接着确定出该光场图像帧的焦点，然后将各个已确定焦点的光场图像帧结合在一起，从而可以生成光场摄像单元摄录的视频文件的预览视频文件，由于预览视频文件中每一光场图像帧都具有焦点，所以实现了将光场相机摄录的视频文件转换为具有焦点的预览视频文件，从而便于预览的技术效果。
[0066]本发明实施例的上述部分介绍了确定光场图像帧的焦点的三种方式，通过本发明实施例的介绍，本领域所属的技术人员能够根据实际情况，选择其他合适的方式来确定光场图像帧的焦点，以满足实际情况的需要，在此就不再赘述了。
[0067]在通过步骤S2确定视频文件中光场图像帧的焦点之后，本发明实施例通过的信息处理方法进入步骤S3，即:基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。
[0068]步骤S3的具体实现过程，在步骤S2中介绍确定视频文件中光场图像帧的焦点的时候已经进行了相应的描述，本领域所属的技术人员通过本实施例的介绍，即能够知晓将各个已确定焦点的光场图像帧结合在一起的具体过程，在此为了说明书的简洁，就不再赘述了。
[0069]结合上述部分，本发明实施例还提供一种通信终端，请参考图5，图5是本发明实施例提供的通信终端的功能模块图，如图5所示，该会议终端包括:光场摄像单元501，用于摄录一通信场景的视频文件；处理单元502，与光场摄像单元501相连，用于确定视频文件中光场图像帧的焦点，并基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。
[0070]在具体实施过程中，请继续参考图5，本发明实施例提供的通信终端还包括:声音采集单元503，与处理单元502相连，用于采集该通信场景的音频信息。
[0071]在具体实施过程中，请继续参考图5，本发明实施例提供的通信终端还包括:显示单元504，与处理单元502相连，用于显示光场摄像单元摄录的视频文件。当然，显示单元504还可以显示与该通信终端进行通信的另一通信终端发送的视频文件，在此不做限制。
[0072]在具体实施过程中，请继续参考图5，本发明实施例提供的通信终端还包括:通信单元505，与处理单元502相连，用于将光场摄像单元摄录的视频文件发送给另一设备，如另一通信终端，或者一个服务器，在此不做限制。
[0073]在具体实施过程中，请继续参考图5，本发明实施例提供的通信终端还包括:存储单元506,与处理单元502相连,用于存储光场摄像单元摄录的视频文件或处理单元502生成的该视频文件的预览视频文件。
[0074]基于同一发明构思，本发明实施例还提供一种信息处理装置，请参考图6，图6是本发明实施例提供的信息处理装置的功能模块图，如图6所示，该信息处理装置包括:光场摄像单元601,用于摄录视频文件；处理单元602,用于获取光场摄像单元601摄录的视频文件，并根据视频文件中的音频信息和/或人脸信息，确定视频文件中光场图像帧的焦点，并基于已确定焦点的光场图像帧，生成视频文件的预览视频文件。
[0075]在具体实施过程中，视频文件为一视频会议的视频文件，处理单元602具体用于通过对光场图像帧进行人脸识别，确定光场图像帧中的参会者所在的位置，并根据参会者所在的位置，并通过视频文件中的音频信息和/或唇动识别，确定参会者中的讲话者所在的位置，并将讲话者所在的位置确定为视频文件中光场图像帧的焦点。
[0076]在具体实施过程中，处理单元602具体用于对视频文件中的音频信息进行分析，确定讲话者所在的位置，音频信息由一麦克风阵列在光场摄像单元601摄录视频文件时同步获得。
[0077]在具体实施过程中，处理单元602具体用于对光场图像帧进行唇动识别，并根据唇动识别的结果，确定光场图像帧中唇动的人脸所在的位置，并确定唇动的人脸所在的位置为讲话者所在的位置。
[0078]在具体实施过程中，处理单元602具体用于对音频信息进行分析，获得光场图像帧对应的最强声音，并对光场图像帧进行唇动识别，并根据唇动识别的结果，确定光场图像帧中唇动的人脸，并匹配最强声音与唇动的人脸的唇部动作，确定与最强声音匹配的唇动的人脸所在的位置为讲话者所在的位置。

完整全部详细技术资料下载

当前第3页1 2 3 4