视频会议热点场景的检测方法和装置的制造方法_3

文档序号：9567413阅读：来源：国知局

用于判断视频会议现场的观看者作出特定行为的持续时间和/或参与人数的比例是否超过第一预定值，和/或判断视频会议现场的观看者作出特定行为的持续时间和/或参与人数的比例是否低于第五预定值；第二发送模块耦合至第二判断模块，用于方将视频会议现场的视频数据和/或音频数据发送给视频发送方，其中，发送的条件为:视频会议现场的观看者作出特定行为的持续时间和/或参与人数的比例超过第一预定值，和/或视频会议现场的观看者作出特定行为的持续时间和/或参与人数的比例低于第五预定值。
[0048]为了使本发明的技术方案和实现方法更加清楚，下面将结合优选的实施例对其实现过程进行详细描述。
[0049]本优选实施例提供了一种视频会议或直播中热点场景的检测和检索方法，该方法用于在视频会议或直播过程中，实时识别观看者对视频的反应动作，以此判断热点场景，并自动生成热点场景的检索关键词，包括如下之一的特征:
[0050]1、实时分析观看视频一方或多方的观看者的动作，识别观看者对视频做出的讨论、注视、鼓掌等反应，将反应动作集中的片段作为热点场景，同时得到热点场景在视频中出现的时段；对上述热点场景中的音频数据进行语音识别，统计所识别的词汇的出现频率，并将频繁出现的词汇作为该热点场景的检索关键词。
[0051]2、识别观看者对视频做出的讨论、注视、鼓掌等反应动作，视频会议或直播中，其中一方或多方当前视频的观看者，在本地有图像传感器、深度传感器等设备，能够实时获得观察者对视频做出的反应动作，对这些反应动作进行分析识别。
[0052]3、识别观看者对视频做出的反应动作，并与模板进行匹配，判断当前反应动作是否是讨论、注视、鼓掌等动作。
[0053]4、如果确定属于与上述模板匹配的动作，则跟踪该动作的持续时间或参与人数比例，如果持续时间或参与人数比例超过某个阈值，认为观看者对该视频片段有兴趣，由此判断该视频片段为热点场景，并记录在视频会议或直播中所处的时间位置。
[0054]5、对检测到的热点场景中的音频数据进行语音识别，统计所识别的词汇的出现频率，并将频繁出现的词汇作为热点场景的检索关键词。
[0055]6、视频会议或直播中，其中一方或多方当前视频的观看者，在本地有声音传感器等设备，能够实时获得观看者对视频做出的反应语音，在检测到热点场景后，同时识别热点场景时段，观看者对视频做出的反应语音，统计所识别的词汇的出现频率，并将频繁出现的词汇作为热点场景的检索关键词。
[0056]7、获取当前视频和观看者在热点场景时段的语音后，同时分析热点场景的语音和观看者反应语音，统计所识别的词汇的出现频率，选择两者都具有的出现频率高的词汇作为热点场景的检索关键词。
[0057]8、在热点场景时段，分析某个反应动作的持续时间或参与人数比例，将反应更强烈或较弱的观看者以适当的方式呈现给视频发送方，可以让视频发送方更直接的获得观看者对当前视频的感受，便于发送方做出相应的调整。
[0058]9、在热点场景时段，同时分析热点场景的语音和观看者的反应语音，统计所识别的词汇的出现频率，选择其中频率最高的3?5个词汇进行比较，如果观看者的词汇和词汇出现的频率与热点场景中的词汇和词汇出现的频率接近，则认为观看者对热点场景做出了正面的反应，否则认为观看者对热点场景做出了负面的反应，或者没有反应。将上述统计结果以适当的形式反馈给视频发送方，便于发送方做出相应的调整。
[0059]10、以观看者反应动作或反应语音为依据选择一个或多个观看者呈现给视频发送方，其呈现方式包括:实时的文字显示、文本日志记录、该时段的视频记录、以及实时的视频显示等。视频发送方也可以选择将观看者的视频呈现给观看者。
[0060]其中，上述特征在不冲突的情况下可以相互结合描述和说明。
[0061]优选地，如图3所示，在某个观看者地点，可能有一个或多个观看者，但一般观看者地点只有一个图像传感器和深度传感器。图像传感器和深度传感器，实时采集观看者地点所有观看者的图像和深度信息。系统首先检测并跟踪观看者的人脸、人手、眼睛等，并分析人脸、人手、眼睛的移动或做出的动作，一旦这些动作与预先存储的模板中的动作相匹配，即认为观看者对视频做出了反应动作。如两个或多个人脸朝向一个方向，同时唇部形状发生变化，即认为观看者在讨论问题；如在短时间内，同一人的双手的手掌不断发生碰撞和离开的动作，即认为观看者在鼓掌；如同时有多个观看者的眼睛朝向屏幕方向，并保持该状态一段时间，即认为观看者在注视屏幕。如果在该观看者地点，一段时间内识别出的反应动作持续了足够的时间，或持续时间稍短但做出反应的观看者所占的比例超过某一阈值，即认为该观看者地点的观看者对视频做出了反应动作，该时段的视频为热点场景。
[0062]优选地，由视频发送方实时汇总所有观看者地点对热点场景的检测结果，一旦发现判断某个时段为热点场景的观看者地点总数所在比例超过某个阈值(如80% )，即认为该时段为视频会议或直播的热点场景。
[0063]优选地，如图4所示，视频语音存储模块位于视频发送方或者视频会议或直播服务器，负责存储视频会议或直播过程中的语音数据。当视频发送方认为某个时段为热点场景后，视频发送方对该时段内存储的语音进行语音识别，并统计该时段内出现这些词汇的总数，并将出现频率最高的3?5个词汇作为该时段的检索关键词。
[0064]优选地，如图5所示，每个观看者地点也可以通过声音传感器采集该地点观看者发出的语音，并存储在观看者语音存储模块。当视频发送方认为某个时段为热点场景后，视频发送方将检测结果分发给各个观看者地点，有观看者地点的系统负责对该时段内的语音进行语音识别，并统计该时段内出现这些词汇的总数，并将统计结果汇总给视频发送方。视频发送方从视频语音存储中识别到的词汇统计结果与各观看者地点提交的词汇统计结果进行比较，选择出现频率最高的3?5个词汇作为当前热点场景的检索关键词。
[0065]优选地，如图6所示，视频发送方判断某个时段为热点场景，并得出热点场景的检索关键词后，再与各观看者地点提交的观看者在热点场景时段发出的反应语音的检索关键词进行比较。如果对比频率最高的3?5个词汇一致，认为该观看者地点对视频做出了正面的反应。视频发送方汇总各观看者地点提交的对热点场景时段所做反应动作的持续时间和参与人数，如果持续时间较长或者参与人数较多，认为该观看者地点对视频做出了正面的反应。
[0066]优选地，如图7所示，通过上述两种方法得出观看者对视频反应的程度，并以此为依据选择一个或多个观看者呈现给视频发送方，其呈现方式包括:实时的文字显示、文本日志记录、该时段的视频记录、以及实时的视频显示等。视频发送方也可以选择将观看者的视频呈现给观看者。
[0067]综上所述，通过本发明的上述实施例或优选实施例和优选实施方式，通过分析观看视频一方或多方的观看者的动作，识别观看者对视频做出的讨论、注视、鼓掌等反应，将反应动作集中的片段作为热点场景，同时得到热点场景在视频中出现的时段

完整全部详细技术资料下载

当前第3页1 2 3 4