基于手势识别的交互方法及系统与流程

文档序号：31219770发布日期：2022-08-20 05:27阅读：92来源：国知局

1.本发明涉及人工智能识别交互技术领域，尤其涉及一种基于手势识别的交互方法及系统。

背景技术：

2.随着人工智能技术的高速发展，视觉领域取得重大突破，人脸识别、目标检测、目标跟踪等视觉算法技术在各行各业应用广泛。目前在会议交互方式上，智能会议交互模式是未来发展的趋势。传统线上会议中的纯语音纯视频交互模式显得太过于单调，并且当传统线上会议中显示的画面包含的背景太多时，不能有效的聚焦参会者，以及在多人会议场景下，不能突显主讲人。
3.因此，本发明提出了一种基于手势识别的交互方法及系统，以有效聚焦会议中的主讲人和参会者。

技术实现要素：

4.本发明提出了一种基于手势识别的交互方法及系统，以有效聚焦会议中的主讲人和参会者。
5.第一方面，本发明通过一种基于手势识别的交互方法，包括：获取监控区域的视频数据流，并从所述视频数据流中获取图像帧；对所述图像帧执行人形检测，以确定所述图像帧中的人形区域；对所述人形区域执行手势检测，并根据所述手势检测的结果确定聚焦区域。
6.其有益效果在于：本发明通过根据所述手势检测的结果确定聚焦区域，以实时聚焦会议中的目标区域。若目标区域设置为主讲人或参会者的人形区域，则可以有效实时聚焦会议中的主讲人或参与者。
7.可选地，所述对所述人形区域执行手势检测，包括：对所述人形区域执行手势检测，若检测到第一手势，则确定包含所述第一手势的人形区域为主讲人的人形区域，不包含所述第一手势的人形区域为参会者的人形区域，并对所述主讲人的人形区域执行实时聚焦处理；若检测到第二手势，则对所述参会者的人形区域执行聚焦处理。其有益效果在于：根据主讲人比划的第一手势和第二手势，可以实现对聚焦区域的自由切换，以达到线上会议的效果。
8.进一步可选地，所述对所述人形区域执行手势检测，还包括：若既未检测到所述第一手势，也未检测到所述第二手势，则对所述参会者的人形区域执行实时聚焦处理。其有益效果在于：通过对所述参会者的人形区域执行实时聚焦处理，可以保护参会者的隐私，并且可以有效屏蔽一些无用信息或干扰信息。
9.可选地，所述对所述主讲人的人形区域执行实时聚焦处理，包括：对所述主讲人的人形区域执行人脸检测，并根据所述人脸检测的结果确定所述主讲人的面部特征；当未检测到所述主讲人的人形区域时，基于所述主讲人的面部特征对所述图像帧执行人脸识别；
基于所述人脸识别的结果确定包含所述主讲人的人形区域，并对包含所述主讲人的人形区域执行实时聚焦处理。其有益效果在于：当由于遮挡等原因造成主讲人的人形检测失败的时候，可以根据人脸识别的结果重新确定所述主讲人的人形区域，并进行实时聚焦，以防止聚焦目标的丢失。
10.进一步可选地，所述基于所述主讲人的面部特征对所述图像帧执行人脸识别，包括：若未识别到所述主讲人的人脸，则退出对主讲人的人形区域的实时聚焦处理，并对所述参会者的人形区域执行实时聚焦处理。其有益效果在于：若主讲人的人脸都检测不到，那说明主讲人可能暂时离开会议，则切换为对参会者的人形区域的聚焦。
11.可选地，所述基于手势识别的交互方法，还包括：在所述主讲人的人形区域和所述参会者的人形区域周围设置防抖区域；若所述主讲人的人形的位置超出所述防抖区域，则对所述图像帧重新进行人形检测，并根据检测结果，重新确定所述主讲人的人形区域；若所述参会者的人形的位置超出所述防抖区域，则对所述图像帧重新进行人形检测，并根据检测结果重新确定所述参会者的人形区域。其有益效果在于：因为人的位置是会发生变化的，比如低头做笔记、或者拿水杯、或者突然站立或坐下，因此，有必要设置防抖范围，以将人形区域控制在一个合理的范围内，并可减少重新人形检测的次数。
12.进一步可选地，若所述主讲人的位置未超出所述防抖区域，则锁定所述主讲人的人形区域；若所述参会者的位置未超出所述防抖区域，则锁定所述参会者的人形区域。
13.可选地，所述对所述主讲人的人形区域执行实时聚焦处理，包括：对所述主讲人的人形区域进行特征提取，并基于检测到的所述第一手势，预测所述主讲人在下一帧的行动轨迹，以实现对所述主讲人的人形区域的实时聚焦处理。
14.第二方面，本发明通过一种基于手势识别的交互系统，被配置为执行如第一方面中任一项所述的基于手势识别的交互方法，所述系统包括执行上述第一方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。
15.关于上述第二方面的有益效果可以参见上述第一方面中的描述。
附图说明
16.图1为本发明提供的一种基于手势识别的交互方法实施例流程图；
17.图2为本发明提供的一种基于手势识别的交互系统实施例结构示意图；
18.图3为本发明提供的一种线上会议画面截图示意图。
具体实施方式
19.下面结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。其中，在本技术实施例的描述中，以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本技术的限制。如在本技术的说明书和所附权利要求书中所使用的那样，单数表达形式“一种”、“该”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本技术以下各实施例中，“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系；例如，a和/或b，可以表示：单独存在a，同时存在a和b，
单独存在b的情况，其中a、b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
20.在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接，除非另外说明。“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
21.在本技术实施例中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
22.本发明提供了一种基于手势识别的交互方法，其流程如图1所示，包括：
23.s101：获取监控区域的视频数据流，并从所述视频数据流中获取图像帧；
24.s102：对所述图像帧执行人形检测，以确定所述图像帧中的人形区域；
25.s103：对所述人形区域执行手势检测，并根据所述手势检测的结果确定聚焦区域。
26.在一种可能的实施例中，可选地，所述对所述人形区域执行手势检测，包括：对所述人形区域执行手势检测，若检测到第一手势，则确定包含所述第一手势的人形区域为主讲人的人形区域，不包含所述第一手势的人形区域为参会者的人形区域，并对所述主讲人的人形区域执行实时聚焦处理；若检测到第二手势，则对所述参会者的人形区域执行聚焦处理。在本实施例中，根据主讲人比划的第一手势和第二手势，可以实现对聚焦区域的自由切换，以达到线上会议的效果。
27.在又一种可能的实施例中，所述对所述人形区域执行手势检测，还包括：若既未检测到所述第一手势，也未检测到所述第二手势，则对所述参会者的人形区域执行实时聚焦处理。在本实施例中，通过对所述参会者的人形区域执行实时聚焦处理，可以保护参会者的隐私，并且可以有效屏蔽一些无用信息或干扰信息。
28.示例性地，首先利用单目摄像头拍摄的画面，传入显示器中以显示视频会议的画面，并将该画面图像送入人形、手势检测模型中，以识别出画面中的人形以及手势。如未发现第一手势，则显示参会者的动态实时聚焦画面；若发现第一手势，则将画面动态实时聚焦到做手势者，也称主讲人，同时只有主讲人，做出第二手势才能关闭对所述主讲人的聚焦模式，并切换到参会者的动态实时聚焦画面。
29.在还一种可能的实施例中，所述对所述主讲人的人形区域执行实时聚焦处理，包括：对所述主讲人的人形区域执行人脸检测，并根据所述人脸检测的结果确定所述主讲人的面部特征；当未检测到所述主讲人的人形区域时，基于所述主讲人的面部特征对所述图像帧执行人脸识别；基于所述人脸识别的结果确定包含所述主讲人的人形区域，并对包含所述主讲人的人形区域执行实时聚焦处理。在本实施例中，当由于遮挡等原因造成主讲人的人形检测失败的时候，可以根据人脸识别的结果重新确定所述主讲人的人形区域，并进
行实时聚焦，以防止聚焦目标的丢失。
30.在一种可能的实施例中，所述基于所述主讲人的面部特征对所述图像帧执行人脸识别，包括：若未识别到所述主讲人的人脸，则退出对主讲人的人形区域的实时聚焦处理，并对所述参会者的人形区域执行实时聚焦处理。在本实施例中，若主讲人的人脸都检测不到，那说明主讲人可能暂时离开会议，则切换为对参会者的聚焦。
31.在一种可能的实施例中，在所述主讲人的人形区域和所述参会者的人形区域周围设置防抖区域；若所述主讲人的人形的位置超出所述防抖区域，则对所述图像帧重新进行人形检测，并根据检测结果，重新确定所述主讲人的人形区域；若所述参会者的人形的位置超出所述防抖区域，则对所述图像帧重新进行人形检测，并根据检测结果重新确定所述参会者的人形区域。在本实施例中，因为人的位置是会发生变化的，比如低头做笔记、或者拿水杯、或者突然站立或坐下，因此，有必要设置防抖范围，以将人形区域控制在一个合理的范围内，并可减少重新人形检测的次数。
32.在又一种可能的实施例中，若所述主讲人的位置未超出所述防抖区域，则锁定所述主讲人的人形区域；若所述参会者的位置未超出所述防抖区域，则锁定所述参会者的人形区域。
33.示例性地，因检测人的位置是不断变化的，会导致聚焦画面细微抖动，所以将目标位置控制在一个合理的范围内，即需要设置防抖范围。超出该范围则重新获取当前帧检测出的目标位置，反之为上一帧目标位置，设当前帧为i、目标位置为x、抖动范围为k，则：可选地，还可以继续进行冗余处理，基于主讲人位置或参会者位置，进行加宽处理，使得画面显示更具合理性，设当前帧为i、目标大小为y、冗余系数为r，则：y＝y*r(r≥1)；然后对目标人形区域执行聚焦处理，该处理是一个滑动聚焦过程，当画面从一个位置聚焦到另一个位置的时候，画面也是从一个位置缓慢移动到另一位置，形成一种画面动态丝滑移动过程，设当前帧为i、滑动系数为a且范围(0，1)、目标位置宽w，中心点(cx,cy)，按宽、中心点滑动，则：实际画面是一个最终输出显示的固定尺寸画面，通过上述计算出的宽，按实际画面尺寸比例算出高，最后以宽，高，中心点确定画面，再同比例缩放得到实际画面。
34.在一种可能的实施例中，所述对所述主讲人的人形区域执行实时聚焦处理，包括：对所述主讲人的人形区域进行特征提取，并基于检测到的所述第一手势，预测所述主讲人在下一帧的行动轨迹，以实现对所述主讲人的人形区域的实时聚焦处理。
35.示例性地，基于深度学习和传统跟踪思想相结合的方法，预测所述主讲人在下一帧的行动轨迹。首先通过手势识别开启跟踪模式，基于检测算法识别出主讲人，利用卡尔曼滤波方法和reid(行人重识别)方法预测主讲人下一帧轨迹和特征信息，然后通过匈牙利算法将得到的轨迹信息和特征信息与当前帧检测识别出的主讲人相匹配的过程。
36.本发明所提供的所述基于手势识别的交互方法，能够摆脱传统遥控方式，在远距离通过执行手势指令实现智能操控。
37.本发明通过一种基于手势识别的交互系统，被配置为执行如上述任一项实施例所述的基于手势识别的交互方法，如图2所示，所述交互系统包括：获取模块201、人形检测模块202、手势检测模块203、聚焦模块204；所述获取模块201用于获取监控区域的视频数据流，并从所述视频数据流中获取图像帧；所述人形检测模块202用于对所述图像帧执行人形检测，以确定所述图像帧中的人形区域；所述手势检测模块203用于对所述人形区域执行手势检测，所述聚焦模块204用于根据所述手势检测的结果确定聚焦区域。
38.在一种可能的实施例中，所述手势检测模块包括：设置单元和检测单元；所述设置单元用于设置第一手势和第二手势；所述检测单元用于对所述人形区域执行手势检测；若检测到所述第一手势，则确定包含所述第一手势的人形区域为主讲人的人形区域，不包含所述第一手势的人形区域为参会者的人形区域，所述聚焦模块对所述主讲人的人形区域执行实时聚焦处理；若检测到第二手势，则所述聚焦模块对所述参会者的人形区域执行聚焦处理。
39.示例性地，如图3所示，所述线上会议的全画面中包括主讲人在内共5个参会人，主讲人的人形区域1、参会者的人形区域2-4。若检测到所述第一手势，所述聚焦模块对所述主讲人的人形区域1执行实时聚焦处理；若检测到第二手势，则所述聚焦模块则对所述参会者的人形区域2-4执行聚焦处理。
40.以上所述，仅为本技术实施例的具体实施方式，但本技术实施例的保护范围并不局限于此，任何在本技术实施例揭露的技术范围内的变化或替换，都应涵盖在本技术实施例的保护范围之内。因此，本技术实施例的保护范围应以所述的权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐东升丁为国朱雷震
技术所有人：上海庄生晓梦信息科技有限公司
我是此专利的发明人

上一篇：一种防震塑料盒的制作方法
上一篇：一种兼具虹吸排水功能的曲形管边坡排水系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。