自助机具使用向导方法、系统、设备和介质与流程

文档序号：31478841发布日期：2022-09-10 01:13阅读：126来源：国知局

1.本技术属于计算机技术领域，具体涉及一种基于深度学习的自助机具使用向导方法。

背景技术：

2.自助终端在金融、医疗、交通和教育等领域应用越来越普及，大大方便了人们的生活。目前自助设备上的人机交互通常采用触摸显示器来实现，业务办理时需要客户自己识别操作区域进行指令输入，缺少业务办理的引导功能。在业务流程复杂或老年客户不熟悉触摸屏操作时，导致业务办理时间延长，降低了用户体验。若在现有系统上增加提示功能，需要进行软硬件升级改造，而且中断系统运行，影响系统的正常使用。

技术实现要素：

3.(一)要解决的技术问题
4.鉴于现有技术的上述缺点、不足，本技术提供一种基于深度学习的自助机具使用向导方法、系统、设备和介质。
5.(二)技术方案
6.为达到上述目的，本技术采用如下技术方案：
7.第一方面，本技术实施例提供一种基于深度学习的自助机具使用向导方法，该方法包括：
8.s10、获取通过第一视频采集装置实时采集的预设区域的视频流作为待检测视频流；
9.s20、通过预先训练的目标检测模型对所述待检测视频流进行目标客户检测，得到目标客户检测结果；
10.s30、基于所述目标客户检测结果，生成第一语音控制信号和第一激光控制信号，所述第一语音控制信号和所述第一激光控制信号用于控制语音装置和激光投影装置分别输出业务办理的第一语音提示和第一激光引导标记；
11.s40、获取通过第二视频采集装置实时采集的所述自助机具的显示屏图像，将所述显示屏图像输入到训练好的图像匹配模型，得到相应的操作界面图像，基于所述操作界面图像生成用于驱动所述激光投影装置投射激光引导标记至当前显示屏显示界面中操作区域的第二激光控制信号和用于驱动语音装置生成相应操作提示的第二语音控制信号；其中，所述图像匹配模型为基于卷积神经网络建立的网络模型。
12.可选地，s30还包括：
13.s31、获取音频采集装置实时采集的音频信号，通过谱减算法对所述音频信号进行降噪处理，得到有效音频数据；
14.s32、通过语音端点检测算法，对所述有效音频数据进行语音检测，得到有效语音数据；
15.s33、通过预设的语音识别模型，对所述有效语音数据进行语音识别，得到所述目标对象的对话文本信息；
16.s34、通过预设的关键词检测模型，对所述对话文本信息进行关键词检测，得到业务办理关键词；
17.s35、基于所述业务办理关键词生成第三语音控制信号和第三激光控制信号。
18.可选地，s40中，基于所述操作界面图像生成用于驱动所述激光投影装置投射激光引导标记至当前显示屏显示界面中操作区域的第二激光控制信号和用于驱动语音装置生成相应操作提示的第二语音控制信号，包括：
19.基于所述操作界面图像从预先建立的显示屏操作界面库中匹配得到相应的预置操作界面图像，所述显示屏操作界面库包括每个业务办理流程中每个步骤的操作界面图像并标记有可操作区域的位置信息；
20.根据匹配得到的预置操作界面图像对所述第二视频采集装置进行校准；
21.基于可操作区域的位置信息，确定激光引导标记的投射位置和操作提示文本信息；
22.基于所述投射位置和所述操作提示文本信息生成第二激光控制信号和第二语音控制信号。
23.可选地，在s10之前还包括：
24.建立显示屏操作界面库，所述显示屏操作界面库中的每个操作界面图像标记有业务名称、业务办理中的位次顺序信息和可操作区域的位置信息；
25.确定所述可操作区域的操作提示文本信息，并建立所述可操作区域的位置信息和所述操作提示文本信息间的映射关系；
26.建立所述操作界面图像和所述激光投影装置点阵位置映射的转换矩阵。
27.可选地，将所述显示屏图像输入到训练好的图像匹配模型，得到相应的操作界面图像，包括：
28.分别提取所述显示屏图像的基本图像特征、sift图像特征，所述基本图像特征为边缘特征、关键点特征、直方图特征中的一种或多种；
29.基于所述基本图像特征、所述sift图像特征和所述图像匹配模型得到的图像特征进行特征融合；
30.基于特征融合结果确定相应的操作界面图像。
31.可选地，所述第一语音控制信号和所述语音控制信号通过预设的tts引擎生成。
32.第二方面，本技术实施例提供一种基于深度学习的自助机具使用向导系统，该系统包括第一视频采集装置、第二视频采集装置、语音装置、激光投影装置和控制装置，所述第一视频采集装置、所述第二视频采集装置、所述语音装置、所述激光投影装置分别与所述控制装置连接；
33.所述第一视频采集装置，用于采集目标对象的视频信号，并所述视频信号以视频流的形式发送至所述控制装置；
34.所述第二视频采集装置，用于采集自助机具的显示屏图像，并所述显示屏图像发送至所述控制装置；
35.所述控制装置，用于接收所述视频流和所述显示屏图像，并基于所述视频流和所
述显示屏图像采用如上第一方面任一项所述的基于深度学习的自助机具使用向导方法输出语音控制信号至所述语音装置和激光控制信号至所述激光投影装置；
36.所述语音装置，用于基于所述语音控制信号输出语音提示；
37.所述激光投影装置，用于基于所述激光控制信号输出激光引导标记。
38.可选地，所述激光投影装置为激光投影阵列，所述激光投影阵列包括以二维阵列形式排列的多个激光光源和与每个激光光源连接的控制开关。
39.第三方面，本技术实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上第一方面任一项所述的基于深度学习的自助机具使用向导方法的步骤。
40.第四方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被所述处理器执行时实现如上第一方面任一项所述的基于深度学习的自助机具使用向导方法的步骤。
41.(三)有益效果
42.本技术的有益效果是：本技术提出了一种基于深度学习的自助机具使用向导方法，包括：s10、获取通过第一视频采集装置实时采集的预设区域的视频流作为待检测视频流；s20、通过预先训练的目标检测模型对待检测视频流进行目标客户检测，得到目标客户检测结果；s30、基于目标客户检测结果，生成第一语音控制信号和第一激光控制信号；s40、获取通过第二视频采集装置实时采集的自助机具的显示屏图像，将显示屏图像输入到训练好的图像匹配模型，得到相应的操作界面图像，基于操作界面图像生成用于驱动激光投影装置投射激光引导标记至当前显示屏显示界面中操作区域的第二激光控制信号和用于驱动语音装置生成相应操作提示的第二语音控制信号。本技术方法提供业务办理的引导功能，缩短了业务办理时间，提高了用户体验，并且不影响现有系统的正常使用。
附图说明
43.本技术借助于以下附图进行描述：
44.图1为本技术一个实施例中的基于深度学习的自助机具使用向导方法流程示意图；
45.图2为本技术另一个实施例中的基于深度学习的自助机具使用向导方法流程示意图；
46.图3为本技术另一个实施例中的摄像机和激光投影设备安装位置示意图；
47.图4为本技术再一实施例中的基于深度学习的自助机具使用向导系统结构示意图；
48.图5为本技术再一实施例中的激光投影阵列结构示意图；
49.图6为本技术又一实施例中的电子设备的架构示意图。
具体实施方式
50.为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。可以理解的是，以下所描述的具体的实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的
特征可以相互组合；为了便于描述，附图中仅示出了与发明相关的部分。
51.实施例一
52.图1为本技术一个实施例中的基于深度学习的自助机具使用向导方法流程示意图，如图1所示，本实施例基于深度学习的自助机具使用向导方法包括以下步骤：
53.s10、获取通过第一视频采集装置实时采集的预设区域的视频流作为待检测视频流；
54.s20、通过预先训练的目标检测模型对待检测视频流进行目标客户检测，得到目标客户检测结果；
55.s30、基于目标客户检测结果，生成第一语音控制信号和第一激光控制信号，第一语音控制信号和第一激光控制信号用于控制语音装置和激光投影装置分别输出业务办理的第一语音提示和第一激光引导标记；
56.s40、获取通过第二视频采集装置实时采集的自助机具的显示屏图像，将显示屏图像输入到训练好的图像匹配模型，得到相应的操作界面图像，基于操作界面图像生成用于驱动激光投影装置投射激光引导标记至当前显示屏显示界面中操作区域的第二激光控制信号和用于驱动语音装置生成相应操作提示的第二语音控制信号；其中，图像匹配模型为基于卷积神经网络建立的网络模型。
57.本实施例的基于深度学习的自助机具使用向导方法提供业务办理的引导功能，缩短了业务办理时间，提高了用户体验，并且不影响现有系统的正常使用。
58.本实施例的基于深度学习的自助机具使用向导方法可以应用于电子设备中。其中，电子设备可以通过搭载软件系统执行本实施例的方法。电子设备的类型可以是笔记本电脑，计算机，服务器等。本技术不对电子设备的具体类型进行特别限定。
59.为了更好地理解本发明，以下以服务器为执行主体对本实施例中的各步骤进行展开说明。
60.本实施例s10中，可以通过位于自助机具所在工作场所的第一视频采集装置来实时采集视频流，这里，第一视频采集装置可以是摄像头，预设区域可以工作场所入口处或。
61.本实施例s30中，当检测到目标客户时，第一语音提示可以是介绍不同自助机具的功能和可办理的业务，第一激光引导标记可以是在介绍每个自助机具时，激光投影装置向该自助机具投射的激光引导标记。
62.这里，激光投影装置可以安装于自助机具的上方。
63.本实施例s40中，第二视频采集装置可以设置于自助机具的上方，第一视频采集装置、第二视频采集装置与服务器之间可以通过无线网络或有线网络的方式，建立通信连接，服务器通过上述建立的通信连接，来接收第一视频采集装置发送的视频流和第二视频采集装置发送的显示屏图像。
64.实施例二
65.本实施例的执行主体是设置于自助机具所在工作场所的边缘计算设备，图2为本技术另一个实施例中的基于深度学习的自助机具使用向导方法流程示意图，如图2所示，该方法包括：
66.s1、待机状态系统通过摄像机实时采集视频流，并检测是否有用户靠近并播放语音提示。
67.检测是否有用户可以采用多种方式，例如可以是基于深度学习的目标检测器，检测类别是人体，也可以基于传统计算机视觉技术的目标检测器。当然也可以结合其他传感器来检测是否有用户，例如使用人体传感器来实现，或者通过声音传感器，采集用户的声音进行检测。
68.基于深度学习的目标检测器属于现有技术，本实施例不再展开说明。
69.s2、若未检测到用户，则返回步骤s1；否则执行步骤s3；
70.s3、生成第一语音控制信号和第一激光控制信号，第一语音控制信号和第一激光控制信号用于控制语音装置和激光投影装置分别输出业务办理的第一语音提示和第一激光引导标记；
71.具体地，本实施例中第一语音提示是语音播报询问办理业务，第一激光引导标记可以是指向自助机具的激光引导标记。
72.本实施例中，语音提示可以通过预设的文本到语音转换(texttospeech，tts)引擎实现文字转语音并播报的功能。
73.s4、获取音频采集装置实时采集的音频信号，判断是否识别到业务名称；
74.系统开启语音播报、询问用户办理的业务名后监听用户的响应，如果收到用户有效的业务名响应则切换到指定业务流程，如果无效则继续询问直到超时。识别业务名称的步骤包括：
75.通过谱减算法对音频信号进行降噪处理，得到有效音频数据；
76.通过语音端点检测算法，对有效音频数据进行语音检测，得到有效语音数据；
77.通过预设的语音识别模型，对有效语音数据进行语音识别，得到目标对象的对话文本信息；
78.通过预设的关键词检测模型，对对话文本信息进行关键词检测，得到业务办理关键词；这里业务关键词可以是业务名称。
79.s5、在识别过程中，
80.若未识别到业务名称，则进行超时判断，若不超时，则返回步骤s3，若超时，则返回步骤s1；
81.若识别到业务名称，则边缘计算设备基于业务办理关键词生成第三语音控制信号和第三激光控制信号，语音设备语音播报指引，激光投影装置投射激光引导标记到业务位置。
82.s6、通过人工智能(artificial intelligence，ai)进行画面迁移检测；
83.图3为本技术另一个实施例中的摄像机和激光投影设备安装位置示意图，如图3所示，顶端摄像机用于拍摄自助机具显示屏画面，边缘计算设备作为控制端，用于使用基于深度学习的ai模型预测当前界面，并定位到应用具体位置，激光投影设备用于根据定位到的应用具体位置，投射引导标记，指引用户操作，喇叭用于播放语音，指引用户操作。
84.画面迁移检测用于判断画面是否发生了变化，画面迁移检测可以通过将显示屏图像输入到训练好的图像匹配模型，得到相应的操作界面图像，从而判断是否发生了画面迁移。
85.优选地，还可以分别提取显示屏图像的基本图像特征、sift图像特征，基本图像特征为边缘特征、关键点特征、直方图特征中的一种或多种；
86.基于基本图像特征、sift图像特征和图像匹配模型得到的图像特征进行特征融合，特征融合可以是加权的方式；
87.基于特征融合结果确定相应的操作界面图像。
88.s7、当识别到画面迁移时，边缘计算设备基于操作界面图像生成用于驱动激光投影装置投射激光引导标记至当前显示屏显示界面中操作区域的第二激光控制信号和用于驱动语音装置生成相应操作提示的第二语音控制信号，具体包括：
89.基于操作界面图像从预先建立的显示屏操作界面库中匹配得到相应的预置操作界面图像，显示屏操作界面库包括每个业务办理流程中每个步骤的操作界面图像并标记有可操作区域的位置信息；
90.根据匹配得到的预置操作界面图像对第二视频采集装置进行校准；
91.基于可操作区域的位置信息，确定激光引导标记的投射位置和操作提示文本信息；
92.基于投射位置和操作提示文本信息生成第二激光控制信号和第二语音控制信号。
93.激光投影装置投射激光引导标记至当前显示屏显示界面中操作区域，语音装置生成相应操作提示进行语音播报。
94.s8、重复执行s6-s7直至当前业务办理流程结束。
95.需要说明的是，在步骤s1之前还需要包括：
96.建立显示屏操作界面库，显示屏操作界面库中的每个操作界面图像标记有业务名称、业务办理中的位次顺序信息和可操作区域的位置信息；
97.确定可操作区域的操作提示文本信息，并建立可操作区域的位置信息和操作提示文本信息间的映射关系；
98.建立操作界面图像和激光投影装置点阵位置映射的转换矩阵。
99.这里可操作区域可以是按钮、输入框等。
100.实施例三
101.图4为本技术再一实施例中的基于深度学习的自助机具使用向导系统结构示意图，请参阅图4，本技术第二方面通过实施例二提供一种基于深度学习的自助机具使用向导系统，该系统包括第一视频采集装置10、第二视频采集装置20、控制装置30、语音装置40、激光投影装置50，第一视频采集装置10、第二视频采集装置20、语音装置40、激光投影装置50分别与控制装置30连接；
102.第一视频采集装置10，用于采集目标对象的视频信号，并视频信号以视频流的形式发送至控制装置30；
103.第二视频采集装置20，用于采集自助机具的显示屏图像，并显示屏图像发送至控制装置30；
104.控制装置30，用于接收视频流和显示屏图像，并基于视频流和显示屏图像采用如上实施例一中所述的基于深度学习的自助机具使用向导方法输出语音控制信号至语音装置40和激光控制信号至激光投影装置50；
105.语音装置40，用于基于语音控制信号输出语音提示；
106.激光投影装置50，用于基于激光控制信号输出激光引导标记。
107.通过采用实施例一中的基于深度学习的自助机具使用向导方法进行业务办理的
引导，缩短了业务办理时间，提高了用户体验，并且不影响现有系统的正常使用。
108.图5为本技术再一实施例中的激光投影阵列结构示意图，如图5所示，本实施例中激光投影装置50采用固定的激光投影阵列，具有独立的开关控制。控制装置输出控制信号控制阵列中投影灯的开关状态，从而显示激光引导标记进行指引。
109.实施例四
110.本技术第三方面通过实施例三提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上实施例一中任意一项所述的基于深度学习的自助机具使用向导方法的步骤。
111.图6为本技术又一实施例中的电子设备的架构示意图。
112.图6所示的电子设备可包括：至少一个处理器101、至少一个存储器102、至少一个网络接口104和其他的用户接口103。电子设备中的各个组件通过总线系统105耦合在一起。可理解，总线系统105用于实现这些组件之间的连接通信。总线系统105除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统105。
113.其中，用户接口103可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)或者触感板等。
114.可以理解，本实施例中的存储器102可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本文描述的存储器62旨在包括但不限于这些和任意其它适合类型的存储器。
115.在一些实施方式中，存储器102存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统1021和应用程序1022。
116.其中，操作系统1021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序622，包含各种应用程序，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1022中。
117.在本发明实施例中，处理器101通过调用存储器102存储的程序或指令，具体的，可以是应用程序1022中存储的程序或指令，处理器101用于执行第一方面所提供的方法步骤。
118.上述本发明实施例揭示的方法可以应用于处理器101中，或者由处理器101实现。处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可
编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102，处理器101读取存储器102中的信息，结合其硬件完成上述方法的步骤。
119.另外，结合上述实施例中的基于深度学习的自助机具使用向导方法，本发明实施例可提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上方法实施例中的任意一种基于深度学习的自助机具使用向导方法。
120.应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。
121.此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
122.尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
123.显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭长柱汝骏仁郭星
技术所有人：江苏范特科技有限公司
我是此专利的发明人

上一篇：直接拉紧式皮带机机尾的制作方法
上一篇：一种塑壳断路器用的智能加工机床的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。