一种基于语音控制展厅的方法及控制系统与流程

文档序号：24784179发布日期：2021-04-23 09:31阅读：164来源：国知局

1.本发明涉及展厅控制技术领域，具体来说是一种基于语音控制的展厅系统及方法。

背景技术：

2.随着经济的发展，各种展示人文、历史、企业形象等展厅越来越多。但是，现有的展厅大多都是通过人工讲解和手动操作去演示，一方面会花费讲解人员较多的时间，另一方面容易产生操作失误，给参观者带来的体验感较差，同时展厅的整体科技感也不强，互动交流较少。
3.如申请号为202010576960.8公开的一种智慧展厅智能控制系统，针对现有技术中存在的技术问题，提供一种智慧展厅智能控制系统，所述中控模块与人工智能模块、数据库模块、电器元件部分和展示终端模块分别通信连接，所述人工智能模块与数据库模块、展示终端模块分别通信连接，所述展示终端模块和数据库模块通信连接。针对这种交互不方便性，引入了人工智能的图形识别和语音识别技术，使得管理员和体验者不需要再附带任何控制设备，只通过人脸和语音就能对整个展厅进行权限管理和控制交互。该系统虽然一定程度上能够实现语音控制，但是展厅无法识别工作人员和访客，无法根据工作人员和访客做出对应的反馈。

技术实现要素：

4.本发明所要解决的技术问题在于提供一种根据进入展厅的是工作人员或是访客提供不同展厅模式。
5.本发明通过以下技术手段实现解决上述技术问题的：
6.一种基于语音控制展厅的方法，包括以下步骤：
7.步骤一：门禁单元采集人脸信息数据，确认人员是否为工作人员，如果是则进入步骤二；如果不是工作人员，确认为访客后，则进入步骤三；
8.步骤二：确认为工作人员后，门禁解除，此时为普通模式，工作人员进入展厅内；
9.步骤三：此时为会客模式，展厅内的灯光和空调自动开启，语音交互系统管理主机自动唤醒，智能语音主机播报致欢迎词和序言介绍，播报环境探测器监测到的数据；
10.步骤四：需要调整展厅的灯光、空调等智能设备，工作人员对智能语音主机说出意图，语音交互系统管理主机理解意图并响应，并发出控制指令给zigbee网关，进而控制相对应的智能设备；工作人员还可以对移动终端，比如手机、对讲机说出控制指令，通过无线ap也能够语音控制各个设备的运行；
11.步骤五：工作人员走到相应的展示区内，通过话筒进行提问，语音交互系统管理主机进行处理，对访客进行解说；
12.步骤六：工作人员需要在显示屏上展示介绍信息时，发出播放指令，显示屏播放介绍的内容，工作人员可以通过语音控制播放过程中的音量大小、暂停、切换等功能；
13.步骤七：访客参观结束后，工作人员对智能语音主机说出关闭智能设备的指令，智能语音主机响应，语音交互系统管理主机控制相应的设备关闭。
14.通过语音对展厅的智能设备进行控制，能够免去人工操作各种设备的麻烦，可远距离控制相关的设备，能够实现人与设备的自由沟通，增强人们参观体验的感受。
15.进一步的，语音交互的具体过程为：
16.1)首先对接收到的声音信号预加重，并进行分帧操作；具体的是在声音信号的频域乘以系数k，系数k跟频率成正相关；
[0017] s’n
＝s
n
‑
k*s
n
‑1[0018]
对预加重后的声音信号乘以凯泽窗函数进行分帧，形成多个波形段；
[0019][0020]
其中，i0是第一类零阶贝塞尔函数，m为窗的个数，n窗的长度，w(n)为频谱函数，β是用来调整窗函数性能的参数，此处β选8.5；
[0021]
2)对多个波形段进行快速傅里叶变换得到对应的频谱，将上面的频谱通过mel滤波器组得到mel频谱；在mel频谱上面进行倒谱分析，获得mel频率倒谱系数mfcc，生成每帧的mfcc特征向量；
[0022]
3)预先构建声学模型和语言模型，通过大量标注的语音数据训练声学模型，通过大量标注的文本数据训练语言模型；声学模型用于把语音输入转换层声学表示的输入，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列；
[0023]
4)对声音信号对应的指令转化为可识别的语言，包括：确定指令的领域，理解指令的意图、定位词槽；
[0024]
5)处理用户的真实的意图，做出相应的回答反馈。
[0025]
进一步的，门禁单元的工作过程为：
[0026]
1)预先获取人脸图像；
[0027]
2)对获取到的人脸图像进行烧苗检测，生成于候选区域对应的人脸坐标；
[0028]
3)根据人脸坐标生成双眼的坐标，在候选区域内通过人脸坐标和双眼的坐标生成人脸面部特征向量(其中需要对候选区域进行平移、旋转和缩放，形成具有预定大小的标准化图像，其中双眼的坐标链接到预定位置，对人脸图像进行归一化处理)，保存在服务器内，形成人脸数据库；
[0029]
4)将待验证的人脸采集图像与人脸数据库中的特征向量进行比较，计算距离值，比较距离值与相似性阈值，确定人员的身份，完成识别的过程。
[0030]
本发明还提供一种基于语音控制展厅的系统，包括语音交互系统管理主机、智能语音主机、物联控制主机、环境探测器、门禁单元、zigbee网关、无线ap、智能设备；
[0031]
所述语音交互系统管理主机、智能语音主机、环境探测器、门禁单元、无线ap、智能设备通过zigbee网关与物联控制主机通信连接。
[0032]
进一步的，语音交互的具体过程为：
[0033]
1)首先对接收到的声音信号预加重，并进行分帧操作；具体的是在声音信号的频
域乘以系数k，系数k跟频率成正相关；
[0034]
s’n
＝s
n
‑
k*s
n
‑1[0035]
对预加重后的声音信号乘以凯泽窗函数进行分帧，形成多个波形段；
[0036][0037]
其中，i0是第一类零阶贝塞尔函数，m为窗的个数，n窗的长度，w(n)为频谱函数，β是用来调整窗函数性能的参数，此处β选8.5；
[0038]
2)对多个波形段进行快速傅里叶变换得到对应的频谱，将上面的频谱通过mel滤波器组得到mel频谱；在mel频谱上面进行倒谱分析，获得mel频率倒谱系数mfcc，生成每帧的mfcc特征向量；
[0039]
3)预先构建声学模型和语言模型，通过大量标注的语音数据训练声学模型，通过大量标注的文本数据训练语言模型；声学模型用于把语音输入转换层声学表示的输入，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列；
[0040]
4)对声音信号对应的指令转化为可识别的语言，包括：确定指令的领域，理解指令的意图、定位词槽；
[0041]
5)处理用户的真实的意图，做出相应的回答反馈。
[0042]
进一步的，门禁单元的工作过程为：
[0043]
1)预先获取人脸图像；
[0044]
2)对获取到的人脸图像进行烧苗检测，生成于候选区域对应的人脸坐标；
[0045]
3)根据人脸坐标生成双眼的坐标，在候选区域内通过人脸坐标和双眼的坐标生成人脸面部特征向量(其中需要对候选区域进行平移、旋转和缩放，形成具有预定大小的标准化图像，其中双眼的坐标链接到预定位置，对人脸图像进行归一化处理)，保存在服务器内，形成人脸数据库；
[0046]
4)将待验证的人脸采集图像与人脸数据库中的特征向量进行比较，计算距离值，比较距离值与相似性阈值，确定人员的身份，完成识别的过程。
[0047]
本发明的优点在于：
[0048]
通过语音对展厅的智能设备进行控制，能够免去人工操作各种设备的麻烦，可远距离控制相关的设备，能够实现人与设备的自由沟通，增强人们参观体验的感受。
附图说明
[0049]
图1为本发明实施例中语音控制的展厅的方法流程图。
具体实施方式
[0050]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0051]
如图1所示，一种基于语音控制的展厅系统，包括：语音交互系统管理主机、智能语音主机、物联控制主机、环境探测器、门禁单元、zigbee网关、无线ap、智能设备
[0052]
语音交互系统管理主机用于实现人与智能设备的语音交流，其由语音控制系统、语音查询系统、语音播报系统构成；
[0053]
智能语音主机作为人机交流的载体，其能够接受和识别语音、识别和理解语义内容、合成智能对话，基于语音交互技术；
[0054]
语音交互的步骤：
[0055]
1)首先对接收到的声音信号预加重，并进行分帧操作；具体的是在声音信号的频域乘以系数k，系数k跟频率成正相关；
[0056]
s’n
＝s
n
‑
k*s
n
‑1[0057]
对预加重后的声音信号乘以凯泽窗函数进行分帧，形成多个波形段；
[0058][0059]
其中，i0是第一类零阶贝塞尔函数，m为窗的个数，n窗的长度，w(n)为频谱函数，β是用来调整窗函数性能的参数，此处β选8.5；
[0060]
2)对多个波形段进行快速傅里叶变换得到对应的频谱，将上面的频谱通过mel滤波器组得到mel频谱；在mel频谱上面进行倒谱分析(取对数，做逆变换)，获得mel 频率倒谱系数mfcc，生成每帧的mfcc特征向量；
[0061]
3)预先构建声学模型和语言模型，通过大量标注的语音数据训练声学模型，通过大量标注的文本数据训练语言模型；声学模型用于把语音输入转换层声学表示的输入，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列；
[0062]
4)对声音信号对应的指令转化为可识别的语言，包括：确定指令的领域，理解指令的意图、定位词槽；
[0063]
5)处理用户的真实的意图，做出相应的回答反馈。
[0064]
环境探测器安装在展厅内，与无线ap连接通信，其可精准的将周围的光线、温度、湿度以及噪声的状况传送到语音交互系统管理主机，语音交互系统管理主机根据用户的问询回答展厅内的状况，通过音箱等设备播报出来；
[0065]
门禁单元安装在展厅的入口，用于采集人脸和声纹信息进行人员的识别和确认，通过人脸声纹认证后进行联动开门；
[0066]
面部识别的过程：
[0067]
1)预先获取人脸图像；
[0068]
2)对获取到的人脸图像进行烧苗检测，生成于候选区域对应的人脸坐标；
[0069]
3)根据人脸坐标生成双眼的坐标，在候选区域内通过人脸坐标和双眼的坐标生成人脸面部特征向量(其中需要对候选区域进行平移、旋转和缩放，形成具有预定大小的标准化图像，其中双眼的坐标链接到预定位置，对人脸图像进行归一化处理)，保存在服务器内，形成人脸数据库；
[0070]
4)将待验证的人脸采集图像与人脸数据库中的特征向量进行比较，计算距离值，
比较距离值与相似性阈值，确定人员的身份，完成识别的过程；
[0071]
zigbee网关用于对智能设备进行信息的采集、信息输入、信息输出、集中控制、远程控制、联动控制，智能设备例如智能开关、智能窗帘、红外宝、显示屏、网络摄像机等；网络摄像机用于实现对展厅进行区域入侵侦测、越界侦测、徘徊侦测；在展厅的中心位置吊顶上增加无线rf接收器，以满足展厅、会议室无线话筒、无线耳机等通过无线方式接入实现音频输入；
[0072]
物联控制主机可对展厅内智能设备的运作情况等开展收集、处理、监测、预警、控制操作；
[0073]
无线ap用于实现移动终端和语音交互系统管理主机、物联控制主机的连接。
[0074]
本实施例还提供一种基于语音控制的展厅的方法：
[0075]
步骤一：门禁单元采集人脸信息数据，确认人员是否为工作人员，如果是则进入步骤二；如果不是工作人员，确认为访客后，则进入步骤三；
[0076]
步骤二：确认为工作人员后，门禁解除，此时为普通模式，工作人员进入展厅内；
[0077]
步骤三：此时为会客模式，展厅内的灯光和空调自动开启，语音交互系统管理主机自动唤醒，智能语音主机播报致欢迎词和序言介绍，播报环境探测器监测到的数据，如温湿度、pm2.5等；
[0078]
步骤四：需要调整展厅的灯光、空调等智能设备，工作人员对智能语音主机说出意图，语音交互系统管理主机理解意图并响应，并发出控制指令给zigbee网关，进而控制相对应的智能设备；工作人员还可以对移动终端，比如手机、对讲机说出控制指令，通过无线ap也能够语音控制各个设备的运行；
[0079]
步骤五：工作人员走到相应的展示区内，通过话筒进行提问，语音交互系统管理主机进行处理，对访客进行解说；
[0080]
步骤六：工作人员需要在显示屏上展示介绍信息时，说出“播放***”，显示屏播放介绍的内容，工作人员可以通过语音控制播放过程中的音量大小、暂停、切换等功能；
[0081]
步骤七：访客参观结束后，工作人员对智能语音主机说出“关闭灯光/空调/电视”等指令，智能语音主机响应，语音交互系统管理主机控制相应的设备关闭。
[0082]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钟生;彭鹏;汪刚
技术所有人：合肥金人科技有限公司
我是此专利的发明人