一种基于语音识别的智能骑行辅助系统及其方法与流程

文档序号：36324356发布日期：2023-12-09 09:02阅读：42来源：国知局

本发明属于人工智能，特别涉及一种基于语音识别的智能骑行辅助系统及其方法。

背景技术：

1、在越来越繁忙的当今社会，骑行作为一种主要的通勤方式在城市之间被广泛使用。无论是送外卖，上班上学的“最后一公里”亦或是锻炼放松，骑车都是进行这些活动的主要选择。然而，骑行的安全性却常常不能得到保证，新闻上与自行车和电动车有关的事故屡屡发生：外卖员在送餐时发生交通事故，上下班通勤时被车流裹挟等。

2、根据研究，这类交通事故发生的原因除了闯红灯，超速加塞等人为原因，另一个主要原因就是骑手不能有效表达自己的行为与目的地，让路面上其他交通参与者不得不去“猜测”和“预判”骑手的下一步操作。这种预测肯定不能准确体现骑手的真正目的，因此很容易导致安全事故。

3、为了解决以上问题，现有技术也曾有研究提出过解决方法，但都未能很好地解决如何使骑手能完整的表达自己目的并且不干扰骑手正常的骑行的问题。此外，一些现有的解决方法成本较高，对于一部分骑手来说并非经济实惠的最佳选择。

4、此外，涉及的技术术语包括：

5、语音识别：语音识别作为当代非接触式交互的典范，相较于手势识别等其他非接触式识别方式更符合本项目所需要的安全性要求(无需用户做复杂动作)，同时也有坚固的理论基础和大量的现实应用予以开发支持。经过多年的积累与发展，语音识别的基本原理已经十分成熟。在物理课本中讲到，声音是以波的形式存在，被成为声波。它们的频率在20-20000hz之间，由声源振动产生，不同振幅、周期、频率、相位、波长的正弦波相互干涉产生了各种声音的波形，其中就包括我们人类语言的声波。语音识别需要做的，就是分解并对比这些声波，从中获得其所蕴含的人类表达的信息。在语音识别模块中，为了降低对后续识别等步骤造成的干扰，语音识别模块在接收到含有命令的声波后，需要首先，进行语音端点检测，将首尾端的静音切除，随后进行包括降噪，回声消除，语音信号在室内经过多次反射之后产生的混响消除等语音前处理操作得到清晰可辨的语言音频，然后，因为帧与帧之间一般是有交叠的，需要使用移动窗函数对声音分帧，即将声音切开成一小段一小段，每小段称为一帧。如图1所示，分帧操作图例，该段音频中每帧的长度为25毫秒，每两帧之间有25-10＝15毫秒的交叠，因此以帧长25ms、帧移10ms进行分帧。接着，进行声学特征提取，即分帧后，语音就变成了很多小段，但因为这些小段的波的波形在时域上几乎没有描述能力，需要将这些小段进行波形操作变换成一个多维向量，其包含这帧语音的内容信息，此过程即声学特征提取。假设该语音有12维的声学特征，经过声学特征提取后这个声音就变成了一个12行，n列的一个矩阵，即一个观察序列，n就是总帧数，如图2所示，观察序列图例中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。随后，就要将上述序列转化成为文本。通过把若干帧识别成一个状态，再把状态组合成音素，最终再把音素组合成单词，就可以将声波中的信息转换成文字状态。这其中，音素是一个单词发音的构成基础，汉语一般直接用全部声母和韵母作为音素集，而状态就是一种比音素更细致的语音单位，通常把一个音素划分成3个状态，如图3所示。最终的语音识别过程其实就是将帧通过一个声学模型。声学模型由一个巨大的状态网络构成，构建这个状态网络和从状态网络中寻找与声音最匹配的路径会用到隐马尔可夫模型等多种算法和参数模型，是从单词级网络展开成音素网络，再展开成状态网络。在状态网络中使用viterbi算法搜索一条最佳路径，语音对应这条路径的概率最大，即“解码”，生成的解码结果就是最终的语音识别结果，如图4所示，声波-矩阵-帧-状态-音素-解码的示意图。

6、语音识别之后将结果再和目标结果进行对比，就可以按照程序需求进行对应的操作，如收发数据，生成回应等。

7、uart(即通用异步收发传输器,universal asynchronous receiver/transmitter)作为当今各类集成电路芯片几乎必备的通信协议，其工作原理是将传输数据以一定的波特率(baud rate)依照：起始位，数据位，奇偶校验位，停止位的结构将每个字符一位接一位地传输，该总线双向通信，可以实现全双工传输和接收；其原理简便，应用广泛，是此类数据传输的极佳选择，如图5所示，uart协议传输方式及数据结构。

8、原理图：是采用电子电气元部件通用图形符号(并有标号)用线连接起来的图，它主要描述电子电气产品工作原理和元部件的连接关系。用来指导电产品工作原理分析、生产调试和维修。在元器件选件后元件将展现在原理图上，此时就需要通过导线将需要连接的网络和管脚连接起来，即明确哪里应该指向哪里，哪个引脚应该和哪个引脚相连接，以便于后续的pcb绘制。

9、科里奥利力(coriolis force)，也称作哥里奥利力，简称为科氏力，是对旋转体系中进行直线运动的质点由于惯性相对于旋转体系产生的直线运动的偏移的一种描述。科里奥利力来自于物体运动所具有的惯性。

技术实现思路

1、为了解决上述问题，本技术的目的在于：本系统通过引入一种包含语音识别和姿态感知的智能控制系统以及灯光系统，能够允许骑手更好的表达自己的下一步操作(例如左/右转向，刹车，起步等)，同时因为很多骑手会在骑行中使用语音导航软件，可以让语音系统接入手机语音导航系统，从而提供一种自动化的转向指示功能。

2、具体地，本发明提供一种基于语音识别的智能骑行辅助系统，所述系统包括：

3、语音识别模块，采用搭载离线智能语音us516p6型号芯片的语音识别vc-02模块实现本地语音识别通过离线语音控制显示灯模组的开启与关闭；

4、微控制单元mcu模块，所述mcu模块采用esp32-wroom-32e mcu模组进行硬件开发，其满足双核多线程功能以实现转向灯闪烁时钟的可编程控制，所述模组封装体积小使得所述系统对应产品小型化以便于安装于车把上或插接于手机并置于车把上，支持uart、i2c、sci多种硬件通讯协议且功耗小；

5、惯性测量单元imu模块，使用搭载于mpu6050型号芯片的陀螺仪和加速度计传感器；通过利用科里奥利力，imu由电容的变化计算出角速度和加速度，所述科里奥利力的计算公式如下：

6、

7、其中，为科里奥利力，m为质点的质量，为质点的运动速度，为旋转体系的角速度，×表示两个向量的外积符号；

8、所述mpu6050型号芯片整合了陀螺仪、加速度计、数字运动处理器和i2c即内部集成电路inter-integrated circuit通讯协议，拥有姿态/运动感知能力，同时其尺寸微小仅4*4*0.7毫米，适合本系统场景的应用；

9、输入输出模块，包括输入模块和输出模块，其中，所述输入模块包括：话筒/麦克风、耳机接口、按键；所述输出模块包括：音响、耳机接口；显示灯模组，至少包括左转灯、右转灯、刹车灯；

10、所述系统通过所述输入模块读取音频信息，所述语音识别vc-02模块对音频信息进行处理和操作并发送回mcu，imu和按键数据发送至mcu，mcu针对发送回的数据进行分析、处理和操作，并发出命令控制灯光组；其中，语音识别vc-02模块与esp32-wroom-32e通过uart串口协议进行通讯，mpu6050通过i2c通讯协议与esp32-wroom-32e进行通讯。

11、所述mcu发出的命令包括但不限于：开启左/右转向灯，控制前车灯开关操作命令，并同时配合陀螺仪的加速度和方位角信息进而自动关闭转向灯以及控制刹车灯的开启和关闭。

12、所述语音识别模块的语音识别的实现方式包括自行训练语音识别模型、预录制语音声纹信息并比对、开发手机app实现联网语音识别、采用离线语音识别模块。

13、所述语音识别模块中的us516p6型号芯片，采用32bit rsic架构内核，并加入了专门针对信号处理和语音识别所需要的dsp指令集，支持浮点运算的fpu运算单元，以及fft加速器，其支持150条本地指令离线识别，支持rtos轻量级系统，且具有多个外围接口，能够满足本系统的语音识别需求。

14、所述esp32-wroom-32e模组集成了传统蓝牙、低功耗蓝牙和wi-fi：wi-fi支持大范围的通信连接，也支持通过路由器直接连接互联网；而蓝牙能够让用户连接手机或者广播ble beacon以便于信号检测；

15、所述esp32-wroom-32e芯片的睡眠电流小于5μa，其低功耗使其适用于电池供电的可穿戴电子设备；

16、所述模组支持的数据传输速率高达150mbps，天线输出功率达到20dbm，实现最大范围的无线通信；

17、所述esp32-wroom-32e的操作系统是带有lwip的freertos，还内置了带有硬件加速功能的tls1.2。芯片同时支持ota加密升级，方便用户在产品发布之后继续升级；esp32-wroom-32e模组具有38个管脚，集成了丰富的外设，包括电容式触摸传感器、sd卡接口、以太网接口、以及高速spi、uart、i2s和i2c通讯协议。

18、所述系统利用esp32-wroom-32e模组的性能，辅以arduino ide的c++嵌入式编程开发实现对语音识别数据的操作和处理，同时接入并操作包括陀螺仪、温湿度传感器、接近传感器、摄像头和led灯，舵机，ips屏幕，蜂鸣器的执行器，最终实现骑行辅助功能。

19、所述系统通过使用arduino ide对esp32-wroom-32e进行c++语言的程序编写、烧录与测试，使用多核多线程发生时钟信号以不干扰主程序运行的c++程序实现；利用集成的hardware serial库，以15200波特率进行uart串口通讯；vc-02语音模组将识别完成的语音指令用2位16进制数据以ascii编码方式通过uart协议发送至esp32，再由esp32进行16进制ascii数据的解码分析与处理，判断数据有效性并根据包括开关转向灯、开关行车灯的需求执行对应的操作i/o接口电平、发送数据操作；实现通过麦克风或者手机耳机接口读取音频信息，对音频内容进行处理和操作并发送回mcu，imu和按键数据发送至mcu，mcu针对发送会的数据进行分析，处理和操作，并发出命令控制灯光组。

20、本技术还涉及一种基于语音识别的智能骑行辅助系统的应用方法，所述方法适用于上述任一的系统，所述方法包括以下步骤：

21、s0，启动；

22、s1，系统自检，imu校对，之后进行步骤s2；

23、s2，语音识别模块启动；

24、s2.1，等待语音信号输入；

25、s2.2，判断语音是否为关键词？如果否，则返回s2.1，如果是，则进行步骤s2.3；

26、s2.3，发送语音数据；

27、c，将数据发送，进行步骤s4.1；

28、d，重新返回s2.1进行循环；

29、s3，进行新线程；

30、s3.1，imu获取并发送数据，循环进行获取数据的操作，发送数据到步骤s4.1；

31、s3.2，新线程循环进行获取时钟信号，并将获得的数据发送到步骤s4；

32、s4，接收数据输入进行操作；

33、s4.1，输入数据，包括分别接收来自语音识别模块、按键输入、imu发送的数据；

34、s4.2，判断是否符合操作条件？如果否，则返回步骤s4.1；如果是，则进行步骤s4.3；所述符合操作条件即不是非正常的输入的情况，包括误操作输入、误碰按键；

35、s4.3，发送命令，进行步骤s4.4灯光控制，返回到步骤s4.1或步骤s5；s4.4，控制灯光进行灯光显示，灯光显示至少包括：

36、左转灯亮、右转灯亮、行车灯亮、刹车灯亮；

37、s5，关机。

38、所述关键词包括：左转、右转、停车、刹车、开前灯、开行车灯。

39、所述按键输入，是指用户通过按压按键获得对应的按键指令产生的数据，至少包括：左转、右转。

40、由此，本技术的优势在于：通过对语音自动控制系统的改进，为大众提供一种方便、廉价、实用的骑行辅助系统。具体地，包括：

41、1.能够帮助解决现今存在的骑行交通安全问题。

42、2.控制端使用语音和陀螺仪配合语音导航实现自动化辅助控制，这种控制方式能大大增加设备在骑行环境下的易用性和使用安全性，从而给使用者带来方便。

43、3.将语音识别和陀螺仪和加速度计的姿态感知能力结合并自动控制灯光。

44、4.esp32其具有可扩展性和联网能力，可以为未来增加功能提供便利。

45、5.符合目前设备智能化的趋势同时保护使用者安全，较易受公众理解和使用。

46、6.通过多线程在不干扰主程序的前提下实现转向灯闪烁所需的时钟信号输出。

47、7.可以与手机支架结合，在支撑手机的同时和手机连接进行智能控制

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马一天
技术所有人：马一天
我是此专利的发明人

上一篇：排序方法与流程
上一篇：燃料电池金属双极板复合涂层及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、史老师：共融机器人、生物启发的智能计算、自主学习理论与方法
2、卞老师：1.汽车动态仿真与控制 2.机构动力学 3.现代汽车设计技术 3.车辆系统动力学
如您是高校老师，可以点此联系我们加入专家库。