一种电力物联网的智能语音交互方法及系统与流程

文档序号：23987521发布日期：2021-02-20 12:29阅读：69来源：国知局

[0001]
本发明涉及电力物联网的设备控制的技术领域，尤其涉及一种电力物联网的智能语音交互方法及系统。

背景技术：

[0002]
目前，电力系统的规模和技术水平已经成为一个国家经济发展水平的重要标志之一，它的出现推动了社会各个领域的变化，使高效、无污染、使用方便且易于调控的电能得到了广泛的应用。随着电网的不断扩大，电力设备越来越多，使得如何精确高效地控制好各个设备成为了人们的热点话题。在通信技术高度发展的大背景下，通过有效整合通信基础设施资源和电力系统的基础设施资源来提高电力系统信息化水平，改善电力系统现有的基础设施利用效率，为电力系统中发电、输电、变电、配电、用电等环节提供重要的技术支撑。
[0003]
随着社会智能化信息化的发展，数字处理技术被越来越多人提及，计算机网络的相关技术被广泛的应用在社会的各个领域，那么随之而来的则是海量的数据的产生；其中语音识别数据受到了人们的青睐。语音识别是一门复杂的交叉学科，应用领域也十分广泛，无论是工业、家庭还是各种消费电子产品都可以与语音识别技术很好地结合起来，将其应用于电力系统中，对电力物联网的设备进行控制，可以很好地实现非接触式调控设备的目标。为了适应电网可能潜在的需求，把原来接触式地调控设备改为通过移动终端来进行非接触式控制可以随时随地地查看和操作电网中的电气设备。

技术实现要素：

[0004]
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。
[0005]
鉴于上述现有存在的问题，提出了本发明。
[0006]
因此，本发明提供了一种电力物联网的智能语音交互方法，能够在浏览器端实现语音识别算法，克服响应延迟带来的用户体验差的缺点。
[0007]
为解决上述技术问题，本发明提供如下技术方案：包括，采集语音信息并进行特征提取；利用机器学习算法对所述语音信息进行解码和搜索，输出识别的文本信息；接收所述文本信息，利用通信网络向远程服务器端发送指令，通过所述远程服务器端控制电气设备的开关状态或阀门的开度；利用vray渲染器对所述电气设备的状态进行可视化的渲染，结合数据孪生技术观察和控制所述电气设备的开关状态，完成交互。
[0008]
作为本发明所述的一种电力物联网的智能语音交互方法的一种优选方案，其中：所述采集语音信息包括，通过调用录音设备对用户的语音进行实时的录音，并将采集到的语音数据转换成计算机可读的输入参数。
[0009]
作为本发明所述的一种电力物联网的智能语音交互方法的一种优选方案，其中：所述特征提取包括，预加重、分帧和加窗所述语音信息通过对所述分帧和加窗后的各帧信
号进行快速傅里叶变换获得各帧的频谱，并对所述频谱取模平方得到语音信号的功率谱；利用三角带通滤波器对所述频谱平滑化，并消除谐波的作用；通过在梅尔倒频谱上进行倒谱分析，获得梅尔倒频率的倒谱系数。
[0010]
作为本发明所述的一种电力物联网的智能语音交互方法的一种优选方案，其中：所述倒谱分析包括，取对数：将乘性信号转化为加性信号；离散余弦变换：取离散余弦变换后的第2个到第13个系数作为所述梅尔倒频率的倒谱系数。
[0011]
作为本发明所述的一种电力物联网的智能语音交互方法的一种优选方案，其中：所述解码和搜索包括，通过给定声学特征，找到最可能的对应的词组。
[0012]
作为本发明所述的一种电力物联网的智能语音交互方法的一种优选方案，其中：还包括，计算每个对应的分类器的得分，将所述得分乘以目标似然函数；利用viterbi算法对语音信息进行解码，求取目标似然函数的最大值。
[0013]
作为本发明所述的一种电力物联网的智能语音交互方法的一种优选方案，其中：所述指令包括，请求服务器接收经过格式转换的文本数据。
[0014]
作为本发明所述的一种电力物联网的智能语音交互方法的一种优选方案，其中：所述可视化的渲染包括，创建场景；利用vray创建渲染器，确定需要添加到所述场景中的电气设备；通过服务器返回的电气设备控制效果，输出二进制数据；读取所述二进制数据，渲染所述场景。
[0015]
作为本发明所述的一种电力物联网的智能语音交互方法的一种优选方案，其中：所述数据孪生技术包括，通过结合实时传感器的数据与设备性能和结合所述电气设备的开关状态与人机操作界面中的控制要求构建自适应模型；利用所述自适应模型检测所述电气设备的开关转态和整体性能。
[0016]
作为本发明所述的一种电力物联网的智能语音交互系统的一种优选方案，其中：包括，语音监听模块，通过调用系统中的录音设备对用户的语音进行实时的录音，并将所述录音数据进行格式转换；ai模块与所述语音监听模块相连接，其能够在浏览器端加载语音命令识别模型，并结合机器学习完成语音识别；控制模块与所述ai模块相连接，其用于控制各种电气设备的开关状态或阀门的开度；人机交互模块与所述控制模块相连接，其用于接收用户在操作界面上输入的需要控制的电气设备名称和渲染的初始角度值的信息，通过所述控制模块转换所述信息，并输出给后台服务器模块和显示模块；所述后台服务器模块与所述控制模块相连接，其用于根据所述控制模块发出的控制信号去控制电力物联网设备的开、关状态以及调整阀门的开度，并将控制效果通过5g网络返回给所述控制模块；所述显示模块与所述控制模块相连接，其用于对电气设备状态进行可视化的渲染，并通过数据孪生技术观察和控制电气设备的开关状态。
[0017]
本发明的有益效果：通过将语音识别算法应用于终端浏览器上，节省了建设高效服务器的巨大费用和维护成本，且本发明的语音命令模型可以在浏览器端进行训练，减少了对服务器的依赖，提高了信息交互的实时性，提升用户体验感。
附图说明
[0018]
为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本
领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：
[0019]
图1为本发明第一个实施例所述的一种电力物联网的智能语音交互方法的流程示意图；
[0020]
图2为本发明第二个实施例所述的一种电力物联网的智能语音交互系统的ai模块示意图；
[0021]
图3为本发明第二个实施例所述的一种电力物联网的智能语音交互系统的控制模块示意图；
[0022]
图4为本发明第二个实施例所述的一种电力物联网的智能语音交互系统的显示模块示意图；
[0023]
图5为本发明第二个实施例所述的一种电力物联网的智能语音交互系统的模块结构分布示意图；
[0024]
图6为本发明第二个实施例所述的一种电力物联网的智能语音交互系统的网络拓扑结构示意图。
具体实施方式
[0025]
为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。
[0026]
在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。
[0027]
其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0028]
本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0029]
同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。
[0030]
本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
[0031]
实施例1
[0032]
参照图1，为本发明的第一个实施例，该实施例提供了一种电力物联网的智能语音交互方法，包括：
[0033]
s1：采集语音信息并进行特征提取。
[0034]
通过调用录音设备对用户的语音进行实时的录音，并将采集到的语音数据转换成计算机可读的数据格式，如二进制编码或字符数列编码。
[0035]
具体的，对语音信息进行特征提取有以下步骤：
[0036]
(1)预加重：将语音信号通过一个高通滤波器，提升信号的高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求取频谱。该步骤用于消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，突出高频的共振峰。
[0037]
(2)分帧：用于对语音信号进行分段处理。先将n个信号采样点集合成一个观测单位，称为帧，通常情况下n的值为256或512，涵盖的时间约为20～30ms左右；为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了m个取样点，通常m的值约为n的1/2或1/3；语音识别所采用语音信号的采样频率为8khz或16khz，以8khz来说，若帧长度为256个采样点，则对应的时间长度是256/8000
×
1000＝32ms。
[0038]
(3)加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为s(n)，其中，n＝n-1，n为帧的大小，那么乘上汉明窗后：
[0039]
s
′
(n)＝s(n)
×
w(n)
[0040]
w(n)的形式如下：
[0041][0042]
其中，不同的a值会产生不同的汉明窗，一般情况下a取0.46。
[0043]
(4)快速傅里叶变换：对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱，并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的dft(discrete fourier transform，离散傅里叶变换)为：
[0044][0045]
其中，x(n)为输入的语音信号，n表示傅里叶变换的点数。
[0046]
(5)频谱平滑化：定义一个有m个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m)，其中m＝m，m通常取22-26，各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽。
[0047]
三角滤波器的频率响应定义为：
[0048]
[0049]
(6)倒谱分析
[0050]
(a)取对数：计算每个滤波器组输出的对数能量，如下式：
[0051][0052]
(b)离散余弦变换：经离散余弦变换得到梅尔频率倒谱系数(mfccs)，即语音特征：
[0053][0054]
将上述的对数能量代入离散余弦变换，求出l阶的mel-scale cepstrum参数。l阶指mfccs阶数，通常取12-16，m为三角滤波器个数；取离散余弦变换后的第2个到第13个系数作为mfcc系数。
[0055]
较佳的，一般的噪音包括环境噪音和设备噪音，通过特征提取过程可以从有噪音的环境中降低、抑制噪音干扰，从而准确地得到有用的语音信息；
[0056]
s2：利用机器学习算法对语音信息进行解码和搜索，输出识别的文本信息。
[0057]
将经过特征提取的语音信息输入到语言命令模型中进行解码和搜索。解码和搜索过程是在给定声学特征的情况下，找到最可能的对应的词组过程，在这个过程中，首先建立给定声学模型，计算每个对应的分类器的得分再乘以目标似然函数(根据具体的情况对似然函数进行一定的延伸)；然后可利用viterbi算法对语音信息进行解码，求取目标似然函数的最大值；最后输出识别后的文本信息；
[0058]
需要说明的是，语言命令模型是tensorflow为前端开发者提供的一款可在浏览器端直接托管使用的模型，在该模型中具有声学模型、语言模型、系统字典等资源包，通过大量的声学模型训练、语言模型训练使得该系统储存的内容比较多，识别的效率更高；此外，由于它可以在浏览器端直接运行，所以响应十分迅速，消耗的流量相对比较少，为用户提供了更好的体验。viterbi算法是一种动态规划算法，用于寻找最有可能产生观测事件序列——维特比路径隐含状态序列。
[0059]
由语言命令模型解码出来的文本存在重复错乱等问题，需要经过后期处理，对文本进行重新修改，然后输出识别的文本数据。后期处理主要是优化语音识别产品的用户体验，通常包括口语顺滑，标点恢复，逆文本标准化；与书面语不同，口语含有不通顺的成分，包括停顿、重复、修正、重新开始，那么需要采取各种技术对其进行修改。通常采用口语顺滑技术对文本进行适当地删减，使用标点恢复技术对识别后的文本进行标点断句，便于后续的应用；此外，有时还需要用逆文本标准化技术对口语实体转换成书面语形式，譬如数字、日期等。
[0060]
s3：接收文本信息，利用通信网络向远程服务器端发送指令，通过远程服务器端控制电气设备的开关状态或阀门的开度。
[0061]
语音识别输出的文本信息首先经过utf-8编码转换成二进制数据，再转换成十进制数据，最后再转换成json数据，通过5g网络或其他通信方式传输到远程服务器。
[0062]
较佳的是，将文本信息转换成json格式传到服务器端供其使用。因为json是一种轻量级的文本数据交换格式，数据格式简单，易于读写，并且其格式大多都是压缩之后传输，占用的带宽小；此外json格式可以直接为服务端代码使用，大大简化了服务端与客服端
的代码开发量。
[0063]
s4：利用vray渲染器对电气设备的状态进行可视化的渲染，结合数据孪生技术观察和控制电气设备的开关状态，完成交互。
[0064]
可视化渲染的步骤如下：
[0065]
(1)在浏览器端中调用web graphics library中layabox 3d库创建场景，根据输出的二进制数据确定3d场景想要呈现的初始角度。
[0066]
(2)利用vray创建渲染器，读取控制模块输出的二进制数据，确定需要添加到场景中的电气设备；其中，vray渲染器提供了一种特殊的材质——vraymtl，在场景中使用该材质能够获得更加准确的光能分布，更快的渲染以及更便于反射和折射参数的调节。
[0067]
(3)当读取完所有的二进制数据之后，开始渲染场景，最终在用户界面上呈现出3d动画效果。
[0068]
进一步的，使用数据孪生技术观察和控制电气设备的开关状态。电力物联网中的数字孪生充分利用电网的物理模型、在线量测数据、历史运行数据，并集成电气、流体、热力、计算机、通信等多学科知识进行的多物理量、多时空尺度、多概率的仿真过程，通过在虚拟空间中完成对电网的映射，反映电网设备的实时情况。将电网的实时传感器的数据与性能结合起来，随电气设备的状态与人机操作界面中的控制要求构成自适应模型，可以精准检测电气设备的开关转态和整体性能。
[0069]
对本方法中采用的技术效果加以验证说明，本实施例选择传统语音识别方法和采用本方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。
[0070]
传统的语音识别是采用移动终端特定的应用程序对用户输入的语音进行离线的识别，或者是将监听到的语音信息传至远程服务器进行解码和搜索，识别出文本信息之后，再将结果返回到前端的用户界面中，这整个过程不仅会造成响应的时间过长，用户体验较差，在传输的过程中还消耗了大量的流量，且传统的语音识别是基于语音学的方法，通常包含拼写、声学和语音模型等单独组件，训练模型的语料除了标注具体的文字外，还要标注按时间对应的音素，需要消耗大量的人工成本。
[0071]
而本实施例通过运行机器学习算法能够实时地对语音进行解码和搜索，具体的，语音识别通过能进行时序分类的连续时间分类目标函数(ctc)，计算多个标签序列的概率；然后把预测结果跟实际结果比较，计算误差，不断更新网络权重，节省了大量人工标注的成本。
[0072]
为验证本方法相对传统方法具有较好的用户体验，本实施例中将采用传统的语音识别方法和本方法分别对响应时间进行测量对比。
[0073]
测试环境：在cpu为i3-3110m，内存为6g的pc平台进行测试，分别记录服务器的响应时间和浏览器的响应时间；在配置与pc一致的手机上进行测试，记录浏览器的响应时间，用传统的语音识别方法和本方法所测得的响应时间如表1所示：
[0074]
表1：运行传统的语音识别方法和本方法所消耗的时间对比表。
[0075][0076]
传统的语音识别需要依赖后台服务器，在不考虑网络环境的情况下，由浏览器端向服务器端传输时间长达1s，而本发明的语音识别方法直接在浏览器端响应，减少了对服务器的依赖，相比于传统的语音识别，响应时间节省了1.0～1.2s，提升了用户的体验。
[0077]
优选的是，相较于其他运行在后台服务器上的语音识别方法，本实施例的语音识别算法应用于终端浏览器上，节省了建设高效服务器的巨大费用和维护成本。且本实施例将监听到的语音信息直接上传到浏览器端进行处理，无需向远程服务器传输，在一定程度上，起到了保护用户隐私的作用。
[0078]
实施例2
[0079]
参照图2～图6，为本发明的第二个实施例，该实施例不同于第一个实施例的是，提供了一种电力物联网的智能语音交互系统，包括：
[0080]
语音监听模块100，通过调用系统中的录音设备对用户的语音进行实时的录音，并将录音数据进行格式转换，将转换后的录音数据作为ai模块200的输入。
[0081]
ai模块200与语音监听模块100相连接，其能够在浏览器端对语音监听模块100输出的语音数据进行特征提取，然后加载语音命令识别模型，并结合机器学习完成语音识别。
[0082]
控制模块300与ai模块200相连接，其用于控制各种电气设备的开关状态或阀门的开度；经过服务器返回的电气设备控制效果，然后进行内部转换，输出二进制数据作为显示模块600的输入。
[0083]
人机交互模块400与控制模块300相连接，其用于接收用户在操作界面上输入的需要控制的电气设备名称和渲染的初始角度值的信息，通过控制模块300将utf-8编码转换成二进制编码，并输出给后台服务器模块500和显示模块600。
[0084]
后台服务器模块500与控制模块300相连接，其用于根据控制模块300发出的控制信号去控制电力物联网设备的开、关状态以及调整阀门的开度，并将控制效果通过5g网络返回给控制模块300。
[0085]
显示模块600与控制模块300相连接，其用于对电气设备状态进行可视化的渲染，并通过数据孪生技术观察和控制电气设备的开关状态。
[0086]
较佳的，本实施例的显示模块600通过在浏览器端调用webgl中的layabox3d库使得图形渲染更加生动流畅。
[0087]
应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。
[0088]
此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或
以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
[0089]
进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、ram、rom等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。
[0090]
如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。
[0091]
应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾纪钧;龙震岳;钱正浩;温柏坚;张小陆;梁哲恒;张金波;沈伍强;沈桂泉
技术所有人：广东电网有限责任公司
我是此专利的发明人