电子系统及其嵌入式设备和中转设备的制作方法

文档序号：2823996阅读：174来源：国知局

专利名称：电子系统及其嵌入式设备和中转设备的制作方法
技术领域：
本发明涉及电子技术领域，特别是涉及嵌入式娱乐产品。
技术背景
模式识别技术，指的是对外部世界某一特定环境中的客体、过程和现象的识别功能(包括视觉、听觉、触觉、判断等)进行模拟的科学技术。近年来，此项技术在在计算机智能领域取得了迅速的发展，已经取得了系统的研究成果。
语音识别是模式识别技术中的一项典型应用，它正逐步成为信息技术中人机接口 (HCI)的关键技术。作为一个新兴高技术产业，语音识别技术已经有了不少较为成熟的识别引擎可以利用，中国科学院声学研究所的中科信利语音平台是其中之一。
语言音识别技术使得使用者和计算机之间能够进行直接的感官交流，因此如果能将其运用于娱乐产品，必将前所未有地提升用户感受，也可以引申出许多新的娱乐运用。
第一、目前的模式识别技术需要消耗的极大的软硬件资源首先、其复杂的浮点运算要求有高性能的处理器和容量巨大的内存；其次，语音识别需要较大的比照样本库，会耗费相当多的存储空间。因此，此技术对运行平台有着极为苛刻的要求，是以嵌入式设备为主的数字娱乐设备所不能负担的。如何突破软硬件瓶颈，在嵌入式设备上运用此项技术，是需要嵌入式软件开发者面临的问题。
第二、目前的嵌入式识别引擎都是基于x86硬件和windows平台而开发的，但嵌入式产品平台的架构和操作系统则可能千变万化。不可能让单一的语音识别引擎去迁就各种不同的硬件平台。为此如何让语音识别引擎能够适应各种不同的嵌入式设备，使得两者能够相对独立，不受对方的影响，也是嵌入式软件开发者面临的问题。
关于语音识别技术的应用，还可以参阅2001年10月03日公开了一种名为“客户服务器语音信息传送系统与方法”的中国发明专利申请第00109844. 6号。所述系统包括至少一个服务器站和客户站；客户站包括用于接收来自用户的语音输入信号的装置；和用于将表示所接收的语音的信号通过公共因特网传送到服务器站的装置；以及服务器站包括用于接收来自公共因特网的语音等效信号的装置；和用于识别所接收的语音等效信号的大/巨大词汇量语音识别器；客户站包括本地语音识别器和语音控制器；语音控制器能将至少部分语音输入信号导入本地语音识别器中，并根据识别结果选择性地将一部分语音输入信号通过公共因特网导入服务器站中。发明内容
本发明主要解决的技术问题是提供一种电子系统及其嵌入式设备和中转设备，能够让语音识别技术轻易地应用于嵌入式设备中，对嵌入式设备的要求低，并且可以屏蔽嵌入式设备和语音识别服务器各自的变化，使得通用的语音识别引擎能够适用于不同的嵌入式应用系统。
为解决上述技术问题，本发明采用的一个技术方案是提供一种电子系统，包括语音采集设备、嵌入式客户端、中转设备以及服务器；所述语音采集设备连接所述嵌入式客户端，所述中转设备连接在嵌入式客户端和服务器之间；其中，所述嵌入式客户端控制语音采集设备进行语音采集并得到语音数据，所述中转设备用于将所述语音数据发送至所述服务器进行语音识别，并将所述服务器语音识别得到的识别结果反馈回所述嵌入式客户端。
其中，所述中转设备与所述嵌入式客户端之间采用局域网的TCP/IP连接，所述中转设备与所述服务器之间采用局域网的TCP/IP连接。
其中，所述中转设备是具有独立主机的中转设备，且包括连接所述独立主机和嵌入式客户端的网卡。
其中，所述独立主机包括语音识别引擎接口和初始化语音识别资源；连接单元，用于通过所述网卡接收来自嵌入式客户端的TCP连接请求，并通过所述网卡建立中转设备与嵌入式客户端之间的TCP/IP连接；控制包接收单元，用于建立所述TCP/IP连接后，通过所述网卡接收来自嵌入式客户端的UDP控制包，所述UDP控制包包含采样率、声道数和语音编码格式，以此请求开始语音识别；初始化单元，用于在接收开始语音识别请求后，调用语音识别引擎接口，初始化语音识别资源，并在初始化成功后通过所述网卡回复对应所述 UDP控制包的通知给嵌入式客户端设备；数据接收单元，用于在回复所述通知给嵌入式客户端设备后，通过所述网卡接收来自嵌入式客户端的语音数据；数据发送单元，用于调用所述语音识别引擎接口将语音数据传送给服务器；结果返回单元，用于将来自服务器的识别结果通过UDP转发给嵌入式客户端。
其中，进一步包括格式转化单元，用于在数据接收单元接收到语音数据后、在数据发送单元发送语音数据前，对所述语音数据进行采样率转换，转换为服务器可以识别的语音数据格式，交由所述数据发送单元发送。
本发明还提供一种嵌入式设备，包括嵌入式客户端；所述嵌入式客户端具有连接外接语音采集设备的第一接口、以及连接外接中转设备的第二接口；其中，所述嵌入式客户端经第一接口接收语音采集设备采集得到的语音数据，经所述第二接口将语音数据向外接中转设备发送，并经所述第二接口接收所述语音数据的识别结果。
其中，所述嵌入式客户端的接口采用局域网的TCP/IP连接所述外接中转设备。
本发明又提供一种应用于嵌入式设备的中转设备，包括独立主机、连接所述独立主机和嵌入式客户端的网卡；其中，所述独立主机通过所述网卡接收来自所述嵌入式客户端的语音数据，将语音数据发送至外接服务器进行语音识别，并将所述服务器语音识别得到的识别结果反馈回所述嵌入式客户端。
其中，所述独立主机包括语音识别引擎接口和初始化语音识别资源；连接单元，用于通过所述网卡接收来自嵌入式客户端的TCP连接请求，并通过所述网卡建立独立主机与嵌入式客户端之间的TCP/IP连接；控制包接收单元，用于建立所述TCP/IP连接后，通过所述网卡接收来自嵌入式客户端的UDP控制包，所述UDP控制包包含采样率、声道数和语音编码格式，以此请求开始语音识别；初始化单元，用于在接收开始语音识别请求后，调用语音识别引擎接口，初始化语音识别资源，并在初始化成功后通过所述网卡回复对应所述 UDP控制包的通知给嵌入式客户端设备；数据接收单元，用于在回复所述通知给嵌入式客户端设备后，通过所述网卡接收来自嵌入式客户端的语音数据；数据发送单元，用于调用所述语音识别引擎接口将语音数据传送给服务器；结果返回单元，用于将来自服务器的识别结果通过UDP转发给嵌入式客户端。
其中，格式转化单元，用于在数据接收单元接收到语音数据后、在数据发送单元发送语音数据前，对所述语音数据进行采样率转换，转换为服务器可以识别的语音数据格式，交由所述数据发送单元发送。
本发明的有益效果是区别于现有技术电子系统中语音识别技术难以应用的情况，本发明能将语音数据的采集工作和对语音数据的处理识别工作从物理上分开成3个子系统资源较少能力较弱的嵌入式设备只负责采集和发送数据并接收结果；中转设备能够将语音数据传送到具有语音识别引擎的服务器，接收到识别结果后回传给嵌入式设备；由于识别引擎安装在服务器上，因此有着丰富的软硬件资源，且在资源不够的时候，可以通过增加新的服务器来解决。语音识别引擎可以由第三方提供；同时，各个子系统间只要遵守一定的协议即可连接，因此可以相对降低各个子系统的关联性中转设备的设置，可以屏蔽嵌入式前台和语音识别后台各自的变化，使得通用的语音识别引擎能够适用于不同的嵌入式应用系统；采用了以上的方案后，嵌入式设备绕开了资源的瓶颈限制，同时突破了固定运行平台的局限，使得原本代价高昂的语音识别技术能够实际可行地运用于嵌入式平台上的娱乐设备。

图1是本发明电子系统实施方式一的原理框图2是本发明电子系统实施方式二的原理框图3是本发明电子系统实施方式三的原理框图4是本发明中控制信息通讯包的结构示意图5是本发明中数据信息通讯包的结构示意图。
具体实施方式
参阅图1，本发明电子系统实施方式包括
语音采集设备(图未示)、嵌入式客户端、中转设备以及服务器；
所述语音采集设备连接所述嵌入式客户端，所述中转设备连接在嵌入式客户端和服务器之间，图中用嵌入式设备来代替语音采集设备和嵌入式客户端；
其中，所述嵌入式客户端控制语音采集设备进行语音采集并得到语音数据，所述中转设备用于将所述语音数据发送至所述服务器进行语音识别，并将所述服务器语音识别得到的识别结果反馈回所述嵌入式客户端。
本发明能将语音数据的采集工作和对语音数据的处理识别工作从物理上分开成 3个子系统资源较少能力较弱的嵌入式设备只负责采集和发送数据并接收结果；中转设备能够将语音数据传送到具有语音识别引擎的服务器，接收到识别结果后回传给嵌入式设备；由于识别引擎安装在服务器上，因此有着丰富的软硬件资源，且在资源不够的时候，可以通过增加新的服务器来解决。语音识别引擎可以由第三方提供；
同时，各个子系统间只要遵守一定的协议即可连接，因此可以相对降低各个子系统的关联性中转设备的设置，可以屏蔽嵌入式前台和语音识别后台各自的变化，使得通用的语音识别引擎能够适用于不同的嵌入式应用系统；
采用了以上的方案后，嵌入式设备绕开了资源的瓶颈限制，同时突破了固定运行平台的局限，使得原本代价高昂的语音识别技术能够实际可行地运用于嵌入式平台上的娱乐设备。
在另一个实施方式中，所述中转设备与所述嵌入式客户端之间采用局域网的TCP/ IP连接，所述中转设备与所述服务器之间采用局域网的TCP/IP连接。当然，所述中转设备与所述嵌入式客户端之间也可以不采用局域网连接，或不采用TCP/IP连接，所有的连接方式都是可以考虑的，比如无线连接方式。
在另一个实施方式中，所述中转设备是具有独立主机的中转设备，且包括连接所述独立主机和嵌入式客户端的网卡。当然也可以不具有独立主机，比如采用与其他应用兼容的系统等。
参阅图2，在另一个实施方式中，所述独立主机包括
语音识别引擎接口和初始化语音识别资源；
连接单元，用于通过所述网卡接收来自嵌入式客户端的TCP连接请求，并通过所述网卡建立中转设备与嵌入式客户端之间的TCP/IP连接；
控制包接收单元，用于建立所述TCP/IP连接后，通过所述网卡接收来自嵌入式客户端的UDP控制包，所述UDP控制包包含采样率、声道数和语音编码格式，以此请求开始语音识别；
初始化单元，用于在接收开始语音识别请求后，调用语音识别引擎接口，初始化语音识别资源，并在初始化成功后通过所述网卡回复对应所述UDP控制包的通知给嵌入式客户端设备；
数据接收单元，用于在回复所述通知给嵌入式客户端设备后，通过所述网卡接收来自嵌入式客户端的语音数据；
数据发送单元，用于调用所述语音识别引擎接口将语音数据传送给服务器；
结果返回单元，用于将来自服务器的识别结果通过UDP转发给嵌入式客户端。
参阅图3，在另一个实施方式中，进一步包括格式转化单元，用于在数据接收单元接收到语音数据后、在数据发送单元发送语音数据前，对所述语音数据进行采样率转换，转换为服务器可以识别的语音数据格式，交由所述数据发送单元发送。经数据格式转化，使各系统之间的屏蔽效果更好。
还参阅图1，本发明还提供一种嵌入式设备实施方式，包括
嵌入式客户端；
所述嵌入式客户端具有连接外接语音采集设备如麦克风的第一接口(图未示)、以及连接外接中转设备的第二接口(图未示)比如网卡；
其中，所述嵌入式客户端经第一接口接收语音采集设备采集得到的语音数据，经所述第二接口将语音数据向外接中转设备发送，并经所述第二接口接收所述语音数据的识别结果。
上述实施方式能够让语音识别技术轻易地应用于嵌入式设备中，对嵌入式设备的要求低，并且可以屏蔽嵌入式设备和语音识别服务器各自的变化，使得通用的语音识别引擎能够适用于不同的嵌入式应用系统。
在另外一个实施方式中，所述嵌入式客户端的接口采用局域网的TCP/IP连接所述外接中转设备。当然也可以采用城域网、互联网等连接方式。
还参阅图1，本发明又提供一种应用于嵌入式设备的中转设备实施方式，包括
独立主机、连接所述独立主机(图未示)和嵌入式客户端的网卡(图未示)；
其中，所述独立主机通过所述网卡接收来自所述嵌入式客户端的语音数据，将语音数据发送至外接服务器进行语音识别，并将所述服务器语音识别得到的识别结果反馈回所述嵌入式客户端。
上述中转设备，使语音识别技术应用于嵌入式设备时，可以屏蔽嵌入式设备和语音识别服务器各自的变化，使得通用的语音识别引擎能够适用于不同的嵌入式应用系统。
嵌入式设备和具体的识别引擎之间使用中转设备如中转网关接口和调度，使得嵌入式设备的功能和使用具体的识别引擎(服务器)无关，可以方便更换。
还参阅图2，在另外一个实施方式中，所述独立主机还进一步包括
语音识别引擎接口和初始化语音识别资源；
连接单元，用于通过所述网卡接收来自嵌入式客户端的TCP连接请求，并通过所述网卡建立独立主机与嵌入式客户端之间的TCP/IP连接；
控制包接收单元，用于建立所述TCP/IP连接后，通过所述网卡接收来自嵌入式客户端的UDP控制包，所述UDP控制包包含采样率、声道数和语音编码格式，以此请求开始语音识别；
初始化单元，用于在接收开始语音识别请求后，调用语音识别引擎接口，初始化语音识别资源，并在初始化成功后通过所述网卡回复对应所述UDP控制包的通知给嵌入式客户端设备；
数据接收单元，用于在回复所述通知给嵌入式客户端设备后，通过所述网卡接收来自嵌入式客户端的语音数据；
数据发送单元，用于调用所述语音识别引擎接口将语音数据传送给服务器；
结果返回单元，用于将来自服务器的识别结果通过UDP转发给嵌入式客户端。
还参阅图3，另外，还可以进一步包括
格式转化单元，用于在数据接收单元接收到语音数据后、在数据发送单元发送语音数据前，对所述语音数据进行采样率转换，转换为服务器可以识别的语音数据格式，交由所述数据发送单元发送。
以上各子系统的具体运作过程可以如下
1)嵌入式设备端按照制定协议与中转设备建立会话；
2)嵌入式设备端负责从麦克风采集音频数据；
一个会话由一个采用UDP连接的控制通讯和采用TCP的纯数据通讯实现；TCP的数据连接保证了数据传输的可靠性，同时纯数据包保证在即使发生包粘连的时候，也不会影响数据的准确性；UDP的控制连接可以减少连接的数量，减轻并发时中转设备的负载，同时，即使局域网内的UDP通信经测试基本是稳定可靠的；
其中，对于分发中转设备端
1)中转设备负责接收嵌入式设备的连接请求，管理并转发所有会话；
2)接收嵌入式设备发来的语音数据后，进行一次重采样，将pcm数据转换成符合语音识别引擎(服务器)要求的数据；8
3)将重采样后的数据，通过识别接口发往识别服务器集群，并搜集他们的识别结果反馈；
4)将识别结果发还给嵌入式设备；
其中，针对识别服务器集群和识别引擎
1)真正耗费资源的工作全部在识别服务器集群中的识别引擎上完成，这个服务器集群对嵌入式设备是透明的；
2)当识别技术更新或者服务器负载不够时，仅需要维护此服务器集群即可，不会牵扯前端的改动。
其中，对于中转设备而言
一、物理连接
1)中转设备(中转网关)和嵌入式客户端处在统一局域网中。即在物理上，中转设备可以是一台独立主机，且可以通过一张网卡和许多嵌入式客户端相连于一个局域网中；
2)中转设备的另一端，应该以某种方式和识别服务器的集群连接，这取决于所采用的语音识别引擎的设计，和这种应用方式本身无关，而这一点正式设立中转设备的目的之一，即屏蔽嵌入式设备和具体采用的第三方语音识别引擎间依赖关系，使之各自的变化都不会影响到另一端；
3)中转设备和嵌入式客户端的通信采用局域网的TCP/IP连接，能够保证足够的传输速率；通信的协议是视易自定义的适合于局域网特点的通信协议，即采用UDP控制包和TCP连接的数据包组合的协议。在一个具体实施方式
中，所述协议详情可以参考如下；
一、通讯接口定义
1、系统通讯模式
(1)控制信息通讯包UDP ；
(2)数据信息通讯包TCP ；
2、数据包大小最大不超过4096字节；
3、端口号
(1) UDP控制信息通讯端口
发送端口10010;
接收端口10011;
(2) TCP数据信息通讯端口 (可分别对应一个音频输入流)
通道一端口10020;
通道二端口10022;
4、适用系统应用中科信利语音平台的系统；
二、通讯方式简要说明
1、控制信息通讯
(1)控制信息指的是申请语音传输开始、申请语音传输结束、结果反馈、后台状态通知(检测到语音开始、结束)、后台强制终止，等等；
(2)控制信息通讯采用UDP方式，保证数据包边界独立；
2、数据信息通讯
(1)数据信息指的是采集的音频数据流；
(2)数据信息通讯采用TCP方式，发送数据为裸数据，无封装结构，在保证数据可靠传输的情况下，避免数据粘连造成的影响；
(3)每个音频数据流对应一个TCP连接；
三、协议格式图
在语音平台通信中，采用以下两种格式协议
1、控制信息通讯包，如图4
2、数据信息通讯包，如图5
四、协议格式简要说明
(一)、控制信息通讯包
协议包括包头和正文两部分，其中包头部分采用固定长度32字节，正文部分的长度在包头的“正文长度”字段中予以给出。
0、通讯方式UDP
1、下面对包头部分各字段作一简单说明
权利要求
1.一种电子系统，其特征在于，包括语音采集设备、嵌入式客户端、中转设备以及服务器；所述语音采集设备连接所述嵌入式客户端，所述中转设备连接在嵌入式客户端和服务器之间；其中，所述嵌入式客户端控制语音采集设备进行语音采集并得到语音数据，所述中转设备用于将所述语音数据发送至所述服务器进行语音识别，并将所述服务器语音识别得到的识别结果反馈回所述嵌入式客户端。
2.根据权利要求1所述的电子系统，其特征在于所述中转设备与所述嵌入式客户端之间采用局域网的TCP/IP连接，所述中转设备与所述服务器之间采用局域网的TCP/IP连接。
3.根据权利要求2所述的电子系统，其特征在于所述中转设备是具有独立主机的中转设备，且包括连接所述独立主机和嵌入式客户端的网卡。
4.根据权利要求3所述的电子系统，其特征在于所述独立主机包括语音识别引擎接口和初始化语音识别资源；连接单元，用于通过所述网卡接收来自嵌入式客户端的TCP连接请求，并通过所述网卡建立中转设备与嵌入式客户端之间的TCP/IP连接；控制包接收单元，用于建立所述TCP/IP连接后，通过所述网卡接收来自嵌入式客户端的UDP控制包，所述UDP控制包包含采样率、声道数和语音编码格式，以此请求开始语音识别；初始化单元，用于在接收开始语音识别请求后，调用语音识别引擎接口，初始化语音识别资源，并在初始化成功后通过所述网卡回复对应所述UDP控制包的通知给嵌入式客户端设备；数据接收单元，用于在回复所述通知给嵌入式客户端设备后，通过所述网卡接收来自嵌入式客户端的语音数据；数据发送单元，用于调用所述语音识别引擎接口将语音数据传送给服务器；结果返回单元，用于将来自服务器的识别结果通过UDP转发给嵌入式客户端。
5.根据权利要求4所述的电子系统，其特征在于，进一步包括格式转化单元，用于在数据接收单元接收到语音数据后、在数据发送单元发送语音数据前，对所述语音数据进行采样率转换，转换为服务器可以识别的语音数据格式，交由所述数据发送单元发送。
6.一种嵌入式设备，其特征在于，包括嵌入式客户端；所述嵌入式客户端具有连接外接语音采集设备的第一接口、以及连接外接中转设备的第二接口；其中，所述嵌入式客户端经第一接口接收语音采集设备采集得到的语音数据，经所述第二接口将语音数据向外接中转设备发送，并经所述第二接口接收所述语音数据的识别结^ ο
7.根据权利要求6所述的设备，其特征在于所述嵌入式客户端的接口采用局域网的TCP/IP连接所述外接中转设备。
8.一种应用于嵌入式设备的中转设备，其特征在于，包括独立主机、连接所述独立主机和嵌入式客户端的网卡；其中，所述独立主机通过所述网卡接收来自所述嵌入式客户端的语音数据，将语音数据发送至外接服务器进行语音识别，并将所述服务器语音识别得到的识别结果反馈回所述嵌入式客户端。
9.根据权利要求8所述的设备，其特征在于，所述独立主机包括语音识别引擎接口和初始化语音识别资源；连接单元，用于通过所述网卡接收来自嵌入式客户端的TCP连接请求，并通过所述网卡建立独立主机与嵌入式客户端之间的TCP/IP连接；控制包接收单元，用于建立所述TCP/IP连接后，通过所述网卡接收来自嵌入式客户端的UDP控制包，所述UDP控制包包含采样率、声道数和语音编码格式，以此请求开始语音识别；初始化单元，用于在接收开始语音识别请求后，调用语音识别引擎接口，初始化语音识别资源，并在初始化成功后通过所述网卡回复对应所述UDP控制包的通知给嵌入式客户端设备；数据接收单元，用于在回复所述通知给嵌入式客户端设备后，通过所述网卡接收来自嵌入式客户端的语音数据；数据发送单元，用于调用所述语音识别引擎接口将语音数据传送给服务器；结果返回单元，用于将来自服务器的识别结果通过UDP转发给嵌入式客户端。
10.根据权利要求9所述的设备，其特征在于，进一步包括格式转化单元，用于在数据接收单元接收到语音数据后、在数据发送单元发送语音数据前，对所述语音数据进行采样率转换，转换为服务器可以识别的语音数据格式，交由所述数据发送单元发送。
全文摘要
本发明公开了一种电子系统及其嵌入式设备和中转设备。所述系统包括语音采集设备、嵌入式客户端、中转设备以及服务器；所述语音采集设备连接所述嵌入式客户端，所述中转设备连接在嵌入式客户端和服务器之间；其中，所述嵌入式客户端控制语音采集设备进行语音采集并得到语音数据，所述中转设备用于将所述语音数据发送至所述服务器进行语音识别，并将所述服务器语音识别得到的识别结果反馈回所述嵌入式客户端。本发明能够让语音识别技术轻易地应用于嵌入式设备中，对嵌入式设备的要求低，并且可以屏蔽嵌入式设备和语音识别服务器各自的变化，使得通用的语音识别引擎能够适用于不同的嵌入式应用系统。
文档编号G10L15/00GK102546542SQ201010596778
公开日2012年7月4日申请日期2010年12月20日优先权日2010年12月20日
发明者冯锐, 卢廉瑾, 郭峰申请人:福建星网视易信息系统有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢廉瑾;冯锐;郭峰
技术所有人：福建星网视易信息系统有限公司
我是此专利的发明人

上一篇：一种基于语音识别技术的智能视频监控方法
上一篇：外置ktv导对唱切换装置、系统及通讯协议的制作方法