一种语音交互智能家居系统及语音交互方法

文档序号：2827269阅读：349来源：国知局

一种语音交互智能家居系统及语音交互方法
【专利摘要】本发明涉及智能家居【技术领域】，具体是一种能实现语音交互功能的智能家居系统及语音交互方法，包括硬件端和服务器端，所述的硬件端由网关、ZigBee路由器和ZigBee终端节点组成，若干电器设备或传感器都会接到ZigBee的终端节点上，每个ZigBee终端节点上都有Mic语音输入模块，用于采集用户的语音模拟信息，并将其转换成数字信息，通过ZigBee路由器传输给ZigBee协调器，所述的网关由ZigBee协调器、Wifi模块、语音处理模块和控制命令表模块构成。本发明同现有技术相比，其优点在于：可在增加硬件成本很少的前提下，显著提高语音识别的运算速度；具有自我学习的功能，节省前期各种语音使用环境的预设值的编程工作量；采用语音识别模块频谱分析方法，提高语音识别的正确率。
【专利说明】一种语音交互智能家居系统及语音交互方法
[【技术领域】]
[0001]本发明涉及智能家居【技术领域】，具体是一种能实现语音交互功能的智能家居系统及语音交互方法。
[【背景技术】]
[0002]随着科技的发展，语音交互模块被越来越多的应用到智能家居系统里面。考虑到智能家居的应用性、便捷性和小型化需求，目前应用于智能家居的语音交互系统基本都是使用嵌入式系统，这些嵌入式系统大都采用专门的语音识别芯片，如MCU，DSP和语音识别专用芯片，其存储容量和运算速度都有一定的限制。在目前市场上的语音识别模块中，基本都使用的非特定人语音识别模块，但是这个模块里面只能存储50个词条，存储容量有限，并且每个词条都是前期根据应用场景预先输入进去的，比如“将卧室的灯打开”这句话可以是一个词条，如果用户说了一句“将卧室的灯”，这个语音识别模块是识别不了的。除此之夕卜，这种语音识别模块也不能识别一些诸如嗯、啊的语气词。
[0003]同时，目前业界的智能家居语音交互系统都只能实现简单的语音指令操作，这些语音指令，也都是前期预设在嵌入式系统中，如果用户所说的语音不是系统预设的，系统就不能识别。
[
【发明内容】
]
[0004]本发明为了解决上述的嵌入式语音系统存储容量和运算速度有限的问题，提供一种不仅能根据系统预设的语音指令进行操作以外，还可以让系统根据用户自己的语言使用习惯，学习用户的语言，从而提高语音识别的正确性的语音交互智能家居系统及语音交互方法。
[0005]为了实现上述目的，提供一种语音交互智能家居系统，包括硬件端和服务器端，所述的硬件端由网关、ZigBee路由器和ZigBee终端节点组成，若干电器设备或传感器都会接到ZigBee的终端节点上，每个ZigBee终端节点上都有Mic语音输入模块，用于采集用户的语音模拟信息，并将其转换成数字信息，通过ZigBee路由器传输给ZigBee协调器，所述的网关由ZigBee协调器、Wifi模块、语音处理模块和控制命令表模块构成，ZigBee协调器在收到终端节点发来的语音信号之后，将收到的语音信号输出给语音处理模块进行语音识另IJ，语音识别工作完成后，将识别的字符输出给控制命令表模块中进行查询，找到语音信息想要操控的设备指令，然后将其输出给ZigBee协调器，协调器再将控制指令下发给终端节点。
[0006]所述的语音处理模块在语音识别过程中，遇到了语音处理模块中没有存储的生词的话，语音处理模块会将没有识别的语音通过Wif i模块连接到以太网中，将其传输给WEB服务器，WEB服务器内部设有同样的语音处理模块，服务器端存储的词库量比硬件端的词库量大，且不受嵌入式便携设备的存储容量的限制，就可以将没有识别出的生词识别处理，然后再通过以太网，将其生词的词条传输给用户家中网关上的语音处理模块，替换网关中从来没用过的词语。
[0007]所述的语音识别模块需要增加额外的词条库，并采用轮询调用的方式去词条库提取词条，按顺序每次提取50个词条存储到语音识别模块中，同时为了增加语音识别的灵活性，将每个词条都改成单个字、两个、三个或者四个连词；为了确保语音里面的所有字或词语是否都已识别完全，没有遗漏，所述的语音识别模块采用频谱分析方法识别语音识别模块中字的个数。
[0008]所述的语音识别模块频谱分析方法如下:汉字是有声母和韵母的，通过声母频谱序列库与语音的频谱分析图比对，这样就可以得到语音的汉字个数；汉字的声母一共有23个，它们是b pmfdtnlgkhjqxzhchshrzcsyw,先将所有声母的发音采集，经A/D模数转换后，通过傅里叶频谱分析，得到这23个声母的频谱图，将其特征值存入声母频谱序列库，之后在采集用户的声音信号时，也是先经过A/D模数转换模块将其转换成数字信号，然后进行傅里叶频谱分析，根据频谱分析得到的特征值，与之前的声母频谱序列库的频谱特征值进行比对分析，提取出一句话中的所有声母，从而得到语音的汉字个数，同样的，对于一些常用的没有声母的汉字，就将其整个字的整带频谱存储到零声母频谱序列库中；对于汉字中的语气词，将其整带频谱存储在语气词频谱序列库中，与频谱分析得到的频谱进行比对，从而完成语气词的识别。
[0009]所述的语音交互智能家居系统会先将用户的语音信号进行音频信号采集，A/D模块转换成数字信号，之后将其存储到RAM存储器中；RAM存储器会首先将当前的语音信号进行频谱分析，然后结合声母频谱序列库、零声母频谱序列库和语气词频谱序列库对其声母、或者整个字或者词进行识别校对，校对后，既可以识别出语音中的零声母字和语气词，还能识别出语音的累计计数，从而最终得出音频信号的待识别序列数；由于每个中文汉子都有其声母，所以这里采用声母识别方式，去识别一句话的中文字数；之后RAM存储器中的信息通过16位以上的高速D/A转化模块，将数字信号转换成模拟信号，输入到语音识别模块，语音识别模块会按顺序从词条库提取出若干词条与模拟信号相比对，进行真值查询，如果从此次词条库中匹配出正确的字符，就会输出识别的字符，之前频谱分析后已经识别出的零声母和语气词也会和当前识别出的字符一起进入到下一环节，与之前通过频谱分析得出的待识别序列数的个数相比较，如果相同，则代表识别工作已经完成，那么之后就可以将文字字符码输出，进入到基本语法分析器进行语法分析，从而得到文意表达知识信息，最终得出用户的使用意图；如果在非特定人语音识别模块处真值查询没有识别到字符，那么就会重新从RAM存储器中读取数字信号，将其进行D/A转化后，再次输入到语音识别模块，然后再从词条库中提取下一组一定数量的词条与其比对匹配，然后反复这样的流程，直到将音频信号中的所有字符都识别出来；如果整个词库都比对过后，也没有完全识别用户的语音，那么将其传输到服务器端进行识别，在整个语音信号的字或者词全部识别出来之后，整个文字字符是乱序的，这个时候，需要结合之前频谱识别校对的结果进行文字字符的排序，然后输出正确顺序的文字字符。
[0010]一种采用语音交互智能家居系统的语音交互方法，语音识别模块采用非特定人语音识别模块，并在该语音模块中额外添加Flash芯片，存储词条库，在语音识别的时候，顺序从词条库中提取一定数量的词条和输入的语音比对，直到比对出结果；系统在与用户交互过程中，会将常用的字词，调整顺序，排到词条库的最前面，这样就可以渐渐地加快语音识别的运算速度，同时，系统在与用户语音交互的过程中，遇到了一些词条库没有存储的词汇的话，系统会将这句话的音频记录下来，在系统空闲的时候，通过网络，将生词的音频资源传输到网络服务器端，网络服务器会将这些生词的音频资源与服务器端比较全面的词条库进行比对匹配，从而得出该音频所对应的生词的词条，之后再将这个词条通过网络传输到对应家庭的语音模块的Flash词条库中，用于后续语音交互使用。
[0011]本发明同现有技术相比，其优点在于:可在增加硬件成本很少的前提下，显著提高语音识别的运算速度；具有自我学习的功能，可以节省前期各种语音使用环境的预设值的编程工作量，从而节省人力，提升用户体验；采用语音识别模块频谱分析方法，对声母、或者整个字或者词进行识别校对，提高语音识别的正确率。
[【专利附图】

【附图说明】]
[0012]图1为系统整体的架构图；
[0013]图2为语音模块语音信号识别流程图；
[0014]图3为人工智能学习流程图。
[【具体实施方式】]
[0015]下面结合附图对本发明作进一步说明，这种装置的结构和原理对本专业的人来说是非常清楚的。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0016]实施例1
[0017]如图1所示，整个系统分成两部分，一部分是用户家里的硬件端，另一部分是服务器端。关于硬件端，主要由网关、ZigBee路由器和ZigBee终端节点组成:家里的所有电器设备、传感器等都会接到ZigBee的终端节点上，每个ZigBee终端节点上都有Mic语音输入模块，可以采集用户的语音模拟信息，并将其转换成数字信息，通过ZigBee路由器传输给ZigBee协调器；网关由ZigBee协调器、Wifi模块、语音处理模块和控制命令表这个几个核心模块构成。ZigBee协调器在收到终端节点发来的语音信号之后，需要将收到的语音信号输出给语音处理模块进行语音识别。语音识别工作完成后，会将识别的字符输出给控制命令表中进行查询，找到语音信息想要操控的设备指令，然后将其输出给ZigBee协调器，协调器将控制指令下发给终端节点，从而完成相应的操作。如果语音处理模块在语音识别过程中，遇到了语音处理模块中没有存储的生词的话，语音处理模块会将没有识别的语音通过Wifi模块连接到以太网中，将其传输给WEB服务器，WEB服务器内部有同样的语音处理模块，只不过服务器端存储的词库量非常的大，不受嵌入式便携设备的存储容量的限制，就可以将没有识别出的生词识别处理，然后再通过以太网，将其生词的词条传输给用户家中网关上的语音处理模块，替换网关中从来没用过的词语。
[0018]因为大多数的汉字都是有声母和韵母的，这里可以通过声母频谱序列库与语音的频谱分析图比对，这样就可以得到语音的汉字个数。对于一些常用的没有声母的汉字，就将其整个字的整带频谱存储到零声母频谱序列库中。这样在频谱分析比对的时候，就可以比对出汉字的个数。另外，对于一些语气词，嗯，啊之类的，市场上的非特定人语音识别模块也是不能识别的，本发明的系统也会将其整带频谱存储在语气词频谱序列库中，与频谱分析得到的频谱进行比对，从而完成语气词的识别。
[0019]如图2所示，为语音模块的语音信号识别流程图。首先智能家居语音交互模块会先将用户的语音信号进行音频信号采集，A/D模块转换成数字信号，之后将其存储到RAM存储器中。RAM存储器会首先将当前的语音信号进行频谱分析，然后结合声母频谱序列库、零声母频谱序列库和语气词频谱序列库对其声母、或者整个字或者词进行识别校对，校对后，既可以识别出语音中的零声母字和语气词，还能识别出语音的累计计数，从而最终得出音频信号的待识别序列数。由于每个中文汉子都有其声母，所以这里采用声母识别方式，去识别一句话的中文字数，之后RAM存储器中的信息通过16位以上的高速D/A转化模块，将数字信号转换成模拟信号，输入到非特定人语音识别模块，非特定人语音识别模块会按顺序从词条库提取出一定数量的词条与模拟信号相比对，进行真值查询，如果从此次词条库中匹配出正确的字符，就会输出识别的字符，之前频谱分析后已经识别出的零声母和语气词也会和当前识别出的字符一起进入到下一环节，与之前通过频谱分析得出的待识别序列数的个数相比较，如果相同，则代表识别工作已经完成，那么之后就可以将文字字符码输出，进入到基本语法分析器进行语法分析，从而得到文意表达知识信息，最终得出用户的使用意图。如果在非特定人语音识别模块处真值查询没有识别到字符，那么就会重新从RAM存储器中读取数字信号，将其进行D/A转化后，再次输入到非特定人语音识别模块，然后再从词条库中提取下一组一定数量的词条与其比对匹配，然后反复这样的流程，直到将音频信号中的所有字符都识别出来。如果整个词库都比对过后，也没有完全识别用户的语音，参照图1，将其传输到服务器端进行识别。在整个语音信号的字或者词全部识别出来之后，整个文字字符是乱序的，这个时候，需要结合之前频谱识别校对的结果进行文字字符的排序，然后输出正确顺序的文字字符。
[0020]如图3所示，为人工智能学习流程图。下述的流程主要目的是完成系统自主学习用户的语音，学习完成后，系统以后再听到用户的相同的语音，就会自己去执行相应的操作指令。比如，用户走进一间房间说“房间好闷，打开窗户”，这个时候，系统首先将语音信息采集后，进行语音处理，识别出正确顺序的文字字符之后，系统需要采用人工智能原理，将其表达的含义分析处理，并做判断，初步确认两句话，是否有关联的可能性，如果初步判定有关联性，需与用户做确认，得到确认信息后，后续用户只需要说“房间好闷”，系统就会自动将窗户打开，而不需要用户说明。具体实现流程如下:当语音信息经过语音处理模块输出文字字符之后，会输入到谓词逻辑分析器，经过谓词分析后，可以获得文意表达知识信息，从而得到人的使用意图，首先部分意图指令会进入执行模块，进行指令执行，同时，这个时候系统需要进行判断，判断刚才识别出的人的使用意图之间，是否有关联的可能性，如果判断没有关联性，则丢弃，如果系统判断觉得这个意图有关联的可能性，那么就需要跟用户进行语音交互，即询问用户，是否后续再说“房间很闷”，就执行“打开窗户”？用户会回答系统，如果回答否定，那么就丢弃，说明用户刚才说的话之间没有关联性。如果用户回答肯定，那么系统将会将刚才识别的意图建立意义的关联，之后再到系统的控制指令表中进行检索，从而建立指令关联，这样就实现了系统自主学习的功能。
【权利要求】
1.一种语音交互智能家居系统，包括硬件端和服务器端，其特征在于所述的硬件端由网关、ZigBee路由器和ZigBee终端节点组成，若干电器设备或传感器都会接到ZigBee的终端节点上，每个ZigBee终端节点上都有Mic语音输入模块，用于采集用户的语音模拟信息，并将其转换成数字信息，通过ZigBee路由器传输给ZigBee协调器，所述的网关由ZigBee协调器、Wifi模块、语音处理模块和控制命令表模块构成，ZigBee协调器在收到终端节点发来的语音信号之后，将收到的语音信号输出给语音处理模块进行语音识别，语音识别工作完成后，将识别的字符输出给控制命令表模块中进行查询，找到语音信息想要操控的设备指令，然后将其输出给ZigBee协调器，协调器再将控制指令下发给终端节点。
2.如权利要求1所述的一种语音交互智能家居系统，其特征在于所述的语音处理模块在语音识别过程中，遇到了语音处理模块中没有存储的生词的话，语音处理模块会将没有识别的语音通过Wifi模块连接到以太网中，将其传输给WEB服务器，WEB服务器内部设有同样的语音处理模块，服务器端存储的词库量比硬件端的词库量大，且不受嵌入式便携设备的存储容量的限制，就可以将没有识别出的生词识别处理，然后再通过以太网，将其生词的词条传输给用户家中网关上的语音处理模块，替换网关中从来没用过的词语。
3.如权利要求1所述的一种语音交互智能家居系统，其特征在于所述的语音识别模块需要增加额外的词条库，并采用轮询调用的方式去词条库提取词条，按顺序每次提取50个词条存储到语音识别模块中，同时为了增加语音识别的灵活性，将每个词条都改成单个字、两个、三个或者四个连词；为了确保语音里面的所有字或词语是否都已识别完全，没有遗漏，所述的语音识别模块采用频谱分析方法识别语音识别模块中字的个数。
4.如权利要求3所述的一种语音交互智能家居系统，其特征在于所述的语音识别模块频谱分析方法如下:汉字是有声母和韵母的，通过声母频谱序列库与语音的频谱分析图比对，这样就可以得到语音的汉字个数；汉字的声母一共有23个，它们是b P m f d t η I gk h j q X zh ch sh r z c s y w,先将所有声母的发音采集,经A/D模数转换后,通过傅里叶频谱分析，得到这23个声母的频谱图，将其特征值存入声母频谱序列库，之后在采集用户的声音信号时，也是先经过A/D模数转换模块将其转换成数字信号，然后进行傅里叶频谱分析，根据频谱分析得到的特征值，与之前的声母频谱序列库的频谱特征值进行比对分析，提取出一句话中的所有声母，从而得到语音的汉字个数，同样的，对于一些常用的没有声母的汉字，就将其整个字的整带频谱存储到零声母频谱序列库中；对于汉字中的语气词，将其整带频谱存储在语气词频谱序列库中，与频谱分析得到的频谱进行比对，从而完成语气词的识别。
5.如权利要求3所述的一种语音交互智能家居系统，其特征在于所述的语音交互智能家居系统会先将用户的语音信号进行音频信号采集，A/D模块转换成数字信号，之后将其存储到RAM存储器中；RAM存储器会首先将当前的语音信号进行频谱分析，然后结合声母频谱序列库、零声母频谱序列库和语气词频谱序列库对其声母、或者整个字或者词进行识别校对，校对后，既可以识别出语音中的零声母字和语气词，还能识别出语音的累计计数，从而最终得出音频信号的待识别序列数；由于每个中文汉子都有其声母，所以这里采用声母识别方式，去识别一句话的中文字数；之后RAM存储器中的信息通过16位以上的高速D/A转化模块，将数字信号转换成模拟信号，输入到语音识别模块，语音识别模块会按顺序从词条库提取出若干词条与模拟信号相比对，进行真值查询，如果从此次词条库中匹配出正确的字符，就会输出识别的字符，之前频谱分析后已经识别出的零声母和语气词也会和当前识别出的字符一起进入到下一环节，与之前通过频谱分析得出的待识别序列数的个数相比较，如果相同，则代表识别工作已经完成，那么之后就可以将文字字符码输出，进入到基本语法分析器进行语法分析，从而得到文意表达知识信息，最终得出用户的使用意图；如果在非特定人语音识别模块处真值查询没有识别到字符，那么就会重新从RAM存储器中读取数字信号，将其进行D/A转化后，再次输入到语音识别模块，然后再从词条库中提取下一组一定数量的词条与其比对匹配，然后反复这样的流程，直到将音频信号中的所有字符都识另拙来；如果整个词库都比对过后，也没有完全识别用户的语音，那么将其传输到服务器端进行识别，在整个语音信号的字或者词全部识别出来之后，整个文字字符是乱序的，这个时候，需要结合之前频谱识别校对的结果进行文字字符的排序，然后输出正确顺序的文字字符。
6.一种采用如权利要求1所述的语音交互智能家居系统的语音交互方法，其特征在于语音识别模块采用非特定人语音识别模块，并在该语音模块中额外添加Flash芯片，存储词条库，在语音识别的时候，顺序从词条库中提取一定数量的词条和输入的语音比对，直到比对出结果；系统在与用户交互过程中，会将常用的字词，调整顺序，排到词条库的最前面，这样就可以渐渐地加快语音识别的运算速度，同时，系统在与用户语音交互的过程中，遇到了一些词条库没有存储的词汇的话，系统会将这句话的音频记录下来，在系统空闲的时候，通过网络，将生词的音频资源传输到网络服务器端，网络服务器会将这些生词的音频资源与服务器端比较全面的词条库进行比对匹配，从而得出该音频所对应的生词的词条，之后再将这个词条通过网络传输到对应家庭的语音模块的Flash词条库中，用于后续语音交互使用。
【文档编号】G10L15/28GK103745722SQ201410046639
【公开日】2014年4月23日申请日期:2014年2月10日优先权日:2014年2月10日
【发明者】徐晓青, 林铭锋, 李传锋, 李红琼申请人:上海金牌软件开发有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐晓青;林铭锋;李传锋;李红琼
技术所有人：上海金牌软件开发有限公司
我是此专利的发明人

上一篇：吸声体、电子设备的制作方法
上一篇：基于心理声学模型的语音后置感知滤波器的制造方法