语音方位识别方法和装置及系统、家居控制器与流程

文档序号:13935773阅读:385来源:国知局
语音方位识别方法和装置及系统、家居控制器与流程

本发明涉及语音领域,具体而言,涉及一种语音方位识别方法和装置及系统、家居控制器。



背景技术:

目前,随着社会的发展以及人们物质生活条件的逐渐提高,人们对设备的智能化提出了各种要求,需要设备对具有特定口令的语音进行识别。在设备对具有特定口令的语音进行识别的过程中,可以实现对该特定口令的口令信息进行识别。除此之外,人们也需要了解到具有特定口令的语音的方位,需要设备对该语音的方位进行定位。但是,现存的各种设备,比如,智能机器人、智能家居控制器在无法实现对具有特定口令的语音的方位进行判定,并不能像人一样地对具有特定口令的语音的声源进行追溯,并判断声源的具体空间位置。另外,在对语音识别的过程中,对无意义的声音也一样会响应,对外界的无效音频无法区分。

针对相关技术中不能对语音的方位进行识别的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明的主要目的在于提供一种语音方位识别方法和装置及系统、家居控制器,以至少解决相关技术中不能对语音的方位进行识别的问题。

为了实现上述目的,根据本发明的一个方面,提供了一种语音方位识别方法。该语音方位识别方法包括:对目标声源发出的语音进行处理,得到音频数据;对音频数据按照预设算法执行计算,得到语音位置信息,其中,语音位置信息为目标声源所在位置的信息;获取音频数据的特征数据,其中,特征数据为语音的口令信息对应的数据;判断特征数据是否与预设特征数据相匹配;如果判断出特征数据与预设特征数据相匹配,输出语音位置信息;如果判断出特征数据与预设特征数据不匹配,则不输出。

进一步地,判断特征数据是否与预设特征数据相匹配包括:判断特征数据是否为口令库中存储的口令信息的数据并生成匹配结果;如果匹配结果是特征数据为口令库中存储的口令信息的数据,确定特征数据与预设特征数据相匹配;如果匹配结果是特征数据不为口令库中存储的口令信息的数据,确定特征数据与预设特征数据不匹配。

进一步地,获取音频数据的特征数据包括:通过音频分析设备接收来自语音输入对音频数据执行预处理,得到预处理结果,并从预处理结果中提取特征数据。

进一步地,如果判断出特征数据与预设特征数据相匹配,输出语音位置信息和语音的口令信息。

进一步地,对音频数据按照预设算法执行计算,得到语音位置信息包括:对音频数据按照声源定位算法执行计算,得到目标声源的距离和目标声源的空间角度坐标,其中,声源定位算法为通过目标声源的信息计算目标声源所在位置的信息的算法,如果判断出特征数据与预设特征数据相匹配,输出语音位置信息包括:如果判断出特征数据与预设特征数据相匹配,输出目标声源的距离和目标声源的空间角度坐标。

进一步地,对目标声源发出的语音进行处理得到的音频数据包括:采集目标声源发出的语音对应的电压信号,通过语音输入设备对电压信号执行放大处理,得到放大电压信号,通过语音输入设备对放大电压信号执行滤波,得到音频数据。

为了实现上述目的,根据本发明的另一方面,还提供了一种语音方位识别装置。该语音方位识别装置包括:第一获取单元,用于对目标声源发出的语音进行处理得到的音频数据;计算单元,用于对音频数据按照预设算法执行计算,得到语音位置信息,其中,语音位置信息为目标声源所在位置的信息;第二获取单元,用于获取音频数据的特征数据,其中,特征数据为语音的口令信息对应的数据;判断单元,用于判断特征数据是否与预设特征数据相匹配;输出单元,用于在判断出特征数据与预设特征数据相匹配时,输出语音位置信息,在判断出特征数据与预设特征数据不匹配时,则不输出。

进一步地,该判断单元包括:处理模块,用于判断特征数据是否为口令库中存储的口令信息的数据并生成匹配结果;第一确定模块,用于当匹配结果是特征数据为口令库中存储的口令信息的数据时,确定特征数据与预设特征数据相匹配;第二确定模块,用于当匹配结果是特征数据不为口令库中存储的口令信息的数据时,确定特征数据与预设特征数据不匹配。

为了实现上述目的,根据本发明的另一方面,还提供了一种语音方位识别系统。该语音方位识别系统包括:语音输入设备,用于对目标声源发出的语音执行处理,得到音频数据;音频分析设备,用于提取音频数据中的特征数据,其中,特征数据为语音的口令信息对应的数据;中央处理设备,用于获取音频数据,对音频数据按照预设算法执行计算,得到语音位置信息,其中,语音位置信息为目标声源所在位置的信息,获取特征数据,判断特征数据是否与预设特征数据相匹配,如果判断出特征数据与预设特征数据相匹配,输出语音位置信息,如果判断出特征数据与预设特征数据不匹配,则不输出。

进一步地,该语音输入设备包括:第一采样模块,用于采集目标声源发出的语音对应的电压信号;信号放大模块,用于对电压信号执行放大处理,得到放大电压信号;滤波模块,用于对放大电压信号执行滤波,得到音频数据。

进一步地,该语音输入设备包括:第一采样模块包括多个采样模块,分别用于采集语音对应的电压信号,信号放大模块包括多个信号放大模块,分别用于对多个采样模块采集的电压信号执行放大处理,得到放大电压信号,滤波模块包括多个滤波模块,分别用于对多个信号放大模块处理的放大电压信号执行滤波,得到音频数据。

进一步地,音频分析设备用于通过语音识别芯片或者音频处理算法提取音频数据中的特征数据。

进一步地,语音识别芯片为ld3320芯片,音频处理算法为asr音频处理算法。

进一步地,该中央处理设备包括:第一通信模块,用于与音频分析设备建立通信连接以使中央处理设备接收特征数据;第二采样模块,用于采集音频数据;cpu,用于对音频数据按照预设算法执行计算,得到语音位置信息,当特征数据为预设特征数据时,输出语音位置信息,第二通信模块,用于与上位机建立通信连接,将语音位置信息输出至上位机。

为了实现上述目的,根据本发明的另一方面,还提供了一种家居控制器。该家居控制器包括本发明的语音方位识别装置或者本发明的语音方位识别系统。

为了实现上述目的,根据本发明的另一方面,还提供了一种机器人。该机器人包括本发明的语音方位识别装置或者本发明的语音方位识别系统。

在本发明中,采用对目标声源发出的语音进行处理,得到音频数据;对音频数据按照预设算法执行计算,得到语音位置信息,语音位置信息为目标声源所在位置的信息;获取音频数据的特征数据,特征数据为语音的口令信息对应的数据;判断特征数据是否与预设特征数据相匹配;如果判断出特征数据与预设特征数据相匹配,输出语音位置信息,如果判断出特征数据与预设特征数据不匹配,则不输出,解决了相关技术中不能对语音的方位进行识别的问题,进而达到了对语音的方位进行识别效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明第一实施例的语音方位识别系统的示意图;

图2是根据本发明第二实施例的语音方位识别系统的示意图;

图3是根据本发明第三实施例的语音方位识别系统的示意图;

图4是根据本发明第四实施例的语音方位识别系统的示意图;

图5是根据本发明第五实施例的语音方位识别系统的示意图;

图6是根据本发明实施例的语音输入设备的示意图;

图7是根据本发明实施例的音频放大芯片的原理示意图;

图8是根据本发明第一实施例的语音方位识别方法的流程图;

图9是根据本发明实施例的获取音频数据的特征数据的流程图;

图10是根据本发明第二实施例的语音方位识别方法的流程图;

图11是根据本发明第一实施例的语音方位识别装置的示意图;以及

图12是根据本发明第二实施例的语音方位识别装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种语音方位识别系统。

图1是根据本发明第一实施例的语音方位识别系统的示意图。如图1所示,该语音方位识别系统包括:语音输入设备10,音频分析设备20和中央处理设备30。

语音输入设备10,用于对目标声源发出的语音执行处理,得到音频数据。

语音输入设备10为语音方位识别系统的信号输入部分,接收目标声源发出的语音,对目标声源发出的语音进行处理,得到音频数据。可选地,该语音输入设备10可以对目标声源发出的语音进行采集、放大、滤波等处理,进而实现了对音频数据的获取。

当目标声源发出的语音为用户发出的语音时,语音输入设备10接收用户发出的语音并对用户发出的语音执行处理,得到音频数据。比如,语音输入设备10通过麦克风响应用户发出的语音,采集用户语音对应的电压信号,然后通过信号放大芯片对该电压信号进行放大处理,得到放大电压信号,再通过滤波芯片对该放大电压信号进行滤波,进而去除用户语音因受环境影响而产生的噪音,得到音频数据。

音频分析设备20,用于提取音频数据中的特征数据,其中,特征数据为语音的口令信息对应的数据。

音频分析设备20将目标声源发出的语音在经语音输入设备10处理之后得到的音频数据进行处理,得到处理结果,并从处理结果中提取特征数据,该特征数据对用户来说为有意义的口令信息对应的数据,也即,该特征数据有效音频的数据。音频分析设备20在提取到特征数据之后,判断该特征数据是否为口令库中存储的口令信息的数据,其中,口令库中预先存储多条口令信息,并将该多条口令信息的数据作为对特征数据执行匹配的匹配模板,如果判断出该特征数据为口令库中存储的口令信息的数据,则匹配结果为特征数据为口令库中存储的口令信息的数据,如果判断出该特征数据不为口令库中存储的口令信息的数据,则匹配结果为该特征数据不为口令库中存储的口令信息的数据的匹配结果,避免了对外界的无效音频进行响应。音频分析设备20在提取音频数据中的特征数据并与口令库中的特征数据进行匹配之后,可以进一步处理并对匹配结果进行识别,实现了对语音的识别。

可选地,用户预先确定好口令库,当用户发出语音并通过语音输入设备10处理得到用户语音的音频数据之后,音频分析设备20分析用户语音的音频数据,并与口令库中存储的特征数据进行匹配,得到匹配结果。

中央处理设备30,用于获取音频数据,对音频数据按照预设算法执行计算,得到语音位置信息,其中,语音位置信息为目标声源所在位置的信息,获取特征数据,判断特征数据是否与预设特征数据相匹配,如果判断出特征数据与预设特征数据相匹配,输出语音位置信息,如果判断出特征数据与预设特征数据不匹配,不输出。

中央处理设备30在语音输入设备10对目标声源发出的语音执行处理得到音频数据之后,获取该音频数据。该音频数据包含了目标声源所在位置的信息,比如,目标声源的距离和目标声源的空间角度坐标。通过预设算法对音频数据执行计算得到语音位置信息以对目标声源进行定位分析。中央处理设备30在音频分析设备20提取音频数据中的特征数据之后,获取该特征数据,如果匹配结果为特征数据为口令库中存储的口令信息的数据,确定特征数据与预设特征数据相匹配,输出语音位置信息,输出语音位置信息,进而对语音的方位进行识别;如果匹配结果为特征数据不为口令库中存储的口令信息的数据,确定特征数据与预设特征数据不匹配,不作任何输出。

该实施例通过语音输入设备10对目标声源发出的语音执行处理,得到音频数据,通过音频分析设备20提取音频数据中的特征数据,通过中央处理设备30获取音频数据,对音频数据按照预设算法执行计算,得到语音位置信息,中央处理设备30获取特征数据,判断特征数据是否与预设特征数据相匹配,如果判断出特征数据与预设特征数据相匹配,输出语音位置信息,如果判断出特征数据与预设特征数据不匹配,不输出,达到了对语音的方位进行识别的效果。

作为一种可选的实施方式,图2是根据本发明第二实施例的语音方位识别系统的示意图。如图2所示,该语音方位识别系统包括:语音输入设备10,音频分析设备20和中央处理设备30。其中,语音输入设备10包括:第一采样模块11,信号放大模块12和滤波模块13。

需要说明的是,该实施例的语音输入设备10,音频分析设备20和中央处理设备30与本发明第一实施例的语音方位识别系统中的作用相同,在此不再赘述。

第一采样模块11,用于采集目标声源发出的语音对应的电压信号。

第一采样模块11用于为语频输入设备10采集目标声源的语音在语音方位识别系统中的电压信号。可选地,该第一采样模块11为麦克风。

信号放大模块12,用于对电压信号执行放大处理,得到放大电压信号。

信号放大模块12与第一采样模块11相连接,具有一一对应关系,用于在第一采样模块11采集语音对应的电压信号之后,对电压信号执行放大处理,得到放大电压信号,该放大电压信号可以被中央处理设备30检测到。可选地,该信号放大模块12可以通过lm358芯片将电压信号进行放大。lm358芯片的内部包括有两个独立的、高增益、内部频率补偿的双运算放大器,适合电源电压范围很宽的单电源使用,也适用于双电源使用。

滤波模块13,用于对放大电压信号执行滤波,得到音频数据。

滤波模块13与信号放大模块12相连接,具有一一对应关系,用于在信号放大模块12对电压信号执行放大处理,得到放大电压信号之后,对该放大电压信号执行滤波,从而去除因环境的影响对语音的放大电压信号所造成的干扰,进而得到音频数据。

该实施例可以采用多种方式对目标声源发出的语音执行处理,得到音频数据的目的,上述通过第一采样模块11,信号放大模块12和滤波模块13对目标声源发出的语音执行处理,得到音频数据的方法仅为本发明的优选实施例,并不代表本发明实施例的对目标声源发出的语音执行处理,得到音频数据的方法仅包括上述方法。为了实现对目标声源发出的语音执行处理,得到音频数据的目的,本发明实施例还可以包括其它对目标声源发出的语音执行处理,得到音频数据的方式,此处不再一一举例说明。

该实施例通过第一采样模块11采集语音对应的电压信号,通过信号放大模块12对电压信号执行放大处理,得到放大电压信号,通过滤波模块13对放大电压信号执行滤波,得到音频数据,实现了语音输入设备10对目标声源发出的语音进行处理,得到音频数据。

作为一种可选的实施方式,第一采样模块11包括多个采样模块,多个采样模块分别用于采集语音对应的电压信号,多个采样模块可以为麦克风阵列,麦克风阵列是将三个或者三个以上的麦克风组合在一起,每一路麦克风对语音单独响应;信号放大模块12包括多个信号放大模块,分别与多个采样模块相连接,分别用于对多个采样模块采集的电压信号执行放大处理,得到放大电压信号;滤波模块13包括多个滤波模块,分别与信号放大模块相连接,分别用于对多个信号放大模块处理的放大电压信号执行滤波,得到音频数据。

作为一种可选的实施方式,音频分析设备20用于通过语音识别芯片或者音频处理算法提取音频数据中的特征数据。其中,语音识别芯片能够进行语音识别,可以让机器听懂人的语音,通过提取音频数据中的特征数据可以控制机器执行动作。可选地,该语音识别芯片还具有高品质、高压缩率的录音、播音功能,从而实现人机对话。音频处理算法用于对音频数据进行算法处理,进而得到特征数据。

作为一种可选的实施方式,语音识别芯片为ld3320芯片,音频处理算法为自动语音识别(automaticspeechrecognition,简称为asr)音频处理算法。ld3320芯片为专用的语音识别芯片,集成了语音识别处理器和一些外部电路,包括ad电路,da电路,麦克风接口,声音输入输出接口等。该ld3320芯片不需要外接任何的辅助芯片,直接集成在现有的产品中即可实现语音识别功能,并且识别的关键词语可以动态编辑。asr音频处理算法可以将用户的语音中的词汇内容转化为计算机可读的输入,比如,将用户的语音中的词汇内容转化为按键,二进制编码,或者字符序列。

可选地,在通过ld3320芯片或者asr音频处理算法提取到特征数据之后,判断该特征数据是否为口令库中存储的口令信息的数据。如果判断出该特征数据为口令库中存储的口令信息的数据,则匹配结果为特征数据为口令库中存储的口令信息的数据,如果判断出该特征数据不为口令库中存储的口令信息的数据,则匹配结果为特征数据不为口令库中存储的口令信息的数据的匹配结果。通过ld3320芯片或者asr音频处理算法在提取音频数据中的特征数据并与口令库中的特征数据进行匹配之后,可以进一步处理并对匹配结果进行识别。

该实施例可以采用多种方式实现音频分析设备20提取音频数据中的特征数据的目的,上述提取音频数据中的特征数据的方法仅为本发明的优选实施例,并不代表本发明实施例的提取音频数据中的特征数据的方法仅包括上述方法。为了实现提取音频数据中的特征数据的目的,本发明实施例还可以包括其它方式,此处不再一一举例说明。

作为一种可选的实施方式,图3是根据本发明第三实施例的语音方位识别系统的示意图。如图3所示,该语音方位识别系统包括:语音输入设备10,音频分析设备20和中央处理设备30。其中,中央处理设备30包括:第一通信模块31,第二采样模块32,cpu33和第二通信模块34。

需要说明的是,该实施例的语音输入设备10,音频分析设备20和中央处理设备30与本发明第一实施例的语音方位识别系统中的作用相同,在此不再赘述。

第一通信模块31,用于与音频分析设备20建立通信连接以使中央处理设备30接收特征数据。

第一通信模块31可以为与音频分析设备20通信用的串口或者其它通信接口,比如,输入输出(input/output,简称为io)接口,通用串行总线(universalserialbus,简称为usb接口),两线式串行总线(inter-integratedcircuit,简称为ic2)接口,异步串行通信接口(universalasynchronousreceiver/transmitter,简称为uart)接口,串行外设接口(serialperipheralinterface,简称为spi)等。通过串口或者其它通信接口与音频分析设备20建立通信连接以使中央处理设备30和音频分析设备20之间传输数据,以达到接收特征数据的目的,从而得到目标声源的口令信息。

第二采样模块32,用于采集音频数据。

在通过语音输入设备10对目标声源发出的语音执行处理,得到音频数据之后,通过第二采样模块32对语音输入设备10的音频数据进行采集,该第二采样模块可以为ad处理芯片。

cpu33,用于对音频数据按照预设算法执行计算,得到语音位置信息,当特征数据为预设特征数据时,输出语音位置信息。

在通过第一通信模块31与音频分析设备20建立通信连接以使中央处理设备30接收特征数据,进而接收特征数据对应的口令信息,以及通过第二采样模块32采集语音输入设备10的音频数据之后,通过cpu33对音频数据按照预设算法执行计算,得到语音位置信息。该预设算法可以为声源定位算法,声源定位算法为通过目标声源的信息计算目标声源所在位置的信息的算法,也即,通过目标声源的音频数据计算目标声源所在位置的信息的算法。通过cpu33对特征数据和音频数据进行整合处理,判断特征数据是否为预设特征数据,当通过cpu33判断出特征数据为预设特征数据时输出语音位置信息,进而实现对语音的方位进行定位。

第二通信模块34,用于与上位机建立通信连接,将语音位置信息输出至上位机。

第二通信模块34可以为与上位机建立通信连接的接口,该接口可以为io接口,usb接口,ic2接口,uart接口,spi接口等,以实现中央处理设备30和上位机之间数据的传输。通过第二通信模块34将语音位置信息输出至上位机,通过上位机对该语音位置信息进行显示、处理等,从而提高了用户的体验性能。

该中央处理设备30还包括存储模块,用于对中央处理设备30在对音频数据和特征数据进行处理的过程中产生的结果进行存储,比如,该存储模块为只读存储器(readonlymemory,简称为rom),随机存取存储器(randomaccessmemory,简称为ram)等。

该实施例可以采用多种方式实现中央处理设备30对音频数据按照预设算法执行计算,得到语音位置信息,当特征数据与预设特征数据相匹配时,输出语音位置信息的目的,上述方法仅为本发明的优选实施例,并不代表本发明实施例的对音频数据按照预设算法执行计算,得到语音位置信息,当特征数据与预设特征数据相匹配时,输出语音位置信息的方法仅包括上述方法。为了实现中央处理设备30对音频数据按照预设算法执行计算,得到语音位置信息,当特征数据与预设特征数据相匹配,输出语音位置信息的目的,本发明实施例还可以包括其它方式,此处不再一一举例说明。

该实施例通过第一通信模块31与音频分析设备20建立通信连接以使中央处理设备30接收特征数据,通过第二采样模块32采集音频数据,通过cpu33对音频数据按照预设算法执行计算,得到语音位置信息,当特征数据为预设特征数据时,输出语音位置信息,通过第二通信模块34与上位机建立通信连接,将语音位置信息输出至上位机,达到了对语音的方位进行识别的效果。

本发明实施例还提供了一种家居控制器。该家居控制器包括本发明实施例的语音方位识别系统。

本发明实施例还提供了一种机器人。该机器人包括本发明实施例的语音方位识别系统。

下面结合优选的实施例对本发明的语音方位识别系统的技术方案进行说明。

图4是根据本发明第四实施例的语音方位识别系统的示意图。如图4所示,该语音方位识别系统包括:语音输入设备10,音频分析设备20和中央处理设备30。该语音方位识别系统还包括外界语音输入设备40和输出设备50。

需要说明的是,该实施例的语音输入设备10,音频分析设备20和中央处理设备30与本发明第一实施例的语音方位识别系统中的作用相同,在此不再赘述。

该语音方位识别系统通过外界语音输入设备40输入外界的语音,中央处理设备30为语音方位识别系统的控制中心,处理语音输入设备10发送的音频数据和音频分析设备20的处理结果。中央处理设备30包括uart模块和ad采样模块。其中,uart模块用于与音频分析设备20进行通信,并将中央处理设备30的处理结果通过输出设备50上传至上位机。

图5是根据本发明第五实施例的语音方位识别系统的示意图。如图5所示,该语音方位识别系统包括:语音输入设备10,音频分析设备20和中央处理设备30,该语音方位识别系统还包括:供电设备60。

需要说明的是,该实施例的语音输入设备10,音频分析设备20和中央处理设备30与本发明第一实施例的语音方位识别系统中的作用相同,在此不再赘述。

供电设备60为语音输入设备10,音频分析设备20和中央处理设备30供电,该供电设备60可以为电池。优选地,该电池为锂离子电池,该供电设备60不限于电池的种类、电压、放电、充电倍率以及容量等特性。该供电设备60可以提供5v的直流电,5v的直流电一路给语音处理设备10中的信号放大模块和滤波模块供电,一路为音频分析设备20供电,另一路为中央处理设备30供电。

图6是根据本发明实施例的语音输入设备的示意图。如图6所示,该语音输入设备包括:麦克风1,麦克风2,麦克风3,麦克风n1,音频放大芯片4,音频放大芯片5,音频放大芯片6,音频放大芯片n2,滤波芯片7,滤波芯片8,滤波芯片9和滤波芯片n3。

该实施例的语音输入设备10与本发明第一实施例的语音方位识别系统中的作用相同,在此不再赘述。

麦克风1,麦克风2,麦克风3至麦克风n1为麦克风阵列,是将三个或者三个以上麦克风组合在一起,每一路麦克风对目标声源的音频单独响应。

音频放大芯片5,音频放大芯片6,音频放大芯片n2与麦克风阵列中的每一个麦克风分别连接,将麦克风采集的电压信号放大,得到放大电压信号。该放大电压信号可以被中央处理设备30检测到。

图7是根据本发明实施例的音频放大芯片的原理示意图。如图7所示,该音频放大芯片包括lm358芯片,麦克风接口mic,第一电阻r1,第二电阻r2,第三电阻r3,第四电阻r4,第五电阻r5,第六电阻r6,第七电阻r7,第一电容c1,第二电容c2,第三电容c3,第四电容c4,第五电容c5,滑动变阻器rp和线槽j1。

麦克风接口mic的第一端与第一电阻r1的第一端相连接,麦克风接口mic的第二端接地,第一电阻r1的第一端与第三电容c3的第一端相连接,第一电阻r1的第二端接电平vcc,第三电容c3的第二端与第二电阻r2的第一端相连接,第二电阻r2的第二端与lm358芯片的第三端3相连接,lm358芯片的第二端2与第四电阻r4的第一端和第五电阻r5的第一端相连接,第四电阻r4的第二端接电平vcc,第五电阻r5的第二端接地,lm358芯片的第四端接地,lm358芯片的第一端1与第四电容c4的第一端相连接,第三电阻r3的第一端与第二电阻r2的第二端和lm358的第三端3相连接,第三电阻r3的第二端与lm358芯片的第一端1和第四电容c4的第一端相连接,第六电阻r6的第一端与第四电容c4的第二端相连接,第六电阻r6的第二端与lm358芯片的第五端5相连接,第七电阻r7的第一端与第六电阻r6的第二端相连接,第七电阻r7的第二端与lm358芯片的第七端7相连接,lm358芯片的第六端6与第四电阻r4的第一端和第五电阻r5的第一端相连接,第二电容c2的第一端与第七电阻r7的第二端和lm358芯片的第七端相7连接,第二电容c2的第二端与滑动变阻器rp的第一端相连接,滑动变阻器rp的第二端接地,滑动变阻器rp的滑片与线槽j1的第一接口1相连接,线槽j1的第二接口2接vcc,线槽j1的第三接口3接地。第一电容c1的正极端与vcc相连接,负极端接地,第五电容c5的第一端与vcc相连接,第二端接地。

可选地,该实施例中的第一电阻r1为10k,第二电阻r2为1k,第三电阻r3为1m,第四电阻r4为10k,第五电阻r5为10k,第六电阻r6为10k,第七电阻r7为100k,第一电容c1为4.7uf,第二电容c2为4.7uf,第三电容c3为104p,第四电容c4为104p,第五电容c5为104p。

通过音频放大芯片的各个元器件的相互作用实现语音输入设备对语音对应的电压信号的放大处理,然后通过滤波模块对放大电压信号执行滤波,进而得到音频数据。

在通过语音输入设备对目标声源发出的语音执行处理,得到音频数据之后,通过音频分析设备提取音频数据中的特征数据,通过中央处理设备获取音频数据,对音频数据按照预设算法执行计算,得到语音位置信息,通过中央处理设备获取特征数据,判断特征数据是否与预设特征数据相匹配,如果判断出特征数据与预设特征数据相匹配,输出语音位置信息,达到了对语音的方位进行识别的效果。

本发明实施例还提供了一种语音方位识别方法,需要说明的是,该实施例的语音方位识别方法可以由本发明实施例的语音方位识别系统执行。

图8是根据本发明第一实施例的语音方位识别方法的流程图。如图8所示,该语音方位识别方法包括以下步骤:

步骤s101,对目标声源发出的语音进行处理,得到音频数据。

语音由目标声源发出,该语音可以为用户发出的特定口令。通过语音输入设备对语音进行处理。可选地,语音输入设备可以对目标声源发出的语音进行采集、放大、滤波处理,从而得到音频数据,实现了对语音的音频数据的获取。

举例而言,语音输入设备通过麦克风响应用户发出的语音,采集用户语音对应的电压信号,然后通过信号放大芯片对该电压信号进行放大处理,得到放大电压信号,再通过滤波芯片对该放大电压信号进行滤波,进而去除用户语音因受环境影响而产生的噪音,得到音频数据。

在通过语音输入设备对目标声源发出的语音进行处理之后,获取该音频数据。

步骤s102,对音频数据按照预设算法执行计算,得到语音位置信息。

在获取语音输入设备对目标声源发出的语音进行处理得到的音频数据之后,对音频数据按照预设算法执行计算,得到语音位置信息。该语音位置信息为目标声源所在位置的信息,也即,发出语音的位置,比如,用户发出语音,则该语音位置信息为用户所在位置的信息。音频数据中包含语音位置信息,对音频数据按照预设算法执行计算,可选地,通过声源定位分析算法对音频数据执行计算,得到语音位置信息,达到了对语音的语音位置信息进行获取的目的,实现了对特定口令的判定和说话人的方位进行判定。

步骤s103,获取音频数据的特征数据。

在获取语音输入设备对目标声源发出的语音进行处理得到的音频数据之后,获取音频数据的特征数据,该特征数据为语音的口令信息对应的数据。

可选地,通过音频分析设备将目标声源发出的语音在经语音输入设备处理之后得到的音频数据进行处理,得到处理结果,并从处理结果中提取特征数据,从而获取到语音的口令信息对应的数据。音频分析设备在提取到特征数据之后,判断该特征数据是否为口令库中存储的口令信息的数据。口令库中预先存储多条口令信息,并将该多条口令信息的数据作为对特征数据执行匹配的匹配模板,如果判断出该特征数据为口令库中存储的口令信息的数据,则匹配结果为特征数据为口令库中存储的口令信息的数据,如果判断出该特征数据不为口令库中存储的口令信息的数据,则匹配结果为特征数据不为口令库中存储的口令信息的数据的匹配结果。

可选地,用户预先确定好口令库,当用户发出语音并通过语音输入设备处理得到用户语音的音频数据之后,音频分析设备分析用户语音的音频数据,并与口令库中存储的特征数据进行匹配,得到匹配结果。

步骤s104,判断特征数据是否与预设特征数据相匹配。

在获取音频数据的特征数据之后,判断特征数据是否与预设特征数据相匹配。可选地,接收来自音频分析设备的匹配结果,该音频分析设备用于判断特征数据是否为口令库中存储的口令信息的数据;如果匹配结果为特征数据为口令库中存储的口令信息的数据,确定特征数据与预设特征数据相匹配,执行步骤s105;如果匹配结果为特征数据不为口令库中存储的口令信息的数据,确定特征数据与预设特征数据不匹配,避免了对外界的无效音频进行响应,从而实现了对语音的识别。

步骤s105,输出语音位置信息。

在判断特征数据是否与预设特征数据相匹配之后,如果判断出特征数据与预设特征数据相匹配,输出语音位置信息。可选地,将语音位置信息输入至上位机,通过上位机对该语音位置信息进行显示和处理,达到了对语音的方位进行识别的效果。

该实施例获取语音输入设备对目标声源发出的语音进行处理得到的音频数据,对音频数据按照预设算法执行计算,得到语音位置信息,语音位置信息为目标声源所在位置的信息,获取音频数据的特征数据,特征数据为语音的口令信息对应的数据,判断特征数据是否与预设特征数据相匹配,如果判断出特征数据与预设特征数据相匹配,输出语音位置信息,达到了对语音的方位进行识别的效果。

步骤s106,不输出。

在判断特征数据是否与预设特征数据相匹配之后,如果判断出特征数据与预设特征数据不匹配,不作任何输出。

该实施例通过对目标声源发出的语音进行处理,得到音频数据,然后对音频数据按照预设算法执行计算,得到语音位置信息,语音位置信息为目标声源所在位置的信息,再获取音频数据的特征数据,特征数据为语音的口令信息对应的数据,判断特征数据是否与预设特征数据相匹配,如果判断出特征数据与预设特征数据相匹配,输出语音位置信息,如果判断出特征数据与预设特征数据不匹配,不输出,达到了对语音的方位进行识别的效果。

作为一种可选的实施方式,判断特征数据是否与预设特征数据相匹配包括:判断特征数据是否为口令库中存储的口令信息的数据并生成匹配结果;如果匹配结果为特征数据为口令库中存储的口令信息的数据,确定特征数据与预设特征数据相匹配;如果匹配结果为特征数据不为口令库中存储的口令信息的数据,确定特征数据与预设特征数据不匹配。

音频分析设备用于接收音频数据,对音频数据中的特征数据进行处理,得到处理结果,然后从处理结果中提取特征数据,从而得到语音的口令信息对应的数据,再将特征数据与预先确定好的口令库中存储的口令信息的数据进行匹配,判断特征数据是否为口令库中存储的口令信息的数据,得到匹配结果。如果匹配结果为特征数据为口令库中存储的口令信息的数据,确定特征数据与预设特征数据相匹配,可以对语音进行识别,如果匹配结果为特征数据不为口令库中存储的口令信息的数据,确定特征数据与预设特征数据不匹配,不能对语音进行识别。

可选地,通过对语音输入设备对目标声源发出的语音进行处理得到的音频数据进行处理并提取特征,同时与在口令库中已经存储的匹配模块进行匹配,得出匹配结果。在实际操作中,用户指定特定的口令集,当用户说出相应口令时,音频分析设备分析用户的口令并与口令库进行匹配,输出匹配结果。音频分析设备将该匹配结果输出给中央处理设备,中央处理设备对该匹配结果进行处理,如果匹配结果为特征数据为口令库中存储的口令信息的数据时,中央处理设备输出目标声源所在位置的语音位置信息,从而实现了对语音的方位进行识别。

作为一种可选的实施方式,获取音频数据的特征数据包括:对音频数据执行预处理,得到预处理结果,并从预处理结果中提取特征数据。

在获取语音输入设备对目标声源发出的语音进行处理得到的音频数据之后,可以通过通信串口或者通信接口建立语音输入设备和音频分析设备之间的通信连接,以传输数据。在建立语音输入设备和音频分析设备之间的通信连接之后,通过音频分析设备接收该音频数据,音频分析设备对音频数据执行预处理,得到预处理结果,并从预处理结果中提取特征数据,该特征数据为语音的口令信息对应的数据,可以用于表示用户指定的口令信息。

作为一种可选的实施方式,如果判断出特征数据与预设特征数据相匹配,输出语音位置信息和语音的口令信息。

在判断特征数据是否与预设特征数据相匹配之后,如果判断出特征数据与预设特征数据相匹配,该特征数据对应的口令信息被识别,输出语音位置信息以确定语音的方位,进而对该语音追溯至语音的具体空间位置,并且输出语音的口令信息以提示被识别的语音,提高了用户的体验性能。

作为一种可选的实施方式,对音频数据按照预设算法执行计算,得到语音位置信息包括:对音频数据按照声源定位算法执行计算,得到目标声源的距离和目标声源的空间角度坐标,其中,声源定位算法为通过目标声源的信息计算目标声源所在位置的信息的算法,如果判断出特征数据与预设特征数据相匹配,输出语音位置信息包括:如果判断出特征数据与预设特征数据相匹配,输出目标声源的距离和目标声源的空间角度坐标。

声源定位算法为通过目标声源的信息计算目标声源所在位置的信息的算法,目标声源所在位置的信息包括目标声源的距离和目标声源的空间角度坐标,目标声源的距离为目标声源距离语音定位系统的距离。在获取音频数据之后,对音频数据按照声源定位算法执行计算,得到目标声源的距离和目标声源的空间角度坐标。通过目标声源的距离可以确定出目标声源的远近,通过目标声源的空间角度坐标可以确定出目标声源的方向,从而通过目标声源的距离和目标声源的空间角度坐标确定出目标声源的空间位置,达到了对语音的方位进行识别的目的。

作为一种可选的实施方式,获取语音输入设备对目标声源发出的语音进行处理得到的音频数据包括:采集语音对应的电压信号,对电压信号执行放大处理,得到放大电压信号,对放大电压信号执行滤波,得到音频数据。

语音输入设备可以通过麦克风采集语音对应的电压信号,通过音频放大芯片对电压信号执行放大处理,得到放大电压信号,通过滤波芯片对放大电压信号执行滤波,得到音频数据,从而实现了对语音的音频数据的获取。

下面结合优选的实施方式对本发明的语音方位识别方法的技术方案进行说明。

图9是根据本发明实施例的获取音频数据的特征数据的流程图。如图9所示,该获取音频数据的特征数据包括以下步骤:

步骤s201,接收语音的音频数据。

通过语音输入设备对目标声源发出的语音进行处理,得到音频数据,可以采集语音对应的电压信号,然后对电压信号进行放大处理,得到放大电压信号,再对放大电压信号进行滤波处理,进而得到音频数据。

步骤s202,对音频数据执行预处理,得到预处理数据。

在接收语音的音频数据之后,对音频数据执行预处理,得到预处理数据。

步骤s203,从预处理数据中提取特征数据。

特征数据为语音的口令信息对应的数据,从预处理数据中提取该数据。

步骤s204,在口令库中对特征数据进行匹配,得到匹配结果。

在从预处理数据中提取特征数据之后,在预先存储口令信息的口令库中判断该口令库中是否存在该特征数据对应的口令信息,如果该口令库中存在该特征数据对应的口令信息,则确定该特征数据与预设特征数据匹配,如果该口令库中不存在该特征数据对应的口令信息,则确定该特征数据与预设特征数据不匹配。

步骤s205,对特征数据进行匹配,得到匹配结果。

在从预处理数据中提取特征数据之后,对该特征数据进行匹配,得到匹配结果。

步骤s206,对匹配结果进行后处理,得到后处理匹配结果。

在得到匹配结果之后,对匹配结果进行后处理,得到后处理匹配结果,以提高匹配结果识别的准确性。

步骤s207,对后处理匹配结果进行识别。

对后处理匹配结果进行识别,确定特征数据对应的口令为口令库中的口令,或者特征数据不为口令库中的口令。

该实施例采用接收语音的音频数据,对音频数据执行预处理,得到预处理数据,从预处理数据中提取特征数据,从而实现了对特征数据进行获取的目的,此外,口令库中对特征数据进行匹配,得到匹配结果,或者在口令库中对特征数据进行匹配,得到匹配结果,对匹配结果进行后处理,得到后处理匹配结果,最后对后处理匹配结果进行识别,确定特征数据对应的口令为口令库中的口令,或者特征数据不为口令库中的口令。

图10是根据本发明第二实施例的语音方位识别方法的流程图。如图10所示,该语音方位识别方法包括以下步骤:

步骤s301,通过音频输入设备对目标声源发出的语音执行处理,得到音频数据。

通过语音输入设备采集语音对应的电压信号,然后对电压信号进行放大处理,得到放大电压信号,再对放大电压信号进行滤波处理,进而得到音频数据。

步骤s302,通过音频分析设备获取音频数据,对音频数据执行匹配,得到匹配结果。

在通过音频输入设备对目标声源发出的语音执行处理,得到音频数据之后,通过音频分析设备获取音频数据,对音频数据执行匹配,得到匹配结果。

步骤s303,通过中央处理设备接收音频数据,对音频数据按照声源定位算法执行计算,得到语音位置信息。

在通过音频输入设备对目标声源发出的语音执行处理,得到音频数据之后,通过中央处理设备接收音频数据,对音频数据按照声源定位算法执行计算,得到语音位置信息。

步骤s304,通过中央处理设备接收特征数据对应的口令信息和匹配结果。

在通过音频分析设备获取音频数据,对音频数据执行匹配,得到匹配结果之后,通过中央处理设备接收特征数据对应的口令信息和匹配结果。

步骤s305,当匹配结果为特征数据为口令库中存储的口令信息的数据的结果,输出语音位置信息。

在通过中央处理设备接收特征数据对应的口令信息和匹配结果之后,判断匹配结果是否为特征数据为口令库中存储的口令信息的数据的结果,当匹配结果为特征数据为口令库中存储的口令信息的数据的结果,输出语音位置信息,可以将语音位置信息输入至上位机,当匹配结果不为特征数据为口令库中存储的口令信息的数据的结果,不做任何处理。

可选地,中央处理设备采用cpu和外围电路组成,包含了与音频分析设备通信用的串口或者其它通信接口以及与上位机通信用的接口、采集音频信号的ad处理芯片。语音经过音频输入设备处理后得到的音频数据一路由音频分析设备分析,输出口令信息。一路由中央处理设备进行声源定位分析,通过声源定位算法计算出发音所在位置的距离和空间角度坐标,得到语音位置信息。中央处理设备如果确定输出的口令信息是口令库中的口令,则输出语音位置信息与对应的口令信息,如果确定输出的口令信息不是口令库中的口令,则不做任何处理。

该实施例通过音频输入设备对目标声源发出的语音执行处理,得到音频数据,通过音频分析设备获取音频数据,对音频数据执行匹配,得到匹配结果,通过中央处理设备接收音频数据,对音频数据按照声源定位算法执行计算,得到语音位置信息,通过中央处理接收音频分析设备接收特征数据对应的口令信息和匹配结果,当匹配结果为特征数据为口令库中存储的口令信息的数据的结果,输出语音位置信息,达到了对语音的方位进行识别的效果。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例还提供了一种语音方位识别装置。需要说明的是,该实施例的语音方位识别装置可以用于执行本发明实施例的语音方位识别方法。

图11是根据本发明第一实施例的语音方位识别装置的示意图。如图11所示,该语音方位识别装置包括:第一获取单元70,计算单元80,第二获取单元90,判断单元100和输出单元110。

第一获取单元70,用于对目标声源发出的语音进行处理得到的音频数据。

计算单元80,用于对音频数据按照预设算法执行计算,得到语音位置信息,其中,语音位置信息为目标声源所在位置的信息。

第二获取单元90,用于获取音频数据的特征数据,其中,特征数据为语音的口令信息对应的数据。

判断单元100,用于判断特征数据是否与预设特征数据相匹配。

输出单元110,用于在判断出特征数据与预设特征数据相匹配时,输出语音位置信息,在判断出特征数据与预设特征数据不匹配时,不输出。

图12是根据本发明第二实施例的语音方位识别装置的示意图。如图12所示,该语音方位识别装置包括:第一获取单元70,计算单元80,第二获取单元90,判断单元100和输出单元110,其中,判断单元100包括:处理模块101,第一确定模块102和第二确定模块103。

需要说明的是,该实施例中的第一获取单元70,计算单元80,第二获取单元90,判断单元100和输出单元110与本发明第一实施例中的作用相同,在此不再赘述。

处理模块101,用于判断特征数据是否为口令库中存储的口令信息的数据并生成匹配结果。

第一确定模块102,用于当匹配结果为特征数据为口令库中存储的口令信息的数据时,确定特征数据与预设特征数据相匹配。

第二确定模块103,用于当匹配结果为特征数据不为口令库中存储的口令信息的数据时,确定特征数据与预设特征数据不匹配。

可选地,第二获取单元90用于对音频数据执行预处理,得到预处理结果,并从预处理结果中提取特征数据。

可选地,输出单元110还用于在判断单元100判断出特征数据与预设特征数据相匹配,输出语音位置信息和语音的口令信息。

可选地,计算单元80用于对音频数据按照声源定位算法执行计算,得到目标声源的距离和目标声源的空间角度坐标,其中,声源定位算法为通过目标声源的信息计算目标声源所在位置的信息的算法,输出单元110用于在判断出特征数据与预设特征数据相匹配,输出目标声源的距离和目标声源的空间角度坐标。

可选地,第一获取单元70用于采集语音对应的电压信号,对电压信号执行放大处理,得到放大电压信号,对放大电压信号执行滤波,得到音频数据。

该实施例通过第一获取单元70获取语音输入设备对目标声源发出的语音进行处理得到的音频数据,通过计算单元80对音频数据按照预设算法执行计算,得到语音位置信息,其中,语音位置信息为目标声源所在位置的信息,通过第二获取单元90获取音频数据的特征数据,其中,特征数据为语音的口令信息对应的数据,通过判断单元100判断特征数据是否与预设特征数据相匹配,通过输出单元110在判断出特征数据与预设特征数据相匹配时,输出语音位置信息,在判断出特征数据与预设特征数据不匹配时,不输出,达到了对语音的方位进行识别的效果。

本发明实施例还提供了一种家居控制器。该家居控制器包括本发明实施例的语音方位识别装置。

本发明实施例还提供了一种机器人。该机器人包括本发明实施例的语音方位识别装置。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1