智能终端设备根据语音数据识别语言种类的方法及装置与流程

文档序号：11136015阅读：223来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及电子设备应用领域，具体涉及一种智能终端设备根据语音数据识别语言种类的方法及装置。

背景技术：

语音识别技术通常是基于预设的语言种类来进行识别，该技术已被广泛的应用于电子设备上，为电子设备的信息输入上带来了更多的快捷及便利。

目前，对于电子设备上使用语音识别，需要预设语言种类以便于识别出输入的语音数据；例如：在电子设备上先预置中文、英文、粤语、四川话等语种和方言，用户只有使用对应语种的语音输入方式，方能将输入的语音信息进行识别。

现有语音识别在应用于电子设备上时存在以下几方面的缺陷：

1、语言类型的预置与用户的使用存在一定的局限性，即：语音输入在识别上受电子设备预置的语言种类限制；

2、预置大量语言类型，占用大量电子设备的存储空间。

因此，如何提供一种语音识别能够克服上述现有技术中存才的技术问题，成为本领域技术人员需要解决的技术问题。

技术实现要素：

本申请提供一种智能终端设备根据语音数据识别语言种类的方法及装置，以解决现有技术中语音输入数据受限以及智能终端设备存储空间被大量占用的问题。

本申请提供一种智能终端设备根据语音数据识别语言种类的方法，包括：

接收当前语音输入数据；

将所述当前语音输入数据，与预先设置的分类专用数据包的各语言类别的语音材料进行匹配，确定与所述当前语音输入数据的比对结果最接近的语音材料；

将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型。

优选的，所述预先设置的分类专用数据包包括：

根据预置所述语音材料的语音特征构建的语音识别模型；

为与每个所述语音材料设定的对应的语言类别。

优选的，包括：

将所述语音识别模型以及每个所述语音对应的语言类别采用本地数据包的形式存储在本地。

优选的，所述语音材料包括：设定词组的语音数据、设定短语的语音数据和/或设定短句的语音数据。

优选的，所述将所述当前语音输入数据，与预先设置的分类专用数据包的各语言类别的语音材料进行匹配，确定与所述当前语音输入数据的比对结果最接近的语音材料，包括：

提取所述当前语音输入数据的语音特征；

将所述当前语音输入数据的语音特征与所述语音材料识别模型中语音材料的语音特征比较，并赋予相似度分值；

选取所述相似度分值最高的作为与所述当前语音输入数据最接近的所述语音材料。

优选的，所述语音特征为所述语音材料或语音输入数据中语音帧的长度、语音的时间长度和/或语音的音节长度。

优选的，所述将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型的步骤之后，包括：

将所述当前语言类型对应的语言数据库下载至智能终端设备上。

优选的，将所述当前语言类型对应的语言数据库下载至智能终端设备上之前包括：

判断智能终端设备是否处于无线网络状态，若是，则执行所述下载所述当前语言类型对应的语言数据库的步骤。

优选的，在所述将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型之后包括：

在智能终端设备中将当前系统语言切换为所述当前语言数据对应的语言类别。

优选的，在所述将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型之后包括：

将智能终端设备上的第三方应用软件交互的默认语言切换为所述当前语言类型。

本申请还提供一种智能终端设备根据语音数据识别语言种类的装置，包括：

接收单元，用于接收当前语音输入数据；

匹配单元，用于将所述当前语音输入数据，与预先设置的分类专用数据包的各语言类别的语音材料进行匹配，确定与所述当前语音输入数据的比对结果最接近的语音材料；

设定单元，用于将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型。

优选的，所述匹配单元包括：

构建单元，用于根据所述语音材料的语音特征构建的语音识别模型；

语言类型设定单元，用于为与每个所述语音材料设定的对应的语言类别。

优选的，所述匹配单元包括：

存储单元，用于将所述语音识别模型以及与每个所述语音对应的语言类别作为所述分类专用数据包采用本地数据包的形式存储在本地。

优选的，所述语音材料为设定词组的语音数据、设定短语的语音数据和/或设定短句的语音数据。

优选的，所述匹配单元包括：

提取单元，用于提取所述当前语音输入数据的语音特征；

赋值单元，用于将所述当前语音输入数据的语音特征与所述语音材料识别模型中语音材料的语音特征比较，并赋予相似度分值；

选取单元，用于选取所述相似度分值最高的作为与所述当前语音输入数据最接近的所述语音材料。

优选的，所述构建单元中的所述语音特征为所述语音材料或语音输入数据中语音帧的长度、语音的时间长度和/或语音的音节长度。

优选的，包括：

下载单元，用于将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型之后，将所述当前语言类型对应的语言数据库下载至智能终端设备上。

优选的，所述下载单元包括：

网络状态判断单元，用于将所述当前语言类型对应的语言数据库下载至智能终端设备上之前，判断智能终端设备是否处于无线网络状态，若是，则进入所述下载单元。

优选的，包括：系统语言切换单元，用于在所述将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型之后，在智能终端设备中将当前系统语言切换为所述当前语言数据对应的语言类别。

优选的，包括：应用语言切换单元，用于在所述将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型之后，将智能终端设备上的第三方应用软件交互的默认语言切换为所述当前语言类型。

与现有技术相比，本申请具有以下优点:

本申请提供的一种智能终端设备根据语音数据识别语言种类的方法，通过将接收到的当前语言输入数据与预先设置分类专用数据包中预置的语音材料进行匹配，根据匹配的结果确定最接近所述当前语音输入数据的语音材料，再将所述比对结果中最接近的语音材料所述的语言类别作为当前语言类型，由于在智能终端设备上仅存储预先设置的分类专用数据包，而所述分类专用数据包中仅包括各种语言类别以及与其对应的语音材料，无需存储大量的各种语音数据库，进而节省大量的存储空间，并且在所述分类专用数据包中可以设置大量的各种类型的语言类型以及对应的语音材料；当确定所述当前语言种类后，智能终端设备可以根据需要将当前语言种类的语音数据库进行下载，在需要改变所述当前语言种类时，根据上述方法再次确定的当前语言种类后，下载相应的语音数据库，可以删除之前的已有的语音数据库，进而节约智能终端设备的存储空间，提高用户使用的便利性。

附图说明

图1是本申请提供的一种智能终端设备根据语音数据识别语言种类的方法实施例的流程图；

图2是本申请提供的一种智能终端设备根据语音数据识别语言种类的装置实施例的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

请参考图1所示，图1是本申请提供的一种智能终端设备根据语音数据识别语言种类的方法实施例的流程图。

如图1所示，本申请提供的智能终端设备根据语音数据识别语言种类的方法包括：

步骤S101：接收当前语音输入数据；

所述步骤S101的具体实现过程可以是，通过智能终端设备接收语音数据信息，所述智能终端设备可以是智能手机、Ipad、智能手表或其他可作为数据交互的智能电子设备。用户可以通过智能终端设备上的语音输入通道进行语音输入，所述输入通道可以是系统输入法中的语音输入，或者第三方应用软件上的输入通道。

在本实施中，对于语音的输入方式不做具体限定，所述智能终端设备能够获得语音输入数据的方式没有具有限制，能够使智能终端设备接收用户的语音输入数据即可。

步骤S102，将所述当前语音输入数据，与预先设置的分类专用数据包的各语言类别的语音材料进行匹配，确定与所述当前语音输入数据的比对结果最接近的语音材料。

所述步骤S102的具体实现过程可以是，在将所述当前语音输入数据与预先设置的分类专用数据包的各语言类别的语音材料进行匹配时，对所述分类专用数据包进行预设，所述分类专用数据包具体可以包括：

根据预置所述语音材料的语音特征构建的语音识别模型；

为与每个所述语音材料设定的对应的语言类别。

所述预置所述语音材料可以为预置的输入语音，包括：设定词组的语音数据，设定短语的语音数据和/或设定短句的语音数据，例如：词组“你好”所对应的语音数据。

在步骤S102中的构建语音识别模型，可以通过抽取预置的输入语音中的语音特征，根据语音特征建立所述预置输入语音的标准语音数据。

所述语音特征可以包括：语音帧的长度、语音的时间长度或语音的音节长度等，在本实施中，所述语音特征选取语音帧的长度进行说明。

对于预置的输入语音可以存在多种不同的语言类别，针对预置的输入语音对应的各种不同语言类别的语音数据，分别抽取每种不同语言类别的语音帧的长度，将对于预置输入语音的不同语音帧的长度进行存储，构建成语音识别模型，并根据预置输入语音的不同语音帧的长度存储其与相对应的语言类别，将语音识别模型和与每个预置输入语音对应的语言类别作为分类专用的数据包。例如：假设预置输入语音为“你好”，而“你好”对应的有多国语音和各种方言，将不同国家和方言中“你好”发音中的语音长度抽取，建立一个语音识别模型，在将对“你好”发音中每一种语音长度对应的语言类别进行对应存储，进而在智能终端设备上，仅需要存储针对预置输入语音为词组“你好”的不同语音的语音长度信息和每种语音长度对应的语言类别即可，无需将预置输入语音“你好”对应的所有相关语音数据都进行存储，也就是说，在本实施中，所述智能终端设备上可以仅存储预置的语音材料的语音识别模型以及与每个语音材料对应的语言类别，无需将各种语言对应的语音包都存在智能终端设备上，从而减少智能终端设备存储空间的浪费。

在本实施中，将所述语音识别模型以及与每个所述语音对应的语言类别采用本地数据包的形式存储在本地。

需要说明的是，所述预置输入语音可以是设置多个，供用户在进行语言类别识别选用。

在将分类专用数据包预先设置好后，所述步骤S102中的将所述当前语音输入数据，与预先设置的分类专用数据包的各语言类别的语音材料进行匹配，具体实现过程可以包括：

提取所述当前语音输入数据的语音特征，例如，将当前语音输入数据为“你好”的语音帧的长度进行提取，具体提取所述语音帧的长度的方式可以是将当前语音输入数据的开始位置出的语音帧进行提取，以及将所述当前语音输入数据的结束位置处的语音帧进行提取，计算出当前语音输入数据的语音帧长度。

可以理解的是，所述语音特征还可以是语音的时间长度和/或语音的语音音节长度。同样的，可以通过提取所述当前语音输入数据开始位置处的语音音节和结束位置处的语音音节，计算当前语音输入数据的语音的音节长度；所述语音的时间长度也可以通过开始与结束位置提取，通过计算获得。

在本实施中，仅以语音帧的长度为例进行说明，实际上，可以将上述语音特征结合作为语音特征数据。

因此，所述语音特征可以为所述语音材料或语音输入数据中语音帧的长度、语音的时间长度和/或语音的音节长度等等，只要能够描述语音特征的属性皆可作为语音特征被本实施所应用。

需要说明的是，所述提取的当前语音输入数据的语音特征与构建的语音识别模型中的语音特征的类型是相同的，以便进行比较。

在提取所述当前语音输入数据的语音特征后，将所述当前语音输入数据的语音特征与所述语音识别模型中语音材料的语音特征比较，并赋予相似度分值。

在本实施中，可以将所述当前语音输入数据的语音帧的长度与所述语音识别模型中的预置输入语音中每一个语音数据的语音帧的长度分别进行比较，所述语音识别模型根据比较的结果，为每一个比较的语音数据进行打分，根据分值的高低可以表示出相似程度。

比较过程可以采用现有的一些现有算法进行，例如：DTW算法、HMM算法、VQ算法或者基于人工神经网络(ANN)的算法和混合算法等，该些算法可以根据不同的语音特征进行计算，从而获得识别的相似程度值。

之后，选取所述相似度分值最高的作为与所述当前语音输入数据最接近的所述语音材料。

需要说明的是，在本实施中以所述语音帧的长度为语音特征进行比较，实际上可以将上述语音特征组合进行比较，从而能够获得更好的相似度分值。

步骤S103：将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型。

所述步骤S103的具体实现过程可以是，在所述智能终端设备上显示所述当前语音数据所属语言类型的信息。

在所述步骤S103执行之后，可以将所述当前语言类型对应的语言数据库下载至智能终端设备上，进而根据用户的需求获取语言数据库，无需将大量闲置的语言数据库也存储在终端设备上，在用户需要更换语言类型时，可以将本地存储的语言数据库删除，重新输入语音数据，由所述语音识别模型进行识别，根据比较结果重新获得语言类型，将其当前语言类型并下载与当前语言类型对应的语言数据库至智能终端设备上。

可以理解的是，所述智能终端设备上的语言数据库可以在重新确收当前语言类型后删除，也可以在之前删除，也可以不删除。

在本实施中，所述语言类型可以根据输入语音数据进行更换，更为动态的实现智能终端设备对语言种类的识别。

为解决用户成本，将所述当前语言类型对应的语言数据库下载至智能终端设备上之前，可以先判断智能终端设备是否处于无线网络状态，若是，则下载所述当前语言类型对应的语言数据库至智能终端设备上。

在确定所述语言类型后，为提高用户在使用上的便利性，在本实施中，当所述步骤S103在所述将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型之后，还可以包括：

在智能终端设备中将当前系统语言切换为所述当前语言数据对应的语言类别，和/或，将智能终端设备上的第三方应用软件交互的默认语言切换为所述当前语言类型。

从而在用户使用当前确定的语言类型输入语音数据时，能够使智能终端设备的当前系统语言也采用同样的语言类型，和/或，在用于使用当前确定的语言类型输入语音数据时，所述智能终端设备上的第三方应用软件能够才用相同语言类型与所述用户进行交互。

在本实施中，所述第三方应用软件可以是类似语音助手等软件。

以上为对本申请提供的一种智能终端设备根据语音数据识别语言种类的方法详细描述，与所述一种智能终端设备根据语音数据识别语言种类的方法实施例相对应，本申请还公开了一种智能终端设备根据语音数据识别语言种类的方法实施例，请参看图2，其为本申请提供的一种智能终端设备根据语音数据识别语言种类的装置结构示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图2所示，本申请提供的一种智能终端设备根据语音数据识别语言种类的装置，包括：

接收单元201，用于接收当前语音输入数据；

匹配单元202，用于将所述当前语音输入数据，与预先设置的分类专用数据包的各语言类别的语音材料进行匹配，确定与所述当前语音输入数据的比对结果最接近的语音材料。

所述匹配单元202包括：

构建单元，用于根据所述语音材料的语音特征构建语音识别模型。所述构建单元中的所述语音特征为所述语音材料或语音输入数据中语音帧的长度、语音的时间长度和/或语音的音节长度。

在本申请提供的一种智能终端设备根据语音数据识别语言种类的装置的实施中，主要以所述语音材料或语音输入数据中语音帧的长度为例进行说明。

语言类型设定单元，用于为与每个所述语音材料设定的对应的语言类别。

所述匹配单元202还包括：

存储单元，用于将所述语音识别模型以及与每个所述语音对应的语言类别采用本地数据包的形式存储在本地。

所述匹配单元202中的所述语音材料为设定词组的语音数据、设定短语的语音数据和/或设定短句的语音数据。

所述匹配单元202还包括：

提取单元，用于提取所述当前语音输入数据的语音特征；

赋值单元，用于将所述当前语音输入数据的语音特征与所述语音材料识别模型中语音材料的语音特征比较，并赋予相似度分值；

选取单元，用于选取所述相似度分值最高的作为与所述当前语音输入数据最接近的所述语音材料。

设定单元203，用于将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型。

本申请提供的一种智能终端设备根据语音数据识别语言种类的装置还包括：

所述下载单元包括：

本申请提供的一种智能终端设备根据语音数据识别语言种类的装置还包括：系统语言切换单元和/或应用语言切换单元。

所述系统语言切换单元，用于在所述将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型之后，在智能终端设备中将当前系统语言切换为所述当前语言数据对应的语言类别。

所述应用语言切换单元，用于在所述将所述比对结果最接近的语音材料所属的语言类别作为当前语言类型之后，将智能终端设备上的第三方应用软件交互的默认语言切换为所述当前语言类型。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈理;李诗怡;
技术所有人：杭州联络互动信息科技股份有限公司;
我是此专利的发明人

上一篇：一种实现音频处理的方法及装置与制造工艺
上一篇：用于更新语言模型并执行语音识别的方法和装置与制造工艺