喉音识别方法及装置制造方法

文档序号：2825979阅读：185来源：国知局

喉音识别方法及装置制造方法
【专利摘要】本发明实施例公开了一种喉音识别方法及装置，涉及通信【技术领域】，所述方法包括：客户端采集用户的喉音生物信号；客户端提取采集到的所述喉音生物信号的特征量；服务器根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息。本发明适用于无声情况下的人机交互。
【专利说明】喉音识别方法及装置

【技术领域】
[0001] 本发明涉及通信【技术领域】，特别涉及一种喉音识别方法及装置。

【背景技术】
[0002] 随着语音识别技术发展，人们能够通过自然语言与机器进行直接通信，提高了人机交互的效率和体验。例如，当前的智能终端上已经出现了通过语音控制实现拨打和接听电话、网上搜索、定向导航等一系列的功能。这些功能对于驾驶员，视障人群以及老年人等一些特定人群是非常适用的，为其提供了很大的便利。
[0003] 现有技术中至少存在如下问题：语音识别的人机交互方式虽然提供了一定的便利，但其适用场景有很大的局限性，例如，当用户处于比较嘈杂的环境时，语音识别无法做到准确识别用户的指令；或者当用户处于公共场所需要谈论涉及隐私的内容时，现有的语音识别无法对用户的隐私进行保护；或者当用户无法发出声音时，现有的语音识别无法识别用户指令。

【发明内容】

[0004] 提供一种喉音识别方法及装置，能够解决语音识别的人机交互方式的局限性问题，为用户提供具有更高准确性和更宽适用性的人机交互方式，提高用户体验。
[0005] 第一方面，提供一种喉音识别方法，包括：
[0006] 采集用户的喉音生物信号；
[0007] 提取采集到的所述喉音生物信号的特征量；
[0008] 根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息。
[0009] 在第一种可能的实现方式中，所述提取采集到的所述喉音生物信号的特征量包括：提取采集到的所述喉音生物信号中的时域统计量和频域统计量，所述时域统计量和频域统计量包括：梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
[0010] 进一步的，在所述采集用户的喉音生物信号之前，所述方法还包括：建立所述识别模型。
[0011] 进一步的，在所述输出与所述喉音生物信号对应的文本信息之后，所述方法还包括：如果输出的所述文本信息与所述喉音生物信号对应错误，接收用户发出的修正指示；根据所述修正指示输出与所述喉音生物信号对应的文本信息，并对所述识别模型进行修正。
[0012] 结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，在所述输出与所述喉音生物信号对应的文本信息之后，所述方法还包括：根据所述文本信息的内容执行与所述内容相对应的操作指令。
[0013] 具体的，所述建立所述识别模型包括：为采集的喉音生物信号标注对应的文本信息；将所述喉音生物信号的特征量与所述文本信息进行关联；根据所述特征量与所述文本信息的关联结果建立训练样本库；使用机器学习模型对所述训练样本库进行训练，获得所述识别模型。
[0014] 进一步的，所述对所述识别模型进行修正包括：使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
[0015] 结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，其中，所述机器学习模型包括：高斯混合模型GMM、隐式马尔可夫模型HMM、贝叶斯模型BM或贝叶斯高斯过程BGP。
[0016] 其中，所述根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息包括：将所述特征量与所述训练样本库中的数据进行匹配；根据匹配近似度，输出相似度最高的一个或多个文本信息的识别结果。
[0017] 第二方面，提供一种喉音识别装置，包括：
[0018] 采集单元，用于采集用户的喉音生物信号；
[0019] 提取单元，用于提取所述采集单元采集到的所述喉音生物信号的特征量；
[0020] 识别输出单元，用于根据识别模型和所述提取单元提取的所述特征量对所述采集单元采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息。
[0021] 在第一种可能的实现方式中，所述提取单元具体用于：提取采集到的所述喉音生物信号中的时域统计量和频域统计量，所述时域统计量和频域统计量包括：梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
[0022] 进一步的，所述装置还包括：模型建立单元，用于建立所述识别模型。
[0023] 进一步的，所述装置还包括：接收单元，用于当输出的所述文本信息与所述喉音生物信号对应错误时，接收用户发出的修正指示；处理单元，用于根据所述修正指示输出与所述喉音生物信号对应的文本信息，并对所述识别模型进行修正。
[0024] 结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述装置还包括：执行单元，用于根据所述文本信息的内容执行与所述内容相对应的操作指令。
[0025] 具体的，所述模型建立单元包括：文本标注单元，用于为采集的喉音生物信号标注对应的文本信息；关联单元，用于将所述喉音生物信号的特征量与所述文本信息进行关联；样本库建立单元，用于根据所述特征量与所述文本信息的关联结果建立训练样本库；训练单元，用于使用机器学习模型对所述训练样本库进行训练，获得所述识别模型。
[0026] 进一步的，所述处理单元具体用于：使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
[0027] 结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述识别输出单元包括：匹配单元，用于将所述特征量与所述训练样本库中的数据进行匹配；输出单元，用于根据匹配近似度，输出相似度最高的一个或多个文本信息的识别结果。
[0028] 与现有技术相比，本发明实施例通过采集用户的喉音生物信号；提取采集到的所述喉音生物信号的特征量；根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息；根据文本信息执行相应的命令。能够解决现有的语音识别的人机交互方式的局限性问题，在嘈杂的环境中或者用户不能发出声音的情境下，为用户提供喉音识别的人机交互方式，与语音识别相比具有更高准确性和更宽适用性，提高用户体验。

【专利附图】

【附图说明】
[0029] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
[0030] 图1为本发明实施例一提供的方法流程图；
[0031] 图2为本发明实施例二提供的方法流程图；
[0032] 图3为本发明实施例二提供的设备间流程交互图；
[0033] 图4为本发明实施例二提供的设备间流程交互图；
[0034] 图5为本发明实施例二提供的设备间流程交互图；
[0035] 图6、图7为本发明实施例三提供的装置结构示意图；
[0036] 图8、图9为本发明实施例四提供的装置结构示意图。

【具体实施方式】
[0037] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
[0038] 为使本发明技术方案的优点更加清楚，下面结合附图和实施例对本发明作详细说明。
[0039] 实施例一
[0040] 本实施例提供一种喉音识别方法，应用于电子设备，包括客户端和服务器，如图1 所示，所述方法包括：
[0041] 101、客户端采集用户的喉音生物信号。
[0042] 其中，上述客户端包括智能终端、PDA (Personal Digital Assistant,掌上电脑)、平板电脑pad等电子设备。主要方法包括但不限于以下几种：采用传统的神经信号采集系统、生物信息采集系统或便携式采集设备。
[0043] 优选的，还可以通过专有的设备以及方法接触或靠近用户的喉部或者口腔，对用户喉部的生物信号进行采集。可选的，可以将专有的设备的功能集成在客户端内，例如，可以将传感器芯片嵌入在智能手机等移动终端中，通过接触或者靠近喉部完成生物信号的采集。该方案具有下述优点：目前的智能终端配置了很多类型的传感器，喉音生物信号采集系统可以很好的集成在终端中；智能终端方易于携带，方便用户的使用；智能终端具有越来越强的数据存储、计算和网络访问能力，可以实现喉音本地识别，作为中间设备提供与其他设备统一的接口，方便传统设备也能够使用该技术；智能终端本身就作为通讯工具，将该技术应用于智能终端能够更好的发挥其技术特点。
[0044] 可选的，在采集用户的喉音生物信号之前，需要设置一定的规则来启动采集系统。例如，设置一个开关程序，用户可以通过手动指示终端启动或者停止采集；或者，当用户启动终端上某个应用时，自动启动喉音生物信号采集。
[0045] 102、客户端提取采集到的喉音生物信号的特征量。
[0046] 例如，所述提取采集到的所述喉音生物信号的特征量包括：提取采集到的所述喉音生物信号中的时域统计量和频域统计量，所述频域统计量包括：梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、波动模式（Fluctuation Pattern，FP)和谱直方图（Spectrum Histogram, SH)。同时，谱直方图也是时域统计量。
[0047] 例如，提取到的喉音生物信号主要包括声道的振动信号，根据振动信号获得上述特征量。其中，MFCC由以下方式获得：将振动信号作时频变换，对其对数能量谱依照梅尔刻度分布的三角滤波器组做卷积，再对滤波器组的输出向量作离散余弦变换，这样得到的前N 维向量即是MFCC。MFCC中将振动信号的序列值抽象成矩阵，该矩阵用于从识别模型中获得识别结果，以及对识别结果进行修正；进一步的，根据FP和SH得到振动信号的频率特征变化，该频率特征变化用于与MFCC结合提高获得的识别结果的准确度。
[0048] 可选的，上述提取喉音生物信号的特征量的过程也可以在服务器侧实现，具体根据客户端的性能和用户需求决定。
[0049] 103、服务器根据识别模型和特征量对采集到的喉音生物信号进行识别，输出与喉音生物信号对应的文本信息。
[0050] 可选的，在所述采集用户的喉音生物信号之前，所述方法还包括：建立所述识别模型。
[0051] 例如，所述建立所述识别模型包括：为采集的喉音生物信号标注对应的文本信息；将所述喉音生物信号的特征量与所述文本信息进行关联；根据所述特征量与所述文本信息的关联结果建立训练样本库；使用机器学习模型对所述训练样本库进行训练，获得所述识别模型。其中，所述机器学习模型包括但不限于以下模型：高斯混合模型（Gaussian Mixture Model，GMM)，隐式马尔可夫模型（Hidden Markov Model，HMM)、贝叶斯模型 (Bayesian Model，BM)，贝叶斯高斯过程（Bayesian Gaussian Process，BGP)等。
[0052] 具体的，所述根据识别模型和所述特征量对采集的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息包括：将所述特征量与所述训练样本库中的数据进行匹配；根据匹配近似度，输出相似度最高的一个或多个文本信息的识别结果。例如，使用高斯混合模型，获取MFCC特征量中的矩阵向量的高斯分布，将获取的高斯分布与识别模型中的高斯分布进行比较，输出识别模型中距离与矩阵向量的高斯分布最为接近的识别结果。
[0053] 可选的，在所述输出与所述喉音生物信号对应的文本信息之后，所述方法还包括：如果输出的所述文本信息与所述喉音生物信号对应错误，接收用户发出的修正指示；根据所述修正指示输出与所述喉音生物信号对应的文本信息，并对所述识别模型进行修正。
[0054] 其中，所述对所述识别模型进行修正包括：使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
[0055] 进一步的，在所述输出与所述喉音生物信号对应的文本信息之后，所述方法还包括：根据所述文本信息的内容执行与所述内容相对应的操作指令。
[0056] 与现有技术相比，本发明实施例通过采集用户的喉音生物信号；提取采集到的所述喉音生物信号的特征量；根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息；根据文本信息执行相应的命令。能够解决现有的语音识别的人机交互方式的局限性问题，在嘈杂的环境中或者用户不能发出声音的情境下，为用户提供喉音识别的人机交互方式，与语音识别相比具有更高准确性和更宽适用性，提高用户体验。
[0057] 实施例二
[0058] 本实施例提供一种喉音识别方法，通过一个电子设备或者多个电子设备相配合完成对用户喉音生物信号的识别，如图2所示，所述方法包括：
[0059] 201、采集多次喉音生物信号以及对应的文本信息，建立识别模型。
[0060] 其中，用户在发出声音时，是通过喉音生物信号控制声带振动来达到发声目的的。本发明直接采集用户的喉音生物信号，即便在用户不发出声音的情况下也能够得到用户想表达的信息。
[0061] 例如，在建立识别模型时，我们通常所使用的机器学习模型包括但不限于以下几种：高斯混合模型、隐式马尔可夫模型、贝叶斯模型或贝叶斯高斯模型。在使用这些模型建立识别模型之前需要建立一个样本库，样本库中包含用户大量的喉音生物信号，以及与这些喉音生物信号对应的文本信息。通过几种机器学习模型对样本库中的喉音生物信号以及对应的文本信息进行训练，获得识别模型。此时获得的识别模型只是一个基础模型，其精度还需要后续实际操作过程中进行不断的反馈修正，逐步建立起一个完善的识别模型。
[0062] 具体的，所述建立所述识别模型包括：为采集的喉音生物信号标注对应的文本信息；将所述喉音生物信号的特征量与所述文本信息进行关联；根据所述特征量与所述文本信息的关联结果建立训练样本库；使用机器学习模型对所述训练样本库进行训练，获得所述识别模型。
[0063] 202、用户启动喉音生物信号采集。
[0064] 可选的，需要设置一定的规则来启动采集系统。例如，设置一个开关程序，用户可以通过手动指示终端启动或者停止采集；或者，当用户启动终端上某个应用时，自动启动喉音生物信号采集。
[0065] 203、采集用户输出的喉音生物信号，并提取特征量。
[0066] 其中，采集方法包括但不限于以下几种：采用传统的神经信号采集系统、生物信息采集系统或便携式采集设备。
[0067] 优选的，还可以通过专有的设备以及方法接触或靠近用户的喉部或者口腔，对用户喉部的生物信号进行采集。例如，可以将传感器芯片嵌入在智能手机等移动终端中，通过接触或者靠近喉部完成生物信号的采集。该方案具有下述优点：目前的智能终端配置了很多类型的传感器，喉音生物信号采集系统可以很好的集成在终端中；智能终端方易于携带，方便用户的使用；智能终端具有越来越强的数据存储、计算和网络访问能力，可以实现喉音本地识别，作为中间设备提供与其他设备统一的接口，方便传统设备也能够使用该技术；智能终端本身就作为通讯工具，将该技术应用于智能终端能够更好的发挥其技术特点。
[0068] 其中，所述提取采集的所述喉音生物信号的特征量包括：提取采集的所述喉音生物信号中的时域统计量和频域统计量，所述频域统计量包括：梅尔频率倒谱系数、波动模式和谱直方图等，谱直方图同时也是时域统计量。
[0069] 例如，提取到的喉音生物信号主要包括声道的振动信号，根据振动信号获得上述特征量。其中，MFCC由以下方式获得：将振动信号作时频变换，对其对数能量谱依照梅尔刻度分布的三角滤波器组做卷积，再对滤波器组的输出向量作离散余弦变换，这样得到的前N 维向量即是MFCC。MFCC中将振动信号的序列值抽象成矩阵，该矩阵用于从识别模型中获得识别结果，以及对识别结果进行修正；进一步的，根据FP和SH得到振动信号的频率特征变化，该频率特征变化用于与MFCC结合提高获得的识别结果的准确度。
[0070] 204、将所述特征量与所述识别模型中的数据进行匹配。
[0071] 具体的，将所述特征量与识别模型中的样本库中的数据进行对比，在样本库中找到与所述特征量最为接近的特征量，以及对应的文本信息。
[0072] 205、根据匹配近似度，输出相似度最高的一个或多个文本信息的识别结果。
[0073] 例如，使用高斯混合模型，获取MFCC特征量中的矩阵向量的高斯分布，将获取的高斯分布与识别模型中的高斯分布进行比较，输出识别模型中距离与矩阵向量的高斯分布最为接近的识别结果。
[0074] 206、判断输出的识别结果是否正确，当识别结果不正确时，执行步骤207 ;当识别结果正确时，执行步骤208。
[0075] 207、用户发出修正指示，修正识别结果，并修正识别模型中的对应内容。
[0076] 208、输出识别结果。
[0077] 209、根据识别结果执行与识别结果内容相对应的操作指令。
[0078] 需要说明的是，本发明实施例中的步骤流程可以通过一个电子设备完成或者由多个电子设备共同配合完成，例如，如图3所示，将喉音生物信号采集、信号的特征量提取、信号识别以及识别模型的建立的流程设置于第一电子设备中，通过无线的方式将识别结果发送至第二电子设备；经过简单的信号处理，第二电子设备将信号发送至第三电子设备，第三电子设备执行最终的操作命令。
[0079] 可选的，如图4所示，将喉音生物信号采集、信号的特征量提取的流程设置于第一电子设备，通过无线的方式将提取的特征量发送至第二电子设备；第二电子设备负责对特征量进行识别以及包括建立识别模型，将识别结果发送至第三电子设备；第三电子设备执行最终的操作命令。
[0080] 可选的，如图5所示，仅将将喉音生物信号采集的流程设置于第一电子设备，通过无线的方式将采集的喉音生物信号发送至第二电子设备；第二电子设备提取特征量，将特征量发送至第三电子设备；第三电子设备负责对特征量进行识别以及包括建立识别模型，将识别结果发送至第四电子设备；第四电子设备执行最终的操作命令。
[0081] 其中，上述三种实施方式中，第一电子设备可以为终端设备，第二电子设备、第三电子设备和第四电子设备可以为服务器。每一种实施方式适用不同的场景，其中，图3中的操作流程适用于专用的喉音识别设备，终端本身具有较强的计算能力，服务器仅接受人机交互指令，实现与传统接收语音交互机器的无缝对接；图4中的操作流程适用于处理器能力较强的智能手机等终端，信号的特征提取过程在终端完成，减少了网络传输流量，同时减小了服务器端的处理复杂度；图5中的操作流程适合于仅具有传感器和数据传输能力的简易终端，大部分的计算功能都在服务器端完成。
[0082] 与现有技术相比，本发明实施例通过采集多次喉音生物信号以及对应的文本信息，建立识别模型；提取采集的所述喉音生物信号的特征量；用户启动喉音生物信号采集，采集用户输出的喉音生物信号，并提取特征量；将所述特征量与所述识别模型中的数据进行匹配；根据匹配近似度，输出相似度最高的一个或多个文本信息的识别结果；当识别结果不正确时，用户发出修正指示，修正识别结果，并修正识别模型中的对应内容；当识别结果正确时，输出识别结果；根据识别结果执行与识别结果内容相对应的操作指令。能够解决现有的语音识别的人机交互方式的局限性问题，在嘈杂的环境中或者用户不能发出声音的情境下，为用户提供喉音识别的人机交互方式，与语音识别相比具有更高准确性和更宽适用性，提高用户体验。
[0083] 实施例三
[0084] 本实施例提供一种喉音识别装置30,如图6所示，所述装置30包括：
[0085] 采集单元31，用于采集用户的喉音生物信号；
[0086] 提取单元32,用于提取所述采集单元31采集到的所述喉音生物信号的特征量；
[0087] 识别输出单元33,用于根据识别模型和所述提取单元32提取的所述特征量对所述采集单元31采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息。
[0088] 其中，所述提取单元32具体用于：提取采集到的所述喉音生物信号中的时域统计量和频域统计量，所述时域统计量和频域统计量包括：梅尔频率倒谱系数MFCC、波动模式 FP和谱直方图SH。
[0089] 进一步的，如图7所示，所述装置30还可以包括：
[0090] 模型建立单元34,用于建立所述识别模型。
[0091] 进一步的，如图7所示，所述模型建立单元34包括：
[0092] 文本标注单元341，用于为采集的喉音生物信号标注对应的文本信息；
[0093] 关联单元342,用于将所述喉音生物信号的特征量与所述文本信息进行关
[0094] 联；
[0095] 样本库建立单元343,用于根据所述特征量与所述文本信息的关联结果建立训练样本库；
[0096] 训练单元344,用于使用机器学习模型对所述训练样本库进行训练，获得所述识别模型。
[0097] 进一步的，如图7所示，所述识别输出单元33包括：
[0098] 匹配单元331，用于将所述特征量与所述训练样本库中的数据进行匹配；
[0099] 输出单元332,用于根据匹配近似度，输出相似度最高的一个或多个文本信息的识别结果。
[0100] 进一步的，如图7所示，所述装置30还可以包括：
[0101] 接收单元35,用于当输出的所述文本信息与所述喉音生物信号对应错误时，接收用户发出的修正指示；
[0102] 处理单元36,用于根据所述修正指示输出与所述喉音生物信号对应的文本信息，并对所述识别模型进行修正。
[0103] 其中，所述处理单元36具体用于：使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
[0104] 进一步的，如图7所示，所述装置30还可以包括：
[0105] 执行单元37,用于根据所述文本信息的内容执行与所述内容相对应的操作指令。
[0106] 与现有技术相比，本发明实施例通过采集用户的喉音生物信号；提取采集到的所述喉音生物信号的特征量；根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息；根据文本信息执行相应的命令。能够解决现有的语音识别的人机交互方式的局限性问题，在嘈杂的环境中或者用户不能发出声音的情境下，为用户提供喉音识别的人机交互方式，与语音识别相比具有更高准确性和更宽适用性，提高用户体验。
[0107] 实施例四
[0108] 本实施例提供一种喉音识别装置40,如图8所示，所述装置40包括：
[0109] 处理器41，用于采集用户的喉音生物信号；以及，用于提取采集到的所述喉音生物信号的特征量；以及，用于根据识别模型和提取的所述特征量对采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息。
[0110] 其中，所述处理器41具体用于：提取采集到的所述喉音生物信号中的时域统计量和频域统计量，所述时域统计量和频域统计量包括：梅尔频率倒谱系数MFCC、波动模式FP 和谱直方图SH。
[0111] 进一步的，所述处理器41还用于：建立所述识别模型。
[0112] 进一步的，所述处理器41具体用于：
[0113] 为采集的喉音生物信号标注对应的文本信息；
[0114] 将所述喉音生物信号的特征量与所述文本信息进行关联；
[0115] 根据所述特征量与所述文本信息的关联结果建立训练样本库；
[0116] 使用机器学习模型对所述训练样本库进行训练，获得所述识别模型。
[0117] 进一步的，所述处理器41具体还用于：
[0118] 将所述特征量与所述训练样本库中的数据进行匹配；
[0119] 根据匹配近似度，输出相似度最高的一个或多个文本信息的识别结果。
[0120] 进一步的，如图9所示，所述装置40还可以包括：
[0121] 接收器42,用于当输出的所述文本信息与所述喉音生物信号对应错误时，接收用户发出的修正指示；
[0122] 所述处理器41还用于根据所述修正指示输出与所述喉音生物信号对应的文本信息，并对所述识别模型进行修正。
[0123] 其中，所述处理器41还用于使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
[0124] 进一步的，所述处理器41还用于：根据所述文本信息的内容执行与所述内容相对应的操作指令。
[0125] 与现有技术相比，本发明实施例通过采集用户的喉音生物信号；提取采集到的所述喉音生物信号的特征量；根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息；根据文本信息执行相应的命令。能够解决现有的语音识别的人机交互方式的局限性问题，在嘈杂的环境中或者用户不能发出声音的情境下，为用户提供喉音识别的人机交互方式，与语音识别相比具有更高准确性和更宽适用性，提高用户体验。
[0126] 本发明实施例提供的喉音识别装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。本发明实施例提供的喉音识别方法及装置可以适用于无声情况下的人机交互，但不仅限于此。
[0127] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory, ROM)或随机存储记忆体（Random Access Memory，RAM)等。
[0128] 以上所述，仅为本发明的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。
【权利要求】
1. 一种喉音识别方法，其特征在于，包括：采集用户的喉音生物信号；提取采集到的所述喉音生物信号的特征量；根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息。
2. 根据权利要求1所述的方法，其特征在于，所述提取采集到的所述喉音生物信号的特征量包括：提取采集到的所述喉音生物信号中的时域统计量和频域统计量，所述时域统计量和频域统计量包括：梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
3. 根据权利要求1或2所述的方法，其特征在于，在所述采集用户的喉音生物信号之前，所述方法还包括：建立所述识别模型。
4. 根据权利要求3所述的方法，其特征在于，所述建立所述识别模型包括：为采集的喉音生物信号标注对应的文本信息；将所述喉音生物信号的特征量与所述文本信息进行关联；根据所述特征量与所述文本信息的关联结果建立训练样本库；使用机器学习模型对所述训练样本库进行训练，获得所述识别模型。
5. 根据权利要求4所述的方法，其特征在于，所述机器学习模型包括：高斯混合模型 GMM、隐式马尔可夫模型HMM、贝叶斯模型BM或贝叶斯高斯过程BGP。
6. 根据权利要求4所述的方法，其特征在于，所述根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息包括：将所述特征量与所述训练样本库中的数据进行匹配；根据匹配近似度，输出相似度最高的一个或多个文本信息的识别结果。
7. 根据权利要求1所述的方法，其特征在于，在所述输出与所述喉音生物信号对应的文本信息之后，所述方法还包括：如果输出的所述文本信息与所述喉音生物信号对应错误，接收用户发出的修正指示；根据所述修正指示输出与所述喉音生物信号对应的文本信息，并对所述识别模型进行修正。
8. 根据权利要求7所述的方法，其特征在于，所述对所述识别模型进行修正包括：使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
9. 根据权利要求1或7所述的方法，其特征在于，在所述输出与所述喉音生物信号对应的文本信息之后，所述方法还包括：根据所述文本信息的内容执行与所述内容相对应的操作指令。
10. -种喉音识别装置，其特征在于，包括：采集单元，用于采集用户的喉音生物信号；提取单元，用于提取所述采集单元采集到的所述喉音生物信号的特征量；识别输出单元，用于根据识别模型和所述提取单元提取的所述特征量对所述采集单元采集到的所述喉音生物信号进行识别，输出与所述喉音生物信号对应的文本信息。
11. 根据权利要求10所述的装置，其特征在于，所述提取单元具体用于：提取采集到的所述喉音生物信号中的时域统计量和频域统计量，所述时域统计量和频域统计量包括：梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
12. 根据权利要求10或11所述的装置，其特征在于，所述装置还包括：模型建立单元，用于建立所述识别模型。
13. 根据权利要求12所述的装置，其特征在于，所述模型建立单元包括：文本标注单元，用于为采集的喉音生物信号标注对应的文本信息；关联单元，用于将所述喉音生物信号的特征量与所述文本信息进行关联；样本库建立单元，用于根据所述特征量与所述文本信息的关联结果建立训练样本库；训练单元，用于使用机器学习模型对所述训练样本库进行训练，获得所述识别模型。
14. 根据权利要求13所述的装置，其特征在于，所述识别输出单元包括：匹配单元，用于将所述特征量与所述训练样本库中的数据进行匹配；输出单元，用于根据匹配近似度，输出相似度最高的一个或多个文本信息的识别结果。
15. 根据权利要求10所述的装置，其特征在于，所述装置还包括：接收单元，用于当输出的所述文本信息与所述喉音生物信号对应错误时，接收用户发出的修正指示；处理单元，用于根据所述修正指示输出与所述喉音生物信号对应的文本信息，并对所述识别模型进行修正。
16. 根据权利要求15所述的装置，其特征在于，所述处理单元具体用于：使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
17. 根据权利要求10或15所述的装置，其特征在于，所述装置还包括：执行单元，用于根据所述文本信息的内容执行与所述内容相对应的操作指令。
【文档编号】G10L15/02GK104123930SQ201310152543
【公开日】2014年10月29日申请日期:2013年4月27日优先权日:2013年4月27日
【发明者】何秀强, 张弓申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何秀强;张弓
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：一种音频信号重采样的方法和装置制造方法
上一篇：一种对通话语言进行翻译的方法、设备和系统的制作方法