一种声带恢复评分方法及装置与流程

文档序号：14912886发布日期：2018-07-10 23:54阅读：573来源：国知局

本发明涉及声纹识别技术领域，尤其涉及一种声带恢复评分方法及装置。

背景技术：

在某些专业声学领域，例如职业歌唱家，播音员，配音师等，对声音的稳定性要求非常高，长时间过度用声，难免造成声带损伤。通常轻微的声带受损是可以恢复的。比较严重的声带损伤，如果明确是声带小结或息肉引起的，在药物治疗效果不佳的情况下，需要进行手术摘除。

目前对于声带手术后的恢复情况，往往没有办法客观评估，通常只能根据医生的检查(如电子喉镜等)来给出来具体的恢复情况，缺乏客观的量化指标来辅助医生判断。

因此，提供一种声带恢复评分方法及装置以解决现有的通过电子喉镜做恢复检查会使病人十分痛苦，且病人主观也很难描述声带的恢复情况的技术问题。

技术实现要素：

本发明提供了一种声带恢复评分方法及装置，解决了现有的通过电子喉镜做恢复检查会使病人十分痛苦，且病人主观也很难描述声带的恢复情况的技术问题。

本发明提供了一种声带恢复评分方法，包括：

获取病人在恢复状态下的测试音频；

提取所述测试音频中的第一语音特征参数；

利用所述第一语音特征参数训练以建立第一UBM模型，并得到恢复状态下的声纹特征矢量；

获取数据库中的健康状态下的声纹特征矢量；

通过概率线性判别分析得到恢复状态下的声纹特征矢量和数据库中的健康状态下的声纹特征矢量的相似度；

将所述相似度进行归一化处理，确定所述相似度的区间范围；

根据所述相似度的区间范围得到病人在恢复状态下的得分。

作为优选，所述获取病人在恢复状态下的测试音频之前还包括：

获取病人在健康状态下的样本音频；

对所述样本音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。

提取所述样本音频中的第二语音特征参数；

利用所述第二语音特征参数训练以建立第二UBM模型，并得到健康状态下的声纹特征矢量并存储至数据库中。

作为优选，所述获取病人在恢复状态下的测试音频之后，所述提取所述测试音频中的第一语音特征参数之前还包括：

对所述测试音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。

作为优选，所述第一语音特征参数和所述第二语音特征参数均为梅尔频率倒谱系数。

本发明提供了一种声带恢复评分装置，包括：

第一获取单元，用于获取病人在恢复状态下的测试音频；

第一提取单元，用于提取所述测试音频中的第一语音特征参数；

第一建模单元，用于利用所述第一语音特征参数训练以建立第一UBM模型，并得到恢复状态下的声纹特征矢量；

第二获取单元，用于获取数据库中的健康状态下的声纹特征矢量；

相似度单元，用于通过概率线性判别分析得到恢复状态下的声纹特征矢量和数据库中的健康状态下的声纹特征矢量的相似度；

归一化单元，用于将所述相似度进行归一化处理，确定所述相似度的区间范围；

评分单元，用于根据所述相似度的区间范围得到病人在恢复状态下的得分。

作为优选，本发明提供的一种声带恢复评分装置还包括：

第三获取单元，用于获取病人在健康状态下的样本音频；

第一处理单元，用于对所述样本音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。

第二提取单元，用于提取所述样本音频中的第二语音特征参数；

第二建模单元，用于利用所述第二语音特征参数训练以建立第二UBM模型，并得到健康状态下的声纹特征矢量并存储至数据库中。

作为优选，本发明提供的一种声带恢复评分装置还包括：

第二处理单元，用于对所述测试音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。

作为优选，所述第一语音特征参数和所述第二语音特征参数均为梅尔频率倒谱系数。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种声带恢复评分方法，包括：获取病人在恢复状态下的测试音频；提取所述测试音频中的第一语音特征参数；利用所述第一语音特征参数训练以建立第一UBM模型，并得到恢复状态下的声纹特征矢量；获取数据库中的健康状态下的声纹特征矢量；通过概率线性判别分析得到恢复状态下的声纹特征矢量和数据库中的健康状态下的声纹特征矢量的相似度；将所述相似度进行归一化处理，确定所述相似度的区间范围；根据所述相似度的区间范围得到病人在恢复状态下的得分。

本发明中，通过UBM模型(Universal Background Model，通用背景模型)得到病人在恢复状态下的声纹特征矢量，将恢复状态下的声纹特征矢量与数据库中的健康状态下的声纹特征矢量进行比对，通过概率线性判别分析得到两者之间的相似度，最后对相似度进行归一化处理，得到相似度的区间范围，能够根据相似度的区间范围得到对病人的恢复状态的评分，实现了根据评分直接判断病人声带的恢复情况，解决了现有的通过电子喉镜做恢复检查会使病人十分痛苦，且病人主观也很难描述声带的恢复情况的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种声带恢复评分方法的一个实施例的流程示意图；

图2为本发明提供的一种声带恢复评分方法的另一个实施例的流程示意图；

图3为本发明提供的一种声带恢复评分装置的一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种声带恢复评分方法及装置，解决了现有的通过电子喉镜做恢复检查会使病人十分痛苦，且病人主观也很难描述声带的恢复情况的技术问题。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种声带恢复评分方法的一个实施例，包括：

101、获取病人在恢复状态下的测试音频；

102、提取测试音频中的第一语音特征参数；

103、利用第一语音特征参数训练以建立第一UBM模型，并得到恢复状态下的声纹特征矢量；

104、获取数据库中的健康状态下的声纹特征矢量；

105、通过概率线性判别分析得到恢复状态下的声纹特征矢量和数据库中的健康状态下的声纹特征矢量的相似度；

106、将相似度进行归一化处理，确定相似度的区间范围；

107、根据相似度的区间范围得到病人在恢复状态下的得分。

本发明实施例中，通过UBM模型(Universal Background Model，通用背景模型)得到病人在恢复状态下的声纹特征矢量，将恢复状态下的声纹特征矢量与数据库中的健康状态下的声纹特征矢量进行比对，通过概率线性判别分析得到两者之间的相似度，最后对相似度进行归一化处理，得到相似度的区间范围，能够根据相似度的区间范围得到对病人的恢复状态的评分，实现了根据评分直接判断病人声带的恢复情况，解决了现有的通过电子喉镜做恢复检查会使病人十分痛苦，且病人主观也很难描述声带的恢复情况的技术问题。

以上是本发明提供的一种声带恢复评分方法的一个实施例进行说明，以下将说明本发明提供的一种声带恢复评分方法的另一个实施例进行说明。

请参阅图2，本发明实施例提供了一种声带恢复评分方法的另一个实施例，包括：

201、获取病人在健康状态下的样本音频；

需要说明的是，在病人进行声带手术之前，获取病人在健康状态下的样本音频。

202、对样本音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

需要说明的是，在获取了病人在健康状态下的样本音频后，对样本音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。

203、提取样本音频中的第二语音特征参数；

需要说明的是，在对样本音频进行处理后，提取样本音频中的第二语音特征参数，在本实施例中，第二语音特征参数为梅尔频率倒谱系数。

204、利用第二语音特征参数训练以建立第二UBM模型，并得到健康状态下的声纹特征矢量并存储至数据库中；

需要说明的是，利用第二语音特征参数，即梅尔频率倒谱系数训练并建立第二UBM模型(Universal Background Model，通用背景模型)，根据第二UBM模型得到健康状态下的声纹特征矢量并存储至数据库中，以供后续比对。

205、获取病人在恢复状态下的测试音频；

需要说明的是，获取病人在手术后，恢复状态下的测试音频。

206、对测试音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

需要说明的是，在获取了病人在恢复状态下的测试音频后，对测试音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。

207、提取测试音频中的第一语音特征参数；

需要说明的十，在对测试音频进行处理后，提取测试音频中的第一语音特征参数，在本实施例中，第一语音特征参数为梅尔频率倒谱系数。

208、利用第一语音特征参数训练以建立第一UBM模型，并得到恢复状态下的声纹特征矢量；

需要说明的是，利用第一语音特征参数，即梅尔频率倒谱系数训练并建立第一UBM模型(Universal Background Model，通用背景模型)，根据第一UBM模型得到恢复状态下的声纹特征矢量。

209、获取数据库中的健康状态下的声纹特征矢量；

需要说明的是，获取到数据库中的病人在健康状态下的声纹特征矢量。

210、通过概率线性判别分析得到恢复状态下的声纹特征矢量和数据库中的健康状态下的声纹特征矢量的相似度；

需要说明的是，通过概率线性判别分析得到恢复状态下的声纹特征矢量和数据库中的健康状态下的声纹特征矢量的相似度，概率线性判别分析(PLDA，Probabilistic Linear Discriminant Analysis)是一种基于声纹特征矢量的信道补偿算法，能够得到两个声纹特征矢量之间的相似度。

211、将相似度进行归一化处理，确定相似度的区间范围；

需要说明的是，将经过概率线性判别分析得到的相似度进行归一化处理，确定相似度的区间范围，以确保相似性，本实施例中，取[0％～100％]作为相似度的区间范围。

212、根据相似度的区间范围得到病人在恢复状态下的得分；

需要说明的是，根据相似度的区间范围，确定病人在恢复状态下声带目前的得分，得分越高表示病人的恢复状态越好。

以上是对本发明提供的一种声带恢复评分方法的另一个实施例进行说明，以下将对本发明提供的一种声带恢复评分装置的一个实施例进行说明。

请参阅图3，本发明提供了一种声带恢复评分装置的一个实施例，包括：

第三获取单元301，用于获取病人在健康状态下的样本音频；

第一处理单元302，用于对样本音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

第二提取单元303，用于提取样本音频中的第二语音特征参数；

第二建模单元304，用于利用第二语音特征参数训练以建立第二UBM模型，并得到健康状态下的声纹特征矢量并存储至数据库中。

第一获取单元305，用于获取病人在恢复状态下的测试音频；

第二处理单元306，用于对测试音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

第一提取单元307，用于提取测试音频中的第一语音特征参数；

第一建模单元308，用于利用第一语音特征参数训练以建立第一UBM模型，并得到恢复状态下的声纹特征矢量；

第二获取单元309，用于获取数据库中的健康状态下的声纹特征矢量；

相似度单元310，用于通过概率线性判别分析得到恢复状态下的声纹特征矢量和数据库中的健康状态下的声纹特征矢量的相似度；

归一化单元311，用于将相似度进行归一化处理，确定相似度的区间范围；

评分单元312，用于根据相似度的区间范围得到病人在恢复状态下的得分。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：晏青
技术所有人：广州势必可赢网络科技有限公司
我是此专利的发明人

上一篇：一种烫金机烫印材料完结识别装置的制作方法
上一篇：一种五色印刷机主机冷却系统的制作方法