一种语音信号清晰度的确定方法及装置的制造方法

文档序号：10513526阅读：221来源：国知局

一种语音信号清晰度的确定方法及装置的制造方法
【专利摘要】本发明实施例公开了一种语音信号清晰度的确定方法及装置。该方法包括：获取带噪声语音信号的语音信号动态范围；基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度。本发明实施例通过采用上述技术方案，采用语音信号的动态范围作为特征计算噪声环境下的语音信号清晰度，计算过程不需要使用干净的无噪声语音信号，能够有效地减少计算噪声环境下语音信号清晰度时所需的操作步骤，提高语音信号清晰度的获取速度，减小噪声环境下语音信号清晰度的计算难度，增大语音信号清晰度确定方法的适用范围。
【专利说明】
一种语音信号清晰度的确定方法及装置
技术领域
[0001] 本发明涉及信号处理技术领域，尤其涉及一种语音信号清晰度的确定方法及装置。
【背景技术】
[0002] 现实环境中噪声对人们的言语识别存在极大的影响，语言清晰度（Speech Intelligibility)是衡量噪音环境下语音信号的清晰度的一个重要指标。
[0003] 语言清晰度是指一个或几个发音人所发出的、经过通信系统能被一个或几个听音人所确定的意义不连贯的语言单位百分数。现有的许多语言信号清晰度的计算方法，需要获取受到噪声污染后的带噪声语音信号和干净的、未受到噪声污染的无噪声语音信号，然后对这两个信号在时域/频域做分析，计算出两个信号的时域/频域特征的量化差异。
[0004] 但是，在现实应用场景中，语音信号往往是受到噪音污染的带噪声信号，并不存在真正干净的、未受到噪声污染的无噪声语音信号，使得现有语言信号清晰度的计算方法存在很大的局限性，大大缩小了语言信号清晰度的使用范围。

【发明内容】

[0005] 有鉴于此，本发明实施例提供一种语音信号清晰度的确定方法及装置，以解决现有技术中语言信号清晰度计算方法不具有普遍实用性的技术问题。
[0006] 第一方面，本发明实施例提供了一种语音信号清晰度的确定方法，包括：
[0007] 获取带噪声语音信号的语音信号动态范围；
[0008] 基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度。
[0009] 第二方面，本发明实施例还提供了一种语音信号清晰度的确定装置，包括：
[0010]动态范围获取模块，用于获取带噪声语音信号的语音信号动态范围；
[0011] 语言清晰度确定模块，用于基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度。
[0012] 本发明实施例提供的语音信号清晰度的确定方案，获取带噪声语音信号的语音信号动态范围，根据带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定该带噪声语音信号的语言清晰度。本发明实施例通过采用上述技术方案，采用语音信号的动态范围作为特征计算噪声环境下的语音信号清晰度，计算过程不需要使用干净的无噪声语音信号，能够有效地减少计算噪声环境下语音信号清晰度时所需的操作步骤，提高语音信号清晰度的获取速度，减小噪声环境下语音信号清晰度的计算难度，增大语音信号清晰度确定方法的适用范围。
【附图说明】
[0013] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
[0014] 图1为本发明实施例一提供的一种语音信号清晰度的确定方法的流程示意图；
[0015] 图2为本发明实施例二提供的一种语音信号清晰度的确定方法的流程示意图；
[0016] 图3A为本发明实施例二提供的一种语音信号的信号幅度示意图；
[0017]图3B为本发明实施例二提供的一种语音信号的16ms语音信号子区间的能量示意图；
[0018] 图4为本发明实施例二提供的一种语音信号动态范围与语言清晰度的关系曲线；
[0019] 图5为本发明实施例三提供的一种语音信号清晰度的确定方法的结构框图。
【具体实施方式】
[0020] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。
[0021] 实施例一
[0022] 本发明实施例一提供一种语音信号清晰度的确定方法。该确定方法可以由语音信号清晰度的确定装置执行，其中，该装置可由软件和/或硬件实现。图1是本发明实施例一提供的语音信号清晰度的确定方法的流程示意图。如图1所示，该确定方法包括：
[0023] S110、获取带噪声语音信号的语音信号动态范围。
[0024]在此，带噪声语音信号指的是携带有噪声的语音信号。带噪声语音信号可以通过记录说话人的说话来获取，也可以通过记录电脑或手机等具有语音播放功能的语音播放设备播放的说话声来获取。带噪声语音信号所携带的噪声包括除目标语音信号之外的所有声音，即，除所需要获取的目标语音，其他所有声音都可以称之为噪声，例如，除目标语音之外的其他语音信号、风声、汽车鸣笛声或者呼吸声，等等。带噪声语音信号所携带的噪声可以是单噪声，也可以是多噪声，即，带噪声语音信号可以只携带一个噪声信号，也可以携带多个噪声信号，此处不作限制。
[0025] 本实施例中，带噪声语音信号的语音信号动态范围可以是带噪声语音信号的任意与其语言清晰度之间具有相关性的物理性的变化量，如，带噪声语音信号的振幅或能量等，此处不作限制。
[0026] S120、基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度。
[0027] 示例性的，带噪声语音信号的语音信号动态范围与该带噪声语音信号的语言清晰度之间的数学模型可以是表示二者关系的数学关系式，该数学关系式可以是线性关系式，也可以是非线性关系式，只要能够准确地描述带噪声语音信号的语音信号动态范围与其语言清晰度之间的对应关系即可，一般可以基于经验或实验进行确定。
[0028] 本发明实施例一提供的语音信号清晰度的确定方法，获取带噪声语音信号的语音信号动态范围，根据带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型计算该带噪声语音信号的语言清晰度。本实施例通过采用上述技术方案，采用语音信号的动态范围作为特征计算噪声环境下的语音信号清晰度，计算过程不需要使用干净的无噪声语音信号，能够有效地减少计算噪声环境下语音信号清晰度时所需的操作步骤，提高语音信号清晰度的获取速度，减小噪声环境下语音信号清晰度的计算难度，增大语音信号清晰度确定方法的适用范围。
[0029] 实施例二
[0030] 图2为本发明实施例二提供的一种语音信号清晰度的确定方法的流程示意图，本实施例在上述实施例的基础上进行优化，进一步的，所述获取带噪声语音信号的语音信号动态范围，包括:在噪声环境下，获取一段带噪声语音信号；将所述带噪声语音信号分割为预设时间长度的语音信号子区间，并计算所述语音信号子区间的能量;根据所述语音信号子区间的能量获取所述带噪声语音信号预设时间长度的能量曲线并根据所述能量曲线计算所述带噪声语音信号的语音信号动态范围。
[0031 ]相应的，如图2所示，本实施例的语音信号清晰度的确定方法包括：
[0032] S210、在噪声环境下，获取一段带噪声语音信号。
[0033] 示例性的，可以通过麦克风或录音机等能够将声音信号转换为电信号的设备在噪声环境下直接记录带噪声语音信号，例如，可以直接记录说话人说的一段话等，如图3A所示，其中，横坐标为时间（s)，纵坐标为语音信号的信号幅度。
[0034] S220、将所述带噪声语音信号分割为预设时间长度的语音信号子区间，并计算所述语音信号子区间的能量。
[0035] 本实施例中，可以将带噪声语音信号分割为相同时间长度的语音信号子区间，所分割的每个语音信号子区间的预设时间长度可以根据需要灵活设置，例如，可以将带噪声语音信号分割为时间长度为16m S、32ms或64ms的语音信号子区间，此处不作限制。优选的，所述预设时间长度为16ms，即，优选将带噪声语音信号分割为时间长度为16ms的语音信号子区间，以增大后续操作与计算的准确性。
[0036] 示例性的，带噪声语音信号可以以离散时间信号的形式进行存储与传输，此时，相应的，所分割的语音信号子区间也是由一个个离散时间信号组成的，计算语音信号子区间的能量时，可以首先通过信号幅度与能量之间的关系式计算该语音信号子区间中的每个离散信号的能量值，然后将该语音信号子区间包含的所有离散信号的能量值进行求和以得到该语音信号子区间的总能量值。
[0037]优选的，在计算得到语音信号子区间的能量值之后，可以将该能量值转换为以分贝的形式进行表示，以减小后续计算步骤的复杂程序。在将语音信号子区间的能量值转换为以分贝的形式进行表示时，可以在计算完所有语音信号子区间的能量值之后再讲每个能量值转换为以分贝的形式进行表示，也可以在计算完一个或几个语音信号子区间的能量值或者一个或几个离散时间信号的能量值之后即进行将能量值转换为以分贝的形式进行表示的操作，此处不作限制。示例性的，可以采用公式E = 101og1Q(A)将语音信号子区间的能量值转换为以分贝的形式进行表示，其中，E表示转换后以分贝表示的能量值，A表示转换之前的能量值。
[0038] S230、根据所述语音信号子区间的能量获取所述带噪声语音信号预设时间长度的能量曲线并根据所述能量曲线计算所述带噪声语音信号的语音信号动态范围。
[0039]考虑到带噪声语音信号的物理量与该带噪声语音信号的语言清晰度指数之间相关性的大小以及后续计算的复杂程度，优选的，所述语音信号动态范围为所述带噪声语音信号具有最大能量的语音信号子区间和具有最小能量的语音信号子区间之间的能量差。
[0040] 在计算得到各语音信号子区间的能量值之后，可以通过MATLAB等软件对其进行拟合以得到带噪声语音信号预设时间长度的能量曲线，然后根据拟合得到的能量曲线确定带噪声语音信号的具有最大能量的语音信号子区间的能量值和具有最小能量的语音信号子区间的能量值，并将得到的最大能量值和最小能量值做差以得到该带噪声语音信号的语音信号动态范围。示例性的，当预设时间长度为16ms时，对于图3A中所示的带噪声语音信号的每个语音信号子区间进行拟合得到的该语音信号16ms语音信号子区间的能量图如图3B所示，其中，横坐标为时间，纵坐标为该带噪声语音信号16ms语音信号子区间的能量。
[0041] S240、基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度。
[0042] 示例性的，各不同带噪声信号的语音信号动态范围对应的语言清晰度如表1所示 (表1中只列出了部分数值），进一步的，所述带噪声语音信号动态范围与语言清晰度之间的
，其中，X为带噪声语音信号的语音信号动态范围，y为所述带噪声语音信号的语言清晰度(如图4所示）。
[0043] 表 1
[0046]本发明实施例二提供的语音信号清晰度的确定方法，在噪声环境下获取一段带噪声语音信号，将该带噪声语音信号分割为预设时间长度的语音信号子区间，计算每个语音信号子区间的能量，根据计算得到的每个语音信号子区间的能量拟合该带噪声语音信号预设时间长度的能量曲线并根据该能量曲线计算该带噪声语音信号的语音信号动态范围，根据带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定该带噪声语音信号的语言清晰度。本实施例通过采用上述技术方案，采用语音信号的动态范围作为特征计算噪声环境下的语音信号清晰度，计算过程不需要使用干净的无噪声语音信号，能够有效地减少计算噪声环境下语音信号清晰度时所需的操作步骤，提高语音信号清晰度的获取速度，减小噪声环境下语音信号清晰度的计算难度，增大语音信号清晰度确定方法的适用范围。
[0047] 实施例三
[0048]图5为本发明实施例三提供的一种语音信号清晰度的确定装置的结构框图，该装置可由软件和/或硬件实现，可通过执行语音信号清晰度的确定方法来确定语音信号的清晰度。如图5所示，该装置包括：
[0049]动态范围获取模块510,用于获取带噪声语音信号的语音信号动态范围；
[0050] 语言清晰度确定模块520,用于基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声信号的语言清晰度。
[0051] 进一步的，所述语音信号动态范围为所述带噪声语音信号具有最大能量的语音信号子区间和具有最小能量的语音信号子区间之间的能量差。
[0052] 进一步的，所述动态范围获取模块510包括:带噪声信号获取单元，用于在噪声环境下，获取一段带噪声语音信号;信号能量计算单元，用于将所述带噪声语音信号分割为预设时间长度的语音信号子区间，并计算所述语音信号子区间的能量;动态范围计算单元，用于根据所述语音信号子区间的能量获取所述带噪声语音信号预设时间长度的能量曲线并根据所述能量曲线计算所述带噪声语音信号的语音信号动态范围。
[0053]进一步的，所述预设时间长度为16ms。
[0054] 进一步的，所述带噪声语音信号动态范围与语言清晰度之间的数学模型具体为：
，其中，X为带噪声语音信号的语音信号动态范围，y为所述带噪声语音信号的语言清晰度。
[0055] 本发明实施例三提供的语音信号清晰度的确定装置可执行本发明任意实施例所提供的语音信号清晰度的确定方法，具备执行语音信号清晰度的确定方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的语音信号清晰度的确定方法。
[0056]注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。
【主权项】
1. 一种语音信号清晰度的确定方法，其特征在于，包括：获取带噪声语音信号的语音信号动态范围；基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声语音信号的语言清晰度。2. 根据权利要求1所述的方法，其特征在于，所述语音信号动态范围为所述带噪声语音信号具有最大能量的语音信号子区间和具有最小能量的语音信号子区间之间的能量差。3. 根据权利要求1所述的方法，其特征在于，所述获取带噪声语音信号的语音信号动态范围，包括：在噪声环境下，获取一段带噪声语音信号；将所述带噪声语音信号分割为预设时间长度的语音信号子区间，并计算所述语音信号子区间的能量；根据所述语音信号子区间的能量获取所述带噪声语音信号预设时间长度的能量曲线并根据所述能量曲线计算所述带噪声语音信号的语音信号动态范围。4. 根据权利要求3所述的方法，其特征在于，所述预设时间长度为16ms。5. 根据权利要求1所述的方法，其特征在于，所述带噪声语音信号动态范围与语言清晰度之间的数学模型具体为:y = -~7.7Ι χ?οο, 1 Η- Β 其中，X为带噪声语音信号的语音信号动态范围，y为所述带噪声语音信号的语言清晰度。6. -种语音信号清晰度的确定装置，其特征在于，包括：动态范围获取模块，用于获取带噪声语音信号的语音信号动态范围；语言清晰度确定模块，用于基于带噪声语音信号的语音信号动态范围与语言清晰度之间的数学模型确定所述带噪声信号的语言清晰度。7. 根据权利要求6所述的装置，其特征在于，所述语音信号动态范围为所述带噪声语音信号具有最大能量的语音信号子区间和具有最小能量的语音信号子区间之间的能量差。8. 根据权利要求6所述的装置，其特征在于，所述动态范围获取模块包括：带噪声信号获取单元，用于在噪声环境下，获取一段带噪声语音信号；信号能量计算单元，用于将所述带噪声语音信号分割为预设时间长度的语音信号子区间，并计算所述语音信号子区间的能量；动态范围计算单元，用于根据所述语音信号子区间的能量获取所述带噪声语音信号预设时间长度的能量曲线并根据所述能量曲线计算所述带噪声语音信号的语音信号动态范围。9. 根据权利要求8所述的装置，其特征在于，所述预设时间长度为16ms。10. 根据权利要求6所述的装置，其特征在于，所述带噪声语音信号动态范围与语言清晰度之间的数学模型具体为：y = ；^：L.r：77). X 1Q0：， 1 +扫：其中，X为带噪声语音信号的语音信号动态范围，y为所述带噪声语音信号的语言清晰度。
【文档编号】G10L25/51GK105869656SQ201610387091
【公开日】2016年8月17日
【申请日】2016年6月1日
【发明人】陈霏
【申请人】南方科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈霏;
技术所有人：南方科技大学;
我是此专利的发明人