语音处理方法及装置的制造方法

文档序号:8529013阅读:370来源:国知局
语音处理方法及装置的制造方法
【技术领域】
[0001] 本申请实施例涉及语音技术领域,尤其涉及一种语音处理方法及装置。
【背景技术】
[0002] 音素(Phoneme)是构成语音的基本单元,通过单个音素或多个音素的组合,如字、 词、短语、句子等,可以表达特定的含义。音素分割是语音信号处理的基础,包括语音识别, 声纹识别,语音情感识别,语音合成,语音转换等。
[0003] 无论汉语、英语还是其它语言,一个字的拼音通常包括:清音段、浊音段、静音段, 其中,清音段、浊音段分别由至少一个音素组成,因此,音素分割通常分为两个步骤:(1)音 段的分割,(2)音段内部音素的分割。需要说明的是,有些情况下,清音段和静音段可能不 存在。

【发明内容】

[0004] 有鉴于此,本申请实施例的一个目的在于提供一种分割音段的方案。
[0005] 为实现上述目的,根据本申请实施例的第一方面,提供一种语音处理方法,包括:
[0006] 获取语音信号和与所述语音信号同步的电声门图EGG信号;
[0007] 至少根据所述EGG信号,将所述语音信号划分为多个音段。
[0008] 为实现上述目的,根据本申请实施例的第二方面,提供一种语音处理装置,包括:
[0009] 获取模块,用于获取语音信号和与所述语音信号同步的电声门图EGG信号;
[0010] 第一分割模块,用于至少根据所述EGG信号,将所述语音信号划分为多个音段。
[0011] 以上多个技术方案中的至少一个技术方案具有如下有益效果:
[0012] 本申请实施例通过获取语音信号和与所述语音信号同步的EGG信号,并至少根据 所述EGG信号将所述语音信号划分为多个音段,提供了一种分割音段的方案。另外,由于各 种干扰的存在,单纯地对语音信号进行音段分割的准确率不高,特别是文本无关的音段分 害J,即缺乏语音波形中包含的文本信息等先验知识的情况下,分割准确率更低;然而,由于 清音段和静音段中声带不振动,仅浊音段中声带振动,因此,EGG信号中各音段的区别较为 明显,因此,本实施例中利用同步的EGG信号辅助语音信号中音段的分割,能够提高音段分 割的准确率。
【附图说明】
[0013] 图1为本申请提供的一种语音处理方法实施例的流程示意图;
[0014] 图2为一发音过程中语音信号和EGG信号的一种示意图;
[0015] 图3A为又一发音过程中语音信号和EGG信号的一种示意图;
[0016] 图3B为图3A所示的语音信号和EGG信号的对数能量的一种示意图;
[0017] 图3C为图3B所示的语音信号和EGG信号的对数能量组成的二维对数能量向量序 列的二维正态分布聚类的结果示意图;
[0018]图3D为基于图3C所示的聚类结果对语音信号进行分段的示意图;
[0019] 图4为又一发音过程中EGG信号和语音信号的对数能量的分布直方图;
[0020] 图5为本申请提供的一种语音处理装置实施例一的结构示意图;
[0021] 图6A~6D分别为图5所示实施例的一种可选的实现方式的结构示意图;
[0022] 图7为本申请提供的一种语音处理装置实施例二的结构示意图。
【具体实施方式】
[0023] 下面结合附图和实施例,对本申请的【具体实施方式】作进一步详细说明。以下实施 例用于说明本发明,但不用来限制本发明的范围。
[0024] 图1为本申请提供的一种语音处理方法实施例的流程示意图。如图1所示,本实 施例包括:
[0025] 110、获取语音信号和与所述语音信号同步的电声门图信号。
[0026] 举例来说,本申请提供的一种语音处理装置实施例一或实施例二所述的语音处理 装置作为本实施例的执行主体,执行110~120。
[0027] 本实施例中,所述语音信号可选地通过语音收集设备,如麦克风等,收集得到。
[0028] 本实施例中,所述电声门图(Electroglottography,简称EGG)信号是一种生物电 信号,反映声门的开闭和声带的振动。所述EGG信号可选地通过电声门图仪在一用户的声 带附近采集到。
[0029] 本实施例中,所述EGG信号与所述语音信号同步是指,所述语音信号与所述EGG信 号对应同一用户的同一发音过程。
[0030] 120、至少根据所述EGG信号,将所述语音信号划分为多个音段。
[0031] 本实施例中,所述多个音段包括但不限于:至少一个浊音段和至少一个清音段。可 选地,所述多个音段还包括:至少一个静音段。
[0032] 图2为一发音过程中语音信号和EGG信号的一种示意图。图2所示的发音过程为 一男性用户发出四声hei的发音过程,竖轴的幅度为对应信号归一化后的电压值,横轴为 以11025HZ为采样率得到的采样点。为清楚地示意,用竖线将图中语音信号和EGG信号的清 音段(Unvoice)、浊音段(Voice)、静音段(Silence)隔开。可以看出,左边清音段表示清辅 音h,此时声带尚未产生振动,因此EGG信号无周期波形,语音信号为典型的杂乱无章的清 音波形;中间的浊音段对应元音ei,此时声带振动,从EGG信号中可以看出声带振动的周期 越来越长,对应声调第四声的基频下降趋势,语音信号波形经历了从元音e到元音i的连续 变化过程;静音段和浊音段的分界并不十分明显,其划分原则为静音段声带不振动;另外, 在静音段和清音段,EGG信号中包含了反映喉部肌肉运动的低频噪声。
[0033] 本实施例通过获取语音信号和与所述语音信号同步的EGG信号,并至少根据所述 EGG信号将所述语音信号划分为多个音段,提供了一种分割音段的方案。另外,由于各种干 扰的存在,单纯地对语音信号进行音段分割的准确率不高,特别是文本无关的音段分割,即 缺乏语音波形中包含的文本信息等先验知识的情况下,分割准确率更低;然而,由于清音段 和静音段中声带不振动,仅浊音段中声带振动,因此,EGG信号中各音段的区别较为明显,因 此,本实施例中利用同步的EGG信号辅助语音信号中音段的分割,能够提高音段分割的准 确率。
[0034] 以下通过一些可选的实现方式进一步地描述本实施例的方法。
[0035] 本实施例中,120有多种实现方式。
[0036] 在一种可选的实现方式中,所述至少根据所述EGG信号,将所述语音信号划分为 多个音段,包括:
[0037] 确定所述语音信号的第一特征参数序列和与所述第一特征参数序列对应的所述 EGG信号的第二特征参数序列;
[0038] 至少根据所述第一特征参数序列和所述第二特征参数序列,将所述语音信号划分 为多个音段。
[0039] 其中,所述第一特征参数序列包括:所述语音信号中多个语音帧的特征参数,所述 第二特征参数序列包括:所述EGG信号中多个EGG帧的所述特征参数,所述多个语音帧与所 述多个EGG帧一一对应相同的时间窗。举例来说,所述语音信号中第一个语音帧和所述EGG 信号中第一个EGG帧对应时间窗1,所述语音信号中第二个语音帧和所述EGG信号中第二个 EGG帧对应时间窗2,以此类推。
[0040] 可选地,将所述语音信号分为所述多个语音帧的方式,与将所述EGG信号分为所 述多个EGG帧的方式相同。举例来说,采用相同的采样率分别对所述语音信号和所述EGG进行采样,每个语音帧和与该语音帧对应的EGG帧包含各自信号中相同数量和顺序的采样 点。
[0041] 可选地,所述语音信号中前后语音帧在时间上可以有重叠,所述EGG信号也是类 似的。举例来说,以11025HZ的采样率对所述语音信号进行采样,每个语音帧包括256个采 样点,前后语音帧之间的帧移为128个采样点,S卩,前后语音帧对应的时间窗有一半是重叠 的;类似地,以11025HZ的采样率对所述EGG信号进行采样,每个EGG帧包括256个采样点, 前后EGG帧之间的帧移为128个采样点,S卩,前后EGG帧对应的时间窗有一半是重叠的。
[0042] 可选地,所述特征参数包括但不限于以下任一种:对数能量、过零率、基频。举例来 说,所述第一特征参数序列包括:所述语音信号中多个语音帧的对数能量,所述第二特征参 数序列包括:所述EGG信号中多个EGG帧的对数能量。
[0043] 在此实现方式中,所述至少根据所述第一特征参数序列和所述第二特征参数序 列,将所述语音信号划分为多个音段有多种实现方式。
[0044] 可选地,所述至少根据所述第一特征参数序列和所述第二特征参数序列,将所述 语音信号划分为多个音段,包括:
[0045] 将所述第一特征参数序列和所述第二特征参数序列对齐,得到二维特征参数向量 序列;
[0046] 对所述二维特征参数向量序列进行聚类;
[0047] 根据所述聚类的结果,将所述语音信号划分为多个音段。
[0048] 具体地,所述对齐是在时间上对齐,所述二维特征参数向量序列中的每个二维特 征参数向量由所述第一特征参数序列和所述第二特征参数序列中分别对应同一时间窗的 特征参数组成
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1