一种多设备录音的自动切分对齐方法与流程

文档序号：14394443阅读：246来源：国知局

本发明涉及语音识别数据库制作技术领域，涉及一种多设备录音的自动切分对齐方法。

背景技术：

在语音识别数据库制作过程中，通过利用多设备同时采集录音，可大幅提高录音的效率和多样性。例如，通过在录音中同时采集头戴麦克风、手机和麦克风阵列的信号，可保证信道的多样性，进而提高识别数据库的实用性，使得数据库可在远场识别、唤醒、降噪等应用中使用。由于同时存在近讲、远讲的对应数据，可方便评估远场识别、唤醒、降噪算法的性能。

然而在多设备录音采集的过程中，由于录音设备不同，各录音设备无法在时间上同时开始录音(即同时按下录音开关或发出录音命令)；部分录音设备的录音丢帧问题和录音过程中的操作失误，给语音识别数据的后期处理带来一定挑战。

技术实现要素：

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种用于语音识别数据库制作的多设备录音的自动切分对齐方法，通过以短时参考录音作为参考，实现自动分别地多个目标录音中的关联录音对齐，然后切分形成对应的短时录音存储在语音识别数据库中，从而实现将不同原始录音转化为语音识别系统可使用的短时录音。

为实现本发明的目的所采用的技术方案是：

一种多设备录音的自动切分对齐方法，包括步骤：

将不同形式的多个原始录音对应处理成同一格式的多个长时录音；

将多个所述长时录音中所包含的相同长时录音进行关联；

利用短时参考录音对相关联的长时录音分别进行对齐，然后切分成与所述短时参考录音对应的短时录音。

本发明中，所述长时录音是指不同录音设备自其录音开始时刻至结束时刻不间断采集的全部录音，包括有效录音与无效录音；所述短时录音指自所述长时录音中切分出的有效录音。

本发明中，所述原始录音包括原始短时录音与原始长时录音，分别通过以下步骤形成所述长时录音；

对原始长时录音，则在原始长时录音解压后进行统一格式转换，并按统一采样率对原始长时录音重新采样，从而形成所述长时录音；

对原始短时录音，则在原始短时录音解压后进行统一格式转换，并按统一采样率对原始短时录音重新采样后，将原始短时录音根据时间戳拼接成所述长时录音。

其中，利用短时参考录音对多个相关联的长时录音分别进行对齐，可以是采用在多个所述相关联的长时录音中分别搜索短时参考录音来实现。

进一步的，利用短时参考录音对多个相关联的长时录音分别进行对齐，还可以采用下方式实现：

分别截取相关联的长时录音和短时参考录音的头尾两段，计算相关联的长时录音和短时参考录音在录音开始阶段、结束阶段的录音偏移；

根据所述录音偏移获取短时参考录音在相关联的长时录音中的位置，然后利用该短时参考录音在相关联的长时录音中切出对应的短录音。

具体的，所述录音偏移的计算，可在原始时域信号上计算，或是在降噪后的时域信号上计算，或是在信号特征的域上计算。

其中，所述短时参考录音可以是对参考录音设备录制的长时参考录音切分而形成，或是参考录音设备直接录制的短时录音。

所述对参考录音设备录制的长时参考录音切分，是利用语音活动检测信息进行切分的。

本发明中，将多个所述长时录音中所包含的相同长时录音进行关联，是通过读取长时录音的内容，通过计算多个长时录音的内容的相关度来实现。

上述的所述相关度包括录音的时域相关度与音频特征序列的相关度。

本发明的多设备录音的自动切分对齐方法，通过对多不同录音设备的原始录音格式统一后，自动关联目标录音文件、对目标录音利用参考短时录音进行对齐后切分，能自动将多录音设备录制的不同格式的原始录音转化为语音识别系统使用的短时录音，解决了录制多设备语音识别数据库的数据处理复杂的问题。

附图说明

图1是多设备录音的自动切分对齐方法的处理流程示意图；

图2是对原始录音进行格式统一处理的流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参见图1-2所示，一种多设备录音的自动切分对齐方法，包括步骤：

将不同形式的多个原始录音对应处理成同一格式的多个长时录音；

将多个所述长时录音中所包含的相同长时录音进行关联；

利用短时参考录音对相关联的长时录音分别进行对齐，然后切分成与所述短时参考录音对应的短时录音。

所述切分成与所述短时参考录音对应的短时录音，存储在语音识别数据库中进行识别使用，从而实现将不同的原始录音转化为语音识别系统可使用的短时录音。

其中，不同形式的多个原始录音由不同的录音输入设备，如图1所示，由录音设备1、录音设备2……录音设备n输入，首先通过格式统一处理的步骤，将不同形式的多个原始录音对应处理成同一格式的多个长时录音，然后将同一格式的长时录音中的同一录音文件中的相同的录音文件进行关联，然后利用短时参考录音对相关联的长时录音分别进行对齐后，进行切分，即可实现形成语音识别数据库存储的录音，然后由录音设备1、录音设备2……录音设备n分别输出到语音识别数据库存储。

所述的原始录音，是来自于不同的录音设备，如头戴麦克风、手机和麦克风阵列等，由于各个录音设备的采集的录音的格式会存在不一致的可能，为了方便后续切分处理，本发明中，首先对不同的不同形式的多个原始录音对应处理成同一格式的多个长时录音，以便为后续处理提供处理的基础。

由于录音设备的不同，在采集音频的过程中，有可能形成的原始录音是原始短时录音，也有可能是原始长时录音，因此，针对原始短时录音与原始长时录音的处理，分别通过以下步骤形成相应的长时录音；

对原始长时录音，则在原始长时录音解压(与解密)后进行统一格式转换，并按统一采样率对原始长时录音重新采样，从而形成所述长时录音；

对原始短时录音，则在原始短时录音解压(与解密)后进行统一格式转换，并按统一采样率对原始短时录音重新采样后，将原始短时录音根据时间戳信息，拼接成所述长时录音。

对原始短时录音拼接具体可以是：

若sk为第k个原始短时录音(1≤k≤k)，k为自然数，sk对应的时间戳为tk＝[tk^start,tk^end]，则对应时间戳t所拼接的长时录音s(t)为：

sk(t)为时间戳t对应的第k个原始短时录音；tk^start,tk^end为sk对应的时间戳的起始时刻与结束时刻。

其中，短时参考录音，可以由相应的录音参考设备选取，录音参考设备可根据录音文件信噪比选取信噪比高的设备作为录音参考设备，也可以根据实际录音项目需求来选取录音参考设备。

通过统一文件格式和采样率，并统一形成长时录音，方便后续处理。

本发明中，所述长时录音是指不同录音设备自其录音开始时刻至结束时刻不间断采集的全部录音，包括有效录音与无效录音；由于各个录音设备的开始和/或结束的时间不一定相同,采集音频中间的重录、暂停等过程都包含在长时录音中。

所述短时录音指自所述长时录音中按照切分规则所切分出的有效录音，通常为一完整的句子或段落等。

由于不同录音设备的启动、停止时间不同以及部分录音设备在录音过程中可能出现丢帧，暂停现象，因此在对其他录音设备的录音切分时，需要将短时参考录音与目标长时录音(即关联的相同长时录音)先进行对齐处理。

其中，利用短时参考录音对多个相关联的长时录音分别进行对齐，可以是采用在多个所述相关联的长时录音中分别搜索短时参考录音来实现，此方法需要对每句短录音都搜索，搜索范围比较大且容易导致对齐出错。

进一步的，利用短时参考录音对多个相关联的长时录音分别进行对齐，还可以采用下方式实现：

分别截取相关联的长时录音和短时参考录音的头尾两段，计算相关联的长时录音和短时参考录音在录音开始阶段、结束阶段的录音偏移；

根据所述录音偏移获取短时参考录音在相关联的长时录音中的位置，然后利用该短时参考录音在相关联的长时录音中切出对应的短录音。

以上方法，是通过计算目标长时录音和参考长时录音开始和结束阶段截取的对应信号间的互相关系数实现，可以提高对齐准确度，同时缩小搜索范围，具体如下：

步骤1：分别截取目标长时录音s1和参考长时录音s2的头尾两段，分别计算目标长时录音和参考长时录音在录音开始阶段、结束阶段的录音偏移量d1,d2,此处的偏移量指时间的偏移量,如由于目标长时录音s1和参考长时录音s2的采集设备按下录音开关的时刻不同，s1与s2间可能相差d秒，此处的录音偏移量即为d秒。若目标长时录音s1与参考长时录音s2长度为n，则若s1与s2未发生时间上的偏离，其二者信号间的互相关系数应在n+1处出现最大值；否则，d＝互相关系数最大值-(n+1)，其中，d为录音偏移量。

如果录音的头尾偏移d1＝d2，则表明录音设备良好，参考设备t1时刻的录音在目标设备t1+d位置，直接进入步骤3；否则，表明录音过程中存在丢帧或者暂停等现象，进入步骤2；

步骤2：根据录音头尾偏移d1，d2，对于参考设备t1时刻开始，t2时刻结束的短录音，在目标长时录音的[d1+t1-delta,d2+t2+delta]范围内搜索对应录音，进而得到该短录音在目标设备上的位置，进入步骤3。其中delta为扩展的搜索时长(如1秒)。

步骤3：根据短时参考录音在目标长时录音的位置，切出目标长时录音所对应的短录音。

具体的，所述录音偏移的计算，可在原始时域信号上计算，或是在降噪后的时域信号上计算，或是在信号特征的域上计算。

其中，所述短时参考录音可以是参考录音设备直接录制的短时录音。

由于采用特定的录音软件可在录音过程中逐句录制，则不需要再次切分，可直接使用原始短时录音，直接采用该原始短时录音，作为短时参考录音，对要处理的目标长时录音进行对齐切分处理。

所述短时参考录音可以是对参考录音设备录制的长时参考录音切分而形成，如果所述对参考录音设备录制的长时参考录音切分，可以是利用语音活动检测信息进行切分的。

利用语音活动检测(vad)信息进行切分：对于长时原始录音文件，可分析语音信号的vad信息，进而根据预先定义的准则把长时录音切分成短句，可以根据语音信号停顿时长进行切分，一般在每句话结束时都有比在每句话进行中明显长的停顿。利用vad信息可根据两段vad检测值为真的句子中间的停顿长度进行切分。如发现连续停顿超过2秒即在停顿重点做一次切分。在对话数据库录制时，还可结合对话双方头戴式麦克风能量的大小，提高切分的精度。

由于在录音采集过程中，经常需要同时处理多人(段)的录音。因此，在多设备录音处理过程中，需要关联不同录音设备的录音，即找出某人(段)录音在不同录音设备中对应的文件，即将多个长时录音中包含的相同长时录音进行关联。

上述的，将多个长时录音中所包含的相同长时录音关联可以采用以下方式进行，如根据录音的文件名，录音的时长，录音的文件大小等信息关联。也可是通过读取长时录音的内容，通过计算多个长时录音的内容的相关度来实现。

根据读取录音文件内容，可通过计算录音文件间相关度进行关联。假如有n个录音设备，每个录音设备有m段录音。在短时录音拼接后仍出现多个文件，原因是某一个录音设备可能参与了多人的录音，文件都存入到了同一个存储设备中。以参考录音为基准，对于某个目标录音，可计算该目标录音所有文件与参考录音所有文件的相关度，得到一个m*m的录音相关度矩阵t。两个录音设备n1(1≤n1≤n),n2(1≤n2≤n)，n1≠n2的两段录音m1(1≤m1≤m),m2(1≤m2≤m)，m1≠m2,的相关系数ρ12为：

其中，

e[·]为期望。则两个录音设备n1,n2的相关度矩阵t为：

基于相关度矩阵t，根据一定选取准则(如最大化关联后的总相关度)，可得到目标录音文件与参考录音文件的一一对应关系。即与关联度最高的中m为

上述的所述相关度可以是录音的时域相关度，也可是音频特征序列的相关度。

以上关联的方法优点是可直接应用于所有设备，为降低计算复杂度。在实际系统中，可以通过简化相关度计算(例如在计算时域相关度时抽样)，来减少计算复杂度。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴妍;郑羲光
技术所有人：北京慧听科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。