一种录音处理方法与流程

文档序号:21279304发布日期:2020-06-26 23:29阅读:308来源:国知局
一种录音处理方法与流程

本发明涉及录音技术领域,特别涉及一种录音处理方法。



背景技术:

在日常生活中,我们经常会用到录音功能,如:录制对话、录制会议等,并且,通常需要将录音内容整理成笔记或者从存储的录音内容中查找需要的信息,但是录音时间有长有短,如果录音时间过长的话,重新听一遍录音要花费很长时间,或者是按照时间戳查找,但是在查找过程中,因为不确定需要的信息具体在哪个时间戳,导致查找过程会变得繁琐麻烦,因此,本发明提出了一种录音处理方法。



技术实现要素:

本发明提供一种录音处理方法,用以根据用户需求以及语音处理算法,输出有效的需求内容,满足用户对录音处理的需求。

本发明提供一种录音处理方法,包括:

获取目标用户的用户需求;

根据所述用户需求,并基于语音处理算法,对预先录制好的本地录音文件进行语音处理,输出需求内容。

优选地,根据所述用户需求,并基于语音处理算法,对预先录制好的录音文件进行语音处理,输出需求内容的步骤包括:

目标设备的cpu根据所述用户需求,向所述目标设备的npu下发语音处理命令;

所述npu接收到所述语音处理命令后,基于npu中内置的语音处理算法对所述本地录音文件进行语音处理;

输出语音处理后的需求内容。

优选地,基于npu中内置的语音处理算法对所述本地录音文件进行语音处理的过程中包括:

所述npu根据语音处理算法,提取所述本地录音文件中每个用户的语音特征,并根据语音特征将每个用户的所有语音单独提取输出;

根据所述用户需求,供目标用户听取单独提取输出的指定人的所有语音。

优选地,基于npu中内置的语音处理算法对所述本地录音文件进行语音处理的过程中包括:

接收目标用户输入的关键词;

所述npu根据所述语音处理算法确定所述关键词的词特征,并根据所述词特征检索所述本地录音文件,输出与所述关键词相关的所有语音;

同时,将输出的与所述关键词相关的所有语音进行存储。

优选地,基于npu中内置的语音处理算法对所述本地录音文件进行语音处理的过程中包括:

所述npu根据语音处理算法,判断所述本地录音文件中是否存在无语音间隔;

若存在,删除所述无语音间隔,并输出不存在空闲等待时间的本地录音文件。

优选地,基于npu中内置的语音处理算法对所述本地录音文件进行语音处理的过程中包括:

所述npu根据语音处理算法,将所述本地录音文件对应的每个用户的所有语音识别处理成文字信息进行输出;

同时,在输出的文字信息上对应标记用户特征。

优选地,所述npu基于语音处理算法的语音处理功能包括:基于本地录音文件的用户语音的特征提取、基于本地录音文件的语音的智能降噪、基于本地录音文件的关键词的特征匹配、基于本地录音文件的无语音间隔的智能截取中的任一个或多个功能。

优选地,输出的需求内容包括:输出基于所述本地录音文件中指定人的所有语音、输出基于所述本地录音文件中与目标用户输入的关键词相关的所有语音、输出基于所述本地录音文件中按个人标记的文字信息或者输出基于所述本地录音文件去除无对话间隔部分的剩余内容。

本发明的有益效果是:

1、本地npu处理速度快,不受网络速度限制。

2、通过本地npu对录音的处理,用户可以非常方便的得到各种想要的功能,提高效率。

3、语音识别通过本地npu运行算法处理,不用上传到网络服务器端,隐私安全有保障,确保本地录音文件的安全性。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例中一种录音处理方法的流程图;

图2为本发明实施例中录音处理方法的结构图;

图3为本发明实施例中实施例六的实施例图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

实施例一:

本发明提供一种录音处理方法,如图1-2所示,包括:

步骤1:获取目标用户的用户需求;

步骤2:根据所述用户需求,并基于语音处理算法,对预先录制好的本地录音文件进行语音处理,输出需求内容。

优选地,根据所述用户需求,并基于语音处理算法,对预先录制好的录音文件进行语音处理,输出需求内容的步骤包括:

目标设备的cpu根据所述用户需求,向所述目标设备的npu下发语音处理命令;

所述npu接收到所述语音处理命令后,基于npu中内置的语音处理算法对所述本地录音文件进行语音处理;

输出语音处理后的需求内容。

优选地,所述npu基于语音处理算法的语音处理功能包括:基于本地录音文件的用户语音的特征提取、基于本地录音文件的语音的智能降噪、基于本地录音文件的关键词的特征匹配、基于本地录音文件的无语音间隔的智能截取中的任一个或多个功能。

优选地,输出的需求内容包括:输出基于所述本地录音文件中指定人的所有语音、输出基于所述本地录音文件中与目标用户输入的关键词相关的所有语音、输出基于所述本地录音文件中按个人标记的文字信息或者输出基于所述本地录音文件去除无对话间隔部分的剩余内容。

该实施例中,cpu(centralprocessingunit,中央处理器);npu(neural-networkprocessingunits,神经处理单元)。

该实施例中,目标设备可以为手机,如手机中的cpu会根据用户的各种需求,下达命令给npu,npu中内置了各种语音处理算法,对录音文件进行处理后输出各种内容,其中,各种内容即为需求内容。

该实施例中的用户需求,例如为,提取本地录音文件中用户a的语音,再如,获取与关键词“手机”相关的语音等。

该实施例的有益效果是:

1、本地npu处理速度快,不受网络速度限制。

2、通过本地npu对录音的处理,用户可以非常方便的得到各种想要的功能,提高效率。

实施例二:

基于实施例一的基础上,

优选地,基于npu中内置的语音处理算法对所述本地录音文件进行语音处理的过程中包括:

所述npu根据语音处理算法,提取所述本地录音文件中每个用户的语音特征,并根据语音特征将每个用户的所有语音单独提取输出;

根据所述用户需求,供目标用户听取单独提取输出的指定人的所有语音。

该实施例中,由于本地录音文件中,每个人的语音都是不同的,npu通过算法可以提取出录音文件中每个人的语音特征,并将每个人的所有语音单独提取输出,用户可以根据自己的需求听取想要听的每个人语音内容。

该实施例的有益效果是:便于根据特征提取,提取需求内容,进而满足用户需求。

实施例三:

基于实施例一的基础上,

优选地,基于npu中内置的语音处理算法对所述本地录音文件进行语音处理的过程中包括:

接收目标用户输入的关键词;

所述npu根据所述语音处理算法确定所述关键词的词特征,并根据所述词特征检索所述本地录音文件,输出与所述关键词相关的所有语音;

同时,将输出的与所述关键词相关的所有语音进行存储。

该实施例中,用户输入的关键词,例如“手机”,npu可以根据关键词的特征,检索整个语音文件,将符合指定关键词的特征全部检索出来,即可以实现“手机”相关的所有语音。

该实施例的有益效果是:通过特征匹配检索,获得关键词相关语音,方便用户日后查找。

实施例四:

基于实施例一的基础上,

优选地,基于npu中内置的语音处理算法对所述本地录音文件进行语音处理的过程中包括:

所述npu根据语音处理算法,判断所述本地录音文件中是否存在无语音间隔;

若存在,删除所述无语音间隔,并输出不存在空闲等待时间的本地录音文件。

该实施例中,全部的本地录音文件可能包含了大量的无语音间隔,造成录音文件冗余庞大,另外,回放时也浪费了大量的等待有语音的时间。

此时,npu可以根据语音处理算法判断出无语音的间隔部分,并将其删除,使得录音文件全程都是语音内容,没有空闲的等待时间。

该实施例的有益效果是:通过智能截取无语音部分,提高语音回放效率,提高用户体验效果。

实施例五:

基于实施例一的基础上,

优选地,基于npu中内置的语音处理算法对所述本地录音文件进行语音处理的过程中包括:

所述npu根据语音处理算法,将所述本地录音文件对应的每个用户的所有语音识别处理成文字信息进行输出;

同时,在输出的文字信息上对应标记用户特征。

由于,目前的语音识别文字输出都是通过网络服务器来实现的,需要将录音文件上传到服务器上,有服务器进行处理后返回给用户,但这种方案一是有网络安全风险,用户的录音文件可能很多情况下是比较私密的,并不想上传到网络服务器上;二是取决于网络就涉及到网络速度对处理速度的影响,网络慢就会很长时间返回结果。因此,采用本实施例提出的方案可以有效解决上述的技术问题,且本实施例的方案具体如下:

利用本地npu强大的ai(artificialintelligence,人工智能)运算能力,可以将录音文件中每个人的语音都识别处理成文字输出,并且会做出标记,用户能看到每句话都是谁说的。

该实施例的有益效果是:语音识别通过本地npu运行算法处理,不用上传到网络服务器端,隐私安全有保障,确保本地录音文件的安全性。

实施例六:

基于实施例一的基础上,还包括:对目标场景进行录音,获得录音信息,并将所述录音信息进行保存,构成本地录音文件,其中,对目标场景进行录音的之前包括:

测试待录制目标场景的录音设备是否可正常工作,其测试步骤包括:

激活设置在所述录音设备中的录音程序,使录音设备采集目标音频,并将所述目标音频进行存储,同时,激活设置在所述录音设备中的播放程序,使录音设备向外输出与目标音频相关的电信号进行播放;

提取所述目标音频的每个第一频节点的第一音频特征(第一音频频率和第一音频幅度),同时,提取播放音频的每个第二频节点的第二音频特征(第二音频频率和第二音频幅度);

建立所述第一频节点与所述第二频节点之间的关联关系;

通过所述关联关系,基于音频比对算法,一一对比分析第一音频频率与第二音频频率以及第一音频幅度与第二音频幅度之间的音频数值;

根据对比分析结果,确定所述录音设备的是否正常;

若正常,控制所述录音设备对目标场景进行录音;

否则,根据对比分析结果,确定异常音频段,并基于日志数据库,获取所述异常音频段的异常日志,根据异常日志,获取异常解决方案,并输出到目标设备进行显示。

该实施例的工作原理是:通过将目标音频的第一频节点与播放音频的第二频节点进行频率和幅度的一一对比分析,当对比分析结果为第一音频频率与第二音频频率相一致,且第一音频幅度与第二音频幅度相一致,表明录音设备正常,否则,获取第二频节点中的异常音频段,进行获取相关的异常解决方案,输出到目标设备进行显示,便于及时解决异常问题。

该实施例中,如图3所示,例如目标音频的第一频节点为a1,a2,a3,a4;播放音频的第二频节点为b1,b2,b3,b4;

此时,a1与b1、a2与b2、a3与b3、a4与b4是一一对应的,且其对应的频率和幅度也是一一对应的。

该实施例中,目标场景可以是会议室开会进行录制的场景。

该实施例的有益效果是:通过将目标音频的第一频节点与播放音频的第二频节点进行频率和幅度的一一对比分析,便于确定录音设备是否正常,且铜鼓显示异常解决方案,便于及时解决异常问题。

实施例七:

基于实施例六的基础上,还包括:在目标场景下,按照间隔角度旋转所述录音设备中的m个麦克风,并获取每个旋转角度对应的m个麦克风对应的声音信道的声源方向,其中,n1表示旋转角度的旋转次数,且所述间隔角度,其中,表示第i个麦克风在第j次旋转对应的声音信道的声源方向,且i=1,2,3,...,m;

配置每个声音信道的预设声音频率范围,并计算相邻信道之间的相位差

其中,表示第i个声音信道与第i-1个声音信道的相位差函数;表示第i+1个声音信道与第i个声音信道的相位差函数;表示第i个声音信道与第i-1个声音信道的相位差;表示第i+1个声音信道与第i个声音信道的相位差;

其中,声音信道与麦克风一一对应设置;

估算不同旋转角度对应的m个麦克风的当前位置与声源方向的声源点的声源位置之间实际距离,并确定所述声源点的声源估计值

其中,表示第i个麦克风在第j次旋转后麦克风的当前位置与声源方向的声源点的声源位置之间实际距离;表示第i个麦克风在第j次旋转后麦克风的当前位置坐标;表示第i个麦克风在第j次旋转后对应的声源方向的声源点的声源位置坐标;v表示声音传输速度;表示第i个麦克风在第j次旋转后基于所述麦克风的声音频率归一化结果;表示第i个麦克风在第j次旋转过程中所述麦克风的转动惯量熵值;

根据所述相位差以及声源估计值,检测对应的所述麦克风是否合格;

其中,d表示所述麦克风的声源合格值;

当d在预设合格范围内时,判断所述麦克风合格;

当合格的麦克风需要基于m个麦克风进行语音录制时,建立所述录音设备之间的蓝牙通讯连接;

当判断麦克风不合格时,进行报警警示;

其中,当建立所述录音设备之间的蓝牙通讯连接之后,监测所述目标场景中的所有第一用户,确定每个第一用户的当前位置以及当前角度;

并基于所述当前位置以及当前角度,确定对应的待开启麦克风;

同时,基于蓝牙通讯技术,控制所述待开启麦克风开始工作;

当所述第一用户中存在第二用户的当前位置或者当前角度发生改变时,确定与所述第二用户对应的第一麦克风,并确定所述第一麦克风是否与待开启麦克风一致,若一致,保持原先的待开启麦克风继续工作;

否则,对原先的待开启麦克风中的第二麦克风进行调节控制;

其中,在录制时,获取录音设备采集的音频信息,其中,所述音频信息包括第一音频和第二音频,所述第一音频为目标场景的声音信息,所述第二音频为录音设备的设备信息;

在采集到音频信息之后,对所述音频信号进行剪辑处理,剪辑掉空闲音频,同时,基于音频分离算法,将所述声音信息和设备信息进行分离,获得最终音频。

该实施例的有益效果是:通过对麦克风进行检查,进而对合格的麦克风进行调整,其中,对麦克风进行检查的过程中,首先,对麦克风进行旋转,并获取同个麦克风在不同旋转角度对应的声音信道的声源方向,其次,为每个信道配置频率,计算相邻信道之间的相位差,然后,计算麦克风的当前位置与声源方向的声源点的声源位置之间实际距离,来确定声源点的声源估计值,最后根据声源估计值和相位差,确定麦克风是否合格,可以有效的保证麦克风在使用过程中的有效性,在调节控制麦克风的过程中,通过按照用户的方向和角度的变化进行灵活控制对应麦克风的开启,提高其采集音频信息的高效性,确保录制的可靠性。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1