一种声音录制的方法及装置制造方法

文档序号：2827766阅读：153来源：国知局

一种声音录制的方法及装置制造方法
【专利摘要】本发明公开了一种声音录制的方法及装置，用以减少音频文件中空白没有声音的片段，提高音频文件的有效性，进而提高网络传输效率。其中方法包括：进行数据实时采集，获得当前声音片段文件；判断当前声音片段文件内是否存在声音；如果存在声音，则判断是否存在打开的音频文件，是则在打开的音频文件中写入当前声音片段文件，否则建立新的音频文件，并将新的音频文件作为打开的音频文件并将当前声音片段文件写入；如果不存在声音，则判断是否存在打开的音频文件，是则关闭所述打开的音频文件并作为待传输音频文件保存，并丢弃当前声音片段文件；否则直接丢弃当前声音片段文件。
【专利说明】一种声音录制的方法及装置

【技术领域】
[0001]本发明涉及音频处理【技术领域】，特别涉及一种声音录制的方法及装置。

【背景技术】
[0002]语音采集的一个重要环节是将用户发送的语音信号进行录制，然后由语音采集系统采用相关的语音数据算法对录制生成的音频信号进行语音分析。在现有技术中，用户启动语音采集功能后，系统会通过麦克风开始录音，然而，在实际的使用过程中，麦克风在录音时是不会考虑中间有没有声音的，一般都是从头录到尾，生成一个语音文件。另外，在录制过程中，也不会考虑背景噪音的影响。
[0003]这样录制的声音，里面很多空白没有声音的片段，会造成有效内容不多，而且文件较大，不利于通过网络进行传输。

【发明内容】

[0004]本发明提供一种声音录制的方法及装置，用以减少音频文件中空白没有声音的片段，提闻首频文件的有效性，进而提闻网络传输效率。
[0005]本发明提供一种声音录制的方法，包括:
[0006]进行数据实时采集，获得当前声音片段文件；
[0007]分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音；
[0008]如果所述当前声音片段文件内存在声音，则判断是否存在打开的音频文件，是则在所述打开的音频文件中写入所述当前声音片段文件，否则建立新的音频文件，并将所述新的音频文件作为打开的音频文件并将所述当前声音片段文件写入所述打开的音频文件;
[0009]如果所述当前声音片段文件内不存在声音，则判断是否存在所述打开的音频文件，是则关闭所述打开的音频文件并作为待传输音频文件保存，并丢弃所述当前声音片段文件；否则直接丢弃所述当前声音片段文件。
[0010]优选的，上述的方法中，所述建立新的音频文件的步骤中:以32位id和当前时间戳命名所述新的音频文件。
[0011]优选的，上述的方法中，还包括:
[0012]将所述待传输音频文件发送到远端，并通过所述时间戳确定文件播放的先后顺序。
[0013]优选的，上述的方法中，分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音的步骤具体包括:
[0014]将所述当前声音片段文件进行单元划分，每两个字节划分为一个单元；
[0015]将每个单元中的所述两个字节转换为16位有符号的整数，并取所述整数的绝对值；
[0016]求取所有所述绝对值的平均值；
[0017]判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
[0018]优选的，上述的方法中，所述分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音的步骤具体包括:
[0019]将所述当前声音片段文件进行单元划分，每四个字节划分为一个单元；
[0020]将每个单元中的所述四个字节中的前两个字节转换为16位有符号的整数，并取所述整数的绝对值；
[0021]求取所有所述绝对值的平均值；
[0022]判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
[0023]本发明还提供一种声音录制的装置，包括:
[0024]采集单元，用于:进行数据实时采集，获得当前声音片段文件；
[0025]分析单元，用于:分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音；
[0026]存储单元，用于:如果所述当前声音片段文件内存在声音，则判断是否存在打开的音频文件，是则在所述打开的音频文件中写入所述当前声音片段文件，否则建立新的音频文件，并将所述新的音频文件作为打开的音频文件并将所述当前声音片段文件写入所述打开的音频文件；
[0027]丢弃单元，用于:如果所述当前声音片段文件内不存在声音，则判断是否存在所述打开的音频文件，是则关闭所述打开的音频文件并作为待传输音频文件保存，并丢弃所述当前声音片段文件；否则直接丢弃所述当前声音片段文件。
[0028]优选的，上述的装置中，所述存储单元，还用于:以32位id和当前时间戳命名所述新的音频文件。
[0029]优选的，上述的装置中，还包括:
[0030]传输单兀,用于:发送所述待传输音频文件；
[0031]远端，接收所述待传输音频文件，并通过所述时间戳确定文件播放的先后顺序。
[0032]优选的，上述的装置中，所述分析单元，具体用于:
[0033]将所述当前声音片段文件进行单元划分，每两个字节划分为一个单元；
[0034]将每个单元中的所述两个字节转换为16位有符号的整数，并取所述整数的绝对值；
[0035]求取所有所述绝对值的平均值；
[0036]判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
[0037]优选的，上述的装置中，所述分析单元，具体用于:
[0038]将所述当前声音片段文件进行单元划分，每四个字节划分为一个单元；
[0039]将每个单元中的所述四个字节中的前两个字节转换为16位有符号的整数，并取所述整数的绝对值；
[0040]求取所有所述绝对值的平均值；
[0041]判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
[0042]本发明具有以下技术效果:
[0043]I)本发明实施例中，通过判断声音片段文件内是否存在声音，从而在音频文件中仅保留有声音的声音片段文件，丢弃掉没有声音的声音片段文件，所以大大减少了音频文件中空白没有声首的片段，提闻了首频文件的有效性，进而提闻了网络传输效率。
[0044]2)本发明实施例中，通过对声音片段文件进行单元划分，并通过求取各单元绝对值的平均值的方式，来确定声音片段文件是否有声音，这种方法比较准确，充分考虑了背景噪音的影响，不会造成误判。
[0045]3)本发明实施例中，通过每四个字节划分为一个单元，并仅求取每个单元的前两个字节的方式，大大提高了处理效率，并且保持了语音识别的准确率。
[0046]本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0047]下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

【专利附图】

【附图说明】
[0048]附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中:
[0049]图1为本发明实施例声音录制方法的流程图；
[0050]图2为本发明实施例声音录制装置的示意图；
[0051]图3为本发明另一实施例的声音录制方法的流程图。

【具体实施方式】
[0052]以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。
[0053]图1为本发明实施例声音录制方法的流程图，如图1所示，发明实施例的一种声音录制的方法，包括:
[0054]进行数据实时采集，获得当前声音片段文件；
[0055]分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音；
[0056]如果所述当前声音片段文件内存在声音，则判断是否存在打开的音频文件，是则在所述打开的音频文件中写入所述当前声音片段文件，否则建立新的音频文件，并将所述新的音频文件作为打开的音频文件并将所述当前声音片段文件写入所述打开的音频文件;
[0057]如果所述当前声音片段文件内不存在声音，则判断是否存在所述打开的音频文件，是则关闭所述打开的音频文件并作为待传输音频文件保存，并丢弃所述当前声音片段文件；否则直接丢弃所述当前声音片段文件。
[0058]可见，本发明实施例中，通过判断声音片段文件内是否存在声音，从而在音频文件中仅保留有声音的声音片段文件，丢弃掉没有声音的声音片段文件，所以大大减少了音频文件中空白没有声首的片段，提闻了首频文件的有效性，进而提闻了网络传输效率。
[0059]在本发明的一个实施例中，在所述建立新的音频文件的步骤中:以32位id和当前时间戳命名所述新的音频文件。还包括:将所述待传输音频文件发送到远端，并通过所述时间戳确定文件播放的先后顺序。通过这种时间戳的方式，很容易确定文件的播放顺序。
[0060]在本发明的一个实施例中，分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音的步骤具体包括:
[0061]将所述当前声音片段文件进行单元划分，每两个字节划分为一个单元；
[0062]将每个单元中的所述两个字节转换为16位有符号的整数，并取所述整数的绝对值；
[0063]求取所有所述绝对值的平均值；
[0064]判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
[0065]可见，本发明实施例中，通过对声音片段文件进行单元划分，并通过求取各单元绝对值的平均值的方式，来确定声音片段文件是否有声音，这种方法比较准确，充分考虑了背景噪音的影响，不会造成误判。
[0066]在本发明的另一个实施例中，所述分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音的步骤具体包括:将所述当前声音片段文件进行单元划分，每四个字节划分为一个单元；将每个单元中的所述四个字节中的前两个字节转换为16位有符号的整数，并取所述整数的绝对值；求取所有所述绝对值的平均值；判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
[0067]可见，通过每四个字节划分为一个单元，并仅求取每个单元的前两个字节的方式，大大提高了处理效率，并保持了语音识别的准确率，不会漏掉语音。
[0068]图2为本发明实施例声音录制装置的示意图，如图2所示，一种声音录制的装置，包括:
[0069]采集单元201，用于:进行数据实时采集，获得当前声音片段文件；
[0070]分析单元202，用于:分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音；
[0071]存储单元203，用于:如果所述当前声音片段文件内存在声音，则判断是否存在打开的音频文件，是则在所述打开的音频文件中写入所述当前声音片段文件，否则建立新的音频文件，并将所述新的音频文件作为打开的音频文件并将所述当前声音片段文件写入所述打开的音频文件；
[0072]丢弃单元204，用于:如果所述当前声音片段文件内不存在声音，则判断是否存在所述打开的音频文件，是则关闭所述打开的音频文件并作为待传输音频文件保存，并丢弃所述当前声音片段文件；否则直接丢弃所述当前声音片段文件。
[0073]在本发明的一个实施例中，所述存储单元，还用于:以32位id和当前时间戳命名所述新的音频文件。还包括:传输单元，用于:发送所述待传输音频文件；远端，接收所述待传输音频文件，并通过所述时间戳确定文件播放的先后顺序。
[0074]在本发明的一个实施例中，所述分析单元，具体用于:将所述当前声音片段文件进行单元划分，每两个字节划分为一个单元；将每个单元中的所述两个字节转换为16位有符号的整数，并取所述整数的绝对值；求取所有所述绝对值的平均值；判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
[0075]在本发明的另一个实施例中，所述分析单元，具体用于:将所述当前声音片段文件进行单元划分，每四个字节划分为一个单元；将每个单元中的所述四个字节中的前两个字节转换为16位有符号的整数，并取所述整数的绝对值；求取所有所述绝对值的平均值；判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
[0076]图3为本发明另一实施例的声音录制方法的流程图，该实施例是语音碎片化录制方法及传输方法，其通过directshow(是微软公司提供的一套在Windows平台上进行流媒体处理的开发包)进行录音时，会边录音边对声音进行分析，将有声音的部分进行录制，没有声音的部分不进行录制，这样会形成一系列只包含有内容的声音碎片文件，每个文件会按照时间顺序标记文件ID号和时间标签，在通过网络传输后，在接收端根据文件ID号和时间标签进行声音碎片重组。本发明实施例可用于远程会议、教学等等各种场景，具有很强的应用前景。
[0077]如图3所示，本发明实施例在用户指定声音输入设备或者默认声音输入设备后，利用directshow进行声音采集，在实时采集的过程中，会不间断的从声音输入设备中获取WAV格式(是录音时用的标准的WINDOWS文件格式)的声音数据，每次获取到一段声音数据后，对本段声音数据按照每两个字节一个单位进行转换为16位有符号的整数，对得到整数的绝对值求和后计算出平均数，根据本方法事先指定的阈值进行判断，如果大于等于此阈值，表不此段声音数据是存在声音的，如果小于此阈值，表不此段声音数据不存在声音，本发明实施例为提高效率，是按照每四个字节取前两个字节进行转换，对整体效果无影响；
[0078]判断存在声音时，如果之前没有声音，则生成新的以一个唯一的32位id和当前时间戳命名的音频文件，保存此id和时间戳，在新的音频文件中写入此声音数据，如果之前就已经存在声音，则在打开的音频文件中写入此声音数据到文件结尾；判断不存在声音时，如果之前没有声音，放弃此声音数据不做其它处理，如果之前已经存在声音，则放弃此声音数据，将当前打开的声音文件保存后关闭流，并且保存此文件以毫秒为单位的时长；
[0079]当关闭一个音频文件流后可以开启一个新的线程将这个文件上传到远端，在上传完毕后，将此文件的详细信息(包括文件名、开始时间的时间戳、id、时长)发送到远端，远端可以根据文件名称找到在远端的文件，根据开始时间的时间戳确定文件的先后顺序，并可根据开始时间的时间戳确定文件的播放时间。不再需要采集时，停止采集，不再获取声音数据。
[0080]由上可知，本发明实施例具有以下优势:
[0081]I)本发明实施例中，通过判断声音片段文件内是否存在声音，从而在音频文件中仅保留有声音的声音片段文件，丢弃掉没有声音的声音片段文件，所以大大减少了音频文件中空白没有声首的片段，提闻了首频文件的有效性，进而提闻了网络传输效率。
[0082]2)本发明实施例中，通过对声音片段文件进行单元划分，并通过求取各单元绝对值的平均值的方式，来确定声音片段文件是否有声音，这种方法比较准确，充分考虑了背景噪音的影响，不会造成误判。
[0083]3)本发明实施例中，通过每四个字节划分为一个单元，并仅求取每个单元的前两个字节的方式，大大提高了处理效率，并且保持了语音识别的准确率。
[0084]本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0085]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0086]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0087]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0088]显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
【权利要求】
1.一种声音录制的方法，其特征在于，包括: 进行数据实时采集，获得当前声音片段文件；分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音；如果所述当前声音片段文件内存在声音，则判断是否存在打开的音频文件，是则在所述打开的音频文件中写入所述当前声音片段文件，否则建立新的音频文件，并将所述新的音频文件作为打开的音频文件并将所述当前声音片段文件写入所述打开的音频文件；如果所述当前声音片段文件内不存在声音，则判断是否存在所述打开的音频文件，是则关闭所述打开的音频文件并作为待传输音频文件保存，并丢弃所述当前声音片段文件；否则直接丢弃所述当前声音片段文件。
2.如权利要求1所述的方法，其特征在于，所述建立新的音频文件的步骤中:以32位id和当前时间戳命名所述新的音频文件。
3.如权利要求2所述的方法，其特征在于，还包括: 将所述待传输音频文件发送到远端，并通过所述时间戳确定文件播放的先后顺序。
4.如权利要求1、2或3所述的方法，其特征在于，分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音的步骤具体包括: 将所述当前声音片段文件进行单元划分，每两个字节划分为一个单元；将每个单元中的所述两个字节转换为16位有符号的整数，并取所述整数的绝对值；求取所有所述绝对值的平均值；判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
5.如权利要求1、2或3所述的方法，其特征在于，所述分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音的步骤具体包括: 将所述当前声音片段文件进行单元划分，每四个字节划分为一个单元；将每个单元中的所述四个字节中的前两个字节转换为16位有符号的整数，并取所述整数的绝对值；求取所有所述绝对值的平均值；判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
6.一种声音录制的装置，其特征在于，包括: 采集单元，用于:进行数据实时采集，获得当前声音片段文件；分析单元，用于:分析所述当前声音片段文件，判断所述当前声音片段文件内是否存在声音; 存储单元，用于:如果所述当前声音片段文件内存在声音，则判断是否存在打开的音频文件，是则在所述打开的音频文件中写入所述当前声音片段文件，否则建立新的音频文件，并将所述新的音频文件作为打开的音频文件并将所述当前声音片段文件写入所述打开的首频文件；丢弃单元，用于:如果所述当前声音片段文件内不存在声音，则判断是否存在所述打开的音频文件，是则关闭所述打开的音频文件并作为待传输音频文件保存，并丢弃所述当前声音片段文件；否则直接丢弃所述当前声音片段文件。
7.如权利要求6所述的装置，其特征在于，所述存储单元，还用于:以32位id和当前时间戳命名所述新的音频文件。
8.如权利要求7所述的装置，其特征在于，还包括: 传输单元，用于:发送所述待传输音频文件；远端，接收所述待传输音频文件，并通过所述时间戳确定文件播放的先后顺序。
9.如权利要求6、7或8所述的装置，其特征在于，所述分析单元，具体用于: 将所述当前声音片段文件进行单元划分，每两个字节划分为一个单元；将每个单元中的所述两个字节转换为16位有符号的整数，并取所述整数的绝对值；求取所有所述绝对值的平均值；判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
10.如权利要求6、7或8所述的装置，其特征在于，所述分析单元，具体用于: 将所述当前声音片段文件进行单元划分，每四个字节划分为一个单元；将每个单元中的所述四个字节中的前两个字节转换为16位有符号的整数，并取所述整数的绝对值；求取所有所述绝对值的平均值；判断所述平均值是否大于预定阈值，是则所述当前声音片段文件内存在声音，否则所述当前声音片段文件内不存在声音。
【文档编号】G10L25/78GK104202321SQ201410443068
【公开日】2014年12月10日申请日期:2014年9月2日优先权日:2014年9月2日
【发明者】杨金伟申请人:上海天脉聚源文化传媒有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨金伟
技术所有人：上海天脉聚源文化传媒有限公司
我是此专利的发明人

上一篇：语音搜索方法、装置和系统的制作方法
上一篇：一种机电节拍器的制造方法