录制音频的方法、音频处理的方法、电子设备和服务端与流程

文档序号：18402174发布日期：2019-08-10 00:00阅读：311来源：国知局

本发明实施例涉及通信技术领域，特别涉及一种录制音频的方法、音频处理的方法、电子设备和服务端。

背景技术：

随着科技的不断发展，目前的电子设备通常都具有录音功能，例如，智能手机具有录音功能、mp3具有录音功能等。用户通常采用具有录音功能的设备对会议内容或者访谈内容进行录制。

用户使用该录音设备进行录制时，用户可以点击该录音设备上的“开始按钮”，以启动录音设备进行音频的录制，而当音频录制结束时，则用户需要点击结束按钮(或者再次点击开始按钮)以结束音频录制。

发明人发现现有技术中至少存在如下问题：目前在录制音频时，需要用户手动启动音频录制或手动关闭音频录制。但是在实际使用中，由于使用场景复杂多变，用户往往不能及时暂停录制(甚至很多时候用户往往会忘记去暂停录制)，录入了无效音频，从而降低了录音质量，同时录入的无效音频还会占用录音设备的存储空间。例如，用户b启动录音设备，录制与a的访谈内容，在录制的过程中a突然接到了一个电话，a针对电话的谈话内容并不是本次访谈需要录制的音频内容，此时需要用户b手动暂停录音，若用户b没有及时暂停录制或者忘记暂停录制，则会录入无效音频，由于电话内容与本次录音内容不相关，降低了录音质量，增大了后续用户整理录音内容的时间(整理访谈资料时，需要删除无效音频)，同时无效音频还占用了录音设备的存储空间。

技术实现要素：

本发明实施方式的目的在于提供一种录音的方法，使得可以自动控制对音频信号的录制，避免无效音频片段的录入，提高录音的质量。

为解决上述技术问题，本发明的实施方式提供了一种录制音频的方法，应用于录音装置，包括：获取当前采集的音频片段的语义识别结果，并根据语义识别结果确定音频片段所属主题；判断音频片段所属主题与目标主题是否相同，并根据判断结果，控制音频的录制过程，其中，目标主题为待录制音频内容的所属类别。

本发明的实施方式还提供了一种音频处理的方法，应用于服务端，包括：接收录音装置发送的音频数据，其中，音频数据包括录音装置录制的目标音频和录制目标音频的控制信息，控制信息包括暂停录制音频的时刻信息；根据控制信息，对目标音频进行剪辑处理；其中，录音装置录制目标音频的过程为：根据当前采集的音频片段的语义识别结果确定音频片段的所属主题，判断音频片段所属主题与目标主题是否相同，根据判断结果，控制音频的录制过程。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的录制音频的方法。

本发明的实施方式还提供了一种服务端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的音频处理的方法。

本发明实施方式相对于现有技术而言，通过将当前采集的音频片段所属主题与目标主题进行比对，并根据判断结果控制音频的录制过程，而音频录制过程包括对音频录制的暂停以及重新启动音频的录制；由于在录制音频的整个过程中，无需手动暂停音频的录制，可以避免出现因人工忘记暂停而录入与目标主题无关的音频片段的问题，从而提高录音的质量。且对采集的音频片段采用语义识别，可以确定该音频片段录制的内容，进而可以根据录制的内容快速、准确地确定出当前采集的音频片段所属主题；同时，由于在整个音频录制过程中，均是通过判断采集的音频片段所属主题与目标主题是否一致控制音频的录制，还可以避免出现因人工忘记取消暂停而导致漏掉录制与目标主题相关的音频的问题，进一步提高了录制音频的质量，减少后期对录制的音频的处理的步骤，提高对录制的音频的处理速度。

另外，录制音频的方法还包括：若接收到指示结束音频的录制的指令，则终止对音频的录制，得到目标音频；将音频数据上传至服务端，音频数据包括目标音频以及录制目标音频的控制信息，其中，控制信息包括暂停录制音频的时刻信息。通过将目标音频以及录制目标音频的控制信息上传至服务端，可以由服务端通过控制信息对目标音频进行处理，如，剪辑处理，可以简化后续服务端对音频处理的步骤，加快对音频处理的速度，从而通过服务端再次提高目标音频的音频质量。

另外，根据判断结果，控制音频的录制过程，具体包括：若确定音频片段所属主题与目标主题不相同，则暂停音频的录制；在暂停音频的录制过程中，若检测到与目标主题相同的音频片段，则重新启动对音频的录制。在控制音频录制过程中包括了对音频录制的暂停和重启，暂停音频的录制，可以避免录入与目标主题不相关的音频片段；而在暂停音频的录制过程中，若检测到采集的音频片段所属主题与目标主题相同，则重新启动音频的录制，可以避免出现漏掉录制与目标主题相同的音频片段的问题。

另外，获取当前采集的音频片段的语义识别结果，具体包括：将当前采集的音频片段上传至服务端，并接收由服务端反馈的音频片段的语义识别结果；或者，对当前采集的音频片段进行语义识别，得到音频片段的语义识别结果。提供两种获取当前采集的音频片段的语义识别结果的方式，便于灵活获取当前采集的音频片段的语义识别结果。

另外，在获取当前采集的音频片段的语义识别结果之前，录制音频的方法还包括：获取首次采集的首段音频片段的语义识别结果，并根据首段音频片段的语义识别结果，确定首段音频片段所属主题；并将首段音频片段所属主题作为目标主题。由于首段音频片段中通常包含有对录制音频的主题内容，因而将首段音频片段所属主题作为目标主题，可以快速、准确地确定目标主题，且实现方式简单。

另外，在暂停音频的录制过程中，录制音频的方法还包括：在暂停音频的录制过程中，若检测到与目标主题相同的音频片段，保存与目标主题相同的音频片段。在暂停音频的录制过程中，保存与目标主题相同的音频片段，避免在重新启动录制时，出现漏保存当前与目标主题相同的音频片段的问题，从而提高音频录制的质量。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式提供的一种录制音频的方法具体流程示意图；

图2是根据本发明第二实施方式提供的一种录制音频的方法具体流程示意图；

图3是根据本发明第三实施方式提供的一种音频处理的方法具体流程示意图；

图4是根据本发明第四实施方式提供的一种音频处理的方法具体流程示意图；

图5是根据本发明第五实施方式提供的一种电子设备的具体结构示意图；

图6是根据本发明第六实施方式提供的一种服务端的具体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种录制音频的方法。该录制音频的方法应用于录音装置，该录音装置可以是具有录音功能的电子设备，如：智能手机、录音笔、带录音功能的mp3等。该录制音频的方法的具体流程如图1所示。

步骤101：获取当前采集的音频片段的语义识别结果，并根据语义识别结果确定音频片段所属主题。

具体的说，启动该录音装置，该录音装置实时采集该录音装置周围环境的音频信号，如：用户的谈话音频信号。其中，可以按照预设周期获取当前采集的音频片段的语义识别结果，例如，可以每隔30秒就获取一次音频片段的语义识别结果。还可以不按照预设周期获取当前采集的音频片段的语义识别结果，例如，若检测到2秒内无音频输入，则获取一次当前采集的音频片段的语义识别结果，当前采集的音频片段为上一次获取的时刻到当前时刻内的音频片段。

可以预先设置每个主题对应的关键词，例如，主题为“电影”所对应的关键词可以包括“票房”、“上映”、“上座率”、“排片”、“场次”、“导演”以及“主演”等，主题“游戏”所对应的关键词可以包括：“e3”、“索尼”、“大法”、“任天堂”、“3a”以及“steam”等；主题为“金融”所对应的关键词可以包括：“货币”、“贸易战”、“基金”、“证券”、“金价”以及“股市”等。当然，每个主题所对应的关键词的数量不做限制。

获取到语义识别结果中的关键词，统计该音频片段中各个主题所对应的关键词的数量，选取包含最多关键词的主题作为该音频片段所属主题。例如，当前采集的音频片段的语义识别结果为：“这届e3索尼大法厉害啊！有这么多独占的3a大作！”，将该语义识别结果中的词与各个主题所对应的关键词进行比对，可以确定出该音频片段中出现了4个与主题“游戏”相关的关键词(即“e3”、“索尼”、“大法”以及“3a”)，即可确定该音频片段所属主题为“游戏”。

值得一提的是，在获取当前采集的音频片段的语义识别结果之前，需要获取目标主题，获取目标主题的方式有多种，例如，可以输出提示语音，提示用户输入(输入方式可以是语音输入、键盘输入文字等)目标主题；还可以通过录音装置自动语义识别的方式自动获取目标主题。下面介绍自动获取目标主题的方式：

获取首次采集的首段音频片段的语义识别结果，并根据首段音频片段的语义识别结果，确定首段音频片段所属主题；并将首段音频片段所属主题作为目标主题。

具体的说，首段音频片段可以是录音装置启动后，采集的第一段音频片段，并获取该首段音频片段的语义识别结果，提取该首段音频片段的语义识别结果中的关键词，并与预设主题所对应的关键词进行比对，从而确定出该首段音频片段所属主题，例如，首段音频片段的语义识别结果为“接下来让我聊聊中东局势”，可以提取到关键词“中东局势”，该关键词对应的主题为“中东局势”，即可确定该首段音频片段所属主题为“中东局势”。

一个具体的实现中，获取当前采集的音频片段的语义识别结果的方式有多种，本实施方式采用以下列举的两种方式。

方式一：将当前采集的音频片段上传至服务端，并接收由服务端反馈的音频片段的语义识别结果。

具体的说，录音装置将当前采集的音频片段上传至服务端，服务端对上传的音频片段进行语义识别，可以采用自动语音识别方法(automaticspeechrecognition，简称“asr”)，录音装置接收该服务端返回的该音频片段的语义识别结果。

方式二：对当前采集的音频片段进行语义识别，得到音频片段的语义识别结果。

录音装置也可以自己直接对当前采集的音频片段进行语义识别，从而得到该音频片段的语义识别结果。

以上两种获取方式可以根据实际需要进行选择，例如，在录音装置与服务端联网的情况下，可以通过方式一获取当前采集的音频片段的语义识别结果，若录音装置处于无网的情况下，采用方式二获取当前采集的音频片段的语义识别结果。

步骤102：判断音频片段所属主题与目标主题是否相同，并根据判断结果，控制音频的录制过程，其中，目标主题为待录制音频内容的所属类别。

一个具体的实现中，根据判断结果，控制音频录制过程包括：若确定音频片段所属主题与目标主题不相同，则暂停音频的录制；在暂停音频的录制过程中，若检测到与目标主题相同的音频片段，则重新启动对音频的录制。

具体的说，若确定音频片段所属主题与目标主题相同，则继续音频的录制。若确定音频片段所属主题与目标主题不相同，则暂停音频的录制，并对实时采集的音频片段进行检测，检测实时采集的音频片段所属主题是否与目标主题相同，若检测到当前采集的音频片段所属主题与目标主题相同，则重新启动对音频的录制。

值得一提的是，在录制音频的整个过程中，可以重复执行步骤101和步骤102，从而控制对整个音频的录制。

本发明的第二实施方式涉及一种录制音频的方法。第二实施方式是对第一实施方式的进一步改进，主要改进之处在于：在本发明第二实施方式中，若接收到指示结束音频的录制的指令，则终止对音频的录制，得到目标音频，并将包含目标音频的音频数据上传服务端。该录制音频的方法的具体流程如图2所示。

步骤201：获取当前采集的音频片段的语义识别结果，并根据语义识别结果确定音频片段所属主题。

步骤202：判断音频片段所属主题与目标主题是否相同，并根据判断结果，控制音频的录制过程，其中，目标主题为待录制音频内容的所属类别。

一个具体实现中，在暂停音频录制过程中，若检测到与目标主题相同的音频片段，保存与目标主题相同的音频片段。

具体的说，在暂停音频录制过程中，录音装置进入监听模式，即实时获取采集的音频片段的语义识别结果，判断采集的音频片段所属主题是否与目标主题相同；为了便于获取对当前采集的音频片段的语义识别结果，可以在每次判断当前采集的音频片段所属主题与目标主题是否一致之前，缓存该音频片段，若确定该音频片段所属主题与目标主题相同，重新启动对音频的录制，同时，保存该音频片段，确保不会漏掉录制与目标主题相同的音频片段；若确定该音频片段所属主题与目标主题不相同，则不保存该音频片段。

在暂停音频的录制过程中，保存与目标主题相同的音频片段，避免在重新启动录制时，出现漏保存当前与目标主题相同的音频片段的问题，从而提高音频录制的质量。

步骤203：若接收到指示结束音频的录制的指令，则终止对音频的录制，得到目标音频。

具体的说，用户可以向该录音装置发送结束音频录制的指令，该指令可以通过预设操作输入，例如，通过录音装置上的结束按键输入指令，或者通过语音输入指令(如：结束录制)。录音装置在接收到指令后，终止对音频的录制，得到的即为目标音频。

步骤204：将音频数据上传至服务端，音频数据包括目标音频以及录制目标音频的控制信息，其中，控制信息包括暂停录制音频的时刻信息。

具体的说，控制信息包括暂停录制音频的时刻信息，例如，控制信息包括暂停音频的录制的t1时刻，以及重新启动对音频的录制的t3时刻，其中，t1时刻早于t3时刻。将目标音频以及控制信息作为音频数据上传至服务端，由服务端根据控制信息对目标音频进行剪辑处理，例如，服务端可以根据控制信息，获取与暂停录制音频的时刻所对应的音频片段，根据暂停录制音频的时刻所对应的音频片段，确定无效对象的身份特征信息；基于无效对象的身份特征信息确定无效对象对应的音频片段；将无效对象对应的音频片段作为无效音频片段，并删除无效音频片段。

需要说明的是，本实施方式中的步骤201、步骤202分别与第一实施方式中的步骤101和步骤102大致相同，此处将不再进行赘述。

本实施方式中提供的录制音频的方法，通过将目标音频以及录制目标音频的控制信息上传至服务端，可以由服务端通过控制信息对目标音频进行剪辑处理，可以简化后续服务端对音频处理的步骤，加快对音频处理的速度，从而通过服务端再次提高目标音频的音频质量。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种音频处理的方法，该音频处理的方法应用于服务端，服务端与录音装置通信连接，服务端与录音装置可以相互通信，该服务端可以是云端、服务器等。该音频处理的方法的具体流程如图3所示。

步骤301：接收录音装置发送的音频数据，其中，音频数据包括录音装置录制的目标音频和录制目标音频的控制信息，控制信息包括暂停录制音频的时刻信息。

一个具体的实现中，录音装置录制目标音频的过程为：根据当前采集的音频片段的语义识别结果确定音频片段的所属主题，判断音频片段所属主题与目标主题是否相同，根据判断结果，控制音频的录制过程。

录音装置根据判断结果，控制音频的录制过程，在录音装置结束对音频录制后，即可得到目标音频。录音装置将得到的目标音频和录制该目标音频的控制信息作为音频数据上传服务端，服务端接收该音频数据。

步骤302：根据控制信息，对目标音频进行剪辑处理。

一个具体的实现中，根据暂停录制音频的时刻信息，获取与暂停录制音频的时刻所对应的音频片段；根据暂停录制音频的时刻所对应的音频片段，确定无效对象的身份特征信息；基于该无效对象的身份特征信息确定该无效对象对应的音频片段；将该无效对象对应的音频片段作为无效音频片段，并删除无效音频片段。

具体的说，暂停录制音频的时刻为与目标主题不相同的音频片段的结尾，一个暂停录制音频的时刻有对应的一个音频片段。录音装置在暂停对音频录制的操作之前一直对音频片段进行保存，因而，录音装置会保存暂停时刻所对应的音频片段。

根据暂停时刻即可获取与暂停录制音频的时刻对应的音频片段，暂停录制音频的时刻对应的音频片段所属主题与目标主题不相同，获取该暂停录制音频的时刻对应的音频片段中无效对象的身份特征信息，身份特征信息可以是音色、音调等，进而根据该无效对象的身份特征信息。将该无效对象的身份特征信息在整个目标音频中进行比对，确定出具有该无效对象的身份特征信息的音频片段，将无效对象对应的音频片段作为无效音频片段，从该目标音频中删除确定出的无效音频片段。

值得一提的是，服务端对目标音频进行剪辑处理后，可以将剪辑处理后的目标音频反馈回录音装置。

本实施方式中提供的音频处理的方法，通过音频数据中的控制信息，确定出需要剪辑的音频片段，从而实现对目标音频的自动剪辑，无需人工操作，简化了音频处理的步骤，提高对音频处理的速度。另外，根据控制信息，确定出无效对象的音频片段，对该目标音频中删除无效音频片段，进一步提高了目标音频的音频质量。

本发明第四实施方式涉及一种音频处理的方法。第四实施方式是对第三实施方式的进一步改进，主要改进之处在于：在根据控制信息，对目标音频进行剪辑处理之后，该音频处理方法还可以根据目标主题对剪辑处理后的目标音频进行处理，具体的流程如图4所示。

步骤401：接收录音装置发送的音频数据，其中，音频数据包括录音装置录制的目标音频和录制目标音频的控制信息，控制信息包括暂停录制音频的时刻信息。

步骤402：根据控制信息，对目标音频进行剪辑处理。

步骤403：获取首段音频片段所属主题，并作为目标主题。

具体的说，直接对目标音频的首段音频进行语义识别，获取该首段音频的语义识别结果，根据该语义识别结果中的关键词，确定出该首段音频片段所属主题，并作为目标主题。

步骤404：将除首段音频片段外的目标音频拆分为n个音频片段，n为大于1的整数，并对每个音频片段进行处理。

具体的说，按照预设的频率对目标音频进行分段处理，即将该目标音频中除首段音频片段之外的音频按照预设的频率拆分成若干个音频片段，预设的频率可以根据实际需要进行设置。

一个具体的实现中，对每个音频片段进行的处理过程为：对音频片段进行语义识别，获取音频片段的语义识别结果；根据音频片段的语义识别结果确定音频片段所属主题；将音频片段所属主题与目标主题进行比对，若确定音频片段所属主题与目标主题不相同，则删除音频片段。

对每个音频片段进行语义识别，获取识别结果，并获取语义识别结果中的关键词；根据主题与关键词之间的对应关系，确定每段音频片段所属主题，将每段音频片段所属主题分别与目标主题进行比对，将与目标主题不相同的音频片段从目标音频中删除。

本实施方式中提供的音频处理的方法，在根据控制信息，对目标音频进行剪辑处理之后，再次根据目标主题对剪辑处理后的目标音频进行处理，删除与目标主题不相同的音频片段，进一步提高目标音频的音频质量。

本发明第五实施方式涉及一种电子设备，该电子设备50的具体结构如图5所示，包括：至少一个处理器501；以及，与至少一个处理器501通信连接的存储器502；其中，存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行第一实施方式或第二实施方式中录制音频的方法。

本实施方式为与第一实施方式或第二实施方式相对应的实体设备实施例，本实施方式可与第一实施方式或第二实施方式互相配合实施。第一实施方式或第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。

本发明第六实施方式涉及一种服务端，该服务端60的具体结构如图6所示，包括：至少一个处理器601；以及，与至少一个处理器601通信连接的存储器602；其中，存储器602存储有可被至少一个处理器601执行的指令，指令被至少一个处理器601执行，以使至少一个处理器601能够执行第三实施方式或第四实施方式中音频处理的方法。

本实施方式为与第三实施方式或第四实施方式相对应的实体设备实施例，本实施方式可与第三实施方式或第四实施方式互相配合实施。第三实施方式或第四实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。

值得一提的是，第五实施方式中的电子设备以及第六实施方式中的服务端中的存储器和处理器均采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：岳振;孙刚;蔡单奇;陈鹤群
技术所有人：咪咕数字传媒有限公司;咪咕文化科技有限公司
我是此专利的发明人

上一篇：一种泥磷乳浊液液相催化氧化同时脱硫脱硝的方法与流程
上一篇：防火静音门的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。