一种音频播放方法及装置与流程

文档序号：13139370阅读：225来源：国知局

本发明实施例涉及声纹识别技术，尤其涉及一种音频播放方法及装置。

背景技术：

随着智能终端设备的不断发展，越来越多的智能终端设备具备录音功能，也使得越来越多的用户在不同的场所使用录音功能，收录想要反复倾听的语音内容。

但是音频文件不同于文档或者视频文件，不能显示文字或图像，仅是随时间变化的波形频谱，不能通过人眼识别的方式选择播放节点，也无法根据用户需求自动筛选播放节点，只能通过按照时间依次倾听的方式或者猜测时间点的形式尝试寻找用户想要重复倾听的内容。录制的音频文件时不能根据用户喜好或需求，有目的性的收录，导致音频文件中包含了大量的不必要的内容，反复倾听时会浪费大量的时间。

技术实现要素：

本发明提供一种音频播放方法及装置，以实现根据用户需求自动确定音频播放节点。

第一方面，本发明实施例提供了一种音频播放方法，其中该方法包括：

获取预设音频文件中的至少一个声纹特征信息；

根据所述至少一个声纹特征信息于所述预设音频文件中设置播放节点标识；

根据播放指令确定目标音频位置，确定与所述目标音频位置相匹配的目标播放节点标识，并播放相应音频信息。

进一步的，不同的声纹特征信息对应不同的播放节点标。

进一步的，根据所述至少一个声纹特征信息于所述预设音频文件中设置播放节点标识，包括：

于所述预设音频文件中识别与所述声纹特征信息匹配的音频脉冲；

根据相邻音频脉冲的间隔时间设置所述播放节点标识。

进一步的，根据相邻音频脉冲的间隔时间设置所述播放节点标识，包括：

根据所述音频脉冲的时间信息依次确定相邻音频脉冲的间隔时间；

若间隔时间小于预设阈值，则确定所述相邻音频脉冲属于同一子音频；

于所述子音频的起始时间点设置播放起始标识，于所述子音频的终止时间点设置播放终止标识。

进一步的，根据播放指令确定目标音频位置，确定与所述目标音频位置相匹配的目标播放节点标识，包括：

获取所述播放指令对应的目标音频位置；

将与所述目标音频位置相邻的播放起始标识确定为目标播放起始标识，所述目标播放起始标识对应的时间点小于所述目标音频位置对应的时间点；

将与所述目标音频位置相邻的播放终止标识确定为目标播放终止标识，所述目标播放终止标识对应的时间点大于所述目标音频位置对应的时间点。

进一步的，在于所述子音频的起始时间点设置播放起始标识，于所述子音频的终止时间点设置播放终止标识之后，还包括：

记录各所述播放起始标识和各所述播放终止标识对应的时间信息；

形成所述声纹特征信息匹配的时间文件。

进一步的，根据播放指令确定目标音频位置，确定与所述目标音频位置相匹配的目标播放节点标识，包括：

于所述时间文件中确定所述目标音频位置所在子音频的起始时间和终止时间；

将所述起始时间和终止时间对应的播放节点标识确定为目标播放节点标识。

进一步的，在根据所述至少一个声纹特征信息于所述预设音频文件中设置播放节点标识之后，还包括：

根据所述播放节点标识，筛选与所述声纹特征信息匹配的至少一个子音频；

将至少一个子音频根据时间信息进行拼接，形成目标子音频文件。

第二方面，本发明实施例还提供了一种音频播放装置，该装置包括：

声纹信息获取模块，用于获取预设音频文件中的至少一个声纹特征信息；

标识设置模块，用于根据所述至少一个声纹特征信息于所述预设音频文件中设置播放节点标识；

音频播放模块，用于根据播放指令确定目标音频位置，确定与所述目标音频位置相匹配的目标播放节点标识，并播放相应音频信息。

进一步的，不同的声纹特征信息对应不同的播放节点标。

进一步的，所述标识设置模块包括：

音频脉冲识别单元，用以于所述预设音频文件中识别与所述声纹特征信息匹配的音频脉冲；

标识设置单元，用于根据相邻音频脉冲的间隔时间设置所述播放节点标识。

进一步的，所述标识设置单元包括：

间隔时间确定子单元，用于根据所述音频脉冲的时间信息依次确定相邻音频脉冲的间隔时间；

子音频确定子单元，用于若间隔时间小于预设阈值，则确定所述相邻音频脉冲属于同一子音频；

标识设置子单元，用以于所述子音频的起始时间点设置播放起始标识，于所述子音频的终止时间点设置播放终止标识。

进一步的，所述音频播放模块具体用于：

获取所述播放指令对应的目标音频位置；

将与所述目标音频位置相邻的播放起始标识确定为目标播放起始标识，所述目标播放起始标识对应的时间点小于所述目标音频位置对应的时间点；

将与所述目标音频位置相邻的播放终止标识确定为目标播放终止标识，所述目标播放终止标识对应的时间点大于所述目标音频位置对应的时间点。

进一步的，所述标识设置单元还包括：

时间信息记录子单元，用以在于所述子音频的起始时间点设置播放起始标识，于所述子音频的终止时间点设置播放终止标识之后，记录各所述播放起始标识和各所述播放终止标识对应的时间信息；

时间文件形成子单元，用于形成所述声纹特征信息匹配的时间文件。

进一步的，所述音频播放模块包括：

时间信息读取单元，用以于所述时间文件中确定所述目标音频位置所在子音频的起始时间和终止时间；

播放节点标识确定单元，用于将所述起始时间和终止时间对应的播放节点标识确定为目标播放节点标识。

进一步的，所述装置还包括：

子音频筛选模块，用于在根据所述至少一个声纹特征信息于所述预设音频文件中设置播放节点标识之后，根据所述播放节点标识，筛选与所述声纹特征信息匹配的至少一个子音频；

子音频文件形成模块，用于将至少一个子音频根据时间信息进行拼接，形成目标子音频文件。

本发明实施例通过识别预设音频文件中的声纹特征信息，并在预设音频文件中对与声纹特征信息相匹配的子音频进行标识，设置播放节点标识，解决了音频文件不可检索的问题，实现了对音频文件的快速标记和检索，便于用户根据播放节点标识选择播放内容。

附图说明

图1是本发明实施例一提供的一种音频播放方法的流程图；

图2为本发明实施例一提供的音频播放示意图；

图3是本发明实施例二提供的一种音频播放方法的流程图；

图4是本发明实施例三提供的一种音频播放装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种音频播放方法的流程图，本实施例可适用于根据用户需求自动确定音频播放节点的情况，该方法可以由本发明实施例提供一种音频播放装置来执行，该装置了采用软件和/或硬件的方式实现。参见图1，该方法具体包括：

s110、获取预设音频文件中的至少一个声纹特征信息。

其中，声纹特征信息是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

示例性的，可以是通过遍历预设音频文件，识别预设音频文件中包含的至少一个声纹特征信息，还可以是通过预设音频信息确定声纹特征信息。可选的，对每一个声纹特征信息设置对应的身份标识。

s120、根据至少一个声纹特征信息于预设音频文件中设置播放节点标识。

本实施例中，在预设音频文件中进行声纹特征信息匹配，遍历预设音频文件读取与声纹特征信息相匹配的子音频，其中，同一子音频中的语音信息对应同一声纹特征信息。对各子音频设置播放节点标识，用于区分子音频对应的不同声纹特征信息。可选的，不同的声纹特征信息对应不同的播放节点标识。其中，播放节点标识可以是与音频发声者的身份标识匹配。可选的，在预设音频文件中将不同声纹特征信息对应的子音频区别显示。示例性的，参见图2，图2为本发明实施例一提供的音频播放示意图。图2中音频文件中包含两个不同的声纹特征信息，对音频文件进行声纹特征信息匹配，确定四个子音频，其中，第一子音频和第三子音频对应身份标识a，第二子音频和第三子音频对应身份标识b，且对各子音频设置播放节点标识，便于根据播放指令选择对应的子音频进行播放。

本实施例中，通过根据声纹特征信息对预设音频文件进行匹配，并设置播放节点标识，实现了将对应不同声纹特征信息的子音频进行标记和检索，便于用户确定子音频对应的发声者，并根据发声者的身份信息选择子音频进行播放，达到了选择目标人物的语音信息的效果。

s130、根据播放指令确定目标音频位置，确定与目标音频位置相匹配的目标播放节点标识，并播放相应音频信息。

其中，播放指令可以是通过用户触控点选的方式生成，也可以是接收用户语音信息或者输入文字信息的方式生成。

本实施例中，可以是根据目标音频位置确定对应的子音频，将该子音频对应的播放节点标识确定为目标播放节点标识，并对该子音频进行播放。

本实施例中，可选的，设置第一播放模式和第二播放模式。其中，第一播放模式用于将目标音频位置对应的音频时间点为播放起点，进行音频播放。第二播放模式用于根据目标音频位置确定对应的子音频，播放该子音频对应的音频内容。

本实施例的技术方案，通过识别预设音频文件中的声纹特征信息，并在预设音频文件中对与声纹特征信息相匹配的子音频进行标识，设置播放节点标识，解决了音频文件不可检索的问题，实现了对音频文件的快速标记和检索，便于用户根据播放节点标识选择播放内容。

在上述实施例的基础上，步骤s120之后还包括：

根据播放节点标识，筛选与声纹特征信息匹配的至少一个子音频；

将至少一个子音频根据时间信息进行拼接，形成目标子音频文件。

本实施例中，播放节点标识与身份标识匹配，即将具有相同身份标识的至少一个子音频进行时序拼接，形成与身份标识匹配的目标子音频文件。其中目标子音频文件可以是一个或多个。

本实施例中，将具有相同声纹特征信息的子音频组合拼接，实现了根据身份信息对音频文件进行筛选，达到了“只听一人声音”的效果。

示例性的，音频文件包括但不限于授课音频、会议音频和讲座音频等。目标子音频文件可以是会议授课老师或者主讲人的子音频的合集，提高了用户播放音频内容的针对性，减少了播放非相关内容的时间浪费。

实施例二

图3是本发明实施例二提供的一种音频播放方法的流程图，在上述实施例的基础上，进一步的提供了根据至少一个声纹特征信息于预设音频文件中设置播放节点标识的方法。相应的，该方法具体包括：

s210、获取预设音频文件中的至少一个声纹特征信息。

s220、于预设音频文件中识别与声纹特征信息匹配的音频脉冲。

其中，音频脉冲为预设数量的连续的音频波形。

s230、根据相邻音频脉冲的间隔时间设置播放节点标识。

本实施例中，相邻音频脉冲指的是根据声纹特征信息匹配，筛选出的多个具有相同声纹特征信息的位置相邻音频脉冲。若相邻音频脉冲的间隔时间满足预设条件，则设置相同的同一播放节点标识；若相邻音频脉冲的间隔时间不满足预设条件，则设置相同的不同的播放节点标识。

可选的，步骤s230包括：根据音频脉冲的时间信息依次确定相邻音频脉冲的间隔时间；若间隔时间小于预设阈值，则确定相邻音频脉冲属于同一子音频；于子音频的起始时间点设置播放起始标识，于子音频的终止时间点设置播放终止标识。

本实施例中，播放节点标识包括播放起始标识和播放终止标识。其中，播放起始标识和播放终止标识可以是相同或不同。播放起始标识用于表征子音频的播放起始时间点，播放终止标识用于表征子音频的播放终止时间点。

本实施例中，预设阈值可根据用户需求设置，例如可以是3s。

s240、根据播放指令确定目标音频位置，确定与目标音频位置相匹配的目标播放节点标识，并播放相应音频信息。

可选的，步骤s240包括：

获取播放指令对应的目标音频位置；

将与目标音频位置相邻的播放起始标识确定为目标播放起始标识，目标播放起始标识对应的时间点小于目标音频位置对应的时间点；

将与目标音频位置相邻的播放终止标识确定为目标播放终止标识，目标播放终止标识对应的时间点大于目标音频位置对应的时间点。

本实施例中，获取目标音频位置的时间点，筛选与该时间点前后相邻的两个播放节点标识，并将小于目标音频位置对应的时间点的播放节点标识确定为目标播放起始标识，将大于目标音频位置对应的时间点的播放节点标识确定为目标播放终止标识。

可选的，确定目标音频位置的时间点对应的子音频，将该子音频的播放起始标识确定为目标播放起始标识，将该子音频的播放终止标识确定为目标播放终止标识。

本实施例中，播放与目标播放节点标识相对应的音频信息指的是播放目标播放起始标识和目标播放终止标识对应时间范围内的音频信息。

可选的，在步骤s230之后，及步骤s240之前，包括：记录各播放起始标识和各播放终止标识对应的时间信息；形成声纹特征信息匹配的时间文件。

本实施例中，记录并存储与声纹特征信息相匹配的多个子音频的起始时间信息和终止时间信息，以及各子音频的播放时间范围，形成时间文件，实现了对各声纹特征信息相匹配的多个子音频的时间标记及快速读取。

相应的，步骤s240包括：于时间文件中确定目标音频位置所在子音频的起始时间和终止时间；将起始时间和终止时间对应的播放节点标识确定为目标播放节点标识。

本实施例中，当获取播放指令时，调用时间文件并读取目标音频位置对应的时间点，在时间文件中对该时间点进行匹配，确定该时间点所在的播放时间范围对应的子音频，识别该子音频对应的目标播放节点标识，读取该子音频的起始时间和终止时间，播放该子音频对应的音频内容。

本实施例中，通过设置预设音频文件的各子音频的时间文件，并根据播放指令快速确定音频播放节点，实现了对音频文件的标记和检索，达到了根据用户需求播放目标音频的效果。

本实施例的技术方案，通过识别预设音频文件中的声纹特征信息，并在预设音频文件中对与声纹特征信息相匹配的子音频进行标识，对具有相同声纹特征信息的子音频进行筛选，并设置播放节点标识，解决了音频文件不可检索的问题，实现了对音频文件的快速标记和检索，便于用户根据播放节点标识选择播放内容。

实施例三

图4是本发明实施例三提供的一种音频播放装置的结构示意图，该装置具体包括：

声纹信息获取模块310，用于获取预设音频文件中的至少一个声纹特征信息；

标识设置模块320，用于根据至少一个声纹特征信息于预设音频文件中设置播放节点标识；

音频播放模块330，用于根据播放指令确定目标音频位置，确定与目标音频位置相匹配的目标播放节点标识，并播放相应音频信息。

可选的，不同的声纹特征信息对应不同的播放节点标。

可选的，标识设置模块320包括：

音频脉冲识别单元，用以于预设音频文件中识别与声纹特征信息匹配的音频脉冲；

标识设置单元，用于根据相邻音频脉冲的间隔时间设置播放节点标识。

可选的，标识设置单元包括：

间隔时间确定子单元，用于根据音频脉冲的时间信息依次确定相邻音频脉冲的间隔时间；

子音频确定子单元，用于若间隔时间小于预设阈值，则确定相邻音频脉冲属于同一子音频；

标识设置子单元，用以于子音频的起始时间点设置播放起始标识，于子音频的终止时间点设置播放终止标识。

可选的，音频播放模块330具体用于：

获取播放指令对应的目标音频位置；

将与目标音频位置相邻的播放起始标识确定为目标播放起始标识，目标播放起始标识对应的时间点小于目标音频位置对应的时间点；

将与目标音频位置相邻的播放终止标识确定为目标播放终止标识，目标播放终止标识对应的时间点大于目标音频位置对应的时间点。

可选的，标识设置单元还包括：

时间信息记录子单元，用以在于子音频的起始时间点设置播放起始标识，于子音频的终止时间点设置播放终止标识之后，记录各播放起始标识和各播放终止标识对应的时间信息；

时间文件形成子单元，用于形成声纹特征信息匹配的时间文件。

可选的，音频播放模块330包括：

时间信息读取单元，用以于时间文件中确定目标音频位置所在子音频的起始时间和终止时间；

播放节点标识确定单元，用于将起始时间和终止时间对应的播放节点标识确定为目标播放节点标识。

可选的，装置还包括：

子音频筛选模块，用于在根据至少一个声纹特征信息于预设音频文件中设置播放节点标识之后，根据播放节点标识，筛选与声纹特征信息匹配的至少一个子音频；

子音频文件形成模块，用于将至少一个子音频根据时间信息进行拼接，形成目标子音频文件。

本发明实施例提供的音频播放装置可执行本发明任意实施例所提供的音频播放方法，具备执行音频播放方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王文斌;曾令江;包振毅;李承敏;叶巧莉
技术所有人：上海与德科技有限公司
我是此专利的发明人

上一篇：一种改进型隔离式避雷器联动机构的制作方法
上一篇：一种塔架避雷器支架的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。