一种音频内容查找及可视化播放方法与流程

文档序号：15938177发布日期：2018-11-14 02:43阅读：397来源：国知局

本发明涉及电子设备技术领域，尤其涉及一种音频内容查找及可视化播放方法。

背景技术：

现有技术中由于音频的内容不是以文本的方式展示在电脑中，用户无法知道内容位于音频中的何处，也不方便查找音频内容是否包含指定的内容。用户想单次播放(点读)或循环播放(复读)指定的内容时，用户需要仔细的倾听音频内容同时关注播放进度，才能确定所需内容在音频中的位置或区间，然后单次播放(点读)或循环播放(复读)所需的内容，非常不便利。

本发明通过专有的解码技术结合ai(人工智能)算法，将音频内容提取出人声，并将人声转换成文本，同时建立内容和播放进度的关联，然后将文本显示在屏幕上，用户只需在触摸屏上滑动选择或通过鼠标在屏幕选择所需的文本内容，或者输入文本内容进行搜索，系统就可以找到正确的播放时刻进行点读或复读播放，极大的提高用户的操作效率和使用效果。

技术实现要素：

本发明的目的是提供一种音频内容查找及可视化播放方法，来解决背景技术中用户需要仔细的倾听音频内容同时关注播放进度，才能确定所需内容在音频中的位置或区间，然后单次播放(点读)或循环播放(复读)所需的内容，非常不便利的问题。

本发明所采用的技术方案为：一种音频内容查找及可视化播放方法，包括音频解码与人声提取器、文本转换与定位器、ai内容校验、显示屏幕、音频输出设备；所述音频解码与人声提取器提取人声，所述文本转换器将提取的人声内容转换成文本内容，同时通过文本转换与定位器将文本内容与对应的音频内容时间相关联，当用户选择或输入任意的文本内容，定位器可以定位出该内容在音频中的播放时间位置。

作为本发明一种实施例，所述步骤为：

1)通过解码器读取音频文件，将二进制数据转换成波形数据；

2)对波形数据进行频域转换，分离出人声频域数据；

3)将人声频域数据转换成时域数据；

4)通过语音识别技术，将人声时域数据转换成文字，转换的过程中同时记录每个字或单词的时间坐标；

5)使用人工智能(ai)算法对步骤4的文字进行智能校正，确保转换的文字信息准确，通过上述步骤，将音频内容转换成为文字内容并建立了时间索引，就可以方便的进行查找和定位，音频在播放前经过本方法这样的预处理，在播放前就可以获知音频的文字内容，将内容展示在屏幕上，即可实现可视化的播放。

本发明的有益效果：

1、音频内容可视化，将音频的人声内容直观的展示在屏幕上；

2、在音频中查找文本内容与位置；用户进行点读或复读时非常高效，用户只需在屏幕选择想要点读或复读的内容即可，无需用户人工确定内容在音频中的位置或区间。

附图说明

图1为本发明系统操作流程图。

图2为本发明内容播放流程图。

图3为本发明一种实施例操作图。

具体实施方式

以下结合附图对本发明作进一步说明：

本发明中的一种音频内容查找及可视化播放方法，包括音频文件、解码与定位器、ai内容校验、屏幕显示；本发明中所述音频解码与人声提取器提取人声，所述文本转换器将提取的人声内容转换成文本内容，同时通过文本转换与定位器将文本内容与对应的音频内容时间相关联，当用户选择或输入任意的文本内容，定位器可以定位出该内容在音频中的播放时间位置。

作为本发明具体实施方式：

音频内容查找与可视化播放方法包含如下步骤：1)通过解码器读取音频文件，将二进制数据转换成pcm波形数据；2)对波形数据进行频域转换，分离出人声频域数据；3)将人声频域数据转换成时域数据；4)通过语音识别技术，将人声时域数据转换成文字，转换的过程中同时记录每个字或单词的时间坐标；假设音频内容为一种富强的价值观，识别的片段如下：

</content>

</content>

5)使用人工智能(ai)算法对步骤4的文字进行智能校正，确保转换的文字信息准确，例如将原文识别出的“裕”改为“强”，得到最终结果如下：

</content>

</content>

6)通过上述步骤，将音频内容转换成为文字内容并建立了时间索引，就可以方便的进行查找和定位，音频在播放前经过本方法这样的预处理，在播放前就可以获知音频的文字内容，将内容展示在屏幕上，即可实现可视化的播放。

虽然本发明已以较佳实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可做各种的改动与修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

技术特征：

技术总结
本发明涉及电子设备技术领域，尤其涉及一种音频内容查找及可视化播放方法。本发明中的一种音频内容查找及可视化播放方法，包括音频解码与人声提取器、文本转换与定位器、AI内容校验、显示屏幕、音频输出设备；所述音频解码与人声提取器提取人声，所述文本转换器将提取的人声内容转换成文本内容，同时通过文本转换与定位器将文本内容与对应的音频内容时间相关联，当用户选择或输入任意的文本内容，定位器可以定位出该内容在音频中的播放时间位置。

技术研发人员：陈南云
受保护的技术使用者：深圳市云凌泰泽网络科技有限公司
技术研发日：2018.05.29
技术公布日：2018.11.13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈南云
技术所有人：深圳市云凌泰泽网络科技有限公司
我是此专利的发明人

上一篇：一种金属表面渗硼超硬处理工艺的制作方法
上一篇：分流式沉砂池的制作方法