媒体文件加速播放、传输及存储的方法和装置与流程

文档序号：11286348阅读：373来源：国知局

本发明涉及媒体播放及传输技术领域，具体而言，本发明涉及一种媒体文件加速播放、传输及存储的方法和装置。

背景技术：

在数码产品出现之前，模拟音频播放工具(如卡带机)和模拟视频播放工具(如录像机)的控制按键通常包含三个基本键，即播放、快进和快退按键，其中，快进和快退按键往往都是通过按照正方向和反方向在单位时间内播放更多内容(帧图像和音频)实现的。

随着数码技术的发展，数码音频播放工具和数码视频播放工具都出现了新的快进和快退方式，即直接跳过固定的时间段进入之后或之前的内容。比如，mp3播放器、vcd(videocompactdisc，视频压缩盘片)、dvd(digitalversatiledisc，数字多功能光盘)。

如今，信息技术的持续发展和智能设备的高速增长，使得人们正无时无刻地接受来自于各种方式的信息。面对通过音频、视频以及文本和图像等各种媒体形式呈现的内容，人们需要快速判断该内容是否是自己感兴趣的内容，并根据个人喜好快速查找和定位到某些关键内容，加速播放技术则可以有效的帮助人们实现这一目的。

在视频领域，目前可以借助于屏幕可呈现信息形式的多样性，实现视频加速播放。比如，通过单位时间内播放更多帧数的图像，实现2倍、4倍或其他速率的加速播放。或者，对视频的每一帧图像按照倒序的方式进行播放，实现回放的目的。或者，按照固定时间或帧数，对部分内容进行忽略，实现加速播放。或者，在视频播放的同时，显示关键内容的预览图，如图1所示，以通过显示的预览图实现感兴趣内容的预览和快速定位。或者，在视频播放的时间轴上，如图2所示，标注视频内容关键部分的位置后，通过鼠标悬浮等方式查看内容的文本概要，并通过点击等操作进行快速定位。

然而，本发明的发明人发现，在通过上述方式实现视频加速播放的时候，经常会出现无法同步播放画面对应的音频的情况，以及视频中一些重要内容或情节会被忽略的情况。

进一步地，智能可穿戴设备的高速发展，使人们利用智能设备的空间和时间得到了极大的扩展。同时，音频媒体服务内容由于其不占用人的视觉，可以满足人们在行走、驾驶乃至运动的各种场景下使用和收听，呈现出了继广播电台产生以来的第二次爆炸性增长。

目前，在音频领域，目前，主要是通过压缩播放时间来实现音频加速播放。比如，通过单位时间内播放更多音频数据，实现2倍、4倍或其他速率的加速播放；识别语音、空白、音乐或噪声，只播放特定性质的音频，以此实现音频的加速播放。

然而，本发明的发明人发现，对于音频的加速播放，在超过一定倍数的加速之后，很有可能会导致用户无法识别加速播放的音频的语义内容，也就无法获取音频的关键内容，无法保证信息的完整程度。而且，音频的倒序播放通常只能按照时间轴提供播放进度的信息，无法实现类似于视频播放的实时内容呈现方式，这样，不便用户根据音频中的语义内容进行准确的浏览定位。

技术实现要素：

针对上述现有技术存在的缺陷，本发明提供了一种媒体文件加速播放、传输及存储的方法和系统。通过本发明提供的媒体文件加速播放的方法，实现音频、视频等媒体文件的加速播放的同时，保留媒体文件中的关键内容，保证了媒体信息的完整程度。

本发明提供了一种媒体文件加速播放的方法，包括：

获取待加速播放的媒体文件的文本内容中的关键内容；

确定关键内容对应的媒体文件；

播放确定出的媒体文件。

优选地，根据待加速播放的媒体文件对应的下述至少一种信息，获取待加速播放的媒体文件的文本内容中的关键内容：

文本内容中内容单元的词性、内容单元的信息量、内容单元的音频音量、内容单元的音频语速、文本内容中感兴趣内容、媒体文件类型、内容源对象信息、加速速度、媒体文件质量、播放环境。

优选地，根据待加速播放的媒体文件对应的文本内容中内容单元的词性，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括下述至少一种方式：

在至少两个内容单元组成的文本内容中，确定辅助词性对应的内容单元不为关键内容；

在至少两个内容单元组成的文本内容中，确定关键词性对应的内容单元为关键内容；

确定指定词性的内容单元不为关键内容；

确定指定词性的内容单元为关键内容。

优选地，辅助词性包括具有下述至少一种作用的词性：修饰作用、辅助说明作用、限定作用。

优选地，根据待加速播放的媒体文件对应的文本内容中内容单元的信息量，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括：

根据待加速播放的媒体文件对应的文本内容中任一内容单元的信息量，确定该内容单元是否为关键内容。

优选地，确定该内容单元是否为关键内容，具体包括：

若该内容单元的信息量不小于第一信息量阈值，则确定该内容单元为关键内容；和/或

若该内容单元的信息量不大于第二信息量阈值，则确定该内容单元不为关键内容。

优选地，内容单元的信息量通过如下方式获取：

选取与内容单元的内容类型对应的信息量模型库；利用信息量模型库、以及内容单元的上下文，确定出内容单元的信息量。

优选地，根据待加速播放的媒体文件对应的文本内容中内容单元的音频音量，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括：

根据待加速播放的媒体文件对应的文本内容中任一内容单元的音频音量，确定该内容单元是否为关键内容。

优选地，确定该内容单元是否为关键内容，具体包括：

若该内容单元的音频音量不小于第一音频音量阈值，则确定该内容单元为关键内容；和/或

若该内容单元的音频音量不大于第二音频音量阈值，则确定该内容单元不为关键内容。

优选地，根据下述内容中的至少一种确定第一音频音量阈值和第二音频音量阈值：

待加速播放的媒体文件的平均音频音量；

待加速播放的媒体文件对应的文本内容中内容单元所在的文本片段的平均音频音量；

待加速播放的媒体文件对应的文本内容中内容单元对应的内容源对象的平均音频音量；

待加速播放的媒体文件对应的文本内容中，内容单元对应的内容源对象在该内容单元所在的文本片段中的平均音频音量。

优选地，根据待加速播放的媒体文件对应的文本内容中内容单元的音频语速，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括：

根据待加速播放的媒体文件对应的文本内容中任一内容单元的音频语速，确定该内容单元是否为关键内容。

优选地，确定该内容单元是否为关键内容，具体包括：

若该内容单元的音频语速不大于第一音频语速阈值，则确定该内容单元为关键内容；和/或

若该内容单元的音频语速不小于第二音频语速阈值，则确定该内容单元不为关键内容。

优选地，根据下述内容中的至少一种确定第一音频语速阈值和第二音频语速阈值：

待加速播放的媒体文件的平均音频语速；

待加速播放的媒体文件对应的文本内容中内容单元所在的文本片段的平均音频语速；

待加速播放的媒体文件对应的文本内容中内容单元对应的内容源对象的平均音频语速；

待加速播放的媒体文件对应的文本内容中，内容单元对应的内容源对象在该内容单元所在的文本片段中的平均音频语速。

优选地，根据待加速播放的媒体文件对应的文本内容中的感兴趣内容，通过以下至少一种方式来获取待加速播放的媒体文件的文本内容中的关键内容：

若文本内容中匹配到预设的感兴趣词库中的感兴趣内容时，则确定相应匹配内容为关键内容；

利用预设的感兴趣分类器对文本内容中任一内容单元进行分类，若分类结果为感兴趣内容，则确定该内容单元为关键内容；

若文本内容中匹配到预设的不感兴趣词库中的不感兴趣内容，则确定相应匹配内容不为关键内容；

利用预设的不感兴趣分类器对文本内容中任一内容单元进行分类，若分类结果为不感兴趣内容，则确定该内容单元不为关键内容。

优选地，感兴趣内容根据以下至少一种内容来获取：

用户的偏好设置；

用户的播放媒体文件时的操作行为；

用户在终端设备上的应用数据；

用户历史播放媒体文件的类型。

优选地，根据待加速播放的媒体文件对应的媒体文件类型，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括：

将文本内容中，与所属媒体文件类型对应的关键词匹配的内容，确定为关键内容。

优选地，根据待加速播放的媒体文件对应的内容源对象信息，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括：

确定媒体文件中每个内容源对象的身份；

依据内容源对象的身份，通过以下至少一种方式来获取文本内容中的关键内容：

从文本内容中提取出具有特定身份的内容源对象对应的文本内容，并针对提取出的内容进行简化；

基于内容源对象的身份，对文本内容中特定类型的内容进行简化；

其中，特定身份由媒体文件的媒体文件类型决定、和/或由用户预先指定。

优选地，通过以下至少一种方式来确定媒体文件中每个内容源对象的身份：

根据媒体文件类型来确定每个内容源对象的身份；

根据内容源对象对应的文本内容来确定每个内容源对象的身份。

优选地，根据待加速播放的媒体文件对应的内容源对象信息，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括：

根据文本内容中任一内容单元的内容重要性及相应内容源对象的对象重要性，确定该内容单元是否为关键内容。

优选地，根据待加速播放的媒体文件对应的加速速度，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括：

根据上一级加速速度时确定出的媒体文件的文本内容中的关键内容，确定当前加速速度时待加速播放的媒体文件的文本内容中的关键内容。

优选地，根据上一级加速速度时确定出的媒体文件的文本内容中的关键内容，确定当前加速速度时待加速播放的媒体文件的文本内容中的关键内容，具体包括：

依据上一级加速速度时确定出的关键内容中属于各内容单元的内容在其所属内容单元中所占比例，确定内容单元是否为关键内容；和/或

依据上一级加速速度时确定出的关键内容中相邻内容单元之间的语义近似性，确定内容单元是否为关键内容。

优选地，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括：

根据加速速度、媒体文件质量、播放环境中的至少一种，在下述信息中选择获取关键内容所依据的信息：文本内容中内容单元的词性、内容单元的信息量、内容单元的音频音量、内容单元的音频语速、文本内容中感兴趣内容、媒体文件类型、内容源对象信息；

根据所选择的信息获取待加速播放的媒体文件的文本内容中的关键内容。

优选地，媒体文件的加速速度的提升与确定出的关键内容的减少具有一致性关系；媒体文件的加速速度的降低与确定出的关键内容的增多具有一致性关系。

优选地，根据媒体文件质量选择获取关键内容所依据的信息，具体包括；

根据媒体文件中任一媒体文件音频片段的媒体文件质量，选择获取该媒体文件音频片段的文本内容中的关键内容所依据的信息。

优选地，媒体文件音频片段的媒体文件质量的质量等级的增高与确定出的关键内容的减少具有一致性关系，媒体文件音频片段的媒体文件质量的质量等级的降低与确定出的关键内容的增多具有一致性关系。

优选地，媒体文件音频片段的媒体文件质量，通过下述方式来确定：

针对媒体文件中音频片段的各个音频帧，确定各个音频帧所相应的音素和噪声；

根据各个音频帧对应于相应的音素的概率值、和/或各个音频帧对应于相应的噪声的概率值，分别确定各个音频帧的音频质量；

基于各个音频帧的音频质量确定媒体文件音频片段的媒体文件质量。

优选地，根据播放环境选择获取关键内容所依据的信息，具体包括；

根据媒体文件的播放环境的噪音强度等级，选择获取该媒体文件音频片段的文本内容中的关键内容所依据的信息。

优选地，媒体文件的播放环境的噪音强度等级的增高与确定出的关键内容的增多具有一致性关系，媒体文件的播放环境的噪音强度等级的降低与确定出的关键内容的减少具有一致性关系。

可选地，该方法还包括：

依据待加速播放的媒体文件对应的加速速度确定文本内容中内容单元的划分粒度；

依据确定的划分粒度来划分文本内容的内容单元。

优选地，确定关键内容对应的媒体文件，具体包括：

确定关键内容中每个内容单元对应的时间位置信息；

根据时间位置信息提取对应的媒体文件片段，组合生成对应的媒体文件。

优选地，播放确定出的媒体文件，具体包括：

基于媒体文件质量对确定出的媒体文件进行质量增强，对质量增强后的媒体文件进行播放。

优选地，基于媒体文件质量对确定出的媒体文件进行质量增强，具体包括下述至少一种方式：

针对待增强的音频帧，根据与该音频帧的音频质量对应的增强参数，对该音频帧进行语音增强；

针对待增强的音频帧，替换为与该音频帧对应于同一音素的音频帧；

针对待增强的音频片段，替换为根据该音频片段的关键内容进行语音合成后生成的音频片段。

优选地，播放确定出的媒体文件，具体包括：

基于确定出的媒体文件的下述信息中的至少一种，确定出对应的播放速度和/或播放音量：音频语速、音频音量、内容重要性、媒体文件质量、播放环境；

以确定出的播放速度和/或播放音量播放确定出的媒体文件。

优选地，媒体文件包括以下至少一种：

音频文件、视频文件、电子文本文件。

优选地，媒体文件具体为视频文件时，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括下述至少一项：

根据视频文件的音频内容以及图像内容，确定视频文件的音频内容的关键内容；

根据视频文件的音频内容以及图像内容，确定视频文件的图像内容的关键内容；

根据视频文件类型、视频文件的音频内容、图像内容中的至少一种，确定视频文件对应的关键内容；

根据视频文件的音频内容种类和/或图像内容种类，确定视频文件对应的关键内容。

优选地，播放确定出的媒体文件，具体包括下述至少一项：

在视频文件的图像内容中，根据音频内容和图像内容之间的对应关系，提取音频内容的关键内容所对应的图像内容，将音频内容的关键内容对应的音频帧和提取出的图像内容对应的图像帧同步播放；

播放音频内容的关键内容对应的音频帧，以及按照加速速度播放视频文件的图像帧；

播放音频内容的关键内容对应的音频帧，以及图像内容的关键内容对应的图像帧。

优选地，媒体文件具体为电子文本文件时，播放确定出的媒体文件，具体包括下述至少一项：

显示完整文本内容，并高亮显示关键内容；

显示完整文本内容，并弱化显示非关键内容；

只显示关键内容。

优选地，媒体文件具体为电子文本文件和视频文件时，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括：

根据电子文本文件的文本内容确定关键内容；和/或

根据视频文件的音频内容对应的文本内容确定关键内容。

优选地，播放确定出的媒体文件，具体包括下述至少一项：

提取文本内容的关键内容所对应的音频内容和/或图像内容，播放提取出的音频内容和/或图像内容；

播放文本内容的关键内容，以及播放识别出的视频文件的关键音频帧和/或关键图像帧；

播放文本内容的关键内容，以及按照加速速度播放视频文件的图像帧和/或音频帧。

可选地，该方法还包括：

检测到定位操作指令后，从定位操作指令定位的内容所对应的媒体文件片段的起始位置开始播放。

本发明还提供了一种媒体文件传输及存储的方法，包括：

在传输或存储媒体文件时，若满足预设的压缩条件，则获取待传输或待存储的媒体文件的文本内容中的关键内容；

确定关键内容对应的媒体文件；

传输或存储确定出的媒体文件。

优选地，通过下述信息中的至少一种确定是否满足压缩条件：

接收方设备的存储空间信息；

网络环境状态。

可选地，传输确定出的媒体文件之后，还包括：

在接收方设备满足预设的完整传输条件时，将媒体文件的完整内容传输至接收方设备。

优选地，通过下述信息中的至少一种确定是否满足完整传输条件：

接收方设备发出的补充完整内容请求；

网络环境状态。

基于上述媒体文件加速播放的方法，本发明还提供了一种媒体文件加速播放的装置，包括：

关键内容获取模块，用于获取待加速播放的媒体文件的文本内容中的关键内容；

媒体文件确定模块，用于确定关键内容对应的媒体文件；

媒体文件播放模块，用于播放确定出的媒体文件。

基于本发明提供的媒体文件传输及存储的方法，本发明还提供了一种媒体文件传输及存储的装置，包括：

关键内容获取模块，用于在传输或存储媒体文件时，若满足预设的压缩条件，则获取待传输或待存储的媒体文件的文本内容中的关键内容；

媒体文件确定模块，用于确定关键内容对应的媒体文件；

传输或存储模块，用于传输或存储确定出的媒体文件。

本发明的技术方案中，针对待处理的媒体文件(比如，音频、视频、电子文本等)，对媒体文件的文本内容进行简化，获取媒体文件的文本内容中的关键内容；确定出获取的关键内容所对应的媒体文件后，播放或传输确定出的媒体文件。由于播放或传输的内容相对于原媒体文件减少了，因此实现了媒体文件的加速播放或压缩传输。而且，相比现有通过压缩播放时间来实现媒体文件的加速播放，本发明通过对媒体文件的文本内容进行简化，保留了原文本内容的关键内容，保证了信息的完整程度，即使播放速度很快，用户也可以获取到媒体文件中的关键信息。

本发明的方案不仅仅可以应用于本地或者服务器的媒体文件的加速播放，还可以根据实际需求提供媒体文件的压缩传输及存储，减小传输对网络环境、存储空间的要求。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为现有通过显示的预览图实现预览和快速定位的示意图；

图2为现有标注视频内容关键部分的位置实现预览和定位的示意图；

图3为本发明方案提供的加速播放方式的选择示意图；

图4为本发明方案提供的媒体文件加速播放的方法流程示意图；

图5为本发明方案提供的音频文件加速播放流程示意图；

图6为本发明方案提供的音频内容中各音频帧相应的音素的示意图；

图7为本发明方案提供的通过语音合成模型进行语音加强的示意图；

图8为本发明方案提供的语音存在幅度和语速不符合平均水平的片段的示意图；

图9为本发明方案提供的语音经幅度和语速的归一化处理后的片段的示意图；

图10为本发明方案提供的利用侧屏部分的屏幕显示简化后的文本内容的示意图；

图11为本发明方案提供的利用手表外围部分的屏幕显示简化后的文本内容的示意图；

图12为本发明方案提供的媒体文件压缩及存储的方法的流程示意图；

图13为本发明方案提供的媒体文件加速播放的装置的结构示意图；

图14为本发明方案提供的媒体文件压缩及存储的装置的结构示意图。

具体实施方式

以下将结合附图对本发明的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体，例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如，模块可以是，但并不仅限于：处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说，计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内，一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。

本发明的发明人发现，在通过现有的加速播放方式实现视频加速播放的时候，出现无法同步播放画面对应的音频的情况的原因在于：视频的加速播放除了涉及到视频中图像内容的加速播放，还涉及到视频的音频内容的加速播放。而实际应用中，对于音频的加速播放，往往会产生由于时间压缩带来的音频失真，从而导致无法同步播放画面对应的音频。而且，判断用户感兴趣的视频内容的时候，主要基于预览图的图像内容。当出现大段对话场景(聊天、采访等)时，无法保留该场景内信息，容易导致视频中重要内容或情节被忽略。

进一步地，本发明的发明人发现，视频图像的每一帧都包含人眼可以独立识别的信息，因此即使倒序播放每一帧的视频图像，人们也可以通过对每一帧图像中信息的获取，串联并还原出原视频中的内容。而人耳对语音内容的理解，是建立在以词为单位的音频片段理解的基础上实现的。如果对音频进行倒序播放，人耳是无法获取任何语义信息的。因此，音频的倒序播放通常只能按照时间轴提供播放进度的信息，无法实现类似于视频播放的实时内容呈现方式。而且，对于音频的加速播放，往往会产生由于时间压缩带来的音频失真。一般来说，超过正常语速的2倍之后，普通人无法获得播放语音的语义内容。因此，如果想获取音频中的语义内容，2倍加速基本成为了音频快速播放的上限。若超过2倍加速，则有可能导致用户无法识别出加速播放的音频的语义内容，从而无法保证信息的完整程度。

由此可见，无论时音频的加速播放还是视频的加速播放，都会涉及的到音频的压缩处理，而现有利用压缩播放时间来实现音频加速播放，将无法保证信息的完整程度，也不便于音频中的语义内容的定位。

因此，为了便于关键信息的识别，以此保证信息的完整程度，本发明的发明人考虑，可以获取音频或视频文件等媒体文件的文本内容，之后，对媒体文件的文本内容进行简化，获取媒体文件的文本内容中的关键内容；确定出获取的关键内容所对应的媒体文件后，播放或传输确定出的媒体文件。由于关键内容相较于原文本内容减少了，关键内容所对应的媒体文件相较于原媒体文件的内容也减少了，因此可实现媒体文件的加速播放。相比现有通过压缩播放时间来实现媒体文件的加速播放，本发明通过对媒体文件进行文本内容的简化，简化后的内容保留了原内容的关键内容，保证了信息的完整程度，即使播放速度很快，用户也可以获取到媒体文件中的关键信息。

下面结合附图详细说明本发明的技术方案。

实际应用中，用户在查看或收听媒体文件时，可能存在加速播放的需求。其中，媒体文件可以是音频文件、视频文件、或电子文本文件等。比如，当用户希望从众多音频/视频节目中直接选择出自己感兴趣的节目，需要采用快速浏览的方式大致了解一下各个音频/视频节目的内容、风格，此时加速播放是帮助用户实现目的有效途径。当用户开始收听某一个音频节目，发现这个节目自己之前听过一部分，但已经无法回忆起具体听到什么位置，加速播放可以帮助用户快速定位到之前收听的位置。当用户从众多的语音短信、留言中寻找某一条，但是无法给出具体的关键词或内容进行搜索，加速播放可以帮助用户快速搜索感兴趣的内容。当用户在驾驶、运动过程中，突然走神或接听了电话，再收听的时候发现音频已经播放了一段时间，希望回到之前收听的位置，倒序的加速播放可以帮助用户迅速找到这个位置。

目前，可以预先利用离线处理的方式，获取待加速播放的媒体文件的文本内容中的关键内容；确定关键内容对应的媒体文件后，当用户存在加速播放的需求的时候(如检测到用户的加速播放操作指令时)，播放确定出的媒体文件。

或者，也可以采用在线处理的方式，当用户存在加速播放的需求的时候(如检测到用户的加速播放操作指令时)，获取待加速播放的媒体文件的文本内容中的关键内容；确定关键内容对应的媒体文件，继而播放确定出的媒体文件。

实际应用中，可以通过开启加速播放操作指令，来启动媒体文件的加速播放功能。因此，本发明的方案中，在进行媒体文件加速播放之前，可以检测用户开启的加速播放操作指令。

实际应用中，如图3所示，用户在播放音频/视频时，或在播放音频/视频之前，检测到用户在音频/视频播放界面中点击了“按时间快放”按钮，则可以按照现有的加速播放方式，压缩音频/视频文件的播放时长。若检测到用户在音频/视频播放界面中点击了“按内容快放”按钮，则确定接收到用户开启的加速播放操作指令，按照本发明提供的按内容简化的方式实现加速播放。实际应用中，在音频/视频播放界面中也可以只包含“按内容快放”按钮。本文后续所说加速播放，均默认为按内容简化的方式进行加速播放。

本发明的方案中，在媒体文件播放之前，或在媒体文件播放过程中，用户都可以触发加速播放功能。例如，媒体文件具体为音频文件时，音频时长20分钟，当播放到10分钟时，用户触发加速播放功能，那么可以从第10分钟开始加速播放。

本发明的方案中，用户可以通过语音、手势、按键、外部控制器等交互方式，以及这些交互方式的任意组合的方式开启加速播放操作指令。

使用语音开启媒体文件的加速播放操作指令的方案中，可以预先设定语音开启的声控指令，比如，“加速播放”。这样，如果接收到用户发出的声控指令“加速播放”，则对该声控指令进行语音识别，从而确定接收到用户开启的加速播放操作指令。

通过按键开启媒体文件的加速播放操作指令的方案中，用于开启加速播放操作指令的按键可以为硬件按键，例如音量键或home键。这样，用户可以通过长按音量键或home键开启加速播放功能，检测到用户的上述按键的长按操作事件后，确认此时接收到加速播放操作指令。或者，用于开启加速播放操作指令的按键也可以为虚拟按键，例如屏幕上的虚拟控件按钮、菜单等。这样，可以在音频播放界面显示加速播放的虚拟按键，接收到用户点击该虚拟按键的事件后，确认接收到加速播放操作指令。

通过手势开启媒体文件的加速播放操作指令的方案中，手势包括屏幕手势，如双击屏幕/长按屏幕等；手势还可以包括隔空手势，如摇晃终端/翻转终端/倾斜终端。上述手势可以是单一的手势，也可以是任意手势的任意组合。如长按屏幕并摇晃终端表示开启加速播放功能。

通过外部控制器开启媒体文件的加速播放操作指令的方案中，外部控制器可以为与终端关联的手写笔。例如，检测到手写笔被取出后又被快速插回终端，或者手写笔上的预设按键被按下，或者用户使用手写笔做出预设的空中手势，则确认接收到加速播放操作指令。或者，外部控制器也可以为与终端关联的可穿戴式设备或其他设备。其中，与终端关联的可穿戴设备或其他设备可以通过语音、按键、手势中的至少一种交互方式确认用户想要开启加速播放功能，并通知终端。

实际应用中，可穿戴式设备可以为智能手表、智能眼镜等。与终端关联的可穿戴设备或其他设备，可以通过wi-fi(wireless-fidelity，无线保真)、和/或nfc((nearfieldcommunication，近场通信)、和/或蓝牙、和/或数据网络访问用户的终端。

实施例一

本发明的实施例一提供了一种媒体文件加速播放的方法，如图4所示，其具体流程可以包括如下步骤：

s401：获取待加速播放的媒体文件的文本内容中的关键内容。

本发明实施例一中，在终端设备离线处理待加速播放的媒体文件之前，或者接收用户开启的加速播放操作指令后进行在线处理待加速播放的媒体文件之前，可以确定加速播放的加速速度和加速方向。这样，后续可以根据确定出的加速速度和加速方向，从当前播放的媒体文件中，确定出待加速播放的媒体。

实际应用中，加速播放的加速速度和加速方向，可以由加速播放操作指令指示，或者由用户预先指定。实际应用中，用户在开启加速播放操作指令时，加速播放操作指令所指示的加速速度可以为预设的加速速度，例如系统默认按照2x(2倍)速度加速。这样，在用户不特别指定加速速度时，可以按照系统默认的加速速度加速播放。

此外，用户在开启加速播放操作指令，指示加速播放媒体文件时，也可以同时指示加速速度。例如，在音频播放界面呈现不同加速速度对应的速度虚拟按键，用户可以点击某个速度虚拟按键来实现音频的加速播放。这样，终端检测到用户针对某个速度虚拟按键的点击操作后，确认接收到加速播放操作指令，且确认按照该速度虚拟按键对应的加速速度进行加速播放。

进一步地，用户在开启加速播放操作指令时，加速播放操作指令所指示的加速方向可以为预设的加速方向，例如系统默认按照正向加速。这样，在用户不特别指定加速方向时，可以按照该加速方向加速播放。

此外，用户在在开启加速播放操作指令，指示加速播放音频时，还可以同时指示加速播放方向，即加速方向由用户指定。例如，在音频播放界面呈现不同加速播放方向(正向、反向)对应的方向虚拟按键，用户可以点击某个方向虚拟按键来实现音频的加速播放，终端检测到用户针对某个方向虚拟按键的点击操作后，确认接收到加速播放操作指令，且确认按照系统预设的加速速度、该方向虚拟按键对应的方向进行加速播放。

或者，终端设备检测到用户针对某个方向虚拟按键的点击操作后，在界面中显示不同加速速度对应的速度虚拟按键，用户可以点击某个速度虚拟按键来选择加速速度，终端检测到用户针对某个速度虚拟按键的点击操作后，确认接收到加速播放操作指令，且确认按照该速度虚拟按键对应的加速速度、该方向虚拟按键对应的方向进行加速播放。

本发明实施例一中，接收用户开启的加速播放操作指令后，可以根据加速播放操作指令所指示的加速速度和/或加速方向，确定出待加速播放的媒体文件；并针对待加速播放的媒体文件，获取待加速播放的媒体文件的文本内容。例如，加速方向不同，待加速播放的媒体文件不同，若终端设备当前播放的音频时长为t，当播放进度为t时用户点击了快进的虚拟按键，那么播放进度t至t的媒体文件为待加速播放的媒体文件，若用户点击了快退的虚拟按键，那么播放进度0至t的媒体文件为待加速播放的媒体文件。

实际应用中，待加速播放的媒体文件由终端设备采集，或预先存储，或从网络侧获取。而从网络侧获取的媒体文件可以包括：从网络侧下载到本地存储的媒体文件，在网络侧在线浏览的媒体文件。

例如，待加速播放的音频文件可以包括下述至少一项：由终端设备通过声音采集设备录制的音频；在线广播(例如语音脱口秀、广播节目等)；教育授课类音频；有声小说；语音通话过程中的音频；电话会议、视频会议的音频；视频中包含的音频；通过电子文本语音合成产生的音频；语音通知中的音频；语音短信中的音频；语音留言中的音频；语音备忘录中的音频等。

本发明的方案中，终端设备可以为mp3播放器、智能手机、智能可穿戴式设备等设备。

本发明实施例一中，在确定待加速播放的媒体文件之后，可以获取加速播放的媒体文件的文本内容。其中，获取的文本内容包括：内容单元和时间位置信息，每个内容单元存在各自对应的时间位置信息。

实际应用中，媒体文件具体为电子文本时，直接将待加速播放的电子文本的文本内容作为加速播放的媒体文件的文本内容。而在媒体文件具体为音频文件或视频文件时，可以将音频文件或视频文件中音频内容所对应的文本内容作为加速播放的媒体文件的文本内容。关于音频文件或视频文件中音频内容所对应的文本内容，可以通过语音识别技术实现。

具体地，可以基于语音识别技术，通过预设的语音识别引擎，从待加速播放的媒体文件的音频内容中识别出对应的文本内容。在识别音频内容的过程中，可以记录识别出的文本内容的每个内容单元所各自对应的时间位置信息。在图5所示音频文件加速播放流程示意图中，可通过语音识别引擎识别音频；在时间轴上标注识别内容中各内容单元的时间位置信息；根据内容单元的词性选择出简化后的内容，并确定出简化后的内容对应的简化后的音频。

本发明的方案中，内容单元的划分粒度可以是系统预先设定的，也可以由用户选择内容单元的划分粒度。更优地，可以依据待加速播放的媒体文件对应的加速速度确定文本内容中内容单元的划分粒度；依据确定的划分粒度来划分文本内容的内容单元。划分得到的内容单元可以为音节、字、单词、句子、或段落。这样，基于语音识别技术，不仅可以获得音/视频文件中的文本内容，同时可以获得每一个字乃至于这个字的每一个音节所对应的时间位置信息。

实际应用中，为了防止媒体文件中重要内容或情节被忽略，保证信息的完整程度，可以采用不同的内容简化策略来获取媒体文件的文本内容中的关键内容，以此完成对媒体文件的简化。

本发明的发明人发现，文本内容的词性、信息量、音频语速、音频音量、感兴趣内容、媒体文件类型、内容源对象信息等信息往往可以反映媒体文件中各部分内容的关键程度。因此，本发明的方案中，可以根据文本内容中内容单元的词性、内容单元的信息量、内容单元的音频音量、内容单元的音频语速、文本内容中感兴趣内容、媒体文件类型、内容源对象信息、加速速度、媒体文件质量、播放环境，选择不同的内容简化策略。

具体地，本发明实施例一中，在确定出待加速播放的媒体文件的文本内容之后，可以根据待加速播放的媒体文件对应的下述至少一种信息，获取待加速播放的媒体文件的文本内容中的关键内容：

关于根据上述信息获取待加速播放的媒体文件的文本内容中的关键内容的方案，将在后续的实施例中详细介绍，在此不再赘述。

s402：确定待加速播放的媒体文件的文本内容中的关键内容对应的媒体文件。

实际应用中，在媒体文件为电子文本文件时，可以直接将确定的关键内容作为关键内容对应的媒体文件；而在媒体文件为音频文件或视频文件时，可以根据关键内容中每个内容单元对应的时间位置信息，确定为待加速播放的媒体文件的文本内容中的关键内容对应的媒体文件。

本发明的方案中，待加速播放的媒体文件的文本内容中的关键内容对应的媒体文件也可以称为简化后的媒体文件。

本发明的方案中，由于通过步骤s401可以得到媒体文件的文本内容中的每一个字乃至于这个字的每一个音节所对应的时间位置信息。因此，在获取待加速播放的媒体文件的文本内容中的关键内容(即简化后的内容)后，可以确定简化后的内容中每一个内容单元所对应的时间位置信息。继而，根据时间位置信息提取对应的媒体文件片段，组合生成对应的媒体文件。例如，可以根据确定出的时间位置信息，从待加速播放的媒体文件的音频内容中提取出各关键内容所对应的音频片段，将提取出的音频片段进行合并处理，生成简化后的内容对应的音频文件。

实际应用中，终端设备可以按照加速播放的加速方向，将各关键内容对应的媒体文件片段进行合并处理，组合生成关键内容对应的媒体文件。

例如，加速播放的加速方向为正向时，按照正向的方向，将关键内容对应的媒体文件片段进行合并处理，组合生成关键内容对应的媒体文件；加速播放的加速方向为反向时，按照反向的方向，将关键内容对应的媒体文件片段进行合并处理，组合生成关键内容对应的媒体文件。

s403：播放确定出的媒体文件。

实际应用中，用户可以在媒体文件播放之前触发加速播放功能或者在媒体文件播放过程中触发加速播放功能。

本发明的方案中，当用户在媒体文件播放之前触发加速播放功能时，终端设备在检测到用户的加速播放操作指令后，可以获取待加速的媒体文件的全部文本内容中的关键内容，基于获取的关键内容，得到关键内容对应的媒体文件；并播放确定出的媒体文件。这种方式不用边处理边播，能够提高加速播放的实时性。

此外，当用户在媒体文件播放之前触发加速播放功能时，终端设备也可以在检测到用户的加速播放操作指令后，按照时间顺序，从待加速的媒体文件中依次截取媒体文件片段，并获取截取的每个媒体文件片段的文本内容中的关键内容，确定每个媒体文件片段的文本内容中的关键内容对应的媒体文件，并播放确定出的媒体文件。这样，在播放当前的媒体文件片段的文本内容中的关键内容对应的媒体文件时，终端设备同时对下一个媒体文件片段执行上述处理，直至检测到用户的结束加速播放操作指令或者完成了所有媒体文件片段的处理。这种方式能够实现边播边处理，不用预先对所有内容进行预处理，缩短了响应加速播放功能的时间。

其中，终端设备可以按照系统预设的时间间隔提取媒体文件片段，也可以根据媒体文件的长度设定时间间隔。此外，终端设备可以先识别媒体文件的全部文本内容，然后根据媒体文件片段对应的时间位置信息获取当前处理的媒体文件片段的文本内容；或者，终端设备也可以针对当前处理的媒体文件片段，实时识别文本内容。

本发明的方案中，当用户在媒体文件片段播放过程中触发加速播放功能时，终端设备在检测到用户的加速播放操作指令后，可根据加速播放的加速方向，获取需加速播放的媒体文件对应的全部文本内容。然后从全部文本内容中获取关键内容；对获取的关键内容所对应的媒体文件进行播放。例如，音频时长20分钟，当播放到10分钟时，用户触发加速播放功能，且加速播放的播放方向为正向，那么终端设备获取从第10分钟到20分钟的全部文本内容。加速播放的播放方向为反向时，那么终端设备获取从第0分钟到10分钟的全部文本内容。这种方式不用边处理边播，能够提高加速播放的实时性。

此外，当用户在媒体播放过程中触发加速播放功能时，终端设备也可以在检测到用户的加速播放操作指令后，按照加速播放的播放方向以及时间顺序，从当前播放时间点开始依次截取媒体文件片段，并确定截取的每个媒体文件片段的文本内容。从当前的媒体文件片段的文本内容中关键内容，对当前的媒体文件片段对应的关键内容对应的媒体文件进行播放，在播放当前的媒体文件片段对应的关键内容对应的媒体文件时，终端设备同时对下一个媒体文件片段执行上述处理，直至检测到用户的结束加速播放操作指令或者完成了所有媒体文件片段的处理。这种方式能够实现边播边处理，不用预先对所有内容进行预处理，缩短了响应加速播放功能的时间。

本发明的方案中，终端设备可以对待加速播放的媒体文件、待加速播放的媒体文件的文本内容、文本内容中的关键内容、关键内容对应的媒体文件等进行存储。这样，以便后续再次加速播放时，能够可以调用存储的上述信息，提高加速播放的响应速度以及处理效率。

进一步地，本发明的方案中，确定关键内容对应的媒体文件后，可以考虑根据媒体文件的周围环境的环境噪音强、音频质量、音频语速、音频音量、加速速度等因素，调节关键内容对应的媒体文件的播放策略。关于如何根据上述因素调节关键内容对应的媒体文件的播放策略，将在后续详细介绍。

本发明的方案中，并不是通过压缩播放时间实现的待加速播放的媒体文件的加速播放，而是通过对媒体文件的文本内容进行简化得到关键内容来实现加速播放。简化后得到的关键内容保留了原媒体文件的关键信息，保证了信息的完整程度。这样，即使播放速度很快，用户也可以获取到媒体文件的关键信息。此外，播放关键内容对应的媒体文件时，后续可以通过原始媒体文件的语速估计、音频质量估计，结合加速播放效率的要求，对其播放速度进行调整，保证用户在该播放速度下清楚理解音频内容。

本方案的音频加速播放方案中，不是单纯的压缩播放时间，而是播放简化后的内容，由于播放的内容减少了，用户实际的播放速度(效率)得到了提高。通过对汉语词性的统计，名词和动词在语料中出现的概率不到50％，如果按照本发明所述的内容简化方法(下文中将详细叙述)，用户可以在保持语音原本语速的情况下实现超过2倍的快速播放和浏览速率。如果结合更多的内容简化规则和适当加快语音的语速，快速播放和浏览的速率可以更大幅度的提升。

实施例二

关于实施例一中提及的获取待加速播放的媒体文件的文本内容中的关键内容的方案，将在实施例二中详细介绍。

一、根据词性获取关键内容

本发明实施例二中，根据词性获取关键内容时，内容单元的划分粒度可以为单词。

根据待加速播放的媒体文件对应的文本内容中内容单元的词性，获取待加速播放的媒体文件的文本内容中的关键内容，可以包括下述至少一种方式：

在至少两个内容单元组成的文本内容中，确定辅助词性对应的内容单元不为关键内容；

在至少两个内容单元组成的文本内容中，确定关键词性对应的内容单元为关键内容；

确定指定词性的内容单元不为关键内容；

确定指定词性的内容单元为关键内容。

具体地，确定辅助词性对应的内容单元不为关键内容时，可删除辅助词性对应的内容单元；确定关键词性对应的内容单元为关键内容时，可保留关键词性对应的内容单元为关键内容，或提取出关键词性对应的内容单元为关键内容；确定指定词性的内容单元不为关键内容时，可删除指定词性的内容单元；确定指定词性的内容单元为关键内容时，可保留指定词性的内容单元为关键内容，或提取出指定词性的内容单元为关键内容。

其中，辅助词性包括具有下述至少一种作用的词性：修饰作用、辅助说明作用、限定作用。

实际应用中，可以只保留部分的名词和动词，忽略其他词性单词。因此，在根据词性获取关键内容时，可以删除形容词、连词、介词等指定词性的内容单元，和/或，保留名词和动词等指定词性的内容单元为关键内容。

实际应用中，对于多个名词相邻的情况，前面的名词一般表示修饰，用于对最后一个名词进行修饰。因此，可以只保留至少两个名词相邻的组合中最后一个名词为关键内容，和/或，删除至少两个名词相邻的组合中最后一个名词以外的内容单元，如对于“政治局(名词)会议(名词)”这一组合，保留“会议”为关键内容。

对于多个动词相邻的情况，前面的动词一般表示对最后一个动词的修饰，因此，可以删除至少两个动词相邻的组合中最后一个动词以外的内容单元，和/或，只保留最后一个动词，如“准备(动词)研究(动词)部署(动词)”保留“部署”为关键内容。

对于“介词+名词”的情况，“介词+名词”一般表示修饰，等同于形容词，因此，可以将该类组合省略，删除“介词+名词”的组合。比如“会议(名词)在(介词)京(名词)召开(动词)”保留“会议召开”为关键内容。

对于“名词+的+名词”的情况，“名词+的”一般表示修饰，因此，可以考虑省略“名词+的”，即删除“名词+的+名词”的组合中的“名词+的”。比如“北京(名词)的(助词)天安门(名词)”保留“天安门”为关键内容。

对于“名词/动词/形容词+连词+名词/动词/形容词+名词/动词”，可以删除“名词/动词/形容词+连词+名词/动词/形容词+名词/动词”的组合中的“名词/动词/形容词+连词+名词/动词/形容词”，和/或，只保留最后出现的名词或动词为关键内容。如“北京(名词)和(连词)上海(名词)城市(名词)的(助词)范围(名词)持续(动词)扩张(动词)”保留“城市范围扩张”为关键内容。

对于英文及拉丁语系等语言中的“助动词+动词”，一般起到辅助说明，将该类组合省略，即删除“助动词+动词”的组合。比如“ihavealotofworktodo”保留“ihavework”为关键内容。

以下是一段新闻的内容，以及每个单词对应的词性：

领导人|n组织|v召开|v政治局|n会议|n，研究|v部署|v明年|n党风|n廉政|n建设|n和|c反腐败|j工作|n。全国|n高校|n党建|n工作|n会议|n在|p京|n召开|v，领导人|n做出|v重要|j指示|n强调|v加强|v党|n的|u领导|n，是|v办好|v中国|n特色|n社会|n主义|n大学|n的|u根本|d保证|v。

其中，n表示名词，v表示动词，j表示形容词，c为连词，p表示介词，u表示助词。

对该段文本内容依据词性，按照上述方式获取关键内容：

“组织|v召开|v”为“动词+动词”组合，保留最后一个动词“召开”；

“政治局|n会议|n”为“名词+名词+名词”组合，保留最后一个名词“会议”；

“明年|n党风|n廉政|n建设|n和|c反腐败|j工作|n”为“名词+连词+形容词+名词”，保留最后一个名词“工作”；

“在|p京|n”为“介词+名词”组合，将其省略。

这样，最终得到关键内容为：“领导人召开会议，部署工作。会议召开，领导人做出指示加强领导，办好大学保证”。

实际应用中，用户的快速浏览播放的需求为倒放，因此，相应地，可以获得倒放操作所需要的简化内容：“保证大学办好领导加强指示做出领导人召开会议工作部署会议召开领导人”。

这样，后续得到以单词为单位的音频片段，并通过以单词为单位的音频片段的倒序播放，有利于用户基于对每个词的正确理解，将整段音频的内容进行串联和理解，实现音频的倒序播放以及快速倒序播放。

二、根据信息量获取关键内容

本发明实施例二中，可以根据待加速播放的媒体文件对应的文本内容中内容单元的信息量，获取待加速播放的媒体文件的文本内容中的关键内容。其中，根据信息量简化规则选择关键内容时，内容单元的划分粒度可以为单词。

具体地，可以确定待加速播放的媒体文件的文本内容中每个内容单元的信息量；之后，根据待加速播放的媒体文件对应的文本内容中任一内容单元的信息量，确定保留或删除该内容单元。

其中，针对待加速播放的媒体文件的文本内容中每个内容单元，可以选取与该内容单元的内容类型对应的信息量模型库；利用信息量模型库、以及该内容单元的上下文，确定出该内容单元的信息量。

实际应用中，可以预先基于整体语料和词库进行训练，获取每个单词对应于相应上下文时所包含的信息量。之后，针对不同内容类型，训练不同的信息量模型库。这样，在后续应用中，可以先确定内容单元的内容类型，再选取相应的信息量模型库对该内容单元的信息量进行测量和判断。

本发明实施例二中，可以利用内容单元的信息量独立在获取关键内容时，判断删除或保留该内容单元。针对每个内容单元，若该内容单元的信息量不小于第一信息量阈值，则保留该内容单元为媒体文件的文本内容中的关键内容；和/或若该内容单元的信息量不大于第二信息量阈值，则删除该内容单元。

进一步地，本发明的方案中，可以利用内容单元的信息量结合词性等方式，综合判断忽略或保留该内容单元。例如，对于通过词性判断出需保留的内容，可以进一步判断内容单元的信息量，当内容单元的信息量不大于第二信息量阈值时，删除该内容单元；或者，对于通过词性判断出需删除的内容，可以进一步判断内容单元的信息量，当内容单元的信息量不小于第一信息量阈值，则保留该内容单元为媒体文件的文本内容中的关键内容。

具体地，可以根据词性对媒体文件的文本内容进行简化后，得到根据词性保留的文本内容；确定根据词性保留的文本内容中每个内容单元的信息量；针对每个内容单元，若该内容单元的信息量不大于第二信息量阈值，则删除该内容单元。

或者，根据词性对媒体文件的文本内容进行简化后，得到根据词性删除的文本内容；针对根据词性删除的文本内容中的每个内容单元，确定该内容单元的信息量；并若该内容单元的信息量不小于第一信息量阈值，则保留该内容单元为媒体文件的文本内容中的关键内容。

三、根据音频音量获取关键内容

本发明的发明人考虑到，实际应用中，在某些语音片段中，说话人会通过增大音量的方式，着重念出某些词，用来表达这些词的重要性，反之，如果说话人在念某些词的时候，采用了较小的音量，则可以在一定程度上表示这些词表示的信息并不重要。

然而，如果单纯基于文本分析，被说话人强调念出的词不一定被认为是关键内容，被说话人轻声念出的词可能被认为是关键内容。因此，说话人的声音强度信息应该被分析并应用于判断语音的关键内容。

本发明实施例二中，根据待加速播放的媒体文件对应的文本内容中内容单元的音频音量，获取待加速播放的媒体文件的文本内容中的关键内容。其中，内容单元的划分粒度可以为单词。

具体地，根据待加速播放的媒体文件对应的文本内容中任一内容单元的音频音量，确定保留或删除该内容单元。若该内容单元的音频音量不小于第一音频音量阈值，则保留该内容单元为关键内容；和/或若该内容单元的音频音量不大于第二音频音量阈值，则删除该内容单元。

其中，可以根据下述内容中的至少一种确定第一音频音量阈值和第二音频音量阈值：

待加速播放的媒体文件的平均音频音量；

待加速播放的媒体文件对应的文本内容中内容单元所在的文本片段的平均音频音量；

待加速播放的媒体文件对应的文本内容中内容单元对应的内容源对象的平均音频音量；

待加速播放的媒体文件对应的文本内容中，内容单元对应的内容源对象在该内容单元所在的文本片段中的平均音频音量。

实际应用中，内容源对象可以是音频/视频中的说话人，或发声对象，或电子文本中的文本所对应的来源。第一音频音量阈值和第二音频音量阈值根据上述内容中的至少一种平均音频音量以及预设的第一音量阈值因子、第二音量阈值因子确定。

比如，可以针对待加速播放的音频中的每个说话人设置第一音频音量阈值和第二音频音量阈值，将平均音频音量与设定的第一音量阈值因子的乘积确认为第一音频音量阈值；将平均音频音量与设定的第二音量阈值因子的乘积确认为第二音频音量阈值。

实际应用中，若上述平均音频音量为针对待加速播放的媒体文件整体确定的平均音量，则可以判断待加速播放的媒体文件中的内容单元的音频音量是否高于平均音量，且与平均音量之间的差值不小于第一音频音量阈值。若是，则认为是重要信息，可以保留该内容单元为关键内容，否则删除。

若上述平均音频音量为针对待加速播放的媒体文件的文本内容中内容单元所在的文本片段确定出的平均音量，则判断待加速播放的媒体文件中的内容单元的音量是否高于所在文本片段的平均音量，且与平均音量之间的差值不小于第一音频音量阈值，若是，则认为是重要信息，可以保留该内容单元为关键内容，否则删除。

若上述平均音频音量为针对待加速播放的媒体文件对应的文本内容中，内容单元对应的内容源对象在该内容单元所在的文本片段确定出的平均音量，则可以判断待加速播放媒体文件中的内容单元的音量是否高于内容源对象在该内容单元所在的文本片段的平均音量，且与平均音量之间的差值不小于第一音频音量阈值。若是，则认为是重要信息，可以保留该内容单元为关键内容，否则删除。其中，内容单元所在的文本片段可以是一句内容或一段内容。

若上述平均音频音量为针对待加速播放的媒体文件对应的文本内容中内容单元对应的内容源对象确定出的平均音量，则可以判断待加速播放媒体文件中的内容单元的音量是否高于对应内容源对象的平均音量，且与平均音量之间的差值不小于第一音频音量阈值。若是，则认为是重要信息，可以保留该内容单元为关键内容，否则删除。

本发明的方案中，可以利用内容单元的音频音量，独立判断忽略或保留该内容单元。还可以利用内容单元的音频音量，结合内容单元的信息量、词性等方式，综合判断忽略或保留该内容单元。例如，对于通过词性判断出需保留的内容，可以进一步判断内容单元的音量，当内容单元的音量满足保留的条件时，才保留该内容单元为关键内容，否则删除。

四、根据音频语速获取关键内容

本发明的发明人考虑到，在某些语音片段中，说话人会通过放慢语速的方式，着重念出某些词，用来表达这些词的重要性，反之，如果说话人在念某些词的时候，采用了较快的语速，则在一定程度上表示这些词表示的信息并不重要。

然而，如果单纯基于文本分析，被说话人慢慢念出的词不一定被认为是关键内容，被说话人快速念出的词可能被认为是关键内容。因此，说话人的语速应该被分析并应用于判断语音的关键内容。

本发明实施例二中，根据待加速播放的媒体文件对应的文本内容中内容单元的音频语速，获取待加速播放的媒体文件的文本内容中的关键内容。其中，内容单元的划分粒度可以为单词。

具体地，根据待加速播放的媒体文件对应的文本内容中任一内容单元的音频语速，确定保留或删除该内容单元。若该内容单元的音频语速不大于第一音频语速阈值，则保留该内容单元为关键内容；和/或若该内容单元的音频语速不小于第二音频语速阈值，则删除该内容单元。

其中，可以根据下述内容中的至少一种确定第一音频语速阈值和第二音频语速阈值：

待加速播放的媒体文件的平均音频语速；

待加速播放的媒体文件对应的文本内容中内容单元所在的文本片段的平均音频语速；

待加速播放的媒体文件对应的文本内容中内容单元对应的内容源对象的平均音频语速；

待加速播放的媒体文件对应的文本内容中，内容单元对应的内容源对象在该内容单元所在的文本片段中的平均音频语速。

实际应用中，内容源对象可以是音频/视频中的说话人，或发声对象，或电子文本中的文本所对应的来源。第一音频语速阈值和第二音频语速阈值根据上述内容中的至少一种平均音频语速以及预设的第一语速阈值因子、第二语速阈值因子确定。

比如，可以针对待加速播放的音频中的每个说话人设置第一音频语速阈值和第二音频语速阈值，将平均音频语速与设定的第一语速阈值因子的乘积确认为第一音频语速阈值；将平均音频语速与设定的第二语速阈值因子的乘积确认为第二音频语速阈值。

实际应用中，若上述平均音频语速为针对待加速播放的媒体文件整体确定的平均语速，则可以判断待加速播放的媒体文件中的内容单元的音频语速是否高于平均语速，且与平均语速之间的差值不小于第一音频语速阈值。若是，则认为是重要信息，可以保留该内容单元为关键内容，否则删除。

若上述平均音频语速为针对待加速播放的媒体文件的文本内容中内容单元所在的文本片段确定出的平均语速，则判断待加速播放的媒体文件中的内容单元的语速是否高于所在文本片段的平均语速，且与平均语速之间的差值不小于第一音频语速阈值，若是，则认为是重要信息，可以保留该内容单元为关键内容，否则删除。

若上述平均音频音量为针对待加速播放的媒体文件对应的文本内容中，内容单元对应的内容源对象在该内容单元所在的文本片段确定出的平均语速，则可以判断待加速播放媒体文件中的内容单元的语速是否高于内容源对象在该内容单元所在的文本片段的平均语速，且与平均语速之间的差值不小于第一音频音量阈值。若是，则认为是重要信息，可以保留该内容单元为关键内容，否则删除。其中，内容单元所在的文本片段可以是一句内容或一段内容。

若上述平均音频语速为针对待加速播放的媒体文件对应的文本内容中内容单元对应的内容源对象确定出的平均语速，则可以判断待加速播放媒体文件中的内容单元的语速是否高于对应内容源对象的平均语速，且与平均语速之间的差值不小于第一音频语速阈值。若是，则认为是重要信息，可以保留该内容单元为关键内容，否则删除。

本发明的方案中，可以利用内容单元的音频语速，独立判断忽略或保留该内容单元。也可以利用内容单元的音频语速和音频音量，综合判断忽略或保留该内容单元。例如，当内容单元的音频音量满足保留的条件，且音频语速也满足保留的条件时，才保留该内容单元，否则删除；或者，当内容单元的音频音量满足删除的条件，且音频语速也满足删除的条件时，才删除该内容单元，否则保留。

进一步地，本发明的方案中，还可以利用内容单元的音频语速和/或音频音量，结合内容单元的信息量、词性等方式，综合判断忽略或保留该内容单元。例如，对于通过词性判断出需保留的内容，可以进一步判断内容单元的音频语速和/或音量，当内容单元的音频音量满足保留的条件，且音频语速也满足保留的条件时，才保留该内容单元，否则删除。

五、根据感兴趣内容获取关键内容

本发明实施例二中，可以根据待加速播放的媒体文件对应的文本内容中的感兴趣内容，通过以下至少一种方式来获取待加速播放的媒体文件的文本内容中的关键内容：

若文本内容中匹配到预设的感兴趣词库中的感兴趣内容时，则保留相应匹配内容为关键内容；

利用预设的感兴趣分类器对文本内容中任一内容单元进行分类，若分类结果为感兴趣内容，则保留该内容单元为关键内容；

若文本内容中匹配到预设的不感兴趣词库中的不感兴趣内容，则删除相应匹配内容；

利用预设的不感兴趣分类器对文本内容中任一内容单元进行分类，若分类结果为不感兴趣内容，则删除该内容单元。

具体地，可以针对待加速播放的媒体文件的文本内容的每个内容单元，若预设的感兴趣词库中存在与该内容单元匹配的感兴趣内容，则保留该内容单元为关键内容。或者，也可以利用预设的感兴趣分类器对该内容单元进行分类，若分类结果为感兴趣内容，则保留该内容单元为关键内容。或者，结合感兴趣词库、感兴趣分类器，决定内容单元是否为关键内容。

实际应用中，可以预先获取感兴趣内容；存储感兴趣内容，建立感兴趣词库并进行扩充，如扩充感兴趣内容的同义词、近义词等。

本发明的方案中，在获取关键内容时，可以直接将待加速播放的媒体文件的文本内容与感兴趣词库进行匹配，当文本内容中匹配到感兴趣词库中的感兴趣内容时，可以选择该内容为文本简化时的关键内容，即保留该内容。也可以对感兴趣词库进行建模，利用分类器等手段判断待加速播放的媒体文件的文本内容中的内容单元是否为文本简化时的关键内容，即是否保留该内容单元。

此外，本发明的方案中，也可以获取不感兴趣内容，设置不感兴趣内容；存储不感兴趣内容，建立不感兴趣词库并进行扩充，如扩充不感兴趣的内容的同义词、近义词等。之后，针对待加速播放的媒体文件的文本内容的每个内容单元，若预设的不感兴趣词库中存在与该内容单元匹配的不感兴趣内容，则删除该内容单元。或者，利用预设的不感兴趣分类器对该内容单元进行分类，若分类结果为不感兴趣内容，则删除该内容单元。其中，不感兴趣内容可以由用户设定、用户行为来得到，也可以由获取的感兴趣内容的反义词来得到。

本发明的方案中，可以利用感兴趣内容或不感兴趣内容，独立获取文本简化时的关键内容。也可以利用感兴趣内容和不感兴趣内容，综合选择文本简化时的关键内容，例如，保留感兴趣内容对应的内容单元，删除不感兴趣内容对应的内容单元。

此外，还可以利用感兴趣内容和/或不感兴趣内容，结合内容单元的信息量、词性、音频语速、音频音量等方式，综合选择文本简化时的关键内容。例如，对于通过词性判断出需删除的内容，可以进一步判断内容单元是否与感兴趣内容匹配，当内容单元与感兴趣内容匹配时，保留该内容单元。

本发明的方案中，感兴趣内容可以预先根据如下至少一种内容来获取：

用户的偏好设置；

用户的播放媒体文件时的操作行为；

用户在终端设备上的应用数据；

用户历史播放媒体文件的类型。

1、用户的偏好设置。其中，用户的偏好设置包括如下至少一项：用户通过输入操作设置的感兴趣内容；用户收听音频、观看视频或阅读文本内容时标记的感兴趣内容。用户的播放媒体文件时的操作行为可以具体是用户收听音频、观看视频或阅读文本内容时的操作行为；用户历史播放媒体文件的类型可以具体是用户历史播放/阅读内容的类型。

实际应用中，用户可以根据自己的兴趣和喜好，设定感兴趣内容和/或不感兴趣内容。比如，预先提供感兴趣内容设置界面，在该界面，用户可以通过文字输入、语音输入、屏幕勾选等操作方式中的至少一种，设置感兴趣内容和/或不感兴趣内容。或者，在用户收听音频、收看视频或阅读文本内容(包含简化后的音频、视频、文本内容)时，可以采用触摸屏幕、滑动屏幕、自定义手势、按动/拨动/旋转按键等方式中的至少一种，对感兴趣内容和/或不感兴趣内容进行标记，终端设备检测到此类操作后，设置感兴趣内容和/或不感兴趣内容，或者对已获取的感兴趣内容和/或不感兴趣内容进行修正或更新。

2、用户的播放媒体文件时的操作行为。本发明的方案中，可以根据如下至少一种操作来获取感兴趣内容或不感兴趣内容：

触发回放操作、拖动进度条的操作、暂停操作、播放操作、快进操作、退出操作。

比如，用户触发回放操作的时间位置附近的内容，可以认为是感兴趣内容；通过用户拖动进度条的操作分析出用户反复收听的音频段、视频段、文本段，该音频段、视频段、文本段中的内容，为感兴趣内容；用户触发暂停和播放操作的时间位置附近的内容，可以认为是感兴趣内容；用户触发快进操作的时间位置附件的内容，可以认为是不感兴趣内容。

3、用户历史播放媒体文件的类型。此外，也可以通过用户历史播放内容的类型判断感兴趣内容。例如，用户播放的内容大多为体育新闻类的内容，则判断用户对体育类内容感兴趣，因此根据体育类内容对应的关键词设置感兴趣内容，在确定待加速播放的音频对应的关键内容时，对于体育类词汇保留比例较大。类似的，如果用户播放的大多为财经类的节目，则判断用户对财经类的内容感兴趣，因此根据财经类内容对应的关键词设置感兴趣内容，在确定待加速播放的音频对应的关键内容时，对财经类词汇保留比例较大；如果用户播放的大多为科技类的节目，则判断用户对科技类的内容感兴趣，因此根据科技类内容对应的关键词设置感兴趣内容，在确定待加速播放的音频对应的关键内容时，科技领域相关热点词汇保留比例较大。

4、用户在终端设备上的应用数据。本发明的方案中，可以根据用户在终端设备上的如下至少一种应用数据来获取用户感兴趣内容或不感兴趣内容：

用户在终端设备中安装的应用程序的类型；

用户对应用程序的使用喜好；

应用程序对应的浏览内容。

比如，终端设备中安装了很多股票软件等金融类软件，或者用户使用股票软件等金融类软件的频次较高，因此用户对财经类内容比较感兴趣。因此，根据财经类内容对应的关键词设置感兴趣内容，在确定待加速播放的音频对应的关键内容时，对于财经类词汇保留比例较大。

若终端设备中安装了很多体育新闻、体育直播类软件，用户使用体育新闻、体育直播类软件频次较高，因此用户对体育类内容比较感兴趣。因此，根据科技类内容对应的关键词设置感兴趣内容，在确定待加速播放的音频对应的关键内容时，对体育类词汇保留比例较大。

五、根据媒体文件类型获取关键内容

本发明实施例二中，可以根据待加速播放的媒体文件对应的媒体文件类型，获取待加速播放的媒体文件的文本内容中的关键内容。具体地，将待加速播放的媒体文件的文本内容中，与所属媒体文件类型对应的关键词匹配的内容，保留为关键内容。

本发明的发明人考虑到不同的媒体文件类型所对应的关键内容可能不同，因此，可以预先针对每个媒体文件类型设置对应的媒体文件类型关键词库。媒体文件类型关键词库可以包括媒体文件类型以及对应的关键词。

这样，终端设备在对待加速播放的媒体文件的文本内容进行简化获取关键内容时，可以判断待加速播放的媒体文件的媒体文件类型，查找出预设的媒体文件类型关键词库中与该媒体文件类型对应的关键词。若待加速播放的媒体文件的文本内容中存在与查找出的关键词匹配的内容，则保留匹配的内容为关键内容。

实际应用中，可以预先对每个媒体文件设置媒体文件类型标志，在用户确认加速播放该媒体文件时，终端设备可以获取该媒体文件的媒体文件类型标志，然后根据该标志确认该媒体文件的媒体文件类型。

本发明的方案中，可以利用媒体文件类型独立选择文本简化时的关键内容。此外，还可以利用媒体文件类型结合单词的信息量、词性、语速、音量等方式，综合选择文本简化时的关键内容。例如，对于通过词性判断出需删除的内容，可以进一步判断是否与媒体文件类型对应的关键词匹配，当匹配时保留该内容单元。

对于媒体文件类型为体育类的媒体文件，具体的：

足球比赛中，将“射门”、“进球”、“犯规”和“红牌”等设定为关键词；

田径比赛中，将“冲刺”、“起跑”和“夺冠”等设定为关键词。

对于媒体文件类型为旅游类的媒体文件，可以将地点类的内容设定为关键词。

对于媒体文件类型为教学类的媒体文件，可以将“xx章”、“xx节”、“xx题”等设定为关键词。

对于媒体文件类型为语音短信、语音记事本的音频，可以将时间、地点、人物类的内容设定为关键词。

六、根据内容源对象获取关键内容

本发明实施例二中，根据待加速播放的媒体文件对应的内容源对象信息，获取待加速播放的媒体文件的文本内容中的关键内容。比如，可以根据待加速播放的媒体文件的文本内容中的内容源对象(比如，说话人)的身份、内容源对象的重要性和内容源对象对应的文本内容的内容重要性，获取关键内容。

具体地，可以确定待加速播放的媒体文件中每个内容源对象的身份；依据内容源对象的身份，通过以下至少一种方式来获取所述文本内容中的关键内容：

从待加速播放的媒体文件的文本内容中提取出具有特定身份的内容源对象对应的文本内容，并针对提取出的内容进行简化；

基于内容源对象的身份，对待加速播放的媒体文件的文本内容中特定类型的内容进行简化；

其中，特定身份由待加速播放的媒体文件的媒体文件类型决定、和/或由用户预先指定。

实际应用中，针对提取出的具有特定身份的内容源对象对应的文本内容进行简化，包括对提取出的内容中的内容单元的保留或删除。

本发明实施例二中，可以通过以下至少一种方式来确定待加速播放的媒体文件中每个内容源对象的身份：

根据媒体文件类型来确定每个内容源对象的身份；

根据内容源对象对应的文本内容来确定每个内容源对象的身份。

更优地，本发明实施例二中，还可以根据待加速播放的媒体文件的文本内容中任一内容单元的内容重要性及相应内容源对象的对象重要性，确定保留或删除该内容单元。

例如，在媒体文件具体为音频/视频文件时，可以确定音频/视频中每个说话人的身份；从音频所对应的文本内容中提取出具有特定身份的说话人所说的文本内容，并针对提取出的文本内容进行简化。

或者，可以针对音频/视频中的每个说话人，将该说话人的重要性因子与该说话人所说内容的内容重要性因子的融合(如乘积)作为该说话人的重要性分数；根据说话人的重要性分数，对音频所对应的文本内容进行简化。

实际应用中，关于内容源对象的身份的识别，可以根据媒体文件类型进行设定。根据媒体文件类型，预设内容源对象类型和个数。比如：新闻类节目设定主播和其他说话人；访谈类节目设定一个或多个主持人，以及一个或多个节目嘉宾；电视剧类节目设定一个或多个主要演员，其他演员；脱口秀类节目设定一个主持人和观众。

关于内容源对象的身份的识别，可以根据内容源对象对应的文本内容(比如说话人所属的内容)，判断内容源对象的身份。比如，根据说话内容的时间占比较大的，对应于主播、主持人、嘉宾或主要演员的概率较大；根据说话内容包含特定词语判断，如主持人说“欢迎”、“有请”，嘉宾说“我是”、“第一次”等。

识别出内容源对象的身份之后，可以提取出具有特定身份的内容源对象对应的文本内容，并针对提取出的文本内容进行简化。比如，对于新闻类节目，可以只选择主播的内容进行简化，对应的采访、介绍内容直接忽略删除；对于访谈类节目，可以选择只保留主持人的内容进行简化，或者只保留嘉宾的内容进行简化；对于脱口秀类节目，可以只选择主持人内容进行简化。

例：对于访谈类节目，包含主持人和嘉宾两个说话人，q为主持人，a为嘉宾，其分别的对应的文本内容如下：

q：众所周知，您是一位著名的明星。您能谈谈作为一个明星的负担吗？

a：一个超级明星的负担很多。一旦一个人逐渐出名，他需要为此放弃自由，用自己的风格表现自我。

q：人们也许会认为明星们的生活是充满幸福和荣誉的。可是，他们的生活艰辛。现在让我们与观众交流一下，怎么样？

a：当然。

这样，通过本发明的方案，可以只将主持人的内容进行简化，如下所示：

q：您是明星。谈谈你的负担？

q：人们认为幸福和荣誉。他们生活。与观众交流？

或者，通过本发明的方案，也可以只将嘉宾的内容进行简化，如下所示：

a：明星负担。人出名。他付出自由表现自我。

a：当然。

本发明的方案中，在用户确认对待加速播放的媒体文件进行加速播放时，终端设备可以直接对媒体文件的文本内容进行简化。此外，也可以由用户选择想要播放的内容源对象，例如，对于访谈类节目，用户选择播放主持人的内容，则终端设备只简化播放主持人的内容。其中，用户可以通过点击媒体文件的某一播放位置来指示所选择的内容源对象，终端设备根据该播放位置的内容所对应的内容源对象来确认用户的选择。例如，若用户确认加速播放视频，则用户可以通过点击播放的视频图像中的人物来指示所选择的说话人，终端设备通过视频图像内容和音频内容的对应，来确认用户的选择。

进一步地，识别待加速播放的媒体文件的文本内容中每个内容源对象的身份之后，还可以根据文本内容中内容单元的句型，对待加速播放的媒体文件的文本内容进行简化，保留特定句子类型的内容单元为关键内容。

比如，在某一应用场景中，说话人a的说话内容为疑问句，说话人b对该疑问句进行了回答，那么在选择保留说话人a的说话内容时，也应保留说话人b的回答的内容，以保证媒体信息的完整性。对于某说话人的疑问句后的另外一个说话人的回答予以保留；例如，主持人提问，保留该提问，同时保留回答的第一句，以便用户理解。只保留某个用户时，对其他用户的非陈述内容进行保留，如语调变化剧烈、语速起伏较大的内容等。

更优地，本发明的方案中，在媒体文件具体为音频/视频时，可以针对音频/视频中的每个说话人，将该说话人的重要性因子与该说话人所说内容的内容重要性因子的融合(如乘积)作为该说话人的重要性分数；根据说话人的重要性分数，对文本内容进行简化。

其中，说话人的重要性因子qn通过如下公式计算得到：

其中，t为音频/视频中的说话总时长；n0为音频/视频中的说话人的总数；t(n)为音频/视频中第n个说话人的说话时长；n0为正整数；n为取值1到n0的整数。

而说话内容的重要性因子可以通过语义理解技术来确定。在确定每个说话内容的重要性最终分数时，可以按照设定计算方式将说话人的重要性因子和说话内容的重要性因子进行计算。

例：在一段电视剧的音频中，有4位演员在对话，确定各演员的说话人重要性因子(如，可以通过不同说话人说话总时长判断重要性，或者通过演员表的顺序设定重要性)，其说话人的重要性因子分别为0.2、0.3、0.1和0.4，针对四个说话内容，可以获得每个内容的内容重要性因子，最终得到每个内容的重要性最终分数。经过筛选，可以将重要性最终分数最高的预设数目的内容保留，或者将重要性最终分数大于预设阈值的内容保留。以下表1中，内容1～内容4分别为4名说话人说的4句话，最终分数为内容重要性因子和说话人重要性因子的乘积。

表1说话内容的重要性最终分数

七、根据加速速度获取关键内容

本发明实施例二中，可以根据待加速播放的媒体文件对应的加速速度，获取待加速播放的媒体文件的文本内容中的关键内容。

具体地，可以根据上一级加速速度时确定出的媒体文件的文本内容中的关键内容，确定当前加速速度时待加速播放的媒体文件的文本内容中的关键内容。

比如，可以依据上一级加速速度时确定出的关键内容中属于各内容单元的内容在其所属内容单元中所占比例，确定内容单元的保留或删除。和/或依据上一级加速速度时确定出的关键内容中相邻内容单元之间的语义近似性，确定内容单元的保留或删除。

本发明的方案中，可以依据待加速播放的媒体文件对应的加速速度确定文本内容中内容单元的划分粒度；依据确定的划分粒度来划分待加速播放的媒体文件的文本内容的内容单元。

实际应用中，不同的加速速度对应不同的内容简化策略，以满足不同场景的加速播放需要。因此，在依据加速速度对文本内容进行划分，得到各个内容单元之后，可以每隔若干个内容单元，从若干个内容单元中选取其中一个内容单元进行保留，比如保留第一个内容单元为关键内容。

例如，2x速度加速播放时，内容单元的划分粒度为单词，以单词为单位进行内容单元的删除或保留。3x速度加速播放时，内容单元的划分粒度为句子，以句子为单位进行内容单元的删除或保留。4x速度加速播放时，内容单元内容单元的删除或保留为段落，以段落为单位进行内容单元的删除或保留。其中，对于以句子或段落为单位的内容删除和保留策略，可直接按照平均间隔的方法，如每两句只保留第一句、每三句保留第一句等。

更优地，本发明的方案中，可以在依据加速速度对文本内容进行划分，得到各个内容单元之后，可以获取上一级加速速度时确定出的关键内容，即根据上一级加速速度对待加速播放的媒体文件的文本内容进行简化后确定出的关键内容。考虑到，实际应用中，上一级加速速度时确定出的关键内容中属于各内容单元的内容在其所属内容单元中所占比例较小的情况，能够在一定程度上反映该内容单元的重要性不高。因此，本发明实施例二中，可以依据上一级加速速度时确定出的关键内容中属于各内容单元的内容在其所属内容单元中所占比例，确定内容单元的保留或删除。比如，针对每个内容单元，若上一级加速速度时确定出的关键内容中属于该内容单元的内容在其所属内容单元中所占比例超过设定的保留阈值，则保留该内容单元为关键内容；或者，上一级加速速度时确定出的关键内容中属于该内容单元的内容在其所属内容单元中所占比例低于设定的保留阈值，则可以删除该内容单元。

其中，上一级加速速度小于待加速播放的媒体文件当前的加速速度。保留阈值由本领域技术人员根据经验进行设定，例如，可以设定为50％、30％、或40％。

更优地，本发明实施例二中，可以依据上一级加速速度时确定出的关键内容中相邻内容单元之间的语义近似性，确定内容单元的保留或删除。具体地，可以在获取上一级加速速度时确定出的关键内容之后，根据与上一级加速速度对应的划分粒度，对获取的上一级加速速度时确定出的关键内容进行划分，得到各个内容单元；利用语义分析，判断相邻的两个内容单元之间的语义近似性；若相邻的两个内容单元之间的语义近似性超过预设的相似阈值，则保留其中一个(比如，第一个或最后一个)内容单元为关键内容。

更优地，本发明实施例中，根据加速速度，在下述信息中选择获取关键内容所依据的信息：文本内容中内容单元的词性、内容单元的信息量、内容单元的音频音量、内容单元的音频语速、文本内容中感兴趣内容、媒体文件类型、内容源对象信息；之后，根据所选择的信息获取待加速播放的媒体文件的文本内容中的关键内容。媒体文件的加速速度的提升与确定出的关键内容的减少具有一致性关系；媒体文件的加速速度的降低与确定出的关键内容的增多具有一致性关系；即媒体文件的加速速度越快，确定出的关键内容越少；媒体文件的加速速度越慢，确定出的关键内容越多。

例如，当2x速度简化时，依据文本内容中内容单元的词性、内容单元的音频音量来获取关键内容；当3x速度简化时，采用依据文本内容中内容单元的词性、内容单元的音频音量、内容单元的音频语速来获取关键内容。或者，可以在2x速度简化后的文本的基础上，利用内容单元的音频语速来获取关键内容。

或者，当2x速度简化时，依据文本内容中内容单元的词性来获取关键内容；当3x速度简化时，依据文本内容中内容单元的词性、依据文本内容中内容单元的词性来获取关键内容，例如，对于访谈类节目，在2x速度播放时，可以按照词性对所有内容进行简化，即对嘉宾和主持人的内容均进行简化，当3x速度播放时，可以只简化主持人的内容。

八、根据媒体文件质量获取关键内容

本发明实施例二中，根据待加速播放的媒体文件的媒体文件质量，获取待加速播放的媒体文件的文本内容中的关键内容。

具体地，根据媒体文件质量，在下述信息中选择获取关键内容所依据的信息：文本内容中内容单元的词性、内容单元的信息量、内容单元的音频音量、内容单元的音频语速、文本内容中感兴趣内容、媒体文件类型、内容源对象信息；根据所选择的信息获取待加速播放的媒体文件的文本内容中的关键内容。实际应用中，也可以根据加速速度、媒体文件质量中的至少一种，来选择获取关键内容所依据的信息。

本发明实施例二中，可根据媒体文件中任一媒体文件音频片段的媒体文件质量，选择获取该媒体文件音频片段的文本内容中的关键内容所依据的信息。

其中，媒体文件音频片段的媒体文件质量，可通过下述方式来确定：

针对待加速播放的媒体文件中音频片段的各个音频帧，确定各个音频帧所相应的音素和噪声；根据各个音频帧对应于相应的音素的概率值、和/或各个音频帧对应于相应的噪声的概率值，分别确定各个音频帧的音频质量；基于各个音频帧的音频质量确定媒体文件音频片段的媒体文件质量。

其中，音频帧对应于相应的音素的概率值可通过如下方式得到：

定义变量δt(i)在时间t，存在路径到达音素si，并输出观察序列o＝o1o2...ot的最大概率为所述音频内容中t时刻的音频帧对应于第i个音素si的概率值：δt(i)＝maxp(q1q2…qt＝si,o1o2…ot|μ)；

其中，maxp()是计算最大概率的函数，q为观察序列，μ为给定模型，t为取值1到n的整数，n为音频内容包含的音频帧的总数。

音频帧对应于相应的噪声的概率值可通过如下方式得到：

定义变量δt(i)在时间t，到达噪声所对应状态ni，并输出观察序列o＝o1o2...ot的最大概率为音频内容中t时刻的音频帧对应于状态ni的概率值：δt(i)＝maxp(q1q2…qt＝ni,o1o2…ot|μ)；

其中，maxp()是计算最大概率的函数，q为观察序列，μ为给定模型，t为取值1到n的整数，n为音频内容包含的音频帧的总数。

从图6中可以看到，英文单词“annan”，其音标为在对应于这个单词的信号波形中，每一帧的信号对应于不同的音素“n”和如下两张表格(表2、表3)中分别是每一帧信号对应于相应音素的概率值和对应噪声的概率值。

表2每一帧信号对应于相应音素的概率值

表3每一帧信号对应于相应噪声的概率值

在获取据音频帧对应于相应的音素的概率值、音频帧对应于相应的噪声的概率值之后，可以基于各个音频帧的音频质量确定媒体文件音频片段的媒体文件质量。

实际应用中，媒体文件音频片段的媒体文件质量可以为音频片段包含的各音频帧的音频质量的平均值。其中，音频帧的音频质量具体为如下内容中的一种：

音频帧对应于相应的音素的概率值；

音频帧对应于相应的噪声的概率值；

音频帧对应于相应的音素的概率值与预设的该因素对应概率平均值运算之后的值(如相对值、或比值、或差值)；

音频帧对应于相应的音素的概率值与音频帧对应于相应的噪声的概率值运算之后的值(如差值、或比值)。

或者，媒体文件音频片段的媒体文件质量q可以根据如下公式计算出：

q＝∫δtdt(3)

其中，n为音频内容包含的音频帧的总数，δt为t时刻的音频帧对应于相应的音素的概率值。

或者，媒体文件音频片段的媒体文件质量q可以根据如下公式计算出：

q＝∫wtδtdt(4)

其中，n为媒体文件音频片段包含的音频帧的总数，δt为t时刻的音频帧对应于相应的音素的概率值；wt为预先通过窗函数设置的权重值。窗函数可以具体为汉宁窗，满足m为汉宁窗序列的长度。

或者，媒体文件音频片段的媒体文件质量q可以根据如下公式计算出：

其中，n为媒体文件音频片段包含的音频帧的总数，t为取值1到n的整数,δt为t时刻的音频帧对应于相应的音素的概率值，nt为t时刻的音频帧对应于相应的噪声的概率值。

或者，媒体文件音频片段的媒体文件质量q可以根据如下公式计算出：

q＝∫(δt-nt)dt(6)

其中，n为媒体文件音频片段中的音频帧的总数，t为取值1到n的整数,δt为t时刻的音频帧对应于相应的音素的概率值，nt为t时刻的音频帧对应于相应的噪声的概率值。

本发明的方案中，确定媒体文件中任一媒体文件音频片段的媒体文件质量之后，可以选择获取该媒体文件音频片段的文本内容中的关键内容所依据的信息。媒体文件音频片段的媒体文件质量的质量等级的增高与确定出的关键内容的减少具有一致性关系，媒体文件音频片段的媒体文件质量的质量等级的降低与确定出的关键内容的增多具有一致性关系；即媒体文件音频片段的媒体文件质量的质量等级越高，确定出的关键内容越少，媒体文件音频片段的媒体文件质量的质量等级越低，确定出的关键内容越多。

媒体文件音频片段的媒体文件质量的质量等级可以包括：优、正常、差等级别，由媒体文件音频片段的媒体文件质量与各质量等级的质量等级阈值比较得到；而各质量等级的质量等级阈值由媒体文件的平均质量与预先设定的各等级的阈值因子的融合(如乘积)所确定。媒体文件的平均质量为各个媒体文件音频片段的媒体文件质量的平均值。

对于音频质量较好的音频片段，可以少提取关键内容，从而在保证用户理解语义的基础上,尽可能的提高处理效率；对于音频质量较差的音频片段，可以尽量多的提取关键内容，以便用户能够通过关键内容理解音频的语义。

例如，将音频质量划分为优、正常、差几个等级。

对于音频质量为优的音频片段，可以通过词性+语速+音量来简化内容；

对于音频质量为正常的音频片段，可以只通过语速/音量来进行简化；

对于音频质量为极差的音频片段，可以直接删除。

九、根据播放环境获取关键内容

本发明实施例二中，根据待加速播放的媒体文件的播放环境，获取待加速播放的媒体文件的文本内容中的关键内容。

具体地，根据播放环境，在下述信息中选择获取关键内容所依据的信息：文本内容中内容单元的词性、内容单元的信息量、内容单元的音频音量、内容单元的音频语速、文本内容中感兴趣内容、媒体文件类型、内容源对象信息；根据所选择的信息获取待加速播放的媒体文件的文本内容中的关键内容。实际应用中，也可以根据播放环境、加速速度、媒体文件质量中的至少一种，来选择获取关键内容所依据的信息。

本发明实施例二中，根据播放环境选择获取关键内容所依据的信息，具体包括；根据媒体文件的播放环境的噪音强度等级，选择获取该媒体文件音频片段的文本内容中的关键内容所依据的信息。媒体文件的播放环境的噪音强度等级的增高与确定出的关键内容的增多具有一致性关系，媒体文件的播放环境的噪音强度等级的降低与确定出的关键内容的减少具有一致性关系；即媒体文件的播放环境的噪音强度等级越高，确定出的关键内容越多，媒体文件的播放环境的噪音强度等级越低，确定出的关键内容越少。

实际应用中，接收到用户开启的加速播放操作指令后，终端设备可以实时通过声音采集设备等，检测当前的周围环境，根据周围环境的噪音强度，自适应选择不同的内容简化策略，以满足不同环境的加速播放需要。

例如，当周围环境的噪音强度较低时，可以少提取关键内容，从而在保证用户理解语义的基础上，尽可能的提高处理效率；当周围环境的噪音强度较高时，可以尽量多的提取关键内容，以便用户能够通过关键内容理解音频的语义。

比如，当周围环境的噪音强度低于噪音强度阈值时，可以通过词性、语速、音量来获取关键内容；当周围环境的噪音强度不低于噪音强度阈值时，可以只通过语速或音量来获取关键内容。

其中，可以通过预设的信噪比阈值设置噪音强度阈值，或者，根据待加速播放的媒体文件的媒体文件质量和环境噪声强度的相对值，设置噪音强度阈值。其中，待加速播放的媒体文件的媒体文件质量可以由该媒体文件中各音频帧的音频质量的平均值来确定。

此外，终端设备可以根据周围环境的噪音强度推荐适合的加速速度。例如，当周围环境的噪音强度较低时，推荐较快的加速速度，以便用户从少量的内容中理解音频的语义；当周围环境的噪音强度较高时，推荐较低的加速速度，以便用户能够更加准确、完整的理解音频的语义。

当周围环境的噪音强度不稳定时，终端设备可以根据实时检测到的噪音强度实时调整内容简化策略，例如，当检测到环境的噪音强度较低时，通过词性、语速、音量来简化内容，当实时检测到环境的噪音强度升高后，只通过语速或音量来进行简化。

实施例三

实施例一提供的媒体文件加速播放的方法中，在确定待加速播放的媒体文件的文本内容中的关键内容所对应的媒体文件后，可以考虑根据环境噪音强度、媒体文件质量、语速、音量、加速速度、定位操作指令等因素，调节关键内容所对应的媒体文件的播放策略。

本发明实施例三中，将详细说明如何根据上述因素调节确定出的媒体文件的播放策略。

一、媒体文件的质量增强

当媒体文件的音频质量较差时，对其再进行加速播放会导致人耳无法识别其内容，可以对音频质量较差的部分进行语音增强。

由于噪声和音频信号都是短时稳定的，因此每一段音频信号中，可能同时存在音频质量较高或较差的部分，基于对每一音频帧的音频质量的测量，可以精确的判断音频质量较差的音频帧位置，并相应采取不同的语音增强方案。确定音频帧的音频质量的具体方式请参见“根据媒体文件质量获取关键内容”这一部分的描述，这里不再赘述。

本发明实施例三中，确定待加速播放的媒体文件的文本内容中的关键内容所对应的媒体文件后，可以基于媒体文件质量对确定出的媒体文件进行质量增强；之后，对质量增强后的媒体文件进行播放。

具体地，可以基于媒体文件质量对确定出的媒体文件进行质量增强，具体包括下述至少一种方式：

针对待增强的音频帧，根据与该音频帧的音频质量对应的增强参数，对该音频帧进行语音增强；

针对待增强的音频帧，替换为与该音频帧对应于同一音素的音频帧；

针对待增强的音频片段，替换为根据该音频片段的关键内容进行语音合成后生成的音频片段。

其中，待增强的音频帧是指在待加速播放的媒体文件的文本内容中的关键内容所对应的媒体文件所包含的音频帧中，确定出来需要进行质量增强的音频帧。

实际应用中，针对上述关键内容对应的媒体文件所包含的各音频帧，若该音频帧的音频质量低于设定的第一音频质量阈值，则可以认为该音频帧的音频质量较差，需要进行质量增强，那么该音频帧可以认为是待增强的音频帧。

本发明实施例三提出，若上述关键内容对应的媒体文件所包含的各音频帧中，既有质量较高的音频帧，也有质量较差的音频帧，此时可以采用高精度语音增强方法对待增强的音频帧进行质量增强。具体的，终端设备可以根据与该音频帧的音频质量对应的增强参数，对该音频帧进行语音增强，不同音频帧在进行质量增强时所采用的参数可能不同。或者，也可以选取音频质量较高(如不低于设定的第一音频质量阈值)、且与该音频帧对应于同一音素的音频帧；将该音频帧替换为选取出的音频帧。

其中，音频帧的音频质量具体为如下内容中的一种：

音频帧对应于相应的音素的概率值；

音频帧对应于相应的噪声的概率值；

音频帧对应于相应的音素的概率值与预设的该因素对应概率平均值运算之后的值(如相对值、或比值、或差值)；

音频帧对应于相应的音素的概率值与音频帧对应于相应的噪声的概率值运算之后的值(如差值、或比值)。

待增强的音频帧片段是指在待加速播放的媒体文件的文本内容中的关键内容所对应的媒体文件中，确定出来需要进行质量增强的音频片段。

实际应用中，针对上述关键内容对应的媒体文件，若音频片段的相对音频质量低于设定的第二音频质量阈值，则可以认为该音频片段的音频质量较差，需要进行质量增强，那么该音频片段可以认为是待增强的音频片段。

考虑到当某个音频片段都是质量较差的音频帧时，可能无法利用信号处理方法提高其信号质量，也无法找出对应相同音素且质量较高的音频帧进行替换。此时可以采用语音合成的方式，根据该音频片段的关键内容生成对应的音频片段进行替代。

具体地，如图7所示，将待增强的音频片段进行语音识别后，输入预先设置的语音合成模型；将待增强的音频片段替换为通过语音合成模型进行语音合成后生成的音频片段。其中，语音合成模型是预先通过训练语音、说话人识别、以及模型训练得到的。

其中，音频片段的相对音频质量qn可以通过如下公式确定：

其中，n'为待加速播放的媒体文件的文本内容中的关键内容所对应的媒体文件所包含的音频片段总数；为音频片段的平均音频质量；δt为t时刻的音频帧对应于相应的音素的概率值；nt为t时刻的音频帧对应于相应的噪声的概率值，n为音频片段中包含的音频帧的数量。

二、调节播放速度和/或播放音量

本发明实施例三中，可以基于待加速播放的媒体文件的文本内容中的关键内容所对应的媒体文件的下述信息中的至少一种，确定出对应的播放速度和/或播放音量：音频语速、音频音量、内容重要性、媒体文件质量、播放环境。之后，以确定出的播放速度和/或播放音量播放关键内容所对应的媒体文件。

1、基于媒体文件的媒体文件质量，确定出对应的播放速度和/或播放音量。

本发明的发明人考虑到，对于同一快速播放速度的要求(加速播放速度一定的情况)，可以采用不同的策略实现。当媒体文件的媒体文件质量较高时，尽可能加快各音频片段的播放速度，从而保留更多的关键内容，和/或提高各音频片段的播放音量；当媒体文件的媒体文件质量较低时，各音频片段的播放速度和/或播放音量保持不变，或者放慢各音频片段的播放速度，和/或降低播放音量，尽可能保证音频的播放质量，以便用户理解。

例如，若媒体文件的媒体文件质量不低于预设的第三音频质量阈值，则以第一播放速度播放各音频片段；若媒体文件的媒体文件质量低于第三音频质量阈值，则以第二播放速度播放各音频片段。

其中，第一播放速度为加速播放操作指令所指示的加速速度与预设的第一加速播放因子的融合(如乘积)。第二播放速度为加速播放操作指令所指示的加速速度与预设的第二加速播放因子的融合(如乘积)；第二加速播放因子小于第一加速播放因子。

例如，对于按照3倍加速速度的指令，对于媒体文件质量较高的语音信号，将每一个音频片段的播放速度提升为1.5倍；对于媒体文件质量较差的语音信号，每一个音频片段的播放速度保持不变，或者减慢到0.8倍速度。

更优地，本发明实施例三中，若确定出的媒体文件的媒体文件质量不稳定，则可以针对确定出的媒体文件的每个音频片段，分别根据加速播放操作指令所指示的加速速度，计算出与该音频片段的音频质量对应的播放速度；并以计算出的播放速度播放该音频片段。

2、基于媒体文件的播放环境，确定出对应的播放速度和/或播放音量。

本发明实施例三中，针对待加速播放的媒体文件的文本内容中的关键内容所对应的媒体文件，可以根据周围的播放环境的环境噪音强度，对于同一加速速度的要求，采用不同的播放策略。

(1)当环境噪音强度较低时，加快各音频片段的播放速度，从而保留更多的内容，和/或提高播放音量；

(2)当环境噪音强度较高时，降低各音频片段的播放速度，和/或播放音量，保证音频的播放质量。

因此，本发明实施例三中，可以获取周围环境的噪音强度；根据加速播放操作指令所指示的加速速度，计算出与该环境噪音强度对应的播放速度和/或播放音量；并以计算出的播放速度和/或播放音量播放简化后的音频确定出的媒体文件。

此外，还可以通过压缩空白段的时间达到调整播放速度的目的。

3、基于媒体文件的音频语速/音频音量，确定出对应的播放速度和/或播放音量。

本发明的发明人考虑到，对于某些由于用于强调等原因，一段音频中会出现明显过快/过慢或者语音强度过大/过小的片段，在进行快速播放或浏览之前，需要进行处理，保证整体音频的平稳性。

例：在图8中，图的最后部分存在幅度和语速不符合平均水平的片段，这是由于说话人加重语气所导致的单个词拖得很长，而且声音强度很大。为了能在快速播放和浏览的时候让用户觉得舒适和清晰，需要对音频进行归一化处理：语音的强度(音量)根据平均语音强度(平均音量)进行调整；语音的长度(语速)根据平均语速进行调整，从而得到归一化后的语音，如图9所示。

实际应用中，可以在确定待加速播放的媒体文件的文本内容中的关键内容所对应的媒体文件之后，获取确定出的媒体文件的平均语速；根据加速播放操作指令所指示的加速速度，计算出与获取的平均语速对应的播放速度；并以计算出的播放速度播放确定出的媒体文件。

或者，也可以根据确定出的媒体文件中每个音频帧的音频语速和音频音量，获取确定出的媒体文件的平均音频语速和平均音频音量；以获取的平均音频语速和平均音频音量，播放确定出的媒体文件中的每个音频帧。

4、基于媒体文件的内容重要性，确定出对应的播放速度和/或播放音量。

本发明实施例三中，在加速播放时，可以根据关键内容的重要性级别，按照不同速度和/或音量进行播放，重要性较低的内容以较快速度播放，重要性较高的内容的播放速度保持不变，或者以较低速度播放。媒体文件的内容的重要性可以根据语义理解分析，结合当前音频片段内容的语义和整个播放文件的语义相关性或重复性，当前音频片段内容的语义和上下文之间直接内容的相关性或重复性来进行判断。

具体地，在确定待加速播放的媒体文件的文本内容中的关键内容所对应的媒体文件之后，获取关键内容中每个内容单元的内容重要性；针对每个内容单元，根据加速播放操作指令所指示的加速速度，计算出与该内容单元的内容重要性对应的播放速度和/或播放音量；并以计算出的播放速度和/或播放音量播放该内容单元所对应的媒体文件。

三、媒体文件定位播放

为保障待加速播放的媒体文件的文本内容中的关键内容所对应的媒体文件的可理解性，当用户执行定位操作时，终端设备可以从当前位置的内容在媒体文件的文本内容中对应的句子/段落的开头进行播放，以免信息遗漏。

例如，对于“领导人组织召开中共政治局会议”这句话简化后的内容为“领导人召开中共会议”，当用户听到了“会议”时选择定位到该位置，播放时为了保证用户可以正确理解当前句的完整含义，播放从“领导人”开始。

具体地，本发明实施例三中，确定待加速播放的媒体文件的文本内容中的关键内容所对应的媒体文件之后，检测到定位操作指令后，从定位操作指令定位的内容所对应的媒体文件片段的起始位置开始播放，以此提高加速播放的内容的可理解性。

本方案的媒体文件加速播放方案中，不是通过压缩播放时间实现的，而是通过对内容进行简化播放实现的。简化的内容保留了原内容的关键信息，保证了信息的完整程度，即使播放速度很快，用户也可以在获取到音频的关键内容；此外，播放简化后内容时，通过原始音频的语速估计、音频质量估计，结合加速播放效率的要求，对其播放速度进行调整，保证在该速度下用户可以清楚理解音频内容。

实施例四

实际应用中，本发明实施例一中待加速播放的媒体文件包括以下至少一种：音频文件、视频文件、电子文本文件。因此，本发明实施例四，将针对媒体文件具体为视频文件时的加速播放方案进行详细说明。

实际应用中，媒体文件具体为视频文件时，媒体文件通常包括：音频内容和图像内容。因此，在对媒体进行加速播放时不仅仅涉及到音频内容的加速播放，还涉及到图像内容的加速播放。

本发明实施例四中，媒体文件具体为视频文件时，获取待加速播放的媒体文件的文本内容中的关键内容，具体包括下述至少一项：

根据视频文件的音频内容以及图像内容，确定视频文件的音频内容的关键内容；

根据视频文件的音频内容以及图像内容，确定视频文件的图像内容的关键内容；

根据视频文件类型、视频文件的音频内容、图像内容中的至少一种，确定视频文件对应的关键内容；

根据视频文件的音频内容种类和/或图像内容种类，确定视频文件对应的关键内容。

1、根据视频文件的音频内容以及图像内容，确定视频文件的音频内容的关键内容。

实际应用中，可以根据不同媒体内容、不同场景采用不同策略进行内容简化，获取关键内容。

在视频文件中的场景基本不变，图像内容缓慢变化，而音频内容包括大段对话时，则可依据音频内容判断进行简化，确定视频文件的音频内容的关键内容。

2、根据视频文件的音频内容以及图像内容，确定视频文件的图像内容的关键内容。

在视频文件中音频内容主要为环境噪音、背景音乐或单位时间段内语音内容较少，而视频文件中的场景快速变化、图像内容快速变化的情况，可以依据图像内容判断进行内容简化，确定视频文件的图像内容的关键内容。

3、根据视频文件类型、视频文件的音频内容、图像内容中的至少一种，确定视频文件对应的关键内容。

实际应用中，可以利用媒体文件的视频文件类型所对应的视频类型关键词库，查找出待加速播放的媒体文件的文本内容与视频类型关键词库所共有的关键文本内容；并保留查找出的关键文本内容为关键内容。其中，媒体文件的文本内容可以基于视频文件中包含的文本内容、音频内容、和/或图像内容确定。

例如，新闻类节目，根据固定片花、片头/片尾画面背景等进行图像内容判断，根据“开始”、“结束”等关键词进行音频内容判断，综合判断关键内容。体育类节目，根据体育项目不同项目类型设定关键性画面内容，根据不同项目专属名词确定音频关键内容，综合判断关键内容。

比如，足球比赛中，关键的画面一般有出现红、黄牌的画面；球员、足球和球门在一起的画面；多名球员出现在小范围的画面。

关键的音频内容一般有：“传球”、“射门”、“犯规”和“进球”等。

背景解说的内容在足球比赛中是持续不断的，但真正和比赛进程相关的内容并不多。因此，根据上述结合音频内容和视频图像内容确定视频媒体中的关键信息的方法，可以快速提取一段比赛时间内的关键内容：根据图像判断出“红牌”出现的片段；根据音频判断出“射门”出现的片段；根据音频判断出“传球”出现的片段。

4、根据视频文件的音频内容种类和/或图像内容种类，确定视频文件对应的关键内容。

本发明实施例四中，根据视频文件的音频内容种类，确定视频文件对应的关键内容。具体地，可以根据预设的音频种类训练模型库，从视频文件的音频内容中识别出指定音频类型的音频片段，并保留为关键内容。比如，自然背景类声音类型：如打雷、大雨、狂风等；突发事件类声音类型：如剧烈撞击、刹车等；人物发出的非语音类型：如尖叫、哭泣等。

更优地，根据视频文件的图像内容种类，确定视频文件对应的关键内容。具体地，可以根据预设的图像种类训练模型库，从视频文件的图像内容中识别出指定图像类型的图像片段，并保留为关键内容。比如，自然类图像类型：如闪电、火山爆发、大雨等；突发事件图像类型：车祸、大楼倒塌等；人物状态突变类型：突然奔跑、晕倒等。

进一步地，实际应用中，对于较短时间内连续出现大量的特殊类型声音或图像，可以结合这些声音或图像位置附近的音频内容和图像内容加以判断，若这些声音或图像关系到媒体内容的进展，则可以保留为关键内容。

本发明实施例四中，在得到视频文件对应的关键内容之后，可以通过下述至少一项，播放确定出的媒体文件：

在视频文件的图像内容中，根据音频内容和图像内容之间的对应关系，提取音频内容的关键内容所对应的图像内容，将音频内容的关键内容对应的音频帧和提取出的图像内容对应的图像帧同步播放；其中，在此基础上，如果存在对简化后的视频文件继续加速播放的需求，则可以按照加速播放的播放速度要求，增加单位时间播放的图像帧的数量和音频帧的数量；

播放音频内容的关键内容对应的音频帧，以及按照加速速度播放视频文件的图像帧，此时图像内容和音频内容可能不是同步的；

播放音频内容的关键内容对应的音频帧，以及图像内容的关键内容对应的图像帧，此时图像内容和音频内容可能不是同步的。

实施例五

本发明实施例一中待加速播放的媒体文件包括以下至少一种：音频文件、视频文件、电子文本文件。

因此，本发明实施例五将针对媒体文件具体为电子文本文件时的加速播放方案、媒体文件具体为电子文本文件和视频文件时的加速播放方案、以及媒体文件具体为电子文本文件和音频文件时的加速播放方案进行说明。

1、媒体文件具体为电子文本文件

媒体文件具体为电子文本文件时，可根据电子文本文件对应的下述至少一种信息，获取电子文本文件的文本内容中的关键内容：内容单元的词性、内容单元的信息量、文本内容中感兴趣内容、内容源对象信息、加速速度等。

在获取待加速播放的电子文本文件的文本内容中的关键内容之后，确定关键内容所对应的媒体文件，即关键内容所对应的电子文本文件。继而，可以通过下述至少一响播放确定出的媒体文件：显示完整文本内容，并高亮显示关键内容(如用不同字体显示，不同颜色显示，加粗显示，加底色显示等等)；显示完整文本内容，并弱化显示非关键内容(例如加删除线显示等等)；只显示关键内容。

实际应用中，用户可通过触屏、滑动等操作快速定位到感兴趣的内容并退出简化显示模式。例如，用户浏览关键内容时，若通过触屏或滑动等操作定位到“指示”这一感兴趣内容，那么终端设备退出简化显示模式，显示完整文本内容；在显示完整文本内容时，可以高亮显示关键内容，或者弱化显示非关键内容。此外，为了便于用户查看，还可以调整完整文本内容的显示方式，将用户定位的感兴趣内容置于显示屏幕的中心位置，或者置于用户视线焦点处。或者，检测到定位操作指令后，从定位操作指令定位的内容所对应的媒体文件片段的起始位置开始播放。

2、媒体文件具体为电子文本文件和音频文件

本发明实施例五中，可以根据不同设备显示能力，显示待加速播放的媒体文件的文本内容中的关键内容。

对于具有足够大小显示空间的设备，如电子书设备、平板电脑等，可以显示完整文本内容，并高亮显示关键内容；或显示完整文本内容，并弱化显示非关键内容；或只显示关键内容。此外，可以在显示文本时，将音频当前播放的内容标记显示。

对于屏幕可显示空间有限的设备，如智能手机的曲面屏部分、智能手表的屏幕等，可以根据显示空间显示文本，例如显示直线形或环形显示文字，配合手势或物理按键的操作，实现快速的浏览和定位操作。

例如，对于具有侧屏的手机，如图10所示，可以利用侧屏部分的屏幕进行显示，辅助音频的快速播放和浏览操作，以节省电量。具体地，可以通过左右滑动实现内容(文本和/或音频)的前进/后退；通过上、下滑动查看上/下一句/段的内容；通过不同的滑动速度实现内容不同速率的快进/快退；通过点击等触碰操作实现对内容的快速定位。这样，用户点击某文本内容后，终端设备可根据用户点击的文本内容对音频进行快速定位，定位到该文本内容对应的音频位置。

例如，对于智能手表，如图11所示，可以利用手表的外围部分的屏幕进行显示，辅助音频的快速播放和浏览操作。比如，通过顺时针/逆时针拨动表盘，或这顺时针/逆时针滑动手势，实现内容(文本和/或音频)的前进/后退；通过物理按键或虚拟按键查看上/下一句/段的内容；通过不同的拨动速度实现内容不同倍率的快进/快退；通过点击等触碰操作实现对内容的快速定位。用户可以点击某文本内容，终端设备根据用户点击的文本内容对音频进行快速定位，定位到该文本内容对应的音频位置。

3、媒体文件具体为电子文本文件和视频文件

媒体文件具体为电子文本文件和视频文件时，可以通过如下方式获取待加速播放的媒体文件的文本内容中的关键内容：

根据电子文本文件的文本内容确定关键内容；和/或

根据视频文件的音频内容对应的文本内容确定关键内容。

确定出待加速播放的媒体文件的文本内容中的关键内容之后，可以通过下述至少一项播放确定出的媒体文件：

提取文本内容的关键内容所对应的音频内容和/或图像内容，播放提取出的音频内容和/或图像内容；

播放文本内容的关键内容，以及播放识别出的视频文件的关键音频帧和/或关键图像帧；

播放文本内容的关键内容，以及按照加速速度播放视频文件的图像帧和/或音频帧。

本发明实施例五中，可以根据视频文件自带的字幕(电子文本文件)获取文本内容。实际应用中，根据视频自带的字幕获取的文本内容，不包含每个单词的时间位置信息。

获取待加速播放的媒体文件的文本内容中的关键内容之后，可以计算关键内容对应的图像内容的时间位置，并基于计算出的时间位置来播放关键内容对应的图像内容。例如，某30帧图像对应的字幕相同，对该字幕对应的文本内容简化后，可以根据简化得到的关键内容在该字幕中的位置以及所占字数的比例，确定简化得到的关键内容对应的视频帧图像的时间位置。

或者，获取待加速播放的媒体文件的文本内容中的关键内容之后，也可以通过图像分析，确定关键视频帧图像，播放关键内容对应的视频帧图像，视频图像播放不完全对应于简化后的字幕；此时，图像播放的是根据图像处理分析得到的结果，字幕则播放简化得到的关键内容，此时播放的图像和字幕并不一一对应，目的是让用户可以同时通过图像变化和简要文字去获取视频的关键信息。当用户打断、选定或停止快速浏览或播放时，播放的位置根据用户选择或系统预设选定根据图像内容定位或是简化字幕对应的视频位置定位。

或者，获取待加速播放的媒体文件的文本内容中的关键内容之后，可快速播放视频所有图像，只显示简化后的字幕，即获取的关键内容。

实际应用中，如果原视频中字幕是嵌入在图像中的，则可以采用阴影条等方式覆盖或遮挡原字幕，将简化后的字幕显示在覆盖区域之上；如果原视频的字幕信息和图像是分离的则可以直接显示简化后的字幕。

后续，用户可以通过简化后的字幕快速定位到视频相应位置。

由于，此时字幕已经和视频中的音频位置完全同步，通过点击某个字可以直接定位到这个字对应的音频及视频位置；通过滑动、摇晃手机等操作，可以直接快速定位到下一条/多条之后字幕所对应的音频/视频的位置。

本发明实施例五中，除了可以根据视频自带的字幕获取文本相关信息，还可以根据视频中的音频自动识别出对应的文本相关信息。文本相关信息中除了包括文本内容，还可以精确对应文本内容中每个单词和字的时间位置信息。

这样，后续可以根据时间位置信息，通过简化后的文本内容准确获取对应的视频内容，并进行同步播放。其中，视频内容包括：音频与视频图像。或者，也可以快速播放视频所有图像，只显示简化的字幕内容。或者，通过字幕快速定位到视频相应位置。用户点击字幕中的某内容后，终端设备根据用户点击的内容对视频进行快速定位，定位到该内容对应的视频位置。

实施例六

本发明的发明人发现，本发明实施例提供的媒体文件加速播放的方法中，关于关键内容的获取方案，不仅仅可以应用于本地或者服务器的媒体文件的加速播放，还可以根据实际需求提供媒体文件的压缩传输，减小传输对网络环境的要求。例如，设备a需要将某音频传输给设备b，但是目前的网络状态较差，或者设备b的存储空间较小，因此设备a可以先根据实施例一和实施例二的方法将媒体文件进行简化，然后将简化后的媒体文件传输给设备b。

此外，在存储媒体文件时，也可以应用实施例一和实施例二中关于得到简化后的媒体文件的方案。

其中，简化后的媒体文件是指待加速播放的媒体文件的文本内容中的关键内容对应的媒体文件。

实际应用中，可以由接收媒体文件的设备进行简化并存储，例如，设备c接收到其他设备发送的某个媒体文件后，需要存储该媒体文件，但是设备c目前的存储空间很小，不能存储完整的媒体文件，因此设备c可以先将该媒体文件进行简化，然后将简化后的媒体文件进行存储。

也可以由发送媒体文件的设备简化后再发送，例如，设备a需要将某音频传输给设备b，但是设备b的存储空间较小，因此设备a可以先将该媒体文件进行简化，然后将简化后的媒体文件传输给设备b。

因此，基于本发明实施例一提供的媒体文件加速播放的方法，本发明实施例六提供了一种媒体文件传输及存储的方法，如图12所示，其具体流程包括如下步骤：

s1201：在传输或存储媒体文件时，若满足预设的压缩条件，则获取待传输或待存储的媒体文件的文本内容中的关键内容。

其中，通过下述信息中的至少一种确定是否满足压缩条件：

接收方设备的存储空间信息；

网络环境状态。

比如，压缩条件具体为：待传输或存储的媒体文件的占用空间不小于接收方设备的存储空间；或接收方设备的存储能力较小，如存储空间小于预设存储空间阈值；或接收方设备的网络环境状态较差，例如传输速率低于预设速率阈值。这样，可以通过本发明实施例一和实施例二的方案，获取待传输或待存储的媒体文件的文本内容中的关键内容。

s1202：确定待传输或待存储的媒体文件的文本内容中的关键内容对应的媒体文件。

本发明实施例六中，将待传输或待存储的媒体文件的文本内容中的关键内容对应的媒体文件称为压缩后的媒体文件。

s1203：传输或存储确定出的媒体文件。

本发明实施例六中，传输确定出的媒体文件之后，还可以在接收方设备满足预设的完整传输条件时，将媒体文件的完整内容传输至接收方设备。

通过下述信息中的至少一种确定是否满足完整传输条件：

接收方设备发出的补充完整内容请求；

网络环境状态。

其中，网络环境状态指发送\接收方和服务器之间的传输状态，发送\接收方可以根据自己当前和服务器之间的网络状态选择合适的传输策略。

比如，接收方检测到和服务器之间的网络状态良好，则可以向发送方发送补充完整内容请求，发送方接收到补充完整内容请求后，将媒体文件的完整内容传输至接收方；或发送方检测到和服务器之间的网络状态良好，则可以将媒体文件的完整内容传输至接收方。

具体地，可以将待传输的媒体文件的完整内容逐级传输至接收方设备：针对每一级别，利用与该级别对应的简化，对识别出的文本内容进行简化，生成该级别对应的简化后的文本内容；将该级别对应的简化后的音频作为该级别待传输的内容，传输至接收方设备。根据媒体文件当前传输的级别，在下述信息中选择获取关键内容所依据的信息：文本内容中内容单元的词性、内容单元的信息量、内容单元的音频音量、内容单元的音频语速、文本内容中感兴趣内容、媒体文件类型、内容源对象信息。

根据所选择的信息获取待加速播放的媒体文件的文本内容中的关键内容。

例如，当网络条件一般时，发送方设备可以先发送简化后的媒体文件给接收方设备，若接收方设备查看简化后的媒体文件后，想要进一步获取完整内容，可以发送补充完整内容请求(例如通过按键、语音等方式)；发送方设备接收到该请求后，可以发送完整内容给接收方，或者也可以逐级补充完整内容。其中，可以通过实施例二中提供的关键内容获取方案，来实现不同级别的内容补充。例如，首先发送采用词性+语速+音量的策略得到的关键内容，然后再发送采用词性+语速/音量的策略得到的关键内容，再发送采用词性的策略得到的关键内容。

本发明实施例六中，发送方设备不仅可以在接收到补充完整内容请求后，向接收方设备发送完整内容，也可以在检测到网络状态通畅时，自动向接收方设备补充完整内容。

本发明的方案中，实施例六中的方法步骤s1201-s1203的具体实现可以参考实施例一中的方法步骤s401-s403的具体实现，在此不再赘述。

以下将针对设备在存储能力和网络状态不同情况下的自适应调整策略进行详细介绍。

方式1、根据设备存储能力调整传输和存储流程

一般来说可穿戴智能设备(如智能手表等)的存储空间较小，不宜存储大量媒体文件，但是经过简化的媒体内容由于占用空间小，可以存储到该类设备。此外，智能手机也会出现存储空间不足的情况。因此，针对不同设备存在的不同存储空间状态，应采用不同的传输、存储策略完成快速播放和浏览的操作。

本发明的方案中，传输内容时，发送方设备可以在发送内容之前，询问接收方设备的存储能力，若接收方设备具备存储完整内容的存储空间，则发送方设备可以发送完整内容，若接收方设备不具备存储完整内容的存储空间，但是具备存储简化内容的存储空间，则发送方设备可以先简化内容，然后传输简化后的内容。此外，发送方设备也可以根据接收方设备的设备类型来确定存储能力，例如，设备类型为智能手表，则存储能力为小，此时只发送简化内容，设备类型为智能手机，则存储能力为大，可以发送完整内容。

或者，发送方设备发送完整内容到接收方设备，由接收方设备根据自身的存储能力选择存储完整内容还是简化内容。

下面举例说明。以云服务器向智能手机传输内容、云服务器向智能手表传输内容、智能手机向智能手表传输内容为例进行说明。

在下面的例子，如表4.1、表4.2、表4.3、表4.4所示，预先设定智能手表的存储空间较大时，只允许智能手表存储简化内容，存储空间小时，不进行存储，只实时显示。此外，也可以在智能手表的存储空间较大，并具备存储完整内容的存储空间时，存储完整内容，在智能手表不具备存储完整内容的存储空间，但是具备存储简化内容的存储空间时，存储简化内容，在智能手表不具备存储简化内容的存储空间时，不进行存储，只实时显示。

表4.1

表4.2

表4.3

表4.4

方式2、根据网络状态确定媒体内容传输策略

本发明实施例六中，可以采用但不限于网络信号强度、网络传输速度和网络传输速度稳定性判断网络环境状态，在网络情况不通畅的情况，可以通过传输简化内容或压缩数据的情况来实现流程的快速播放和浏览操作。此处的网络状态指的发送/接收方和服务器之间的传输状态，发送/传输方可以根据自己当前和服务器之间的网络状态选择合适的传输策略。

在网络情况通畅时，对应的传输策略为传输完整媒体内容到接收方设备；在网络情况一般时，对应的传输策略为先传输简化后的媒体文件，然后逐级补充完整内容；或者对媒体文件进行分段压缩传输，质量高的数据采用高的压缩倍率，质量低的数据采用低的压缩倍率；在网络情况差时，对应的传输策略为只传输简化后的媒体文件；或者只传输关键内容，接收方设备在本地合成产生关键内容对应的媒体文件。

方式3、根据网络状态确定语音/视频通话时的数据传输策略

本发明实施例六中，可以基于网络的语音通话，如ip电话、voip和电话会议等的网络状态来实现语音的快速播放和浏览操作。

在网络情况通畅时，对应的传输策略为通信双方的设备向服务器传输完整音/视频，服务器将通信双方的完整音/视频传输给对端；在网络情况一般时，对应的传输策略为先传输简化内容，然后逐级补充完整内容；或者对音频/视频进行分段压缩传输，质量高的数据采用高的压缩倍率，质量低的数据采用低的压缩倍率；在网络情况差时，对应的传输策略为只传输简化后的媒体内容；或者只传输简化后的文本内容，接收方设备在本地利用语音合成产生音频。

实施例七

基于本发明实施例一提供的媒体文件加速播放的方法，本发明实施例七提供了一种媒体文件加速播放的装置，如图13所示，具体包括：关键内容获取模块1301、媒体文件确定模块1302和媒体文件播放模块1303。

其中，关键内容获取模块1301用于获取待加速播放的媒体文件的文本内容中的关键内容。

媒体文件确定模块1302用于确定关键内容获取模块1301获取的关键内容对应的媒体文件。

媒体文件播放模块1303用于播放媒体文件确定模块1302确定出的媒体文件。

实际应用中，媒体文件加速播放的装置中的关键内容获取模块1301、媒体文件确定模块1302和媒体文件播放模块1303可以均设置于同一设备中，比如均设于云服务器、或智能手机、或智能手表。

或者，媒体文件加速播放的装置中的关键内容获取模块1301、媒体文件确定模块1302和媒体文件播放模块1303也可以设置于不同的设备中。而不同的设备之间存在数据传输。

相对于数据传输，进行语音识别、内容简化和音频/视频处理需要更大的功耗，因此，当参与快速播放和浏览操作的一个或多个智能设备电量不足时，应针对不同情况，采取不同的操作策略。

例如，在下面的例子中，如表5.1、表5.2、表5.3、表5.4所示，在单一设备完成所有快速播放/浏览的相关处理。

表5.1

表5.2

表5.3

表5.4

例如，在下面的例子中，如表6.1、表6.2、表6.3、表6.4所示，在不同智能设备分布完成快速播放或浏览所需的相关处理。

表6.1

表6.2

表6.3

表6.4

本发明的方案中，实施例七提供的媒体文件加速播放的装置中各模块的具体功能实现，可以参照实施例一提供的媒体文件加速播放的方法的具体步骤，在此不再详述。

实施例八

基于实施例六提供的媒体文件传输及存储的方法，本发明实施例八提供了一种媒体文件传输及存储的装置，如图14所示，该装置包括：关键内容获取模块1401、媒体文件确定模块1402、传输或存储模块1403。

关键内容获取模块1401用于在传输或存储媒体文件时，若满足预设的压缩条件，则获取待传输或待存储的媒体文件的文本内容中的关键内容。

媒体文件确定模块1402用于确定关键内容获取模块1401获取的关键内容对应的媒体文件。

传输或存储模块1403用于传输或存储媒体文件确定模块1402确定出的媒体文件。

本发明的方案中，实施例八提供的媒体文件传输及存储的装置中各模块的具体功能实现，可以参照实施例一提供的媒体文件加速播放的方法、以及实施例六提供的媒体文件传输及存储的方法的具体步骤，在此不再详述。

本发明的方案中，不仅仅可以应用于本地或者服务器的音频视频播放，还可以根据需要提供简化的音频视频传输内容，减小传输对网络环境的要求。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-onlymemory，只读存储器)、ram(randomaccessmemory，随即存储器)、eprom(erasableprogrammableread-onlymemory，可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：包飞;王宪亮;朱璇
技术所有人：北京三星通信技术研究有限公司;三星电子株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。