一种基于语音的视频倍速播放方法及系统与流程

文档序号：18544261发布日期：2019-08-27 21:31阅读：858来源：国知局

本发明属于视频倍速播放技术领域，特别涉及一种基于语音的视频倍速播放方法及系统。

背景技术：

观看视频时，尤其是观看网络视频时，若需要尽快看完一部视频，用户通常会选择倍速播放。

目前市场上现有视频播放终端均提供了固定倍速支持，但所有播放器均无自动倍速支持，因而需要用户根据视频中的语音播放快慢切换播放倍速速率，即需要人工判断并选择合适的倍速速率播放，而无法做到自动倍速或智能倍速播放。

技术实现要素：

本发明的目的在于，针对上述现有技术的不足，提供一种基于语音的视频倍速播放方法及系统，能够通过视频中的语音自动计算倍速速率，使得用户能够以智能变化的最合适的倍速速率看完整部视频，在视频倍速播放过程中，倍速速率能够进行自动智能调整，而无需用户手动调整倍速速率，用户体验好。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于语音的视频倍速播放方法，其特点是：

在视频文件预处理时，包括以下步骤：

步骤a，读取视频文件中的语音信息；

步骤b，对所述语音信息进行分析，根据语音信息的快慢将视频文件分解为对应的多段子视频，并获得各子视频段基于对应语音信息的倍速速率；

步骤c，利用各子视频段对应的倍速速率按照时间顺序形成倍速描述文件；

在视频文件播放时，包括以下步骤：

步骤d，加载并解析倍速描述文件；

步骤e，视频文件播放至某子视频段时，根据倍速描述文件中的该子视频段对应的倍速速率播放视频文件。

作为一种优选方式，所述步骤b中，各子视频段基于语音信息的倍速速率确定方法为：根据语音信息识别结果，计算吐词速度，对比90％以上人群能够听懂的最快吐词速度，计算各子视频段的倍速速率。

作为另一种优选方式，所述步骤b中，各子视频段基于语音信息的倍速速率确定方法为：使用机器学习方法训练语音倍速播放模型，将语音信息识别结果输入语音倍速播放模型，获得各子视频段的倍速速率。

作为一种优选方式，倍速描述文件和对应的视频文件一起分发。

基于同一个发明构思，本发明还提供了一种基于语音的视频倍速播放系统，其特点是包括：

语音信息读取单元：用于在视频文件播放器读取视频文件中的语音信息；

语音信息分析单元：用于对语音信息读取单元读取的语音信息进行分析，根据语音信息的快慢将视频文件分解为对应的多段子视频，并获得各子视频段基于对应语音信息的倍速速率；

倍速描述文件形成单元：用于利用各子视频段对应的倍速速率按照时间顺序形成倍速描述文件；

播放器：用于播放视频文件，并用于加载并解析倍速描述文件；在视频文件播放至某子视频段时，根据倍速描述文件中的该子视频段对应的倍速速率播放视频文件。

作为一种优选方式，所述语音信息分析单元中，根据语音信息识别结果，计算吐词速度，对比90％以上人群能够听懂的最快吐词速度，计算各子视频段的倍速速率。

作为另一种优选方式，所述语音信息分析单元中，使用机器学习方法训练语音倍速播放模型，将语音信息识别结果输入语音倍速播放模型，获得各子视频段的倍速速率。

作为一种优选方式，倍速描述文件和对应的视频文件一起分发至播放器。

与现有技术相比，本发明能够通过视频中的语音自动计算倍速速率，使得用户能够以智能变化的最合适的倍速速率看完整部视频，在视频倍速播放过程中，倍速速率能够进行自动智能调整，而无需用户手动调整倍速速率，用户体验好。

附图说明

图1为本发明一实施例原理图。

具体实施方式

如图1所示，本发明所述的基于语音的视频倍速播放方法中，在视频文件预处理时，包括以下步骤：

步骤a，读取视频文件中的语音信息；

步骤b，对所述语音信息进行分析，根据语音信息的快慢将视频文件分解为对应的多段子视频，并获得各子视频段基于对应语音信息的倍速速率；从而得到适合每段子视频播放的倍速速率。

各子视频段基于语音信息的倍速速率确定方法有多种，在一种方式中，根据语音信息识别结果，计算吐词速度，对比大多数人（如90％以上人群）能够听懂的最快吐词速度，计算各子视频段的倍速速率。在另一种方式中，使用机器学习方法训练语音倍速播放模型，将语音信息识别结果输入语音倍速播放模型，获得各子视频段的倍速速率。视频中的每段可基于视频中语音计算倍速速率，在保证用户听得清的前提下，视频文件能够基于语音自动调整倍速速率。

步骤c，利用各子视频段对应的倍速速率按照时间顺序形成倍速描述文件；倍速描述文件可以和对应的视频文件保存在一起，并一起分发。

本实施例中，倍速描述文件包含子视频段的时间点及其对应的倍速速率。直到遇到下一个子视频段的时间点前，均保持前一个时间点的播放倍速速率。倍速描述文件一个示例如下：

00:00:00,0001

00:05:00,1002

00:15:00,1231.2

时间点格式为hours:minutes:seconds,milliseconds

上述倍速描述文件的含义为：视频文件从开始以正常倍速播放，第5分钟100毫秒切换为2倍速速率播放，第15分钟123毫秒切换为1.2倍速速率播放至下一个时间点或视频播放结束。

步骤a~步骤c在视频文件预处理时处理好即可，每个视频文件只需处理一次。

在视频文件播放时，包括以下步骤：

步骤d，加载并解析倍速描述文件；

步骤e，视频文件播放至某子视频段时，根据倍速描述文件中的该子视频段对应的倍速速率播放视频文件。

播放器播放视频文件时，还需要加载并解析倍速描述文件，从而根据倍速描述文件中的时间点及倍速速率信息自动切换视频文件的倍速速率。

本发明所述的基于语音的视频倍速播放系统包括：

语音信息读取单元：用于在视频文件播放器读取视频文件中的语音信息；

倍速描述文件形成单元：用于利用各子视频段对应的倍速速率按照时间顺序形成倍速描述文件；其中，倍速描述文件和对应的视频文件一起分发至播放器，供播放器使用。

在第一种方案中，所述语音信息分析单元中，根据语音信息识别结果，计算吐词速度，对比90％以上人群能够听懂的最快吐词速度，计算各子视频段的倍速速率。

在第二种方案中，所述语音信息分析单元中，使用机器学习方法训练语音倍速播放模型，将语音信息识别结果输入语音倍速播放模型，获得各子视频段的倍速速率。

如图1所示，在视频文件预处理后生成的倍速描述文件与对应的视频文件一起，存放于视频源站服务器。然后，播放器通过网络访问视频源站服务器或cdn服务器，从视频源站服务器或cdn服务器上获得视频文件与对应的倍速描述文件，从而自动调整倍速速率对视频文件进行播放。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是局限性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐文滔;李兴平;曹问;刘维
技术所有人：湖南快乐阳光互动娱乐传媒有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。