多媒体播放方法、装置及多媒体存储方法与流程

文档序号：11254367阅读：657来源：国知局

本发明涉及一种多媒体播放方法及装置。

背景技术：

多媒体点播系统(demandmultimediasystem)是多媒体网络应用的常见形式，主要应用包括：视频点播(videoondemand，vod)、电影点播(movieondemand，mod)，新闻点播(newsondemand，nod)等。随着网络、计算机、音视频处理等技术的快速发展，多媒体点播服务已得到了广泛应用。

多媒体服务系统多采用客户机／服务器(c／s)模式。事实上，这也正是由于多媒体数据量大等特性(需要大存储容量或高处理能力)促使客户机/服务器模式的实现，因此多媒体服务器就是为其他系统(多媒体客户机)提供多媒体服务的计算机系统。现有多媒体服务系统对于影视剧等多媒体的存储方式往往如图1所示，即将其视频和音频文件分开来存储，在用户点播时，实时将视频和音频同步播放。一部影片或音乐作品通常有多个音频版本(最常见的是多个语种)，这样就需要有储存多份音频数据，一方面需要占用大量的存储资源；另一方面，多媒体播放时只能听到原始配音，而原始配音不一定适合所有用户，难以满足用户个性化的欣赏需求。

技术实现要素：

本发明所要解决的技术问题在于克服现有技术不足，提供一种多媒体播放方法及装置，一方面可大幅降低多媒体占用的存储资源，另一方面可根据用户要求调整角色配音，从而满足用户个性化的欣赏需求。

本发明具体采用以下技术方案解决上述技术问题：

一种多媒体播放方法，包括以下步骤：

s1、获取多媒体的文件信息及用户所确定的配音配置，所述文件信息包括多媒体的视频、背景音频、配音文本的存储信息，所述配音配置包括各角色的声纹特征；

s2、根据所述文件信息获取所述多媒体的视频、背景音频、配音文本；

s3、根据所述配音文本和配音配置生成配音音频，该配音音频中各角色的声纹特征与配音配置中各角色的声纹特征相吻合；

s4、将所述配音音频与背景音频合成为所述多媒体的音频；

s5、同步播放所述多媒体的视频和音频。

进一步地，所述配音配置还包括配音所使用的语种。更进一步地，所述配音配置还包括配音所使用的方言类型。

优选地，步骤s1～s4由远端的服务器完成，步骤s5由本地的智能终端完成，所述服务器与智能终端之间可实现信息交互。

一种多媒体播放装置，包括：

信息获取模块，用于获取多媒体的文件信息及用户所确定的配音配置，所述文件信息包括多媒体的视频、背景音频、配音文本的存储信息，所述配音配置包括各角色的声纹特征；

文件获取模块，用于根据所述文件信息获取所述多媒体的视频、背景音频、配音文本；

配音音频生成模块，用于根据所述配音文本和配音配置生成配音音频，该配音音频中各角色的声纹特征与配音配置中各角色的声纹特征相吻合；

音频合成模块，用于将所述配音音频与背景音频合成为所述多媒体的音频；

播放模块，用于同步播放所述多媒体的视频和音频。

进一步地，所述配音配置还包括配音所使用的语种。更进一步地，所述配音配置还包括配音所使用的方言类型。

优选地，信息获取模块、文件获取模块、配音音频生成模块、音频合成模块设置于远端的服务器中，播放模块设置于本地的智能终端中，所述服务器与智能终端之间可实现信息交互。

基于同一发明构思还可以得到以下技术方案：

一种多媒体存储方法，首先提取出原始多媒体文件的视频、音频；然后从所提取的音频中分割出背景音频和配音音频；将所分割出的配音音频转换为配音文本；将所述视频、背景音频、配音文本分别存储。

进一步地，该方法还包括以下步骤：从所分割出的配音音频中提取出各角色的声纹特征，并将记载各角色的声纹特征的文本信息加入所述配音文本中。

相比现有技术，本发明具有以下有益效果：

本发明将多媒体的视频、背景音频、配音文本分别存储，并在播放时实时合成；由于文本数据相比音频数据占用的存储空间小得多，因此可大幅降低海量多媒体资源的存储消耗；另一方面，本发明在合成多媒体的配音音频时，可根据用户喜好为角色选取配音的声纹特征，满足了用户个性化的欣赏需求，提升了用户体验。

附图说明

图1为现有多媒体存储方式示意图；

图2为本发明多媒体存储方式示意图；

图3为本发明多媒体播放装置一个具体实施例的结构原理示意图；

图4为用于确定配音配置的一个用户界面实例；

图5为音频服务器合成音频的流程示意图。

具体实施方式

针对现有技术所存在的存储资源消耗量大以及无法满足用户个性化欣赏需求的不足，本发明的思路是将多媒体的视频、背景音频、配音文本分别存储，并在播放时实时合成；由于文本数据相比音频数据占用的存储空间小得多，因此可大幅降低海量多媒体资源的存储消耗；另一方面，本发明在合成多媒体的配音音频时，可根据用户喜好为角色选取配音的声纹特征，满足了用户个性化的欣赏需求，提升了用户体验。

所谓声纹(voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。在实际生活中，每个人说话时的语声，都有自己的特点。很熟悉的人之间，可以只听声音而相互辨别出来，这就是语声人各不同的特性。人体发声器官的微小差异都会导致发声气流的改变，造成音质、音色的差别。此外，人发声的习惯亦有快有慢，用力有大有小，也造成音强、音长的差别。音高、音强、音长、音色在语言学中被称为语音“四要素”，这些因素又可分解成九十余种特征。这些特征表现了不同声音的不同波长、频率、强度、节奏。可以把声波的变化转换成电讯号的强度、波长、频率、节奏变化，仪器又把这些电讯号的变化绘制成波谱图形，就成了声纹。从声纹信号中可以提取出表征说话人个性特征的特征参数（例如倒频谱参数lpcc、美尔频率倒谱参数mfcc等），即声纹特征。得益于语音信号处理技术（尤其是其中的语音识别、语音合成、语音编码、声纹识别这四大分支技术）以及计算机和网络技术的迅猛发展，为多媒体进行在线实时配音成为可能。

本发明预先采用如图2所示方式进行多媒体的存储。具体存储方法如下：

步骤1、提取出原始多媒体文件的视频、音频；

多媒体（multimedia）是多种媒体的综合，一般包括文本，声音和图像等多种媒体形式。在计算机系统中，多媒体指组合两种或两种以上媒体的一种人机交互式信息交流和传播媒体。常用的媒体包括文字、图片、照片、声音、动画和影片，以及程式所提供的互动功能。根据编码方式以及具体应用的不同，原始的多媒体文件通常以mvo、avi、mp3、mp4、wmv、mpg、ram、ra、dvd等格式进行存储。将原始多媒体文件的视频数据、音频数据分别提取出来，具体提取方法为现有成熟技术，此处不再赘述。

步骤2、从所提取的音频中分割出背景音频和配音音频；

可实现该功能的现有技术很多，例如可直接使用目前已商用的pazerafreeaudioextractor、adobeaudition等软件实现。其中，背景音频也可以由影片制作公司提供，因为影片公司在制作影片时，背景音频和配音通常是分别制作的。

步骤3、将所分割出的配音音频转换为配音文本；

可以通过人工进行转换或者采用语音识别技术自动转换。配音文本的具体格式可以自行定义。考虑到影视剧原始配音往往是多数人的选择，因此有必要保留原始配音作为用户的可选项（通常设定为默认选项）。本发明具体采用以下方法：从所分割出的配音音频中提取出各角色的声纹特征，并将记载各角色的声纹特征的文本信息加入所述配音文本中。以下是个本发明配音文本的一个例子：

<影片信息>

<时长>01:30:00</时长>

<语种>中文</语种>

</影片信息>

<角色标签>

<男主角1>

<姓名>关羽</姓名>

<年龄>31</年龄>

<性格>豪迈</性格>

<默认声纹>演员陆树铭声纹</默认声纹>

</男主角1>

……

</角色标签>

<正文>

00:00:01-00:00:07关羽(傲慢|中速|中等)：吾观颜良，如插标卖首耳……

……

</正文>

步骤4、将所述视频、背景音频、配音文本分别存储；

视频、背景音频、配音文本这三种数据可存储于本地，也可分别存储于相应的同一云端数据库、服务器或者不同的云端数据库、服务器中。

图3显示了本发明多媒体播放装置一个具体实施例的结构原理，其实质上是一套多媒体点播系统。如图3所示，该装置包括四个云服务器：点播服务器、配音文本服务器、音频服务器和视频服务器，以及分别用于存储视频、背景音频、配音文本的三个云数据库。该装置提供多媒体点播服务的具体流程如下：

点播服务器通过与智能终端的信息交互得到用户的点播请求，根据点播请求从自身存储的多媒体文件索引中找到所点播影视剧的文件信息，所述文件信息包括多媒体的视频、背景音频、配音文本的存储地址、文件大小等存储信息，还可以包括影视剧的时长、角色等信息。

点播服务器还通过与智能终端的信息交互获得用户所确定的配音配置，所述配音配

置包括各角色的声纹特征。图4显示了用于确定配音配置的一个用户界面实例，通过点击界面中相应的按钮即可为各个角色选取自己喜欢的声纹特征。用户不点击则为默认声纹特征（通常为原始配音的声纹特征），用户点击替换后可以弹出下一级选项：

a.本地声纹库b.网络声纹库

如果选了本地声纹库则弹出本地声纹特征列表给用户选择；如果选了网络声纹库则

弹出输入框给用户填写声纹特征名称，例如可以利用“刘德华”、“唐老鸭”、“赵本山”等广为人知的角色名称来命名相应的声纹特征，也可以为每一种声纹特征配置一小段相应示例音频以供用户试听选择。还可进一步在配音配置中增加中文、英文、法文等配音所使用的语种选项，甚至还可加入粤语、闽南语、四川话等方言选项。

s2、根据所述文件信息获取所述多媒体的视频、背景音频、配音文本；

点播服务器将相应的文件信息分别发送给配音文本服务器、音频服务器和视频服务器，同时将用户确定的配音配置发送给配音文本服务器。配音文本服务器、音频服务器和视频服务器分别从相应的数据库中找出相应的配音文本、背景音频、视频。配音文本服务器将配音文本与用户确定的配音配置一起发送至音频服务器。

s3、根据所述配音文本和配音配置生成配音音频，该配音音频中各角色的声纹特征与配音配置中各角色的声纹特征相吻合；

音频服务器利用语音合成技术将配音文本转换为相应的配音音频，并根据配音配置为各角色的配音音频赋予相应的声纹特征，使得配音音频中各角色的声纹特征与配音配置中各角色的声纹特征相吻合。具体的语音合成可采用现有各种技术，例如中国发明专利cn104485099a、cn105023570a、cn102117614b等所公开的技术。还可以与翻译引擎相结合进行语种的转换。

s4、将所述配音音频与背景音频合成为所述多媒体的音频；

音频服务器通过时间戳等手段将生成的配音音频与背景音频进行合成，得到用户所点播多媒体的个性化音频。图5显示了本实施例中音频服务器合成音频的基本流程。

s5、同步播放所述多媒体的视频和音频；

视频服务器和音频服务器将视频和音频同步传输至智能终端播放。

以上仅为本发明的一个具体实施例，实际上点播服务器、配音文本服务器、音频服务器和视频服务器可以是同一个服务器，相应的数据库也可以使用同一个数据库。随着存储、运算等技术的进一步发展，上述多媒体播放方法也可以在本地智能终端上独立实现。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈凌奇
技术所有人：微鲸科技有限公司
我是此专利的发明人

上一篇：视频数据的传输方法、装置及系统与流程
上一篇：管理视音频的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。