一种多媒体数据处理方法及其设备的制造方法

文档序号：10687168阅读：460来源：国知局

一种多媒体数据处理方法及其设备的制造方法
【专利摘要】本发明实施例公开一种多媒体数据处理方法及其设备，其中方法包括如下步骤：获取用户终端基于多媒体交互应用所输入的图像数据；获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本；对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件；将所述多媒体文件发送至所述用户终端，以使所述用户终端对所述多媒体文件进行输出。采用本发明，可以丰富多媒体文件的展示内容，提升多媒体文件的展示效果。
【专利说明】
一种多媒体数据处理方法及其设备
技术领域
[0001]本发明涉及互联网技术领域，尤其涉及一种多媒体数据处理方法及其设备。
【背景技术】
[0002]随着互联网技术不断的开发和完善，手机和平板电脑等用户终端已经成为了人们生活中不可或缺的一个部分，通过利用这些用户终端中的多媒体交互应用(例如:音乐播放应用、图片展示应用等)可以对网络资源中的多媒体文件进行浏览，例如:播放音乐、搜索图片等，丰富了用户的多媒体数据资源的获取。然而在现有的多媒体交互应用中，其展现的多媒体文件均为预先设置并存储于对应的应用数据库中，导致多媒体文件的展示内容较为单一，影响了多媒体文件的展示效果。

【发明内容】

[0003]本发明实施例提供一种多媒体数据处理方法及其设备，可以丰富多媒体文件的展示内容，提升多媒体文件的展示效果。
[0004]本发明实施例第一方面提供了一种多媒体数据处理方法，可包括:
[0005]获取用户终端基于多媒体交互应用所输入的图像数据；
[0006]获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本；
[0007]对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件；
[0008]将所述多媒体文件发送至所述用户终端，以使所述用户终端对所述多媒体文件进行输出。
[0009]本发明实施例第二方面提供了一种多媒体数据处理设备，可包括:
[0010]图像数据获取单元，用于获取用户终端基于多媒体交互应用所输入的图像数据；
[0011]音频文本获取单元，用于获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本；
[0012]文件生成单元，用于对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件；
[0013]文件发送单元，用于将所述多媒体文件发送至所述用户终端，以使所述用户终端对所述多媒体文件进行输出。
[0014]在本发明实施例中，通过获取用户终端基于多媒体交互应用所输入的图像数据以及获取图像数据对应的音频数据，并获取音频数据中的音频文本，对图像数据和音频文本进行整合处理生成多媒体文件，最终将多媒体文件发送至用户终端进行输出。通过用户终端输入的图像数据，并查找对应的音频数据的音频文本进行整合，实现了自定义设置多媒体文件，丰富了多媒体文件的展示内容，进而提升了多媒体文件的展示效果。
【附图说明】
[0015]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0016]图1是本发明实施例提供的一种多媒体数据处理方法的流程示意图；
[0017]图2是本发明实施例提供的另一种多媒体数据处理方法的流程示意图；
[0018]图3是本发明实施例提供的又一种多媒体数据处理方法的流程示意图；
[0019]图4是本发明实施例提供的一种多媒体数据处理设备的结构示意图；
[0020]图5是本发明实施例提供的另一种多媒体数据处理设备的结构示意图；
[0021 ]图6是本发明实施例提供的一种音频文本获取单元的结构示意图；
[0022]图7是本发明实施例提供的文件生成单元的结构示意图；
[0023]图8是本发明实施例提供的又一种多媒体数据处理设备的结构示意图；
[0024]图9是本发明实施例提供的另一种音频文本获取单元的结构示意图；
[0025]图10是本发明实施例提供的又一种多媒体数据处理设备的结构示意图。
【具体实施方式】
[0026]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0027]本发明实施例提供的多媒体数据处理方法可以应用于自定义对图像数据和音频数据进行整合的场景，例如:多媒体数据处理设备获取用户终端基于多媒体交互应用所输入的图像数据，所述多媒体数据处理设备获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本，所述多媒体数据处理设备对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件，所述多媒体数据处理设备将所述多媒体文件发送至所述用户终端，以使所述用户终端对所述多媒体文件进行输出的场景等。通过用户终端输入的图像数据，并查找对应的音频数据进行整合，实现了自定义设置多媒体文件，丰富了多媒体文件的展示内容，进而提升了多媒体文件的展示效果。
[0028]本发明实施例涉及的多媒体数据处理设备具体可以为多媒体交互应用的后台应用服务设备;所述用户终端可以包括平板电脑、智能手机、个人计算机(PC)、掌上电脑以及移动互联网设备(MID)等具备播放多媒体数据功能的终端设备;所述多媒体交互应用优选为对多媒体文件进行展示的交互应用。
[0029]下面将结合附图1-附图3，对本发明实施例提供的多媒体数据处理方法进行详细介绍。
[0030]请参见图1，为本发明实施例提供了一种多媒体数据处理方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S11-S104。
[0031]SlOl，获取用户终端基于多媒体交互应用所输入的图像数据；
[0032]具体的，多媒体数据处理设备可以获取用户终端基于多媒体交互应用所输入的图像数据，所述图像数据可以为图片或视频，需要说明的是，所述多媒体数据处理设备可以基于所述多媒体交互应用将预先设置并存储的系统图像数据集合发送至所述用户终端，以使所述用户终端对所述系统图像数据集合中的至少一个系统图像数据进行展示，用户可以通过所述用户终端在所述系统图像数据集合中选择系统图像数据;或者用户可以在所述用户终端存储的本地图像数据集合中选择本地图像数据，所述用户终端可以基于所述多媒体交互应用将所述本地图像数据进行上传。所述多媒体数据处理设备可以获取所述用户终端发送的所述所选择的系统图像数据或者获取上传的本地图像数据。其中，所述系统图像数据和所述本地图像数据均为图像数据，采用系统图像数据和本地图像数据的描述方式仅用于区分图像数据的来源。
[0033]S102，获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本；
[0034]具体的，所述多媒体数据处理设备可以获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本，所述音频数据可以包括音频及所述音频对应的音频文本，所述音频数据优选为音乐片段数据，所述音频优选为音乐片段，所述音频文本优选为歌词。
[0035]需要说明的是，针对所选择的系统图像数据，所述多媒体数据处理设备可以预先对应配置有至少一个系统音频数据，所述多媒体数据处理设备可以将与所述所选择的系统图像数据相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对所述所选择的系统图像数据相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在所述所选择的系统图像数据相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备，所述多媒体数据处理设备可以获取所述音频数据，并获取所述音频数据中的音频和所述音频对应的音频文本;或者，所述多媒体数据处理设备可以预先为存储的所有系统图像数据设置对应的至少一个图像类型，针对不同图像类型可以预先配置相关联的至少一个系统音频数据，所述多媒体数据处理设备可以获取所述所选择的系统图像数据所属的目标图像类型，并获取与所述目标图像类型相关联的至少一个系统音频数据，所述多媒体数据处理设备可以将所述与所述目标图像类型相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述目标图像类型相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述目标图像类型相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备，所述多媒体数据处理设备可以获取所述音频数据，并获取所述音频数据中的音频和所述音频对应的音频文本，例如:归类后可以得到失恋、寂寞、浪漫、高兴等图像类型，当所选取的系统图像数据属于失恋类时，可以选取失恋类相关歌曲推荐至用户终端以供用户进行选择等。
[0036]针对上传的本地图像数据，所述多媒体数据处理设备可以对所述本地图像数据进行图像识别处理，优选的，可以采用预先存储的系统图像数据对所述本地图像数据中的至少一个图片或截取的视频图片进行轮廓特征匹配等，以获取所述本地图像数据对应的图像关键信息，所述图像关键信息为用于所述本地图像数据的特征关键字，可以包括颜色(例如:黄色色调等)、图像风格(例如:风景、爱情等)、地理位置(例如:深圳、厦门等)中的至少一种信息，所述多媒体数据处理设备可以自动将所述图像关键信息与预先存储的系统音频数据集合中每个系统音频数据的标签信息进行匹配，并在匹配后获取与所述图像关键信息相关联的至少一个系统音频数据，所述多媒体数据处理设备可以将与所述图像关键信息相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述图像关键信息相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述图像关键信息相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备，所述多媒体数据处理设备可以获取所述音频数据，并获取所述音频数据中的音频和所述音频对应的音频文本。
[0037]S103，对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件；
[0038]具体的，所述多媒体数据处理设备可以对所述所选取的系统图像数据或者上传的所述本地图像数据，以及对应获取的所述音频文本进行整合处理，整合处理过程可以为获取所述图像数据的数据个数，例如:图片的数量等，所述多媒体数据处理设备可以将所述音频文本合并处理至所述图像数据中，即将所述音频文本与所述图像数据进行合成，基于合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，例如:针对合成的多张图片，可以采用图片轮播的播放方式，而针对一张合成的图片，可以采用多种图片展示效果的播放方式等，所述多媒体数据处理设备还需要基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长，例如:视频播放的时间要等于音乐播放的时间等。所述多媒体数据处理设备可以根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频进行数据封装，以生成多媒体文件，可以理解的是，所述预设封装格式可以包括多种数据封装的展示格式，所述多媒体文件优选为所述多媒体交互应用支持的用户心情海报、音乐短片等。
[0039]或者，所述多媒体数据处理设备可以将所述所选取的系统图像数据或者上传的所述本地图像数据，以及对应获取的所述音频文本发送至所述用户终端，由所述用户终端对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件，生成多媒体文件的过程可以与上述描述过程相同，在此不进行赘述。
[0040]S104，将所述多媒体文件发送至所述用户终端；
[0041]具体的，所述多媒体数据处理设备可以将所述多媒体文件发送至所述用户终端，所述用户终端可以对所述多媒体文件进行播放展示，优选的，所述用户终端可以监听是否存在对所述多媒体文件的分享请求，例如:检测到用户点击分享按钮等，所述用户终端可以根据所述多媒体文件生成分享平台支持的展示文件，所述分享平台优选为社交应用的分享平台，所述用户终端可以将所述展示文件上传至所述分享平台。
[0042]在本发明实施例中，通过获取用户终端基于多媒体交互应用所输入的图像数据以及获取图像数据对应的音频数据，并获取音频数据中的音频文本，对图像数据和音频文本进行整合处理生成多媒体文件，最终将多媒体文件发送至用户终端进行输出。通过用户终端输入的图像数据，并查找对应的音频数据的音频文本进行整合，实现了自定义设置多媒体文件，丰富了多媒体文件的展示内容，进而提升了多媒体文件的展示效果。
[0043]请参见图2，为本发明实施例提供了另一种多媒体数据处理方法的流程示意图。如图2所示，本发明实施例的所述方法从选择的系统图像数据的方面进行阐述，该方法可以包括以下步骤S201-步骤S210。
[0044]S201，对预先存储的系统图像数据进行归类处理，生成至少一个图像类型中每个图像类型对应的系统图像数据集合；
[0045]具体的，多媒体数据处理设备可以对存储的所有系统图像数据进行归类处理，生成至少一个图像类型中每个图像类型对应的系统图像数据集合，所述每个图像类型对应的系统图像数据集合可以由开发人员进行人为归类，也可以通过对所有系统图像数据进行图像识别处理后进行自动归类，例如:对所有系统图像数据进行归类后得到的图像类型可以包括失恋、寂寞、浪漫、高兴等。
[0046]S202，配置与所述每个图像类型相关联的至少一个系统音频数据；
[0047]具体的，所述多媒体数据处理设备可以分别配置与所述每个图像类型相关联的至少一个系统音频数据，所配置的至少一个系统音频数据可以由开发人员进行人为选定，或者可以根据图像类型的关键字段、歌词语义解析等方式自动选定，例如:图像类型为失恋，则可以配置关于失恋的音乐或者歌词中包含“失恋”的音乐等。
[0048]S203，基于多媒体交互应用向用户终端发送所述每个图像类型对应的系统图像数据集合，并获取所述用户终端基于所述多媒体交互应用返回的在所述每个图像类型对应的系统图像数据集合中所选择的系统图像数据；
[0049]具体的，所述多媒体数据处理设备可以基于所述多媒体交互应用将预先设置并存储的多个系统图像数据集合发送至所述用户终端，以使所述用户终端对所述系统图像数据集合中的系统图像数据进行展示，用户可以通过所述用户终端在所述系统图像数据集合中选择系统图像数据，所述多媒体数据处理设备获取所述用户终端发送的所述所选择的系统图像数据。
[0050]S204，获取所述所选择的系统图像数据所属的目标图像类型，并获取与所述目标图像类型相关联的至少一个系统音频数据；
[0051]具体的，所述多媒体数据处理设备可以预先为存储的所有系统图像数据设置对应的至少一个图像类型，针对不同图像类型可以预先配置相关联的至少一个系统音频数据，所述多媒体数据处理设备可以获取所述所选择的系统图像数据所属的目标图像类型，并获取与所述目标图像类型相关联的至少一个系统音频数据。
[0052]优选的，所述多媒体数据处理设备也可以预先对应配置有至少一个系统音频数据，所述多媒体数据处理设备可以直接获取与所述所选择的系统图像数据相关联的至少一个系统音频数据。
[0053]S205，将所述与所述目标图像类型相关联的至少一个系统音频数据发送至所述用户终端，并获取所述用户终端返回的在所述与所述目标图像类型相关联的至少一个系统音频数据中所选取的音频数据；
[0054]S206，获取所述音频数据中的音频和所述音频对应的音频文本；
[0055]具体的，针对图像类型，所述多媒体数据处理设备可以将所述与所述目标图像类型相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述目标图像类型相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述目标图像类型相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备，所述多媒体数据处理设备可以获取所述音频数据，所述音频数据可以包括音频及所述音频对应的音频文本，所述音频数据优选为音乐片段数据，所述音频优选为音乐片段，所述音频文本优选为歌词，所述多媒体数据处理设备获取所述音频数据中的音频和所述音频对应的音频文本，例如:归类后可以得到失恋、寂寞、浪漫、高兴等图像类型，当所选取的系统图像数据属于失恋类时，可以选取失恋类相关歌曲推荐至用户终端以供用户进行选择等。
[0056]优选的，针对图像数据，所述多媒体数据处理设备可以将与所述所选择的系统图像数据相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对所述所选择的系统图像数据相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在所述所选择的系统图像数据相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备，所述多媒体数据处理设备可以获取所述音频数据，并获取所述音频数据中的音频和所述音频对应的音频文本。
[0057]S207，将所述音频文本合并处理至所述图像数据中；
[0058]具体的，所述多媒体数据处理设备获取所述图像数据的数据个数，例如:图片的数量等，进一步将所述音频文本合并处理至所述图像数据中，即将所述音频文本与所述图像数据进行合成。
[0059]S208，基于合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，并基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长；
[0060]具体的，所述多媒体数据处理设备可以基于合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，例如:针对合成的多张图片，可以采用图片轮播的播放方式，而针对一张合成的图片，可以采用多种图片展示效果的播放方式等，所述多媒体数据处理设备还需要基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长，例如:视频播放的时间要等于音乐播放的时间等。
[0061]S209，根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频进行数据封装，以生成多媒体文件；
[0062]具体的，所述多媒体数据处理设备可以根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频进行数据封装，以生成多媒体文件，可以理解的是，所述预设封装格式可以包括多种数据封装的展示格式，所述多媒体文件优选为所述多媒体交互应用支持的用户心情海报、音乐短片等。
[0063]优选的，所述多媒体数据处理设备可以将所述所选取的系统图像数据，以及对应获取的所述音频文本发送至所述用户终端，由所述用户终端对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件，生成多媒体文件的过程可以与上述描述过程相同，在此不进行赘述。
[0064]S210，将所述多媒体文件发送至所述用户终端；
[0065]具体的，所述多媒体数据处理设备可以将所述多媒体文件发送至所述用户终端，所述用户终端可以对所述多媒体文件进行播放展示，优选的，所述用户终端可以监听是否存在对所述多媒体文件的分享请求，例如:检测到用户点击分享按钮等，所述用户终端可以根据所述多媒体文件生成分享平台支持的展示文件，所述分享平台优选为社交应用的分享平台，所述用户终端可以将所述展示文件上传至所述分享平台。
[0066]进一步的，所述多媒体数据处理设备还可以对所述音频数据进行存储，用于为后续对所述用户终端进行歌曲推荐时，作为相似推荐歌曲的参考特征。
[0067]在本发明实施例中，通过获取用户终端基于多媒体交互应用所输入的图像数据以及获取图像数据对应的音频数据，并获取音频数据中的音频文本，对图像数据和音频文本进行整合处理生成多媒体文件，最终将多媒体文件发送至用户终端进行输出。通过在多媒体交互应用中选择的图像数据，并查找对应的音频文本进行整合，实现了自定义设置多媒体文件，丰富了多媒体文件的展示内容，进而提升了多媒体文件的展示效果;通过预先设置图像数据和音频数据的关联关系，提升了音频数据获取的效率，进而提升多媒体文件的生成效率;通过设置图像数据的播放方式以及图像播放时长，丰富了多媒体文件的展现形式。
[0068]请参见图3，为本发明实施例提供了又一种多媒体数据处理方法的流程示意图。如图3所示，本发明实施例的所述方法从选择的本地图像数据的方面进行阐述，该方法可以包括以下步骤S301-步骤S309。
[0069]S301，获取用户终端基于多媒体交互应用所上传的本地图像数据；
[0070]具体的，用户可以在所述用户终端存储的本地图像数据集合中选择本地图像数据，所述用户终端可以基于所述多媒体交互应用将所述本地图像数据进行上传。所述多媒体数据处理设备可以获取所述用户终端上传的所述本地图像数据。
[0071]S302，对所述本地图像数据进行图像识别处理，并在图像识别处理后获取所述本地图像数据对应的图像关键信息；
[0072]具体的，所述多媒体数据处理设备可以对所述本地图像数据进行图像识别处理，优选的，可以采用预先存储的系统图像数据对所述本地图像数据中的至少一个图片或截取的视频图片进行轮廓特征匹配等，以获取所述本地图像数据对应的图像关键信息，所述图像关键信息为用于所述本地图像数据的特征关键字，可以包括颜色(例如:黄色色调等)、图像风格(例如:风景、爱情等)、地理位置(例如:深圳、厦门等)中的至少一种信息。
[0073]S303，将所述图像关键信息与预先存储的系统音频数据集合中每个系统音频数据的标签信息进行匹配，并在匹配后获取与所述图像关键信息相关联的至少一个系统音频数据；
[0074]具体的，所述多媒体数据处理设备可以自动将所述图像关键信息与预先存储的系统音频数据集合中每个系统音频数据的标签信息进行匹配，并在匹配后获取与所述图像关键信息相关联的至少一个系统音频数据。进一步的，所述多媒体数据处理设备在获取所述用户终端发送的本地图像数据时，还可以同时获取所述用户终端上传的终端位置信息，所述多媒体数据处理设备在获取到所述图像关键信息后，可以查找并获取与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据，例如:图像关键信息为爱情，终端位置信息为广东省广州市，则可以搜索关于爱情的粵语歌曲等。
[0075]S304，将所述与所述图像关键信息相关联的至少一个系统音频数据发送至所述用户终端，并获取所述用户终端返回的在所述与所述图像关键信息相关联的至少一个系统音频数据中所选取的音频数据；
[0076]S305，获取所述音频数据中的音频和所述音频对应的音频文本；
[0077]具体的，所述多媒体数据处理设备可以将与所述图像关键信息相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述图像关键信息相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述图像关键信息相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备，所述多媒体数据处理设备可以获取所述音频数据，并获取所述音频数据中的音频和所述音频对应的音频文本。
[0078]进一步的，所述多媒体数据处理设备可以将与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备，所述多媒体数据处理设备可以获取所述音频数据，并获取所述音频数据中的音频和所述音频对应的音频文本。
[0079]S306，将所述音频文本合并处理至所述图像数据中；
[0080]具体的，所述多媒体数据处理设备获取所述图像数据的数据个数，例如:图片的数量等，进一步将所述音频文本合并处理至所述图像数据中，即将所述音频文本与所述图像数据进行合成。
[0081]S307，基于合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，并基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长；
[0082]具体的，所述多媒体数据处理设备可以基于合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，例如:针对合成的多张图片，可以采用图片轮播的播放方式，而针对一张合成的图片，可以采用多种图片展示效果的播放方式等，所述多媒体数据处理设备还需要基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长，例如:视频播放的时间要等于音乐播放的时间等。
[0083]S308，根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频进行数据封装，以生成多媒体文件；
[0084]具体的，所述多媒体数据处理设备可以根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频进行数据封装，以生成多媒体文件，可以理解的是，所述预设封装格式可以包括多种数据封装的展示格式，所述多媒体文件优选为所述多媒体交互应用支持的用户心情海报、音乐短片等。
[0085]优选的，所述多媒体数据处理设备可以将所述上传的所述本地图像数据，以及对应获取的所述音频文本发送至所述用户终端，由所述用户终端对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件，生成多媒体文件的过程可以与上述描述过程相同，在此不进行赘述。
[0086]S309，将所述多媒体文件发送至所述用户终端；
[0087]具体的，所述多媒体数据处理设备可以将所述多媒体文件发送至所述用户终端，所述用户终端可以对所述多媒体文件进行播放展示，优选的，所述用户终端可以监听是否存在对所述多媒体文件的分享请求，例如:检测到用户点击分享按钮等，所述用户终端可以根据所述多媒体文件生成分享平台支持的展示文件，所述分享平台优选为社交应用的分享平台，所述用户终端可以将所述展示文件上传至所述分享平台。
[0088]进一步的，所述多媒体数据处理设备还可以对所述音频数据进行存储，用于为后续对所述用户终端进行歌曲推荐时，作为相似推荐歌曲的参考特征。
[0089]在本发明实施例中，通过获取用户终端基于多媒体交互应用所输入的图像数据以及获取图像数据对应的音频数据，并获取音频数据中的音频文本，对图像数据和音频文本进行整合处理生成多媒体文件，最终将多媒体文件发送至用户终端进行输出。通过上传用户终端存储的本地的图像数据，并查找对应的音频文本进行整合，实现了自定义设置多媒体文件，丰富了多媒体文件的展示内容，进而提升了多媒体文件的展示效果;通过识别图像数据中的关键信息，并进行音频数据的查找，进一步实现了多媒体文件的生成，同时结合终端位置信息，可以准确定位需要查找的音频数据;通过设置图像数据的播放方式以及图像播放时长，丰富了多媒体文件的展现形式。
[0090]下面将结合附图4-附图9，对本发明实施例提供的多媒体数据处理设备进行详细介绍。需要说明的是，附图4-附图9所示的多媒体数据处理设备，用于执行本发明图1-图3所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1-图3所示的实施例。
[0091]请参见图4，为本发明实施例提供了一种多媒体数据处理设备的结构示意图。如图4所示，本发明实施例的所述多媒体数据处理设备I可以包括:图像数据获取单元11、音频文本获取单元12、文件生成单元13和文件发送单元14。
[0092]图像数据获取单元11，用于获取用户终端基于多媒体交互应用所输入的图像数据；
[0093]具体实现中，所述图像数据获取单元11可以获取用户终端基于多媒体交互应用所输入的图像数据，所述图像数据可以为图片或视频，需要说明的是，所述图像数据获取单元11可以基于所述多媒体交互应用将预先设置并存储的系统图像数据集合发送至所述用户终端，以使所述用户终端对所述系统图像数据集合中的至少一个系统图像数据进行展示，用户可以通过所述用户终端在所述系统图像数据集合中选择系统图像数据;或者用户可以在所述用户终端存储的本地图像数据集合中选择本地图像数据，所述用户终端可以基于所述多媒体交互应用将所述本地图像数据进行上传。所述图像数据获取单元11可以获取所述用户终端发送的所述所选择的系统图像数据或者获取上传的本地图像数据。其中，所述系统图像数据和所述本地图像数据均为图像数据，采用系统图像数据和本地图像数据的描述方式仅用于区分图像数据的来源。
[0094]音频文本获取单元12，用于获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本；
[0095]具体实现中，所述音频文本获取单元12可以获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本，所述音频数据可以包括音频及所述音频对应的音频文本，所述音频数据优选为音乐片段数据，所述音频优选为音乐片段，所述音频文本优选为歌
Τ.κ| ο
[0096]需要说明的是，针对所选择的系统图像数据，所述多媒体数据处理设备I可以预先对应配置有至少一个系统音频数据，所述音频文本获取单元12可以将与所述所选择的系统图像数据相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对所述所选择的系统图像数据相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在所述所选择的系统图像数据相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备I，所述音频文本获取单元12可以获取所述音频数据，并获取所述音频数据中的音频和所述音频对应的音频文本;或者，所述多媒体数据处理设备I可以预先为存储的所有系统图像数据设置对应的至少一个图像类型，针对不同图像类型可以预先配置相关联的至少一个系统音频数据，所述音频文本获取单元12可以获取所述所选择的系统图像数据所属的目标图像类型，并获取与所述目标图像类型相关联的至少一个系统音频数据，所述音频文本获取单元12可以将所述与所述目标图像类型相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述目标图像类型相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述目标图像类型相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备I，所述音频文本获取单元12可以获取所述音频数据，并获取所述音频数据中的音频和所述音频对应的音频文本，例如:归类后可以得到失恋、寂寞、浪漫、高兴等图像类型，当所选取的系统图像数据属于失恋类时，可以选取失恋类相关歌曲推荐至用户终端以供用户进行选择等。
[0097]针对上传的本地图像数据，所述音频文本获取单元12可以对所述本地图像数据进行图像识别处理，优选的，可以采用预先存储的系统图像数据对所述本地图像数据中的至少一个图片或截取的视频图片进行轮廓特征匹配等，以获取所述本地图像数据对应的图像关键信息，所述图像关键信息为用于所述本地图像数据的特征关键字，可以包括颜色(例如:黄色色调等)、图像风格(例如:风景、爱情等)、地理位置(例如:深圳、厦门等)中的至少一种信息，所述音频文本获取单元12可以自动将所述图像关键信息与预先存储的系统音频数据集合中每个系统音频数据的标签信息进行匹配，并在匹配后获取与所述图像关键信息相关联的至少一个系统音频数据，所述多媒体音频文本获取单元12可以将与所述图像关键信息相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述图像关键信息相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述图像关键信息相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备I，所述音频文本获取单元12可以获取所述音频数据，并获取所述音频数据中的音频和所述音频对应的音频文本。
[0098]文件生成单元13，用于对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件；
[0099]具体实现中，所述文件生成单元13可以对所述所选取的系统图像数据或者上传的所述本地图像数据，以及对应获取的所述音频文本进行整合处理，整合处理过程可以为获取所述图像数据的数据个数，例如:图片的数量等，所述文件生成单元13可以将所述音频文本合并处理至所述图像数据中，即将所述音频文本与所述图像数据进行合成，基于所述合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，例如:针对合成的多张图片，可以采用图片轮播的播放方式，而针对一张合成的图片，可以采用多种图片展示效果的播放方式等，所述文件生成单元13还需要基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长，例如:视频播放的时间要等于音乐播放的时间等。所述文件生成单元13可以根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频进行数据封装，以生成多媒体文件，可以理解的是，所述预设封装格式可以包括多种数据封装的展示格式，所述多媒体文件优选为所述多媒体交互应用支持的用户心情海报、音乐短片等。
[0100]或者，所述多媒体数据处理设备I可以将所述所选取的系统图像数据或者上传的所述本地图像数据，以及对应获取的所述音频文本发送至所述用户终端，由所述用户终端对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件，生成多媒体文件的过程可以与上述描述过程相同，在此不进行赘述。
[0101]文件发送单元14，用于将所述多媒体文件发送至所述用户终端；
[0102]具体实现中，所述文件发送单元14可以将所述多媒体文件发送至所述用户终端，所述用户终端可以对所述多媒体文件进行播放展示，优选的，所述用户终端可以监听是否存在对所述多媒体文件的分享请求，例如:检测到用户点击分享按钮等，所述用户终端可以根据所述多媒体文件生成分享平台支持的展示文件，所述分享平台优选为社交应用的分享平台，所述用户终端可以将所述展示文件上传至所述分享平台。
[0103]在本发明实施例中，通过获取用户终端基于多媒体交互应用所输入的图像数据以及获取图像数据对应的音频数据，并获取音频数据中的音频文本，对图像数据和音频文本进行整合处理生成多媒体文件，最终将多媒体文件发送至用户终端进行输出。通过用户终端输入的图像数据，并查找对应的音频数据的音频文本进行整合，实现了自定义设置多媒体文件，丰富了多媒体文件的展示内容，进而提升了多媒体文件的展示效果。
[0104]请参见图5，为本发明实施例提供了另一种多媒体数据处理设备的结构示意图。如图5所示，本发明实施例的所述多媒体数据处理设备I可以包括:图像数据获取单元11、音频文本获取单元12、文件生成单元13、文件发送单元14、集合生成单元15和数据配置单元16。
[0105]集合生成单元15，用于对预先存储的系统图像数据进行归类处理，生成至少一个图像类型中每个图像类型对应的系统图像数据集合；
[0106]具体实现中，所述集合生成单元15可以对存储的所有系统图像数据进行归类处理，生成至少一个图像类型中每个图像类型对应的系统图像数据集合，所述每个图像类型对应的系统图像数据集合可以由开发人员进行人为归类，也可以通过对所有系统图像数据进行图像识别处理后进行自动归类，例如:对所有系统图像数据进行归类后得到的图像类型可以包括失恋、寂寞、浪漫、尚兴等。
[0107]数据配置单元16，用于配置与所述每个图像类型相关联的至少一个系统音频数据；
[0108]具体实现中，所述数据配置单元16可以分别配置与所述每个图像类型相关联的至少一个系统音频数据，所配置的至少一个系统音频数据可以由开发人员进行人为选定，或者可以根据图像类型的关键字段、歌词语义解析等方式自动选定，例如:图像类型为失恋，则可以配置关于失恋的音乐或者歌词中包含“失恋”的音乐等。
[0109]图像数据获取单元11，用于获取用户终端基于多媒体交互应用所输入的图像数据；
[0110]具体实现中，所述图像数据获取单元11可以基于所述多媒体交互应用将预先设置并存储的多个系统图像数据集合发送至所述用户终端，以使所述用户终端对所述系统图像数据集合中的系统图像数据进行展示，用户可以通过所述用户终端在所述系统图像数据集合中选择系统图像数据，所述图像数据获取单元11获取所述用户终端发送的所述所选择的系统图像数据。
[0111]音频文本获取单元12，用于获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本；
[0112]具体实现中，所述音频文本获取单元12可以获取所述所选择的系统图像数据所属的目标图像类型，并获取与所述目标图像类型相关联的至少一个系统音频数据。所述音频文本获取单元12可以可以将所述与所述目标图像类型相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述目标图像类型相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述目标图像类型相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备I，所述音频文本获取单元12可以获取所述音频数据，所述音频数据可以包括音频及所述音频对应的音频文本，所述音频数据优选为音乐片段数据，所述音频优选为音乐片段，所述音频文本优选为歌词，所述音频文本获取单元12获取所述音频数据中的音频和所述音频对应的音频文本，例如:归类后可以得到失恋、寂寞、浪漫、高兴等图像类型，当所选取的系统图像数据属于失恋类时，可以选取失恋类相关歌曲推荐至用户终端以供用户进行选择等。
[0113]优选的，所述多媒体数据处理设备I也可以预先对应配置有至少一个系统音频数据，所述音频文本获取单元12可以直接获取与所述所选择的系统图像数据相关联的至少一个系统音频数据。所述音频文本获取单元12可以将所述与所述目标图像类型相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述目标图像类型相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述目标图像类型相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备1，所述音频文本获取单元12可以获取所述音频数据，并获取所述音频数据中的音频和所述音频对应的音频文本。
[0114]具体的，请一并参见图6，为本发明实施例提供了一种音频文本获取单元的结构示意图。如图6所示，所述音频文本获取单元12可以包括:
[0115]系统数据获取子单元121，用于获取所述所选择的系统图像数据所属的目标图像类型，并获取与所述目标图像类型相关联的至少一个系统音频数据；
[0116]具体实现中，所述系统数据获取子单元121可以获取所述所选择的系统图像数据所属的目标图像类型，并获取与所述目标图像类型相关联的至少一个系统音频数据。
[0117]优选的，所述多媒体数据处理设备I也可以预先对应配置有至少一个系统音频数据，所述系统数据获取子单元121可以直接获取与所述所选择的系统图像数据相关联的至少一个系统音频数据。
[0118]第一音频数据获取子单元122，用于将所述与所述目标图像类型相关联的至少一个系统音频数据发送至所述用户终端，并获取所述用户终端返回的在所述与所述目标图像类型相关联的至少一个系统音频数据中所选取的音频数据；
[0119]第一文本获取子单元123，用于获取所述音频数据中的音频和所述音频对应的音频文本；
[0120]具体实现中，针对图像类型，所述第一音频数据获取子单元122可以将所述与所述目标图像类型相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述目标图像类型相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述目标图像类型相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备I，所述第一音频数据获取子单元122可以获取所述音频数据，所述音频数据可以包括音频及所述音频对应的音频文本，所述音频数据优选为音乐片段数据，所述音频优选为音乐片段，所述音频文本优选为歌词，所述第一文本获取子单元123设备获取所述音频数据中的音频和所述音频对应的音频文本，例如:归类后可以得到失恋、寂寞、浪漫、高兴等图像类型，当所选取的系统图像数据属于失恋类时，可以选取失恋类相关歌曲推荐至用户终端以供用户进行选择等。
[0121]优选的，针对图像数据，所述第一音频数据获取子单元122可以将与所述所选择的系统图像数据相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对所述所选择的系统图像数据相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在所述所选择的系统图像数据相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备I，所述第一音频数据获取子单元122可以获取所述音频数据，所述第一文本获取子单元123设备获取所述音频数据中的音频和所述音频对应的音频文本。
[0122]文件生成单元13，用于对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件；
[0123]具体实现中，所述文件生成单元13获取所述图像数据的数据个数，例如:图片的数量等，所述文件生成单元13可以将所述音频文本合并处理至所述图像数据中，即将所述音频文本与所述图像数据进行合成，基于所述合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，例如:针对合成的多张图片，可以采用图片轮播的播放方式，而针对一张合成的图片，可以采用多种图片展示效果的播放方式等，所述文件生成单元13还需要基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长，例如:视频播放的时间要等于音乐播放的时间等。所述文件生成单元13可以根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频数据进行数据封装，以生成多媒体文件，可以理解的是，所述预设封装格式可以包括多种数据封装的展示格式，所述多媒体文件优选为所述多媒体交互应用支持的用户心情海报、音乐短片等。
[0124]优选的，所述多媒体数据处理设备I可以将所述所选取的系统图像数据，以及对应获取的所述音频文本发送至所述用户终端，由所述用户终端对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件，生成多媒体文件的过程可以与上述描述过程相同，在此不进行赘述。
[0125]具体的，请一并参见图7，为本发明实施例提供了文件生成单元的结构示意图。如图7所示，所述文件生成单元13可以包括:
[0126]数据合并子单元131，用于将所述音频文本合并处理至所述图像数据中；
[0127]具体实现中，所述数据合并子单元131获取所述图像数据的数据个数，例如:图片的数量等，进一步将所述音频文本合并处理至所述图像数据中，即将所述音频文本与所述图像数据进行合成。
[0128]播放形式确定子单元132，用于基于合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，并基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长；
[0129]具体实现中，所述播放形式确定子单元132可以基于合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，例如:针对合成的多张图片，可以采用图片轮播的播放方式，而针对一张合成的图片，可以采用多种图片展示效果的播放方式等，所述播放形式确定子单元132还需要基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长，例如:视频播放的时间要等于音乐播放的时间等。
[0130]文件生成子单元133，用于根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频进行数据封装，以生成多媒体文件；
[0131]具体实现中，所述文件生成子单元133可以根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频进行数据封装，以生成多媒体文件，可以理解的是，所述预设封装格式可以包括多种数据封装的展示格式，所述多媒体文件优选为所述多媒体交互应用支持的用户心情海报、音乐短片等。
[0132]优选的，所述多媒体数据处理设备I可以将所述所选取的系统图像数据，以及对应获取的所述音频文本发送至所述用户终端，由所述用户终端对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件，生成多媒体文件的过程可以与上述描述过程相同，在此不进行赘述。
[0133]文件发送单元14，用于将所述多媒体文件发送至所述用户终端；
[0134]具体实现中，所述文件发送单元14可以将所述多媒体文件发送至所述用户终端，所述用户终端可以对所述多媒体文件进行播放展示，优选的，所述用户终端可以监听是否存在对所述多媒体文件的分享请求，例如:检测到用户点击分享按钮等，所述用户终端可以根据所述多媒体文件生成分享平台支持的展示文件，所述分享平台优选为社交应用的分享平台，所述用户终端可以将所述展示文件上传至所述分享平台。
[0135]进一步的，所述多媒体数据处理设备I还可以对所述音频数据进行存储，用于为后续对所述用户终端进行歌曲推荐时，作为相似推荐歌曲的参考特征。
[0136]在本发明实施例中，通过获取用户终端基于多媒体交互应用所输入的图像数据以及获取图像数据对应的音频数据，并获取音频数据中的音频文本，对图像数据和音频文本进行整合处理生成多媒体文件，最终将多媒体文件发送至用户终端进行输出。通过在多媒体交互应用中选择的图像数据，并查找对应的音频文本进行整合，实现了自定义设置多媒体文件，丰富了多媒体文件的展示内容，进而提升了多媒体文件的展示效果;通过预先设置图像数据和音频数据的关联关系，提升了音频数据获取的效率，进而提升多媒体文件的生成效率;通过设置图像数据的播放方式以及图像播放时长，丰富了多媒体文件的展现形式。
[0137]请参见图8，为本发明实施例提供了又一种多媒体数据处理设备的结构示意图。如图8所示，本发明实施例的所述多媒体数据处理设备I可以包括:图像数据获取单元11、音频文本获取单元12、文件生成单元13、文件发送单元14和位置信息获取单元17;其中，文件生成单元13和文件发送单元14的具体结构可以参见图5所示实施例的描述，在此不进行赘述。
[0138]图像数据获取单元11，用于获取用户终端基于多媒体交互应用所输入的图像数据；
[0139]具体实现中，用户可以在所述用户终端存储的本地图像数据集合中选择本地图像数据，所述用户终端可以基于所述多媒体交互应用将所述本地图像数据进行上传。所述图像数据获取单元11可以获取所述用户终端上传的所述本地图像数据。
[0140]位置信息获取单元17，用于获取所述用户终端上传的终端位置信息；
[0141]具体实现中，所述图像数据获取单元11在获取所述用户终端发送的本地图像数据时，所述位置信息获取单元17可以同时获取所述用户终端上传的终端位置信息。
[0142]音频文本获取单元12，用于获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本；
[0143]具体实现中，所述音频文本获取单元12可以对所述本地图像数据进行图像识别处理，优选的，可以采用预先存储的系统图像数据对所述本地图像数据中的至少一个图片或截取的视频图片进行轮廓特征匹配等，以获取所述本地图像数据对应的图像关键信息，所述图像关键信息为用于所述本地图像数据的特征关键字，可以包括颜色(例如:黄色色调等)、图像风格(例如:风景、爱情等)、地理位置(例如:深圳、厦门等)中的至少一种信息。所述音频文本获取单元12可以自动将所述图像关键信息与预先存储的系统音频数据集合中每个系统音频数据的标签信息进行匹配，并在匹配后获取与所述图像关键信息相关联的至少一个系统音频数据。进一步的，所述音频文本获取单元12在获取到所述图像关键信息后，可以查找并获取与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据，例如:图像关键信息为爱情，终端位置信息为广东省广州市，则可以搜索关于爱情的粵语歌曲等。所述音频文本获取单元12可以将与所述图像关键信息相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述图像关键信息相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述图像关键信息相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备I，所述音频文本获取单元12可以获取所述音频数据，并获取所述音频数据中的音频和所述音频对应的音频文本。
[0144]具体的，请一并参见图9，为本发明实施例提供了另一种音频文本获取单元的结构示意图。如图9所示，所述音频文本获取单元12可以包括:
[0145]关键信息获取子单元124，用于对所述本地图像数据进行图像识别处理，并在图像识别处理后获取所述本地图像数据对应的图像关键信息；
[0146]具体实现中，所述关键信息获取子单元124可以对所述本地图像数据进行图像识别处理，优选的，可以采用预先存储的系统图像数据对所述本地图像数据中的至少一个图片或截取的视频图片进行轮廓特征匹配等，以获取所述本地图像数据对应的图像关键信息，所述图像关键信息为用于所述本地图像数据的特征关键字，可以包括颜色(例如:黄色色调等)、图像风格(例如:风景、爱情等)、地理位置(例如:深圳、厦门等)中的至少一种信息。
[0147]系统数据查找子单元125，用于将所述图像关键信息与预先存储的系统音频数据集合中每个系统音频数据的标签信息进行匹配，并在匹配后获取与所述图像关键信息相关联的至少一个系统音频数据；
[0148]具体实现中，所述系统数据查找子单元125可以自动将所述图像关键信息与预先存储的系统音频数据集合中每个系统音频数据的标签信息进行匹配，并在匹配后获取与所述图像关键信息相关联的至少一个系统音频数据。进一步的，所述关键信息获取子单元124在获取到所述图像关键信息后，所述系统数据查找子单元125可以查找并获取与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据，例如:图像关键信息为爱情，终端位置信息为广东省广州市，则可以搜索关于爱情的粵语歌曲等。
[0149]第二音频数据获取子单元126，用于将所述与所述图像关键信息相关联的至少一个系统音频数据发送至所述用户终端，并获取所述用户终端返回的在所述与所述图像关键信息相关联的至少一个系统音频数据中所选取的音频数据；
[0150]第二文本获取子单元127，用于获取所述音频数据中的音频和所述音频对应的音频文本；
[0151]具体实现中，所述第二音频数据获取子单元126可以将与所述图像关键信息相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述图像关键信息相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述图像关键信息相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备I，所述第二音频数据获取子单元126可以获取所述音频数据，所述第二文本获取子单元127获取所述音频数据中的音频和所述音频对应的音频文本。
[0152]进一步的，所述第二音频数据获取子单元126可以将与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据发送至所述用户终端，所述用户终端可以对与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据进行显示，用户可以进行选取，所述用户终端可以将用户在与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据中选取的音频数据返回至所述多媒体数据处理设备I，所述第二音频数据获取子单元126可以获取所述音频数据，所述第二文本获取子单元127获取所述音频数据中的音频和所述音频对应的音频文本。
[0153]在本发明实施例中，通过获取用户终端基于多媒体交互应用所输入的图像数据以及获取图像数据对应的音频数据，并获取音频数据中的音频文本，对图像数据和音频文本进行整合处理生成多媒体文件，最终将多媒体文件发送至用户终端进行输出。通过上传用户终端存储的本地的图像数据，并查找对应的音频文本进行整合，实现了自定义设置多媒体文件，丰富了多媒体文件的展示内容，进而提升了多媒体文件的展示效果;通过识别图像数据中的关键信息，并进行音频数据的查找，进一步实现了多媒体文件的生成，同时结合终端位置信息，可以准确定位需要查找的音频数据;通过设置图像数据的播放方式以及图像播放时长，丰富了多媒体文件的展现形式。
[0154]请参见图10，为本发明实施例提供了另一种多媒体数据处理设备的结构示意图。如图10所示，所述多媒体数据处理设备1000可以包括:至少一个处理器1001，例如CPU，至少一个网络接口 1004，用户接口 1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口 1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口 1003还可以包括标准的有线接口、无线接口。网络接口 1004可选的可以包括标准的有线接口、无线接口(如W1-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。
[0155]在图10所示的多媒体数据处理设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；网络接口 1004用于接收用户终端发送的数据;而处理器1001可以用于调用存储器1005中存储的数据处理应用程序，并具体执行以下操作:
[0156]获取用户终端基于多媒体交互应用所输入的图像数据；
[0157]获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本；
[0158]对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件；
[0159]将所述多媒体文件发送至所述用户终端，以使所述用户终端对所述多媒体文件进行输出。
[0160]在一个实施例中，所述处理器1001在执行获取用户终端基于多媒体交互应用所输入的图像数据之前，还执行以下操作:
[0161]对预先存储的系统图像数据进行归类处理，生成至少一个图像类型中每个图像类型对应的系统图像数据集合；
[0162]配置与所述每个图像类型相关联的至少一个系统音频数据。
[0163]在一个实施例中，所述处理器1001在执行获取用户终端基于多媒体交互应用所输入的图像数据时，具体执行以下操作:
[0164]基于多媒体交互应用向用户终端发送所述每个图像类型对应的系统图像数据集合，并获取所述用户终端基于所述多媒体交互应用返回的在所述每个图像类型对应的系统图像数据集合中所选择的系统图像数据。
[0165]在一个实施例中，所述处理器1001在执行获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本时，具体执行以下操作:
[0166]获取所述所选择的系统图像数据所属的目标图像类型，并获取与所述目标图像类型相关联的至少一个系统音频数据；
[0167]将所述与所述目标图像类型相关联的至少一个系统音频数据发送至所述用户终端，并获取所述用户终端返回的在所述与所述目标图像类型相关联的至少一个系统音频数据中所选取的音频数据；
[0168]获取所述音频数据中的音频和所述音频对应的音频文本。
[0169]在一个实施例中，所述处理器1001在执行获取用户终端基于多媒体交互应用所输入的图像数据时，具体执行以下操作:
[0170]获取用户终端基于多媒体交互应用所上传的本地图像数据，所述本地图像数据为在所述用户终端存储的本地图像数据集合中所选择的图像数据。
[0171]在一个实施例中，所述处理器1001在执行获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本时，具体执行以下操作:
[0172]对所述本地图像数据进行图像识别处理，并在图像识别处理后获取所述本地图像数据对应的图像关键信息，所述图像关键信息包括颜色、图像风格、地理位置中的至少一种信息；
[0173]将所述图像关键信息与预先存储的系统音频数据集合中每个系统音频数据的标签信息进行匹配，并在匹配后获取与所述图像关键信息相关联的至少一个系统音频数据；
[0174]将所述与所述图像关键信息相关联的至少一个系统音频数据发送至所述用户终端，并获取所述用户终端返回的在所述与所述图像关键信息相关联的至少一个系统音频数据中所选取的音频数据；
[0175]获取所述音频数据中的音频和所述音频对应的音频文本。
[0176]在一个实施例中，所述处理器1001在执行获取用户终端基于多媒体交互应用所输入的图像数据之后，且在获取所述图像数据对应的音频数据之前，还执行以下操作:
[0177]获取所述用户终端上传的终端位置信息；
[0178]所述处理器1001在执行查找并获取与所述图像关键信息相关联的至少一个系统音频数据时，具体执行以下操作:
[0179]查找并获取与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据。
[0180]在一个实施例中，所述处理器1001在执行对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件时，具体执行以下操作:
[0181 ]将所述音频文本合并处理至所述图像数据中；
[0182]基于合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，并基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长；
[0183]根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频进行数据封装，以生成多媒体文件。
[0184]在本发明实施例中，通过获取用户终端基于多媒体交互应用所输入的图像数据以及获取图像数据对应的音频数据，并获取音频数据中的音频文本，对图像数据和音频文本进行整合处理生成多媒体文件，最终将多媒体文件发送至用户终端进行输出。通过用户终端输入的图像数据，并查找对应的音频文本进行整合，实现了自定义设置多媒体文件，丰富了多媒体文件的展示内容，进而提升了多媒体文件的展示效果;通过预先设置图像数据和音频数据的关联关系，提升了音频数据获取的效率，进而提升多媒体文件的生成效率;通过识别图像数据中的关键信息，并进行音频数据的查找，进一步实现了多媒体文件的生成，同时结合终端位置信息，可以准确定位需要查找的音频数据;通过设置图像数据的播放方式以及图像播放时长，丰富了多媒体文件的展现形式。
[0185]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。
[0186]以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。
【主权项】
1.一种多媒体数据处理方法，其特征在于，包括: 获取用户终端基于多媒体交互应用所输入的图像数据；获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本；对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件；将所述多媒体文件发送至所述用户终端，以使所述用户终端对所述多媒体文件进行输出。2.根据权利要求1所述的方法，其特征在于，所述获取用户终端基于多媒体交互应用所输入的图像数据之前，还包括: 对预先存储的系统图像数据进行归类处理，生成至少一个图像类型中每个图像类型对应的系统图像数据集合；配置与所述每个图像类型相关联的至少一个系统音频数据。3.根据权利要求2所述的方法，其特征在于，所述获取用户终端基于多媒体交互应用所输入的图像数据，包括: 基于多媒体交互应用向用户终端发送所述每个图像类型对应的系统图像数据集合，并获取所述用户终端基于所述多媒体交互应用返回的在所述每个图像类型对应的系统图像数据集合中所选择的系统图像数据。4.根据权利要求3所述的方法，其特征在于，所述获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本，包括: 获取所述所选择的系统图像数据所属的目标图像类型，并获取与所述目标图像类型相关联的至少一个系统音频数据；将所述与所述目标图像类型相关联的至少一个系统音频数据发送至所述用户终端，并获取所述用户终端返回的在所述与所述目标图像类型相关联的至少一个系统音频数据中所选取的音频数据；获取所述音频数据中的音频和所述音频对应的音频文本。5.根据权利要求1所述的方法，其特征在于，所述获取用户终端基于多媒体交互应用所输入的图像数据，包括: 获取用户终端基于多媒体交互应用所上传的本地图像数据，所述本地图像数据为在所述用户终端存储的本地图像数据集合中所选择的图像数据。6.根据权利要求5所述的方法，其特征在于，所述获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本，包括: 对所述本地图像数据进行图像识别处理，并在图像识别处理后获取所述本地图像数据对应的图像关键信息，所述图像关键信息包括颜色、图像风格、地理位置中的至少一种信息; 将所述图像关键信息与预先存储的系统音频数据集合中每个系统音频数据的标签信息进行匹配，并在匹配后获取与所述图像关键信息相关联的至少一个系统音频数据；将所述与所述图像关键信息相关联的至少一个系统音频数据发送至所述用户终端，并获取所述用户终端返回的在所述与所述图像关键信息相关联的至少一个系统音频数据中所选取的音频数据；获取所述音频数据中的音频和所述音频对应的音频文本。7.根据权利要求6所述的方法，其特征在于，所述获取用户终端基于多媒体交互应用所输入的图像数据之后，且在获取所述图像数据对应的音频数据之前，还包括: 获取所述用户终端上传的终端位置信息；所述查找并获取与所述图像关键信息相关联的至少一个系统音频数据，包括: 查找并获取与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据。8.根据权利要求4或6所述的方法，其特征在于，所述对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件，包括: 将所述音频文本合并处理至所述图像数据中；基于合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，并基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长；根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频进行数据封装，以生成多媒体文件。9.一种多媒体数据处理设备，其特征在于，包括: 图像数据获取单元，用于获取用户终端基于多媒体交互应用所输入的图像数据；音频文本获取单元，用于获取所述图像数据对应的音频数据，并获取所述音频数据中的音频文本；文件生成单元，用于对所述图像数据和所述音频文本进行整合处理，并在整合处理后生成多媒体文件；文件发送单元，用于将所述多媒体文件发送至所述用户终端，以使所述用户终端对所述多媒体文件进行输出。10.根据权利要求9所述的设备，其特征在于，还包括: 集合生成单元，用于对预先存储的系统图像数据进行归类处理，生成至少一个图像类型中每个图像类型对应的系统图像数据集合；数据配置单元，用于配置与所述每个图像类型相关联的至少一个系统音频数据。11.根据权利要求10所述的设备，其特征在于，所述图像数据获取单元具体用于基于多媒体交互应用向用户终端发送所述每个图像类型对应的系统图像数据集合，并获取所述用户终端基于所述多媒体交互应用返回的在所述每个图像类型对应的系统图像数据集合中所选择的系统图像数据。12.根据权利要求11所述的设备，其特征在于，所述音频文本获取单元包括: 系统数据获取子单元，用于获取所述所选择的系统图像数据所属的目标图像类型，并获取与所述目标图像类型相关联的至少一个系统音频数据；第一音频数据获取子单元，用于将所述与所述目标图像类型相关联的至少一个系统音频数据发送至所述用户终端，并获取所述用户终端返回的在所述与所述目标图像类型相关联的至少一个系统音频数据中所选取的音频数据；第一文本获取子单元，用于获取所述音频数据中的音频和所述音频对应的音频文本。13.根据权利要求9所述的设备，其特征在于，所述图像数据获取单元具体用于获取用户终端基于多媒体交互应用所上传的本地图像数据，所述本地图像数据为在所述用户终端存储的本地图像数据集合中所选择的图像数据。14.根据权利要求13所述的设备，其特征在于，所述音频文本获取单元包括: 关键信息获取子单元，用于对所述本地图像数据进行图像识别处理，并在图像识别处理后获取所述本地图像数据对应的图像关键信息，所述图像关键信息包括颜色、图像风格、地理位置中的至少一种信息；系统数据查找子单元，用于将所述图像关键信息与预先存储的系统音频数据集合中每个系统音频数据的标签信息进行匹配，并在匹配后获取与所述图像关键信息相关联的至少一个系统音频数据；第二音频数据获取子单元，用于将所述与所述图像关键信息相关联的至少一个系统音频数据发送至所述用户终端，并获取所述用户终端返回的在所述与所述图像关键信息相关联的至少一个系统音频数据中所选取的音频数据；第二文本获取子单元，用于获取所述音频数据中的音频和所述音频对应的音频文本。15.根据权利要求14所述的设备，其特征在于，还包括: 位置信息获取单元，用于获取所述用户终端上传的终端位置信息；所述系统数据查找子单元具体用于查找并获取与所述图像关键信息和所述终端位置信息相关联的至少一个系统音频数据。16.根据权利要求12或14所述的设备，其特征在于，所述文件生成单元包括: 数据合并子单元，用于将所述音频文本合并处理至所述图像数据中；播放形式确定子单元，用于基于合并处理后的图像数据的数据个数确定所述合并处理后的图像数据的播放方式，并基于所述音频数据的音频播放时长确定所述合并处理后的图像数据的图像播放时长；文件生成子单元，用于根据所述播放方式和所述图像播放时长，并采用预设封装格式对所述合并处理后的图像数据和所述音频进行数据封装，以生成多媒体文件。
【文档编号】G06F17/30GK106055671SQ201610392176
【公开日】2016年10月26日
【申请日】2016年6月3日
【发明人】傅鸿城, 周国金, 易玉花, 栗波, 刘强
【申请人】腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：傅鸿城;周国金;易玉花;栗波;刘强;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人

上一篇：一种带时间约束的信号序列频繁情节挖掘方法
上一篇：一种系统间数据迁移方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。