多媒体数据处理装置及方法与流程

文档序号：12465159阅读：200来源：国知局

本发明涉及多媒体技术领域，尤其涉及一种多媒体数据处理装置及方法。

背景技术：

目前，随着生活质量的提升，旅游已经成为了人们生活中必不可少的一部分。繁忙的工作过后，旅游可以放松身心，开阔眼界，洗涤心境，了解各地的风俗习惯。在快乐的旅行结束后，大多数人都想把旅途中美好的回忆记录下来，例如写一篇游记，分享给自己的亲朋好友。

但是，完成一篇完整的游记往往是非常麻烦的。尤其面对长时间的旅途，人们要把行进路线的每个细节记录下来几乎是不可能的，难免会有遗漏。而且，在分类照片时，面对几百甚至上千张照片，往往无从下手，需要花费大量时间分类。

技术实现要素：

本发明的主要目的在于提出一种多媒体数据处理装置及方法，旨在解决现有技术中无法自动处理多媒体数据，需要用户手动去处理，费时费力的技术问题。

为实现上述目的，本发明提供一种多媒体数据处理装置，包括：

第一获取模块，用于获取预先采集的语音数据和照片，并提取所述照片的拍摄时间；

匹配模块，用于将获取到的语音数据与预先采集的目标人物的基准语音数据进行匹配，获取与所述基准语音数据相匹配的第一语音数据；

第一转换模块，用于根据所述拍摄时间将所述第一语音数据转换为多个对应子文本数据；

第一插入模块，用于根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片。

可选地，所述第一转换模块包括：

划分模块，用于以所述拍摄时间作为分割点，将所述第一语音数据划分为多个第一子语音数据；

第二转换模块，用于将所述第一子语音数据逐个转换为对应的子文本数据。

可选地，所述第一插入模块包括：

第二插入模块，用于在所述预设的多媒体文档中插入所有所述子文本数据；

第三插入模块，用于在两个相邻子文本数据之间插入所述照片，使得所述两个子文本数据的分割点对应的拍摄时间与所述照片的拍摄时间相对应。

可选地，所述装置还包括：

第二获取模块，用于获取在采集语音数据和用户拍摄的照片的过程中采集的地理位置信息，其中，在采集语音数据和用户拍摄的照片的过程中，每隔预设的时间间隔采集用户所在区域的地理位置信息；

第四插入模块，用于按照所述地理位置信息的采集时间与所述照片的拍摄时间以及所述多个子文本数据对应的时间的先后顺序，将所述地理位置信息插入到所述多媒体文档中。

可选地，所述第一插入模块还用于：

在预设的多媒体文档中插入所有所述子文本数据和所述照片之后，创建以当前日期命名的文件夹，将所述多媒体文档以及采集到的语音数据与用户拍摄的照片分别保存到所述文件夹中。

另外，为实现上述目的，本发明还提供一种多媒体数据处理方法，所述方法包括：

获取预先采集的语音数据和照片，并提取所述照片的拍摄时间；

将获取到的语音数据与预先采集的目标人物的基准语音数据进行匹配，获取与所述基准语音数据相匹配的第一语音数据；

根据所述拍摄时间将所述第一语音数据转换为多个对应子文本数据；

根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片。

可选地，根据所述拍摄时间将所述第一语音数据转换为多个对应子文本数据的步骤包括：

以所述拍摄时间作为分割点，将所述第一语音数据划分为多个第一子语音数据；

将所述第一子语音数据逐个转换为对应的子文本数据。

可选地，根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片的步骤包括：

在所述预设的多媒体文档中插入所有所述子文本数据；

在两个相邻子文本数据之间插入所述照片，使得所述两个子文本数据的分割点对应的拍摄时间与所述照片的拍摄时间相对应。

可选地，根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片的步骤之后还包括：

获取在采集语音数据和用户拍摄的照片的过程中采集的地理位置信息，其中，在采集语音数据和用户拍摄的照片的过程中，每隔预设的时间间隔采集用户所在区域的地理位置信息；

按照所述地理位置信息的采集时间与所述照片的拍摄时间以及所述多个子文本数据对应的时间的先后顺序，将所述地理位置信息插入到所述多媒体文档中。

可选地，根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片之后还包括：

创建以当前日期命名的文件夹，将所述多媒体文档以及采集到的语音数据与用户拍摄的照片分别保存到所述文件夹中。

本发明所提供的一种多媒体数据处理装置，包括：第一获取模块，用于获取预先采集的语音数据和照片，并提取所述照片的拍摄时间；匹配模块，用于将获取到的语音数据与预先采集的目标人物的基准语音数据进行匹配，获取与所述基准语音数据相匹配的第一语音数据；第一转换模块，用于根据所述拍摄时间将所述第一语音数据转换为多个对应子文本数据；第一插入模块，用于根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片。本发明还提供了一种多媒体数据处理方法。本发明通过采集用户的语音数据和拍摄的照片，并将采集的语音数据转换为文本数据后，将文本数据与拍摄的照片按照时间顺序自动添加到多媒体文档中，不需要用户手动处理，解决了现有技术中无法自动处理多媒体数据的技术问题。

附图说明

图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图；

图2为图1中移动终端的无线通信装置示意图；

图3为本发明多媒体数据处理装置第一实施例的模块示意图；

图4为本发明图3所示多媒体数据处理装置中第一转换模块30的细化模块示意图；

图5为本发明图3所示多媒体数据处理装置中第一插入模块40的细化模块示意图；

图6为本发明中在相邻两个子文本数据之间插入照片的场景示意图；

图7为本发明中在相邻两个子文本数据之间插入照片的另一场景示意图；

图8为本发明多媒体数据处理装置第二实施例的模块示意图；

图9为本发明中将采集到的地理位置信息插入到多媒体文档中的场景示意图；

图10为本发明多媒体数据处理方法第一实施例的流程示意图；

图11为本发明图10所示多媒体数据处理方法中步骤S30的细化步骤流程示意图；

图12为本发明图10所示多媒体数据处理方法中步骤S40的细化步骤流程示意图；

图13为本发明多媒体数据处理方法第二实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

移动终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图。

移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、感测单元140、输出单元150、多媒体数据处理装置400、存储器160、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。

无线通信单元110通常包括一个或多个组件，其允许移动终端100与无线通信装置或网络之间的无线电通信。例如，无线通信单元可以包括广播接收模块、移动通信模块、无线互联网模块、短程通信模块和位置信息模块中的至少一个。

A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风122，相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送，可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据)，并且能够将这样的声音处理为音频数据。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息，并且可以包括键盘、锅仔片、触摸板(例如，检测由于被接触而导致的电阻、压力值、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地，当触摸板以层的形式叠加在显示单元151上时，可以形成触摸屏。

感测单元140检测移动终端100的当前状态，(例如，移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即，触摸输入)的有无、移动终端100的取向、移动终端100的加速或将速移动和方向等等，并且生成用于控制移动终端100的操作的命令或信号。另外，感测单元140能够检测电源单元190是否提供电力。

显示单元151可以显示在移动终端100中处理的信息。例如，当移动终端100处于电话通话模式时，显示单元151可以显示与通话或其它通信(例如，文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时，显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。

同时，当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时，显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看，这可以称为透明显示器，典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式，移动终端100可以包括两个或更多显示单元(或其它显示装置)，例如，移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力值以及触摸输入位置和触摸输入面积。

音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且，音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括拾音器、蜂鸣器等等。

存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据(例如，电话簿、消息、静态图像、视频等等)。而且，存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

存储器160可以包括至少一种类型的存储介质，所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。

控制器180通常控制移动终端的总体操作。例如，控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外，控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181，多媒体模块181可以构造在控制器180内，或者可以构造为与控制器180分离。控制器180可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。

电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在控制器180中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器160中并且由控制器180执行。

如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信装置以及基于卫星的通信装置来操作。

现在将参考图2描述其中根据本发明的移动终端能够操作的通信装置。

这样的通信装置可以使用不同的空中接口和/或物理层。例如，由通信装置使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信装置(UMTS)(特别地，长期演进(LTE))、全球移动通信装置(GSM)等等。作为非限制性示例，下面的描述涉及CDMA通信装置，但是这样的教导同样适用于其它类型的装置。

参考图2，CDMA无线通信装置可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到BS270的BSC275形成接口。回程线路可以根据若干己知的接口中的任一种来构造，所述接口包括例如E1/T1、ATM，IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是，如图2中所示的装置可以包括多个BSC275。

每个BS270可以服务一个或多个分区(或区域)，由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者，每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配，并且每个频率分配具有特定频谱(例如，1.25MHz,5MHz等等)。

分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子装置(BTS)或者其它等效术语。在这样的情况下，术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者，特定BS270的各分区可以被称为多个蜂窝站。

如图2中所示，广播发射器(BT)295将广播信号发送给在装置内操作的移动终端100。在图2中，示出了几个全球定位装置(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。

在图2中，描绘了多个卫星300，但是可以理解的是，可以利用任何数目的卫星获得有用的定位信息。作为无线通信装置的一个典型操作，BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280，其提供用于与PSTN290形成接口的额外的路由服务。类似地，PSTN290与MSC280形成接口，MSC与BSC275形成接口，并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。

基于上述移动终端硬件结构、通信装置结构，提出本发明多媒体数据处理装置各实施例，所述多媒体数据处理装置为移动终端的一部分。

参照图3，图3是本发明多媒体数据处理装置第一实施例的模块示意图，本实施例中，所述多媒体数据处理装置400包括：

第一获取模块10，用于获取预先采集的语音数据和照片，并提取所述照片的拍摄时间。

本实施例中，以旅行过程为例，当用户在旅行过程中遇见优美的景色或独特的景点之后，心中往往都会感慨万千，然后通过语言向自己的同伴表达出自己此刻内心的感受，或者用自己的语言描述当前的此情此景，并且在描述过程中，会希望通过拍照的方式，将眼前的景象记录下来，留作纪念或分享给自己的亲人朋友。故本实施例中，在用户启动多媒体数据处理应用之后，实时采集移动终端附近区域的语音数据以及用户所拍摄的照片，并保存在预设的区域。其中，将采集到的语音数据对应的采集时间以及照片所对应的拍摄时间也同时进行保存。在用户关闭多媒体数据处理应用之后，自动获取采集的语音数据和照片，并提取所述照片的拍摄时间。

匹配模块20，用于将获取到的语音数据与预先采集的目标人物的基准语音数据进行匹配，获取与所述基准语音数据相匹配的第一语音数据。

本实施例中，考虑到在语音数据的采集过程中，当用户处于人群时，采集到的语音数据会包括移动终端附近区域所有游客的语音数据，而对于用户来说，仅仅只希望将自己或者同伴所说的话进行记录，而不希望记录到其他游客所述的话。故本实施例中，将获取到的到的语音数据与预先采集的目标人物的基准语音数据进行匹配，获取与所述基准语音数据相匹配的第一语音数据，即对获取到的语音数据进行过滤，仅仅获取用户指定的目标人物的语音数据。其中，可通过语音识别技术或声纹识别技术等获取与所述基准语音数据相匹配的第一语音数据。

其中，本实施例中，所述目标人物可以为两个或者两个以上。

第一转换模块30，用于根据所述拍摄时间将所述第一语音数据转换为多个对应子文本数据。

本实施例中，如用户在旅行过程中，一般都会一边拍照，一边与同伴进行交流，故根据采集到的所述照片的拍摄时间将所述第一语音数据转换为多个子文本数据。其中，可以通过语音识别技术或语音转换软件等方式将所述语音数据转换为多个子文本数据。

第一插入模块40，用于根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片。

本实施例中，预先建立一个多媒体文档，所述多媒体文档中可以插入照片，文字、地理信息等。根据采集到的所述照片的拍摄时间，在预设的多媒体文档中根据时间顺序插入所述多个子文本数据和所述照片，并进行保存。

其中，根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片之后还包括：创建以当前日期命名的文件夹，将所述多媒体文档以及采集到的语音数据与用户拍摄的照片分别保存到所述文件夹中。本实施例中，同时将所述多媒体文档以及采集到的语音数据与用户拍摄的照片分别保存到所述文件夹中，以方便用户对保存的多媒体文档进行个性化的设置或修改。

具体的，本实施例中所保存的多媒体文档可以作为“游记”分享给他人或者上传至网络。

本实施例所述的多媒体数据处理装置400，包括：第一获取模块10，获取预先采集的语音数据和照片，并提取所述照片的拍摄时间；匹配模块20，将获取到的语音数据与预先采集的目标人物的基准语音数据进行匹配，获取与所述基准语音数据相匹配的第一语音数据；第一转换模块30，根据所述拍摄时间将所述第一语音数据转换为多个对应子文本数据；第一插入模块40，根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片。本实施例通过采集语音数据和照片，并将采集的语音数据转换为文本数据后将文本数据与所述照片按照时间顺序自动添加到多媒体文档中，不需要用户手动处理，解决了现有技术中无法自动处理多媒体数据的技术问题。

进一步地，参照图4，图4为本发明图3所示多媒体数据处理装置中第一转换模块30的细化模块示意图，基于上述图3所述的实施例，所述第一转换模块30包括：

划分模块31，用于以所述拍摄时间作为分割点，将所述第一语音数据划分为多个第一子语音数据。

本实施例中，如用户在旅行过程中时，一般是一边进行拍照，一边与同伴进交流心得，故用户所拍摄的每一张照片所对应的用户此刻的心得体会也会不同。例如，在9点00分至9点10分期间，采集到用户分别在9点02分、9点04分、9点05分、9点08分拍摄了一张照片，那么便以9点02分、9点04分、9点05分、9点08分作为分割点将该时间段内获取到的第一语音数据划分为5个第一子语音数据。

第二转换模块32，用于将所述第一子语音数据逐个转换为对应的子文本数据。

本实施例中，在上述采集到的语音数据划分为多个第一子语音数据后，通过语音识别技术或者语音转换软件等方式将所述多个第一子语音数据分别转换为多个子文本数据。

本实施例所述的第一转换模块30包括：划分模块31，用于以所述拍摄时间作为分割点，将所述第一语音数据划分为多个第一子语音数据；第二转换模块32，用于将所述第一子语音数据逐个转换为对应的子文本数据。本实施例通过照片的拍摄时间将所述第一语音数据划分为多个第一子语音数据，并将所述多个第一子语音数据分别转换为多个文本数据，不需要用户手动处理，进一步简化了自动处理多媒体数据的实现过程，节省了用户的精力。

进一步地，参照图5，图5为本发明图3所示多媒体数据处理装置中第一插入模块40的细化模块示意图，基于上述图3所述的实施例，所述第一插入模块40包括：

第二插入模块41，用于在所述预设的多媒体文档中插入所有所述子文本数据。

本实施例中，将每个子文本数据对应的第一子语音数据的采集时间作为该子文本数据对应的时间，将转换后的多个子文本数据按照对应的时间先后顺序插入到预设的多媒体文档中。

第三插入模块42，用于在两个相邻子文本数据之间插入所述照片，使得所述两个子文本数据的分割点对应的拍摄时间与所述照片的拍摄时间相对应。

本实施例中，首先获取两个相邻子文本的分割点对应的拍摄时间，然后再获取拍摄时间与所述分割点对应的拍摄时间相一致的照片，最后将所述照片插入到所述相邻的两个子文本之间，使得所述两个子文本数据的分割点对应的拍摄时间与所述照片的拍摄时间相对应。

为了更好地理解本实施所提供的技术方案，参照图6，图6为本发明中在相邻两个子文本数据之间插入照片的场景示意图。

另外，本实施例中，如用户想在多媒体文档中记录自己与同伴共同的旅游经历，即用户预设采集语音数据的目标人物为两个或者两个以上，则将采集到的语音数据分别与预先采集的每个目标人物的基准语音数据进行匹配，获取与每个目标人物的基准语音数据相匹配的第一语音数据，并且将不同目标人物的第一语音数据通过不同的标记方式进行标记。根据采集的照片的拍摄时间分别将所述第一语音数据划分为多个子语音数据，并且在所述多个子语音数据转换为文本数据后，将每个目标人物相对应的文本数据同样用不同的标记方式进行标记。

其中，在预设的多媒体文档中插入所述多个子文本数据，并将目标人物相对应的文本数据用不同的标记方式进行标记。例如，将目标人物甲对应的子文本数据标记为蓝色，将目标人物乙对应的子文本数据标记为红色等。

为了更好的理解本实施例所述的技术方案，参照图7，图7为本发明中在相邻两个子文本数据之间插入照片的另一场景示意图。图7中，通过文本的粗细来区分目标人物甲与目标人物乙的语音数据对应转换后的文本数据。

本实施例所述的第一转换模块40包括：第二插入模块41，用于在所述预设的多媒体文档中插入所有所述子文本数据；第三插入模块42，用于在相邻两个子文本数据之间插入所述照片，使得所述两个子文本数据的分割点对应的拍摄时间与所述照片的拍摄时间相对应。本实施例通过在预设的多媒体文档中按照时间顺序插入所有子文本数据，以及根据照片的拍摄时间在相邻两个子文本数据之间插入照片，以此来自动生成多媒体文档，不需要用户手动整理，极大地节省了用户的精力。

进一步地，参照图8，图8为本发明多媒体数据处理装置第二实施例的模块示意图，基于上述图3所述的实施例，本实施例中，所述多媒体数据处理装置400还包括：

第二获取模块50，用于获取在采集语音数据和用户拍摄的照片的过程中采集的地理位置信息，其中，在采集语音数据和用户拍摄的照片的过程中，每隔预设的时间间隔采集用户所在区域的地理位置信息。

本实施例中，在采集语音数据和用户拍摄的照片的过程中，每隔预设的时间间隔采集用户的地理位置信息，例如每隔30分钟采集一次用户所在位置的地理位置信息。

第四插入模块60，用于按照所述地理位置信息的采集时间与所述照片的拍摄时间以及所述多个子文本数据对应的时间的先后顺序，将所述地理位置信息插入到所述多媒体文档中。

本实施例中，根据所述地理位置信息的采集时间和采集到的所述照片的拍摄时间、以及所述多个子文本数据对应的时间的先后顺序，将所述地理位置信息插入到预设的多媒体文档中。

为了更好的理解本实施例所述的技术方案，参照图9，图9为本发明中将采集到的地理位置信息插入到多媒体文档中的场景示意图。图9中，假设获取到用户所在的位置为“故宫”，则根据获取到该位置信息的时间点将“-故宫-”插入到多媒体文档中，即在图9中，位置信息“-故宫-”对应的时间点晚于其上面的“照片”对应的时间点，早于其下面的“文本数据”对应的时间点。

本实施例通过定时采集用户在的地理位置信息，并将采集到的地理位置信息按照时间顺序插入到预设的多媒体文档中，使得生成的多媒体文档中能够有效记录用户的移动路线，不需要用户手动去添加，节省了用户的精力。

本发明还提供一种多媒体数据处理方法，该多媒体数据处理方法主要应用于移动终端上，参照图10，图10是本发明多媒体数据处理方法第一实施例的流程示意图，本实施例中，所述多媒体数据处理方法包括：

步骤S10，获取预先采集的语音数据和用户拍摄的照片，并提取所述照片的拍摄时间。

本实施例中，以旅行过程为例，当用户在旅行过程中遇见优美的景色或独特的景点之后，心中往往都会感慨万千，然后通过语言向自己的同伴表达出自己此刻内心的感受，或者用自己的语言描述当前的此情此景，并且在描述过程中，会希望通过拍照的方式，将眼前的景象记录下来，留作纪念或分享给自己的亲人朋友。故本实施例中，在用户启动多媒体数据处理应用之后，实时采集移动终端附近区域的语音数据以及用户所拍摄的照片，并保存在预设的区域。其中，将采集到的语音数据对应的采集时间以及照片所对应的拍摄时间也同时进行保存。在用户结束旅程，关闭多媒体数据处理应用之后，自动获取采集的语音数据和照片，并提取所述照片的拍摄时间。

步骤S20，将获取到的语音数据与预先采集的目标人物的基准语音数据进行匹配，获取与所述基准语音数据相匹配的第一语音数据。

本实施例中，考虑到在语音数据的采集过程中，当用户处于人群时，采集到的语音数据会包括移动终端附近区域所有游客的语音数据，而对于用户来说，仅仅只希望将自己或者同伴所说的话进行记录，而不希望记录到其他游客所述的话。故，本实施例中，将获取到的到的语音数据与预先采集的目标人物的基准语音数据进行匹配，获取与所述基准语音数据相匹配的第一语音数据，即对获取到的语音数据进行过滤，仅仅获取用户指定的目标人物的语音数据。其中，可通过语音识别技术或声纹识别技术等获取与所述基准语音数据相匹配的第一语音数据。

其中，本实施例中，所述目标人物可以为两个或者两个以上。

步骤S30，根据所述拍摄时间将所述第一语音数据转换为多个对应子文本数据。

本实施例中，如用户在旅行过程中，一般都会一边拍照，一边与同伴进行交流，故，在处理多媒体数据时，根据采集到的所述照片的拍摄时间将所述第一语音数据转换为多个子文本数据。其中，可以通过语音识别技术或语音转换软件等方式将所述语音数据转换为多个子文本数据。

步骤S40，根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片。

具体的，本实施例中所保存的多媒体文档可以作为“游记”分享给他人或者上传至网络。

本实施例所述的多媒体数据处理方法包括：获取预先采集的语音数据和照片，并提取所述照片的拍摄时间；将获取到的语音数据与预先采集的目标人物的基准语音数据进行匹配，获取与所述基准语音数据相匹配的第一语音数据；根据所述拍摄时间将所述第一语音数据转换为多个对应子文本数据；根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片。本实施例通过采集用户在旅行过程中的语音数据和拍摄的照片，并将采集的语音数据转换为文本数据后将文本数据与所述照片按照时间顺序自动添加到多媒体文档中，不需要用户手动处理，解决了现有技术中无法在旅行过程中自动生成多媒体文档的技术问题。

进一步地，参照图11，图11为本发明图10所示多媒体数据处理方法中步骤S30的细化步骤流程示意图，基于上述图10所述的实施例，所述步骤S30包括：

步骤S31，以所述拍摄时间作为分割点，将所述第一语音数据划分为多个第一子语音数据。

本实施例中，用户来旅游过程中，一般是一边进行拍照，一边与同伴进交流心得，故用户所拍摄的每一张照片所对应的用户此刻的心得体会也会不同。例如，在9点00分至9点10分期间，采集到用户分别在9点02分、9点04分、9点05分、9点08分拍摄了一张照片，那么便以9点02分、9点04分、9点05分、9点08分作为分割点将该时间段内获取到的第一语音数据划分为5个第一子语音数据。

步骤S32，将所述第一子语音数据逐个转换为对应的子文本数据。

本实施例所述多媒体数据处理方法中，所述步骤S30包括：以所述拍摄时间作为分割点，将所述第一语音数据划分为多个第一子语音数据；将所述第一子语音数据逐个转换为对应的子文本数据。本实施例通过照片的拍摄时间将所述第一语音数据划分为多个第一子语音数据，并将所述多个第一子语音数据分别转换为多个文本数据，不需要用户手动处理，进一步简化了自动处理多媒体数据的实现过程，节省了用户的精力。

进一步地，参照图12，图12为本发明图10所示多媒体数据处理装置中步骤S40的细化步骤流程示意图，基于上述图10所述的实施例，所述步骤S40包括：

步骤S41，在所述预设的多媒体文档中插入所有所述子文本数据。

步骤S42，在两个相邻子文本数据之间插入所述照片，使得所述两个子文本数据的分割点对应的拍摄时间与所述照片的拍摄时间相对应。

为了更好地理解本实施所提供的技术方案，参照图6，图6为本发明中在相邻两个子文本数据之间插入照片的场景示意图。

本实施例所述的步骤S40包括：在所述预设的多媒体文档中插入所有所述子文本数据；在相邻两个子文本数据之间插入所述照片，使得所述两个子文本数据的分割点对应的拍摄时间与所述照片的拍摄时间相对应。本实施例通过在预设的多媒体文档中按照时间顺序插入所有子文本数据，以及根据照片的拍摄时间在相邻两个子文本数据之间插入照片，，以此来自动生成多媒体文档，不需要用户手动整理，极大地节省了用户的精力。

进一步地，参照图13，图13为本发明多媒体数据处理方法第二实施例的流程示意图，基于上述图10所述的实施例，本实施例中，根据所述拍摄时间，在预设的多媒体文档中插入所有所述子文本数据和所述照片的步骤之后还包括：

步骤S50，获取在采集语音数据和用户拍摄的照片的过程中采集的地理位置信息，其中，在采集语音数据和用户拍摄的照片的过程中，每隔预设的时间间隔采集用户所在区域的地理位置信息。

本实施例中，在采集语音数据和用户拍摄的照片的过程中，每隔预设的时间间隔采集用户在旅行过程中的地理位置信息，例如每隔30分钟采集一次用户所在位置的地理位置信息。

步骤S60，按照所述地理位置信息的采集时间与所述照片的拍摄时间以及所述多个子文本数据对应的时间的先后顺序，将所述地理位置信息插入到所述多媒体文档中。

本实施例通过定时采集用户在旅行过程中的地理位置信息，并将采集到的地理位置信息按照时间顺序插入到预设的多媒体文档中，使得生成的多媒体文档中能够有效记录用户的移动路线，不需要用户手动去添加，节省了用户的精力。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵欣
技术所有人：努比亚技术有限公司
我是此专利的发明人

上一篇：一种用于针织面料的计重装置的制作方法
上一篇：一种双供料同步双计量装置及其计量方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。