用于从源数据到音频/视频数据的语义媒体转换的方法、设备和计算机程序产品的制作方法

文档序号：6479140阅读：211来源：国知局

专利名称：用于从源数据到音频/视频数据的语义媒体转换的方法、设备和计算机程序产品的制作方法
技术领域：
本发明的实施方式一般地涉及移动通信技术，并且更具体地，涉及用于将例如web 文件的源数据转换成视频或音频数据的方法、设备和计算机程序产品。
背景技术：
现代通信时代带来了有线网络和无线网络的极大扩展。计算机网络、电视网络以及电话网络正经历由消费者需求驱动的、空前的技术扩展。无线和移动连网技术已经解决了相关的消费者需求，同时为信息传送提供了更大的灵活性和及时性。通信网络的该爆炸性增长允许若干种新的媒体递送通道来发展，包括允许分发由各个消费者所生成的内容的通道。连网技术中的当前和未来发展持续促进便于媒体内容递送以及对用户的便利性。然而，其中需要进一步改进便于媒体内容递送和对用户的便利性的一个区域涉及以最小化的用户努力来改进通过多种类型的媒体递送通道来递送媒体内容的能力。流行的因特网服务现在甚至允许不太理解技术的用户创建并且分发他们自己的媒体内容。流行的网站YouTube例如允许用户公开地发布和分发以便公众观看他们自己的视频文件，这些视频文件是他们使用公共可获得的便携式电子设备来拍摄的，这些便携式电子设备例如数字照相机或配备有照相机的移动电话和PDA，或可以通过动画软件创建。例如Live Journal禾口 Blogger的在线站点以及例如Word Press禾口 Moveable Type的用户友好的服务器侧软件允许用户轻易地发布书面意见或大量体验，称为“web日志”或就是“博客”。用户甚至可以轻易地创建和分发包含他们创建的音频内容的数字音频文件。这些用户创建的音频文件接着可以以例如“播客(podcast) ”的格式来分发以便在便携式媒体播放器上播放。移动连网技术中的改进以及移动消费者设备的能力改进和持续尺寸的减小进一步允许消费者不停地访问和发布媒体内容。例如，如蜂窝电话和PDA的支持web的移动终端允许消费者浏览因特网内容，例如YouTube视频和在线博客或从他们的便携式设备上的几乎任何位置收听各种流行格式的音频文件。因此，内容提供商和内容消费者之间的界线变得模糊并且与以前相比，现在有更多的内容提供商以及更多的通道来分发和访问内容并且消费者几乎可以在任何时间从任何位置访问数字内容。此外，数字内容访问的模式多样性允许内容消费者选择最合适他们当前位置和活动的内容访问模式。例如，主动地从事慢跑或驾驶汽车的内容消费者可能更倾向于收听音频内容，例如便携式设备上的播客。使用个人计算机终端的内容消费者可能倾向于访问网页以及阅读例如博客上基于文本的内容。另一方面，在繁忙的航空港等待并且仅具有移动终端的内容消费者可能期望浏览多媒体视频内容，该移动终端例如带有小的显示屏的PDA或蜂窝电话，在该小的显示屏上，不太容易阅读网页文本但其仍能支持视频内容的显示。
然而，如果内容提供商期望他们的内容以多种格式跨不同的媒体内容分发通道可用从而最佳地适应例如那些上面所描述的各种用户场景，则他们在产生和分发内容方面仍将面临巨大的困难。例如，如果博主期望使其写的博客的内容作为音频文件可用，从而内容消费者可以通过便携式数字媒体播放器来收听博客和/或作为视频文件可用，从而内容消费者可以使用各种视频播放设备来浏览博客内容，博主将不得不人工地读取和记录所有的文本以便将它们转换成音频或视频媒体。即使现有的文本到语音(TTS)转换程序也不解决这一困境，因为简单的TTS转换器简单地生成输入文本的音频版本而不会考虑任何的图像、超链接、或可能嵌入在源文件中的其他数据，或可以由内容的语义结构传达的任何情感，例如图像、内容的特定布置、或应用到源文本的效果和格式化。因此，当仅仅使用常规的TTS程序时，博客旨在传达的大部分情感和气氛可能在转换中丢失，并且因此用户体验将遭受负面地影响。因此，将有益的是提供允许自动化地将基于文本的内容(例如经由web浏览器可观看的博客)转换成可以在各种设备上收听的音频数据或观看的视频数据之一或二者，同时保持内容的语义结构从而保持旨在的用户体验的方法、设备以及计算机程序产品。

发明内容
因此提供一种用于改进便利性和有效性的方法、设备和计算机程序产品，利用该方法、设备和计算机程序产品可以将包含文本和/或其他元素的源数据(例如web内容) 转换成音频和/或视频内容，而同时保留旨在的用户体验的关键元素。特别地，提供一种方法、设备和计算机程序产品以便例如能够将源数据转换成音频或视频数据，该音频或视频数据包括代表原始源数据的结构的效果。因此，内容创建者可以轻易地将他们的基于文本的内容转成其他的格式以便通过多种媒体通道来分发，同时仍将保持用户体验的旨在元素ο在一个示例性实施方式中，提供一种方法，其可以包括解析具有一个或多个标签的源数据并且创建代表源数据的语义结构模型，以及生成音频数据，该音频数据包括从包含在所述语义结构模型中的源数据的解析文本转换的语音和应用的音效的至少一个。在另一个示例性实施方式中，提供一种用于从源数据生成数字媒体数据的计算机程序产品。该计算机程序产品包括其中存储有计算机可读程序代码部分的至少一个计算机可读存储介质。计算机可读程序代码部分包括第一和第二可执行部分。第一可执行部分用于解析具有一个或多个标签的源数据并且创建代表所述源数据的语义结构模型。第二可执行部分用于生成音频数据，该音频数据包括从包含在所述语义结构模型中的源数据的解析文本转换的语音和应用的音效的至少一个。在另一个示例性实施方式中，提供一种用于从源数据生成数字媒体数据的设备。该设备可以包括处理器。处理器可以配置成解析具有文本和一个或多个标签的源数据并且创建代表所述源数据的语义结构模型，以及生成音频数据，该音频数据包括从包含在所述语义结构模型中的源数据的解析文本转换的语音和应用的音效的至少一个。因此，本发明的实施方式可以提供用于从源数据生成数字媒体数据的方法、设备和计算机程序产品。作为结果，例如，内容创建者和消费者可以从加快将例如基于web内容的源数据转成替换的音频和视频格式从而通过可替换的媒体分发通道分发而同时保持在转的文件中的用户体验的旨在元素中获益。

已经从总的方面描述了本发明的实施方式，现在将参考附图，其中附图并不必须按比例绘制，以及其中图1是根据本发明的一个示例性实施方式的移动终端的示意框图；图2是根据本发明的一个示例性实施方式的无线通信系统的示意框图；图3图示出将源数据转换成数字媒体数据的示例性实现的框图；图4是根据用于将源数据转换成数字媒体数据的示例性方法的流程图；以及图5图示出从网页到一系列场景的样本转换的图像。
具体实施例方式现在将在下文中参考附图来更全面地描述本发明的实施方式，其中在附图中示出了本发明的某些但并非全部的实施方式。事实上，本发明可以以很多不同形式实现，并且不应该被解释为限于这里所描述的实施方式；相反，这些实施方式被提供是为了使本公开满足可适用的法律要求。贯穿本文，相同的附图标记表示相同的元件。图1示出了将受益于本发明的移动终端10的框图。然而，应当理解，所示出以及在此后描述的移动终端仅仅是受益于本发明的一种类型的电子设备的示范，并且因此不应用来限制本发明的范围。尽管出于示例目的而示出并在此后描述了电子设备的多个实施方式，但是其他类型的电子设备也可以采用本发明，其中其他类型的电子设备诸如是便携式数字助理(PDA)、寻呼机、膝上型计算机、台式机、游戏设备、电视机以及其他类型的电子系统。如图所示，移动终端10包括天线12，其与发射机14和接收机16通信。移动终端还包括控制器20或者其他处理器，其分别提供去往发射机的信号和接收来自接收机的信号。这些信号包括按照适用的蜂窝系统的空中接口标准的信令信息，和/或任意数量的不同无线连网技术，包括但不限于无线保真(Wi-Fi)、诸如IEEE 802. 11之类的无线LAN(WLAN)技术和/或类似的技术。另外，这些信号可以包括语音数据、用户生成的数据、用户请求的数据和/或其他数据。在此方面，移动终端可以能够利用一个或多个空中接口标准、通信协议、调制类型、接入类型和/或类似的来进行操作。更具体地，移动终端可以能够根据各种第一代(IG)、第二代(2G)、2. 5G、第三代(3G)通信协议、第四代(4G)通信协议和/或类似协议来进行操作。例如，移动终端可以能够按照2G无线通信协议IS-136 (TDMA)、GSM和 IS-95 (CDMA)来进行操作。而且，例如，移动终端可以能够根据2. 5G无线通信协议GPRS、 EDGE或类似协议来进行操作。此外，例如，移动终端可以能够根据3G无线通信协议(诸如使用WCDMA无线电接入技术的UMTS网络)来进行操作。某些NAMPS和TACS移动终端也可以从本发明的教导受益，双模或更多模电话(例如，数字/模拟或TDMA/CDMA/模拟电话) 都是如此。另外，移动终端10可以能够根据无线保真(Wi-Fi)协议操作。可以理解，控制器20可以包括实现移动终端10的音频和逻辑功能所需的电路。例如，控制器20可以是数字信号处理器设备、微处理器设备、模数转换器、数模转换器和/或类似设备。移动终端的控制和信号处理功能按照这些设备各自的能力在其之间进行分配。控制器可以另外包括内部语音编码器(VC) 20a、内部数据调制解调器(DM) 20b和/或类似设备。此外，控制器可以包括用以操作一个或多个软件程序(其可以存储在存储器中)的功能。例如，控制器20可以能够操作连接程序，诸如Web浏览器。连接程序可以允许移动终端10例如按照无线应用协议(WAP)、超文本传输协议(HTTP)和/或类似协议来发射和接收 Web内容(诸如基于位置的内容)。移动终端10可以能够使用传输控制协议/因特网协议 (TCP/IP)来跨因特网50发射和接收Web内容。移动终端10还可以包括用户接口，其包括传统的耳机或者扬声器24、振铃器22、麦克风26、显示器28、用户输入接口和/或类似物，所有这些设备都可以耦合至控制器20。尽管未示出，移动终端可以包括用于给涉及移动终端的各种电路供电的电池，其中电路例如是用于将机械振动提供为可检测输出的电路。用户输入接口可以包括允许移动终端接收数据的设备，诸如小键盘30、触摸显示器(未示出)、游戏手柄(未示出)和/或其他输入设备。在包括小键盘的实施方式中，小键盘可以包括传统的数字键(0-9)和相关键(#，*)，和/或用于操作移动终端的其他键。如图1中所示，移动终端10还可以包括用于共享和/或获得数据的一个或多个装置。例如，移动终端可以包括短程射频(RF)收发机和/或询问器64，从而可以根据RF技术与电子设备共享和/或从其获得数据。移动终端可以包括其他短程收发机，诸如，例如，红外(IR)收发机66、使用蓝牙特殊兴趣组研发的蓝牙品牌无线技术操作的蓝牙 (BT) 收发机68和/或类似的。蓝牙收发机68可以能够根据Wibree 无线电标准操作。就这一点，移动终端10以及具体地短程收发机可以能够将数据发射至移动终端附近(例如，10米内)的电子设备和/或从其接收数据。尽管未示出，移动终端可以能够根据各种无线连网技术(包括无线保真(Wi-Fi)、诸如IEEE 802. 11技术的WLAN技术和/或类似的)向电子设备发射数据和/或从其接收数据。移动终端10可以包括存储器，诸如订户身份模块(SIM) 38、可移除式用户身份模块(R-UIM)和/或类似的，其可以存储与移动订户有关的信息元素。除了 SIM之外，移动终端还可以包括其他可移除式和/或固定式存储器。就这一点，移动终端可以包括易失性存储器40，例如可以包括用于数据临时存储的高速缓存区域的易失性随机存取存储器 (RAM)。移动终端还可以包括其他非易失性存储器42，其可以是嵌入式的和/或可移除式的。非易失性存储器可以包括EEPR0M、闪存和/或类似的。存储器可以存储移动终端所使用的一个或多个软件程序、指令、信息片段、数据和/或类似的，以便执行移动终端的功能。例如，存储器可以包括能够唯一标识移动终端10的标识符，诸如国际移动设备标识(IMEI) 码。在一个示例性实施方式中，移动终端10包括与控制器20通信的媒体捕获模块，例如照相机、视频和/或音频模块。媒体捕获模块可以是用于捕获图像、视频和/或音频以便进行存储、显示或传输的任意装置。例如，在一个示例性实施方式中，其中媒体捕获模块是照相机模块36，该照相机模块36可以包括能够从捕获的图像形成数字图像文件或者从一系列捕获的图像形成数字视频文件的数字照相机。这样，照相机模块36包括例如透镜或其他光学器件的所有硬件以及从捕获的图像或一系列捕获的图像创建数字图像或视频文件所需的软件。可替换地，照相机模块36可以仅包括查看图像所需的硬件，而移动终端10的存储器设备存储由控制器20执行的从捕获的图像或多个图像创建数字图像或视频文件所需的软件形式的指令。在一个示例性实施方式中，照相机模块36可以进一步包括例如协处理器的处理单元，其辅助控制器20处理图像数据以及用于压缩和/或解压缩图像数据的编码器和/或解码器。编码器和/或解码器可以根据例如JPEG或MPEG标准格式进行编码和
/或解码。现在参考图2，其作为示例而不是限制的方式示出了可以支持去往和来自诸如图 1的移动终端的电子设备的通信的一种类型的系统。如图所示，一个或多个移动终端10每个都可以包括天线12，用于将信号发射至基地或基站(BS)44以及用于从其接收信号。基站 44可以是一个或多个蜂窝或移动网络的一部分，每个蜂窝或移动网络可以包括操作该网络所需的元件，例如移动交换中心(MSC)46。如本领域技术人员所公知的，移动网络还可以表示为基站/MSC/互连功能(BMI)。在操作中，当移动终端10做出和接收呼叫时，MSC46可以能够路由去往和来自移动终端10的呼叫。当呼叫涉及移动终端10时，MSC 46还可以提供到陆线主干的连接。此外，MSC 46可以能够控制去往和来自移动终端10的消息的转发，并且还可以控制去往和来自消息收发中心的、针对移动终端10的消息的转发。应当注意，尽管在图2的系统中示出了 MSC 46，但是MSC 46仅仅是示例性网络设备，并且本发明不限于在采用MSC的网络中使用。MSC 46可以耦合至数据网络，诸如局域网(LAN)、城域网(MAN)和/或广域网 (WAN)。MSC 46可以直接耦合至数据网络。然而，在一个典型实施方式中，MSC 46可以耦合至GTW 48，而GTW48可以耦合至例如因特网50的WAN。继而，诸如处理元件(例如，个人计算机、服务器计算机或类似的)的设备可以经由因特网50耦合至移动终端10。例如，如下所解释，处理元件可以包括与下文描述的计算系统52 (图2中示出了两个)、源服务器54 (图 2中示出了一个)或类似的相关联的一个或多个处理元件。如图2中所示，BS 44还可以耦合至信令GPRS(通用分组无线电服务)支持节点 (SGSN) 56。如本领域技术人员公知的，SGSN 56可以能够执行类似于MSC 46的功能，以用于分组交换服务。与MSC46类似，SGSN 56可以耦合至诸如因特网50的数据网络。SGSN 56 可以直接耦合至数据网络。可替换地，SGSN 56可以耦合至分组交换核心网，诸如GPRS核心网58。分组交换核心网可以继而耦合至另一 GTW 48，诸如GTW GPRS支持节点(GGSN) 60，而GGSN 60可以耦合至因特网50。除了 GGSN 60之外，分组交换核心网还可以耦合至GTW 48。而且，GGSN 60可以耦合至消息收发中心。在此方面，类似于MSC 46，GGSN 60和SGSN 56可以能够控制消息(诸如匪S消息)的转发。GGSN 60和SGSN 56还可以能够控制去往和来自消息收发中心的、针对移动终端10的消息的转发。此外，通过将SGSN 56耦合至GPRS核心网58和GGSN 60，诸如计算系统52和/或源服务器54的设备可以经由因特网50、SGSN 56以及GGSN 60耦合至移动终端10。在此方面，诸如计算系统52和/或源服务器54的设备可以跨越SGSN 56、GPRS核心网58以及 GGSN60来与移动终端10通信。通过将移动终端10以及其他设备(例如，计算系统52、源服务器54等)直接或者间接地连接至因特网50，移动终端10例如可以按照超文本传输协议(HTTP)来与其他设备通信以及相互之间彼此通信，由此执行移动终端10的各种功能。尽管在图2中没有示出和描述每个可能的移动网络的每个元件，应当意识到，例如移动终端10的电子设备可以通过BS 44耦合至多种不同网络中任意的一个或多个。在此方面，网络可以能够支持按照多个第一代(IG)、第二代(2G)、2. 5G、第三代(3G)、第四代(4G)和/或未来的移动通信协议或类似中的任意一个或多个协议的通信。例如，一个或多个网络可以能够支持按照2G无线通信协议IS-136 (TDMA)、GSM和IS-95 (CDMA)的通信。而且，例如，一个或多个网络可以能够支持按照2. 5G无线通信协议GPRS、增强数据GSM环境 (EDGE)或类似的通信。此外，例如，一个或多个网络可以能够支持按照3G无线通信协议的通信，其中3G无线通信协议诸如使用宽带码分多址(WCDMA)无线电接入技术的通用移动电话系统(UMTS)网络。一些窄带AMPS (NAMPS)网络、TACS网络以及双模或者更多模的移动终端(例如，数字/模拟或者TDMA/CDMA/模拟电话)也可以得益于本发明的实施方式。如图2中所绘出的，移动终端10还可以耦合至一个或多个无线接入点(AP)62。 AP 62可以包括被配置为按照诸如以下的技术来与移动终端10进行通信的接入点例如射频(RF)、蓝牙 (BT)、红外(IrDA)或者多种不同的无线连网技术中的任意技术，其中无线连网技术包括诸如 IEEE 802. 11 (例如，802. Ila,802. lib,802. Ilg,802. Iln 等)的无线 LAN(WLAN)技术、Wibree 技术、诸如IEEE802. 16的WiMAX技术、无线保真(Wi-Fi)技术和/ 或诸如IEEE 802. 15等的超宽带(UWB)技术等。AP 62可以耦合至因特网50。类似于MSC 46, AP 62可以直接耦合至因特网50。然而，在一个实施方式中，AP 62可以经由GTW 48间接耦合至因特网50。此外，在一个实施方式中，可以将BS 44视作另一 AP 62。将会意识到，通过将移动终端10以及计算系统52、源服务器54和/或多种其他设备中的任意设备直接或者间接地连接至因特网50，移动终端10可以彼此进行通信，与计算系统等进行通信，由此来执行移动终端10的各种功能，例如将数据、内容或类似的发射至计算系统52和/或从计算系统52接收内容、数据或类似的。这里所使用的术语“数据”、“内容”、“信息”以及类似术语可以互换使用，用来表示能够根据本发明的实施方式而被发射、接收和/或存储的数据。由此，不应将任何这种术语的使用作为对本发明实施方式的精神以及范围的限制。尽管未在图2中示出，除了跨越因特网50将移动终端10耦合至计算系统52和/ 或源服务器54之外或者作为其替代，可以按照例如RF、BT、IrDA或者多种不同的有线或无线通信技术(包括LAN、WLAN、WiMAX、无线保真(Wi-Fi)、Wibree 和/或UWB技术)中的任意技术来将移动终端10、计算系统52和源服务器54彼此耦合和通信。一个或多个计算系统52可以附加地或者可替换地包括可移除式存储器，其能够存储随后可以传送给移动终端10的内容。此外，移动终端10可以耦合至一个或多个电子设备，诸如打印机、数字投影仪和/或其他多媒体捕获、产生和/或存储设备(例如，其他终端)。类似于计算系统52，移动终端10可以被配置为按照例如RF、BT、IrDA或者多种不同的有线或无线通信技术(包括USB、LAN、Wibree 、Wi-Fi、WLAN、WiMAX和/或UWB技术)中的任意技术来与便携式电子设备进行通信。就这方面，移动终端10可以能够经由短程通信技术来与其他设备通信。例如，移动终端10可以与配备有短程通信收发机80的一个或多个设备51无线短程通信。电子设备51可以包括任何数量的不同设备和应答器，其能够根据任意许多不同短程通信技术来发射和/或接收数据，这些技术包括但不限于蓝牙、RFID、IR、WLAN、红外数据关联 (IrDA)或类似的。电子设备51可以包括任意许多不同移动的或固定的设备，包括其他移动终端、无线配件、器具、便携式数字助理(PDA)、寻呼机、膝上型计算机、运动感测器、电灯开关和其他类型的电子设备。在一个示例性实施方式中，内容或数据可以通过图2的系统在类似于图1的移动终端10的移动终端以及图2的系统的网络设备之间进行传送，从而例如经由图2的系统执行用于建立移动终端10和其他移动终端之间的通信的应用。这样，应该理解图2的系统不需要用于移动终端之间的通信或网络设备和移动终端之间的通信，而图2仅仅提供示例性的目的。进一步，应该理解本发明的实施方式可以驻留在例如移动终端10的通信设备上和 /或可以驻留在例如服务器的网络设备或其他可以接入到通信设备的其他设备上。图3图示出根据本发明的一个示例性实施方式的用于将源文件转换成数字媒体文件的系统的框图。如这里所用，术语“示例性”仅仅表示一个例子。为了该描述的目的，将使用利用超文件标记语言(HTML)格式化的博客数据作为示例的初始源文件来描述本发明。然而，本领域技术人员将理解到当前本发明的实施方式不限于包含博客数据的源文件，而是也可以运用在其他类型的数据上，例如以除HTML外的标签标记语言格式化的源文件，标签标记语言例如Scribe、GML、SGML、XML、XHTML、LaTeX和/或类似的。将结合图1的移动终端10以及图2系统的各种单元来示例性地描述图3的系统。然而，应该理解图3的框图中所绘出的系统可以包括在除图1和图2中那些绘出之外的设备以及通信网络中。图3的系统包括服务器100，其例如可以体现为图2的系统中的源服务器54以及例如可以体现为图2的系统的移动终端10或计算系统52的客户端102。客户端102可以包括web浏览器122，其可以包括在以硬件、软件或硬件和软件的组合体现的任何设备或装置中。Web浏览器122可以由处理器控制或体现为处理器，例如移动终端10的控制器20。Web浏览器122可以配置成允许显示源文件，例如在与客户端102 通信的移动终端10的显示器28的显示屏上显示的HTML文件120。用户可以与显示的HTML 文件120交互，例如通过例如移动终端10的小键盘30的各种输入装置来激活到其他网页或多媒体文件的超链接。客户端102可以包括音频播放器126，其可以包括在以硬件、软件或硬件和软件的组合体现的任意设备或装置中。音频播放器126可以由处理器控制或体现为处理器，例如移动终端10的控制器20。音频播放器126可以配置成允许播放音频文件，例如音频文件 124。音频文件124可以以任意若干种数字音频格式来格式化，例如WAV、MP3、V0RBIS、WMA、 AAC和/或可以由音频播放器126所支持的类似格式。使用客户端102上的音频播放器126 来播放音频文件124的用户可以通过与客户端102通信的任意扬声器(例如移动终端10 的扬声器24)来收听音频文件124的音频内容。客户端102可以包括视频播放器130，其可以包括在以硬件、软件或硬件和软件的组合体现的任意设备或装置中。视频播放器130可以由处理器控制或体现为处理器，例如移动终端10的控制器20。视频播放器130可以配置成允许播放视频文件，例如视频文件 128。可以以任意若干种数字视频格式来格式化视频文件128，例如任意的MPGE标准、AVI、 WMV和/或可以由视频播放器130所支持的类似格式。使用客户端102上的视频播放器130 播放视频文件128的用户可以通过与客户端102关联的任意显示器(例如移动终端10的显示器28)来查看视频文件128的视频内容。使用客户端102上的视频播放器130来播放视频文件128的用户可以通过与客户端102关联的任意扬声器(例如移动终端10的扬声器24)来收听包含在视频文件128中的音频内容。服务器100可以包含未示出的存储器。存储器可以包括易失性存储器和/或非易失性存储器。存储器可以存储可以包括博客数据104的源数据。服务器100可以配置成从与服务器100通信的远端设备(例如图2的系统的任意设备)取回例如博客数据104的源数据。该取回可以涉及服务器100或例如图2的系统的任意设备的其他网络设备的用户的请求。在一个示例性实施方式中，服务器100可以传送例如HTML文件120的博客数据104 以便在没有修改的情况下显示在客户端102的web浏览器122上，因为该例子中的源文件包括以HTML预先格式化的博客数据104。服务器100可以进一步包括语义媒体转换引擎106，其允许从例如博客数据104的源数据生成音频文件124和/或视频文件128。在其中源数据包含HTML文件的一个示例性实施方式中，语义媒体转换引擎106可以包含标记语言解析器(“解析器”)108，其例如可以是HTML解析器。解析器108可以包括在以硬件、软件、或硬件和软件的组合体现的任意设备或装置中。解析器108的执行可以由处理器来控制或体现为处理器。解析器108可以配置成加载HTML格式的源数据(例如博客数据104)并且解析源数据以生成代表博客数据104的语义结构模型110，该模型可以包含由解析器108从HTML结构解析的信息。包含在语义结构模型110中的信息可以包括标记字词和其他元素的位置、与段落关联的图像的源、从解析的结果生成的场景信息和/或类似的。该信息可以用于定义随后生成的音频文件124和/或视频文件128的各种方面，例如段落中字符的数目。语义媒体转换引擎106可以进一步包含TTS转换器112。TTS转换器112可以包括在以硬件、软件、或硬件和软件的组合体现的任意设备或装置中。TTS转换器112的执行可以由处理器控制或体现为处理器。TTS转换器112可以包括算法、商业可获得的软件模块和/或类似的以便至少部分地基于输入文本数据来生成音频数据。TTS转换器112可以确定合适的音效以便添加到从文本数据到语音的转换生成的音频数据。可能期望的是使用音效来帮助提供与通过查看原始源博客数据104将获得的类似用户体验。可以通过任意多个手段来确定将由TTS转换器112所添加的音效。在一个示例性实施方式中，音效可以至少部分地基于用于格式化文件的标签信息，例如HTML标签，其可以例如包括令跟随针对线路断开的HTML标签的转换的文本数据的音频播放中的短的暂停，令转换的音频数据在由用于粗体或加重字词的HTML标签包围的文本部分上大声播放、如果存在到包含在源博客数据104中的其他HTML页的超链接，则将链接页面的引言插入在音频尾部和/或类似的。在另一个示例性实施方式中，音效可以至少部分地基于特定的字词对或嵌入在服务于不同于格式化文本的目的源博客数据104内的特定HTML标签。例如，响应于读到语义结构模型110内的字词对例如“吠犬”或者响应于针对向转换的文件添加音效所创建的例如〈barkX/bark〉，TTS转换器112可以确定添加犬吠的音效。在另一个示例性实施方式中，音效可以至少部分地基于嵌入在由解析器108 从博客数据104所提取的文本内以及包含在语义结构模型110内的特定字符组合。此类特定字符组合的例子包括已知的情感符或笑脸，例如“；)”或“)”。响应于碰到此类的字符组合，欢笑的话音音效可以添加到由TTS转换器112所生成的音频数据。然而，将理解到上述的例子仅仅是用于从包含在语义结构模型110内的数据确定是否向转换的音频数据添加和添加什么音效的手段的例子并且本发明不限于这些示例的场景。此外，如这里所使用的术语“标签”应该被解释为不仅仅包括在标记语言中所使用的标签，还包括用于指定数据格式化或在到音频和/或视频数据的语义转换时应该添加的特定效果的任意类似装置或设备。音效库114可以包括可以添加到由TTS转换器112所转换的音频数据的音频。根据一个示例性实施方式，音效库114可以是存储在存储器中的音频剪辑和效果的仓库。其上存储有音效库114的存储器可以是服务器100的本地存储器或可以是一个或多个其他设备的远端存储器，例如图2的系统的任何设备。一旦TTS转换器112已经将语义结构模型110的所有文本转换成语音并且添加了来自音效库114的合适音效，则TTS转换器112可以生成包括包含转换的文本和添加的音效的生成的音频数据的音频文件124。音频文件124可以采用多种格式中的任意一种，该种格式可以在例如客户端102的音频播放器126的数字音频播放器上可播放。附加地或可替代地，如果将生成视频文件，则TTS转换器112可以将生成的音频数据传送到图像合成器 116。图像合成器116可以包括在以硬件、软件、或硬件和软件的组合体现的任意设备或装置中。图像合成器116的执行可以由处理器来控制或体现为处理器。在一个示例性实施方式中，图像合成器116可以配置成通过将由图像合成器116所合成的视频数据与由TTS 转换器112所生成的转换的音频数据进行相关以生成视频文件128，来创建幻灯片放映。图像合成器116可以配置成加载语义结构模型110以及来自于视效库118的将要添加到合成的视频数据的合适视效。根据一个示例性实施方式，视效库118是存储在存储器中的视效仓库。其上存储有视效库118的存储器可以是服务器100本地的存储器或可以是图2的系统的任意设备的远端存储器。在合成来自语义结构模型110的视觉数据时，图像合成器116可以基于例如HTML 标签映射的标签来确定要添加的合适视效。添加视效的目的是通过视觉数据的使用来重构如果用户查看原始博客数据104时所获得体验的类似体验。例如，可以针对由段落或行中断标签所表示的语义结构模型110中的文本数据的每个段落来创建视频数据的单独幻灯片或场景，以及响应于HTML标签，可以添加附加的淡出视效以便在幻灯片之间切换场景。在另外的例子中，如果文本数据包围在用于加粗或加重字词的标签中时，则在语音的音频播放期间可以将视觉颤动效果添加到合成的视频数据。如果图像位于由图像标签所指示的原始博客数据104中，则其可以在幻灯片上显示，而在该期间，由语义结构模型110所确定的相邻文本将经由转换的音频数据重读。进一步，如果博客数据包含到另一个网页的链接，则链接页面的缩略图的视效可以显示在幻灯片上，而读取语句或包含链接的文本分组的音频数据被播放。然而，将理解到上面的例子仅仅是用于从包含在语义结构模型110内的数据确定是否向转换的视频数据添加视效以及添加什么视效的手段的一些例子，并且本发明并不限于这些示例场景。此外，这里所使用的术语“标签”应该被解释为不仅仅包括在标记语言中使用的标签，还包括用于指定数据格式化或在到音频和/或视频数据的语义转换时应该添加的特定效果的任意类似装置或设备。一旦图像合成器116已经生成包含从语义结构模型110所确定的合适视效的视频数据，视频数据可以与转换的音频数据相关以创建视频文件128。视频文件128可以是例如客户端102的视频播放器130的数字视频播放器上可播放的多种格式中的任意格式。尽管图3的系统的上述描述已经讨论使用HTML格式化的初始源数据来生成音频和视频文件，但将理解到本发明可以应用于任意的标签化文本或其他标签化的源数据，例如标签化标记语言并且解析器108可以以这样的解析器来替代，其设计成解释不同类型的标签化源文件(例如以替代的标签化标记语言格式化的源文件)并且从可替代的标签化源文件生成语义结构模型110。进一步，TTS转换器112和图像合成器116可以配置成使用源自于另一种源文件格式的标签来确定合适的音效和视效。可替代地，当生成语义结构模型 110时，在系统中使用的任意解析器108可以包含规范以便无论文件格式将源文件的标签代码变换成由TTS转换器112和图像合成器116所识别的特定标签符号。将进一步理解到尽管如图3中所绘出的本发明的一个实施方式的上述讨论描述了从转换的音频数据和合成的视频数据创建数字媒体文件，本发明的实施方式不限于从转换的音频数据和/或合成的视频数据创建媒体文件。在替代的实施方式中，设备可以生成转换的音频数据并且将转换的音频数据流式传输到远端的设备，例如通过网络链接流式传输到例如图2的系统的任何设备，而不需要创建音频文件。另外，在可替代的实施方式中，设备可以将转换的音频数据与合成的视频数据相关以生成相关的视频数据并且接着将相关的视频数据流式传输到远端设备，例如通过网络链接流式传输到图2的系统的任意设备。进一步，尽管图3的框图以及上述的描述讨论了在递送到客户端设备前发生在服务器上的源数据到音频和/或视频数据的实际转换，将理解到本发明的实施方式不限于此类的配置。在可替代的实施方式中，硬件、软件或硬件和软件的组合可以驻留在客户端102 上并且实际的转换可以发生在客户端设备上。图4是根据本发明的一个示例性实施方式的方法和计算机程序产品的流程图。将理解到流程图的每个块或者步骤以及流程图中块的组合可以通过各种方式来实现，诸如通过硬件、固件和/或包括一个或多个计算机程序指令的软件。例如，上文描述的一个或多个过程可以通过计算机程序指令来体现。在此方面，体现上文描述过程的计算机程序指令可以由移动终端或服务器的存储器设备来存储，并由移动终端或服务器中的内置处理器来执行。将会意识到，任何这种计算机程序指令可以加载至计算设备或者其他可编程装置(也即，硬件)上以产生机器，使得当该指令在计算设备或其他可编程装置上执行时，创建出用于实现在流程图块或者步骤中指定的功能的装置。这些计算机程序指令还可以存储在计算机可读存储器中，该指令可以指引计算设备或其他可编程装置以特定方式工作，使得存储在计算机可读存储器中的指令产生出包括指令装置的产品，该指令装置实现流程图块或者步骤中指定的功能。该计算机程序指令还可以被加载至计算设备或者其他可编程装置上，以使得在该计算设备或其他可编程装置上执行一系列可操作步骤，以便产生计算机实现的过程，使得在计算设备或其他可编程装置上执行的指令提供用于实现在流程图块或者步骤中指定的功能的步骤。因此，流程图的块或者步骤支持用于执行特定功能的装置组合、用于执行特定功能的步骤组合和用于执行特定功能的程序指令装置。还应当理解，流程图的一个或多个块或者步骤以及流程图中块或者步骤的组合可以由基于专用硬件的计算机系统(其执行特定的功能或步骤)或者专用硬件和计算机指令的组合实现。就这一点，如图4中绘出的源数据转换成数字媒体文件的方法的一个实施方式可以包括初始化媒体转换处理200。下一步，在操作205处，可以针对转换加载博客项。再次，尽管针对示例目的讨论博客项目，本发明的实施方式不限于对博客数据操作，它们也不限于仅以HTML格式化的源数据。下一步，可以为了创建语义结构模型215解析210网页结构。如前所描述，语义结构模型可以包含原始源文件中的元素的相对定位，用于生成音效和/或视效的相关标签，以及用于转换音频数据和/或合成视频数据以便将转换输出数据划分成这里所称的场景的逻辑分段的信息。每个场景例如可以包括源文件的文本的单个段落、章节或其他逻辑划分中的数据并且包括逻辑划分内的任何嵌入式图像、链接或其他数据。操作220可以包括将场景中的语句转换成音频媒体。尽管图4的实施方式仅绘出每次将文本的一个场景转换成音频媒体，在一个可替换的实施方式中，所有文本场景可以一次转换成音频媒体。下一步，在操作225处，TTS转换器可以基于包含在如上图3的讨论中所描述的语义结构模型中的信息来确定是否将音效添加到块。如果一个或多个音效将被添加到块，则在操作230处，可以从音效库加载音效并且应用。如果音效不添加到块，则可以跳过操作230。操作235-245是可选的块，如果视频文件被合成，则可以执行。如果仅音频文件被合成，则这些操作可以被跳过。在操作235处，解析进语义结构模型的图像可以被加载并且可以创建视觉数据。下一步，在操作240的判定块处，图像合成器可以确定是否向块添加一个或多个视效。如果TTS转换器确定一个或多个视效应该被添加到库，则在操作245处，可以从视效库加载合适的视效并且应用。而另一方面，如果TTS转换器确定没有视效应该被添加到块，则可以跳过操作245。在操作250处，包括音频和视觉数据的视频文件可以被创建。然而，注意附加地或在替代方案中，如果期望输出音频文件，则可以创建包括音频数据的音频文件。另外，正如前面所讨论的，本发明的实施方式不限于创建媒体文件。在可替代的实施方式中，本发明可以从源数据创建数字媒体内容并且将该数字媒体内容流式传输到远端设备。操作255是判定块，其中可以确定是否到达文件的尾部。如果没有到达文件的尾部，则操作260前进到下一个场景并且方法可以返回到操作220。然而，注意到如上所述，在一个可替代的实施方式中，操作220可以包括将语义结构模型中的所有语句一次转换成音频媒体并且因此在操作260处前进到下一个场景，可以代替包括返回到操作225并且确定是否向下一个块添加音效。一旦已经到达文件的尾部，操作265将退出并且完成最终的音频和/或视频文件。上述的功能可以以许多种方式来实施。例如，用于实施上述的每个功能的任何适宜装置可以用于实施本发明的实施方式。在一个实施方式中，所有或一部分元件通常在计算机程序产品的控制下操作。用于执行本发明的实施方式的方法的计算机程序产品包括计算机可读存储介质，例如非易失性存储介质以及包括在计算机可读存储介质上的例如一系列计算机指令的计算机可读程序代码部分。图5绘出样本网页300的图像、其组成源代码302、以及从其到视频文件的语义转换可以得到的场景304的时间线。参考原始的网页300，第一场景可以包括文本的第一段落以及其右边的图像，由于其相对于邻近文本的定位，解析器可以确定其是第一场景的一部分。第二场景可以包括文本的第二段落，其包括嵌入的超链接以及一行文本(由于其被包括在如源代码302中看到的<str0ngX/str0ng>HTML标签中而被加重)。最终，第三场景可以包括文本的第三段落以及绕其包围文本的段落的图像。现在参考场景304的时间线，场景1绘出由于其相对于文本的定位而被确定为场景1的一部分。场景1也可以包含从第一段落的文本转换的音频数据。场景2可以显示在第二段落的文本中嵌入的链接的网页的缩略图。场景2的音频数据可以不仅包含从文本转换的语音，还包括当用语言表达包含在〈strongX/strong〉标签中的加重文本时所应用的大声说话的音效。最后，场景3可以包括
14提取的图像和代表转换到语音的文本的音频数据。这样，则本发明的实施方式提供若干种优势以用于将例如网页的源文件转换成音频和/或视频文件以便通过例如图2中绘出的系统的多个媒体分发通道来分发。内容创建者或内容消费者可以轻易地将例如基于web内容的源文件转换成音频和/或视频文件，从而在多个用户场景中在多个设备上适宜播放而不丢失用户通过与原始源文件交互将经历的旨在用户体验的任何元素。因此，本发明的实施方式允许内容创建者和消费者来轻易地利用存在的多个媒体分发通道和便携式设备而不需要内容创建者花费时间人工地创建或将媒体转换成多种形式以进行分发。受益于前述描述和相关附图的教导，此发明所属技术领域技术人员会想到在此给出的本发明的很多改进和其他实施方式。因此，应当理解，本发明的多个实施方式并不限于所公开的具体实施方式
，并且意在将改进和其他实施方式包括在所附权利要求的范围内。尽管在此使用了特定的术语，但是这些术语仅出于一般性和描述性的目的而使用，并非用于限制。
权利要求
一种方法，包括解析具有一个或多个标签的源数据并且创建代表所述源数据的语义结构模型；以及生成音频数据，该音频数据包括从包含在所述语义结构模型中的源数据的解析文本转换的语音和应用的音效的至少一个。
2.根据权利要求1所述的方法，进一步包括至少部分地基于从所述源数据提取的图像、从链接的网页提取的图像、以及应用的视效的至少一个来生成视频数据并且将所述视频数据与所述音频数据进行相关。
3.根据权利要求1所述的方法，其中所述源数据包括博客数据。
4.根据权利要求1所述的方法，其中生成所述音频数据包括至少部分地基于标签映射、所述源数据内的关键词以及所述源数据内的关键字符组合的至少一个来从音效库取回所应用的音效。
5.根据权利要求2所述的方法，其中生成所述视频数据包括至少部分地基于标签映射来从视效库取回所应用的视效。
6.根据权利要求1所述的方法，其中创建所述语义结构模型包括创建语义结构模型，该语义结构模型是包含一个或多个元素的定位、一个或多个标签以及场景信息的至少一个的解析的源数据的表示。
7.根据权利要求1所述的方法，进一步包括创建包含所述音频数据的数字媒体文件。
8.根据权利要求2所述的方法，进一步包括创建包含相关的音频数据和视频数据的数字媒体文件。
9.一种计算机程序产品，包括具有存储在其中的计算机可读程序代码部分的至少一个计算机可读存储介质，所述计算机可读程序代码部分包括第一可执行部分，用于解析具有文本和一个或多个标签的源数据并且创建代表所述源数据的语义结构模型；以及第二可执行部分，用于生成音频数据，该音频数据包括从包含在所述语义结构模型中的源数据的解析文本转换的语音和应用的音效的至少一个。
10.根据权利要求9所述的计算机程序产品，进一步包括第三可执行部分，用于至少部分地基于从所述源数据提取的图像、从链接的网页提取的图像、以及应用的视效的至少一个生成视频数据并且将所述视频数据与所述音频数据进行相关。
11.根据权利要求9所述的计算机程序产品，其中所述第二可执行部分包括用于至少部分地基于标签映射、所述源数据内的关键词以及所述源数据内的关键字符组合的至少一个来从音效库取回所应用的音效的指令。
12.根据权利要求10所述的计算机程序产品，其中所述第三可执行部分包括用于至少部分地基于标签映射来从视效库取回所应用的视效的指令。
13.根据权利要求9所述的计算机程序产品，其中所述语义结构模型是包含一个或多个元素的定位、一个或多个标签以及场景信息的至少一个的解析的源数据的表示。
14.根据权利要求9所述的计算机程序产品，进一步包括用于创建包含所述音频数据的数字媒体文件的第三可执行部分。
15.根据权利要求10所述的计算机程序产品，进一步包括用于创建包含相关的音频数据和视频数据的数字媒体文件的第四可执行部分。
16.一种包括处理器的设备，其配置成解析具有文本和一个或多个标签的源数据并且创建代表所述源数据的语义结构模型；以及生成音频数据，该音频数据包括从包含在所述语义结构模型中的所述源数据的解析文本转换的语音和应用的音效的至少一个。
17.根据权利要求16所述的设备，其中所述处理器进一步配置成至少部分地基于从所述源数据提取的图像、从链接的网页提取的图像、以及应用的视效的至少一个生成视频数据并且将所述视频数据与所述音频数据进行相关。
18.根据权利要求16所述的设备，其中所述源数据包括博客数据。
19.根据权利要求16所述的设备，其中所述处理器进一步配置成至少部分地基于标签映射、所述源数据内的关键词以及所述源数据内的关键字符组合的至少一个来从音效库取回所应用的音效。
20.根据权利要求17所述的设备，其中所述处理器进一步配置成至少部分地基于标签映射来从视效库取回所应用的视效。
21.根据权利要求16所述的设备，其中所述处理器进一步配置成创建所述语义结构模型，作为包含一个或多个元素的定位、一个或多个标签以及场景信息的至少一个的解析的源数据的表示。
22.根据权利要求16所述的设备，其中所述处理器进一步配置成创建包含所述音频数据的数字媒体文件。
23.根据权利要求17所述的设备，其中所述处理器进一步配置成创建包含相关的音频数据和视频数据的数字媒体文件。
24.一种设备，包括用于解析具有文本和一个或多个标签的源数据并且创建代表所述源数据的语义结构模型的装置；以及用于生成音频数据的装置，该音频数据包括从包含在所述语义结构模型中的源数据的解析文本转换的语音和应用的音效的至少一个。
25.根据权利要求22所述的设备，进一步包括用于至少部分地基于从所述源数据提取的图像、从链接的网页提取的图像、以及应用的视效的至少一个来生成视频数据的装置。
全文摘要
一种用于从源数据到音频/视频数据的语义媒体转换的设备可以包括处理器。处理器可以配置成解析具有文本和一个或多个标签的源数据并且创建代表源数据的语义结构模型，并且生成音频数据，该音频数据包括从包含在语义结构模型中的源数据的解析文本转换的语音以及应用的音效的至少一个。也提供了相应的方法和计算机程序产品。
文档编号G06F17/20GK101896803SQ200880120307
公开日2010年11月24日申请日期2008年11月6日优先权日2007年12月12日
发明者山部哲夫, 高桥清隆申请人:诺基亚公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：山部哲夫;高桥清隆
技术所有人：诺基亚公司
我是此专利的发明人

上一篇：执行复杂算法的分布式网络的制作方法
上一篇：包括运动补偿特征的运动和边缘自适应处理的系统和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。