专利名称:一种语音服务方法、系统及数字电视接收终端和前端设备的制作方法
技术领域:
本发明涉及数字电视技术领域,尤其涉及一种语音服务方法、系统及数字电视接
收终端和前端设备。
背景技术:
随着数字电视技术的迅猛发展,越来越多的家庭开始使用双向数字电视接收终 端。双向数字电视接收终端有一种很普遍的功能就是支持用户通过数字电视浏览网页。但 是很多电视的分辨率等性能还是较低,若用于上网,时间长了用户的眼睛难免会感到疲惫。 基于上述原因,部分终端生产厂家在数字电视接收终端上增加了朗读功能,可以将网页文 本转化成语音朗读出来。 目前数字电视接收终端上实现网页朗读功能的还比较少,现有的实现方案一般是 在数字电视接收终端集成相关语音引擎、载入相关资源包,将文本转成语音数据,然后播 放。 发明人在实施本发明的过程中发明,现有的在数字电视接收终端上实现网页朗读 功能的方案存在明显缺点 现有的实现方案中数字电视接收终端不仅需要集成语音引擎,将资源包烧到闪存 (Flash)中,而且需要支持语音数据(如脉冲编码调制数据(PCM,pulsecode modulation)、 动态景》像专家压縮标准音频层面3文件(MP3,Moving PictureExperts Group Audio Layer 3)等注入,即需要相应的解码器支持。 但是,数字电视接收终端Flash空间有限,载入资源包会浪费大量空间,而且对语 音质量要求越高,资源包越大,需要占用的Flash空间也越大,对于机顶盒这种资源非常有 限的嵌入式系统来说,这无疑是个很大的弊端。不仅如此,资源包烧到Flash中是不可能轻 易改变,导致播音等处理不够灵活,用户选择的机会少,给用户的使用体验不佳。
发明内容
本发明提供一种语音服务方法、系统及数字电视接收终端和前端设备,可以充分 利用前端资源优势,使数字电视接收终端的朗读网页功能消耗终端资源减到最小,同时提 供更好的用户体验。 本发明提供的数字电视接收终端语音服务方法,该方法包括
数字电视接收终端获取需要朗读的网页的纯文本数据; 数字电视接收终端将所述纯文本数据转换为语音数据,并向前端设备发送所述语 音数据; 数字电视接收终端接收所述前端设备发送的音频流;所述音频流为前端设备根据 其语音资源库中的配置信息,将所述语音数据合成为音频后,分组封装形成的音频流;
数字电视接收终端将音频流解码为音频电信号并进行播放。 同时,本发明提供对应的数字电视接收终端和前端设备,该数字电视接收终端包括 网页处理模块,用于确定需要朗读的网页,获取该网页的纯文本数据; 语音转换模块,用于将所述网页处理模块获取的纯文本数据转换为语音数据,并
向前端设备发送所述语音数据; 音频接收模块,用于接收所述前端设备发送的音频流,所述音频流为前端设备根 据其语音资源库中的配置信息,将所述语音数据合成为音频后,分组封装形成的音频流;
语音朗读模块,用于将音频流解码为音频电信号并播放。
该前端设备包括 语音资源库,用于存储配置信息;所述配置信息包括各种基本音频、各种语音数 据的音频合成算法; 音频合成模块,用于根据配置信息,将语音数据合成为音频,并分组封装为音频 流; 交互模块,用于接收数字电视接收终端发送的语音数据转发给所述音频合成模块
处理;将所述音频合成模块合成的音频流发送给数字电视接收终端;根据数字电视接收终
端的请求发送相应的网页数据给数字电视接收终端。 对应的,本发明还提供一种语音服务系统,该系统包括 前端设备,用于根据配置信息,将语音数据合成为音频,并分组封装为音频流; 数字电视接收终端,用于获取网页的纯文本数据,将其转换为语音数据后发送给
前端设备;接收所述前端设备发送的音频流,将其解码为音频电信号并播放。 实施本发明提供的语音服务方法、系统及数字电视接收终端和前端设备,可以充
分利用前端资源优势,使数字电视接收终端的朗读网页功能消耗终端资源减到最小,同时
提供更好的用户体验。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。
图1为本发明提供的语音服务方法第一实施例流程示意图;
图2为本发明提供的语音服务方法第二实施例流程示意图;
图3为本发明提供的语音服务系统实施例结构示意图;
图4为本发明提供的数字电视接收终端第一实施例结构示意图;
图5为本发明提供的数字电视接收终端第二实施例结构示意图;
图6为本发明提供的前端设备实施例结构示意图。
具体实施例方式
本发明提供的语音服务方法、系统及数字电视接收终端和前端设备,可以充分利 用前端资源优势,使数字电视接收终端的朗读网页功能消耗终端资源减到最小,同时提供 更好的用户体验。
参见图1,为本发明提供的语音服务方法第一实施例流程示意图 在步骤100,数字电视接收终端获取需要朗读的网页的纯文本数据。 在步骤101,数字电视接收终端将纯文本数据转换为语音数据。 在步骤102,数字电视接收终端向前端设备发送由纯文本数据转换得到的语音数据。 在步骤103,前端设备根据其语音资源库中的配置信息,将所述语音数据合成为音 频数据后,分组封装形成音频流,发送给数字电视接收终端。 在步骤104,数字电视接收终端接收前端设备发送的音频流,解码为音频电信号, 并进行播放。
在本实施例中,所述数字电视接收终端包括机顶盒、数字电视一体机,若数字电
视接收终端自身具有音频播放功能,如该数字电视接收终端为数字电视一体机,步骤104
具体为数字电视接收终端将音频流转换为数字或模拟的音频电信号后,通过自身的音频
播放装置进行播放。若数字电视接收终端自身不具有音频播放功能,如该数字电视接收终
端为机顶盒,步骤104具体为该数字电视接收终端将音频流解码为数字或模拟的音频电
信号后,通过其它具有音频播放功能的设备进行播放。所述其它具有音频播放功能的设备
包括但不限于数字电视机、模拟电视机、音响、耳机等具有音频播放功能的设备。
在本实施例中,所述前端设备包括网络服务器、音视频服务器等。 实施本发明提供的语音服务方法,可以充分利用前端资源优势预置语音资源库,
使数字电视接收终端消耗最少的内存资源,实现朗读网页的功能,避免数字电视接收终端
因为朗读网页占用太多资源造成其它性能下降,为用户提供更好的使用体验。
参见图2,为本发明提供的语音服务方法第二实施例流程示意图,在本实施例中,
将更为详细的描述语音服务方法,特征是在前端设备中的处理过程。 在实施本发明实施例提供的语音服务方法流程之前,在前端设备中需要预置语音 资源库,在语音资源库中存储配置信息;该配置信息包括各种基本音频、各种语音数据的 音频合成算法。更为具体的,该配置信息中记录的基本音频可用于合成各种音频,包括不同 语种的音频;语音数据的音频合成算法是将一组语音数据合成为音频的合成算法,对同一 语音数据,其需要合成的语种不同,则其音频合成算法也不同。
本发明实施例提供的语音服务方法如图2所示 在步骤200,数字电视接收终端播放前端设备传送的网页。在本发明各实施例中, 若数字电视接收终端自身具有视频播放功能,如该数字电视接收终端为数字电视一体机, 则步骤200具体为数字电视接收终端通过自身的视频播放装置播放前端设备传送的网 页。若数字电视接收终端自身不具有视频播放功能,如该数字电视接收终端为机顶盒,则步 骤200具体为数字电视接收终端通过其它具有视频播放功能的设备播放前端设备传送的 网页。所述具有视频播放功能的设备包括但不限于数字电视机、模拟电视机、投影仪等具 有视频播放功能的设备。 更为具体的,机顶盒接收到用户浏览网页的指令后,将网络获取请求发送至前端 设备,并接收前端设备下发的网页数据,机顶盒将所述网页数据发解码后通过电视机进行 播放,使用户可以通过电视机浏览其指定的网页。 在步骤201,数字电视接收终端根据用户的操作,判断是否需要朗读该网页。
更为具体的,数字电视接收终端在提供网页供用户浏览的同时,提供朗读该网页 的功能选项,并接收用户的操作指令,判断是否需要朗读该网页。在本发明实施例中,所述 用户的操作指令包括用户在数字电视接收终端上直接操作,或通过在遥控器上的操作所触 发的指令。 在步骤202,数字电视接收终端获取需要朗读的网页的纯文本数据。 更为具体的,数字电视接收终端在确定需要朗读当前网页后,获取需要朗读的网
页的纯文本数据。对于网页的纯文本数据的获取方式,可以是由网页服务器提供网页的纯
文本数据,数字电视接收终端通过发送相应的请求,直接获取当前网页的纯文本数据;也可
以是数字电视接收终端自身从前端设备发送的网页数据中分离出纯文本数据,因为网页数
据中,文本数据、视频数据、音频数据的格式是不相同的,数字电视接收终端通过判断数据
的格式,就可以从前端设备发送的网页数据中识别出其包含的文本数据,并将该文本数据
分离出来。 优选的,若前端设备是基于数字电视接收终端提供的应用程序编程接口 (API, Application Programming Interface)来开发的网页,本步骤也可以通过软件程序实现, 例如数字电视接收终端可以通过HTML语句
var test ; test = document, body. i皿erText ; 从前端设备提供的网页中直接提取纯文本数据。 在步骤203,数字电视接收终端将所述纯文本数据转换为语音数据。 更为具体的,数字电视接收终端只需支持文本合成语音数据功能的语音引擎,分
配尽量小的内存,对网页文本数据进行语音建模,将其转换成对应的语音数据。更进一步
的,对网页文本数据进行语音建模的过程可以依据汉语语言模型(CLM, Chinese Language
Model,或隐马尔可夫模型(HMM, Hidden MarkovModels)等进行建模。完成语音建模后,语
音数据的格式包括PCM格式。在本步骤中,数字电视接收终端没有进行音频的合成,只进
行最基本的数据转换,使需要的内存资源降到最低。 在步骤204,数字电视接收终端向前端设备发送其转换得到的语音数据。 在步骤205,前端设备接收到语音数据后,向发送该语音数据的数字电视接收终端
反馈合成选项,所述合成选项包括前端设备可以提供的合成音频的语种、或背景音乐等。
例如将语音数据合成为男声、女声、童声、中文、英文等。数字电视接收终端通过数字电视,
以语音或视频的方式向用户提供所述合成选项,并根据用户操作,确定用户的合成要求后
向前端设备发送。本步骤为优选的非必要步骤,不执行本步骤,并不影响本实施例的效果。
执行本步骤,可以给用户更多的选择以及更好的使用体验。 在步骤206,前端设备接收数字电视接收终端发送的语音数据及合成要求;所述 合成要求是数字电视接收终端根据用户操作,确定后发送的,所述合成要求包括合成音频 的语种、或背景音乐。 在步骤207,前端设备根据语音资源库中的配置信息,按照所述语音数据的合成要 求,将所述语音数据合成为音频。更为具体的,前端设备按照语音数据的合成要求,在语音 资源库中获取基本音频,根据语音数据,将基本音频合成为与语音数据对应的音频。
更进一步的,实现语音合成可以采用共振峰技术,其原理为音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。 当然,在本发明中,也可以使用其它的语音合成技术实现语音合成,例如韵律修正的基音同步叠力口技术(PSOLA,ptich synchronous overlap add)。 在步骤208,前端设备将音频分组封装后形成音频流。更进一步的,前端设备根据语音资源库中的配置信息,按照合成要求,将语音数据合成为音频后,前端设备将音频转换为机顶盒支持的格式,例如活动图像及声音编码标准(MPEG2, Moving PictureE邓erts Group)格式。然后前端设备将音频分组封装、形成的音频流。更为具体的,分组封装音频的是前端常用设备,如复用器等,其打包后的音频流包括传输流格式(MPEG2-TS,MPEG2-Transport Stream)、或程序流格式(MPEG2-Program Stream),以及其它数字电视接收终端可以实现解码播放的格式。 在步骤209,前端设备向数字电视接收终端发送音频流。 在步骤210,数字电视接收终端将音频流,将其解码为音频电信号并播放。 更为具体的,在本实施例中,数字电视接收终端包括机顶盒、数字电视一体机。若
数字电视接收终端自身具有音频播放功能,如该数字电视接收终端为数字电视一体机,步
骤210具体为数字电视接收终端将音频流转换为音频电信号后通过自身的音频播放装置
进行播放。若数字电视接收终端自身不具有音频播放功能,如该数字电视接收终端为机顶
盒,步骤210具体为该数字电视接收终端将音频流解码为音频电信号后,通过其它具有音
频播放功能的设备进行播放。所述其它具有音频播放功能的设备包括但不限于数字电视
机、模拟电视机、音响、耳机等具有音频播放功能的设备。 实施本发明提供的语音服务方法,可以充分利用前端资源优势预置语音资源库,既可以为用户提供更多选择,更好的语音质量,也可以使数字电视接收终端消耗最少的内存资源,实现朗读网页的功能,避免数字电视接收终端因为朗读网页占用太多资源造成其它性能下降,为用户提供更好的使用体验。 参见图3,为本发明提供的语音服务系统实施例结构示意图,在本实施例中,将阐述本系统的基本架构和语音服务处理流程,该语音服务系统包括 前端设备l,用于根据配置信息,将语音数据合成为音频,并分组封装为音频流。
数字电视接收终端2,用于获取网页的纯文本数据,将其转换为语音数据后发送给前端设备;接收所述前端设备发送的音频流,将其解码为音频电信号并播放。更为具体的,在本实施例中,数字电视接收终端2包括机顶盒、数字电视一体机。若数字电视接收终端2自身具有音频播放功能,如该数字电视接收终端为数字电视一体机,则数字电视接收终端2将音频流转换为音频电信号后通过自身的音频播放装置(图中未示出)进行播放。
更进一步的,若数字电视接收终端2自身不具有音频播放功能,如该数字电视接收终端为机顶盒,则本实施例提供的语音服务系统还包括音频播放设备3,用于在该数字电视接收终端2将音频流解码为音频电信号后,通过音频播放设备3进行播放。该音频播放设备3包括但不限于数字电视机、模拟电视机、音响、耳机等具有音频播放功能的设备。
更为具体的,数字电视接收终端2获取需要朗读的网页的纯文本数据,将其转换为语音数据,并向前端设备1发送该语音数据;前端设备1根据其语音资源库中的配置信息,将所述语音数据合成为音频后,分组封装形成的音频流发送到数字电视接收终端2。数字电视接收终端2将音频流解码为音频电信号通过其自身的音频播放装置或外接的音频播放设备3进行播放。 实施本发明提供的语音服务系统,可以充分利用前端资源优势预置语音资源库,使数字电视接收终端消耗最少的内存资源,实现朗读网页的功能,避免数字电视接收终端因为朗读网页占用太多资源造成其它性能下降,为用户提供更好的使用体验。
以下将具体描述系统中各设备的结构及功能。 参见图4,为本发明提供的数字电视接收终端第一实施例结构示意图,如图4所示,该数字电视接收终端包括 网页处理模块21 ,用于确定需要朗读的网页,获取该网页的纯文本数据。 语音转换模块22,用于将网页处理模块21获取的纯文本数据转换为语音数据,并
向前端设备发送该语音数据。 音频接收模块23,用于接收前端设备发送的音频流,所述音频流为前端设备根据其语音资源库中的配置信息,将所述语音数据合成为音频后,分组封装形成的音频流。
语音朗读模块24,用于将音频接收模块23接收的音频流解码为音频电信号并播放。 实施本发明提供的数字电视接收终端,可以充分利用前端资源优势预置语音资源库,使数字电视接收终端消耗最少的内存资源和存储空间,实现朗读网页的功能,避免数字电视接收终端因为朗读网页占用太多资源造成其它性能下降,另外,利用数字电视网络下传音频流的传输速度非常快,可以为用户提供更好的使用体验。 参见图5,为本发明提供的数字电视接收终端第二实施例结构示意图,如图5所示,该数字电视接收终端包括 网页处理模块21,用于确定需要朗读的网页,获取该网页的纯文本数据。
更为具体的,在本实施例中,网页处理模块21具体包括 网页播放单元211,用于将前端设备传送的网页通过数字电视进行播放。 更进一步的,数字电视接收终端接收到用户浏览网页的指令后,网页播放单元211
将网络获取请求发送至前端设备,并接收前端设备下发的网页数据,网页播放单元211将
接收的网页数据解码后进行播放,使用户可以浏览其指定的网页。 朗读判断单元212,用于根据用户的操作,判断是否需要朗读所述网页。 更进一步的,网页播放单元211在提供网页供用户浏览的同时,朗读判断单元212
提供朗读该网页的功能选项,并接收用户的操作指令,判断是否需要朗读该网页。在本发明
实施例中,所述用户的操作指令包括用户在数字电视接收终端上直接操作,或通过在遥控
器上的操作所触发的指令。 文本获取单元213,用于在朗读判断单元212确定需要朗读所述网页时,获取该网页的纯文本数据。 更进一步的,朗读判断单元212在确定需要朗读当前网页后,文本获取单元213获取需要朗读的网页的纯文本数据。对于网页的纯文本数据的获取方式,可以是由网页服务器提供网页的纯文本数据,文本获取单元213通过发送相应的请求,直接获取当前网页的纯文本数据;也可以是文本获取单元213从前端设备发送的网页数据中分离出纯文本数据,因为网页数据中,文本数据、视频数据、音频数据的格式是不相同的,文本获取单元213通过判断数据的格式,就可以从前端设备发送的网页数据中识别出其包含的文本数据,并将该文本数据分离出来。 优选的,若前端设备是基于数字电视接收终端提供的应用程序编程接口 (API,Application Programming Interface)来开发的网页,本步骤也可以通过软件程序实现,例如文本获取单元213可以通过HTML语句
var test ; test = document, body. i皿erText ; 从前端设备提供的网页中直接提取纯文本数据。 语音转换模块22,用于将网页处理模块21获取的纯文本数据转换为语音数据,并向前端设备发送该语音数据。 更为具体的,语音转换模块22只需支持文本合成语音数据功能的语音引擎,分配尽量小的内存,对网页文本数据进行语音建模,将其转换成对应的语音数据。更进一步的,语音转换模块22对网页文本数据进行语音建模的过程可以依据汉语语言模型(CLM,Chinese Language Model,或隐马尔可夫模型(H匪,Hidden Markov Models)等语言模型进行建模。完成语音建模后,语音转换模块22转换的该语音数据的格式包括PCM格式。在本实施例中,语音转换模块22没有进行音频的合成,只进行最基本的数据转换,使需要的内存资源降到最低。 音频接收模块23,用于接收前端设备发送的音频流,所述音频流为前端设备根据其语音资源库中的配置信息,将所述语音数据合成为音频后,分组封装形成的音频流。
更为具体的,前端设备根据语音资源库中的配置信息,按照合成要求,将语音数据合成为音频后,前端设备将音频转换为机顶盒支持的格式,例如MPEG2格式。然后前端设备将音频分组封装、形成音频流。 语音朗读模块24,用于将音频接收模块23接收的音频流解码为音频电信号并播放。 更为具体的在本实施例中,若语音朗读模块24自身具有音频播放功能,则语音朗读模块24将音频流转换为音频电信号后进行播放。若语音朗读模块24自身不具有音频播放功能,则语音朗读模块24将音频流解码为音频电信号后,通过外接其它具有音频播放功能的设备进行播放。所述其它具有音频播放功能的设备包括但不限于数字电视机、模拟电视机、音响、耳机等设备。 实施本发明提供的数字电视接收终端,可以充分利用前端资源优势预置语音资源库,既可以为用户提供更多选择,更好的语音质量,同时使数字电视接收终端消耗最少的内存资源,实现朗读网页的功能,避免数字电视接收终端因为朗读网页占用太多资源造成其它性能下降,为用户提供更好的使用体验。 参见图6,为本发明提供的前端设备实施例结构示意图,如图6所示,该前端设备包括 语音资源库ll,用于存储配置信息;所述配置信息包括各种基本音频、各种语音数据的音频合成算法。 更进一步的,本发明实施例提供的前端设备中,需要预置语音资源库ll,在语音资源库11中存储配置信息;该配置信息包括各种基本音频、各种语音数据的音频合成算法。更为具体的,该配置信息中记录的基本音频可用于合成各种音频的,包括不同语种的音频;语音数据的音频合成算法是将一组语音数据合成为音频是的合成方法,对同一语音数据,其需要合成的语种不同,则其音频合成算法也不同。 音频合成模块12,用于根据配置信息,将语音数据合成为音频,并分组封装为音频流。
更进一步的,本发明实施例提供的音频合成模块12具体包括 合成控制单元121,用于接收数字电视接收终端发送的语音数据合成要求,控制音频合成单元122的音频合成。所述合成要求是数字电视接收终端根据用户操作发送的,所述合成要求包括合成音频的语种、或背景音乐。例如用户要求将语音数据合成为男声、女声、童声、中文、英文等。 音频合成单元122,用于根据语音资源库中的配置信息,在所述合成控制单元121的控制下,按照所述语音数据合成要求,将语音数据合成为音频。 优选的,音频合成单元122根据语音资源库中的配置信息,按照合成要求,将语音数据合成为音频后,音频合成单元122将音频转换为机顶盒支持的格式,例如MPEG2格式。
更进一步的,音频合成单元122实现语音合成可以采用共振峰技术,其原理为音色各异的语音具有不同的共振峰模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。音频合成单元122再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。
当然,在本发明中,也可以使用其它的语音合成技术实现语音合成,例如韵律修正的基音同步叠力口技术(PSOLA,ptich synchronous overlap add)。 分组封装单元123,用于完成音频格式的转换,并将其分组封装后形成的音频流。更为具体的,分组封装单元123将音频合成单元122合成的音频分组封装、形成的音频流。分组封装单元123打包后的音频流包括MPEG2-TS、或MPEG-PS),以及其它数字电视接收终端可以实现解码播放的格式。 交互模块13,用于接收数字电视接收终端发送的语音数据转发给音频合成模块12处理;将音频合成模块12合成的音频流发送给数字电视接收终端;根据数字电视接收终端的请求发送相应的网页数据给数字电视接收终端。 实施本发明提供的前端设备,可以充分利用前端资源优势预置语音资源库,既可以为用户提供更多选择,更好的语音质量,同时使数字电视接收终端消耗最少的内存资源,实现朗读网页的功能,避免数字电视接收终端因为朗读网页占用太多资源造成其它性能下降,另外,利用数字电视网络下传音频流的传输速度非常快,可以为用户提供更好的使用体验。 以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权
利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助
软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,
本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,
该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
权利要求
一种语音服务方法,其特征在于,包括数字电视接收终端获取需要朗读的网页的纯文本数据;数字电视接收终端将所述纯文本数据转换为语音数据,并向前端设备发送所述语音数据;数字电视接收终端接收所述前端设备发送的音频流;所述音频流为前端设备根据其语音资源库中的配置信息,将所述语音数据合成为音频后,分组封装形成的音频流;数字电视接收终端将音频流解码为音频电信号并进行播放。
2. 如权利要求1所述的语音服务方法,其特征在于,所述数字电视接收终端获取需要 朗读的网页的纯文本数据之前,还包括在所述前端设备中预置语音资源库,在所述语音资源库中存储配置信息;所述配置信 息包括各种基本音频、各种语音数据的音频合成算法。
3. 如权利要求1所述的语音服务方法,其特征在于,所述数字电视接收终端获取需要 朗读的网页的纯文本数据之前,还包括数字电视接收终端播放所述前端设备传送的网页; 数字电视接收终端根据用户的操作,判断是否需要朗读该网页。
4. 如权利要求3所述的语音服务方法,其特征在于,所述数字电视接收终端向前端设 备发送所述语音数据之后;数字电视接收终端接收所述前端设备发送的音频流之前,还包 括前端设备接收数字电视接收终端发送的语音数据及合成要求;前端设备根据语音资源库中的配置信息,按照所述语音数据的合成要求,将所述语音 数据合成为音频数据;所述数字电视接收终端向前端设备发送语音数据的步骤还包括向数字电视接收终端 向前端设备发送合成要求;所述合成要求包括合成音频的语种和/或背景音乐。
5. —种数字电视接收终端,其特征在于,包括网页处理模块,用于确定需要朗读的网页,获取该网页的纯文本数据;语音转换模块,用于将所述网页处理模块获取的纯文本数据转换为语音数据,并向前 端设备发送所述语音数据;音频接收模块,用于接收所述前端设备发送的音频流,所述音频流为前端设备根据其 语音资源库中的配置信息,将所述语音数据合成为音频后,分组封装形成的音频流;语音朗读模块,用于将音频流解码为音频电信号并播放。
6. 如权利要求5所述的数字电视接收终端,其特征在于,所述网页处理模块包括 网页播放单元,用于播放前端设备传送的网页;朗读判断单元,用于根据用户的操作,判断是否需要朗读所述网页; 文本获取单元,用于在朗读判断单元确定需要朗读所述网页时,获取该网页的纯文本 数据。
7. —种前端设备,其特征在于,所述前端设备包括语音资源库,用于存储配置信息;所述配置信息包括各种基本音频、各种语音数据的 音频合成算法;音频合成模块,用于根据配置信息,将语音数据合成为音频,并分组封装为音频流;交互模块,用于接收数字电视接收终端发送的语音数据转发给所述音频合成模块处 理;将所述音频合成模块合成的音频流发送给数字电视接收终端;根据数字电视接收终端 的请求发送相应的网页数据给数字电视接收终端。
8. 如权利要求7所述的前端设备,其特征在于,所述音频合成模块包括 合成控制单元,用于接收数字电视接收终端发送的语音数据和合成要求,控制音频合成模块的音频合成;所述合成要求包括合成音频的语种和/或背景音乐;音频合成单元,用于根据语音资源库中的配置信息,在所述合成控制单元的控制下,按照所述语音数据合成要求,将所述语音数据合成为音频;分组封装单元,用于完成音频格式的转换,并将其分组封装后形成的音频流。
9. 一种语音服务系统,其特征在于,包括前端设备,用于根据配置信息,将语音数据合成为音频数据,并分组封装为音频流; 数字电视接收终端,用于获取网页的纯文本数据,将其转换为语音数据后发送给前端 设备;接收所述前端设备发送的音频流,将其解码为音频电信号并播放。
10. 如权利要求9所述的语音服务系统,其特征在于,所述前端设备包括语音资源库,用于存储配置信息;所述配置信息包括各种基本音频、各种语音数据的 音频合成算法;音频合成模块,用于根据配置信息,将语音数据合成为音频,并分组封装为音频流; 交互模块,用于接收数字电视接收终端发送的语音数据转发给所述音频合成模块处理;将所述音频合成模块合成的音频流发送给数字电视接收终端;根据数字电视接收终端的请求发送相应的网页数据给数字电视接收终端。
全文摘要
本发明提供一种语音服务方法、系统及数字电视接收终端和前端设备。该方法包括数字电视接收终端获取需要朗读的网页的纯文本数据;数字电视接收终端将所述纯文本数据转换为语音数据,并向前端设备发送所述语音数据;数字电视接收终端接收所述前端设备发送的音频流;所述音频流为前端设备根据其语音资源库中的配置信息,将所述语音数据合成为音频后,分组封装形成的音频流;数字电视接收终端将音频流解码为音频电信号并进行播放。本发明提供一种语音服务方法、系统及数字电视接收终端和前端设备,可以充分利用前端资源优势,使数字电视接收终端的朗读网页功能消耗终端资源减到最小,同时提供更好的用户体验。
文档编号H04N7/173GK101729827SQ20091018891
公开日2010年6月9日 申请日期2009年12月14日 优先权日2009年12月14日
发明者陈亚杰 申请人:深圳市同洲电子股份有限公司