一种基于移动终端的音频处理方法及装置的制作方法

文档序号:2835069阅读:141来源:国知局
专利名称:一种基于移动终端的音频处理方法及装置的制作方法
技术领域
本发明属于通信领域,尤其涉及一种基于移动终端的音频处理方法及装置。
背景技术
目前,移动终端已成为炙手可热的通讯工具,方便了人们实时进行移动通讯;第三方应用程序的引入,丰富了移动终端的功能,扩大了移动终端的应用领域。当移动终端安装相应的播放器时,可以下载音乐、视频,然后收听、观看,或在线收听音乐,或在线观看视频;随着网络的普及,促进了各国、各地方的文化传播;若音乐、视频采用的陌生的语音,用户很难听懂或看懂,极大地限制了网络、音乐、视频的适用范围。

发明内容
本发明实施例的目的在于提供一种基于移动终端的音频处理方法,以解决通过移动终端视听陌生语言的音乐、视频,用户无法听懂或看懂的问题。本发明实施例提供了一种基于移动终端的音频处理方法,所述方法包括:通过移动终端,从音频流中 提取携带待翻译内容的音频数据;利用语音识别技术,识别出所述音频数据对应的文字内容;将所述文字内容翻译成翻译语言格式的文字内容,所述翻译语言格式的文字内容为采用翻译语言描述的文字内容;将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的音频数据。本发明另一目的在于提供一种基于移动终端的音频处理装置,所述装置包括:提取单元,用于通过移动终端,从音频流中提取携带待翻译内容的音频数据;识别单元,用于利用语音识别技术,识别出所述音频数据对应的文字内容;翻译单元,用于将所述文字内容翻译成翻译语言格式的文字内容,所述翻译语言格式的文字内容为采用翻译语言描述的文字内容;替换单元,用于将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的音频数据。本发明实施例的另一目的在于提供一种移动终端,所述移动终端包括上述的基于移动终端的音频处理装置。本发明提供一种方法、装置及移动终端,用户通过移动终端收听节目时,从音频流中提取携带待翻译内容的音频数据,利用语音识别技术,识别出所述音频数据对应的文字内容,然后,将所述文字内容翻译成翻译语言格式的文字内容,再转换为翻译语言格式的音频数据以替换原待翻译的音频数据;从而,实现将陌生语言的音频流转换为偏好语言格式的音频流,以偏好语言呈现内容给用户,更具人性化,也更具通用性。


图1是本发明实施例一提供的基于移动终端的音频处理方法的实现流程图;图2是本发明实施例二提供的基于移动终端的音频处理装置的组成结构图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。实施例一:图1示出了本发明实施例提供的基于移动终端的音频处理方法的实现流程,具体步骤详述如下:步骤S101,通过移动终端,从音频流中提取携带待翻译内容的音频数据。播放软件播放音频流,所述音频流中包含着音频数据,该音频数据记载着背景音乐以及录制的内容。若需要, 可以从音频流中提取携带待翻译内容的音频数据。例如:当用户通过移动终端收听音乐时,为了实现将音乐以用户指定的语言播放,首先,从音乐播放文件中提取出音频流,在滤除背景音乐后,从音频流中提取出与语音相关的音频数据,例如:滤除背景音乐后,提取出歌曲。作为本发明另一实施例,述通过移动终端,从音频流中提取携带待翻译内容的音频数据的步骤之前,所述方法还包括:获取用户的偏好语言,以作为翻译语言。所述偏好语言包括全球各地方言、全球各国母语。首先,在获取到用户设置翻译语言的指令后,移动终端弹出语言选择对话框,在该对话框的语音栏中,列出了本地和/或服务器包括的所有语言种类;用户可以根据偏好,选取至少一种偏好语言,将所选的偏好语言设置为翻译语言,并根据用户的优选选择设置优选顺序,例如:将中文设置为第一翻译语言,将四川方言设置为第二翻译语言,将英语设置为第三翻译语言;当确认翻译语言设置完成后,将音频数据对应的文字内容翻译成第一翻译语言的文字内容时,若在本地和服务器中均未查找到第一翻译语言对应的文字库,根据翻译语言的优选顺序,查找第二翻译语言对应的文字库,若查找成功,则根据第二翻译语音的文字库,将音频数据对应的文字内容翻译成第二翻译语言的文字内容,所述文字库包括待翻译的文字与翻译文字的映射关系;以此类推,若未查找成功,根据翻译语言的优选顺序依次查找,当针对所有的翻译语言,都未查找到对应的文字库,则保留原音频流以播放。优选的是,在播放视频和/或音频时,用户可以根据自己的偏好,更改翻译语言。具体地,当获取到更改指令后,调用语言选择对话框以实现翻译语言的更改。优选的是,可以通过移动终端自带的麦克风,获取用户录入的语音,根据语言库,识别出该录入的语音的语言种类。将识别出的语言作为翻译语言,当然,也可以多次录入不同的语言,然后对获取到的所有翻译语言排列优选顺序。步骤S102,利用语音识别技术,识别出所述音频数据对应的文字内容。将二进制的音频数据录入语音识别装置,该语音识别装置采用语音识别技术,识别出该音频数据对应的文字内容。
步骤S103,将所述文字内容翻译成翻译语言格式的文字内容,所述翻译语言格式的文字内容为采用翻译语言描述的文字内容。采用现有的语言翻译软件,将所述文字内容翻译成翻译语言格式的文字内容。步骤S104,将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的音频数据。所述翻译语言格式的音频数据为采用翻译语言录制、形成的音频数据。根据音频流中记载的携带待翻译内容的音频数据对应的时间戳、翻译语言格式的文字内容,重新录制翻译语言的音频数据;将翻译语言格式的音频数据替换所述携带待翻译内容的音频数据。具体地,在保持携带待翻译内容的音频数据的同步时间戳不变的情况下,将翻译语言格式的音频数据替换携带待翻译内容的音频数据,保持了音频流同步播放,实现音频语音的转变。作为本发明另一实施例,所述方法还包括:通过移动终端,从视频流中提取与字幕相关的视频数据;根据字幕相关的视频数据,识别出字幕内容;
将所述字幕内容,翻译成翻译语言格式的字幕内容,所述翻译语言格式的字幕内容为采用翻译语言描述的字幕内容;将所述翻译语言格式的字幕内容,转换为翻译语言格式的视频数据,以替换所述与字幕相关的视频数据。移动终端通过视频软件播放视频文件,所述视频文件包括视频流和/或音频流;待获取到视频流后,从所述视频流中提取与字幕相关的视频数据,具体地,与字幕相关的视频数据为携带字幕包括的文字内容的视频数据,同时,提取该字幕的时间戳;待识别出字幕内容后,将所述字幕内容,翻译成翻译语言格式的字幕内容;将所述翻译语言格式的字幕内容,转换为翻译语言格式的视频数据;然后,根据字幕的时间戳,控制将翻译语言格式的视频数据替换所述与字幕相关的视频数据。重新播放翻译后的视频文件时,字幕将以翻译语言格式显示字幕内容。作为本发明另一实施例,所述方法还包括:预先获取所述音频数据与所述视频数据的同步时间戳;通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。在观看视频时,为了更好地翻译及显示,保持视频流和音频流同步,预先获取音频数据与视频数据的同步时间戳,所述音频数据与视频数据的同步时间戳包括:音频数据的时间戳、字幕的时间戳、翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳;通过上述三个时间戳,同时实现以下同步控制:通过音频数据的时间戳,控制翻译语言格式的音频数据替换携带待翻译内容的音频数据;通过字幕的时间戳,控制翻译语言格式的视频数据替换原与字幕相关的视频数据;通过翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。
本实施例提供了一种基于移动终端的音频处理方法,用户使用移动终端收听时,预先获取用户的偏好语言,以作为翻译语言,当需要翻译时,从音频流中提取携带待翻译内容的音频数据和携带待翻译内容的音频数据的时间戳,利用语音识别技术,识别出所述音频数据对应的文字内容以翻译成翻译语言格式的文字内容,将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的音频数据;更优的是,若播放媒体为视频时,在翻译语音内容的同时,从视频流中提取与字幕相关的视频数据和同步时间戳,将翻译语言格式的音频数据替换所述待翻译的音频数据,将翻译语言格式的视频数据替换所述与字幕相关的视频数据,更优的是,通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步;从而,实现将陌生语言的音频和/或视频转换为偏好语言格式呈现给用户,更具人性化,更具通用性。实施例二:图2示出了本发明实施例提供的基于移动终端的音频处理装置的组成结构,为了便于描述,仅示出了与本发明实施例相关的部分;所述基于移动终端的音频处理装置可以是运行于移动终端设备内的软件单元、硬件单元或者软硬件相结合的单元, 也可以作为独立的挂件集成到所述终端设备中或者运行于所述终端设备的应用系统中。一种基于移动终端的音频处理装置,所述基于移动终端的音频处理装置可以包括提取单元21、识别单元22、翻译单元23以及替换单元24,各功能单元的具体功能描述如下:提取单元21,用于通过移动终端,从音频流中提取携带待翻译内容的音频数据。播放软件播放音频流,所述音频流中包含着音频数据,该音频数据记载着背景音乐以及录制的内容。若需要,可以通过提取单元21从音频流中提取携带待翻译内容的音频数据。例如:当用户通过移动终端收听音乐时,为了实现将音乐以用户指定的语言播放,首先,从音乐播放文件中提取出音频流,在滤除背景音乐后,提取单元21从音频流中提取出与语音相关的音频数据,例如:滤除背景音乐后,提取出歌曲。作为本发明另一实施例,所述装置还包括:获取单元25,用于获取用户的偏好语言,以作为翻译语言。所述偏好语言包括全球各地方言、全球各国母语。首先,在获取到用户设置翻译语言的指令后,获取单元25弹出语言选择对话框,在该对话框的语音栏中,列出了本地和/或服务器包括的所有语言种类;用户可以根据偏好,选取至少一种偏好语言,获取单元25将所选的偏好语言设置为翻译语言,并根据用户的优选选择设置优选顺序,例如:获取单元25将中文设置为第一翻译语言,将四川方言设置为第二翻译语言,将英语设置为第三翻译语言;当确认翻译语言设置完成后,将音频数据对应的文字内容翻译成第一翻译语言的文字内容时,若在本地和服务器中均未查找到第一翻译语言对应的文字库,根据翻译语言的优选顺序,查找第二翻译语言对应的文字库,若查找成功,则根据第二翻译语音的文字库,将音频数据对应的文字内容翻译成第二翻译语言的文字内容,所述文字库包括待翻译的文字与翻译文字的映射关系;以此类推,若未查找成功,根据翻译语言的优选顺序依次查找,当针对所有的翻译语言,都未查找到对应的文字库,则保留原音频流以播放。
优选的是,在播放视频和/或音频时,用户可以根据自己的偏好,更改翻译语言。具体地,当获取到更改指令后,获取单元25调用语言选择对话框以实现翻译语言的更改。优选的是,可以通过移动终端自带的麦克风,获取用户录入的语音,根据语言库,识别出该录入的语音的语言种类。将识别出的语言作为翻译语言,当然,也可以多次录入不同的语言,然后对获取到的所有翻译语言排列优选顺序。识别单元22,用于利用语音识别技术,识别出所述音频数据对应的文字内容。识别单元22将二进制的音频数据录入语音识别装置,该语音识别装置采用语音识别技术,识别出该音频数据对应的文字内容。翻译单元23,用于将所述文字内容翻译成翻译语言格式的文字内容,所述翻译语言格式的文字内容为采用翻译语言描述的文字内容。翻译单元23采用现有的语言翻译软件,将所述文字内容翻译成翻译语言格式的文字内容。替换单元24,用于将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的 音频数据。所述翻译语言格式的音频数据为采用翻译语言录制、形成的音频数据。替换单元24根据音频流中记载的携带待翻译内容的音频数据对应的时间戳、翻译语言格式的文字内容,重新录制翻译语言的音频数据;替换单元24将翻译语言格式的音频数据替换所述携带待翻译内容的音频数据。具体地,在保持携带待翻译内容的音频数据的同步时间戳不变的情况下,替换单元24将翻译语言格式的音频数据替换携带待翻译内容的音频数据,保持了音频流同步播放,实现音频语音的转变。作为本发明另一实施例,所述装置还包括:视频提取单元26,用于通过移动终端,从视频流中提取与字幕相关的视频数据;视频识别单元27,用于根据字幕相关的视频数据,识别出字幕内容;视频翻译单元28,用于将所述字幕内容,翻译成翻译语言格式的字幕内容,所述翻译语言格式的字幕内容为采用翻译语言描述的字幕内容;视频替换单元29,用于将所述翻译语言格式的字幕内容,转换为翻译语言格式的视频数据,以替换所述与字幕相关的视频数据。移动终端通过视频软件播放视频文件,所述视频文件包括视频流和/或音频流;待获取到视频流后,视频提取单元26从所述视频流中提取与字幕相关的视频数据,具体地,与字幕相关的视频数据为携带字幕包括的文字内容的视频数据,同时,提取该字幕的时间戳;待视频识别单元27识别出字幕内容后,视频翻译单元28将所述字幕内容,翻译成翻译语言格式的字幕内容;视频替换单元29将所述翻译语言格式的字幕内容,转换为翻译语言格式的视频数据;然后,根据字幕的时间戳,视频替换单元29控制将翻译语言格式的视频数据替换所述与字幕相关的视频数据。重新播放翻译后的视频文件时,字幕将以翻译语言格式显示字幕内容。作为本发明另一实施例,所述装置还包括:时间戳单元30,用于预先获取所述音频数据与所述视频数据的同步时间戳;同步单元31,用于通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。
在观看视频时,为了更好地翻译及显示,保持视频流和音频流同步,时间戳单元30预先获取音频数据与视频数据的同步时间戳,所述音频数据与视频数据的同步时间戳包括:音频数据的时间戳、字幕的时间戳、翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳;通过上述三个时间戳,同时实现以下同步控制:通过音频数据的时间戳,替换单元24控制翻译语言格式的音频数据替换携带待翻译内容的音频数据;通过字幕的时间戳,视频替换单元29控制翻译语言格式的视频数据替换原与字幕相关的视频数据;通过翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳,同步单元31控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。从而,保持了语音或视频在语言翻译前后的播放时间正确。本实施例提供了一种基于移动终端的音频处理装置,用户使用移动终端收听时,获取单元预先获取用户的偏好语言,以作为翻译语言,当需要翻译时,提取单元从音频流中提取携带待翻译内容的 音频数据和携带待翻译内容的音频数据的时间戳,识别单元利用语音识别技术,识别出所述音频数据对应的文字内容以翻译成翻译语言格式的文字内容,翻译单元将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换单元替换所述待翻译的音频数据;更优的是,若播放媒体为视频时,在翻译语音内容的同时,时间戳单元从视频流中提取与字幕相关的视频数据和同步时间戳,将翻译语言格式的音频数据替换所述待翻译的音频数据,将翻译语言格式的视频数据替换所述与字幕相关的视频数据,更优的是,通过所述同步时间戳,同步单元控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步;从而,实现将陌生语言的音频和/或视频转换为偏好语言格式呈现给用户,更具人性化,更具通用性。作为本发明一实施例,本发明提供了一种移动终端,所述移动终端上述的基于移动终端的音频处理装置。所述移动终端可以为但不局限于智能手机和IPAD等。本发明实施例提供一种基于移动终端的音频处理方法及装置,用户使用移动终端收听时,预先获取用户的偏好语言,以作为翻译语言,当需要翻译时,从音频流中提取携带待翻译内容的音频数据和携带待翻译内容的音频数据的时间戳,利用语音识别技术,识别出所述音频数据对应的文字内容以翻译成翻译语言格式的文字内容,将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的音频数据;更优的是,若播放媒体为视频时,在翻译语音内容的同时,从视频流中提取与字幕相关的视频数据和同步时间戳,将翻译语言格式的音频数据替换所述待翻译的音频数据,将翻译语言格式的视频数据替换所述与字幕相关的视频数据,更优的是,通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步;从而,实现将陌生语言的音频和/或视频转换为偏好语言格式呈现给用户,更具人性化,更具通用性。本领域技术人员可以理解为上述实施例二包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和 改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种基于移动终端的音频处理方法,其特征在于,所述方法包括: 通过移动终端,从音频流中提取携带待翻译内容的音频数据; 利用语音识别技术,识别出所述音频数据对应的文字内容; 将所述文字内容翻译成翻译语言格式的文字内容,所述翻译语言格式的文字内容为采用翻译语言描述的文字内容; 将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的音频数据。
2.如权利要求1所述的方法,其特征在于,所述通过移动终端,从音频流中提取携带待翻译内容的音频数据的步骤之前,所述方法还包括: 获取用户的偏好语言,以作为翻译语言。
3.如权利要求1所述的方法,其特征在于,所述方法还包括: 通过移动终端,从视频流中提取与字幕相关的视频数据; 根据字幕相关的视频数据,识别出字幕内容; 将所述字幕内容,翻译成翻译语言格式的字幕内容,所述翻译语言格式的字幕内容为采用翻译语言描述的字幕内容; 将所述翻译语言格式的字幕内容,转换为翻译语言格式的视频数据,以替换所述与字幕相关的视频数据。
4.如权利要求3所述的方法,其特征在于,所述方法还包括: 预先获取所述音频数据与所述视频数据的同步时间戳; 通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。
5.一种基于移动终端的音频处理装置,其特征在于,所述装置包括: 提取单元,用于通过移动终端,从音频流中提取携带待翻译内容的音频数据; 识别单元,用于利用语音识别技术,识别出所述音频数据对应的文字内容; 翻译单元,用于将所述文字内容翻译成翻译语言格式的文字内容,所述翻译语言格式的文字内容为采用翻译语言描述的文字内容; 替换单元,用于将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的音频数据。
6.如权利要求 5所述的装置,其特征在于,所述装置还包括: 获取单元,用于获取用户的偏好语言,以作为翻译语言。
7.如权利要求5所述的装置,其特征在于,所述装置还包括: 视频提取单元,用于通过移动终端,从视频流中提取与字幕相关的视频数据; 视频识别单元,用于根据字幕相关的视频数据,识别出字幕内容; 视频翻译单元,用于将所述字幕内容,翻译成翻译语言格式的字幕内容,所述翻译语言格式的字幕内容为采用翻译语言描述的字幕内容; 视频替换单元,用于将所述翻译语言格式的字幕内容,转换为翻译语言格式的视频数据,以替换所述与字幕相关的视频数据。
8.如权利要求7所述的装置,其特征在于,所述装置还包括: 时间戳单元,用于预先获取所述音频数据与所述视频数据的同步时间戳;同步单元,用于通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。
9.一种移动 终端,其特征在于,所述移动终端包括权利要求5至权利要求8任一所述的基于移动终端的音频处理装置。
全文摘要
本发明适用于通信领域,提供了一种基于移动终端的音频处理方法及装置,用户通过移动终端收听节目时,从音频流中提取携带待翻译内容的音频数据,利用语音识别技术,识别出所述音频数据对应的文字内容,然后,将所述文字内容翻译成翻译语言格式的文字内容,再转换为翻译语言格式的音频数据以替换原待翻译的音频数据;从而,实现将陌生语言的音频流转换为偏好语言格式的音频流,以偏好语言呈现内容给用户,更具人性化,也更具通用性。
文档编号G10L13/08GK103226947SQ20131010211
公开日2013年7月31日 申请日期2013年3月27日 优先权日2013年3月27日
发明者张培凯 申请人:广东欧珀移动通信有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1