具有语音控制和哼唱检索功能的多媒体播放装置制造方法

文档序号:2826627阅读:274来源:国知局
具有语音控制和哼唱检索功能的多媒体播放装置制造方法
【专利摘要】本实用新型公开了一种具有语音控制和哼唱检索功能的多媒体播放装置,包括人机交互模块、语音输入模块、语音数据处理模块、中央处理器、媒体存储模块、播放解码模块、音频输出模块和网络接口模块,语音输入模块与语音数据处理模块的输入端相连,语音数据处理模块与中央处理器相连,中央处理器还分别与人机交互模块、媒体存储模块、网络接口模块相连,且所述中央处理器的输出端通过播放解码模块与音频输出模块相连。本实用新型具有能够解放用户的双手、用户体验好、使用方便、哼唱检测精确、应用范围广的优点。
【专利说明】具有语音控制和哼唱检索功能的多媒体播放装置
【技术领域】
[0001]本实用新型涉及多媒体设备领域,具体涉及一种具有语音控制和哼唱检索功能的多媒体播放装置。
【背景技术】
[0002]现有技术的音乐播放装置所具备的仅仅是对音频文件手动的播放、暂停、上一曲等等常规的操控,对于数字音频的资源搜索也仅仅是通过用户输入歌曲名、歌唱者等等限制条件来完成。这一些限制条件使得用户在使用播放器时,并不能解放出自己的双手,同时对于自己不确定名称的歌曲无法搜索到歌曲资源,这些都极大的降低了用户的体验度。
实用新型内容
[0003]本实用新型要解决的技术问题是提供一种能够解放用户的双手、用户体验好、使用方便、哼唱检测精确、应用范围广的具有语音控制和哼唱检索功能的多媒体播放装置。
[0004]为了解决上述技术问题,本实用新型采用的技术方案为:
[0005]一种具有语音控制和哼唱检索功能的多媒体播放装置,包括人机交互模块、语音输入模块、语音数据处理模块、中央处理器、媒体存储模块、播放解码模块、音频输出模块和网络接口模块,所述语音输入模块与语音数据处理模块的输入端相连,所述语音数据处理模块与中央处理器相连,所述中央处理器还分别与人机交互模块、媒体存储模块、网络接口模块相连,且所述中央处理器的输出端通过播放解码模块与音频输出模块相连。
[0006]作为上述技术方案的进一步改进:
[0007]所述人机交互模块为触摸显示屏模块。
[0008]所述语音数据处理模块为DSP处理器。
[0009]所述网络接口模块为3G接口模块、GPRS接口模块、WIFI接口模块中的一种。
[0010]本实用新型具有下述优点:本实用新型包括人机交互模块、语音输入模块、中央控制模块、媒体存储模块、播放解码模块、音频输出模块、哼唱数据处理模块和网络接口模块,中央控制模块分别与人机交互模块、语音输入模块、播放解码模块、哼唱数据处理模块、网络接口模块相连,哼唱数据处理模块分别与媒体存储模块、网络接口模块相连,播放解码模块的数据输入端与媒体存储模块相连,播放解码模块的音频数据输出端与音频输出模块相连,本实用新型结合语音控制和哼唱检索,用户能够实现两种方式的音频播放控制以及资源管理,第一种通过触屏的方式,第二种通过语音输入控制指令的方式完成系统的控制与管理,语音控制基于网络方式传输识别请求,具有实现简单的特点,同时用户通过哼唱数据处理模块可以实现无手动控制,解放了用户的双手,特别适合于用户在车载、加工操作等场合中。哼唱数据处理模块利用用户提供简单的一段哼唱旋律实现数字音频资源的搜索,并通过网络传输的方式返回用户所搜索的音频资源,避免了用户在忘记歌曲名称和歌唱者时无法获取音频资源的尴尬情况。综上所述,本实用新型相对于传统的音频播放装置极大的提升了应用场合的适应性和用户体验度,能够解放用户的双手,具有用户体验好、使用方便、哼唱检测精确、应用范围广的优点。
【专利附图】

【附图说明】
[0011]图1为本实用新型实施例方法的实施流程示意图。
[0012]图2为本实用新型实施例的框架结构示意图。
[0013]图3为本实用新型实施例中人机交互模块的电路原理示意图。
[0014]图4为本实用新型实施例中语音输入模块、播放解码模块和音频输出模块的电路原理示意图。
[0015]图5为本实用新型实施例中网络接口模块的电路原理示意图。
[0016]图6为本实用新型实施例中语音数据处理模块的框架结构示意图。
[0017]图7为本实用新型实施例中匹配搜索服务端的框架结构示意图。
[0018]图8为本实用新型实施例中语音控制模式的工作原理示意图。
[0019]图9为本实用新型实施例中哼唱检索模式的工作原理示意图。
[0020]图例说明:1、人机交互模块;2、语音输入模块;3、语音数据处理模块;31、预处理模块;311、分帧子模块;312、加窗子模块;313、短时能量计算子模块;314、过零率计算子模块;315、端点判断子模块;316、语音增强子模块;32、哼唱数据处理模块;321、短时平均幅度差计算子模块;322、基音序列提取子模块;323、音符序列转换子模块;4、中央处理器;5、媒体存储模块;6、播放解码模块;7、音频输出模块;8、网络接口模块;9、匹配搜索服务端;91、广度搜索子模块;92、精细匹配子模块;10、语音识别服务端。
【具体实施方式】
[0021]如图1所示,本实施例具有语音控制和哼唱检索功能的多媒体播放装置包括人机交互模块1、语音输入模块2、语音数据处理模块3、中央处理器4、媒体存储模块5、播放解码模块6、音频输出模块7和网络接口模块8,语音输入模块2与语音数据处理模块3的输入端相连,语音数据处理模块3与中央处理器4相连,中央处理器4还分别与人机交互模块
1、媒体存储模块5、网络接口模块8相连,且中央处理器4的输出端通过播放解码模块6与音频输出模块7相连。
[0022]本实施例中,人机交互模块I用于接收用户选择包括语音控制模式和哼唱检索模式在内的工作模式;语音输入模块2用于采集语音数据;语音数据处理模块3用于对采集的语音数据进行预处理,以及在哼唱检索模式下进一步根据预处理后的语音数据提取基音序列并转换为音符序列;中央处理器4用于在语音控制模式下将预处理后的语音数据与语法规则上传至互联网上的语音识别服务端10进行语音识别,根据语音识别服务端10返回的识别结果对本地的多媒体资源进行播放控制或者资源管理,以及在哼唱检索模式下将音符序列发送给互联网上的匹配搜索服务端9,通过匹配搜索服务端9在音符特征数据库中进行匹配搜索找到与音符序列相匹配的多媒体资源身份信息,并根据多媒体资源身份信息从互联网下载对应的多媒体资源并存储到媒体存储模块;媒体存储模块5用于存储本地的多媒体资源;播放解码模块6用于对播放控制的多媒体资源进行解码;音频输出模块7用于将多媒体资源解码后得到的音频输出;网络接口模块8用于为中央处理器提供互联网访问语音识别服务端和匹配搜索服务端的功能;匹配搜索服务端9用于在音符特征数据库中进行匹配搜索找到与音符序列相匹配的多媒体资源身份信息并返回给中央处理器4,语音数据处理模块3的输入端与语音输入模块2相连,中央处理器4分别与人机交互模块1、语音数据处理模块3、媒体存储模块5相连,中央处理器4通过网络接口模块8与互联网的语音识别服务端10和匹配搜索服务端9相连,中央处理器4的输出端通过播放解码模块6与音频输出模块7相连。如图2所示,本实施例的工作过程如下:1)用户通过人机交互模块I选择工作模式,语音输入模块2采集语音数据并通过专用语音数据处理芯片(语音数据处理模块3)进行预处理,当用户选择的工作模式为语音控制模式则跳转执行步骤2),如果用户选择的工作模式为哼唱检索模式则跳转执行步骤3);2)中央处理器4将预处理后的语音数据与语法规则上传至互联网上的语音识别服务端10进行语音识别,根据语音识别服务端10返回的识别结果对本地的多媒体资源进行播放控制或者资源管理;3)中央处理器4将预处理后的语音数据通过专用语音数据处理芯片(语音数据处理模块3)提取基音序列并转换为音符序列,将音符序列发送给互联网上的匹配搜索服务端9,通过匹配搜索服务端9在音符特征数据库中进行匹配搜索找到与音符序列相匹配的多媒体资源身份信息,并根据多媒体资源身份信息从互联网下载对应的多媒体资源并存储到本地的媒体存储模块5。
[0023]人机交互模块I用于系统界面显示和操作的控制,本实施例的人机交互模块I采用4线电阻触摸屏实现,4线电阻触摸屏的控制器采用TI公司的ADS7843触摸屏解码芯片,具有功耗低,触摸敏感度高的特点。如图3所示,ADS7843触摸屏解码芯片的CS、DCLK、DIN、BUSY、PENRQ, IN3、IN4引脚分别外接中央处理器4,ADS7843触摸屏解码芯片的X+、Y+、X-、Y-引脚分别连接4线电阻触摸屏的XM、XP、YM、YP引脚,然后作为4线电阻触摸屏的输出。
[0024]语音输入模块2、播放解码模块6和音频输出模块7采用ALC5621芯片以及辅助电路实现,ALC5621芯片以及辅助电路内置了语音输入、播放解码和音频输出功能,从而能够通过一块芯片及其外围电路实现语音输入模块2、播放解码模块6和音频输出模块7三个部件的功能,实现简单方便,而且使得电路结构更加紧凑。ALC5621芯片的四个外接引脚连接电路如图4所示,其中ALC5621芯片的与外接中央处理器4相连的外围接口中MIC_1N、MIC_1P、MIC_2N、MIC_2P 引脚分别连接两路 MIC_P、MIC_M,外围接 口中的 EAR1_0N、EAR1_0P分别连接麦克风(MICROPHONE)REC的EAR_M、EAR_P信号引脚,外围接口中的MIC_BIAS引脚连接麦克风(microphone)mi c的micbia信号引脚,外围接口中的line_on、line_op引脚连接ALC5621芯片所连接的MIC_P,MIC_M信号引脚。
[0025]中央处理器4是系统实施核心单元,本实施例的中央处理器4采用ARM Cortex_A8架构具体型号为SAMSUNG S5PV210的ARM微处理器芯片,并且中央处理器4中移植了Android2.0嵌入式操作系统。
[0026]媒体存储模块5具体基于芯片K4T1G084QE-HCF7实现。
[0027]网络接口模块8用于系统与外界的数据通讯,可选方式有3G接口模块、GPRS接口模块、WIFI接口模块,本实施例中采用芯片信号为REALTEK8188UM3WIFI芯片的WIFI接口模块。如图5所示,网络接口模块8基于REALTEK8188UM3WIFI芯片实现,网络接口模块8的SDCH_D1、SDCH_D0、USBDN、USBDP等引脚分别外接中央处理器4。
[0028]匹配搜索服务端9为接入互联网的服务器,内置有音符特征数据库。
[0029]本实施例中,语音数据处理模块3采用TI公司的型号为F28335的DSP芯片实现,本实施例利用DSP芯片多媒体运算能力强的优点,能够极大地提升整个系统的语音数据处理速度。如图6所示,语音数据处理模块3包括用于对采集的语音数据进行预处理的预处理模块31和用于提取基音序列并转换为音符序列的哼唱数据处理模块32,预处理模块31包括:
[0030]分帧子模块311,用于对语音输入模块2采集得到的语音数据进行分帧。
[0031]加窗子模块312,用于对每一帧语音信号进行加汉明窗处理。
[0032]短时能量计算子模块313,用于根据式(I)计算每一帧语音信号的短时能量。

[0033]
【权利要求】
1.一种具有语音控制和哼唱检索功能的多媒体播放装置,其特征在于:包括人机交互模块(I)、语音输入模块(2 )、语音数据处理模块(3 )、中央处理器(4)、媒体存储模块(5 )、播放解码模块(6 )、音频输出模块(7 )和网络接口模块(8 ),所述语音输入模块(2 )与语音数据处理模块(3)的输入端相连,所述语音数据处理模块(3)与中央处理器(4)相连,所述中央处理器(4)还分别与人机交互模块(I)、媒体存储模块(5)、网络接口模块(8)相连,且所述中央处理器(4)的输出端通过播放解码模块(6)与音频输出模块(7)相连。
2.根据权利要求1所述的具有语音控制和哼唱检索功能的多媒体播放装置,其特征在于:所述人机交互模块(I)为触摸显示屏模块。
3.根据权利要求2所述的具有语音控制和哼唱检索功能的多媒体播放装置,其特征在于:所述语音数据处理模块(3)为DSP处理器。
4.根据权利要求3所述的具有语音控制和哼唱检索功能的多媒体播放装置,其特征在于:所述网络接口模块(8)为3G接口模块、GPRS接口模块、WIFI接口模块中的一种。
【文档编号】G10L15/28GK203522960SQ201320422658
【公开日】2014年4月2日 申请日期:2013年7月16日 优先权日:2013年7月16日
【发明者】赵欢, 王飞, 陈佐, 干文洁 申请人:湖南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1