声控多媒体播放器的制作方法

文档序号：2823469阅读：184来源：国知局

专利名称：声控多媒体播放器的制作方法
技术领域：
本发明涉及一种多媒体播放器，尤其涉及一种声控多媒体播放器。
背景技术：
随着数码技术的不断发展，能够播放多媒体数据的便携式多媒体播放器(例如，MP3、MP4播放器)已经在人们的日常生活中得到普及。例如，其中MP3技术是利用音频数据编码技术在不降低现有数据音质的情况对音频数据进行压缩。MP3播放器由于其结构小巧、操作便捷逐渐取代随身听(Walkman)成为人们的新宠。而且随着科技的不断进步，多媒体播放器的功能也在日益增多。目前在市面上已经出现了声控多媒体播放器，用户可以利用语音指令对多媒体播放器点播。目前MP3播放器的存储容量日益增加，存储器内动辄可以存储上千条MP3文件，现有技术的MP3一般都是对存储器内所有的MP3文件进行比较，从中选择识别信息相匹配的MP3文件。因而，随着存储的MP3文件数量的增加，系统开销时间也随之增加。此外，MP3等多媒体文件都会附加一段被称为ID3标签的特殊数据。ID3标签内包括标题、艺术家、唱片集、歌词等相关信息。声控多媒体播放器通过语音识别模块对用户语音识别信息进行A/D转换，并数字形式的语音信息与ID3标签中的识别信息进行比较，并根据对比结果识别出识别信息相匹配的文件进行播放。但由于ID3标签集成于MP3文件内无法进行简单修改，用户需要预先知道其识别信息的形式，并输入相应的语音信息，这给使用者带来极大的不便。在听取外文歌曲的时候，用户还需要输入相应的外文歌曲名或艺术家名。虽然也有一些专门用于修改这些ID3标签的软件，但这又给使用者增加了附加工作。

发明内容为了解决现有技术的声控多媒体播放器需要对存储器内存储的所有多媒体文件进行比较，系统开销时间过长的技术问题，本发明提供一种对多媒体文件进行分级管理的声控多媒体播放器。本发明的声控多媒体播放器还可以将MP3文件的文件名作为识别信息，方便用户根据自己的喜好定义识别信息。
本发明解决现有技术的声控多媒体播放器需要对存储器内存储的所有多媒体文件进行比较，系统开销时间过长的技术问题所采用的技术方案是提供一种声控多媒体播放器，该多媒体播放器包括主控模块、语音识别模块、存储多媒体文件的存储器以及与语音识别模块相连接的语音输入模块，语音输入模块输入语音识别信息并由语音识别模块进行识别，多媒体文件存储在存储器内的多个目录内，主控模块从存储器内选择目录名与语音识别信息相匹配的目录。
根据本发明的一优选结构，目录是存在于存储器内的文件夹。
根据本发明的一优选结构，主控模块选择选择的目录内的所有多媒体文件。
根据本发明的一优选结构，主控模块根据进一步识别的语音识别信息从选择的目录内选择文件名与进一步识别的语音识别信息相匹配的多媒体文件。
根据本发明的一优选结构，语音输入模块为设置在耳机系统上的麦克风。
根据本发明的一优选结构，耳机系统上还设置有用于从播放模式切换到点播模式的点播键。
根据本发明的一优选结构，耳机系统是有线耳机，麦克风和点播键设置在有线耳机的耳机线上。
根据本发明的一优选结构，耳机系统是无线耳机。
根据本发明的一优选结构，语音识别模块采用针对非特定人的语音识别方法识别语音识别信息。
根据本发明的一优选结构，多媒体文件是MP3或MP4文件。
上述结构的有益效果是在存储器内划分不同的目录并将目录名作为识别信息，可对存储器内的多媒体文件进行分级管理，用户还可以进一步通过文件名进行分级点播，减小系统开销时间，方便用户使用。

图1是本发明的声控多媒体播放器的示意框图；图2是本发明的分级目录的一实施例的示意图。
具体实施方式
下面结合附图和实施例以MP3为例对本发明进行详细说明。
参见图1，本发明的MP3播放器1内部的电路板上设置有主控模块111、存储器113、语音D/A转换模块115、语音识别模块117等功能模块以及USB接口119等数据接口，语音识别模块117与语音输入模块120相连接。其中，主控模块111负责MP3文件的解码、USB接口119传入数据的处理、写入\读取存储器113内的数据以及控制语音D/A模块115发声等的工作，连接MP3播放器1内的所有主要部件，协调各部件工作状态。存储器113内包括指令存储器和数据存储器。语音D/A转换模块115由主控模块111控制，将数字形式的MP3文件转换成模拟数据，并由喇叭或耳机等输出。此外，语音输入模块120接收用户输入的语音识别信息，该语音识别信息经语音识别模块117进行A/D转换、特征量提取等数据处理过程。
参见图2，图2是本发明多媒体播放器的存储器内的多媒体文件存储结构的一实施例的示意图。在存储器内存在有多个不同的目录(文件夹)，而目录内存储有不同类型的MP3文件。这样用户可以通过电脑自己在存储器上定义不同目录，例如按照歌星名、音乐风格定义不同目录，甚至可以定义个性化目录并将相应MP3文件拷贝到该目录下。
使用时，用户将MP3文件拷贝到存储器113内不同目录下，主控模块111根据目录名建立相应的目录名列表。主控模块111将识别的语音识别信息同从该列表中的目录名进行比较，从而选择出目录名相匹配(相同或相似)的目录。主控模块111在选择的目录名下，将进一步输入的语音识别信息同MP3文件名列表中的文件名进行比较，并从中选择文件名相匹配的MP3文件进行播放。从而实现分级查询，减少系统开销时间。或者主控模块111对选择的目录名下的所有MP3文件进行解码并播放。
由于现有技术中作为识别信息的ID3标签不易修改，这给用户使用带来极大不便。例如如果标题信息是“yesterday once more”这类的英文歌名时，用户必须输入相同的语音识别信息，否则将无法识别出该MP3文件。而采用本发明的MP3播放器，用户可以事先在电脑上方便地将文件名更改成“昨日重现”，这样在点播时直接输入汉语即可完成语音点播功能。
在本发明的MP3播放器中，语音输入模块120可以采用任意公知的语音输入系统。优选采用将麦克风与耳机集成的形式，例如将麦克风设置在有线耳机的耳机线上或者设置在蓝牙耳机上，这样用户不需要直接对着MP3播放器主机输入语音信息，方便用户使用。
此外，还可以在耳机线或蓝牙耳机上设置将MP3播放器从播放模式切换到点播模式的点播键，用户可以通过该点播键方便地切换到文件名点播模式或目录名点播模式。目前多媒体播放器的容量越来越大，存储的多媒体文件数量越来越多。上述方式提供一种通过声控方式来选择多媒体文件的可能，而且允许用户不必输入与多媒体文件标签的相关信息匹配的信息，而是将文件名或目录名作为识别信息，使用户可以根据自己的喜好定义识别信息。
本发明声控多媒体播放器的语音识别系统可以包括针对特定人的语音识别系统或针对非特定人的语音识别系统。在针对特定人的语音识别系统中，用户需要事先对每一个语音指令进行训练。在训练阶段，用户通过学习模式将每个语音指令依次说数遍，语音识别模块提取语音指令的特征量，并将特征量按序列存入存储器中。在识别阶段，语音识别模块将输入语音指令的特征量依次与存储器中存储的每一个特征量进行相似度比较，将相似度最高者作为识别结果输出或者输出与该特征量相对应的控制指令。这种语音识别系统的识别性能随着语音指令数目的增加会有明显的下降，并且对于不同用户、在不同的噪声环境中，以及不同的时间相同用户的不同生理、心理状态下，系统的性能都会受到明显的影响，因而并不适用于多媒体播放器的大批量生产。当采用针对非特定人的语音识别系统中，采用基于统计模型的算法，系统开发者事先采集大量的语音数据进行训练，得到声学模型并存储在存储器中。在识别阶段，语音识别模块将用户的输入语音指令的特征量与通过声学模型构建的识别网络进行匹配解码，输出该语音指令或与该语音指令相对应的控制指令。主控模块可根据语音识别模块输出的识别结果对多媒体播放器进行控制。非特定人语音识别系统对于用户而言，不需要引入繁琐的训练过程，方便了用户的使用；同时它可以供不同的人使用，因此大大拓宽了应用范围。另一方面，由于采用了基于统计模型的算法，其稳健性和识别性能都比特定人识别系统大大的提高，识别性能不会随着识别词条数目的增加有明显的下降，并且具有一定的抗噪能力。
上述的详细描述仅是示范性描述，本领域技术人员在不脱离本发明所保护的范围和精神的情况下，可根据不同的实际需要设计出各种实施方式。例如，多媒体文件并不局限于上文中所提到的MP3和MP4文件，本发明还适用于对DVD、CD等其它格式的多媒体文件进行分级查询。
权利要求
1.一种声控多媒体播放器，所述多媒体播放器包括主控模块、语音识别模块、存储多媒体文件的存储器以及与所述语音识别模块相连接的语音输入模块，所述语音输入模块输入语音识别信息并由所述语音识别模块进行识别，其特征在于所述多媒体文件存储在所述存储器内的多个目录内，所述主控模块从所述存储器内选择目录名与所述语音识别信息相匹配的目录。
2.根据权利要求1所述的声控多媒体播放器，其特征在于所述目录是存在于所述存储器内的文件夹。
3.根据权利要求2所述的声控多媒体播放器，其特征在于所述主控模块选择所述选择的目录内的所有多媒体文件。
4.根据权利要求2所述的声控多媒体播放器，其特征在于所述主控模块根据进一步识别的语音识别信息从所述选择的目录内选择文件名与所述进一步识别的语音识别信息相匹配的多媒体文件。
5.根据权利要求1所述的声控多媒体播放器，其特征在于所述语音输入模块为设置在耳机系统上的麦克风。
6.根据权利要求5所述的声控多媒体播放器，其特征在于所述耳机系统还设置有用于从播放模式切换到点播模式的点播键。
7.根据权利要求6所述的声控多媒体播放器，其特征在于所述耳机系统是有线耳机，所述麦克风和所述点播键设置在所述有线耳机的耳机线上。
8.根据权利要求6所述的声控多媒体播放器，其特征在于所述耳机系统是无线耳机。
9.根据权利要求1所述的声控多媒体播放器，其特征在于所述语音识别模块采用针对非特定人的语音识别方法识别所述语音识别信息。
10.根据上述权利要求任意一项所述的声控多媒体播放器，其特征在于所述多媒体文件是MP3或MP4文件。
全文摘要
本发明涉及一种声控多媒体播放器，该多媒体播放器包括主控模块、语音识别模块、存储多媒体文件的存储器以及与语音识别模块相连接的语音输入模块，语音输入模块输入语音识别信息并由语音识别模块进行识别，多媒体文件存储在存储器的至少一个目录内，主控模块从存储器内选择目录名与语音识别信息相匹配的目录。本发明的主控模块还可以根据进一步输入的语音识别信息从选择的目录中选择文件名相匹配的多媒体文件。通过采用上述结构，在存储器内划分不同的目录并将目录名作为识别信息，可对存储器内的多媒体文件进行分级管理，用户还可以进一步通过文件名进行分级点播，减小系统开销时间，方便用户使用。
文档编号G10L15/00GK1979463SQ20051010160
公开日2007年6月13日申请日期2005年11月29日优先权日2005年11月29日
发明者陈修志申请人:陈修志

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈修志
技术所有人：陈修志
我是此专利的发明人

上一篇：声控文件查询系统以及声控文件查询方法
上一篇：静音处理装置及方法