语音文件生成系统以及方法

文档序号：6430577阅读：122来源：国知局

专利名称：语音文件生成系统以及方法
技术领域：
本发明是关于一种语音文件生成系统以及方法，特别是关于一种应用在数据处理装置上的语音文件生成系统以及方法。
背景技术：
随着电子信息产业发展的日新月异，各种功能强大且价格低廉的消费性电子信息产品纷纷问世。举例而言，为了能进一步与使用外国语言的人士沟通，大量具有语言学习功能的数据处理装置如雨后春笋一般出现在消费市场中。通过如计算机或电子辞典等数据处理装置进行的语文学习过程中，如何能够提供学习者近乎与真人相同的学习环境，达到无须通过与真人的互动，仅通过与该数据处理装置间的互动即可达到语文学习的功效，已成为研发者所必须面对的问题。
提供语音学习功能是一种仿真的真人教学方式，由于现今数据处理装置的数据处理效率以及资料储存容量的大幅增加，处理趋近于人声原音的语音音效已不再造成研发者的困扰。现有的语音学习系统与方法是通过播放一段预录的语音文件，学习者听到一定的段落或是全部听完后，自己再跟读一遍。只是这种学习方式的使用者无法自我判断学习的效果，因此研发者提出另一种具有识别功能的语音学习系统，它是通过录制学习者跟读的语音，再通过识别机制判断预录的语音与跟读的语音间的差别程度，作为学习者学习效果的评定。
上述现有语音学习系统固然可以提供学习者一个仿真的听说学习环境。然这些语音资料均是由语音学习系统的制造者预先录制在该系统中，纵使提供使用者可以从网络或其它的资料存储单元中取得更新或扩充的语音资料。另一方面，学习者也无法依据自身的学习状况或需求设定相关的语音学习环境，例如设定学习特定的段落、设定原文字幕及/或译文字幕等。因此，语音学习的效率难以有效的提高。
综上所述，如何能够提供一种具有可供学习者依据自身的学习状况或需求设定相关语音学习环境的语音文件生成系统以及方法，成为亟待解决的课题。

发明内容
为解决上述现有技术的缺点，本发明的主要目的在于提供一种可供学习者依据自身的学习状况或需求设定相关语音学习环境的语音文件生成系统以及方法。
为达成以上所述及其它目的，本发明的语音文件生成系统包括资源存取模块，依据设定的资源路径连接至语音资源提供装置、并依据存取条件存取语音资源；文件格式转换模块，将所存取的语音资源格式转换成预设的文件格式；后期制作模块，提供制作接口与工具，符合预设格式的语音资源的后期制作处理；以及数据库，储存该经过后期制作处理的语音资源。
通过该语音文件生成系统，执行语音文件生成的方法是提供资源存取模块以依据设定的资源路径连接至语音资源提供装置、并依据存取条件存取语音资源；提供文件格式转换模块将存取的语音资源格式转换成预设的文件格式；提供后期制作模块提供制作接口与工具，将符合预设格式的语音资源进行后期制作处理；以及提供数据库储存该经过后期制作处理的语音资源。
与现有的语音文件生成技术相比，本发明的语音文件生成系统以及方法可提供一种语音文件后期制作机制，供学习者依据自身的学习状况或需求设定相关语音学习环境。

图1，是本发明的语音文件生成系统的基本结构图；以及图2，是本发明的语音文件生成方法的流程图。
具体实施例方式
实施例请参阅图1，它是本发明的语音文件生成系统1的基本结构图，如图所示，本发明的语音文件生成系统1包括资源存取模块12、文件格式转换模块14、后期制作模块16以及数据库18。
在本实施例中，本发明的语音文件生成系统1是应用在一个人计算机2中，更具体而言是用于提供该个人计算机2语言发音学习的功能。需特别说明的是，该个人计算机2实际上还包括其它用于执行资料运算的软、硬及/或韧体，为避免模糊本案的技术特征，仅显示与实施本发明的语音识别系统1以及方法相关的部分。此外，该个人计算机2也可替换成如电子辞典、个人数字助理、移动电话等具有支持语音出输入功能的数据处理装置。另一方面，较佳的该个人计算机2还具有网络连接功能，通过网络系统3连接至其它语音资源提供装置4，如服务器装置等，进行语音资源的存取。
该资源存取模块12是用于依据设定的资源路径连接至语音资源提供装置并依据存取条件存取语音资源。在本实施例中，该资源存取模块12依据的资源路径，可例如是连接至该个人计算机2中的硬盘装置、光盘储存装置、如USB随身碟或读卡装置等外接存储单元等；也可例如是符合一致性资源寻址器(URL)协议的资源地址上，如网络服务器或文件服务器等资源提供装置4，其中该一致性资源寻址器协议可例如是HTTP、Gopher、News、FTP或Telnet等，该资源存取模块12可通过网络系统3连接至这些语音资源提供装置4。
此外，该资源存取模块12可提供一输入接口，供使用者通过该个人计算机2将上述这些资源路径中的一个输入至该输入接口时，可依据该资源路径连接至该硬盘装置、光盘储存装置、外接存储单元及/或网络服务器、文件服务器等资源提供装置，并存取该资源提供装置提供的资源，特别是语音资源。该资源存取模块12还可将存取的语音资源储存至该个人计算机2中的硬盘装置、光盘储存装置及/或外接存储单元中。
该文件格式转换模块14是用于依据将存取的语音资源格式转换成预设的文件格式。在本实施例中，该预设的语音资源文件格式是个人计算机上常用的数字声音文件(digital audio file)格式「.WAV」。因此，当该资源存取模块12存取到「.WAV」以外的语音文件格式的语音资源，如「.mp3」、「.wma」、「.rm」……等时，该文件格式转换模块14将这些「.WAV」以外的语音文件格式的语音资源转换成「.WAV」文件格式。
此外，在该文件格式转换模块14将该原音频与录入音频转换为波形信号的过程中，可依据该取样频率设定模块12设定的不同的取样频率(44kHz、22kHz或11kHz)与位数(8位或16位)及单音/立体声等。需特别说明的是，该文件格式转换模块14也可利用其它的音频波形信号转换格式，如「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」或「.mat」等格式，由于这些音频波形信号转换格式是现有技术，故对其内容也不予赘述。
该后期制作模块16是提供制作接口与工具，用于将该文件格式转换模块14转换成的预设格式的语音资源后，对其进行后期制作处理。在本实施例中，该后期制作模块16可提供使用者通过该个人计算机2进行至少包括断点索引、时间间隔、原文字幕以及译文字幕等的后期制作处理。其中，该时间间隔是用于将一段语音资源切割成至少一区段；该断点索引是用于提供设定该切割后的每一区段的索引标题，供使用者检索之用；该原文字幕是用于提供使用者进行相应于语音资料的原文字幕输入与设定，在该语音资源播放过程中同步显示原文字幕供使用者对照参考；该译文字幕则是用于提供使用者进行相应的语音资料的译文字幕输入与设定，在该语音资源播放过程中同步显示译文字幕供使用者对照参考，较佳的选择是，该原文字幕可与该译文字幕设定为同步在该语音资源播放的过程中显示，以增加学习者，特别是初学者的学习效率。
该数据库18是用于储存该经过后期制作处理的语音资源。在本实施例中，当通过该后期制作模块16将该语音资源进行后期制作处理后，为避免与该资源存取模块12从该语音资源提供装置存取的原始语音资源相互混淆，故可在该个人计算机2中的该硬盘装置、光盘储存装置、外接存储单元设置该数据库18，储存该后期制作模块16处理过的语音资源，该语音资源可例如是经过断点索引、时间间隔、原文字幕以及译文字幕等后制处理的语音资源。
请参阅图2，它是本发明的语音文件生成方法的流程。
在步骤S201中，提供该资源存取模块12以依据设定的资源路径连接至语音资源提供装置并依据存取条件存取语音资源。在本实施例中，该资源存取模块12所依据的资源路径，可例如是连接至该个人计算机2中的硬盘装置、光盘储存装置、USB随身碟或读卡装置等外接存储单元等；也可例如是符合一致性资源寻址器协议的资源地址上如网络服务器或文件服务器等资源提供装置。
此外，该资源存取模块12可提供一输入接口，供使用者通过该个人计算机2将上述这些资源路径中的一个输入至该输入接口时，可依据该资源路径连接至该资源提供装置，并存取该资源提供装置提供的资源，特别是语音资源。该资源存取模块12还可将所存取的语音资源储存至该个人计算机2中的硬盘装置、光盘储存装置及/或外式存储单元中。接着进行步骤S202。
在步骤S202中，提供该文件格式转换模块14将所存取的语音资源格式转换成预设的文件格式。在本实施例中，该预设的语音资源文件格式是个人计算机上常用的数字声音文件格式「.WAV」。因此，当该资源存取模块12存取到「.WAV」以外的语音文件格式的语音资源时，随即将这些「.WAV」以外的语音文件格式的语音资源转换成「.WAV」文件格式。
此外，在该文件格式转换模块14将该原音频与录入音频转换为波形信号的过程中，可依据该取样频率设定模块12设定的不同的取样频率(44kHz、22kHz或11kHz)与位数(8位或16位)及单音/立体声等。接着进行步骤S203。
在步骤S203中，通过后期制作模块16提供制作接口与工具，将该文件格式转换模块14转换成预设格式的语音资源后进行后期制作处理。在本实施例中，该后期制作模块16可提供使用者通过该个人计算机2进行至少包括断点索引、时间间隔、原文字幕以及译文字幕等的后期制作处理。其中，该时间间隔是用于将一段语音资源切割成至少一区段；该断点索引是用于提供设定该切割后的每一区段的索引标题，供使用者检索之用；该原文字幕是用于提供使用者进行相应的语音资料的原文字幕输入与设定，在该语音资源播放过程中同步显示原文字幕供使用者对照参考；该译文字幕则是用于提供使用者进行相应的语音资料的译文字幕输入与设定，在该语音资源播放过程中同步显示译文字幕供使用者对照参考，较佳的选择是，该原文字幕可与该译文字幕设定为同步在该语音资源播放的过程中显示，以增加学习者，特别是初学者的学习效率。接着进行步骤S204。
在步骤S204中，提供该数据库18储存该经过后期制作处理的语音资源。在本实施例中，当通过该后期制作模块16将该语音资源进行后期制作处理后，为避免与该资源存取模块12从该语音资源提供装置存取的原始语音资源相互混淆，故可在该个人计算机2中的该硬盘装置、光盘储存装置、外接存储单元设置该数据库18，储存该后期制作模块16处理过后的语音资源，该语音资源可例如是经过断点索引、时间间隔、原文字幕以及译文字幕等后期制作处理的语音资源。
综上所述，本发明的语音文件生成系统以及方法可提供一种语音文件后制机制，供学习者依据自身的学习状况或需求设定相关语音学习环境。使用者可将存取到的语音资源制作成符合特定要求的语音学习资源，达到个性化的语音学习环境，以增加学习的效率。
权利要求
1.一种语音文件生成系统，应用在数据处理装置中，其特征在于，该语音文件生成系统包括资源存取模块，依据设定的资源路径连接至语音资源提供装置、并依据存取条件存取语音资源；文件格式转换模块，将所存取的语音资源格式转换成预设的文件格式；后期制作模块，提供制作接口与工具，符合预设格式的语音资源的后期制作处理；以及数据库，储存该经过后期制作处理的语音资源。
2.如权利要求1所述的系统，其特征在于，该资源路径是连接至下述资源提供装置中的一个硬盘装置、光盘储存装置、外接存储单元等以及符合一致性资源寻址器协议的资源地址协议的数据处理装置。
3.如权利要求1所述的系统，其特征在于，该资源存取模块还提供一输入接口，通过该数据处理装置输入该资源路径至该输入接口。
4.如权利要求1所述的系统，其特征在于，该资源存取模块还将所存取的语音资源储存至该数据处理装置中的硬盘装置、光盘储存装置及外接存储单元中的一个。
5.如权利要求1所述的系统，其特征在于，该预设的文件格式是「.WAV」、「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」以及「.mat」格式中的一种文件格式。
6.如权利要求5所述的系统，其特征在于，该文件格式转换模块是将预设的文件格式以外的语音文件格式的语音资源转换成预设的文件格式。
7.如权利要求6所述的系统，其特征在于，该预设的文件格式以外的语音文件格式是「.mp3」、「.wma」以及「.rm」中的一种。
8.如权利要求1所述的系统，其特征在于，该后期制作模块是提供使用者通过该数据处理装置进行至少包括断点索引、时间间隔、原文字幕以及译文字幕等其中一种的后期制作处理。
9.如权利要求2所述的系统，其特征在于，该存储单元是设置在该硬盘装置、光盘储存装置以及外接存储单元的其中一个装置中。
10.一种语音文件生成方法，应用在数据处理装置中，该语音文件生成方法包括提供资源存取模块以依据设定的资源路径连接至语音资源提供装置、并依据存取条件存取语音资源；提供文件格式转换模块将存取的语音资源格式转换成预设的文件格式；提供后期制作模块提供制作接口与工具，将符合预设格式的语音资源进行后期制作处理；以及提供数据库储存该经过后期制作处理的语音资源。
11.如权利要求10所述的方法，其特征在于，该资源路径是连接至下述资源提供装置中的一个硬盘装置、光盘储存装置、外接存储单元等以及符合一致性资源寻址器(URL)协议的资源地址协议的资源提供装置。
12.如权利要求10所述的方法，其特征在于，该资源存取模块还提供一输入接口，通过该数据处理装置输入该资源路径至该输入接口。
13.如权利要求10所述的方法，其特征在于，该资源存取模块还将所存取的语音资源储存至该数据处理装置中的硬盘装置、光盘储存装置及外接存储单元中的一个。
14.如权利要求10所述的方法，其特征在于，该预设的文件格式是「.WAV 」、「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」以及「.mat」格式中的一种文件格式。
15.如权利要求14所述的方法，其特征在于，该文件格式转换模块是将预设的文件格式以外的语音文件格式的语音资源转换成预设的文件格式文件格式。
16.如权利要求15所述的方法，其特征在于，该预设的文件格式以外的语音文件格式是「.mp3」、「.wma」以及「.rm」中的一种。
17.如权利要求10所述的方法，其特征在于，该后期制作模块是提供使用者通过该数据处理装置进行至少包括断点索引、时间间隔、原文字幕以及译文字幕等其中之一的后期制作处理。
18.如权利要求11所述的方法，其特征在于，该存储单元是设置在该硬盘装置、光盘储存装置以及外接式存储单元其中之一中。
全文摘要
一种语音文件生成系统以及方法，是应用在数据处理装置中，主要通过资源存取机制依据所设定的资源路径连接至语音资源提供装置并依据存取条件存取语音资源，再依据文件格式转换机制将所存取的语音资源格式转换成预设的文件格式，借由后制机制所提供的制作接口与工具将符合预设格式的语音资源予以后制处理，并储存该经过后制处理的语音资源至数据库中。通过该语音文件生成系统以及方法，使用者可将存取到的语音资源制作成符合特定要求的语音学习资源，达到个性化的语音学习环境，以增加学习的效率。
文档编号G06F17/30GK1755665SQ200410081060
公开日2006年4月5日申请日期2004年9月30日优先权日2004年9月30日
发明者徐晓燕, 邱全成申请人:英业达股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐晓燕;邱全成
技术所有人：英业达股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。