基于语音识别技术的汉语学习系统的制作方法

文档序号：2833085阅读：429来源：国知局

专利名称：基于语音识别技术的汉语学习系统的制作方法
技术领域：
本发明涉及计算机辅助语言学习(CALL Computer Assisted LanguageLearning)领域,特别是涉及计算机辅助汉语学习系统。
背景技术：
改革开放30多年来，我国已成为世界经济大国，近些年来，国家多次强调要着眼于推动中华文化走向世界，形成与中国国际地位相对称的文化“软实力”，而要让中国文化走向世界，毫无疑问首先要让汉语走向世界。数据显示，截至2011年8月底，国家汉办主导在世界各国已建立353所孔子学院和473个孔子课堂，但仍难以满足4000多万国内外汉语学习者的需求，师资缺口巨大。随着个人计算机的普及和语音技术的迅猛发展，计算机辅助语言学习(CALL :Computer Assisted Language Learning)系统的使用是解决问题的有效途径。CALL系统最早起源于20世纪六十年代，软件开发者基于程序式教学理论开始设计辅助学习系统，将教师从繁重的机械型劳作中解脱出来，使教师们可以把更多时间和精力投入到创作型工作中，PLATO项目是早期CALL系统的代表作之一。近些年来，随着个人计算机、网络技术和语音识别技术的不断发展，CALL系统也取得了长足的进步。在外国语言的CALL系统方面，研究团队和成果比较丰富。例如IBM的“Watch Me Read”针对母语是非英语的儿童，能检测出读错的单词并回放正确发音;CMU的LISTEN利用SPHINX识别器进行发音中的韵律评价和非母语语料库的研究；SubaraShii系统中，学习者根据情景(如邀请朋友看电影)和提示信息去解决一个问题，系统通过这样的练习方式培养学习者的日语口语表达能力；另外，还有HUGO系统、CMU的商业产品NativeAccentTM和日语学习的CallJ系统等；然而，令人遗憾的是，与如火如荼发展的外国语言CALL系统相比，汉语CALL系统，特别是应用语音识别技术的CALL系统的研究为数不多。本发明针对当前汉语CALL系统的匮乏以及“汉语热”的愈发盛行的现状，旨在为学习者提供一套基于语音识别和合成技术的、易操作的、完备的、具有良好用户交互性的汉语学习系统，在实现学习者轻松使用系统、更好的学习汉语目标的同时，为汉语CALL系统的发展和推广添砖加瓦。

发明内容
基于上述现有技术存在的问题，本发明提出了一种基于语音识别技术的汉语学习系统，结合语音识别技术，进行有与语音合成功能的计算机辅助语言学习系统。本发明提出了一种基于语音识别技术的汉语学习系统，包括语音识别单元、语音合成单元、计算机辅助汉语学习单元，其特征在于语音识别单元，接收外界输入语音后，由语音识别算法结合已训练好的模型作出判决，给出语音识别的结果，完成语音到文本的转换；语音合成单元，将任意文字信息实时转化为标准流畅的语音朗读出来，完成文字到语音的转换；汉语学习单元，提供一套用户界面、易操作的汉语学习软件操作平台；其中所述语音识别单元的算法为建立语音识别网络，开始语音识别，读入待处理的语音数据，判定被识别语音数据是否结束，将识别语音数据产生网络，转换为标示文件，由此完成语音识别算法；所述语音识别单元基于Speech SDK平台实现，包括应用程序接口 API和设备驱动接口 DDI ;应用程序通过API层和语音程序接口 SAPI通信，语音引擎则通过DDI层和语音程序接口 SAPI进行交互；所述汉语学习单元提供的功能接口包括选择学习方式接口、录音和回放接口、系统评估接口、示范朗读功能接口。所述外界输入语音包括两部分数据一部分是指在系统的声学模型训练和测试阶段所用数据，通过数据采集获得的；另一部分是用户在使用系统时直接输入的语音。所述数据采集，其采样精度是16kHz，量化精度是16位。所述语音识别单元在声学模型选择方面，选择隐马尔科夫模型，并通过HTK工具包进行声学模型训练，选择2阶39维的MFCC参数作为声学模型训练的语音特征参数，MFCC参数的高斯混合数为7。与现有技术相比，本发明可以很大程度上弥补当前汉语CALL系统的市场匮乏，尤其是应用语音识别技术的汉语CALL系统匮乏的问题，促进计算机辅助学习领域中汉语CALL系统的发展和推广。

图I为本发明基于语音识别的汉语学习系统的系统结构示意图；图2为本发明基于语音识别的汉语学习系统的语音识别单元算法流程示意图；图3为本发明基于语音识别的汉语学习系统的语音合成单元实现所用的SpeechSDK结构示意图；图4为本发明基于语音识别的汉语学习系统的前端界面图；图5为本发明基于语音识别的汉语学习系统的工作流程示意图；图6-8为本发明基于语音识别的汉语学习系统的功能操作界面图。
具体实施例方式以下结合附图及较佳实施例，对依据本发明提供的具体实施方式
、结构、特征及其功效，详细说明如下。本发明目的是研发一套基于语音识别的汉语学习系统，帮助学习者更好的学习汉语，如图I所示，该汉语学习系统主要包括三部分语音识别单元、语音合成单元、计算机辅助汉语学习单元。其中语音识别单元，接收外界输入语音后，由语音识别算法结合已训练好的模型作出判决，给出语音识别的结果，完成语音到文本的转换(Speech to Text)；语音合成单元，将任意文字信息实时转化为标准流畅的语音朗读出来，完成文字到语音的转换(Text to Speech)；
汉语学习单元，基于一套具有良好用户界面、易操作的软件操作平台，学习者在使用系统时，只需要通过轻松的点击鼠标即可完成一次学习过程。首先，该系统收集语音数据，建立语音识别系统的语料库，并进行标注等工作，然后利用之前语料库训练声学模型，完成语音识别模板库的搭建；选择合适的语音合成算法和语音开发工具，完成语音合成单元的引入；将之前完成的语音识别和语音合成以及汉语学习单元集成到一起，开发出一套完备的汉语学习系统。基于上述系统，学习者在进行计算机汉语辅助学习时，运行系统后，系统工作流程如下1)系统初始化，完成语音识别和语音合成模块的加载；2)学习者选择学习方式，并根据选择的学习方式学习汉语，系统根据学习者输入的语音，进行解码，得出识别结果；3)学习者评估自己的发音，系统会根据学习者的发音、识别结果和正确的单词文本，给出评估结果；4)为了给学习者有效的反馈，系统会根据学习者学习的单词文本，合成出正确的读音，并与用户输入的语音对比，据此来帮助学习者发现和纠正发音错误。一、语音识别系统的搭建首先，在数据收集方面，在本发明中，我们搭建了一个中等词汇量的语料库，其中，采样精度是16kHz，量化精度是16位，录音环境为实验室的正常环境下，话筒也为普通的话筒。然后，在声学模型选择方面，我们选择了当前语音领域主流的隐马尔科夫模型(HMM)，然后采用HTK工具包进行声学模型训练。其次，在语音特征参数选择方面，由于比较了线性预测倒谱系数(LPCC)和不同阶的Mel频率倒谱系数(MFCC)，比较结果如表I所示，最后选定了 2阶39唯的MFCC参数作为本发明最后选择的语音特征参数。在选定了 MFCC作为特征参数之后，不同MFCC参数的高斯混合数的识别率比较，如表2所示，由表2可见，混合数为3时的识别率，比混合数为I的识别率有较大的提高，之后混合数为5，7时，句子级别和单词级别的识别率变化都不大，而当采用混合数为9时，识别率非但没有提升，反而下降了，并且混合数越大时，训练和识别所需要的时间就越长，最后我们认定当高斯混合数是7时为本语音识别系统的最佳参数设置。
权利要求
1.一种基于语音识别技术的汉语学习系统，包括语音识别单元、语音合成单元、计算机辅助汉语学习单元，其特征在于语音识别单元，接收外界输入语音后，由语音识别算法结合已训练好的模型作出判决，给出语音识别的结果，完成语音到文本的转换；语音合成单元，将任意文字信息实时转化为标准流畅的语音朗读出来，完成文字到语音的转换；汉语学习单元，提供一套用户界面、易操作的汉语学习软件操作平台；其中所述语音识别单元的算法为建立语音识别网络，开始语音识别，读入待处理的语音数据，判定被识别语音数据是否结束，将识别语音数据产生网络，转换为标示文件，由此完成语音识别算法；所述语音识别单元基于Speech SDK平台实现，包括应用程序接口 API和设备驱动接口DDI ;应用程序通过API层和语音程序接口 SAPI通信，语音引擎则通过DDI层和语音程序接口 SAPI进行交互；所述汉语学习单元提供的功能接口包括选择学习方式接口、录音和回放接口、系统评估接口、示范朗读功能接口。
2.如权利要求I所述的基于语音识别技术的汉语学习系统，其特征在于，所述外界输入语音包括两部分数据一部分是在系统的声学模型训练和测试阶段所用数据，通过数据采集获得的；另一部分是用户在使用系统时直接输入的语音。
3.如权利要求2所述的基于语音识别技术的汉语学习系统，其特征在于，所述数据采集，其采样精度是16kHz，量化精度是16位。
4.如权利要求I所述的基于语音识别技术的汉语学习系统，其特征在于，所述语音识别单元在声学模型选择方面，选择隐马尔科夫模型，并通过HTK工具包进行声学模型训练，选择2阶39维的MFCC参数作为声学模型训练的语音特征参数，MFCC参数的高斯混合数为7。
全文摘要
本发明公开了一种基于语音识别技术的汉语学习系统，包括语音识别单元、语音合成单元、计算机辅助汉语学习单元，其中语音识别单元，接收外界输入语音后，由语音识别算法结合已训练好的模型作出判决，给出语音识别的结果，完成语音到文本的转换；语音合成单元，将任意文字信息实时转化为标准流畅的语音朗读出来，完成文字到语音的转换；汉语学习单元，提供一套用户界面、易操作的汉语学习软件操作平台。与现有技术相比，本发明可以很大程度上弥补当前汉语CALL系统的市场匮乏，尤其是应用语音识别技术的汉语CALL系统匮乏的问题，促进计算机辅助学习领域中汉语CALL系统的发展和推广。
文档编号G10L15/14GK102682768SQ20121012031
公开日2012年9月19日申请日期2012年4月23日优先权日2012年4月23日
发明者党建武, 宋婵, 王洪翠, 陈栓, 魏建国, 黄典申请人:天津大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：党建武;黄典;王洪翠;魏建国;陈栓;宋婵
技术所有人：天津大学
我是此专利的发明人

上一篇：唱歌评测方法及系统的制作方法
上一篇：涡轮涡杆结构式架子鼓消音器的制作方法