通过语音查询单词的系统及其方法

文档序号：2822336研发日期：2009年阅读：443来源：国知局

技术简介：
本专利针对传统电子词典无法通过发音查询单词的问题，提出基于语音识别的解决方案。通过端点检测分割音节，利用线性预测分析匹配预设音节文件，生成字母组合拼接成单词，再从数据库检索对应释义。系统支持标准发音对比与ETTS发音输出，显著提升语音查词的准确性与用户体验。
关键词：语音查询,音节识别,电子词典

专利名称：通过语音查询单词的系统及其方法
技术领域：
本发明涉及一种通过语音查询单词的系统及其方法，尤其是一种根据接收的语音
信号提供单词释义的单词查询系统及其方法。
背景技术：
对外语学习者而言，携带型电子词典或在线电子词典几乎是不可或缺的学习工具；携带型电子词典与在线电子词典相较之下是各有千秋，前者拥有携带方便、可随时查询的优势，而后者则具有数据量庞大与经济实惠的优点。但无论是使用携带型电子词典或是在线电子词典，若使用者欲查询一个只听闻其发音，却不知道其拼字的单词，就只能从发音去推敲这个单词的拼字，再输入电子词典进行查询；在使用者猜测错误情况下，电子词典将回复使用者查无此字，甚至是显示出非使用者想要的另一个单词。例如使用者原要查询一个发短音的单词[Pit / ]，却因为误会而输入长音的拼法peach，此时电子词典将出现非使用者所要的单词与解释；这样的状况不仅导致查询的不便，更因为使用者采取此种试误查询方式，而导致需花费较长的时间来获取所需的单词解释，此将增加网络与查询系统的负担。此外，因携带型电子词典的键盘较小，误
键率较高，将使上述的试误过程更加不便。综上所述，可知先前技术于查询仅知其发音而不知其拼字的单词时，一直存在无法有效提供单词解释的问题，因此有必要提出改进的技术手段，来解决此问题。

发明内容
本发明为解决背景技术中存在的上述技术问题，而提出一种通过语音查询单词的系统及其方法。本发明的技术解决方案是本发明为一种通过语音查询单词的系统，其特殊之处在于该系统包含音节数据库，储存有多个音节文件与对应音节文件的字母组合；音档数据库，储存有多个音文件与对应音文件的音文件关键词；字词数据库，储存有对应音文件关键词的字词数据；接收模块，用来接收语音信号；语音辨识模块，用来对语音信号进行端点检测，根据端点检测的样本，提取语音信号的特征，并根据语音信号的特征，将语音信号切分为音节；查找模块，用来在音节数据库查找出符合音节的音节文件，提取对应音节文件的字母组合，并依序拼合字母组合，产生单词；确认模块，用来确认音档数据库有符合单词的音文件关键词，并在字词数据库进一步查找对应音文件关键词的字词数据；显示模块，用来显示字词数据，所述接收模块接入语音辨识模块，所述音节数据库和语音辨识模块分别与查找模块连接，所述查找模块、音档数据库、字词数据库和显示模块分别与确认模块连接。
上述语音辨识模块用来根据浊音特色进行语音辨识。上述语音辨识模块在切分语音信号为音节后，包含用来对音节进行修整。
上述系统还包含输出模块，用来输出对应音文件关键词的音文件。
上述系统可延伸应用至主从式架构。
本发明还提供一种通过语音查询单词的方法，其特殊之处在于该方法包含下列步骤1)建立包含有多个音节文件与对应音节文件的字母组合的音节数据库、多个音文
件与对应音文件的音文件关键词的音档数据库，以及包含有对应音文件关键词的字词数据
的字词数据库；2)接收语音信号；3)对语音信号进行端点检测；4)根据端点检测的样本，提取语音信号的特征；5)根据语音信号的特征，将语音信号切分为音节；6)在音节数据库查找出符合音节的音节文件，提取对应音节文件的字母组合；
7)依序拼合字母组合，产生单词； 8)确认音档数据库包含有符合单词的音文件关键词；
9)在字词数据库查找对应音文件关键词的字词数据；
10)显示字词数据。
上述步骤4)中端点检测的样本用来作为判断浊音的依据。上述步骤5)中将语音信号切分为音节后，修整音节。上述步骤10)之后还包含步骤11)输出对应音文件关键词的音文件。上述方法可延伸应用至主从式架构。本发明提供的通过语音查询单词的系统及其方法，具有对接收的语音信号进行语音辨识，以及对语音辨识产生的音节进行分析比对的技术手段；通过此技术手段可解决先前在查询仅知其发音而不知其拼字的单词时，一直存在的无法有效提供单词解释的问题，达成通过语音查询单词并有效提供单词释义的技术功效。

图1为本发明系统方块示意图；图2为本发明方法步骤流程图；图3为本发明字词数据库其数据示意图；图4为接收语音信号示意图；图5. 1为确认有对应字词数据的音文件接口示意图；
图5. 2为确认无对应字词数据的音文件接口示意图。其中，100-语音单词查询系统，110-音节数据库，120-音档数据库，130-字词数据库，140-接收模块，150-语音辨识模块，160-查找模块，170-确认模块，180-显示模块， 510-标准发音，520-发音比较，530-ETTS发音；
具体实施例方式
参见图l，本发明的语音单词查询系统100包含有音节数据库110、音档数据库 120、字词数据库130、接收模块140、语音辨识模块150、查找模块160、确认模块170与显示模块180。其中，音节数据库110包含有多个音节文件与对应各音节文件的字母组合；音节文件的档案格式可为「. wav」、「.mp3」或是其它格式的声音文件，而对应的字母组合其数据型态为如下所示
<table>table see original document page 5</column></row><table> 其中，对应档名为「00001.wav」的音节文件的字母组合为「A」。音档数据库120储存有多个音文件与对应各音文件的音文件关键词，此处的音文
件其来源可为真人发音，档案格式可为「.wav」、「.mp3」，或其它格式的声音文件；此与前述
的音节文件差异在于，音节文件为音节的声音文件，而音文件为音文件关键词的声音文件。
字词数据库130储存有对应各音文件关键词的字词数据；对应音文件关键词"A"的字词数
据为图3所示。接收模块140用来接收如图4所示的使用者录制的语音信号，语音辨识模块150 用来对接收的语音信号进行端点检测，根据端点检测的样本，提取语音信号的特征，并根据浊音特征及语音信号的特征，将语音信号切分为音节。语音辨识技术着重于语音信号其特征的获取，如此才可将其与参考波形(音节文件)作比对，进行辨识。以下将对语音辨识模块150其可能的实施细节做详细说明。合理假设语音信号的变化是连续且缓慢的，因此常见的作法将接收的语音信号划分为若干个短时距(音框)，其长度可为20ms至30ms不等，并对每个音框加窗(window); 一般加窗大致以汉明窗口 (Hamming Window)最常见，它具有压抑音框两端及保持中间段的特性，其它有矩形窗(Rectangular Window)与汉尼窗(Harming Window)。语音辨识模 ±央150可采用短时距能量(Short-TimeEnergy and Average Magnitude)与短时越零率 (Short-Time Average Zero-CrossingRate)对每个音框进行端点检测；短时距能量代表振幅，后续将根据短时距能量数据来删除一些细小噪声，短时越零率为信号波形穿越横轴的次数，用来作为判断周期长短的依据。假设语音信号的采样频率为8Hz，每个音框的长度为 20ms，共计160个采样点，每隔20ms(即一音框)计算一次短时距能量与短时越零率，并以 Ei代表第i段音框的短时距能量，Zi代表第i段音框的短时越零率。根据上述端点检测的样本，提取语音信号的各音框的特征。由于一般单词发音的档案较整句辨识要小，其数据量不如整句辨识来的大，因此可先用快速排序法(Quicksort) 对各音框的短时距能量与短时越零率进行排序(从小到大)，并找出中位值Ehalf、l/3处的 E1/3与3/4处的E3/4，以进一步计算峰值与谷值；其中，谷值位于第一个在邻近的10段音框中能量最小的音框处，若这样的谷值处不存在，则将谷值定义为在两个相邻峰值处间，能量最小的音框处。根据浊音具有较大振幅与其基音周期(短时越零率较低)的特点，运用上述计算值对语音信号进行音节划分；其中，峰值处代表浊音的核心位置，两个相邻峰值处之间的第一个谷值处作为音节的分界点，将语音信号切分为音节。接着对每个音节进行修整，检测每个峰值的基因周期，合并间距小于80ms的两个邻近峰值，删除这两个峰值间的谷值，并将其中能量较大的峰值作为新的峰值点；另外对于能量过小(小于E^)的峰值处与能量过大(大于E^)的谷值处，检测其邻近的基音周期参数删除不稳定的峰值处/谷值处，最后确定各音节的起始点与终止点。
查找模块160通过线性预测分析得到包含线性预测倒频谱系数 (LinearPredictive C印strum Coefficients, LPCC)等各种参数，用来对各音节与音节数据库110的音节文件进行比对分析，查找出与各音节符合的音节文件；对于因所录制的语音信号不正确或不清晰，而导致显示非使用者所要的字词的情形，如使用者欲查询 "pitch"，却误发音为[pit / ]而导致显示为"peach",故比对标准可设定为50%匹配，并提取对应音节文件的字母组合(如ba与by)，并将字母组合依序拼合为单词(如baby)。
对于每个单词，确认模块170用来确认音档数据库120存有符合该单词的音文件关键词，并进一步在字词数据库130查找对应音文件关键词的字词数据，由显示模块180显示字词数据，此时可增加显示标准发音510及发音比较520(参见图5. 1)，以及在语音单词查询系统100增加输出模块(图中未示)，提供使用者在点选标准发音510选项或发音比较520时，由输出模块输出与音文件关键词对应的音文件，或输出比较音文件与使用者录制的语音信号所产生的比较音文件。若确认模块170确认音档数据库120无任何符合单词的音文件关键词时，可进一步自字词数据库130查找与单词符合的字词资料；若确认在字词数据库130有符合单词的字词数据时，显示字词数据，并增加显示ETTS(EnglishText to Speech)发音530(参见图5. 2)，用来在使用者点选时，由输出模块根据单词输出ETTS发音，反之则由显示模块180显示提示告知使用者查找失败。参见图2，预先建立音节数据库110、音档数据库120与字词数据库130，其中音节数据库IIO储存有多个音节文件与对应音节文件的字母组合，音档数据库120储存有多个音文件与对应音文件的音文件关键词，字词数据库130储存有对应音文件关键词的字词数据；接收语音信号，并对语音信号进行端点检测(步骤210);根据端点检测的样本，提取语音信号的特征(步骤220);根据语音信号的特征，将语音信号切分为音节(步骤230);在音节数据库110查找出符合各音节的音节文件，提取其中音节文件对应的字母组合(步骤 240);将字母组合依序拼合为单词(步骤250);确认音档数据库120有符合单词的音文件关键词(步骤260);在字词数据库130查找对应音文件关键词的字词数据，并显示字词数据(步骤270)。本方法采用短时距能量与短时越零率进行端点检测，而端点检测产生的样本用来作为判断浊音的依据；此外，在步骤230后可包含修整音节的步骤，最终确定各音节的起始点与终止点。在执行步骤270的显示字词数据的同时，可包含根据使用者的外部操作，输出对应音文件关键词的音文件，或是ETTS发音。本发明为接收使用者录制的语音信号，并通过端点检测等技术，根据浊音的特征将语音信号切分为音节，再以线性预测分析等技术比对出与各音节匹配的预设音节文件，获取其中各音节文件对应的字母组合，将字母组合依序拼合为单词，并查找与单词符合的音文件关键词；若有音文件关键词，则进一步显示音文件关键词的字词数据。本发明可应用在携带型电子词典，可延伸应用至主从式架构。综上所述，可知本发明与先前技术之间的差异在于具有对接收的语音信号进行语音辨识，以及对语音辨识产生的音节进行分析比对的技术手段，通过此技术手段可以解决先前技术所存在的问题，进而达成通过语音查询单词并有效提供单词释义的技术功效。
权利要求
一种通过语音查询单词的系统，其特征在于该系统包含音节数据库，储存有多个音节文件与对应音节文件的字母组合；音档数据库，储存有多个音文件与对应音文件的音文件关键词；字词数据库，储存有对应音文件关键词的字词数据；接收模块，用来接收语音信号；语音辨识模块，用来对语音信号进行端点检测，根据端点检测的样本，提取语音信号的特征，并根据语音信号的特征，将语音信号切分为音节；查找模块，用来在音节数据库查找出符合音节的音节文件，提取对应音节文件的字母组合，并依序拼合字母组合，产生单词；确认模块，用来确认音档数据库有符合单词的音文件关键词，并在字词数据库进一步查找对应音文件关键词的字词数据；显示模块，用来显示字词数据，所述接收模块接入语音辨识模块，所述音节数据库和语音辨识模块分别与查找模块连接，所述查找模块、音档数据库、字词数据库和显示模块分别与确认模块连接。
2. 根据权利要求1所述的通过语音查询单词的系统，其特征在于所述语音辨识模块用来根据浊音特色进行语音辨识。
3. 根据权利要求1所述的通过语音查询单词的系统，其特征在于所述语音辨识模块在切分语音信号为音节后，包含用来对音节进行修整。
4. 根据权利要求1所述的通过语音查询单词的系统，其特征在于所述系统还包含输出模块，用来输出对应音文件关键词的音文件。
5. 根据权利要求1所述的通过语音查询单词的系统，其特征在于所述系统可延伸应用至主从式架构。
6. —种通过语音查询单词的方法，其特征在于该方法包含下列步骤1) 建立包含有多个音节文件与对应音节文件的字母组合的音节数据库、多个音文件与对应音文件的音文件关键词的音档数据库，以及包含有对应音文件关键词的字词数据的字词数据库；2) 接收语音信号；3) 对语音信号进行端点检测；4) 根据端点检测的样本，提取语音信号的特征；5) 根据语音信号的特征，将语音信号切分为音节；6) 在音节数据库查找出符合音节的音节文件，提取对应音节文件的字母组合；7) 依序拼合字母组合，产生单词；8) 确认音档数据库包含有符合单词的音文件关键词；9) 在字词数据库查找对应音文件关键词的字词数据；10) 显示字词数据。
7. 根据权利要求6所述的通过语音查询单词的方法，其特征在于所述步骤4)中端点检测的样本用来作为判断浊音的依据。
8. 根据权利要求6所述的通过语音查询单词的方法，其特征在于所述步骤5)中将语音信号切分为音节后，修整音节。
9. 根据权利要求6所述的通过语音查询单词的方法，其特征在于所述步骤10)之后还包含步骤11)输出对应音文件关键词的音文件。
10. 根据权利要求6所述的通过语音查询单词的方法，其特征在于所述方法可延伸应用至主从式架构。
全文摘要
本发明涉及一种通过语音查询单词的系统及其方法，具有对接收的语音信号进行语音辨识，以及对语音辨识产生的音节进行分析比对的技术手段；通过此技术手段可解决先前在查询仅知其发音而不知其拼字的单词时，一直存在的无法有效提供单词解释的问题，达成通过语音查询单词并有效提供单词释义的技术功效。
文档编号G10L25/93GK101706797SQ20091021911
公开日2010年5月12日申请日期2009年11月24日优先权日2009年11月24日
发明者刘丽, 陈淮琰申请人:无敌科技(西安)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈淮琰;刘丽
技术所有人：无敌科技（西安）有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！