一种单词查询系统及其查询方法

文档序号:6667277阅读:338来源:国知局
专利名称:一种单词查询系统及其查询方法
技术领域
本发明涉及语音识别领域,尤其是一种依照语音査询单词的系统及其查询方法。
背景技术
在外语学习以及运用外语进行交流的过程中,经常需要查询陌生单词,以了解单词的发音、涵义、用法等信息,例如在阅读外文文章时,遇到不认识的单词是很常见的情况,这些单词需要查询字典才能学习了解。传统的纸质词典由于用户随身携带不方便且査询速度较慢,己经几乎被教育类电子设备和计算机软件所完全替代。目前出现了品种繁多的教育类电子设备,如词典机、学习机、点读机以及计算机软件等,这些设备和软件普遍内置了电子辞典,在其中录入单词,便能査询到单词的相关信息。
然而这些教育类电子设备由于定位便携轻便,只能采用很小的键盘或触摸屏来输入,较小的键盘或屏幕虚拟键盘因为键位较小,导致用户使用不便,用户输入单词的速度低,此外广大中小学生对标准电脑键位布局不熟悉,在输入时,学生们将目光和注意力在书本和键盘
屏幕之间来回移动,这样导致按键输入单词的效率较低;触摸屏上的手写输入也存在注意力来回切换导致输入单词速度慢的问题,并且由于现在手写识别技术无法达到100%的识别率,所以用户在手写每个字母后都进行选择和确认,这种输入方式增加了用户输入时的复杂程度,大大降低了用户的输入效率。计算机软件只能在计算机上运行,即使是便携式计算机也无法达到用户所希望的随身携带、随时使用、持续使用的要求,因为便携式计算机的电池续航能力远远小于学习机等普通的教育类电子设备,且便携式计算机的重量远远大于学习机。

发明内容
本发明的首要目的在于提供一种能够迅速、准确、随身随时通过语音拼写査询单词、使用便捷的单词查询系统。
为实现上述目的,本发明提供的一种单词查询系统,该系统包括用于接收音频数据的接收模块;用于储存单词信息的单词信息数据库;
用于将音频数据在单词信息数据库中的单词列表中进行识别,并得出识别结果的识别模块;
根据识别结果,显示或播报输出相应单词的相关信息的输出模块。
本发明的另一目的在于提供一种单词査询系统的査询方法,包括下列顺序的步骤
(1) 接收模块接收用户以拼读的方式念出的音频数据,并对其进行存储;
(2) 识别模块对接收模块接收的音频数据进行识别,确认是否
能在单词信息数据库中找到匹配单词,并将识别结果输出至接收模块;
(3) 若步骤(2)的识别结果为否,输出模块输出没有与录音匹配的单词的信息;否则,输出模块输出相应的匹配单词信息。
本发明运用语音拼写朗读识别技术进行单词査询,突破了多种传统的单词査询方式的瓶颈,尤其对于阅读和朗读过程中,直接通过拼写朗读发音进行单词査询,有效的解决了阅读和朗读过程中出现的生词,用较短的时间得到了较大的学习成效。


图l是本发明的结构框图2是本发明的工作流程图3、 4、 5、 6分别是本发明的工作状态示意图。
具体实施例方式
一种单词查询系统,该系统包括用于接收音频数据的接收模块10;用于储存单词信息的单词信息数据库40;用于将音频数据在单词信息数据库40中的单词列表中进行识别,并得出识别结果的识别模块20;根据比对结果,显示或播报输出相应单词的相关信息的输出模块30,如图1所示。
所述的接收模块10中还包括用于储存所接收音频数据的储存单元,所述的接收模块10的输出端与对单词信息数据库40进行访问和
5查询的识别模块20的输入端相连,识别模块20的输出端与输出模块30的输入端相连,所述的单词信息包括单词文本及相应的注释信息,注释信息包括单词的拼写、释义、音标、词性、用法、例句、声音的一种或几种的任意组合,如图1所示。
结合图2,所述的接收模块IO接收用户以拼读的方式念出的音频数据,并对其进行存储,这里所指的拼读是指对单词进行拼写朗读,即逐个拼出字母的方式;识别模块20对接收模块10接收的音频数据进行识别,确认是否能在单词信息数据库40中找到匹配单词,并将识别结果输出至接收模块10;若识别模块20能在单词信息数据库40中找到匹配单词,输出模块30输出相血的匹配单词,同时,还输出匹配单词的注释信息,所述的注释信息包括单词的拼写、释义、音标、词性、用法、例句、声音的一种或几种的任意组合,否则,若识别模块20未能在单词信息数据库40中找到匹配单词,则输出模块30输出没有与录音匹配的单词的信息,如"不存在与录音匹配的单词"的信息。
以下结合图l、 2、 3、 4、 5对本发明作进一步的说明。
在单词信息数据库40中储存有单词信息,单词信息包括单词文本以及单词注释信息,单词注释信息包括有单词拼写、释义、音标、词性、用法、例句、声音等信息。此外,单词信息数据库40中还储存有一对照表,对照表将单词文本与注释信息联系起来,在对照表中一个单词文本可能对应于一个或多个注释信息。学习者阅读书本杂志文章时,在发现陌生单词时,可以将陌生的单词按字母逐个拼写朗读出来,接收模块10通过录音设备录制下这段语音,接收的同时将音频数据内容以时间为标准进行储存。
识别模块20在单词信息数据库40中搜索与音频数据内容匹配的单词文本,在进行匹配时,只是进行相似匹配,而非完全匹配,因为在进行单词的拼读发音时,由于地域性的差异,或是用户的发音习惯,每个用户的发音均会有一些差别,因此为兼容广大用户的拼读发音,识别模块20只能进行相似匹配。然后识别模块20判断是否査找到匹配的单词文本,如果有匹配的单词文本,则通过对照表找到相应的注释信息,输出模块30再将找到的注释信息显示出来,如果该单词文本
6在单词信息数据库40中仅有一个单词与之相同,则输出模块30直接显示该单词,即可得到该单词的拼写、释义、音标、词性、用法、例句、声音等相关信息。如果没有找到匹配的单词文本,则输出模块30显示"未找到与录音匹配的单词"。
所述的识别模块20包括用于接收单词信息数据库40中单词列表的文本处理器21,文本处理器21的输出端与语音识别器22的输入端连接,语音识别器22的输出端与后处理器23的输入端相连,后处理器23的输出端与输出模块30的输入端连接,文本处理器21、后处理器23分别与单词信息数据库40双向通讯,所述的接收模块10中还包括用于储存所接收音频数据的储存单元,接收模块10的输出端与语音识别器22的输入端连接,如图1所示,具体的识别步骤如下
在识别时,所述的文本处理器21将单词信息数据库40中的单词列表转化为语音识别器22能够识别的识别集合,即将单词列表中的每一个单词转化为与该单词拼写朗读发音所对应的字符序列,每一条字符序列可对应于一个或多个单词,字符序列中的字符可以是音标字符,也可以是语音识别器22支持的其他表达发音的字符,识别集合是由对
应于单词列表中单词拼写朗读发音的多条字符序列组成,文本处理器21在转化单词为字符序列时,会对字符序列与单词的对应关系进行记录。
所述的语音识别器22在识别集合中进行识别,识别是否能够找到与音频数据具有较高似然性评分的少量字符序列,找到的少量字符序列的数量由系统设置或由用户设置,若能够找到,则语音识别器22将找到的少量字符序列配合似然性评分输出到后处理器23,后处理器23在接收到语音识别器22找到的少量与音频数据具有较高似然性评分的字符序列时,根据文本处理器21所记录的字符序列与单词的对应关系,将这些字符序列转化为字符序列相对应的单词并输出;否则,语音识别器22将输出"未在识别集合中找到与录音匹配的字符序列"信息至后处理器23,则后处理器23输出"未在词典中找到与录音匹配的单词"的信息。所述的后处理器23在输出单词时,根据单词对应的字符序列与音频数据的似然性评分的高低,对这些单词排序输出。以下举例示意本发明的工作状态,图3所示为本发明的录音界面,图4所示为拼写识别结果,图5所示为单词"study"的査询结果,图6所示为未找到与录音匹配的拼读识别结果。
首先,学习者通过按下设备或界面上的录音按钮进入录音界面,录下学习者拼写朗读单词"study"的声音,如图3所示;录音过程结束后,按下査询按钮进行査找与录音数据匹配的单词文本,如果找到了与录音匹配的单词文本,则显示出这些单词文本,如图4所示;直接选择所显示的单词文本就可以查到相关的单词信息,例如点选单词"study",就会显示"study"的音标、释义等单词信息,如图5所示,学习者通过这样就可以对单词的发音、释义等进行学习和了解;如果没有搜到与录音匹配的单词文本,则系统会出现提示,提示"未找到与录音匹配的单词",如图6所示,此时学习者可以选择"重新录音",系统将会到录音界面,学习者可以重新对单词进行拼写朗读并录音,学习者也可以选择"退出程序",则结束发音査询,退出程序。
综上所述,本发明的核心在于运用语音拼写朗读识别技术进行单词查询,通过识别模块20对语音进行精确的识别,突破了多种传统的单词査询方式的瓶颈,尤其对于阅读和朗读过程中,直接通过拼写朗读发音进行单词查询,有效的解决了阅读过程中出现的生词,用较短的时间得到了较大的学习成效。
权利要求
1、一种单词查询系统,其特征在于该系统包括用于接收音频数据的接收模块;用于储存单词信息的单词信息数据库;用于将音频数据在单词信息数据库中的单词列表中进行识别,并得出识别结果的识别模块;根据识别结果,显示或播报输出相应单词的相关信息的输出模块。
2、 根据权利要求1所述的单词査询系统,其特征在于所述的接收模块的输出端与对单词信息数据库进行访问和查询的识别模块的 输入端相连,识别模块的输出端与输出模块的输入端相连。
3、 根据权利要求1所述的单词査询系统,其特征在于所述的 识别模块包括用于接收单词信息数据库中单词列表的文本处理器,文 本处理器的输出端与语音识别器的输入端连接,语音识别器的输出端 与后处理器的输入端相连,后处理器的输出端与输出模块的输入端连 接,文本处理器、后处理器分别与单词信息数据库双向通讯,所述的 接收模块中还包括用于储存所接收音频数据的储存单元,接收模块的 输出端与语音识别器的输入端连接。
4、 根据权利要求1所述的单词査询系统,其特征在于所述的 单词信息包括单词文本及相应的注释信息,注释信息包括单词的拼写、 释义、音标、词性、用法、例句、声音的一种或几种的任意组合。
5、 根据权利要求1所述的单词査询系统的査询方法,包括下列 顺序的步骤(1) 接收模块接收用户以拼读的方式念出的音频数据,并对其进行存储;(2) 识别模块对接收模块接收的音频数据进行识别,确认是否 能在单词信息数据库中找到匹配单词,并将识别结果输出至接收模块;(3) 若步骤(2)的识别结果为否,输出模块输出没有与录音匹 配的单词的信息;否则,输出模块输出相应的匹配单词信息。
6、 根据权利要求5所述的单词査询系统的査询方法,其特征在于所述的识别模块包括用于接收单词信息数据库中单词列表的文本 处理器,文本处理器的输出端与语音识别器的输入端连接,语音识别 器的输出端与后处理器的输入端相连,后处理器的输出端与输出模块 的输入端连接,文本处理器、后处理器分别与单词信息数据库双向通 讯,接收模块的输出端与语音识别器的输入端连接。
7、 根据权利要求5所述的单词査询系统的查询方法,其特征在 于所述的输出模块输出所有匹配单词的同时,还输出匹配单词的注 释信息,所述的注释信息包括单词的拼写、释义、音标、词性、用法、 例句、声音的一种或几种的任意组合。
8、 根据权利要求5或6所述的单词査询系统的査询方法,其特征在于所述的文本处理器将单词信息数据库中的单词列表转化为语 音识别器能够识别的识别集合,即将单词列表中的每一个单词转化为 与该单词拼写朗读发音所对应的字符序列,每一条字符序列可对应于 一个或多个单词,字符序列中的字符为音标字符,或为语音识别器支 持的其他表达发音的字符,识别集合是由对应于单词列表中单词拼写 朗读发音的多条字符序列组成,文本处理器在转化单词为字符序列时, 会对字符序列与单词的对应关系进行记录。
9、 根据权利要求5或6所述的单词査询系统的査询方法,其特征在于所述的语音识别器在识别集合中进行识别,识别是否能够找到与音频数据具有较高似然性评分的少量字符序列,找到的少量字符 序列的数量由系统设置或由用户设置,若能够找到,则语音识别器将 找到的少量字符序列配合似然性评分输出到后处理器,后处理器在接 收到语音识别器找到的少量与音频数据具有较高似然性评分的字符序 列时,根据文本处理器所记录的字符序列与单词的对应关系,将这些字符序列转化为字符序列相对应的单词并输出;否则,语音识别器将输出"未在识别集合中找到与录音匹配的字符序列"信息至后处理器, 则后处理器输出"未在词典中找到与录音匹配的单词"的信息。
10、 根据权利要求9所述的单词査询系统的査询方法,其特征在于所述的后处理器在输出单词时,根据单词对应的字符序列与音频数据的似然性评分的高低,对这些单词排序输出。
全文摘要
本发明涉及一种单词查询系统,该系统包括用于接收音频数据的接收模块;用于储存单词信息的单词信息数据库;用于将音频数据在单词信息数据库中的单词列表中进行识别,并得出识别结果的识别模块;根据识别结果,显示或播报输出相应单词的相关信息的输出模块。本发明还公开了一种单词查询系统的查询方法。本发明运用语音拼写朗读识别技术进行单词查询,突破了多种传统的单词查询方式的瓶颈,尤其对于阅读和朗读过程中,直接通过拼写朗读发音进行单词查询,有效的解决了阅读和朗读过程中出现的生词,用较短的时间得到了较大的学习成效。
文档编号G07F17/00GK101645190SQ20091014420
公开日2010年2月10日 申请日期2009年7月22日 优先权日2009年7月22日
发明者于振华, 刘庆峰, 潘天华, 潘青华, 邹云贵, 盛 陈, 冰 马, 群 高, 黄海兵 申请人:合肥讯飞数码科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1