点读笔的语音识别方法

文档序号：8283468阅读：1449来源：国知局

点读笔的语音识别方法
【技术领域】
[0001]本发明涉及语音信号处理方法，更具体地，涉及一种点读笔的语音识别方法。
【背景技术】
[0002]目前市场上已有各种各样的点读笔，为人们的学习带来了极大的便利，辅助家长对孩子进行图书的点读、学习，但现有的点读笔其功能单调，不可实现语音识别的功能，本点读笔针对现有点读笔的不足，设计了一种可实现语音识别的点读笔，小朋友可以与点读笔进行语音对话和鹦鹉学舌，提高小朋友的语言表达能力和沟通能力。
[0003]然而，由于汉字是具有多音字的文字，现有的点读笔只能按照每个被识别出来的文字的标准发音(通常是字典或词典中，该字的第一个发音)而发音。这不利于使用者准确理解其含义，也不利于普通话的普及和儿童等使用者对文字发音的正确学习和掌握。

【发明内容】

[0004]本发明为了提高点读笔对于多音字的特殊发音(即除了词典或字典中的第一个被标出的读音之外的其他读音)的准确性，提供了一种点读笔的语音识别方法，包括:
[0005](I)点读笔获取包括待读文字的图像，同时对包括待读文字的图像进行预处理，得到完整的第一单字图像；
[0006](2)对所述第一单字图像进行文字识别，得到第一单字；
[0007](3)从词典中查找所述第一单字的发音；
[0008](4)点读笔继续获取包括待读文字的图像，同时对包括待读文字的图像进行预处理，得到完整的第二单字图像；
[0009](5)对所述第二单字图像进行文字识别，得到第二单字；
[0010](6)从词典中查找所述第一单字和第二单字是否构成特殊词组，所述特殊词组表示前两个字为所述第一单字和第二单字，且第二单字的发音非正常发音的词组。
[0011]进一步地，所述步骤(I)之前还包括步骤:根据词典训练单字与其读音之间的映射，并将这种映射中具有多个发音的单字进行标记。
[0012]进一步地，所述步骤(I)之前还包括根据所述标记生成正常发音规则和特殊发音规则。
[0013]进一步地，在步骤(3)和步骤(4)之间还包括:判断第一单字是否具有标记。
[0014]进一步地，如果所述第一单字具有标记，则在词典中查询以第一单字为首字的所有特殊词组。
[0015]进一步地，所述步骤(6)中，从词典中查找所述第一单字和第二单字是否构成特殊词组包括:判断第二单字是否为所述特殊词组的第二个字。
[0016]进一步地，所述步骤(6)还包括:如果不构成特殊词组，则根据正常发音规则发出第一单字和第二单字的语音，否则根据正常发音规则发出第一单字的语音，并根据特殊发音规则发出第二单字的语音。
[0017]进一步地，所述语音识别方法在步骤(6)之后，还包括:若第二单字的发音不正确，则重复步骤(4)到步骤(6) 5次，则在最后一次重复步骤(6)时，强行根据正常发音规则发出第二单字的语音。
[0018]本发明的有益效果为:能够对多音字在其所在的词语中自动发出具有正确的读音，从而帮助点读笔的使用者正确理解待读取文字的含义，还有助于少年儿童纠正错误的发音习惯，更好地学习普通话。
【附图说明】
[0019]图1示出了根据本发明的优选实施例的方法流程框图。
【具体实施方式】
[0020]如图1所示，点读笔的语音识别方法包括如下步骤:
[0021](I)根据词典训练单字与其读音之间的映射，并将这种映射中具有多个发音的单字进行标记，之后，根据所述标记生成正常发音规则和特殊发音规则。
[0022]所述映射建立在多音字词典上，包括三个步骤。首先是标注各个单字的发音。在该单字对应的发音中，如果该单字具有多种发音，则为该单字建立特殊发音规则并将该单字标记为特殊单字，否则为该单字建立正常发音规则且不把该单字标记为特殊单字。
[0023]正常发音规则中，对于各个单字，每个单字对应地只有一个读音。特殊发音规则中，每个单字对应地映射多个读音，且读音的次序按照字典中各个读音的排列顺序，并将位于第一位的记作第一发音，位于后面的其他发音记作非第一发音。
[0024]第二个步骤是根据各个单字与其发音的映射关系，在字典中进一步查找包括特殊单字的词语。这个或这些词语中，所述的特殊单字具有非第一发音。
[0025]第三个步骤是在第一步的映射中，为每个单字补充第二部中查找到的包括特殊单字的词语，并为该单字与这些词语以及这些词语中的各个单字的特殊读音(所述各个单字构成的该词语中，至少一个单字为特殊发音)之间也建立映射。
[0026]特殊在建立该特殊发音规则时，要对应地查找变音、变调是指在语声流中，按发音规则发生的声音的变化，这种变化有以下几种:
[0027]变调:每个单独的音节有确定的音调，但在词组中，由于相邻音节发音的影响，音调发生变化。如上声相连时，前面的上声近似阳平，三个上声相连时，前两个上声近似阳平。
[0028]弱化:弱化就是把语流中的某些音节读成轻声，如“你的”中的“的”，“杯子”中的“子”，“爸爸”中的第二个“爸”。
[0029]强化:强化就是把语流中的某些音节加强，读成重音。如“努力学习”中的“努力”。
[0030]儿化:汉语中的音节带有儿化韵尾，产生了儿化韵，如“花儿”。
[0031](2)点读笔获取包括待读文字的图像，同时对包括待读文字的图像进行预处理，得到完整的第一单字图像。图像的获得可以依靠点读笔自身的连拍等方案来采集包括文字的图像。采集到的图像经过图像预处理单元去除图像中的干扰，以提高文字识别的准确度。例如，增强图像的对比度和/或亮度、弯曲或拉伸图像以调整图像的角度等。
[0032](3)对所述第一单字图像进行文字识别，得到第一单字。该步骤采用现有的图像-文字识别器，通过硬件和/或软件的方式将图像中的文字识别到处理器的缓存中。
[0033](4)从词典中查找所述第一单字的发音；具体来讲，将字典的至少一部分读取到处理单元中，将步骤(3)识别出来的文字与该部分字典作比较:如果没有找到，则继续将字典的其他部分中的至少一部分读入到处理单元的缓存中并再次作比较，直到在字典中找到该单字为止。若此时该单字为点读笔读取的第一个单字，则继续下面步骤，否则将该单字作为下面的“第二单字”加以对待。
[0034]重复上述步骤(2)到步骤(4)，读取上述单字后续的一个第二单字，并判断该第二单字是否为具有特殊标记的特殊单字。如果是，则在该特殊单字的映射中查找所有包括该特殊单字的词语是否包括上述第一单字。如果包括，则该第一单字和第二单字分别按照映射中的各个单字的读音发出声音。否则，该第一单字和第二单字均按照各自映射中的第一发音而发出声音。
[0035]作为本发明的另一种可替换方案，在识别出第一单字和第二单字以后，如果它们不构成特殊词组，则根据正常发音规则发出第一单字和第二单字的语音，否则根据正常发音规则发出第一单字的语音，并根据特殊发音规则发出第二单字的语音。
[0036]优选地，对于某些由于发音变更的规定而改变了原有读音的单字，本发明也提供了更改字典的一种方案:若第二单字的发音不正确，则重复步骤(4)到步骤(6) 5次，则在最后一次重复步骤(6)时，强行根据正常发音规则发出第二单字的语音，同时在与该第二单字映射的词语中查找包括该第一单字和第二单字的词语，并将第二单字在这些特殊发音词语中的非第一发音修改为第一发音。
[0037]本发明说明书中未作详细描述的内容属于本领域专业技术人员公知技术。
[0038]以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。
【主权项】
1.一种点读笔的语音识别方法，包括: (1)点读笔获取包括待读文字的图像，同时对包括待读文字的图像进行预处理，得到完整的第一单字图像； (2)对所述第一单字图像进行文字识别，得到第一单字； (3)从词典中查找所述第一单字的发音； (4)点读笔继续获取包括待读文字的图像，同时对包括待读文字的图像进行预处理，得到完整的第二单字图像； (5)对所述第二单字图像进行文字识别，得到第二单字； (6)从词典中查找所述第一单字和第二单字是否构成特殊词组，所述特殊词组表示前两个字为所述第一单字和第二单字，且第二单字的发音非正常发音的词组。
2.根据权利要求1的点读笔的语音识别方法，其特征在于，所述步骤(I)之前还包括步骤: 根据词典训练单字与其读音之间的映射，并将这种映射中具有多个发音的单字进行标记。
3.根据权利要求2的点读笔的语音识别方法，其特征在于，所述步骤(I)之前还包括根据所述标记生成正常发音规则和特殊发音规则。
4.根据权利要求2或3的点读笔的语音识别方法，其特征在于，在步骤(3)和步骤(4)之间还包括:判断第一单字是否具有标记。
5.根据权利要求4的点读笔的语音识别方法，其特征在于，如果所述第一单字具有标记，则在词典中查询以第一单字为首字的所有特殊词组。
6.根据权利要求5的点读笔的语音识别方法，其特征在于，所述步骤￠)中，从词典中查找所述第一单字和第二单字是否构成特殊词组包括:判断第二单字是否为所述特殊词组的第二个字。
7.根据权利要求1的点读笔的语音识别方法，其特征在于，所述步骤(6)还包括:如果不构成特殊词组，则根据正常发音规则发出第一单字和第二单字的语音，否则根据正常发音规则发出第一单字的语音，并根据特殊发音规则发出第二单字的语音。
8.根据权利要求1的点读笔的语音识别方法，其特征在于，所述语音识别方法在步骤(6)之后，还包括:若第二单字的发音不正确，则重复步骤(4)到步骤(6)5次，则在最后一次重复步骤(6)时，强行根据正常发音规则发出第二单字的语音。
【专利摘要】本发明为了提高点读笔对于多音字的特殊发音的准确性，提供了一种点读笔的语音识别方法，包括：点读笔获取包括待读文字的图像，同时对包括待读文字的图像进行预处理，得到完整的第一单字图像；对所述第一单字图像进行文字识别，得到第一单字；从词典中查找所述第一单字的发音；点读笔继续获取包括待读文字的图像，同时对包括待读文字的图像进行预处理，得到完整的第二单字图像；对所述第二单字图像进行文字识别，得到第二单字；从词典中查找所述第一单字和第二单字是否构成特殊词组，所述特殊词组表示前两个字为所述第一单字和第二单字，且第二单字的发音非正常发音的词组。本方法能够对多音字在其所在的词语中自动发出具有正确的读音。
【IPC分类】G09B5-04, G10L15-26
【公开号】CN104599670
【申请号】CN201510050221
【发明人】张鑫
【申请人】成都星炫科技有限公司
【公开日】2015年5月6日
【申请日】2015年1月30日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张鑫;
技术所有人：成都星炫科技有限公司;
我是此专利的发明人

上一篇：情境式声光效果产生方法及装置的制造方法
上一篇：一种语音控制方法和装置的制造方法