实现语音输入和笔输入高识别率高速度的方法

文档序号：2818895阅读：1187来源：国知局

专利名称：实现语音输入和笔输入高识别率高速度的方法
技术领域：
本发明涉及计算机的语音输入系统和笔输入系统。
背景世界上现有的语音输入系统，是采用语音识别技术，建立语言文字相应的标准读音模型数据库，存贮在计算机系统里。计算机采集到语音数据后一语音输入计算机后，与模型数据库里的数据进行比较。如果比较后得到了相符合的结果，显示器上将显示出与输入语音对应的正确的文字；如果不是完全相符合，由于采用了容错技术，可能在显示器上显示出与输入语音对应的正确的文字，也可能在显示器上显示出与输入语音不对应的错误的文字。现有的笔输入系统，是应用笔划笔迹识别技术，对输入计算机里的笔划笔迹，进行判断识别，然后在显示器上显示出与输入笔划笔迹对应的文字；但可能在显示器上显示出与输入笔划笔迹对应的正确的文字，也可能在显示器上显示出与输入笔划笔迹不对应的错误的文字。例如汉语语音和笔输入系统中的代表——汉王听写系统，该系统中听即是语音输入，而写即是笔输入。汉王听写系统中的语音输入系统采用IBM ViaVoice98非特定人连续语音识别技术，在计算机里建立了汉语标准普通话读音的模型数据库。通过麦克风将语音输入计算机后，与模型数据库里的数据进行比较。如果比较后得到了相符合的结果，显示器上将显示出与输入汉字语音对应的正确的汉字；如果不是完全相符合，由于采用了容错技术，可能在显示器上显示出与输入汉字语音对应的正确的汉字，也可能在显示器上显示出与输入汉字语音不对应的错误的汉字。汉王的笔输入系统，是应用中国科学院自动化研究所的笔划笔迹识别技术，对输入计算机里的笔划笔迹，进行判断识别，然后在显示器上显示出与输入笔划笔迹对应的文字；但可能在显示器上显示出与输入笔划笔迹对应的正确的汉字，也可能在显示器上显示出与输入笔划笔迹不对应的错误的汉字。
说同一语言的不同人，可能存在与该语言的标准语音有很大的差异和不同；即使是同一人，由于发音系统状况的变化(如感冒发炎)，也可能存在此时与彼时语音的很大差异和不同。例如同是讲汉语的人有北京话、四川话、上海话，这些话中，存在相同字词语音与标准普通话语音完全不同的情况；这些话，相互之间也存在相同字词语音完全不同的情况。即使是讲北京话、四川话、上海话的该地方的人，也存在人与人之间相同字词语音上的很大差异和甚至完全不同。计算机容错技术无法解决这种语音的太大差异和不同，这样，现有的语音输入系统，存在识别率很低的问题。同理，书写同一语言文字的不同人，可能存在书写笔划笔迹很大的差异和不同；而计算机容错技术无法解决这种笔划笔迹的太大差异和不同，现有的笔输入系统，就存在识别率低和识别速度不高的问题。现有的笔输入系统，不能进行以词、词组为单位的笔书入，是输入速度低的主要原因。另外，现有的笔输入系统，多字识别状态下，要求书写的字与字之间必须相隔较大距离；否则，系统无法正确识别而显示出错误的字。这一书写要求，不符合人们的书写习惯，系统又没有提供参考的书写格式，使用者不好把握字与字之间的书写距离，降低了笔输入的速度。这些问题造成了语音和笔输入系统未能普遍和广泛应用的现实问题。
本发明的目的是提供实现语音输入和笔输入高识别率高速度的方法。
本发明的目的是这样实现的在语音输入系统中，应用语音识别技术，提供建立语音模型数据库的功能模块，建立使用者所讲所说语言文字的使用者本人语音的模型数据库；另外，还可建立地方话语音特征的模型数据库，但这种语音输入系统的识别率，肯定没有具有使用者本人语音的模型数据库的语音输入系统的识别率高。在笔输入系统中，应用笔划笔迹识别技术，提供建立笔划笔迹模型数据库的功能模块，建立起使用者所写语言文字的使用者本人笔划笔迹的模型数据库。这样的方法，极大地减少了计算机采集的使用者的语音数据或笔划笔迹数据与相应模型数据库里的数据之间的差异，使得容错技术能够解决这样的“差异”，极大地提高了语音输入和笔输入的识别率和识别速度。
使用者可能出现相同文字此时语音与彼时语音的一定程度的不同，可能出现相同文字的此时笔划笔迹与彼时笔划笔迹的一定程度的不同。这样的不同，有可能造成计算机不认可而出现输出错误，即可能出现不容错的情况。如何解决这一问题呢？对于出现的错误是要修改的。在进行修改时，我们可以让计算机将每次出现错误的情况—语音数据或笔划笔迹数据自动记忆存贮下来。就使用者个人而言，其语音和笔划笔迹的此时与彼时的不同的情况是有限的；这样，随着使用者使用语音输入系统和笔输入系统次数的增加，计算机将采集到使用者的语音的变化数据和笔划笔迹的变化数据，自动记忆存贮下来作为容错数据，使得今后的识别率得以提高，达到100％的识别率。例如，以汉语中的“行”字为例，使用者在建立其语音模型数据时，可能只建立了háng的读音模型数据；在实际语音输入时却可能将“行”读成xíng，计算机显示错误的字，而不是正确的“行”。但当你进行修改时，计算机将自动记忆存储你讲“行”的语音xíng，作为容错数据，在下次无论你读xíng或读háng的语音，都会正确输出汉字“行”。同理，当使用者把“行”读成héng时，计算机将自动记忆存储你讲“行”的语音héng，作为容错数据，在下次无论你读xíng或读háng或读héng的语音，都会正确输出汉字“行”。同理，对于汉字“行”的书写，使用者在建立笔划笔迹模型数据库时，可能写的是行楷字体，实际输入时却可能写成了简写体或草书体或使用者的随笔，计算机可能显示出错误的字，而不是正确的“行”。但当你进行修改时，计算机将自动记忆存贮使用者书写的简写体或草书体或使用者的随笔，作为容错数据，在下次无论书写的是简写体或草书体或使用者的随笔，都会正确输出汉字“行”。
在建立语音模型数据库时，采用建立词、词组语音模型数据的方法，提高语音输入的识别率和识别速度。词、词组的语音数据，可建立慢读、中速读、快读三种情况的语音数据模型，提高语音输入系统的容错能力。
在建立笔划笔迹模型数据库时，采用建立词、词组笔划笔迹模型数据的方法，实现笔输入速度的提高。对词、词组，如果完全书写，可能没有缩写节省时间。例如汉语中的“中华人民共和国”，如果完全书写，肯定没有用“中人国”缩写代替它而节省书写时间；而缩写“中人国”，可能又没有用拼音首字母——ZRG来代替而节省书写时间。就此，我们可采用书写词、词组的代码的方法，来建立词、词组笔划笔迹模型数据库；实际输入时，就书写词、词组的代码，这样就大大提高了笔输入的的速度，达到高水平键盘输入的速度。当然，对于字，也可建立起它的代码模型数据，实际输入时，就书写字的代码。代码的制定规则，可由使用者自己决定。例如，对于汉语，我们建议使用拼音首字母组合的规则来建立词、词组笔划笔迹模型数据库，既简单又不用记忆。
采用在笔输入系统的书写板上提供参考书写格式或将书写板按相应语言文字的书写格式制造的方法，解决使用者不好把握书写单位(字、词、词组)之间书写距离的问题，从而既避免书写错误和识别错误，也提高了笔输入的速度。
优点和效果由于不是建立统一的语音数据库和笔划笔迹数据库，而是建立起个性特征的使用者本人语音的模型数据库，或者是地方话语音特征的模型数据库；和建立起本人笔划笔迹的模型数据库。这样，使用者在语音输入或笔输入时，输入计算机的数据与计算机系统里存贮的模型数据库里对应的数据之间的差异，是很小的，提高了识别率和识别速度。在建立语音模型数据库时，采用建立词、词组语音模型数据的方法，提高了语音输入的识别率和识别速度。
在建立笔划笔迹模型数据库时，建立词、词组的笔划笔迹模型数据，并可用代码代替词、词组的方法，极大地提高了笔输入的速度，达到高水平键盘输入的速度。采用计算机自动记忆存贮使用者语音的变化数据和笔划笔迹的变化数据作为容错数据的方法，提高了语音输入和笔输入的识别率，达到100％的识别率。提供参考书写格式的方法，或将书写板按相应语言文字的书写格式制造的方法，解决了使用者不好把握书写单位(字、词、词组)之间书写距离的问题，既避免书写错误，又提高了笔输入的速度。
权利要求
1 实现语音输入和笔输入高识别率高速度的方法，应用了语音识别技术建立语音模型数据库，应用了笔划笔迹识别技术判断识别输入计算机的笔划笔迹，其特征是①语音输入系统的模型数据库是使用者本人语音的模型数据库，或者是地方话语音特征的模型数据库；②笔输入系统的模型数据库是使用者本人笔划笔迹的模型数据库，③计算机自动记忆存贮使用者语音的变化数据和笔划笔迹的变化数据作为容错数据，④可参考的书写格式。
2 依据权利要求1所述，其特征是在语音模型数据库里，建立词、词组的语音模型数据。
3 依据权利要求1所述，其特征是语音输入系统的模型数据库，建立了地方话语音特征的模型数据库。
4 依据权利要求1所述，其特征是在笔划笔迹模型数据库里，用代码代替字、词、词组的方法，建立笔划笔迹的模型数据。
5 依据权利要求1所述，其特征是书写板按书写格式制造。
全文摘要
本发明涉及计算机的语音输入系统和笔输入系统,是实现语音输入和笔输入高识别率高速度的方法;用于设计生产计算机的语音输入系统和笔输入系统。其特征是:①语音输入系统的模型数据库是使用者本人语音的模型数据库,或者是地方话语音特征的模型数据库;②笔输入系统的模型数据库是使用者本人笔划笔迹的模型数据库,③计算机自动记忆存贮使用者语音的变化数据和笔划笔迹的变化数据作为容错数据,④可参考的书写格式。
文档编号G10L15/00GK1278093SQ0011936
公开日2000年12月27日申请日期2000年6月29日优先权日2000年6月29日
发明者陈增能申请人:陈增能

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈增能
技术所有人：陈增能
我是此专利的发明人