语音字典形成方法、语音识别系统及其方法

文档序号：2820242阅读：146来源：国知局

专利名称：语音字典形成方法、语音识别系统及其方法
技术领域：
本发明涉及一种将输入手持移动终端或计算机的语音转成中文文本的语音识别系统和方法。
背景技术：
现有技术向手持移动终端或计算机输入中文文本方式有多种，这些类输入方式在不断的完善和发展，但是，这些输入法在使用中普遍不够快速。目前向手持移动终端或计算机输入中文信息的方式有以下几种方式。
第一类是系统基于把中文汉字分解成图形成分，把不同的图形成分分配到相应的按键上，这样通过一次或几次敲击按键把图形成分输入系统，实现汉字的输入。汉字的输入是需要我们对汉字的字型结构了解，同时要对按键和相应的图形成分的布局很了解的前提下才能较快速的向手持移动终端或计算机输入中文汉字。这种输入方式的缺点是这种汉字图形的组合是要靠人工来实现的，在输入汉字的时候脑子同时要想字型的图形成分和该字成分相时应按键的位置，所以对大部分的普通用户来说其输入的效率是很低的。
第二类是系统基于中文汉字拼音的法则，这种是通过向系统输入汉字的拼音，这是专业的打字员常采用的方式，这种拼音输入法是现在比较普遍的输入汉字的方式，前提也是要求我们对每个汉字的拼音了解。这种方式存在的问题我们在输入汉字时脑子要想汉字的拼音和相对应的拼音所在按键，另外这种输入发也要靠人工敲击按键实现操作。所以对大部分的普通用户来说其输入的效率是不够理想的。
第三类是系统把语音-字符输入和外加的非语音字符结合起来的输入法，把非语音加到语音符号上以来区别发音相同的字符。例子包括有字根标志的语音拼写(1985年11月20日授权的英国专利2,158,776)和带有笔画数的语音拼写(1992年11月25日授权的，中国专利1,066,518)。
这些方法要记住认为的规则或要求计算笔画数，后者明显降低了输入的速度。
第四类是美国国际商业机器公司IBM在中国申请的专利号为96105876.5，专利名为“处理中文文本的系统和方法”。这种输入法是将语音中文(拼音和BPMF)输入计算机并转换成汉字形式。该系统带有发音符号键(以及对应的ASCII编码)的新颖键盘，从而允许用户利用指示音节声调的发音符号注释各个所输入的语音文本音节。该系统基于中文汉字读音和汉字读音声调相结合的输入方式，他提供了一种比较详细的解决汉字输入的方式，理论上看是要比前面几种输入方式更有效，如果按照这种输入方式一个一个的输入中文汉字，那么准确率会较高。但是实际上此输入方式是缺少对中国人民使用汉字的习惯的了解，因为中国的大部分人在日常使用普通话过程中很少考虑中文字的声调，对大部分的普通用户来说很难去适应这种使用方式。这么一种不适应中国大众使用习惯的输入方式对中国人来说其输入效率是很低的。
有关于中文语音输入转换成中文文本的方式，中国专利局授予诺基亚有限公司专利号为02106017.7，发明名称为“短信息消息业务方法、装置及系统”。这个发明主要解决的问题是发送短语音消息的解决方案。在这份专利文件里面提到可以把短语音信号存储在手机里，通过语音识别软件把口述的语音信号转换成文本，内容里仅仅是提到用语音识别软件翻译，没有公布出如何识别翻译的技术方案。

发明内容为了克服现有技术语音转换为文本效率低的技术问题，本发明提供一种可为高效实现语音换为文本提供基础的语音字典形成方法。
为了克服现有技术语音转换为文本效率低的技术问题，本发明提供一种可高效实现语音转换为文本的语音识别方法。
为了克服现有技术语音转换为文本效率低的技术问题，本发明提供一种可高效实现语音转换为文本的语音识别系统。
本发明解决上述第一技术问题所采用的技术方案是提供一种语音字典形成方法，包括A、整理日常生活中常会组合在一起使用的文字；B、将所述文字的标准读音通过音节代码存储。
本发明解决上述第二技术问题所采用的技术方案是提供一种语音识别方法，包括A、输入语音；B、进行语音分析，比对输入语音形成的代码和语音字典里的语音代码，所述语音字典里的语音代码是通过存储日常生活中常会组合在一起使用的文字的标准读音而得到；C、输出比对所得到语音代码的对应文本。
本发明解决上述第三技术问题所采用的技术方案是提供一种语音识别系统，包括顺序连接的语音输入模块、语音识别模块和输出模块、以及安装有语音字典的标准语音模块，语音识别模块和所述标准语音模块连接，其根据每个字或几个字的读音给出相应可供选择的文本，所述语音字典里的语音代码是通过存储日常生活中常会组合在一起使用的文字的标准读音而得到。
相对于现有技术，本发明语音字典形成方法的有益效果是由于一、大部分人对文字的记忆是通过记住文字读音来实现，大部分人在日常的语言交流中很少有声调的概念；二、大部人对单个字的含义的意识比较弱，在日常的语言交流大部分是都通过短语、句子来实现沟通的。本发明就是基于人们使用语言的上述习惯，把日常生活中常会组合在一起使用的文字的标准读音存储成语音字典，按照日常生活中的语言使用习惯向系统输入准确的读音，只要输入的语音符合语音字典里对应常用词或句的读音，就可以识别出输入的语音，转换成相应的文本，大大地提高语音转换成文本的速度。
相对于现有技术，本发明语音识别方法的有益效果是由于一、大部分人对文字的记忆是通过记住文字读音来实现，大部分人在日常的语言交流中很少有声调的概念；二、大部人对单个字的含义的意识比较弱，在日常的语言交流大部分是都通过短语、句子来实现沟通的。本发明就是基于人们使用语言的上述习惯，把日常生活中常会组合在一起使用的文字的标准读音存储成语音字典，按照日常生活中的语言使用习惯向系统输入准确的读音，只要输入的语音符合语音字典里对应常用词或句的读音，就可以识别出输入的语音，转换成相应的文本，大大地提高向手持移动终端或计算机输入文本文字的速度，不需要现有技术配合键盘输入的复杂的方法。
相对于现有技术，本发明语音识别系统的有益效果是由于一、大部分人对文字的记忆是通过记住文字读音来实现，大部分人在日常的语言交流中很少有声调的概念；二、大部人对单个字的含义的意识比较弱，在日常的语言交流大部分是都通过短语、句子来实现沟通的。本发明就是基于人们使用语言的上述习惯，把日常生活中常会组合在一起使用的文字的标准读音存储成语音字典安装在标准语音模块里，按照日常生活中的语言使用习惯向系统输入准确的读音，只要输入的语音符合语音字典里对应常用词或句的读音，就可以识别出输入的语音，转换成相应的文本，大大地提高向手持移动终端或计算机输入文本文字的速度，相对现有技术配合键盘输入的复杂系统，本发明语音识别系统简单高效。

图1是本发明语音识别系统的电路示意图2是本发明语音字典形成方法的流程图；图3是本发明语音识别方法的流程图。
具体实施方式
下面结合附图和实施方式对本发明进一步说明。
参见图1，本发明语音识别系统100包括顺序连接的语音输入模块10、语音转换前处理模块20、语音识别模块30、语音后处理模块40、语音数据转换成文本数据库模块60、存储模块70和输出模块90。还包括标准语音模块50和文本处理模块80，语音识别模块30和所述标准语音模块50与语音数据转换成文本数据库模块60连接，文本处理模块80连接存储模块70。
语音输入模块10把语音输入系统；语音转换前处理模块20用以去除噪音，进行语音分析；语音识别模块30配合标准语音模块50根据每个字或几个字的读音给出相应可供选择的文本；标准语音模块50安装有语音字典，所述语音字典里的语音代码是通过存储日常生活中常会组合在一起使用的文字的标准读音而得到。
语音后处理模块40根据前后不同间隔的语音对比，进行语法、语义分析，找出最合乎逻辑的词；语音数据转换成文本数据库模块60通过存有语音词典的标准语音模块50把输入的语音转换成文本，提供文本特征数据；存储模块70将语音转换成文本的数据存储；文本处理模块80对存储模块70里给出的文本进行修改、移动、复制等等文本编辑操作；输出模块90则将语音转换成文本的数据按所要求的格式输出。
本发明可应用于中文汉字输入手持移动终端或计算机文字输入等需要文字输入的设备。以下以中文汉字输入手持移动终端为例，具体说明本发明。
首先，形成语音识别所需要的语音字典(参阅图2)，包括步骤A、整理日常生活中常会组合在一起使用的中文文字701；B、将所述文字的标准普通话读音通过音节代码存储702。
这套语音词典的结构编排上根据中国人使用中文的习惯排列。这种使用习惯指的是在当代中文汉语已经形成约定成俗的短语、成语、典故、名人名字、名人名句、著名的地名、学校名、风景区名、句子等等凡是在日常生活中常会组合在一起使用的中文汉字。
所述中文语音音节代码的存储方式都以一个单位(一个单位指的是一个代码串)方式存储。例“中国”就把中国两个字的读音音节代码存储成一个单位；“乘风破浪”就把乘风破浪四个字的读音音节存储成一个单位；“三人行，必有我师”把三人行，必有我师七个字的读音音节存储成一个单位；“志当存高远”把志当存高远存储在一个单位；“诸葛亮”把诸葛亮存储成一个单位等等。这种结构的排列会大大的提高工作效率。然后，在词典中文语音音节代码排列上根据使用习惯分成不同的组别，每个组别的排列的秩序默认为根据日常使用的频率排列，使用频率越高地越排列在前面。例如输入“乘风破浪”四个字的读音，系统提供的供选择的文本是从所有四个字组成的代码串里选择与“乘风破浪”最接近的读音，越接近的越排列在前面。同时也有一组所有词典里的汉字都以单个字为一个单位存储的组，以备单个字音的输入。
语音词典是标准的普通话口语语音，语音识别兼容男女老少不同的声线、音量。假如使用者不会说普通话语音，系统仍然根据中文语音词典音节对输入的“方言语音”音节按中文语音词典音节进行语音翻译转换成文本，掌握该“方言语音”的人能看明白该文本。
其次，进行语音识别(参阅图3)。一句语音输入手持移动终端或计算机后，几秒钟(用户可以根据需要调整系统设置的时间)后系统自动进入默认为对输入的语音音节进行文本转换801。也可以通过一个向系统输入一个命令来执行，其方法流程如下A、输入语音802，按确认键让系统确认要处理的″数量″803，由语音输入模块10完成B、进行语音分析，比对输入语音形成的代码和语音字典里的语音代码，包括子步骤b1、噪音处理804，由语音转换前处理模块20处理；b2、进行语音分析、语法分析和语境分析805～807，由语音识别模块30处理；b3、比对输入语音形成的代码和语音字典里的语音代码，由语音识别模块30处理；b4、语音数据转换成文本数据，由语音数据转换成文本数据库模块60处理。
b5、判断是否几个语音连接808，如果是，进行动态优化切分809，如果否，跳到步骤C；C、输出比对所得到语音代码的对应文本，包括子步骤c1、输出模块90的屏幕显示输出比对所得到语音代码的对应文本和相应的操作命令，文本排列顺序按使用频率高低前后排序810；c2、手动确认选项811；
c3、利用文本处理模块80进行编辑文本812、发送并存储文本813、直接存储文本814或直接发送文本815的其中一种，如果是进行编辑文本812，跳到子步骤c4，如果否，则结束；c4、直接存储文本816或直接发送文本817。
本发明巧妙地利用人们使用语言的习惯，把日常生活中常会组合在一起使用的文字的标准读音存储成语音字典，按照日常生活中的语言使用习惯向系统输入准确的读音，只要输入的语音符合语音字典里对应常用词或句的读音，就可以识别出输入的语音，转换成相应的文本，大大地提高向手持移动终端或计算机输入文本文字的速度，不需要现有技术配合键盘输入的复杂的方法。
相对现有技术配合键盘输入的复杂系统，本发明不需要特定的键盘配合，语音识别系统简单高效。相对于现有技术基于语音字符输入和外加的非语音字符结合起来的输入法，本发明不需要外加非语音字符结合，因而简单高效，因为现有技术要记住认为的规则或要求计算笔画数，后者明显降低了输入的速度。相对于现有技术基于中文汉字拼音的法则或把中文汉字分解成图形成分的方法，本发明使用语音输入，极大地提高文字输入速度，简单方便。人类在做一样事情时，在单位时间里他的注意力是有限的，本发明与以往的各种中文输入系统的方式相比，是最大限度的释放出手，我们只要把注意力集中在嘴巴的发音上，按照日常生活中的中文使用习惯向系统输入准确的读音，会大大地提高我们向手持移动终端或计算机输入中文的速度，尤其适合手机中文短信息的发送和网络上的中文短信息的交流。
上述的根据中国人民的使用中文的习惯，是指一、大部分中国大众(语言专业的人士除外)对中文的记忆是通过对记住中文读音，大部分人在日常的中文交流中很少有声调的概念，这符合我们的使用习惯；二、大部分中国大众(语言专业的人士除外)对单个的中文字的含义的意识比较弱，在日常的中文交流大部分是都通过短语、句子来实现沟通的，这也符合我们的使用习惯。
权利要求
1.一种语音字典形成方法，包括A、整理日常生活中常会组合在一起使用的文字；B、将所述文字的标准读音通过音节代码存储。
2.根据权利要求1所述的语音字典形成方法，其特征在于所述语音音节代码的存储方式都以一个单位方式存储。
3.根据权利要求2所述的语音字典形成方法，其特征在于在词典语音音节代码排列上根据使用习惯分成不同的组别，每个组别的排列的秩序默认为根据日常使用的频率排列。
4.一种语音识别方法，包括A、输入语音；B、进行语音分析，比对输入语音形成的代码和语音字典里的语音代码，所述语音字典里的语音代码是通过存储日常生活中常会组合在一起使用的文字的标准读音而得到；C、输出比对所得到语音代码的对应文本。
5.根据权利要求1所述的语音识别方法，其特征在于所述步骤B包括子步骤b2、进行语音分析、语法分析和语境分析；b3、比对输入语音形成的代码和语音字典里的语音代码；b4、语音数据转换成文本数据。
6.根据权利要求2所述的语音识别方法，其特征在于所述步骤B进一步包括子步骤b1、噪音处理；b5、判断是否几个语音连接，如果是，进行动态优化切分，如果否，跳到步骤C。
7.根据权利要求3所述的语音识别方法，其特征在于所述语音识别方法应用在文本信息发送装置中，步骤C包括子步骤c1、输出模块的屏幕显示输出比对所得到语音代码的对应文本和相应的操作命令，文本排列顺序按使用频率高低前后排序；c2、手动确认选项；c3、进行编辑文本、发送并存储文本、直接存储文本或直接发送文本的其中一种，如果是进行编辑文本，跳到子步骤c4，如果否，则结束；c4、直接存储文本或直接发送文本。
8.一种语音识别系统，包括顺序连接的语音输入模块、语音识别模块和输出模块、以及安装有语音字典的标准语音模块，语音识别模块和所述标准语音模块连接，其根据每个字或几个字的读音给出相应可供选择的文本，其特征在于所述语音字典里的语音代码是通过存储日常生活中常会组合在一起使用的文字的标准读音而得到。
9.根据权利要求8所述的语音识别系统，其特征在于进一步包括语音转换前处理模块，其连接所述输入模块和语音识别模块，用以去除噪音，进行语音分析。
10.根据权利要求9所述的语音识别系统，其特征在于进一步包括语音后处理模块、语音数据转换成文本数据库模块、存储模块以及文本处理模块，语音后处理模块连接语音识别模块，根据前后不同间隔的语音对比，进行语法、语义分析，找出最合乎逻辑的词，语音数据转换成文本数据库模块连接语音后处理模块和存储模块，通过存储语音词典的标准语音模块把输入的语音转换成文本，提供文本特征数据，存储模块连接输出模块和文本处理模块，将语音转换成文本的数据存储，文本处理模块对给出的文本进行修改、移动、复制。
全文摘要
本发明涉及一种语音字典形成方法、语音识别系统及其方法。该系统包括顺序连接的语音输入模块、语音识别模块和输出模块、以及安装有语音字典的标准语音模块，语音识别模块和所述标准语音模块连接，其根据每个字或几个字的读音给出相应可供选择的文本，所述语音字典里的语音代码是通过存储日常生活中常会组合在一起使用的文字的标准读音而得到。本发明基于人们使用语言的习惯，把日常生活中常会组合在一起使用的文字的标准读音存储成语音字典安装在标准语音模块里，只要输入的语音符合语音字典里对应常用词或句的读音，就可以识别出输入的语音，转换成相应的文本，大大地提高向手持移动终端或计算机输入文本文字的速度。
文档编号G10L15/00GK1901041SQ20051003599
公开日2007年1月24日申请日期2005年7月22日优先权日2005年7月22日
发明者林跃申请人:康佳集团股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林跃
技术所有人：康佳集团股份有限公司
我是此专利的发明人