计算机语音提示系统的制作方法

文档序号：6420886阅读：203来源：国知局

专利名称：计算机语音提示系统的制作方法
技术领域：
本发明涉及办公设备中的计算机，特别是计算机键盘及语音软件。
背景技术：
已有技术的计算机对于不能盲打(操作时不看键盘)的人来说，视线要在键盘和屏幕之间频繁的更换，这样一方面是眼睛容易疲劳另一方面也费时间，还有一个问题，在输入时有时输错了当时也不知道，在输入较长的数字时，有时输完以后需要核对一遍，以上输入方面的这两个问题主要是占用时间和眼睛容易疲劳。另一个问题是屏幕辐射对人体有一定的危害。再一个问题是语音的认读不易理解。

发明内容
为了解决上述问题，本发明的目的是提供一种视线可以不在键盘和屏幕之间频繁的更换的键盘，和输入与较对同时进行的方法，及便于听懂的语音软件。
为了达到上述目的，本发明是这样实现的，在键盘上设置一个小屏幕，显示在大屏幕上的内容同时显示在小屏幕上，因为所击的键与小屏幕同在一个视野之内，所以视线可以不在键盘和屏幕之间频繁的更换了；在屏幕上出现图像的同时，发音系统同时也发出相同内容的提示音；还有一个把连续录音切分成单音的软件系统。
这样既视线可以不在键盘和屏幕之间频繁的更换，又可以边输入边校对，同时提示音也容易听懂了。

图1是已有技术的计算机语音系统，读的一个短语的时间分布情况示意图。
图2是朗诵或口语时，读的与图一同一个短语的时间分布情况示意图。
图3是有小屏幕的计算机键盘的俯视图。
具体实施例方式
如图1至图3所示，现在的计算机的输入基本是这样的，键盘的信号传入中央处理器，中央处理器将处理过的信息再传入显示器，操作者根据显示的正误而决定取舍，由此看来输入过程中显示器的作用仅仅在于辨正误以定取舍上，计算机的键盘8横向共有六列，从空格键往上数第五列与第六列之间，有一个横向分格档9，将该分格档加宽至12毫米左右(以能满足需要为度)，在该分格档上设置一个长形的液晶屏幕，长形液晶屏幕的右端在输入汉字时是五个备选字屏幕11，备选字的左边是15个已确定字的屏幕10，备选字屏幕11与已确定字的屏幕10之间有一个分界线12，每增加一个新确定的字，已确定的15个字就依次向左移一个字位，新确定的这个字总是在15个字的最右端，将中央处理器发送到显示器的信号，同时发送到在分格档上设置的长形液晶屏幕上，因为长形的液晶屏幕就在所击的键的视野之内。所以随时可以辨正误以定取舍，而视线不用在键盘和屏幕之间频繁的更换，这样一方面解决了眼睛容易疲劳的问题，另一方面也节省了时间，还有在汉字输入中，虽然有时一个字要输好几个字母，但是有时只输了一个字母在备选框中就出现目的字，因为长形的液晶屏幕就在所击的键的视野之内，所以随时可以发现备选框中出现的目的字，立刻就可以确认，省去了以后的字母输入，因此而节省时间提高效率。如果把分格档上设置的长形液晶屏幕上右端的五个备选字框，每一个字框都做成一个独立的键或触摸屏，每一个字框键由左至右1、2、3、4、或5都和键盘第五列的1、2、3、4、或5相并联，在输入中文时直击备选字框中，所选中的字就可以了，这样就更快捷了，又根据在输入过程中显示器的作用仅仅在于辨正误以定取舍，而现在在分格档上设置的长形液晶屏幕完全能胜任这个任务，所以在输入时可以关掉显示器以减少辐射。
在当前的输入法中，预期的使用者都是熟练掌握键盘指法，并仅仅输入现代汉语的用户。在这种情况下，指法不熟练的人和想输入古汉语的使用者感到输入法有极大的不方便。下面的技术采用科学的统计方法，并重点在确认文字的方式上进行了改良。
本方法采用基于语用统计的智能输入为内核，其原理是主要利用语用统计的数据来消化同音字、词，以及化解歧义分词。在学科分类中属于运筹学范畴。使用概率统计运筹决策的方案很多，本方法通过统计字字相关的同现概率矩阵来完成汉语语用统计库结构，这个矩阵的大小是固定不变的，只与字符集的大小有关。在使用中，要求用户在使用之前尽量提供已有的输入材料，或者相关的资料，以提前训练字库，避免了常规方法在开始阶段，判误率高的问题，为不熟练的使用者节省时间。通过搜索大量语料，系统给出了一个N×N的同现概率矩阵。该设计根据分词后的输入语句查找知识库，用句法、词法、语义和自定义的规则作为制约对文章进行解析推理，当存在同音词时，采用最优评价法来确定最佳选择作为转换结果。同音词的评价值，需要考虑词性、同现概率、近期使用状况等因素。具有最优评价值的选择即为转换结果。当具有最优评价值的第一选择并非目标选择时，人工修正被记录，作为下次转换时修改计算评价值因素的依据，也就是自学习功能。本方法的另一优势在于降低键选率，当输入不熟练时或者输入古文时，用户不会进行连续输入。这样，本方法最多允许用户输入两个未确定汉字(输入窗口为两个汉字)。在输入确认上，系统同步输出输入汉字的读音，比如输入“han”，系统会朗读“汉字、寒冷”等一系列以“han”开头的字。如果用户听到的和想输入的字相同，直接点击小键盘区的任何键。系统便停止朗读，此时用户可以调整输入的字，方法是将键盘划分为两个区域，左区域和右区域，区域的划分以键盘输入法的左右手输入区域划分。用户如想调整为上一个朗读的字，便用左手的任意两个手指同时敲击左区域，无论敲击到哪两个左区域的键都可以。同理，选定下一个的时候，用右手同样操作。这样，大大简化了选字的难度。如果在设定的时间之内，用户没有进行左右区域的双键选定，该汉字就算选定，输入窗口继续向前移动。
还有一个最重要的问题就是计算机读出的音不易听懂，本发明用一种连续录音单个切分的方法，及语言环境识别等，向正常的朗诵和口语靠拢，如图所示，图1是计算机读的一段短语，图2是用口语较慢速度读的同一段短语，从图1与图2所用的时间来看相差不多，图1所用的时间1，不包括最后的句号，图2所用的时间与图1同，它包括了最后的句号，究其计算机读出的音不易听懂的原因，第一个原因是现在计算机读出的音它的时间间隔是一样的2，并且是两字之间有一个很小的无音的时间4，而我们在朗读、口语时语音的间隔是不一样的5，第二个原因是计算机它把逗号句号等都视作无有不占时间3第三个原因是它只读标准音，不单是不读出语气而且也不读轻音和儿化音，这就是计算机读出的音不符合我们的习惯，因为计算机读出的音与我们的习惯相去甚远，所以我们就很难听懂，要想让人便于听懂，就必须向人的口语靠拢。我们的口语和朗诵如图2所示每一个字不但所占的时间不同，而且大多数的字是连在一起的6，也就是只有口舌形状的变化，而声带的振动始终并没停顿，由于要表现悲欢怒忧所以它就得有抑扬顿挫，以前的录音都是一个字一个字的录的，每一个字声带是振动一次停一次，所以无论怎么读他也是一个一个的，怎么也连不到一起，因为不符合习惯所以就很难听懂，本发明改变这种录法，用一种新的方法，在口语方面在连续剧的录音中选取老年男、女，青年男、女，儿童、小孩各一名，如果要计算机读出感情来，那就要再选择一些富有感情色彩的录音，把重复的地方去掉以后，再按图2每个字所占的时间的之间进行切分的方法，把每一个字都切成一个小单元，并且是逗号、句号都占一个字音的时间7，当用的时候再把他们组合起来，就靠近一般的口语了；朗诵方面也是一样把中央台的录音选择一男一女，按以上办理就可，按照以上的方法办理后，还得借助例如紫光一类的语言环境识别软件，对语言环境进行分析，按照分析的结果去组合句子，这样组合出来的效果可能就更靠近人的自然口语和朗诵了。
还有几个配合连续录音单个切分的方法，向自然口语和朗诵靠拢地方法，就是对多音字、轻音子、儿化音字、页面认读的处理，从以上可以看出辨正误以定取舍的任务完全是用视觉来完成的，总之无论是屏幕图像还是输出的纸件都是以视觉去感知，而视觉有一个局限性就是它只能是择一的，也就是看原件的同时不能看新件，要想核对文件，视线就必须在原件与新件之间往复，本发明将提供一种听觉感知系统，根据经验一个人看原件另一个人读新件，这样的校对速度大于一个人的两倍，也就是1+1＞2的现象，这说明了听觉在这方面的作用，本发明意在使计算机输出便于听懂的听觉信号，使我们的听觉也参与进来以提高工作效率，本发明是这样实现的刻槽录放音是人类地第一次录放音，磁带录放音从录放音的角度来说没有改变，但是从技术角度来说它是一个崭新的技术领域，本技术是把音素输入计算机使它认读所有的字，包括汉语拼音的字母，例如A就读作“啊”，汉字共有音节420多个，音节又分阴平、阳平、上声、去声、轻声声调，每个音节中可能有一至五个声调，不过以上轻声音调中不包括在特定环境中的轻声例如“爸爸”二字的第二个爸字和第一个爸字一样收在去声音中，而不是收在轻声音中，虽然在注释中提到“爸爸”二字在连读时第二个爸字读轻声，但是在音序中并没有它的位置，按下边阐述的依音序给音素代码的方法第二个“爸”字是得不到轻声音序代码的，所以在本方案中还得加一些轻声音素代码，本方案是在1979年版《辞海》的汉语拼音索引的基础上，再增加轻声、儿化音的，共有音素1240多个，也就是说无论是多少字多少书都可以用这1240个音素读出来，既使是新字也能读出来，因为汉字是造字不造音，你只要造出字来就必有名称，名称就是音素，这样只要把音素输入计算机它就可以读所有的计算机文件，这就好象五笔字形输入法的五笔字形能输入所有的字，并且可以反复使用而用之不竭一样，又和四角号码的10个号码一样能代表所有的字，不过五笔字形和四角号码都有不确定的时候，而音素认读就没有这个问题，1240个音素可用汉语拼音的顺序的序号来作为该音素的代号码，也就是每一个音素有一个唯一的代号码，但是这个音素可代表若干个相同音、调的不同的字，以上是按1979年版《辞海》的汉语拼音索引的顺序，与自然数的顺序相结合的方法，另一种方法是以常用音素在先，不常用音素在后的方法把所有的音素排成队，再与自然数的顺序相结合的方法。
对多音字，轻音字、儿化音字的处理方法是，在多音字方面把一个多音字的几个音进行比校，按常用的音在前不常用的音在后的原则进行排队，第一常用的音不作标记，第二个音在该字的左上方加一个点，第三个音在该字的正上方加一个点，第四个音在该字的右上方加一个点，第五个音在该字的左上方和右上方各加一个点，第六个音在该字的左上方、右上方和正上方各加一个点共三个点，如果该文件是用拼音输入的，计算机会根据这个多音字的输入音去认读，再按常用的音在前不常用的音在后的原则进行排队的次第，进行标记在文件里，在读该文件时，计算机会根据这个多音字的标记读它的相应的音；轻音字方面作为称谓的“爸”“哥”又没有其它函意的字，在它们重叠时第二个字读轻音是恒定的，所以可以给重叠的第二个字一个音素代码，也可以把作为称谓的“爸”“哥”等没有其它函意的字，输入计算机当计算机读到这些字重叠时就自动把重叠的第二个字读作轻声，其它的重叠字是否读轻音要因语言环境而定，一般的情况下名词、动词重叠时第二个字是轻音，形容词重叠时第二个字不读轻音，例如“丽丽渐渐胖了”第二个丽字是轻音，第二个渐字不是轻音，这就要让计算机识别语言环境，对名词、动词重叠时的第二个字读轻音，对形容词重叠时的第二个字不读轻音，不过这个例子并不绝对恒定，或者是在输入时就给轻音字做上标记，计算机见到标记就读轻音；儿化音方面儿化音完全是依语境而定一般的，名词后边有儿是儿化音，动词后边的儿不是儿化音，例如“花儿的钱买红花儿”中的第一个花字是动词它后边地儿不读作儿化音，第二个花字是名词所以读作儿化音，把儿化音的语境输给计算机使计算机根据语境读出儿化音来，也可以在输入文字时给儿化音的字输上标记。
如果文件在输入时没有做多音字、轻音字、儿化音字的处理，计算机在读的时候，读多音字的不作标记的第一常用音，遇有轻声和儿化音的字的时候，除了有特定组合的已经给出了音素代码的，读该音素代码的音以外，其它的都读该字的标准音，如果打算让计算机把该文件的多音字、轻音字、儿化音都读出来，就得做一下预处理，可目览可听读也可以听读和目览同时进行，当发现应该校正的多音字时，就输入你认为正确的拼音，计算机会给该字做出相应的标记，以后计算机就会按新输入的拼音认读，当发现该读轻音或儿化音的字的时候，就给该字标上相应的标记，以后计算机就会按新的标记读出轻音或儿化音，不过轻音、多音或儿化音在输入时就可方便的标注或是应该标注。
以上是文字方面的认读，接下来是页面情况的认读，页面情况包括字体、字号、布局、标点符号，在字体方面让计算机可以认读所有的字体例如仿宋、楷书、粗体等，字号方面让计算机可以认读所有的字号，例如三号、七号、八号等，在布局方面让计算机可以认读页面的情况例如标题的位置、空格、空行等，在标点符号方面让计算机可以认读所有的标点符号，例如逗号、句号、括号、书名号等，有一点与众不同的读法是，对“(、“、《”等原来就读作括号、引号、书名号现在在它的前边加一个“前”字，读作前括号、前引号、前书名号，与此相对应的就读作后括号、后引号、后书名号，凡是前后对称的符号在读的时候均把前、后的位置读出来，遇到逗号、句号、顿号、问号、感叹号均做停顿。
另外在语音输入中辨认是最大的问题造成不确定性，而本技术的语音输出就象出纸件一样的确切可靠。以上是语音系统软件的编写方案。
下边谈软件的使用，在输入文字方面；键盘连着语音系统，每击一次键在屏幕上出现图像的同时也发出相应的声音，例如在汉语拼音输入中击A键时，在屏幕上出现图像的同时也发出相应的“啊”的声音，在屏幕上出现目的字的图像的同时也发出目的字相应的读音，以随时校正输入的错误，这个方法对专业熟手来说没什么意义，而对老人、生手是非常有用的，不过，在输入数字时这个方法对盲打高手也是有用的，例如在输入身份证号、账号时，眼看到原件的数字时手就击出，也就是我们通常所说的眼到手就到，虽然看与击是有先后的但是我们在感知上分不出来，在屏幕上出现该数字的图像的同时也发出该数字相应的声音，这样在输入的同时也做了校对；在校对全文和听读及听觉浏览方在读文件时本软件可读出三个层次，第一个层次是读没有经过本方案“多音字、轻音字、儿化音字”处理的文件，对多音字读它的最常用音，对轻音字读它的标准音，对儿化音字读它的标准音，遇到逗号、句号、顿号、问号、感叹号均做停顿，第二个层次是读经过本方案“多音字、轻音字、儿化音字”软件处理的文件，它将把多音字、轻音字、儿化音全读出来，遇到逗号、句号、顿号、问号、感叹号均做停顿，第三个层次是专为校对文件设计的，它是在第二个层次的基础上再加上把页面的情况都读出来，也就是见什么读什么，例如见到“，”号，就读做“逗号”见到“。”号就读做“句号”见到“(”号就读做“前括号”见到空格、另起行、标题的位置等都读出来。
根据以上的功能在茶、酌、踱、卧时均可听计算机读文件，用听觉上网浏览，再就是在听计算机读文件，用听觉上网浏览时，均可把显示器关掉。
权利要求
1.一种计算机语音提示系统，其特征是提前输入一些以前输入的材料，减少了系统自学习的时间。
2.如权利要求1所述的计算机语音提示系统，其特征是输入窗口只设定为2个汉字。
3.如权利要求1所述的计算机语音提示系统，其特征是小键盘、左右区域的选定方法，使得用户不必再去找某一个键，而是直接敲击一个区域，简单省事。
全文摘要
本发明涉及办公工具中的计算机，特别是计算机语音提示系统，本方法采用基于语用统计的智能输入为内核，其原理是主要利用语用统计的数据来消化同音字、词，以及化解歧义分词。在学科分类中属于运筹学范畴。使用概率统计运筹决策的方案很多，本方法通过统计字字相关的同现概率矩阵来完成汉语语用统计库结构，这个矩阵的大小是固定不变的，只与字符集的大小有关。在使用中，要求用户在使用之前尽量提供已有的输入材料，或者相关的资料，以提前训练字库，避免了常规方法在开始阶段，判误率高的问题，为不熟练的使用者节省时间。通过搜索大量语料，系统给出了一个N×N的同现概率矩阵。这样输入就快多了。
文档编号G06F3/023GK1670671SQ20031011783
公开日2005年9月21日申请日期2003年12月22日优先权日2003年12月22日
发明者陈秀英申请人:陈秀英

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈秀英
技术所有人：陈秀英
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。