汉语语音码多样网页信息搜索转换翻译方法

文档序号:6530497阅读:418来源:国知局
专利名称:汉语语音码多样网页信息搜索转换翻译方法
技术领域
本发明是一种能够用于计算机或嵌入式计算机系统(以下简称为计算机或计算机系统)的汉语语音码多样网页信息搜索转换翻译的方法,属于计算机网页信息处理技术领域。
背景技术
二十世纪四十年代起,计算机的飞速发展在全球范围内引起了一场以电子计算机为中心的第三次技术革命,它把人类从繁重的脑力劳动中解放出来,开创了人类智力解放的新纪元。众所周知,计算机是通过处理各种符号,特别是通过处理1 个ASCII码的方法来进行各种字符信息处理的,由于26个拉丁字母包含在1 个ASCII码的码符集内,因此,使用沈个拉丁字母以英文为代表的的拼音文字的国家能够顺利地进行这次新技术革命,从飞跃发展的经济中得到好处。由于我国记录汉语使用的是方块表意汉字或汉语拼音,众所周知方块表意汉字的计算机机内码不在1 个ASCII码的码符集内,而《汉语拼音方案》中的汉语拼音(以下简称汉语拼音)还存在几个不便于计算机信息处理的弊病,比如第一拼式太长,第二五个声调(含一个轻声)没有字母化且不在ASCII码的范围内,第三汉语单词音节的声、韵、调没有便于计算机信息处理的从左到右的一维线性排列,而是上下排列,第四如果没有非字母化的汉语拼音隔音节符号的隔音节帮助,汉语拼音在以词为单位连写时,音节和音节之间往往容易发生混淆,产生混音现象。所有这些都不便于计算机对汉语信息的处理。由于汉字和汉语拼音自身的这些不足,使得它们不能作为一种拼音文字,目前所有汉语信息网页只能用汉字或汉语拼音表示,由于汉字和汉语拼音与ASCII码不能100%兼容,使得用汉字或汉语拼音表示的汉语信息的网页不能在纯西码计算机系统中显示和运行,要解决这个问题必须首先要发明一种用26个字母拼写汉语的编码技术,其次由于目前汉字是表达中国汉语信息的主要手段,汉语拼音是表达中国汉语信息的辅助手段,为了将大量现存和每时每刻新产生的用汉字和汉语拼音表示的汉语信息的网页,能够在纯西码计算机系统中显示和运行,有必要发明一种将汉字和汉语拼音表示的汉语信息网页,通过计算机系统应用软件自动翻译成用26个拉丁字母表示的汉语信息或以英文为主的外文网页,必要时这个网页还能以汉语普通话、汉语特定人、中国方言、少数民族语言或以英文为主的外文朗读出来。对用沈个拉丁字母表示的汉语信息的问题,众多专家,学者在这方面进行了研究和探索,但是由于汉语是一种有声调的非常特别的语言,要想用且仅用沈个拉丁字母,就能够对包含汉语的22个声母(含一个零声母),38个韵母,5个声调(含一个轻声)进行编码,而且为了让任意多的音节被连写在一起后,音节与音节之间不能发生混淆,产生混音现象,每一个音节里还必须隐含一个隔音节符号,这样就使得该技术方案的难度非常大,这也是长期以来这个问题一直没得到有效解决的根本原因。由于长期以来未能发明出用沈个拉丁字母表示的汉语信息的方法,因此,更没有人能够发明出建立在这基础之上的用26个拉丁字母表示的汉语信息网页,通过计算机系统应用软件自动翻译成用26个拉丁字母表示的汉语信息或以英文为主的外文网页,必要时这个网页还能以语音方式朗读出来。目前市场上出现的金山公司与谷歌合作,联合推出的《谷歌金山词霸》网页翻译软件和“一搜”推出的具有网页翻译功能的软件,应该说都为互联网的翻译技术的发展起到了很好的推动作用,但是包括上述两款软件在内的所有的网页翻译都是用汉字或汉语拼音表示的汉语信息来与外文进行翻译,而汉字或汉语拼音表示的汉语信息与ASCII码系统不 100%兼容,无法在西方纯ASCII码系统的计算机中显示和运行。

发明内容
本发明的目的是提供一种全新的,在将网页中的汉字、汉语拼音可逆地转换成一种用且仅用沈个拉丁字母以词为单位的汉语语音码的方法的基础上,再结合汉语或外语语音合成模块、汉语语音码与外文双向机器翻译模块和汉语语音识别模块来解决以上汉语信息不能在纯西码系统的网页中显示、翻译、语音合成或语音识别等问题。具体来说本发明方法所采用的汉语语音码,它用且仅用沈个拉丁字母作为码元, 以词为单位,采用按词连写的方式,对组成词的每一音节的汉语拼音的声、韵、调先进行编码转换,再依照“声码+介码+韵码+调码兼隔音节符号”的顺序进行编码。由于沈个拉丁字母属于1 个ASCII码码符集范围内,因此,一旦传统用于表示汉语信息的汉字或汉语拼音转换成该种汉语语音码后,世界上一切用于处理西码的包括网页和浏览器在内的所有软硬件资源都可以用于显示和处理汉语语音码所表达的汉语信息。
具体实施例方式下面结合实施例对本发明的具体实施方式
作进一步的说明。(一 )所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法注括号内的符号均为《汉语拼音方案》中的汉语拼音符号,以下简称为汉语拼音符号,不带括号的字母为本方案所采用的汉语语音码的每一音节声、韵、调的编码符号,以下将下列对照表简称为码表;1、声码的编码符号采用与汉语拼音方案基本一致的声母的字母符号,比如采用下面这种声码的编码形式b :(b) ρ: (ρ) m :(m) f (f) d (d)t (t)η :(n) 1:(1) g (g) k (k) h (h)j (Zti),(j) q (ch),(q) χ (sh) , (χ) r (r)ζ: (ζ) c: (c) s: (s) y (y) w (w)2、汉语拼音介母(U)采用沈个拉丁字母中的一个字母表示,比如采用下面这种介码的编码形式i (i) u (U) y (U)3、韵码的编码,对单韵母除(U)采用沈个拉丁字母中的一个字母表示外,其它采用与汉语拼音相同的字母符号,汉语拼音的复合韵母只要是采用辅音字母来编码都是可以的,比如采用下面的这种字母符号来对汉语拼音的韵母进行编码
a (a) ο (ο) e (e) i (i) u (u) y (U)k (ao) c (ai) s (an) χ (ou) w (ei) η (en)ζ (ua) 1 (uo) b (ang) d (ong) ρ (eng)q (ing) g (ng) er (er) (er 为无声母韵母)r:(i)[只与(zh)、(ch)、(sh)相拼]4、调码的编码除采用一个汉语不用的辅音字母ν表示汉语拼音的上声(V )夕卜, 其它采用元音字母来表示汉语的声调,比如采用下面的字母来对汉语拼音的声调进行编码a (-)阴平 e (/)阳平 ν ( V )上声 u (\)去声ο (不标)轻声( 二 )利用上述编码的汉语语音码汉语信息表示采用如下的方法以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开,当汉语信息表示处于汉语语音码状态时,其六种点号,七种标号和一个移行号采用与英文相同的形式;这里由于将独立运用的汉字看作单音节词,因此,本发明所采用的汉字编码的方法和汉语单词音节编码的方法相同,在本发明中采用单词音节编码按词连写后得到单词编码,我们将由若干个单词组成的一组词称为词组,本发明所采用词组的编码同汉语句子的编码相同,由于单词可以表示词组和汉语句子,因此在本发明中所采用的词组的编码和汉语句子的编码都可以通过单词的编码实现,而不需要对词组和汉语句子另外制定一套专门的编码,一般在整句整篇以词为单位表示汉语信息时,在理解时一般不需要进行同音字词的选择,原则上听起来不会产生歧义的句子,用编码表达时也不会产生歧义。下面例举一些用本发明方法对在网页中以词为单位的汉字或汉语拼音与汉语语音码进行双向转换时的例子当需要将用汉字或汉语拼音表示的汉语信息的网页转换成汉语语音码表示的汉语信息的网页时,计算机系统首先找到该网页的源文件,对该网页会显示的汉字或汉语拼音表示的汉语信息内容进行变换,比如以计算机扩展名为“.html”或“.hml”的文本文件的网页源代码为例,通过调用汉字或汉语拼音转换成汉语语音码的双向转换模块,将该网页源代码文本文件中除作为文件名的汉字和作为汉字字体名称的汉字外的所有汉字或全部汉语拼音转换成汉语语音码便可,比如对下列以计算机扩展名为“.html”的文本文件的网页源代码进行变换<html><head><title>test</title></head><body><b>我们会使用汉语拉丁文。</b>
</body></html>1、将网页中需要转换的汉字和汉语拼音转换成汉语语音码(1)对网页中需要转换的汉字,首先将汉字通过查预先储存在计算机系统中的《汉字与汉语拼音对照表》的方式转换成对应的汉语拼音比如上述网页的源代码文件中“我们会使用汉语拉丁文。”就是网页中会显示的汉字,需要转换,转换成拼音后成为w omen huishiyong hany u lading wen。对由汉字转换过来的或原有的汉语拼音则通过以上汉语拼音和汉语语音码码表对照表将汉语拼音转换成如下汉语语音码串。wov mno huiu xrv ydu hsu yyv Iaa dqa wnv.(音节和音节之间用空格隔开)^ wovmnohuiuxrvyduhsuyyν 1 aadqawnv.(音节禾口音节之间不用空格隔开)(熟练后nm2中的轻音符ο在不引起混音时可以省略,以上以下均同。)为了让大家看清楚,这里将表示声调的字母加了下划线,语音码中的声调字母同时具隔音节作用,实际语音码中声调无下划线,熟练语音码后,声调兼隔音节符能够方便地将字母串中的每一个音节分隔区分出来。(2)将语音码串进行分词切割,最终完成语音码转换。通过查找预先储存在计算机系统中,分好词的汉语语音码单词词库,将同一个单词的多个音节连写,词与词之间用空格隔开便得到以下我们最终需要的汉语语音码wovmno huiu xrvydu hsuyyv 1aadqawnv.(3)最后再用这些汉语语音码在原来网页中的汉字的位置替换掉被转换了的汉字,便完成网页中的汉字转换成网页中的汉语语音码的工作,在原来网页显示汉字我们会使用汉语拉丁文。的地方,此时会显示wovmno huiu xrvydu hsuyyv !aadqawnv.为叙述方便文中将网页中会显示的内容加下划线表示(以上以下均同)。转换后的网页源代码为<html><head><title>test</title></head><body><b>wovmno huiu xrvydu hsuyyv 1aadqawnv.</b></body></html>另外在网页的源代码中;“type = botton Value =汉字”中的汉字,由于会显示出来,因此,也需要转换。对网页中的源代码中注释部分的汉字可以转换也可以不转换,因为它不会显示出来,一般除文件名和汉字字体名外网页源代码中<body>和</body>之间不在 中的汉字内容需要转换。比如上例中的“wovmno huiu xrvydu hsuyyv 1 aadqawnv. ”
8
在将汉字网页转换成汉语语音码表示的网页时,原来网页中的英文、英文字母、阿拉伯数字、西文标点符号、移行号不需要转换,保留原样。2、汉语语音码转换成汉字和汉语拼音同理,当需要将用汉语语音码表示的汉语信息的网页转换成汉字或汉语拼音表示的汉语信息的网页时,计算机系统首先找到该网页的源文件,对该网页会显示的汉字或汉语拼音表示的汉语信息内容进行变换,比如以计算机扩展名为“.html”或“.hml”的文本文件的网页源代码为例,通过调用汉语语音码转换成汉字或汉语拼音的双向转换模块,将会显示的汉语语音码转换成汉字或全部汉语拼音便可,必要时也可以将作为文件名的汉语语音码转换成汉字,对转换成的或原来就是汉语语音码表示的网页,由于汉语语音码有自己的特征,判断出是汉语语音码后即可以进行转换,由于汉语语音码根据其编码规则最后是调码,而调码采用a ㈠阴平e (/)阳平ν ( V )上声u ⑴去声ο (不标)轻声这几个字母,在调码前面是声码和韵码,有时还有介码,由于复合韵母用一个辅音字母表示,因此、 对每一个汉语语音码音节除调码外,前面还有2-3个字母,考虑到汉语音节有时会出现零声母的情况并为保险起见,下限放到1个字母上限放大到4个字母,也即当一个单词出现最后是以a、e、ν、U、ο之一结尾,且从每个单词的从右到左数起,不包括最后的调码每隔1-4 个字母重复出现a、e、ν、U、ο之一字母,基本可以断定这是个汉语语音码单词,特别是一个句子或语段里的单词都出现这个特征时基本可以肯定这是汉语语音码单词或由它组成的句子或语段,比如“wo;pin2huiii xrvydu hsuyyv laadqawnv. ”中下划线的字母就是每一个音节的调号,都呈现了这样的规律,因此是汉语语音码句子,而不是英文等外语句子,属于需要转换的汉语语音码。确认网页中用沈个拉丁字母组成的字符串是汉语语音码表示的汉语信息后,通过分别查找预先储存在计算机系统中的汉语语音码与以词为单位的汉字和汉语拼音对照表,可以方便地将汉语语音码转换成汉字和汉语拼音,比如网页中显示的是下列用汉语语音码表示的汉语信息wovmno huiu xrvydu hsuyyv laadqawnv.wovmno通过查声码、介码、韵码、调码与汉语拼音对照表或根据该对照表生成的汉语语音码音节或单词与拼音音节或单词对照表得到Wmen,再通过w0men查找到以词为单位的汉字,当以单词为单位的语音码通过以单词为单位的汉语拼音与以单词为单位的汉字建立对应关系后,一旦需要以单词为单位的语音码可以不再需要通过以单词为单位的汉语拼音,直接与以单词为单位的汉字建立对应关系并实行相应的转换。比如 wovmno可以转换为w0men,再通过w0men可以转换成“我们”,这样wovmno和“我们,,便直接建立了对应关系,需要时可以不通过汉语拼音w0men进行转换,而直接在wovmno和 “我们”之间实现双向可逆转换。采用同样的方法我们可以将剩余的汉语语音码单词 “huiu” "xrvydu "hsuyyv" “laadqawnv”分别转换成汉字“会” “使用” “汉语” “拉丁文”或汉语拼音“hu i ” "shiyong" "hanyu" "lading wgn”,这样我们就会得到与汉语语音码表示的句子"wovmno huiu xrvydu hsuyyv laadqawnv.,,对应的汉字句子“我们会使用汉语拉丁文。”或对应的汉语拼音表示的句子"women hui shiyong hanyu lading wen。,,
遇同音词时,可以依据汉语词法句法上下文联系及统计规律等手段进行判别后进行以词为单位的汉字选定。比如ysvlime上装满了邮包。ysvlime上装满了原油。结合上下文的联系可以知道前面一句中的“ysvlime”代表邮轮,后面一句中的“ysvlime”代表油轮,这两句话分别会转换成“邮轮上装满了邮包”和“油轮上装满了原油”。对其它单词情况也依次类推。比如原来用汉语语音码表示的网页源代码为<html><head><title>test</title></head><body><b>wovmno huiu xrvydu hsuyyv laadqawnv.</b></body></html>此时,计算机屏幕标题栏显示test屏幕正文栏显示wovmno huiu xrvydu hsuyyv laadqawnv.通过上述转换后的显示汉语拼音网页的网页源代码为<html><head><title>test</title></head><body><b>women huishiyong hany lading wen。</b></body></html>此时,计算机屏幕标题栏显示test屏幕正文栏显示women huishiyonR hanyuladlng wen。通过上述转换后的显示汉字网页的网页源代码为<html><head><title>test</title></head><body><b>我们会使用汉语拉丁文。
</b></body></html>此时,计算机屏幕标题栏显示test屏幕正文栏显示我们会使用汉语拉丁文。上述在汉语语音码转换成汉字和汉语拼音时,其标点符号也从与英文相同的状态转变为相应的中文标点符号状态。比如上述汉语语音码句子中的句号“.”变成了汉字和汉语拼音句子中的句号“。”网页中作为文件名的汉字,为了能在纯西玛(也称纯ASCII码)的计算机系统中运行,有时需要将网页中作为文件名的汉字转换成汉语语音码,被转换后的原用汉字作为文件名的文件要复制并储存在合适的位置,比如指定服务器或本地机的指定文件夹中,否则计算机系统可能会无法找到这个被转换成汉语语音码名称的文件。汉字字体名称的汉字,当西码系统里不存在该汉字字体名称时,可以将该汉字字体名称换成指定的较为相近的西文字体名称,或默认的西文字体名称。当网页中的汉语语音码需要转换成语音时,可以分别采用查预先储存在计算机系统中的汉语语音码与音节、单词、语段语音合成文件对照表输出相应的语音。下面例举一些将汉语语音码转换成语音的例子比如网页中显示的是汉语语音码表达的汉语信息wovmno huiu xrvydu hsuyyv laadqawnv.其意义用汉字表达为“我们会使用汉语拉丁文。”在对汉语语音码表达的汉语信息进行汉语语音合成时,一般根据需要可以采用以下三种方法之一1.通过查汉语语音码与音节汉语语音合成文件对照表进行语音合成的方法查预先储存在计算机系统中的汉语语音码与音节汉语语音合成文件对照表后得到与语音码对应的汉语语音的声音文件(为表述方便该声音文件用“相对应的音节汉语拼音.wav”表示,实际情况中是没有汉语拼音符号的,它只是预先储存在计算机系统中,可以通过一定的声音播放软件播放的表示相应音节汉语语音的声音文件)wov (wo. wav) mno (men. wav) huiu (hu . wav) xrv (shi. wav) ydu (yong. wav) hsu (han. wav) yyv (y u. wav) Iaa (la. wav) dqa (ding, wav) wnv (wen. wav).对查找到的代表该音节汉语语音的相应的声音文件用声音播放软件依次顺序播出,词与词之间采用比同一单词音节之间更长的时间间隔来依次连续播出,这样会听起来更接近按词朗读的效果,更符合人们听语音的习惯。2.通过查汉语单词语音码和单词汉语语音合成文件对照表进行语音合成的方法查预先储存在计算机系统中的汉语单词语音码和单词语音合成文件对照表后得到预先储存在计算机系统中的与单词语音码对应的以单词为单位的汉语语音的声音文件(为表述方便该以单词为单位的汉语声音文件用“相对应的以单词为单位的汉语拼音.wav”表示,实际情况是没有汉语拼音符号的,它只是预先储存在计算机系统中,可以通过一定的声音播放软件播放的表示相应以单词为单位的汉语语音的声音文件)wovmno (women, wav) huiu (hui. wav) xrvydu (shi yong. wav) hsuyyv (hanyu. wav) laadqawnv(ladlngwen. wav).对查找到的以单词为单位代表该汉语语音的相应的声音文件用声音播放软件依次顺序播出,词与词之间采用比同一单词音节之间更长的时间间隔来依次连续播出,这样会听起来更接近按词朗读的效果,更符合人们听语音的习惯。3.通过查汉语语音码串和最大匹配语段汉语语音合成文件对照表进行语音合成的方法该方法采用最大匹配法,通过查预先储存在计算机系统中的以最大语段为单位的汉语语音码串和语段汉语语音合成文件对照表输出相应的汉语语音。比如通过查预先储存在计算机系统中的最大语段为“wovmno huiu xrvydu我们会使用”和“hsuyyv laadqawnv 汉语拉丁文”那么汉语语音合成按下面的方式进行wovmno huiu xrvydu (women hui shi yong. wav) hsuyyv laadqawnv (h anyuladlngwen. wav).(为表述方便上述该以语段为单位的汉语声音文件用“相对应的以该语段为单位的汉语拼音.wav"表示,实际情况是没有汉语拼音符号的,它只是预先储存在计算机系统中,可以通过一定的声音播放软件播放的表示相应以该语段为单位的汉语语音的声音文件)依次类推,上述三种情况中如果将汉语语音码分别对应的音节、单词、语段的汉语语音合成文件分别换成汉语特定人、中国方言、少数民族语言的语音合成文件时,则计算机系统合成出来的就分别是汉语特定人、中国方言、少数民族语言的语音。在上述三种语音合成方法中第一种方法所需要的计算机系统语音文件储存空间最小,第三种所需要的计算机系统语音文件储存空间最大。有时为了校对网页的方便,我们需要将汉语语音码网页中的标点符号和移行号朗读出来,这就要对汉语语音码网页中的标点符号和移行号进行语音合成,为了使得汉语语音码所表达的汉语信息与ASCII码100%兼容,这里我们特别规定汉语语音码网页中的标点符号和移行号分别与英文的标点符号和移行号相同,在具体语音合成时我们只要将相应的预先储存在计算机系统中的标点符号和移行号的声音文件提取出来,用声音播放软件进行播放便可,比如六种点号句号“· ” (juhao. wav)、问号“ ? ” (wenhao. wav)、感叹号 “ ! ”(gantanhao. wav) > 逗号 “,”(d6uhdio· wav)、冒号 “"(maohao. wav) > 分号 “ ;” (fenhao. wav)。七种标号引号“”(yinh ο. wav)、括号()(kuohao. wav)、破折号“_” (pozhehao. wav)、省略号· · · (shengluehao. wav)、着重号· (zhuozhonghao. wav)、书名号(()) (shumi nghao. wav)、间隔号.(jiangehao. wav)。一个移行号移行号 “_” (yihanghao. wav)。上面列出了本发明所采用的与英语相同的六种点号、七种标号和一个移行号,括号中的“.wav”文件就是与标点符号或移行号发音相应的语音合成文件,当该语音合成文件是汉语的语音合成文件时,则该标点符号或移行号朗读出来的声音便是汉语相应的标点符号或移行号的声音,当该语音合成文件分别是汉语特定人、中国方言、少数民族语言的语音合成文件时,则该标点符号或移行号朗读出来的声音便分别是汉语特定人、中国方言、少数民族语言的相应的标点符号或移行号的声音。当网页是用汉字或汉语拼音表达的汉语信息时,汉字或汉语拼音可以通过标准模块先转换成汉语语音码再进行上述汉语、汉语特定人、中国方言、少数民族语言等的语音转换。当网页中以英文为主的外文需要转换成语音时,可以采用现有以英文为主的外文语音合成模块,将会在网页中显示出来的以英文为主的外文朗读出来。当需要将网页中的汉语语音码表示的汉语信息转换成以英文为主的外文,或者网页中的英文为主的外文需要转换成汉语语音码表示的汉语信息时,可以调用汉语语音码与外文双向转换模块,在网页中将汉语语音码表示的汉语信息转换成以英文为主的外文,或者将网页里的英文为主的外文转换成汉语语音码表示的汉语信息。英文网页要转换成汉字、汉语语音码或语音时,在网页源代码中计算机先要进行判别网页源代码中的英文是网页中会显示出来的内容还是HTML语句符号,如果是HTML语句符号则不允许转换,如果是显示的英文内容则需要进行转换。由于编写网页的语句如HTML语句也是用“英文+特定字符和符号”来编写的,因此,在转换时要先判明哪些是网页语言的特定标记符号,哪些是会显示的内容,只有会显示的内容才需要转换,为了防止出错,可以采用将所有网页用到的英文HTML语句符号关键词和标记字符存入一张表中,比如<htmlX/html>、<headX/head>、<title></title>〈bodyX/body〉、<b></b>等。计算机扫描到一串需要转换的英文字符时,先查这张表,只有这张表中没有的英文符号或符号串才进行转换,否则则保留原来的英文字符或符号串形式,不进行转换。下面例举一些用本发明方法对汉语和英语进行双向翻译的例子比如网页中显示的是汉语语音码表示的汉语信息:wovmno mwvtisa xrvydu laadgawnv.调用汉语语音码与英文为主的外语双向翻译模块,可按如下步骤进行翻译变换Lwovmno mwvtisa xrvydu laadqawnv.(汉语语音码表示的汉语信息)我们每天使用拉丁文。(用汉字表示的汉语信息)a)查预先储存在计算机系统中的标注单词词性的汉语词典建立单词词性串(句中括号内的部分是词性,以下均同)wovmuo (人称代词 1)+mwvtisa(时间名词 1)+xrvydu (云力词 1)+laadqawnv (名词 2).我们(人称代词1)+每天(时间名词1) +使用(动词1) +拉丁文(名词2)。b)根据上面得到的句子词性串查预先储存在计算机系统中的表得到预先储存在表中的汉语句型(词性和该词所作的句子成分串组成句型,以下均同)wovmno (人称代词1作主语)+mwvtisa(时间名词1作时间状语)+xrvydu (动词1 作谓语)+laadqawnv (名词2作宾语)我们(人称代词1作主语)+每天(时间名词1作时间状语)+使用(动词1作谓语)+拉丁文(名词2作宾语)c)根据上面得到的汉语句型查表得到预先储存在表中的对应的英语句型wovmno (人称代词1作主语)+xrvydu (动词1作谓语)+Iaadqawnv (名词2作宾语)+mwvtisa(时间名词1作时间状语)我们(人称代词1作主语)+使用(动词1作谓语)+拉丁文(名词2作宾语)+每天(时间名词1作时间状语)此时查预先储存在计算机系统中的汉英词库进行单词或词组意思的转换,并按此句型顺序输出便完成汉语翻译成英语的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换d)根据上面得到英语句型查表得到预先储存在表中的与对应的英语单词或词组词性相一致的词性串(该词性串也可从得到的目标语言句型中提取得到,以下均同)wovmno (人称代词 1) +xrvydu (云力词 1) +Iaadqawnv (名词 2) +mwvtisa (时间名词 1).我们(人称代词1)+使用(动词1)+拉丁文(名词2) +每天(时间名词1)。e)查预先储存在计算机系统中的汉英词库进行单词或词组意思的转换并按上面所得到的英语句型的顺序输出we (人称代词 1) use (动词 1) latin (名词 2) every day (时间名词 1).weuselatinevery day.这样便完成了汉语翻译成英语的转换,同时我们还可以看到除了从a转换到e外, 我们还可以用同样的方法从e回到a,此时英语被转换成了汉语,表明用本发明的方法可以实现机器翻译,此过程可双向性。比如我们将翻译得到的英语句子“we use latin every day. ”运用汉语翻译成英语的类似步骤,再将这句句子从e回到a和1,从汉语翻译成英语的路径反推回去,我们得到下面的步骤1. "we use latin every day. ”(我们翻译得到的英语句子)e)查预先储存在计算机系统中的标注单词或词组词性的英语词典建立单词或词组的词性串we (人称代词 1)+use (动词 1)+latin (名词 1)+every day(时间名词 2).d)根据上面得到的句子词性串查表得到预先储存在表中的英语句型we(人称代词1作主语)+use(动词1作谓语)+latin(名词1作宾语)+everyday (时间名词2作时间状语)c)根据上面得到英语句型查表得到预先储存在表中的对应的汉语句型we (人称代词1作主语)+every day (时间名词2作时间状语)+use (动词1作谓语)+latin (名词1作宾语)此时查预先储存在计算机系统中的汉英-英汉双向词库进行单词或词组意思的转换,并按此句型顺序输出便完成英语翻译成汉语的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换b)根据上面得到汉语句型查表得到预先储存在表中的与对应的汉语单词或词组词性相一致的词性串
we (人称代词 1)+every day (时间名词 2)+use (动词 1)+latin (名词 1)a)查预先储存在计算机系统中的汉英-英汉双向词典进行单词或词组意思的转换并按上面所得到的汉语句型的顺序输出我们(人称代词1) 每天(时间名词2) 使用(动词1) 拉丁文(名词1).我们每天使用拉丁文。最后还可以转换成汉语语音码表达的汉语信息,又回到上述原来的句子1 1. wovmnomwvtisaxrvydulaadqawnv.这样我们重复汉语译英语的过程就又得到了我们刚才交给系统翻译成英语的汉语句子,说明了该机器翻译方法具有双向可逆性。同理,也可以用上面的方法对复句进行双向翻译。当网页显示的是汉字表示的汉语信息时,可以按以上叙述过的方法,先将汉字信息转换成汉语语音码表示的汉语信息后,再按以上步骤进行翻译变换。对于翻译得到的汉语语音码表示的汉语信息,如果需变换成汉字表示的汉语信息,同样可以用按以上叙述过的方法,可以将汉语语音码表示的汉语信息转换成汉字表示的汉语信息。当我们是通过搜索引擎来获取网页时,所输入的关键词可以是汉字、汉语拼音、汉语语音码、外文或汉语语音表示的汉语信息;当输入的是用汉字、汉语拼音表达的汉语信息或外文表达的外语信息时,既能够直接用汉字、汉语拼音或外文作为关键字符来进行搜索引擎的网页搜索,也能够先将汉字、 汉语拼音或外文通过采用上面叙述过的方法转换成汉语语音码,再将所得到的汉语语音码作为搜索引擎的关键词来进行网页搜索,反之也能够将在搜索引擎关键词输入框中输入的汉语语音码,采用上面叙述过的的方法,先转化成汉字、汉语拼音或外文后,再将所得到的汉字、汉语拼音或外文作为搜索引擎的关键词来进行网页搜索;当光标停留在搜索引擎关键词输入框,所需搜索的关键词用汉语语音输入时,计算机系统调用汉语语音识别模块,将所输入的汉语语音先转换成汉字或汉语语音码后,再将所得到的汉字或汉语语音码作为搜索引擎的关键词来进行网页搜索,或将所得到的汉字或汉语语音码用上面叙述过的方法分别转换成外文后,再作为搜索引擎的关键词来进行网页搜索;该汉语语音识别模块能够采用传统的汉语语音识别模块,将该传统的汉语语音识别模块识别后得到的以词为单位的汉字,直接作为搜索引擎的关键词来进行网页搜索;或将该以词为单位的汉字用上面叙述过的方法分别转换成汉语音码或外文后再作为搜索引擎的关键词来进行网页搜索;当采用汉语语音码汉语语音识别模块来进行汉语语音识别时,该汉语语音识别模块将汉语音节作为识别的基元,通过查找预先储存在计算机系统中的汉语音节语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语音节语音码,语音连续输入时便得到连续的汉语音节语音码串,对上述得到汉语音节语音码串通过查预先储存在计算机中的词库的方式进行按词切分,对多种单词切分,可以依据汉语词法句法上下文联系及统计规律等手段进行判别后再进行单词切分,对切分出的单词采取同一单词的音节与音节之间连写, 词与词之间空格的方式表示。下面例举一些用本发明方法对汉语语音进行语音识别的例子
汉语语音识别转换成汉语语音码比如当光标停留在搜索引擎关键词输入框时,我们用汉语语音朗读下列汉语句子“我们会使用汉语拉丁文。”(1)通过查找预先储存在计算机系统中的汉语音节语音模板和汉语语音音节码对照表,匹配后识别出相应的汉语音节语音码串wov mno huiu xrv ydu hsu yyv Iaa dqa wnv.(音节与音节之|、司有空格)B^ wovmnohuiuxrvyduhsuyyν 1 aadqawnv.(音节与音节之间无空格)(熟练后mno中的轻音符ο在不引起混音时可以省略,以上以下均同。)为了让大家看清楚这里将表示声调的字母加了下划线,语音码中的声调字母同时具隔音节作用,实际语音码中声调无下划线,熟练语音码后声调兼隔音节符能够方便区分出来。这样便完成了一个系统的复杂性与系统的词库规模性无关的纯语音识别过程。
如果汉语语音是带某种方言口音的汉语或是某一种中国的方言,只要这种中国的方言的音节与汉语音节具有某种对应关系,我们通过以上相类似的方法即通过查找预先储存在计算机系统中的带某种方言口音的汉语或与汉语音节具有某种对应关系的方言音节的语音模板与汉语语音音节码对照表,匹配后识别出相应的汉语音节语音码串,就可以实现对该带某种方言口音的汉语或方言的汉语语音码识别,实现该带某种方言口音的汉语或方言与汉语语音码的转换。(2)将汉语语音码串进行单词切分,最终完成以词为单位的语音码转换。通过查找预先储存在计算机系统中的分好词的汉语语音码单词词库,将同一个单词的多个音节连写,词与词之间用空格隔开便得到以下我们最终需要的汉语语音码wovmno huiu xrvydu hsuyyv 1aadqawnv.得到汉语语音码后,当进一步需要转换汉字和汉语拼音以及外文时,可以用上面叙述过的方法转换成以词为单位的汉字和汉语拼音以及外文。这里需要强调的是该转换成以词为单位的汉字和汉语拼音以及外文的过程与语音识别系统没有必然的联系,该标准转换模块可以脱离语音识别系统独立运行。对采用以上方法搜索到的所有网页可以根据需要,将原网页中的全部或部分内容以及超联接的路径或文件,转换成指定的内容以及指定的超联接的路径或文件,比如<html><head><title>test</title></head><body>点击 <a href = 1. html> 汉语 </a></body></html>此时,网页显示“点击汉语“四个字(斜体字为点击后会发生超链接的文字,以上以下均同),点击汉语后,网页自动跳转显示1. html文件所代表的网页的内容。
16
如果将“点击“和“汉语“这两个汉字表示的汉语单词分别根据码表采用上面汉字转换成汉语语音码的方法转换成汉语语音码” disvjia “和” hsuyyv “并将” l.html “改成”2. html “,此时,我们点击”hsuyyv “网页就会自动跳转显示2. html文件所代表的网页的内容。要做到这点只要将上述网页的源代码转换成如下网页源代码便可<html><head><title>test</title></head><body>disvjia<a href = 2. html>hsuyyv</a></body></html>此时,网页显示:disviia hsuyyv在上述采用汉字、汉语拼音、汉语语音码、外文或汉语语音作为搜索引擎的关键词,通过搜索引擎进行的各种信息搜索的方法中,所搜索到的网页其输出的形式能够根据预先的设定,采用上面叙述过的方法分别转换成汉字、汉语拼音、汉语语音码、外文或汉语语音后再输出。当我们获得的网页不是通过搜索引擎,而是通过其它方式来获得的时,比如通过各种网页浏览器所得到的用汉字、汉语拼音、汉语语音码或外文表示信息的网页,也可以采用上面叙述过的方法,经过相应模块和方法的转换再输出成系统预先设定的信息种类的网页,该信息种类可以是但不限于汉字、汉语拼音、汉语语音码、外文、汉语特定人语音、中国方言语音、少数民族语言语音、汉语语音或外语语音。以上在阐述网页信息转换和翻译的方法时,是以计算机的后缀为“.html”和 “.hml”文本文件为例,实际上对于其它能被浏览器释读的以合法方式编写的各种格式的网页源文件,包括在嵌入式系统使用的网页源文件,都可以按上述相同或类似的方法进行转换和翻译,从而达到对各种网页显示内容的转换和翻译的目的。
权利要求
1. 一种用于计算机或嵌入式计算机系统,以下简称为计算机或计算机系统的汉语语音码多样网页信息搜索转换翻译的方法,其特征主要包括以下步骤 步骤A:(一)所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法注括号内的符号均为《汉语拼音方案》中的汉语拼音符号,以下简称为汉语拼音符号, 不带括号的字母为本方案所采用的汉语语音码的每一音节声、韵、调的编码符号,以下将下列对照表简称为码表;·1、声码的编码符号采用与汉语拼音方案基本一致的声母的字母符号,比如采用下面这种声码的编码形式b :(b) ρ :(p) m (m) f (f) d (d)t (t)η :(n) 1 (1) g:(g) k:(k) h:(h) j (zh), (j) q (ch), (q) χ (sh), (x) r (r) ζ : (z) c : (c) s (s) y (y) w (w)·2、汉语拼音介母(U)采用沈个拉丁字母中的一个字母表示,比如采用下面这种介码的编码形式i ⑴ u (u) y (U)·3、韵码的编码,对单韵母除(U)采用沈个拉丁字母中的一个字母表示外,其它采用与汉语拼音相同的字母符号,汉语拼音的复合韵母只要是采用辅音字母来编码都是可以的, 比如采用下面的这种字母符号来对汉语拼音的韵母进行编码a (a) ο (ο) e (e) i ⑴ u (u) y (U) k (ao) c (ai) s (an) χ (ou) w (ei) η (en) ζ (ua) 1 (uo) b (ang) d (ong) ρ (eng) q (ing) g (ng) er (er) er 为无声母韵母 r ⑴[只与(zh)、(ch)、(sh)相拼]·4、调码的编码除采用一个汉语不用的辅音字母ν表示汉语拼音的上声(V)外,其它声母采用元音字母来表示汉语的声调,比如采用下面的字母来对汉语拼音的声调进行编码a ㈠阴平e (/)阳平ν ( V )上声u ⑴去声ο (不标)轻声(二)利用上述编码的汉语语音码汉语信息表示采用如下的方法以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开,当汉语信息表示处于汉语语音码状态时,其六种点号,七种标号和一个移行号采用与英文相同的形式; 步骤B 信息搜索时采用以现有的传统的信息搜索引擎为基础,既能够将汉字、汉语拼音、汉语语音码、外文作为信息搜索的关键词直接输入搜索引擎的关键词输入框进行信息搜索,也能够通过将输入搜索引擎关键词输入框的汉字、汉语拼音、汉语语音码、外文或汉语语音, 通过相应的转换模块转换成预先设定的信息种类后,再进行信息搜索,输出查询到的信息, 能够按照系统默认或预先设定的信息种类方式输出,上述这种信息种类可以是但不限于汉字、汉语拼音、汉语语音码、外文、汉语特定人语音、中国方言语音、少数民族语言语音、汉语语音或外语语音;当需要将用汉字或汉语拼音表示的汉语信息的网页转换成汉语语音码表示的汉语信息的网页时,计算机系统首先找到该网页的源文件,对该网页会显示的汉字或汉语拼音表示的汉语信息内容进行变换,比如以计算机扩展名为“.html”或“.hml”的文本文件的网页源代码为例,通过调用汉字或汉语拼音转换成汉语语音码的双向转换模块,将该文本文件中所有会显示出来的汉字或全部汉语拼音,在它们原来的网页的位置上转换成汉语语音码,一般需要转换的汉字是除作为文件名的汉字和作为汉字字体名称的汉字外的所有汉字;在将汉字网页转换成汉语语音码表示的网页时,原来网页中的英文、英文字母、阿拉伯数字、西文标点符号、移行号不需要转换,保留原样;网页中作为文件名的汉字,为了能在纯西码也可以称为纯ASCII码的计算机系统中显示和运行,需要将网页中作为文件名的汉字转换成汉语语音码,被转换后的原用汉字作为文件名的文件要复制并储存在合适的位置,比如指定服务器或本地机中的指定文件夹中, 以确保计算机系统能够找到这个被转换成汉语语音码名称的文件;对于汉字字体名称的汉字,当西码也即ASCII码系统里不存在该汉字字体名称时,计算机可以将该汉字字体名称自动换成预先设定并储存在计算机中的较为相近的西文字体名称,或计算机预先设定的默认的西文字体名称;当网页中的汉语语音码需要转换成汉语拼音时,既可以采用查步骤A中的码表,也可以查预先储存在计算机中的通过步骤A中的码表生成的以音节或词为单位的汉语语音码与以音节或词为单位的汉语拼音对照表,匹配后找出相应的汉语拼音,并用这些汉语拼音在原来网页中的汉语语音码的位置替换掉被转换了的汉语语音码;当网页中的汉语语音码需要转换成汉字时,既可以先转换成以词为单位的汉语拼音再转换成以词为单位的汉字,也可以直接采用查预先储存在计算机中的汉语语音码与以词为单位的汉字对照表、匹配后找出相应的汉字,并用这些汉字在原来网页中的汉语语音码的位置替换掉被转换的汉语语音码;遇同音词时,先依据汉语词法句法上下文联系及统计规律等手段进行判别,判别后再进行以词为单位的汉字选定;在汉语语音码转换成汉字和汉语拼音时,其标点符号也从与英文相同的状态转变为相应的中文标点符号状态;当网页中的汉语语音码需要转换成语音时,可以分别采用查预先储存在计算机系统中的汉语语音码与音节、单词、语段语音合成文件对照表输出相应的语音;当将汉语语音码或汉语语音码串所分别对应的音节、单词或语段的语音合成文件分别换成汉语特定人、中国方言、少数民族语言的语音合成文件时,通过查预先储存在计算机中的汉语语音码或汉语语音码串与分别对应的汉语特定人、中国方言、少数民族语言的音节、 单词或语段的语音合成文件对照表,可以分别输出相应的汉语特定人、中国方言、少数民族语言的语音;当对汉语语音码网页中的标点符号和移行号进行语音合成时,我们只要将相应的预先储存在计算机中的标点符号和移行号的声音文件提取出来,用声音播放软件进行播放便可;当该标点符号和移行号语音合成文件分别是汉语特定人、中国方言、少数民族语言的语音合成文件时,则该标点符号或移行号朗读出来的声音便分别是汉语特定人、中国方言、 少数民族语言的相应的标点符号或移行号的声音;当网页中以英文为主的外文需要转换成语音时,可以采用现有以英文为主的外文语音合成模块,将会在网页中显示出来的以英文为主的外文朗读出来;当需要将网页中的汉语语音码表示的汉语信息转换成以英文为主的外文,或者网页中的英文为主的外文需要转换成汉语语音码表示的汉语信息时,计算机先要判明哪些是属于会在网页中显示的汉语语音码,哪些是属于会在网页中显示的外文后,通过调用预先储存在计算机中的汉语语音码与外文双向转换模块,在被转换的语音码的网页中的位置,将汉语语音码表示的汉语信息转换成以英文为主的外文,或者在被转换的以英文为主的外文的网页中的位置,将网页中英文为主的外文转换成汉语语音码表示的汉语信息;当光标停留在搜索引擎关键词输入框,所需搜索的关键词用汉语语音输入时,计算机系统调用汉语语音识别模块,将所输入的汉语语音或带某种方言口音的汉语或方言先转换成汉字或汉语语音码后,再将所得到的汉字或汉语语音码作为搜索引擎的关键词来进行网页搜索,或将所得到的汉字或汉语语音码用上面叙述过的方法分别转换成外文后,再作为搜索引擎的关键词来进行网页搜索;对采用以上方法搜索到的所有网页,可以根据需要将原网页中的全部或部分内容以及超联接的路径或文件,改成指定的内容以及指定的超联接的路径或文件。以上在阐述网页信息转换和翻译的方法时,是以计算机的后缀为“.html”和“.hml” 文本文件为例,实际上对于其它能被浏览器释读的以合法方式编写的各种格式的网页源文件,包括在嵌入式系统使用的网页源文件,都可以按上述相同或类似的方法进行转换和翻译,从而达到对各种网页显示内容的转换和翻译的目的。
2. 一种如权利要求书1所述的汉语语音码网页搜索翻译转换的方法,其进一步特征在于当我们获得的网页不是通过搜索引擎,而是通过其它方式比如各种网页浏览器来获得的时,所得到的用汉字、汉语拼音、汉语语音码或外文表示信息的网页,也可以采用权利要求1中的步骤A和步骤B的方法,经过相应模块和方法的转换再输出成系统预先设定的信息种类的网页,该信息种类可以是但不限于汉字、汉语拼音、汉语语音码、外文、汉语特定人语音、中国方言语音、少数民族语言语音、汉语语音或外语语音。
全文摘要
本发明是一种用于计算机或嵌入式计算机系统的汉语语音码多样网页信息搜索转换翻译的方法,属于计算机网页信息处理技术领域。通过这种方法可以方便地将搜索到的汉字和《汉语拼音方案》表达的汉语信息网页转换成汉语语音码表达的汉语信息网页,并可以进行汉语与外文网页的双向翻译和网页汉语语音的合成输出,在信息搜索时,既可以采用输入字符的方法,也可以采用汉语语音输入的方法,网页采用汉语语音码表示汉语信息后,使得表示汉语信息的网页可以在纯西码系统中显示和运行,本发明能给计算机或嵌入式计算机系统的网页信息的翻译转换提供极大的便利。
文档编号G06F17/30GK102479208SQ20101056405
公开日2012年5月30日 申请日期2010年11月26日 优先权日2010年11月26日
发明者苗玉水 申请人:苗玉水
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1