用于在编码不可用时提供外文文本显示的方法和设备的制作方法

文档序号:6650596阅读:153来源:国知局
专利名称:用于在编码不可用时提供外文文本显示的方法和设备的制作方法
技术领域
本发明一般涉及不基于罗马字母表的语言字符的处理。特别地,本发明涉及意图在计算相关的系统上显示的中文书写体字符的处理。
背景技术
电子设备和系统的设计人员、制造人员以及用户都非常重视用户接口的高效实现。为了实现效力最大化,用户接口可以有利地采用用户的首选语言来显示信息给系统用户。
英语通常利用衍生于罗马字母的26个字母的字母表来书写。然而,其它的书面语言可以使用比这多得多的书面字符。中文就是需要相对大量的书面字符的书面语言的一个例子。
作为背景信息,对不基于罗马字母表的语言的宽泛理解是有用的。例如,中文具有一种受限的语音结构。在汉语口语中,仅仅有412个基础语音单元,每一个单元具有单音节的发音。四声模式可能可被应用于每个语音单元,结果出现了稍多于1000种不同的发音。其他不基于罗马字母表的语言也包括大量字符,以及也可以使用单音节发音。
常规计算机系统以及操作系统通常都包括使用一种两字节的数字编码方式来适应通常以不使用罗马字母表的语言表示的大量字符。这种方式与使用罗马字符的语言形成对比,因为与这些语言相关联的计算机可以显示的字体可以仅仅利用一个字节的数字信息来编码。两字节的数字编码方法,也就是通常所说的双字节编码,实质上比一字节数字编码方法需要更大的系统内存。
双字节编码所需要的增加的内存的要求使得支持这些双字节字符的软件的安装成为可选。例如,许多操作系统使双字节编码/解码支持的安装可选。因此,在今天许多计算机系统中根本没有提供显示包括双字节编码字体的文档的支持。
双字节编码/解码所需的额外系统内存也对小型或便携式电子装置造成很大负担。这些小型电子设备通常具有非常有限的系统内存。此外,这些小型或便携式电子设备缺乏显著扩展系统内存的可用性。因此,非常多的这种小型或便携式电子设备并不包含内建的双字节编码/解码软件,并且许多完全不能应付处理双字节编码/解码技术所需的增加的内存容量。
因为许多计算机系统,包括较大的个人计算机设备和小型电子设备,都不包括能够处理包含双字节编码文本的文档的软件,因此用户总是收到具有此类编码/解码的文档,且不能辨别其内容。因此,仍存在提供能够处理包含双字节编码文本的介质的方法和设备的需求,即使所需要的实际显示双字节编码文本的软件并非安装在显示计算机设备上。

发明内容
本发明的一个示例性实施例提供了一种方法和设备,用于显示与旨在传送信息的通信结合使用的双字节字体的语音表示。本发明的一个示例性实施例在用于显示与双字节字体相关联的位图字符图像的应用程序不可用时,或者在应用程序不支持表示双字体的位图字符图像的使用时显示了双字节字体的语音表示,。
根据本发明的一种示例性方法,提供了一种语音数据库,它将语音表示与组成表示位图字符图像的各种双字节字体的美国信息交换标准代码(ASCII)号码相关联。因此,如果应用程序不支持提供与双字节字体相关的位图字符图像的语言库的使用,则该应用程序可以参照根据本发明的一种示例性实施例的语音查找数据库来正确传送包含在采用双字节字体的通信中的信息。
本发明的一种示例性实施例包括一种方法,它参照,包括双字节字体条目及其相关联的语音表示的表,并使用其中至少一个双字节字体条目以获得所使用的至少一个双字节字体的语音表示。
根据本发明的另一个示例性实施例,提供了一种在对处理器进行编程中使用的制品,该制品包括至少一个计算机可读的存储设备,它包括至少一个内嵌的计算机程序,该程序使处理器执行本发明的至少一种示例性实施例。
根据本发明的另一示例性实施例,提供一种至少包含两个列的数据库结构,其中一列包括至少一个段,该段包含双字节码集,另一列也包括至少一个段,该段包含前述至少一个段中的双字节码集的语音表示。


当结合有关的附图通过参照下面的详细描述更好地理解本发明的上述各方面以及许多附带的优点时,将能更加容易认识到这些方面和优点,其中图1是一种适于执行本发明的示例性实施例的通用计算机系统的逻辑框图;图2示出了根据本发明一种示例性实施例的提供访问语音语言数据库的方法的流程图;图3示出了图2所示的流程图的续图;图4是一种示例性数据库及其内容的概念图,它表示根据本发明一种典型实施例的语音语言数据库;图5示出了一网络浏览器,它包括未使用根据本发明一种示例性实施例的语言库或语音兼容数据库的网页;以及图6示出了一网络浏览器,它包括使用根据本发明的一个示例性实施例的语音兼容数据库的网页。
具体实施例方式
图1示出了本发明的示例性实施例可以在其中操作的一种通用计算机系统100。该计算机系统100可以执行诸如字处理程序和/或邮件应用程序等可能会显示包含双字节字体的通信的应用程序。此外,该通用计算机系统100能够操作其它可以显示包含双字节字体的通信的应用程序。
通常,诸如本发明的示例性实施例可使用的通用计算机系统100等计算机系统包括总线110,用于传输信息给计算机系统100的各个部件。中央处理器(CPU)101被耦合到总线110,用于处理为计算机系统100提供功能所必需的信息和指令。该计算机系统100还包括和总线110耦合的随机存取存储器(RAM)102,用来为CPU 101存储信息和指令,以及与总线110耦合的只读存储器(ROM)103,用于存储供CPU 101使用的静态的信息和指令。还包括数据存储设备104,诸如磁盘驱动器、光存储设备等等,它与总线110耦合,用于存储CPU 101可能用到的信息和指令。
该系统100可以包括耦合到总线110的显示设备105,用来给系统100的用户显示信息。诸如键盘等字母数字输入设备106可以被耦合到总线110以提供可以由CPU 101使用来以计算机系统100执行功能的信息输入。该计算机系统100还可以包括诸如鼠标等游标设备,用于允许计算机系统100的附加的输入和控制。与计算机系统100的其他元件类似,键盘106和游标设备107都被耦合到总线110。
计算机系统100可包括通信接口108,用来提供计算机系统100到像因特网这样的网络的的链接。如图1所示,计算机系统100经由通信介质112链接到远程计算机110。该通信介质112便于计算机系统100和远程计算机110之间的双向通信。该通信介质112可以是两个计算机100和110之间的直接连接,可以是通过连接到服务器计算机的一个或多个路由器建立的连接,或是无线连接等等。按照本领域的技术人员的一般理解,通信介质112提供了允许计算机系统100接收和发送数字通信的技术(比如,电子邮件通信、字处理文档,等)。
CPU 101、RAM102和/或ROM 103可以由执行本发明的示例性实施例的代码来启动。计算机系统100的其它元件同样可以通过执行本发明的示例性实施例的代码来启动。本领域的技术人员可以很容易地理解,计算机系统使用的其它类似的设备同样可以被启动来执行本发明的示例性实施例。
该计算机系统100是许多当前和以后的计算机平台的示例。特别地,该计算机系统100,包括图1所示的所有组件或部分组件,可以是个人计算机、膝上型计算机、书写板计算机、手持式设备、无线电话,等。通常,本发明的示例性实施例结合处理、存储和显示设备来操作。这些设备可以内部和/或外部提供。
图2和3示出了根据本发明的一种示例性实施例的提供访问语音语言数据库的能力的方法的流程图。在图2和3中示出的该示例性方法可以利用图1所示的计算机系统100来实现。
本领域的普通技术人员可以很容易地理解,计算机系统100仅仅只是可以结合本发明的典型实施例来使用的计算机系统的类型的示例。特别地,图2和3中所示的示例性方法可以利用个人计算机、膝上型计算机、书写板计算机、手持式计算机、无线电话等来应用。通常,任何能够存储、处理和显示信息的设备都可以实现图2和3中所示的示例性方法。
框S200一般表示根据本发明的一个实施例的示例性方法的开始。在任何给定的时间,在例如图1所示的计算机系统100的计算机系统中,文档可能包括双字节格式的字体。例如,计算机系统可以接收来自例如远程计算机110等远程计算机的电子邮件通信,该电子邮件包含了使用双字节字体格式来格式化的语言字符。例如,中文、日文和汉文都使用以双字节字体格式表示的字符。
当收到包含双字节格式的字体的文档时(S202),通常使用软件应用程序来查看文档的内容。当用来查看包含双字节字体文档的应用程序被初始化以准备在诸如显示设备105等显示设备上显示文档的内容时,该应用程序可能尝试去访问与双字节字体相关的语言字体库(假如该应用程序支持此类库的使用(S204和S206))。如果语言库对计算机系统可用(S208),比如存储在例如存储设备104等存储设备中,则与文档中的双字节字体相关联的位图字符图像将会被从语言库中检索出来(S210)。检索出来的位图字符图像将会在与该计算机系统相关联的显示设备上显示(图3;S304)。
在常规的计算机系统中,如果用来显示包括双字节格式的字体的文档的应用程序并不支持语言库的使用(S204),则文档中的信息通常以不可预知的方式在计算机系统的显示设备上显示。当然,在显示设备上所传达的信息并不是包含在包括双字节字体的文档中的信息。通常,在本来在语言库被用来显示文档内容的情况下该双字节字体的位图字符图像本该驻留的每个位置上所显示的信息将是任意的ASCII字符或仅仅是空白块。
根据本发明的一种示例性实施例,如图2所示,如果用来显示包括双字节格式的字体的文档的应用程序不支持包括与双字节字体相关联的位图字符图像的语言库的使用,或者对于该文档中所包含的双字节字体类型没有语言库可用(S204和S208),那么参照语音查找数据库以传达包括双字节格式的字体的文档的信息(S300)。特别地,双字节格式的字体被用于检索存储在语音查找数据库中的它的语音表示(S302)。一旦找到了语音表示,所检索到的信息将会在计算机系统的显示设备上显示(S304)。
框S306通常表示图2和3所示的示例性方法的结束。如本领域的普通技术人员容易理解的,根据本发明的典型实施例,图2和3中所示的示例性方法可以按需重复,直到所有包括在给定文档中的双字节字体都已在可用的语言库和/或语音查找数据库中被参照。
图4是根据本发明的示例性实施例的一种表示语音语言数据库400的示例性数据库及其内容的概念图。数据库400包括双字节列402和语音表示列404。该双字节字体列402被分为多个段406。同样,也有与语音表示列404相关联的对应的段408。
双字节列402中的每个段406都包括ASCII码410,它表示可能包含在希望能用诸如计算机系统100等计算机系统来查看的文档中的双字节字体。如果文档包括双字节格式的字体,且数据库400被用作显示双字节格式的字体的方法,则如果字体中的某一个由ASCII码集“0x4A 0x55”表示,那么语音表示“a1”将显示在计算机系统的显示设备(比如像显示器105)上。同样地,如果包括双字节格式的另一字体,它具有ASCII码集“0xCE 0x54”,那么语音表示“ai1”将显示在显示设备上。对于双字节格式的每一个字体,可以访问数据库400来确定应显示在显示设备上的适当的语音表示。利用显示的双字节格式字体的语音表示,用户可以很容易理解包含在文档中的所要传达的内容。
尽管根据本发明的示例性实施例也可以加入其它的语言到语音语言数据库中,但是数据库400旨在配合包括中文书写体字符的通信。如在这篇文档中前面提到的,中文具有受限的语音结构。在汉语口语中,有412个基本语音单元,每一个单元具有单音节的发音。四声模式可能可被应用到每一个语音单元,结果可能出现稍多于1000种不同的发音。
数据库400优越地利用412个基本语音单元来形成了一种非常高效的数据库结构,它不需要使用大量系统资源。在图4所示的数据库400中,示出了412个基本语音单元中的4个(a1、ai1、ai2和ai3)。然而,像本领域普通技术人员理解的,其它408个基本语音单元也包括在所实现的数据库400中。简单参照一本其中具有书写体字符的中文词典将提供给即使是外行人完成所示的数据库400的必要信息。
有许多有着相同的发音的中文字符符号。数据库400已经考虑了这种情况。比如说,像图4中所见的,每一个段406包括多个双字节ASCII码集。然而,在相应的段408中,只有一个语音表示与多个双字节ASCII码集相关联。
数据库400的语音表示列404中的语音表示具有“XXXn”的格式。该“XXX”部分为412个基本语音单元之一,并且由一系列的罗马字母来表示。在给定的语音单元中可能有多于或少于两个字母。“n”部分是表示可以应用到每个语音单元的四声模式之一的号码。因此,“n”位置中的“1”涉及第一声模式,“n”位置中的“2”涉及第二声模式,这种参照技术同样应用于其他两个单音节发音。因此,当数据库400被用于把双字节格式的字体转换成相关联的语音表示时,读者将通过与每个语音单元相关联的“n”位置,理解与该语音单元相关的单音节发音。
对于使用双字节格式的字体的语言的语音表示的数据库的设计和实现全部包含在本发明中。尽管数据库400使用了与中文书写体字符相关联的双字节字体,但是对本发明的语音语言数据库概念的使用同样可以应用于其它使用双字节字体格式的语言。这类语言的类似例子包括日文和韩文。
图5示出了网络浏览器500,它包括没有使用根据本发明典型实施例的语言库或语音兼容数据库的网页502。网络浏览器500是在诸如计算机系统100中的显示设备105等计算机系统显示设备上可显示的图形用户界面(GUI)。图示该网络浏览器500包括许多选择键504,比如像搜索键504A、邮件键504B、打印键504C,等。图5中所示的按键504A、504B和504C,以及其他按键和控件的操作为本领域的普通技术人员所理解,这里不需要详细描述。
图5还包括在网页502上显示的各种白框“□”510。通常,这些白框510表示有计算机系统不能正确显示的双字节字体。这个问题通常发生于操作系统和/或应用程序不包括和/或支持语言库的使用时。
图6示出了网络浏览器600,它包括使用根据本发明的一个示例性实施例的语音兼容数据库的网页602。该网络浏览器600是在诸如计算机系统100的显示设备105等计算机系统显示设备上可显示的图形用户界面GUI。图示该网络浏览器600包括许多选择键604,比如像搜索键604A、邮件键604B、打印键604C,等。图6中所示的按键604A、604B和604C,以及其他按键和控件的操作为本领域的普通技术人员所理解,这里不需要详细描述。
图6进一步包括“XXXn”格式的各种语音表示610。根据本发明的典型实施例,可以从语音语言数据库中获取这些语音表示610。根据本发明的典型实施例的语音语言数据库的使用消除了包括对内存的占用很大的语言库的需要。这对由于设计限制和/或设计考虑造成的内存有限的计算机系统尤其有用。确实使用语言库的计算机系统也可以包括一种语音语言数据库以配合应用软件等使用。
尽管这里示出且描述了特定的示例性实施例,但是本领域的普通技术人员可以理解的是,旨在实现相同目的的任何设备都可以代替所示和所述的特定实施例。这些应用程序旨在涵盖本发明任何和全部调适或变体。同样可以理解的是,以上描述是以说明性的方式,而不是以限制性的方式进行的。一阅读以上描述,上述示例性实施例的组合,以及这里没有特别描述的其他示例性实施例,对于本领域的技术人员而言就将是很明显的。本发明的范围包括使用以上方法和结构的任何其他应用程序。因此,本发明的范围应该参照所附权利要求书,连同所附权利要求书应含的全部等价方案的范围一起来确定。
权利要求
1.一种方法,包括参照包括双字节字体条目和所述双字节字体条目相关联的语音表示的表;以及使用至少一个所述双字节字体条目来获得所使用的至少一个双字节字体的语音表示。
2.根据权利要求1的方法,其特征在于,还包括在显示设备上显示所述语音表示。
3.根据权利要求1的方法,其特征在于,还包括检查包括双字节格式的字体的通信;当参照包括所述双字节字体条目的表时,使用一个或多个双字节格式的字体;以及获取所述一个或多个双字节格式的字体的语音表示。
4.根据权利要求3的方法,其特征在于,当参照所述包括双字节字体条目的表时,实质上使用所述通信中所找到的所有双字节格式的字体。
5.根据权利要求4的方法,其特征在于,还包括实质上在单个操作中显示所述通信中所找到的所有双字节格式的字体的语音表示。
6.根据权利要求1的方法,其特征在于,所述表具有至少两列,其中一列包括双字节码集,另一列包括所述双字节码集的语音表示。
7.根据权利要求6的方法,其特征在于,所包括的双字节码集包括与中文字符系统结合使用的双字节码,且所述语音表示至少是中文语音单元。
8.根据权利要求7的方法,其特征在于,每个中文语音单元还包括至少一个数字指示符,所述指示符表示四个单音节发音中的一个。
9.根据权利要求1的方法,其特征在于,所述表被包含在语音语言数据库中。
10.一种在对处理器进行编程中使用的制品,所述制品包括至少一个计算机可读存储设备,所述计算机可读存储设备包括至少一个嵌入其中的、使所述处理器执行如权利要求1所述的方法的计算机程序。
11.一种数据库结构,包括至少两列,一列包括至少一个包括双字节码集的段,且另一列包括至少一个包括所述至少一个段中的双字节码集的语音表示的段。
12.根据权利要求11的数据库结构,其特征在于,所述语音表示包括两个不同的子部分,其中一个子部分是由罗马字母组成的语音单元,而另一个子部分是表示单音节发音的数值。
13.根据权利要求12的数据库结构,其特征在于,所述语音表示与一个中文语言字符相对应。
14.根据权利要求11的数据库结构,其特征在于,存在多个包括双字节码集的段,以及多个每一个都包括一个语音表示的段。
15.根据权利要求14的数据库结构,其特征在于,所述双字节码在所述双字节码集中。
全文摘要
一种方法和设备,包括参照包括双字节字体条目以及与双字节字体条目相关联的语音表示的语音语言数据库。至少一个双字节字体条目被用来获取所用的至少一个双字节字体的语音表示。该语音表示被显示在显示设备上。
文档编号G06F17/30GK1815472SQ20051012170
公开日2006年8月9日 申请日期2005年12月31日 优先权日2005年1月3日
发明者J·马 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1