词典压缩和词处理方法及系统、文语转换系统、电子设备的制作方法

文档序号:6580695阅读:129来源:国知局
专利名称:词典压缩和词处理方法及系统、文语转换系统、电子设备的制作方法
技术领域
本发明总体上涉及用于压缩电子词典的方法和系统、词处理方法和系统、文语转 换系统以及电子设备。
背景技术
使用电子词典的电子设备已广泛用于多个领域。电子词典常常采用将词和与该词 相关的信息关联存储的数据结构。对于中文电子词典(下文中也称为“词典”),与中文词 相关的信息可以包括该词的释义信息和发音信息。在多数中文电子词典中,发音信息是词信息的一个重要部分。通常,中文发音信息 可被直接存储在电子词典中。然而,如果电子词典被安装在存储条件差的设备中,诸如个人 数字助理(PDA)中,则希望使电子词典对存储器的占用最小化。通常,电子词典中的每个中文词具有其自身的发音信息,例如,词“國家”的发音为 “gU02jial”,其中诸如“2”和“1”之类的数字表示中文发音体系中的声调。显然,发音字符 串常常比词本身需要保存更多的字节。中国专利CN02159546. 1公开了一种用于以2字节(16比特)存储汉字的发音的 方法。因此,存储发音信息所需的存储量被降低为2 * N字节,其中N表示电子词典所包含 的汉字的数量。以使用2字节对一个汉字进行编码的Big5字集作为示例,汉字与其发音的 组合所要占用的存储量将为4字节(32比特)。然而,对于包含成千上万个作为汉字的组合的词的电子词典来说,仍需要可观的 存储量来存储发音信息。例如,假设在电子词典中总共有大约70000个词,其由多于140000 个汉字组成,则需要多于273k字节来保存发音信息。实际上,多数的汉字仅具有一个发音。例如,汉字“風”的发音为“fengl”。一些 汉字具有多个发音,其被称为“多音汉字”。例如,汉字“差”的发音包括“cha4”、“Chal”、 “chail”、“cil”。在一些情况下,一些汉字在词中的声调将成为轻读。例如,汉字“熱”的发 音为“re4”,汉字“閙,,的发音为“皿04”,但是词“熱閙,,的发音为“re4nao5”(数字“5”表 示轻读)。也就是说,虽然一个汉字仅具有一个默认发音作为其常规发音,但该发音的声调 在某些情况下可能成为轻读。中国专利申请CN200310114889. 8公开了一种利用更少的字节存储发音信息的方 法,该方法包括以下步骤从其他汉字区分出多音汉字;存有用于所有汉字的默认发音表; 存有用于多音汉字的非默认发音表;对于包含多音汉字的词产生辅助信息,所述辅助信息 代表这些多音汉字的非默认发音;以及将词和所述辅助信息关联地存储在电子词典中。根 据在中国专利申请CN200310114889.8中公开的方法,只有具有非默认发音的多音汉字需 要与指示非默认发音的辅助信息一起存储,并且借助于对汉字存储默认发音表和非默认发 音表,汉字的默认发音的存储变得不再必要。此方法可以将汉字的发音所占用的存储量减 少为平均每个词少于1字节。然而,根据中国专利申请CN200310114889.8中公开的方法,对于汉字与其发音的组合,平均需要多于2字节。由于对更低成本的电子设备的需求,需要汉字与其发音占据比 以往都更少的存储区的电子词典。

发明内容
本发明的发明人注意到中文语言的以下内在规律或事实以Big5字集作为例子, Big5字集最多有13060个繁体汉字,其具有1295个有效发音,其中只有943个汉字具有多 个发音,并且一个汉字所具有的最多发音计数为6个;另一方面,BigS字集使用2字节(16 比特)对一个汉字进行编码,但是在Big5字集中还有大量编码不代表汉字。考虑到在前述的现有技术中存在的技术问题和中文语言的上述内在规律或事实, 提供一种使用更少字节将汉字或中文词与其发音一起存储的新的方法和系统。诸如GB2312之类的其他用于汉字的通用字集也具有类似的特性。因此,虽然在一 些实施例或示例中使用Big5字集来说明本发明的原理,用于呈现汉字的方法不限于Big5 字集,并且可以使用呈现汉字的任何其他方法。根据本发明的一个方面,提供一种利用计算机压缩词典中的电子数据的方法,包 括输入步骤,输入待压缩词典,所述待压缩词典中以电子数据形式存储有词与其发音;第 一字音映射表形成步骤,对于待压缩词典中的每个汉字,将一个发音确定为默认发音,并且 形成基于默认发音的第一字音映射表;第二字音映射表形成步骤,对于待压缩词典中的每 个多音汉字,将除默认发音之外的剩余发音确定为非默认发音,并且形成基于非默认发音 的第二字音映射表;以及压缩步骤,根据关于待压缩词典中的每个词中的每个汉字与其发 音的组合在第一字音映射表或第二字音映射表中的索引或位置的信息,将该组合压缩为16 比特编码,以形成包含具有16比特编码形式的信息的压缩词典,其中,所述16比特编码包 括关于该汉字在第一字音映射表或第二字音映射表中的索引或位置的信息,以及关于与该 汉字对应的发音在第一字音映射表或第二字音映射表中的索引或位置的信息。根据本发明的另一个方面,提供一种利用计算机压缩词典中的电子数据的系统, 包括输入装置,输入待压缩词典,所述待压缩词典中以电子数据形式存储有词与其发音; 第一字音映射表形成装置,对于待压缩词典中的每个汉字,将一个发音确定为默认发音,并 且形成基于默认发音的第一字音映射表;第二字音映射表形成装置,对于待压缩词典中的 每个多音汉字,将除默认发音之外的剩余发音确定为非默认发音,并且形成基于非默认发 音的第二字音映射表;以及压缩装置,根据关于待压缩词典中的每个词中的每个汉字与其 发音的组合在第一字音映射表或第二字音映射表中的索引或位置的信息,将该组合压缩为 16比特编码,以形成包含具有16比特编码形式的信息的压缩词典,其中,所述16比特编码 包括关于该汉字在第一字音映射表或第二字音映射表中的索引或位置的信息,以及关于与 该汉字对应的发音在第一字音映射表或第二字音映射表中的索引或位置的信息。根据本发明的又一个方面,提供一种用于电子设备中的词处理方法,所述电子设 备包括压缩词典,所述压缩词典中的每个词中的每个汉字与其发音的组合已利用根据本发 明的方法被压缩成16比特编码,所述方法包括字音映射表获取步骤,获取第一字音映射 表和第二字音映射表;以及解压缩步骤,利用所述第一字音映射表或第二字音映射表将与 所述压缩词典中的词中的汉字与其发音的组合对应的16比特编码进行解压缩。根据本发明的又一个方面,提供一种用于电子设备中的词处理系统,所述电子设备包括压缩词典,所述压缩词典中的每个词中的每个汉字与其发音的组合已利用根据本发 明的方法被压缩成16比特编码,所述系统包括字音映射表获取装置,获取第一字音映射 表和第二字音映射表;以及解压缩装置,利用所述第一字音映射表或第二字音映射表将与 所述压缩词典中的词中的汉字与其发音的组合对应的16比特编码进行解压缩。根据本发明的又一个方面,提供一种电子设备,所述电子设备包括压缩词典,所 述压缩词典中的每个词中的每个汉字与其发音的组合已利用根据本发明的方法被压缩成 16比特编码;以及根据本发明的词处理系统。根据本发明的又一个方面,提供一种利用压缩词典将文本转换为语音的文语转换 系统,所述文语转换系统包括压缩词典,所述压缩词典中的每个词中的每个汉字与其发音 的组合已利用根据本发明的方法被压缩成16比特编码;文本输入装置,用于输入文本;文 本处理装置,用于根据压缩词典将所述文本切分成词并且为所述词注音;以及语音生成装 置,用于基于所述文本处理装置的处理结果来产生语音。

根据本发明的又一个方面,提供一种电子设备,包括根据本发明的文语转换系 统;用于与所述文本输入装置接口的屏幕、键盘、以及鼠标中的至少一个;以及用于与所述 语音生成装置接口的扬声器、耳机、以及显示器中的至少一个。受益于根据本发明的上述方法和系统,可实现汉字与其发音占用的存储空间比以 往都更少的电子词典。具体地,例如,Big5字集使用2字节(16比特)来压缩一个汉字。根 据本发明,汉字与其发音的组合仅占用2字节(16比特),这与根据Big5字集的汉字本身所 占用的存储空间相等。也就是说,除了传统上用于汉字本身的16比特之外,发音信息将不 占用任何额外或附加的存储空间。此外,即使比2字节(16比特)多出1比特都将对实施存储造成不便,并且会使效 率降低。因此,使汉字与其发音的组合恰好为16比特在减少要使用的存储空间方面是非常 有益的。从以下参照附图的描述中,本发明的其他特性特征和优点将变得清晰。


并入说明书并且构成说明书一部分的附示本发明的实施例,并且与描述一起 用于说明本发明的原理。图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。图2是图示根据本发明的利用计算机来压缩词典中的电子数据的系统2000的示 例性框图。图3是图示根据本发明的在包含压缩词典的电子设备中使用的词处理系统3000 的示例性框图。图4是图示根据本发明的文语转换系统4000的示例性框图。图5是用于实施根据本发明的利用计算机来压缩词典中的电子数据的方法的流 程图。图6是示出根据本发明的用于形成第一字音映射表和第二字音映射表的优选过 程的流程图。图7是用于实施根据本发明的图5中的步骤S540的示例性压缩过程的流程图。
图8是图示利用根据本发明的压缩词典来处理词的方法的流程图。图9是图示利用根据本发明的压缩词典来处理用户输入的词的方法的流程图。图10是图示文语转换系统4000利用根据本发明的压缩词典而执行的过程的流程 图。
具体实施方式
以下将参照附图详细描述本发明的实施例。请注意,类似的参考数字和字母指代图中类似的项目,因而一旦在一幅图中定义 了一个项目,不必在之后的图中再讨论该项目。在本说明书中,“词典”是指中文电子词典,“字”是指汉字。在本说明书中,汉字的默认发音可以是该汉字的发音之一。例如,默认发音可以是 该汉字在统计上最频繁使用的发音。例如,默认发音可以是先验地发现人们在日常生活中 最频繁使用的发音,或者可以是词典中与该汉字对应的所有发音中对于该汉字出现次数最 多的发音。典型地,一个汉字仅具有一个默认发音,并且在一些情况下,该默认发音的声调 可以成为轻读。此外,多音汉字的非默认发音是指除了其默认发音之外的其他发音。多音汉字可 以具有一个或多个非默认发音。在本说明书中,词与其发音的组合与该词中的汉字与其发音的组合具有相同含 义。也就是说,词与其发音的组合意味着多个组合,每个组合都由该词中的一个汉字与其发 音构成。在本说明书中,压缩的词是指其中所有汉字与其发音都被压缩的词,压缩的字是 指该字与其发音一起根据本发明而被压缩成16比特编码的汉字。图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。如图1所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121 连接的处理单元1120、系统存储器1130、固定非易失性存储器接口 1140、移动非易失性存 储器接口 1150、用户输入接口 1160、网络接口 1170、视频接口 1190和输出外围接口 1195。系统存储器1130包括R0M(只读存储器)1131和RAM(随机存取存储器)1132。 BIOS(基本输入输出系统)1133驻留在ROM 1131内。操作系统1134、应用程序1135、其它 程序模块1136和某些程序数据1137驻留在RAM 1132内。诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口 1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模 块1146和某些程序数据1147。诸如软盘驱动器1151和⑶-ROM驱动器1155之类的移动非易失性存储器连接到 移动非易失性存储器接口 1150。例如,软盘可以被插入到软盘驱动器1151中,以及⑶(光 盘)可以被插入到⑶-ROM驱动器1155内。诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口 1160。计算机1110可以通过网络接口 1170连接到远程计算机1180。例如,网络接口 1170可以通过局域网1171连接到远程计算机1180。或者,网络接口 1170可以连接到调制 解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。 远程计算机1180可以包括诸如硬盘之类的存储器1181,其可以存储远程应用程 序 1185。视频接口 1190连接到监视器1191。输出外围接口 1195连接到打印机1196和扬声器1197。图1所示的计算机系统仅仅是说明性的并且决不意味着对本发明、其应用或用途 的任何限制。图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,也可作为 电子设备中的处理系统,可以移除一个或多个不必要的组件,也可以向其添加一个或多个 附加的组件。例如,当计算机系统1000用于电子词典设备、电子学习机、个人数字助理、移 动电话、摄影机、或多功能外围设备中时,例如可以不包括软盘驱动器1151和CD-ROM驱动 器 1155。图2是图示利用计算机来压缩词典中的电子数据的系统2000的示例性框图。如 图2所示,系统2000包括输入装置2100,输入待压缩词典,所述待压缩词典中以电子数据 形式存储有词与其发音;第一字音映射表形成装置2200,对于待压缩词典中的每个汉字, 将一个发音确定为默认发音,并且形成基于默认发音的第一字音映射表;第二字音映射表 形成装置2300,对于待压缩词典中的每个多音汉字,将除默认发音之外的剩余发音确定为 非默认发音,并且形成基于非默认发音的第二字音映射表;以及压缩装置2400,根据关于 待压缩词典中的每个词中的每个汉字与其发音的组合在第一字音映射表或第二字音映射 表中的索引或位置的信息,将该组合压缩为16比特编码,以形成包含具有16比特编码形式 的信息的压缩词典,其中,所述16比特编码包括关于该汉字在第一字音映射表或第二字音 映射表中的索引或位置的信息,以及关于与该汉字对应的发音在第一字音映射表或第二字 音映射表中的索引或位置的信息。图3是图示在包含压缩词典的电子设备中使用的词处理系统3000的示例性框图。 如图3所示,词处理系统3000包括字音映射表获取装置3300,获取第一字音映射表和第 二字音映射表;以及解压缩装置3400,利用所述第一字音映射表或第二字音映射表将与所 述压缩词典中的词中的汉字与其发音的组合对应的16比特编码进行解压缩。词处理系统3000可进一步包括词输入装置3100,由用户输入词;搜索装置 3200,利用第一字音映射表和第二字音映射表在压缩词典中搜索输入的词的压缩形式,所 述输入的词的压缩形式由多个16比特编码组成,每个16比特编码代表一个汉字与其发音 的组合,其中所述解压缩装置3400利用第一字音映射表或第二字音映射表,将从压缩词典 中搜索出的所述词的压缩形式中的每个16比特编码解压缩成该汉字与其发音的组合;以 及输出装置3500,通过文本和/或语音输出由所述解压缩装置3400获得的词的发音。所述解压缩装置3400可进一步包括第一确定装置3410,根据所述16比特编码 中的预定的一个比特确定该组合位于第一字音映射表中还是第二字音映射表中;以及第二 确定装置3430,在所述第一确定装置3410确定该组合位于第一字音映射表中的情况下, 根据剩余比特中的预定的14比特确定关于该汉字在第一字音映射表中的索引或位置的信 息,并且根据剩余的一个比特确定该发音是否为轻读;或者,在所述第一确定装置3410确 定该组合位于第二字音映射表中的情况下,根据剩余比特中的预定的12比特确定关于该汉字在第二字音映射表中的索引或位置的信息,并且根据剩余的3比特确定关于该汉字的 该发音在第二字音映射表中的位置的信息。 图4是图示文语转换系统4000的示例性框图,所述文语转换系统4000用于利用 压缩词典而将文本转换成语音,所述文语转换系统4000包括压缩词典,所述压缩词典中 的每个词中的每个汉字与其发音的组合已利用根据本发明的方法被压缩成16比特编码; 文本输入装置4100,用于输入文本;文本处理装置4300,用于根据压缩词典将所述文本切 分成词并且为所述词注音;以及语音生成装置4500,用于基于所述文本处理装置4300的处 理结果来产生语音。所述文本处理装置4300可优选包括文本切词装置4310,用于将文本切分为词, 以及词处理系统3000。以上装置是用于实施以下要描述的过程的示例性和/或优选的模块。以上并未详 尽地描述用于实施各个步骤的模块。然而,只要有执行某个过程的步骤,就可以有用于实施 同一过程的对应的功能模块或装置。通过以下描述的步骤以及与这些步骤对应的装置的所 有组合限定的技术方案都包括在本说明书的公开内容中,只要它们构成的这些技术方案是 完整并且可应用的。此外,由各个装置构成的上述系统可以被并入到诸如电子设备之类的硬件设备中 作为功能模块。除了这些功能模块之外,这些电子设备当然可以具有其他硬件或软件组件。将参照图5-7描述根据本发明的压缩中文电子词典的方法。图5是用于实施根据本发明的利用计算机来压缩词典中的电子数据的方法的流 程图。在步骤S510中,输入待压缩词典。待压缩词典中以电子数据的形式存储有词与其
躲立 反曰。在步骤S520中,形成第一字音映射表(也称为默认发音表,将在下文中更详细地 描述)O在步骤S530中,形成第二字音映射表(也称为非默认发音表,将在下文中更详细 地描述)。在步骤S540中,基于所述第一字音映射表或第二字音映射表,待压缩词典中的每 个词的每个汉字与其发音的每个组合被压缩成16比特编码。图6是示出用于形成第一字音映射表(步骤S520)和第二字音映射表(步骤S530) 的优选过程的流程图。请注意,虽然步骤S520和步骤S530在图5的流程图中是两个分开 的步骤,但是这两个步骤可以串行实施也可以并行实施。图6所示的流程图给出了其中步 骤S520和步骤S530并行执行的示例。图6左边分支的流程(即由步骤S610、S620、S630、 S640、S660、以及S670构成的流程)对应于步骤S520,而图6右边分支的流程(即由步骤 S610、S620、S630、S650、S660、以及S670构成的流程)对应于步骤S530。首先,初始的第一字音映射表和初始的第二字音映射表例如是空的。在步骤S610中,获得词典中的一个汉字,并且在步骤S620中考虑该汉字的一个发
曰O在步骤S630中确定在步骤S620中考虑的发音是否是在步骤S610中获得的汉字 的默认发音。该默认发音可以是该汉字的任何一个发音。例如可以将处理过程中对于该汉字处理的第一个发音作为默认发音。用于判断发音是否是该汉字的默认发音的准则也可以 是例如基于预先获取的统计信息。如上所述,汉字的默认发音可以是对于该汉字统计上最 频繁使用的发音。例如,默认发音可以是先验地发现人们在日常生活中最频繁使用的发音, 或者可以是词典中与该汉字对应的所有发音中对于该汉字出现次数最多的发音。典型地, 一个汉字仅具有一个默认发音,并且在一些情况下,该默认发音的声调可以成为轻读 。如果在步骤S630中确定在步骤S620中考虑的发音是该汉字的默认发音(步骤 S630中为“是”),则过程前进到步骤S640。在步骤S640中,通过向第一字音映射表添加 与该汉字和该默认发音的组合有关的信息来更新该第一字音映射表,并且过程前进到步骤 S660。否则,如果在步骤S630中确定在步骤S620中考虑的发音不是该汉字的默认发音 (即非默认发音)(步骤S630中为“否”),则过程前进到步骤S650。在步骤S650中,通过 向第二字音映射表添加与该汉字和该非默认发音的组合有关的信息来更新该第二字音映 射表,并且过程前进到步骤S660。在步骤S660中,确定对于当前汉字是否仍有另一发音未考虑。如果对于当前汉字 仍有另一发音未考虑(步骤S660中为“是”),则过程前进到步骤S620以对于当前汉字考 虑下一未考虑的发音。如果对于当前汉字没有其他发音未考虑(步骤S660中为“否”),则 过程前进到步骤S670以确定在词典中是否仍剩余有任何未考虑的汉字。如果在词典中仍 剩余有未考虑的汉字(步骤S670中为“是”),则过程前进到步骤S610以获得下一个汉字。 如果在词典中不剩余未考虑的汉字(步骤S670中为“否”),则完成对第一字音映射表和第 二字音映射表的形成,并且可以将第一字音映射表和第二字音映射表用于其他处理。表1示出第一字音映射表(默认发音表)的一个示例性示例。请注意,表1是其 中使用Big5字集的一个示例。然而,也可以使用其他字集。表1 第一字音映射表
权利要求
1.一种利用计算机压缩词典中的电子数据的方法,包括输入步骤,输入待压缩词典,所述待压缩词典中以电子数据形式存储有词与其发音; 第一字音映射表形成步骤,对于待压缩词典中的每个汉字,将一个发音确定为默认发 音,并且形成基于默认发音的第一字音映射表;第二字音映射表形成步骤,对于待压缩词典中的每个多音汉字,将除默认发音之外的 剩余发音确定为非默认发音,并且形成基于非默认发音的第二字音映射表;以及压缩步骤,根据关于待压缩词典中的每个词中的每个汉字与其发音的组合在第一字音 映射表或第二字音映射表中的索引或位置的信息,将该组合压缩为16比特编码,以形成包 含具有16比特编码形式的信息的压缩词典,其中,所述16比特编码包括关于该汉字在第一字音映射表或第二字音映射表中的索 引或位置的信息,以及关于与该汉字对应的发音在第一字音映射表或第二字音映射表中的 索引或位置的信息。
2.如权利要求1所述的方法,其中与该汉字对应的所有发音当中对于该汉字出现次数最多的发音被确定为默认发音。
3.如权利要求2所述的方法,其中在与所述汉字对应的所有发音当中,在待压缩词典中对于该汉字出现次数最多的发音 被确定为默认发音。
4.如权利要求1所述的方法,其中所述16比特编码中的一个比特表示所述组合位于第一字音映射表中还是第二字音映 射表中;在该组合位于第一字音映射表中的情况下,剩余比特中的14比特表示关于该汉字在 第一字音映射表中的索引或位置的信息,剩余的一个比特作为轻读标志;在该组合位于第二字音映射表中的情况下,剩余比特中的12比特表示关于该汉字在 第二字音映射表中的索引或位置的信息,且剩余的3比特表示关于与该汉字对应的发音在 第二字音映射表中的位置的信息。
5.一种利用计算机压缩词典中的电子数据的系统,包括输入装置,输入待压缩词典,所述待压缩词典中以电子数据形式存储有词与其发音; 第一字音映射表形成装置,对于待压缩词典中的每个汉字,将一个发音确定为默认发 音,并且形成基于默认发音的第一字音映射表;第二字音映射表形成装置,对于待压缩词典中的每个多音汉字,将除默认发音之外的 剩余发音确定为非默认发音,并且形成基于非默认发音的第二字音映射表;以及压缩装置,根据关于待压缩词典中的每个词中的每个汉字与其发音的组合在第一字音 映射表或第二字音映射表中的索引或位置的信息,将该组合压缩为16比特编码,以形成包 含具有16比特编码形式的信息的压缩词典,其中,所述16比特编码包括关于该汉字在第一字音映射表或第二字音映射表中的索 引或位置的信息,以及关于与该汉字对应的发音在第一字音映射表或第二字音映射表中的 索引或位置的信息。
6.如权利要求5所述的系统,其中与该汉字对应的所有发音当中对于该汉字出现次数最多的发音被确定为默认发音。
7.如权利要求6所述的系统,其中在与所述汉字对应的所有发音当中,在待压缩词典中对于该汉字出现次数最多的发音被确定为默认发音。
8.如权利要求5所述的系统,其中所述16比特编码中的一个比特表示所述组合位于第一字音映射表中还是第二字音映 射表中;在该组合位于第一字音映射表中的情况下,剩余比特中的14比特表示关于该汉字在 第一字音映射表中的索引或位置的信息,剩余的一个比特作为轻读标志;在该组合位于第二字音映射表中的情况下,剩余比特中的12比特表示关于该汉字在 第二字音映射表中的索引或位置的信息,且剩余的3比特表示关于与该汉字对应的发音在 第二字音映射表中的位置的信息。
9.一种用于电子设备中的词处理方法,所述电子设备包括压缩词典,所述压缩词典中 的每个词中的每个汉字与其发音的组合已利用根据权利要求1-4中任一项所述的方法被 压缩成16比特编码,所述方法包括字音映射表获取步骤,获取第一字音映射表和第二字音映射表;以及解压缩步骤,利用所述第一字音映射表或第二字音映射表将与所述压缩词典中的词中 的汉字与其发音的组合对应的16比特编码进行解压缩。
10.如权利要求9所述的词处理方法,还包括词输入步骤,由用户输入词;搜索步骤,利用第一字音映射表和第二字音映射表在压缩词典中搜索输入的词的压缩 形式,所述输入的词的压缩形式由多个16比特编码组成,每个16比特编码代表一个汉字与 其发音的组合,其中在所述解压缩步骤中,利用第一字音映射表或第二字音映射表,将从压 缩词典中搜索出的所述词的压缩形式中的每个16比特编码解压缩成该汉字与其发音的组 合;以及输出步骤,通过文本和/或语音输出在所述解压缩步骤中获得的词的发音。
11.如权利要求9或10所述的词处理方法,其中,所述解压缩步骤包括第一确定步骤,根据所述16比特编码中的预定的一个比特确定该组合位于第一字音 映射表中还是第二字音映射表中;以及第二确定步骤,在所述第一确定步骤中确定该组合位于第一字音映射表中的情况下, 根据剩余比特中的预定的14比特确定关于该汉字在第一字音映射表中的索引或位置的信 息,并且根据剩余的一个比特确定该发音是否为轻读;或者,在所述第一确定步骤中确定该 组合位于第二字音映射表中的情况下,根据剩余比特中的预定的12比特确定关于该汉字 在第二字音映射表中的索引或位置的信息,并且根据剩余的3比特确定关于该汉字的该发 音在第二字音映射表中的位置的信息。
12.一种用于电子设备中的词处理系统,所述电子设备包括压缩词典,所述压缩词典中 的每个词中的每个汉字与其发音的组合已利用根据权利要求1-4中任一项所述的方法被 压缩成16比特编码,所述系统包括字音映射表获取装置,获取第一字音映射表和第二字音映射表;以及解压缩装置,利用所述第一字音映射表或第二字音映射表将与所述压缩词典中的词中的汉字与其发音的组合对应的16比特编码进行解压缩。
13.如权利要求12所述的词处理系统,还包括 词输入装置,由用户输入词;搜索装置,利用第一字音映射表和第二字音映射表在压缩词典中搜索输入的词的压缩 形式,所述输入的词的压缩形式由多个16比特编码组成,每个16比特编码代表一个汉字与 其发音的组合,其中所述解压缩装置利用第一字音映射表或第二字音映射表,将从压缩词 典中搜索出的所述词的压缩形式中的每个16比特编码解压缩成该汉字与其发音的组合; 以及输出装置,通过文本和/或语音输出由所述解压缩装置获得的词的发音。
14.如权利要求12或13所述的词处理系统,其中,所述解压缩装置包括第一确定装置,根据所述16比特编码中的预定的一个比特确定该组合位于第一字音 映射表中还是第二字音映射表中;以及第二确定装置,在所述第一确定装置确定该组合位于第一字音映射表中的情况下,根 据剩余比特中的预定的14比特确定关于该汉字在第一字音映射表中的索引或位置的信 息,并且根据剩余的一个比特确定该发音是否为轻读;或者,在所述第一确定装置确定该组 合位于第二字音映射表中的情况下,根据剩余比特中的预定的12比特确定关于该汉字在 第二字音映射表中的索引或位置的信息,并且根据剩余的3比特确定关于该汉字的该发音 在第二字音映射表中的位置的信息。
15.一种电子设备,所述电子设备包括压缩词典,所述压缩词典中的每个词中的每个汉字与其发音的组合已利用根据权利要 求1-4中任一项所述的方法被压缩成16比特编码;以及 根据权利要求12-14中任一项所述的词处理系统。
16.如权利要求15所述的电子设备,其中,所述电子设备是电子词典设备、电子学习 机、个人数字助理、移动电话、摄影机、以及多功能外围设备中之一。
17.如权利要求15所述的电子设备,还包括用于与所述词输入装置接口的屏幕、键盘、 以及鼠标中的至少一个。
18.根据权利要求15所述的电子设备,还包括用于与所述输出装置接口的扬声器、耳 机、以及显示设备中的至少一个。
19.一种利用压缩词典将文本转换为语音的文语转换系统,所述文语转换系统包括 压缩词典,所述压缩词典中的每个词中的每个汉字与其发音的组合已利用根据权利要求1-4中任一项所述的方法被压缩成16比特编码; 文本输入装置,用于输入文本;文本处理装置,用于根据压缩词典将所述文本切分成词并且为所述词注音;以及 语音生成装置,用于基于所述文本处理装置的处理结果来产生语音。
20.根据权利要求19所述的文语转换系统,其中所述文本处理装置包括 文本切词装置,用于将文本切分为词;以及根据权利要求12-14中任一项所述的词处理系统。
21.一种电子设备,包括根据权利要求19或20所述的文语转换系统;用于与所述文本输入装置接口的屏幕、键盘、以及鼠标中的至少一个;以及 用于与所述语音生成装置接口的扬声器、耳机、以及显示器中的至少一个。
22.根据权利要求21所述的电子设备,其中,所述电子设备是电子词典设备、电子学习 机、个人数字助理、移动电话、摄影机、以及多功能外围设备中之一。
全文摘要
本发明提供利用计算机压缩词典中的电子数据的方法,包括输入待压缩词典,所述待压缩词典中存储有词与其发音;对于每个汉字,将出现次数最多的发音确定为默认发音,并且形成基于默认发音的第一字音映射表;对于每个多音汉字,将除默认发音之外的剩余发音确定为非默认发音,并且形成基于非默认发音的第二字音映射表;以及根据关于每个汉字与其发音的组合在第一或第二字音映射表中的索引或位置的信息,将该组合压缩为16比特编码,以形成包含具有16比特编码形式的信息的压缩词典,其中,所述16比特编码包括关于该汉字在第一或第二字音映射表中的索引的信息,以及关于该发音在第一或第二字音映射表中的索引的信息。
文档编号G06F17/30GK102033859SQ200910176368
公开日2011年4月27日 申请日期2009年9月28日 优先权日2009年9月28日
发明者亓超, 康恒, 金浩 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1