带有易混淆音识别的拼音检查系统和方法

文档序号:6612076阅读:262来源:国知局
专利名称:带有易混淆音识别的拼音检查系统和方法
技术领域
本发明涉及一种拼音检查技术,特别是涉及一种带有易混淆音识别的拼 音检查技术。
背景技术
随着科学技术的飞速发展,尤其是计算机逐渐步入社会的各个角落,并 且广泛地使用计算机已成为现代杜会发展的必然趋势。然而,由于计算机的 发明和主要应用都是在西方,因此,在中国推广使用计算机必然会产生一些 障碍,而其中最主要的为语言文字的障碍。由于计算;bL—般都以英文字母进 行显示和操作,所以对大部分中国人来说,用英文熟练的操作计算机是非常 困难的。因此,计算机在中国的使用和普及受到了方块字这一瓶颈口的限制。
为了排除这一障碍,自70年代以来,我国已设计了许多种输入方案。据 杂志上报道已有七、八百种。其中有形码、音码、形音码、数字码等编码方 案,如五笔字型法(国家专利局专利号为CN85100837A),这些编码输入法有 两个突出的缺点第一,输入的是编码,而不是"字",编码与字之间要有一个 转化过程。操作人员必须先学习编码,才能操作,不便于推广普及。第二, 靠编码输入的是单个汉字,单个汉字多数是不具有意义的词,是一种低级的 输入方式。
为了解决上述问题,国家推行了《汉语拼音方案》输入法,如双拼法(国 家专利局专利号为CN87100313A)。因为它输入的是字母,而不是编码,不存 在编码与字之间的转化过程。虽然说它的输入速度可能不如某些编码方案, 但就输入方式来说,它要比编码方案科学。
但《汉语拼音方案》输入法存在着若干缺点,虽然经过十年的实验和推 广,编订了一个正词法,但很不完善,输入电脑时重码率太高,词汇难以定 型。为了解决这一问题,提出了拼写纠错技术。
拼写纠错是一般电脑内处理文字资料的应用软件中不可或缺的一项重要
功能。这些处理文字资料的应用软件除字处理软件(word processor)外,亦包括 数据库(database)及试算表(sreadsheet)等等,藉以减少撰写的文稿或数据库中
文字资料中的输入错误。
拼写纠错在搜索引擎中有相当应用,主要用于纠正输入错误从而引导用 户正确查询,目前实现的主要技术都是基于拼音纠错,如baidu(百度)上, 输入"兵裹",baidu查询页面会提示"您要找的是不是苹果"。
拼写纠错的另 一个应用在拼音的输入法中,当用户输入一个不存在的拼 音时,能推荐一些可能的词。
但是,上述拼写纠错技术只能推荐有相同发音的词,而没法推荐有易混 淆音的词,如只能实现根据"乒裹(pingguo)"推荐"苹果(pingguo)",而无 法根据"品郭(pinguo)"推荐"苹果(pingguo)"。由于有大量地区的方言存在, 发音并不那么准确,因此会造成大量易混淆音的存在,如在浙江地区,往往 分不清翘舌音/平舌音,前鼻音/后鼻音。在这种情况下,仍然会造成输入错误, 并不能起到更智能化的作用,没有人性化。

发明内容
本发明的目的在于提供一种带有易混淆音识别的拼音检查系统和方法, 以解决现有技术不能利用发音的相似性来矫正用户中文输入中可能出现的错 误,解决各地区方言与普通话的混淆,进而导致输入容易出错的技术问题。
一种带有易混淆音识别的拼音检查系统,包括文件存储空间和拼音检查 处理单元,而所述文件存储空间包括词库存储单元、汉字拼音存储单元和汉 字混淆音存储单元,所述拼音检查处理单元包括汉字4并音索引处理子单元、 词库拼音索引处理子单元和汉字易混淆音索引处理子单元。
其中,所述系统还包括索引存储空间,所述索引存储空间包括 汉字拼音索引文件用以保存根据汉字从汉字拼音存储单元中得到发音 的索引结构;
汉字易混淆音索引文件用以保存根据拼音在所述汉字混淆音索引处理 单子单元上找到其对应的易混淆拼音的索引结构;
词库拼音索引文件用以保存根据拼音在词库存储单元上找到所有对应 词的索引结构。
特别地,所述词库存储单元是按照词发音的哈希运算值从小到大或从大 到小有顺序排序;
所述词库拼音索引文件进一步包括拼音哈希值索引子文件、列表地址 索引子文件,其中,
拼音哈希值索引子文件用于根据拼音的哈希值从小到大或从大到小有 顺序地保存有每一^^合希值在列表地址索引子文件中对应的列表地址;
列表地址索引子文件用于保存每个列表地址对应的具有相同拼音的词 个数以及该些词在词库存储单元中对应的存储地址信息。
词库拼音索引处理子单元进一步包括 哈希计算子单元用于计算词拼音的哈希值;
哈希值索引处理子单元用于将计算出来的哈希值在所述拼音哈希值索 引子文件中找到对应的列表地址;
列表地址处理子单元用于将所述列表地址在列表地址索引子文件中找 到对应的词个数及每个词在词库存储单元的存储地址信息;
词库处理子单元用于将列表地址处理子单元找到的该些词的存储地址 信息,在词库存储单元中找到对应的词。
基于该系统,提出一种带有易混淆音识别的拼音检查方法,包括步骤,
(1) 设置存储词的词库存储单元、存储汉字拼音的汉字拼音存储单元,和 存储易混淆拼音的汉字混淆存储单元;
(2) 接收用户输入的关键字,在所述汉字拼音存储单元中搜索到对应的拼
音;
(3) 接收所述汉字拼音存储单元发送的拼音,在所述汉字混淆音存储单元 中搜索出对应的混淆拼音;
(4)分别接收步骤(2)和步骤(3)提供的拼音,在所述词库存储单元中搜索得 到对应的词。
其中,步骤(l)中设置词库存储单元进一步为按照词发音的哈希运算值 从小到大或从大到小有顺序地在词库存储单元中排序。
步骤(l)还包括
设置拼音哈希值索引子文件根据拼音的哈希值从小到大或从大到小有 顺序地保存有每一哈希值在列表地址索《I子文件中对应的列表地址;
设置列表地址索引子文件保存每个列表地址对应的具有相同拼音的词 个数以及该些词在词库存储单元中对应的存储地址信息
步骤(4)中在所述词库存储单元中搜索得到对应的词进一步包括 计算每个词拼音的哈希值;
将计算出来的哈希值在所述拼音哈希值索引子文件中找到对应的列表地

将所述列表地址在列表地址索引子文件中找到对应的词个数及每个词在 词库存储单元的存储地址信息;
将列表地址处理子单元找到的该些词的存储地址信息,在词库存储单元 中找到对应的词。
优选地,步骤(l)设置汉字拼音存储单元进一步包括
将汉字作为二叉树的key,把拼音做为二叉树的value值,若是多音字, 则在二叉树上增加对应条记录;
步骤(l)设置汉字混淆存储单元进一步包括
将每个拼音作为二叉树的key,该拼音的易混淆拼音作为value值,若是 多个易混淆拼音,则在二叉树上增加对应条记录。
本发明的有益效果是通过引入易混淆音的识别,解决各地区方言与普通 话的混淆问题,利用发音的相似性,如翘舌音/平舌音、前鼻音/后鼻音等发音 相似,来矫正用户中文输入时出现的错误,使拼写纠错更智能化和人性化, 提高了汉字输入的准确性。


图1为本发明第一种带有易混淆音识别的^f音检查系统的结构示意图; 图2为本发明词库拼音索引处理子单元的结构示意图; 图3为本发明第二种带有易混淆音识别的拼音检查系统的结构示意图; 图4为本发明釆用带有易混淆音识别的拼音检查方法时词库拼音索引处
理子文件结构示意图5为本发明一种带有易混淆音识别的拼音检查方法的流程图6为本发明采用带有易混淆音识别的拼音检查方法时词库拼音索引处
理子文件结构应用示意图。
具体实施例方式
以下结合附图,具体说明本发明。
请参阅图1,其为本发明第一种带有易混淆音识别的拼音检查系统的结构 示意图。它包括文件存储空间100和拼音检查处理单元200。文件存储空间 100主要用于存储输入的关键字及各汉字对应的拼音和易混淆音。所述拼音检 查处理单元200主要用于对输入的关键字进行拼音标注及查找其易混淆音, 得出对应的词。
其中,所述文件存储空间100通常为一存储器,或存储器中开辟的存储 单元。从功能上来划分,主要包括汉字拼音存储单元110、汉字混淆音存储单 元120和词库存储单元130。
汉字拼音存储单元110,用于存储汉字对应的标准拼音。所述汉字拼音存 储单元110中按一定的格式存储汉字及其对应的标准拼音。 一般的存储格式 为"汉字拼音,,其中,如果一个汉字为多音字时,在两个拼音之间加","。如 "苹ping"、"盛sheng, cheng"。所述每个存储单元中只存储一个汉字及其 对应的拼音。
汉字拼音存储单元110可以以字典的顺序来依次存储每个汉字对应^J拼 音,当该字为多音字时,可以采用多存一个存储单元,该存储单元为该汉字
对应的另一个拼音。由于这种方式存储汉字,在进行汉字拼音查找时,速度
比较慢。本发明的实施例时,汉字拼音存储单元110是以二叉树存取的方式 存储汉字及对应的拼音。即,汉字作为二叉树的key,汉字的拼音作为二叉树 的value值。如果是多音字,则每个发音插入一次,在保存时就会有二条记录。 通过这种方式保存时,在取汉字对应的拼音时可以更快捷。
汉字混淆音存储单元120,用于存储所述汉字拼音存储单元中每个拼音对 应的易混淆拼音。所述汉字混淆音存储单元120中按一定的格式存储容易混 淆的拼音。 一般的存储格式为"拼音易混淆音",其中,如果一个拼音存在多 个混淆音时,在两个混淆音之间加","。 一般因为各地的方言的存在,而方言 造成的发音一般分别以下两类翘舌音/平舌音,前鼻音/后鼻音。因此,在汉 字混淆音存储单元120中存储的大部分为翘舌音/平舌音,前鼻音/后鼻音的混 淆音,如"ping: pin"、 "sheng: shen, seng, shen,,。
汉字混淆音存储单元120可以以一定顺序来依次存储每个拼音对应的混 淆拼音,当该拼音为多个混淆音时,可以采多存一个存储单元,该存储单元 为该拼音对应的另一个易混淆拼音。由于这种方式存储易混淆拼音,在进行 混淆拼音查找时,速度比较慢。本发明的实施例时,汉字混淆音存储单元120 是以二叉树存取的方式存储每个拼音及对应的易混淆拼音。即,拼音作为二 叉树的key,该拼音的易混淆拼音作为二叉树的value值。如果是多个易混淆 拼音,则每个易混淆拼音插入一次,在保存时就会有二条记录。通过这种方 式保存时,在取该^汫音对应的易混淆拼音时可以更快捷。汉字混淆音存储单 元的易混淆音可以由用户根据实际需要进行自由配置。
词库存储单元130,用于存储作为候选对象的词,其主要是所有作为候选 对象的词的集合。词库存储单元130按一定顺序存储该些词,可以按照字典 的方式保存,也可以按照其它方式保存。为了方便查找,可以预先记录每个 词存储的地址信息,如绝对存储地址信息。本发明也可以是保存该词存储的 地址与词库存储单元130的首地址之间的偏移地址信息,这样,当获得一个 词的存储地址信息时,能快速找到对应的词,提高其读取速度。
所述拼音检查处理单元200主是用于对输入的关键字进行拼写检查操作。 它通常是处理器通过编程来实现拼写检查的工作的。从逻辑上来划分,所述
拼音检查处理单元200能进一步划分为汉字拼音索引处理子单元210、汉字混 淆音索引处理子单元220和词库拼音索引处理子单元230。
所述汉字拼音索引处理子单元210,用于接收用户输入的关键字,在所述 汉字拼音存储单元110中搜索到对应的拼音。汉字拼音索引处理子单元210 可以顺序的方式依次在汉字拼音存储单元110中找到对应的拼音。但是考虑 到查找效率实在太慢,当汉字拼音存储单元110是以二叉树存取的方式保存 所述汉字和拼音的对应关系时,汉字拼音索引处理子单元210可以采用 multimap (即二叉树方式)进行查找。multimap是std的一个容器,采用平衡 二叉树结构组织,其对key按照平衡二叉树结构组织,因此可通过key快速的 获取对应的value值。其中key之间允许含有相同值。
具体说,保存时采用汉字作为multimap的key,汉字所对应的拼音作为 multimap的value。如果是多音字,则每个发音插入一次。如"苹",在multimap 中有一条记录,即<苹,ping>。而"盛"为多音字,在multimap就有两条记录, 分另'J为〈盛,sheng>, <盛,cheng>。
当该汉字拼音索引处理子单元210工作时,首先获得输入的关键字,将 该关键字转变成multimap的key,随后通过该模块的multimap在汉字拼音存 储单元110中查找平衡二叉树的value值,得到该些关键字所对应的拼音。其 整个工作过程称为拼音标注过程。
所述汉字混淆音索引处理子单元220,用于根据汉字拼音索引处理子单元 210提供的拼音在汉字混淆音存储单元120中搜索出其易混淆音。其中,所述 易混淆音包括翘舌音/平舌音,前鼻音/后鼻音。汉字混淆音索引处理子单元220 处理的原理与汉字拼音索引处理子单元210类似,在此不再赘述了 。
参照图2,其为本发明词库拼音索引处理子单元的结构示意图。
所述词库拼音索引处理子单元230,用于接收所述汉字拼音索引处理子单 元210和所述汉字混淆音索引处理子单元220提供的拼音,在所述词库存储 单元中搜索得到对应的词。后续会着重介绍,在此先省略。
本发明的所述系统还包括索引存储空间300,用于保存索引信息。所述索
引存储空间300包括
汉字拼音索引文件310:用以保存根据汉字从汉字拼音存储单元110中得 到发音的索引信息。通常,汉字拼音索引文件310中保存有如何找到汉字拼 音存储单元110的发音的索引规则,汉字拼音存储单元110的存储地址信息 等。索引规则通常是指按什么顺序去查找。汉字拼音索引文件310可以在存 储器中开辟一存储空间进行保存,也可以设置在汉字拼音索引处理单元210 上,换句话说,汉字拼音索引文件310从逻辑上可以省略。
汉字易混淆音索引文件320:用以保存根据拼音在所述汉字混淆音索引存 储单元120中找到对应的易混淆音的索引信息。所述索引信息包括索引规则 和汉辽混淆音索引存储单元120的地址信息。同样,汉字易混淆音索引文件 320可以在存储器中开辟一存储空间进行保存,也可以设置在汉字混淆音索引 处理子单元220上。
词库拼音索引文件330:用以保存根据拼音在词库存储单元上找到所有对 应词的索引信息。以下就着重介绍本发明的词库拼音索引文件330,它仅是本 发明的一个最佳实施方式,但不是来局限本发明的。
所述词库存储单元130可以按照词发音的哈希运算值从小到大或从大到 小有顺序排序。
所述词库拼音索引文件330进一步包括拼音哈希值索引子文件410、列 表地址索引子文件420,其中,
拼音哈希值索引子文件410:用于根据拼音的哈希值从小到大或从大到小
有顺序地保存有每一哈希值在列表地址索引子文件420中对应的列表地址信 台
列表地址索引子文件420:用于保存每个列表地址对应的具有相同拼音的 词个数以及该些词在词库存储单元130中对应的存储地址信息。
以下就举一个应用例来说明词库拼音索引文件330。 请参阅图4,其为词库拼音索引文件330的一应用例示意图。拼音哈希值 引子文件410保存的是哈希值与列表地址的对应关系。当词计算出来的哈希
值相同时,对应的列表地址是相同的。也就是说,通过哈希值即可能找到列 表地址。列表地址信息可以是列表地址的存储地址的绝对地址信息,也可是 偏移地址或其它地址。
列表地址索51文件保存的具有该哈希值相同的词的个数,以及该词在词
库存府单元130中对应的存储地址信息。
针对上述的词库拼音索引文件330,则词库拼音索引处理子单元进一步包 括哈希计算子单元231、哈希值索引处理子单元232,列表地址处理子单元233 和词库处理子单元234其中,
哈希计算子单元231:用于计算词拼音的哈希值。所述各词拼音的哈希值 组成各词拼音的基本信息。所述哈希计算子单元231采用哈希算法获得各词 拼音的哈希值。
哈希值索引处理子单元232:用于将计算出来的哈希值找到对应的列表地址。
列表地址处理子单元233:用于将所述列表地址在列表地址索引子文件 420中找到对应的词个数及每个词在词库存储单元130的存储地址信息;
词库处理子单元234:用于将列表地址处理子单元找到的该些词的存储地 址信息,在词库存储单元130中找到对应的词。
基于上述带有易混淆音识别的拼音检查方法的系统,本发明提出带有易 混淆音识别的拼音检查方法。参照图5,其包括
Sl:设置存储词的词库存储单元、存储汉字拼音的汉字拼音存储单元, 和存储易混淆拼音的汉字混淆存储单元。
步骤S1中设置词库存储单元进一步为按照词发音的哈希运算值从小到 大或从大到小有顺序地在词库存储单元中排序。
设置汉字拼音存储单元进一步包括
将汉字作为二叉树的key,把拼音做为二叉树的value值,若是多音字, 则在二叉树上增加对应条记录;
步骤Sl设置汉字混淆存储单元进一步包括
将每个拼音作为二叉树的key,该拼音的易混淆拼音作为value值,若是 多个易混淆拼音,则在二叉树上增加对应条记录。
步骤S1还包括
设置拼音哈希值索引子文件根据拼音的哈希值从小到大或从大到小有 顺序地保存有每一哈希值在列表地址索引子文件中对应的列表地址;
设置列表地址索引子文件保存每个列表地址对应的具有相同拼音的词 个数以及该些词在词库存储单元中对应的存储地址信息。
S2:接收用户输入的关键字,在所述汉字拼音存储单元中搜索到对应的 拼音。采用multimap,将输入的关键字转变成multimap的key,随后通过该 模块的multimap在汉字拼音存储单元中查找平衡二叉树的value值,得到该 些关键字所对应的拼音。如果存在多个拼音,则在多个拼音之间用空格分割。
S3:接收所述汉字拼音存储单元发送的拼音,在所述汉字混淆音存储单 元中搜索出对应的混淆拼音。其中,所述易混淆音包括翘舌音/平舌音,前鼻 音/后鼻音。采用multimap,将汉字拼音索引处理子单元提供的每个拼音作为 multimap的key,在汉字混淆音存储单元中查找平衡二叉树的value值,得到 该些拼音所对应的混淆音。
S4:分别接收步骤S2和步骤S3提供的拼音,在所述词库存储单元中搜 索得到对应的词。
步骤S4中在所述词库存储单元中搜索得到对应的词进一步'包括 计算每个词拼音的哈希值;
将计算出来的哈希值在所述拼音哈希值索引子文件中找到对应的列表地

将所述列表地址在列表地址索引子文件中找到对应的词个数及每个词在 词库存储单元的存储地址信息;
将列表地址处理子单元找到的该些词的存储地址信息,在词库存储单元 中找到对应的词。所述存储地址信息为地址针对首地址的偏移量。
以下就以 一具体示例来il明上述流程。请参阅图6,其为本发明采用带有易混淆音识别的拼音检查方法时词库拼 音索引处理子文件结构应用示意图。
假设,词库存储单元130分别存储"苹果"、"品郭"、"橡胶"、"香蕉"、"浙 江",其对应的存储地址信息为偏移地址信息,比如,"苹果"、"品郭"、"橡胶"、 "香蕉"、"浙江"各自对应的针对词库存储单元130首地址PBase的偏移地址分 别为"20"、 "25"、 "30"、 "35"、 "40"。
拼音哈希值索引文件410中分别存储hash(ping guo)、 hash(pin guo)、 hash(xiangjiao)、 hash(zhe jiang)对应的词库拼音索引文件420中的地址信息, 所述地址信息为针对列表地址索引子文件420首地址的偏移地址,则hash(ping guo)、 hash(pin guo)、 hash(xiang jiao)、 hash(zhe jiang)对应的词库拼音索引文 件420首地址的偏移地址分别为"10"、 "12"、 "14"、 "17"。
列表地址索引子文件420中,偏移地址为"10,,的存储单元中存储的是其 pingguo拼音的词个数为1,该词在词库存储单元130中对应的存储地址信息 (即偏移地址为20)、偏移地址为"12,,的存储单元中存储的是其"pinguo"拼 音的词个数为1,该词在词库存储单元130中对应的存储地址信息(即偏移地 址为25 )、偏移地址为"14"的存储单元中存储的是其xiang jiao拼音的词个数 为2,以每个词在词库存储单元130中对应的存储地址信息(即偏移地址为 30、 40)、偏移地址为"17"的存储单元中存储的是其zhejiang拼音的词个数为 1,该词在词库存储单元130中对应的存储地址信息(即偏移地址为40)。
在设置汉字易混淆音存储单元时,将"pin,,容易混淆的拼音中对应设置有 "ping"。
假设用户想输入"苹果",但是由于发音的不准确,却输入的"拼郭"时,首 先检索汉字拼音存储单元,分别找到对应的拼音"pin""guo",查找汉字易混淆 音存储单元时,即可找到"pin"对应的混淆音"ping"。随后计算"pinguo,,和"ping guo"的hash值,通过hash值查找拼音哈希值索引子文件410中的地址,分别 获得对应的地址信息(偏移地址为10、 12),随后查找列表地址索引子文件 420即可获得词库存储单元130对应的地址信息(偏移地址为20、 30),后从 词库存储单元130中找到对应的词"苹果"、"品郭",提示用户是否是该些词中
的其中之一,进而降低拼写错误。
以上公开的仅为本发明的几个具体实施例,但本发明并非局限于此,任 何本领域的技术人员能思之的变化,都应落在本发明的保护范围内。
权利要求
1、一种带有易混淆音识别的拼音检查系统,用于根据输入的关键字得出其对应的候选对象的词条,其特征在于,包括文件存储空间、拼音检查处理单元,其中,所述文件存储空间包括词库存储单元,用于存储作为候选对象的词,汉字拼音存储单元,用于存储汉字对应的标准拼音,以及汉字混淆音存储单元,用于存储所述汉字拼音存储单元中每个拼音对应的易混淆拼音;所述拼音检查处理单元包括汉字拼音索引处理子单元,用于接收用户输入的关键字,在所述汉字拼音存储单元中搜索到对应的拼音;汉字混淆音索引处理子单元,用于接收所述汉字拼音存储单元发送的拼音,在所述汉字混淆音存储单元中搜索出对应的混淆拼音;词库拼音索引处理子单元,用于接收所述汉字拼音索引处理子单元和所述汉字混淆音索引处理子单元提供的拼音,在所述词库存储单元中搜索得到对应的词。
2、 如权利要求l所述的系统,其特征在于,所述系统还包括索引存储空 间,所述索引存储空间包括汉字拼音索引文件用以保存根据汉字从汉字拼音存储单元中得到发音 的索引信息;汉字易混淆音索引文件用以保存根据拼音在所述汉字混淆音存储单元 上找到其对应的易混淆拼音的索引信息;词库拼音索引文件用以保存根据拼音在词库存储单元上找到所有对应 词的索引信息。
3、 如权利要求2所述的系统,其特征在于, 所述词库存储单元是按照词发音的哈希运算值从小到大或从大到小有顺序排序;所述词库拼音索引文件进一步包括拼音哈希值索引子文件、列表地址索引子文件,其中,拼音哈希值索引子文件用于根据拼音的哈希值从小到大或从大到小有 顺序地保存有每一哈希值在列表地址索引子文件中对应的列表地址;列表地址索引子文件用于保存每个列表地址对应的具有相同拼音的词 个数以及该些词在词库存储单元中对应的存储地址信息。
4、 如权利要求3所述的系统,词库拼音索引处理子单元进一步包括 哈希计算子单元用于计算词拼音的哈希值;哈希值索引处理子单元用于将计算出来的哈希值在所述拼音哈希值索 引子文件中找到对应的列表地址;列表地址处理子单元用于将所述列表地址在列表地址索引子文件中找 到对应的词个数及每个词在词库存储单元的存僻地址信息;词库处理子单元用于将列表地址处理子单元找到的该些词的存储地址 信息,在词库存储单元中找到对应的词。
5、 一种带有易混淆音识别的拼音检查方法,其特征在于,包括步骤,(1) 设置存储词的词库存储单元、存储汉字拼音的汉字拼音存储单元,和 存储易混淆拼音的汉字混淆存储单元;(2) 接收用户输入的关键字,在所述汉字拼音存储单元中搜索到对应的拼音;(3) 接收所述汉字拼音存储单元发送的拼音,在所述汉字混淆音存储单元 中搜索出对应的混淆拼音;(4) 分别接收步骤(2)和步骤(3)提供的拼音,在所述词库存储单元中搜索得 到对应的词。
6、 如权利要求5所述的方法,其特征在于,步骤(l)中设置词库存储单元进一步为按照词发音的哈希运算值从小到 大或从大到小有顺序地在词库存储单元中排序。
7、 如权利要求6所述的方法,步骤(l)还包括设置拼音哈希值索引子文件根据拼音的哈希值从小到大或从大到小有 顺序地保存有每一哈希值在列表地址索引子文件中对应的列表地址;设置列表地址索?I子文件保存每个列表地址对应的具有相同拼音的词 个数以及该些词在词库存储单元中对应的存储地址信息。
8、 如权利要求7所述的方法,其特征在于,步骤(4)中在所述词库存储单 元中搜索得到对应的词进一步包括计算每个词拼音的哈希值;址将所述列表地址在列表地址索引子文件中找到对应的词个数及每个词在 词库存储单元的存储地址信息;将列表地址处理子单元找到的该些词的存储地址信息,在词库存储单元 中找到对应的词。
9、 如权利要求8所述的方法,其特征在于,所述存储地址信息为地址针 对首地址的偏移量。
10、 如权利要求5所述的方法,其特征在于, 步骤(l)设置汉字拼音存储单元进一步包括将汉字作为二叉树的key,把拼音做为二叉树的value值,若是多音字, 则在二叉树上增加对应条记录;步骤(l)设置汉字混淆存储单元进一步包括将每个拼音作为二叉树的key,该拼音的易混淆拼音作为value值,若是 多个易混淆拼音,则在二叉树上增加对应条记录。
全文摘要
本发明公开了一种带有易混淆音识别的拼音检查系统,包括文件存储空间和索引存储空间,文件存储空间包括词库存储单元、汉字拼音存储单元和汉字混淆音存储单元,拼音检查处理单元包括汉字拼音索引处理子单元、词库拼音索引处理子单元和汉字易混淆音索引处理子单元。对应,本发明还提供了拼音检查方法,包括(1)设置词库存储单元、汉字拼音存储单元,和汉字混淆存储单元;(2)接收用户输入的关键字,在汉字拼音存储单元中搜索到对应的拼音;(3)接收汉字拼音存储单元发送的拼音,在汉字混淆音存储单元中搜索出对应的混淆拼音;(4)分别接收步骤(2)和步骤(3)提供的拼音,在词库存储单元中搜索得到对应的词。本发明提高了汉字输入的准确性。
文档编号G06F17/30GK101388012SQ20071014948
公开日2009年3月18日 申请日期2007年9月13日 优先权日2007年9月13日
发明者孙海涛, 施行向 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1