一种中文拼音输入方法及系统的制作方法

文档序号:6573718阅读:213来源:国知局

专利名称::一种中文拼音输入方法及系统的制作方法
技术领域
:本发明涉及中文信息处理领域,更具体地说,涉及一种中文拼音输入方法及系统。
背景技术
:现在已涌现出多种汉字输入方法,而以拼音为应用基础的中文拼音输入法是其中最普遍、最易掌握的一种。中文拼音输入法主要包括全拼输入及简拼输入。当用户要输入词组时,若釆用全拼输入,须键入正确完整的声母和韵母的组合,若采用简拼输入,可不键入韵母,但须键入正确完整的声母的组合。若词组中的某个或某几个声母不正确,就不能获得正确的结果,无法满足用户的需要。随着智能输入技术的飞跃发展,智能化的拼音输入法已经得到了广泛的应用,用户追求更便捷的功能选项,而模糊音输入法也应运而生。该方法基于如附图l所示的中文拼音输入系统,该系统包括输入单元100、拼音切分单元200、模糊音处理单元300、汉字匹配单元400、中文词库500以及输出单元600。该系统实现模糊匹配的过程,通过一个筒单的示例阐述如下(1)首先利用拼音切分单元200对输入单元100中输入的拼音进行切分,例如用户输入的拼音是siwuqianli,那么拼音切分结果是si,篇,qian,li;(2)利用才莫糊音处理单元300对拼音切分结果中的"si"这个音节进行模糊处理,得到si,shi;(3)汉字匹配单元400根据模糊处理后的结果,从中文词库500中搜索对应的中文词组,得到史无前例,并将该词组显示到候选框中;(4)用户选定后,则利用输出单元600输出该词组。由上可知,在该现有的模糊音输入法中,其对音节进行的模糊处理实质上是对近似拼音的扩展,因此其准确性依赖于用户输入内容,智能化程度比较低。当出现非常生僻的字,用户无法准确把握其拼音时,则无法获得用户期望的结果,要么无法输出,要么输出错误,无法保证输出结果的准确性;而且,用户若多次试验以寻找正确词组又会浪费大量时间,导致效率低下。因此需要一种新的具有较强智能性的中文拼音输入方法,当用户输入的中文拼音中有一个或者多个字的拼音不确定时,也能够根据该拼音快速输出准确的中文词组。
发明内容本发明的目的在于提供一种中文拼音输入系统,旨在解决现有技术进行中文拼音输入时智能性不足、当用户输入的中文拼音中存在一个或者多个字的拼音不确定时无法保证输出的效率和准确性的问题。本发明的目的还在于提供一种中文拼音输入方法,以更好地解决现有技术中存在的上述问题。为了实现发明目的,所述中文拼音输入系统包括用于输入中文拼音的输入单元、用于对所述中文拼音进行切分的拼音切分单元、用于存储中文数据的中文词库、用于将拼音切分结果与中文词库中搜索到的词组相匹配的汉字匹配单元,以及用于输出与拼音切分结果相匹配的词组的输出单元,所述系统还包括一个通配映射单元;所述通配映射单元与拼音切分单元及汉字匹配单元相连,用于将包含通配符的拼音切分结果映射到所有与其对应的拼音组合,并将所述拼音组合送入汉字匹配单元。优选地,所述拼音切分单元采用贪婪算法或动态规划算法对所输入的中文拼音进行切分处理。优选地,所述通配映射单元用于通过遍历机制,或者索引机制,或者建立词表的方式,将拼音切分结果映射到所有与其对应的拼音组合。优选地,所述汉字匹配单元用于建立一个包括搜索到的所有词组的临时数据表,并将所述临时数据表中的词组按顺序显示到候选框中供用户选择。为了更好地实现发明目的,所述中文拼音输入方法包括以下步骤A.对输入的包含通配符的中文拼音进行切分处理;B.通过所述通配符,将拼音切分结果映射到所有与其对应的拼音组合;C.从中文词库中搜索与各拼音组合相匹配的中文词组,并将搜索结果显示到候选框中;D.根据用户对候选框中搜索结果的选择,输出中文词组。优选地,所述步骤A中的通配符包括字母、数字、符号中的任一者或组合。进行切分处理的步骤包括,采用贪婪算法或动态规划算法对中文拼音进行切分处理。优选地,所述步骤B进一步包括通过遍历机制,或者索引机制,或者建立词表的方式,将拼音切分结果映射到所有与其对应的拼音组合。优选地,所述步,C中将搜索结果显示到候选框中的步骤进一步包括建立一个包括搜索到的所有词组的临时数据表,并将所述临时数据表中的词组按顺序显示到候选框中。优选地,所述顺序包括汉字拼音中的字母排列顺序,或者汉字的比划数顺序,或者汉字的词频顺序。本发明通过将拼音切分结果映射到所有可能的拼音组合,再从中文词库中搜索与各拼音组合相匹配的中文词组,供用户选择,从而当用户输入的中文拼音中有一个或者多个字的拼音不确定时,也能够根据该拼音快速输出准确的中文词组,提高了中文拼音输入的智能性。图l是现有技术的中文拼音输入系统的结构图2是本发明的中文4并音输入系统的结构图3是本发明的中文拼音输入方法的流程图4是本发明的一个实施例中实现中文拼音输入的流程示意图5是本发明的另一实施例中实现中文拼音输入的流程示意图6是本发明的另一实施例中实现中文拼音输入的流程示意图7是本发明的另一实施例中实现中文拼音输入的流程示意图。具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明通过将拼音切分结果映射到所有可能的拼音组合,再从中文词库中搜索与各拼音组合相匹配的中文词组,并将搜索结果显示到候选框中,最后根据用户对候选框中搜索结果的选择,输出中文词组。因此,当用户输入的中文拼音中有一个或者多个字的拼音不确定时,也能够根据该拼音快速输出准确的中文词组,提高了中文拼音输入的智能性。图2示出了本发明的中文拼音输入系统的结构,包括输入单元100、拼音切分单元200、汉字匹配单元400、中文词库500、输出单元600以及通配映射单元700。其中(1)输入单元100与拼音切分单元200相连,用于输入用户键入的中文拼音。(2)拼音切分单元200与输入单元100及通配映射单元700相连,用于对输入单元100输入的中文拼音进行切分,并将切分结果送入通配映射单元700中。本发明中,该拼音切分单元200可采取多种方式对中文拼音进行切分。在本发明的一个示例方案中,该拼音切分单元200采用贪婪算法对中文拼音进行切分。具体过程是设一个音节緩存区,从输入字串的首字母开始扫描;若当前字符为'强制音节分隔符,,则将緩存中的串作为一个音节;若当前字符非'强制音节分隔符,,且緩存中的串不能作为一个音节的开始部分,则也可将其作为一个音节,从而完成了中文拼音的切分处理。该方法难以从整体上考虑各种切分可能,因而可能造成音节切分的不合理。在本发明的另一示例方案中,该拼音切分单元200采用动态规则算法对中文拼音进行切分,该方法能够避免切分中出现的多次重复计算,从而提高精确度和响应速度。具体过程与现有技术一致。当然,本发明的拼音切分单元200并不限定于采用以上方案对中文拼音进行切分,还可采取其他方式实现。(3)通配映射单元700与拼音切分单元200及汉字匹配单元400相连,用于将拼音切分结果映射到所有可能的拼音组合。在本发明的一个示例方案中,该通配映射单元700直接列出通配符的所有可能对应的结果,与已经确定的拼音一起组成多种拼音组合方式。在本发明的另一示例方案中,该通配映射单元700将中文拼音的拼音串转换为拼音码,具体的例如,通过自定义的映射表进行转换。在一个实施例中,该映射表是包含多音字的映射表。在本发明的又一示例方案中,通配映射单元700通过遍历机制,或者索引机制,或者建立词表的方式,将拼音切分结果映射到所有与其对应的拼音组合。(4)汉字匹配单元400与通配映射单元700以及中文词库500相连,用于根据通配映射单元700得到的所有拼音组合,从中文词库500中搜索与各拼音组合相匹配的词组,并将搜索到的词组显示到候选框中。在本发明的一个示例方案中,汉字匹配单元400建立一个包括搜索到的所有词组的临时数据表,并将所述临时数据表中的词组按顺序显示到候选框中。在该示例方案中,可按照汉字拼音中的字母排列顺序,或者汉字的比划数顺序,或者汉字的词频(即一个词语被使用的频繁程度,根据统计而得到)顺序,将搜索到的所有词组显示到候选框中。(5)中文词库500与汉字匹配单元400相连,其存储有中文拼音与所有可能对应一致的汉字或词组的对应关系。在本发明中,该中文词库500具有多种存储方式。在一个示例方案中,中文词库500采用数据表的方式存储中文拼音与所有可能对应一致的汉字或词组的对应关系。(6)输出单元600与汉字匹配单元400相连,用于根据用户的选择输出对应的词组。图3示出了本发明中实现中文拼音输入的方法流程,该方法流程基于图2所示的系统结构,具体过程如下在执行所有步骤之前,用户通过输入单元100输入拼音,其中不确定的拼音用一个"通配符"代替,该通配符可以是字母、数字或符号中的任一者,或者任意组合。在步骤S301中,对输入的包含通配符的拼音进行切分处理。在本发明的一个示例方案中,该拼音切分单元200采用贪婪算法对中文拼音进行切分。具体过程是设一个音节緩存区,从输入字串的首字母开始扫描;若当前字符为'强制音节分隔符,,则将緩存中的串作为一个音节;若当前字符非'强制音节分隔符,,且緩存中的串不能作为一个音节的开始部分,则也可将其作为一个音节,从而完成了中文拼音的切分处理。该方法难以从整体上考虑各种切分可能,因而可能造成音节切分的不合理。在本发明的另一示例方案中,该拼音切分单元200采用动态规则算法对中文拼音进行切分,该方法能够避免切分中出现的多次重复计算,从而提高精确度和响应速度。具体过程与现有技术一致。在步骤S302中,通过通配符,将拼音切分结果映射到所有与其对应的拼音组合。在本发明中,映射的具体过程可采取多种方式实现。在本发明的一个示例方案中,通配映射单元700直接列出通配符的所有可能对应的结果,与已经确定的拼音一起组成多种拼音组合方式。在本发明的另一示例方案中,通配映射单元700将中文拼音的拼音串转换为拼音码,具体的例如,通过自定义的映射表进行转换。在一个实施例中,该映射表是包含多音字的映射表。在本发明的又一示例方案中,通配映射单元700通过遍历机制,或者索引机制,或者建立词表的方式,将拼音切分结果映射到所有与其对应的拼音组合。在步骤S303中,从中文词库500中搜索与各拼音组合相匹配的中文词组,并将搜索结果显示到候选框中。该步骤具体包括(1)根据切分和映射所得的拼音组合,到中文词库500中搜索与该拼音組合相匹配的词组;(2)将与该拼音组合对应的搜索结果显示到候选框中。在本发明中,该中文词库500以多种方式存储数据,且搜索到的结果也有多种。在上述步骤的一个示例方案中,中文词库500存储的数据,是以数据表的形式进行存储的。在上述步骤执行显示操作的一个示例方案中,建立一张包括所有搜索结果(即搜索到的词组)的临时数据表,然后将其按顺序显示到候选框中。在该示例方案中,可按照汉字拼音中的字母排列顺序,或者汉字的比划数顺序,或者汉字的词频顺序,将搜索到的所有词组显示到候选框中。在步骤S304中,根据用户对候选框中搜索结果的选择,输出中文词组。此步骤与现有技术一致,此处不再赘述。图4是本发明的一个实施例中实现中文拼音输入的示意图,该流程基于图2所示的系统。如用户期望输入"异议",但是对"议"的拼音把握不准时,利用本发明实现该中文拼音输入的过程如下对于把握不准的拼音,本发明用一个"通配符,,代替,该通配符可以是字母、数字或符号中的任一者,或者任意组合。在本实施例中,若用"?"作为通配符,那么用户输入的拼音是yi。首先利用拼音切分单元200对其进行切分,得到拼音切分结果为yi,?。具体的切分可采取多种方式,包括贪婪算法和动态规划算法。然后根据通配映射单元700,将拼音切分结果映射到所有可能的拼音组合。如图4所示,其映射到的才并音组合包4舌yi,a、yi,ai、……yi,ye、yi,yi、……。具体的映射方式可采耳又多种。如前所述,在一个示例方案中,通配映射单元700通过遍历机制,或者索引机制,或者建立词表的方式,将拼音切分结果映射到所有与其对应的拼音组合,图4所述的实施例中采用的是遍历机制。然后,从中文词库500中搜索与各拼音组合相匹配的词组,在如图4所示的实施例中,获得与所有拼音组合对应的词组,包括与"yi,yi"对应的词组疑义、意义、异议……。得到这些词组之后,则将其显示到候选框中,供用户选择。最后,根据用户对候选框中的词组作出的选择,输出对应的词组,本实施例中用户的期望结果是"异议",作出选择后,则输出该词组。图5是本发明的另一实施例中实现中文拼音输入的流程示意图,该流程也基于图2所示的系统。如用户期望输入"良莠不齐",但是对"莠"的拼音把握不准时,利用本发明实现该中文拼音输入的过程如下用户输入该词组的拼音时,利用一个通配符(如?)代替"莠"的拼音,即liangbuqi。首先利用拼音切分单元200对其进行切分,得到拼音切分结果为liang,?,bu,qi。具体的切分可采取多种方式,包括贪婪算法和动态规划算法,此处不再赘述。然后根据通配映射单元700,将拼音切分结果映射到所有可能的拼音组合。如图5所示,其映射到的拼音组合包括liang,a,bu,qi、liang,ai,bu,qi、......liang,ya,bu,qi、......liang,yao,bu,qi、liang,you,bu,qi、......。具体的映射方式可采取多种。如前所述,在一个示例方案中,通配映射单元700通过遍历机制,或者索引机制,或者建立词表的方式,将拼音切分结果映射到所有与其对应的拼音组合,图5所述的实施例中采用的是遍历机制,而图6所示的实施例则采用了索《1机制,相比于遍历机制而言能够快速定位要查找的信息。然后,从中文词库500中搜索与各拼音组合相匹配的词组,在如图4所示的实施例中,获得与所有拼音组合对应的词组,包括与"liang,you,bu,qi"对应的词组,即良莠不齐。得到这些词组之后,则将其显示到候选框中,供用户选择。最后,根据用户对候选框中的词组作出的选择,输出对应的词组,即良莠不齐。图7是本发明的又一实施例中实现中文拼音输入的流程示意图,该流程也基于图2所示的系统。在该实施例中,用户输入的中文拼音中包含了多音字,且用户对该多音字在词组中的正确读音没有把握时,如何利用本发明的方法根据输入的拼音获得准确的输出结果。该实施例中用户期望使用的词语是"丢三落四",Y旦是用户l命入的4并音是diusanluosi。首先利用拼音切分单元200对其进行切分,得到拼音切分结果为diu,san,luo,si。具体的切分可采取多种方式,包括贪婪算法和动态规划算法,此处不再赘述。然后根据通配映射单元700,将拼音切分结果映射到所有可能的拼音组合。具体的映射方式可采取多种,本实施例采取了建立词表的方式,将拼音切分结果映射到所有与其对应的拼音组合,即diusanluosi、diusanlasi。这种建立词表的方式适用于成语、习惯用语等,也非常适用于含多音字的词组。在一个实施例中,该词表内容如下:<table>tableseeoriginaldocumentpage11</column></row><table>然后,从中文词库500中搜索与各拼音组合相匹配的词组,在如图7所示的实施例中,获得与所有拼音组合对应的词组,包括与"diu,san,luo,si"和"diu,san,la,si"对应的词组,即丟三落四。得到这个词组之后,则将其显示到候选框中,供用户选才奪。最后,根据用户对候选框中的词组作出的选择,输出对应的词组,即丟三落四。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。权利要求1、一种中文拼音输入系统,包括用于输入中文拼音的输入单元、用于对所述中文拼音进行切分的拼音切分单元、用于存储中文数据的中文词库、用于将拼音切分结果与中文词库中搜索到的词组相匹配的汉字匹配单元,以及用于输出与拼音切分结果相匹配的词组的输出单元,其特征在于,所述系统还包括一个通配映射单元;所述通配映射单元与拼音切分单元及汉字匹配单元相连,用于将包含通配符的拼音切分结果映射到所有与其对应的拼音组合,并将所述拼音组合送入汉字匹配单元。2、根据权利要求l所述的中文拼音输入系统,其特征在于,所述拼音切分单元采用贪婪算法或动态规划算法对所输入的中文拼音进行切分处理。3、根据权利要求l所述的中文拼音输入系统,其特征在于,所述通配映射单元用于通过遍历机制,或者索引机制,或者建立词表的方式,将拼音切分结果映射到所有与其对应的拼音组合。4、根据权利要求1至3中任一权利要求所述的中文拼音输入系统,其特征在于,所述汉字匹配单元用于建立一个包括搜索到的所有词组的临时数据表,并将所述临时数据表中的词组按顺序显示到候选框中供用户选择。5、一种中文拼音输入方法,其特征在于,所述方法包括以下步骤A.对输入的包含通配符的中文拼音进行切分处理;B.通过所述通配符,将拼音切分结果映射到所有与其对应的拼音组合;C.从中文词库中搜索与各拼音组合相匹配的中文词组,并将搜索结果显示到候选框中;D.根据用户对候选框中搜索结果的选择,输出中文词组。6、根据权利要求5所述的中文拼音输入方法,其特征在于,所述步骤A中的通配符包括字母、数字、符号中的任一者或组合。7、根据权利要求6所述的中文拼音输入方法,其特征在于,所述步骤A中进行切分处理的步骤包括,采用贪婪算法或动态规划算法对中文拼音进行切分处理。8、根据权利要求7所述的中文拼音输入方法,其特征在于,所述步骤B进一步包括通过遍历机制,或者索引机制,或者建立词表的方式,将拼音切分结果映射到所有与其对应的拼音组合。9、根据权利要求6所述的中文拼音输入方法,其特征在于,所述步骤C中将搜索结果显示到候选框中的步骤进一步包括建立一个包括搜索到的所有词组的临时数据表,并将所述临时数据表中的词组按顺序显示到候选框中。10、根据权利要求9所述的中文拼音输入方法,其特征在于,所述顺序包括汉字拼音中的字母排列顺序,或者汉字的比划数顺序,或者汉字的词频顺序。全文摘要本发明涉及中文信息处理领域,提供了一种中文拼音输入方法及系统。所述方法包括以下步骤A.对输入的包含通配符的中文拼音进行切分处理;B.通过通配符,将拼音切分结果映射到所有与其对应的拼音组合;C.从中文词库中搜索与各拼音组合相匹配的中文词组,并将搜索结果显示到候选框中;D.根据用户对候选框中搜索结果的选择,输出中文词组。本发明通过将拼音切分结果映射到所有可能的拼音组合,再从中文词库中搜索与各拼音组合相匹配的中文词组,供用户选择,从而当用户输入的中文拼音中有一个或者多个字的拼音不确定时,也能够根据该拼音快速输出准确的中文词组,提高了中文拼音输入的智能性。文档编号G06F3/023GK101192108SQ200710073720公开日2008年6月4日申请日期2007年3月28日优先权日2007年3月28日发明者李伟杰申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1