中文内容拼写校正的方法

文档序号：6587668阅读：235来源：国知局

专利名称：中文内容拼写校正的方法
技术领域：
本发明涉及一种中文输入法，尤其是一种采用近似音字词组来提供使用者校正的中文内容拼写校正的方法。
背景技术：
近年来，由于华人世界的经济快速发展，使得全球兴起一股中文学习风潮。这种风潮之下，各种学习中文的电子设备也跟着快速地发展与普及化。其中，如电子辞典、PDA、PC 等为最基本的中文学习的电子产品平台。这些电子产品，皆可让人们进行中文查询或输入。由于中文为象形文字体系，其与英文不同，无法见字而直接读出来，因而需要注音系统的辅助。自1982年8月1日国际标准化组织发出国际标准IS07098《文献工作-中文罗马字母拼写法》文件以规定拼写汉语以汉语拼音为国际标准后，汉语拼音即成为国际标准而广泛通行于世界各国。汉语拼音成为国际标准虽数十年，仍然会由于个人的学习因素而产生各种不同的“拼音错误”问题。对使用者来讲，如何能快速地以自己习惯的方式获得他自己想要的结果，成为使用者最关注的事情。于是，使用者对于这种因为拼音输入错误导致的字词的输出结果不符合自己想要的，会产生不愉快的感觉。也就是，在使用者必须输入多次才有可能找到自己想要的字词情况下，会使得输入的速度变慢进而导致学习速度的降低，甚至因为使用挫折而降低学习的意愿。举例来说，当使用者采用拼音法输入某中文字词，如“拼音(pinyin) ”，却不小心或者因输入拼音错误而输入成“平因(Pinyin)”时，一般的系统所对应出来的输出即会输出 “平因”而非“拼音”。此时，使用者必须要重新输入，会浪费很多时间。面对此种问题，先前技术已采用所谓的模糊技术(Fuzzy Technology)来处理因为输入错误的问题。其基本的作法，不外乎是根据拼音系统本身的易混淆音，以提供相关的拼字结果列表，来供使用者选择。例如，发明专利“中文汉字输入矫正方法及系统”，其提供了一声母混淆音数据库与韵母混淆音数据库，当第一次的拼音输入的输出结果不符合使用者的需求时，通过使用者提供矫正指令后，系统即输出混淆音的相关输出，再让使用者进行选择。这种技术，已经进一步改进了只能提供正确的输入以获得想要的输出的结果。不过，在使用时，其矫正的动作会在使用者确认系统输出使用者所输入的拼音后的中文输出 “错误”后，再由使用者输入指令进行矫正，对于许多常常发生错误的使用者来说，仍然会造成很大的困扰。如何能够让使用者的习惯以及虽然发生错误的状况下，能够快速地适应使用者的习惯，进而快速地产生使用者所想要的字词，成为汉语拼音输入法可改进的空间。

发明内容
本发明为解决背景技术中存在的上述技术问题，而提出一种中文内容拼写校正的方法。本发明的技术解决方案是本发明为一种中文内容拼写校正的方法，其特殊之处在于1)建立汉字转拼音序列数据库、近音关系替换表和常用组合对照表；2)接收中文内容；3)从汉字转拼音序列数据库中取得中文内容的拼音序列；4)根据近音关系替换表替换拼音序列的拼音序列组合；5)根据常用组合对照表取得对应于拼音序列组合的匹配字词组合；6)输出匹配字词组合。上述拼音采取通用拼音、国音第一式、国音第二式、威翟拼音、耶鲁拼音、台语甲式、华语甲式、华语乙式或注音二式。上述近音关系替换表是根据声母相近音与韵母相近音建立。上述拼音对照表是根据常用字词组合建立。本发明还提供另一种中文内容拼写校正的方法，其特殊之处在于该方法包含以下步骤1)建立近音关系替换表和常用组合对照表；2)接收原始拼音序列；3)根据近音关系替换表取得替换原始拼音序列的修正拼音序列组合；4)根据常用组合对照表取得对应于修正拼音序列的匹配字词组合；5)输出匹配字词组合。上述拼音采取通用拼音、国音第一式、国音第二式、威翟拼音、耶鲁拼音、台语甲式、华语甲式、华语乙式或注音二式。上述近音关系替换表是根据声母相近音与韵母相近音建立。上述拼音对照表是根据常用字词组合建立。本发明利用汉语拼音以及拼音发音规则的特性并结合常用字词的组合规则，来将使用者所输入的中文内容或者拼音序列的字词组通过拼音的近音关系替换表的查询加以扩大，再通过拼音与汉字常用字词组合的常用组合对照表将扩大的近音的拼音组取得扩大的近音关系的中文字词，提供使用者校正输入的中文或者拼音内容，由此达到方便使用者选择正确字词的目的。

图1为汉字转拼音序列数据库示范例；图2为近音关系替换表示范例；图3为常用字词对照表示范例；图4为本发明中文内容拼写校正方法，输入中文字流程图；图5为本发明中文内容拼写校正方法，输入拼音流程图。
具体实施例方式一般人在输入拼音时，难免会因为拼写错误，或者因为对拼音不熟等因素，而发生输入不对的拼音。这点对电子产品的设计来讲，非常不容易处理。因为，电子产品无法很 “准确地”每次都猜到使用者的“错误”所在。先前技术也不断地在电子产品上，以模糊、个人化记忆的方式来解决这个问题。本发明的解决方式回归到使用者可能发生错误的情境，来提供使用者可能的正确词句，来解决使用者自行发生的错误。为了达到上述的目的，首先要建立三个数据库，分别为1.根据相应的汉字与其汉语拼音序列对照的数据库_汉字转拼音序列数据库； 2.根据中文发音的近音关系建立的拼音替换表-近音关系替换表；3.常用字词组合的拼音汉字对照表_常用组合对照表。将这三个对照表加以充分运用，即可实现本发明欲达成的目的。以下，先说明此三个对照表。首先，参见图1，汉字转拼音序列数据库包含了每个中文文字的拼音内容数据。如 “拼”的对照拼音序列为“Pin” ；“音”的对照拼音序列为“yin” ；“的”的对照拼音序列为 “de”;“方”的对照拼音序列为“fang”;“法”的对照拼音序列为“fa”;“无”的对照拼音序列为“mi” ；“敌”的对照拼音序列为“di” ；“电”的对照拼音序列为“dian” ；“子”的对照拼音序列为“zi” ；“辞”的对照拼音序列为“ci” ；“典”的对照拼音序列为“dian” ；“世”的对照拼音序列为“ shi ” ；“界，，的对照拼音序列为“ jie” ；“第”的对照拼音序列为“di ” ；“一”的对照拼音序列为“yi”，等等。接着，参见图2，拼音的近音关系替换表包含两个部份声母相近音与韵母相近音。相近音的替换表建立，采取人类的输入习惯以及拼音习惯来制作。例如，图4中，在声母中，T的近似音为“η” ；"ζ"的近似音为“zh”；“c”的近似音为“ch”；“s”的近似音为 “sh” ；“zh”的近似音为“ j” ；“ch”的近似音为V，；“sh”的近似音为“X” ；“η”的近似音为 T ；“f ”的近似音为“h” ;“r，，的近似音为T ；“m，，的近似音为“n”，等等。在韵母中，“η”的近似音为“ng”;“im”的近似音为“en”;“l”的近似音为“V”;“in” 的近似音为“ing” ；"en"的近似音为“eng” ；"ao"的近似音为“ou”，等等。以上的声母与韵母的近似音，可能把使用者所输入的字词，经过排列组合后，可以重新组成多组的拼音。不过，这些拼音实际上还是会对照到固定的词句当中。由于一般人在思考时，多半是以词句作为思考的基础，因此，以词句为基础的输入法目前在市面上多属主流。也就是，在输入的时候，以词句为基础来做进一步的筛选时，将可把一些不大可能出现的拼音转汉字词句的组合删除掉，形成比较接近使用者想输入的可能词句。参见图3，其根据目前市面上的常用字词组合，建立其拼音对照表。即建立可通过拼音查找汉字常用字词组的对照，让系统可以拼音找到相对应的汉字字词组合。拼音的字词组，多半与汉字字词组的对应关系为一对一的关系，少有一对多的情形。因此，在选择上相对比较容易。此外，汉字转拼音序列数据库、近音关系替换表与常用组合对照表，均可根据使用者所应用的电子产品特性来进行扩充。例如，使用者所采用的电子产品属于可扩充记忆卡或其它具有可增加数据库内容的扩充内存的产品。如此，可将对照表依实际的需求进行扩充，例如，采取使用者自行输入的方式，或采取网络下载的方式来进行扩充。图3中的范例指出，“pinyin”对照了“拼音”的字词组；“pinyin”对照了“拼音”的字词组；“fangfa”对照了 “方法”的字词组；“midi”对照了 “无敌”的字词组；“dianzi” 对照了“电子”的字词组；“cidian”对照了“辞典”的字词组；“shijie”对照了“世界”的字词组；“diyi”对照了“第一”的字词组；“gaoxin”对照了“高薪”的字词组；“gaoxing”对照了 “高兴”的字词组；“gouxin”对照了 “勾心”或“够新”的字词组；“gouxing”对照了 “够腥”的字词组，等等。
以下将说明本发明如何运用以上三种不同的数据库以达到本发明所欲达到的目的。参见图4，当使用者直接通过其它输入法，如手写、注音、仓颉、行列、大易、简易、自然…各种不同的输入法输入中文字词后，当使用者认为所输入的字词组非其所需要的字词组时，即可采用图4的流程来获得其所需要的字词组。步骤110 接收中文内容。如上所述，由使用者通过某些输入法输入中文内容。例如，使用者输入“高兴”两字。步骤120 取得中文内容的拼音序列。接下来，即通过图1所说明的汉字转拼音序列数据库来取得步骤110输入的中文内容所对应的拼音序列。“高兴”两字所对应的拼音序列为“gaoxing”。步骤130 根据近音关系替换表替换拼音序列的拼音序列组合。此步骤通过图2所说明的近音关系替换表，将声母与韵母的可能组合找出，在 “gaoxing”的范例中，“ao”的近似音为“uo”，而“xing”的近似音为“xin”，因此，有四组近似拼音序列，分别为:"gaoxin", "gaoxing", "gouxin", “gouxing，，。步骤140 根据常用组合对照表取得与该拼音序列组合的匹配字词组合。接下来，即运用图3的常用组合对照表，查找“gaoxin”，“gaoxing”，“gouxin”， “gouxing”这四个可能的字词组，结果找到与之对应的字词组合为“高薪”，“高兴”，“勾心”，“够新”，“够腥”几组汉字。步骤150 输出匹配字词组合。接下来，即输出“高薪”，“高兴”，“勾心”，“够新”，“够腥”几组汉字词，供用户选择。图4说明了本发明如何运用1.汉字转拼音序列数据库；2.近音关系替换表；3.常用组合对照表，这三个数据库来达到本发明的目的。其基本精神在于，将使用者所输入的中文字词，通过图2的近音关系替换表扩大到近似音字词的可能范围，再通过图3的常用组合对照表将对应的汉字输出，即可产生多组近似音的汉字，来让使用者查找到想要的数据，解决使用者可能发生的输入错误问题。接着，如果用户输入的是拼音，则采用图5的流程来进行处理，其直接根据输入的拼音在替换表中寻找对应的替换关系，得到所有可能的替换序列。步骤说明如下步骤210 接收拼音内容。由使用者输入法输入拼音内容。例如，使用者输入“gaoxing”。步骤220 根据近音关系替换表替换拼音序列的拼音序列组合。此步骤通过图2所说明的拼音的近音关系替换表，将声母与韵母的可能组合找出，在“gaoxing”的范例中，"ao"的近似音为“uo”，而“xing”的近似音为“xin”，因此，有四组近似拼音序列，分别为“gaoxin”，“gaoxing", “gouxin”，“gouxing”。步骤230 根据常用组合照表取得与拼音序列组合的匹配字词组合。接下来，即运用图3的常用组合对照表，查找“gaoxin”，“gaoxing”，“gouxin”， “gouxing”这四个可能的字词组，结果找到与之对应的字词组合为“高薪”，“高兴”，“勾心”，“够新”，“够腥”几组汉字。步骤240 输出匹配字词组合。
接下来，即输出“高薪”，“高兴”，“勾心”，“够新”，“够腥”几组汉字词，供用户选择。参见图5，只需运用1.拼音的近音关系替换表；2.常用组合对照表，这两个数据库即可达到本发明的目的。其基本精神同样在于，将使用者所输入的拼音字词，通过图2的近音关系替换表扩大到近似音字词的可能范围，再通过图3的常用组合对照表将对应的汉字输出，即可产生多组近似音的汉字，让使用者查找到想要的数据，解决使用者可能发生的输入错误问题。以上实施例，以汉语拼音的实施例来说明本发明。实务上，熟习本发明技术领域的相关技术人员，当可轻易采用本发明直接运用到其它的拼音方法，例如，通用拼音、国音第一式、国音第二式、威翟拼音、耶鲁拼音、台语甲式、华语甲式、华语乙式、注音二式等拼音方法。通过将不同的拼音方法分别建立1.根据相应的汉字与其汉语拼音序列对照的数据库；2.根据中文发音的近音关系建立的拼音替换表-拼音的近音关系替换表；3.常用字词组合的拼音汉字对照表，这三个对照表。再采取本发明的流程，即可实现同样的功能。
权利要求
一种中文内容拼写校正的方法，其特征在于该方法包含以下步驟1)建立汉字转拼音序列数据库、近音关系替换表和常用组合对照表；2)接收中文内容；3)从汉字转拼音序列数据库中取得中文内容的拼音序列；4)根据近音关系替换表替换拼音序列的拼音序列组合；5)根据常用组合对照表取得对应于拼音序列组合的匹配字词组合；6)输出匹配字词组合。
2.根据权利要求1所述的中文内容拼写校正的方法，其特征在于所述拼音采取通用拼音、国音第一式、国音第二式、威翟拼音、耶鲁拼音、台语甲式、华语甲式、华语乙式或注音■——ο
3.根据权利要求1所述的中文内容拼写校正的方法，其特征在于所述近音关系替换表是根据声母相近音与韵母相近音建立。
4.根据权利要求1所述的中文内容拼写校正的方法，其特征在于所述拼音对照表是根据常用字词组合建立。
5.一种中文内容拼写校正的方法，其特征在于该方法包含以下步驟1)建立近音关系替换表和常用组合对照表；2)接收原始拼音序列；3)根据近音关系替换表取得替换原始拼音序列的修正拼音序列组合；4)根据常用组合对照表取得对应于修正拼音序列的匹配字词组合；5)输出匹配字词组合。
6.根据权利要求5所述的中文内容拼写校正的方法，其特征在于所述拼音采取通用拼音、国音第一式、国音第二式、威翟拼音、耶鲁拼音、台语甲式、华语甲式、华语乙式或注音■——ο
7.根据权利要求5所述的中文内容拼写校正的方法，其特征在于所述近音关系替换表是根据声母相近音与韵母相近音建立。
8.根据权利要求5所述的中文内容拼写校正的方法，其特征在于所述拼音对照表是根据常用字词组合建立。
全文摘要
本发明涉及一种中文内容拼写校正的方法，利用汉语拼音以及拼音发音规则的特性并结合常用字词的组合规则，来将使用者所输入的中文内容或者拼音序列的字词组通过拼音的近音关系替换表的查询加以扩大，再通过拼音与汉字常用字词组合的常用组合对照表将扩大的近音的拼音组取得扩大的近音关系的中文字词，提供使用者校正输入的中文或者拼音内容，由此达到方便使用者选择正确字词的目的。
文档编号G06F17/30GK101819469SQ200910309378
公开日2010年9月1日申请日期2009年11月6日优先权日2009年11月6日
发明者刘巍, 陈国强, 陈淮琰申请人:无敌科技(西安)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈淮琰;陈国强;刘巍
技术所有人：无敌科技（西安）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。