侦测及校正中文错字的系统及方法

文档序号:6362553阅读:216来源:国知局
专利名称:侦测及校正中文错字的系统及方法
技术领域
本发明涉及一种中文的处理,尤其是一种处理及校正中文词汇中错字的系统及方法。本发明侦测中文词汇中的错字,然后比较词汇中错字的发音和字根组成与储存在数据库中正确词汇的字的发音和字根组成。
背景技术
不同于英文,其单词由26个字母中一个或多个字母所组成,中文可由一个或多个字来组成词汇。中文字词如何构成仍存在许多争议,字词的定义复杂不说,再加上中文中没有“空格字”,所以在文法上无法清楚地将句子分段成多组字群,读者通常需要阅读整个句子,才能了解由哪些字群来构成整个句子。在缺乏对字词的明确定义状况下,为避免混淆,本发明将“词汇”定义为一组由二个或二个以上的中文字所组成的字群,且其长度不长于一个句子。本发明不涉及单独一个的中文字,因为单独一个的中文字无法判断其是否为错字。中文拼字的问题是关于中文词汇中的错字。在罗马语系的语言中,是由字母拼出单词,拼写错误是指在单词中用错了字母,或是字母的排列顺序错误。在类似的状况下,在非罗马语系、非拼音的语言(例如中文)中,存在有用错字的问题,也就是组成词汇的文字中,有一个或一个以上的字有所错误。但是就技术上而言,中文没有拼写错误的问题,因为中文的字/词汇是由单一的字而不是字母所组成。为了易于了解,相对于罗马语系(例如英文)中的拼字检查,在本说明书中,将中文的拼字检查定义为“中文错字的侦测及校正”。每个中文字除了其本身的含意外,还具有以下的各种特质(I)字根中文字通常由字根组成。例如“好”是由部首字根“女”和非部首字根“子” 二字根组成,非部首字根在某些状况下亦称为右侧字根,虽然大部分的部首字根位在字的左侧,可是部首字根和非部首字根在字里面的位置(上、下、左、右)并没有一定的规贝U。中文有固定的个部首字根,以“好”字为例,“女”和“子”都属于部首字根,可是一个字中只有一个部首字根,所以“女”为部首字根,而“子”为非部首字根。发生错字的原因之一为字根错误,例如将“人煙稠密”错写成“人煙綢密”,因为“稠”和“綢”有相同的非部首字根“周”。此外中文有二种书写体系,分别是中国使用的简体字和台湾使用的繁体字,对大多数的字而言,简体字和繁体字字型相同并无区别,但是对某些字而言,虽然意义相同,可是书写的字型不同,所以其字根也就跟着不同。例如简体字的“并”对应至二个不同的繁体字“并”和“倂”,简体字“并”的意义必需由词汇的上下文决定。(2)发音语言藉由拼音系统来记录和教导文字的发音,目前简体字的拼音系统为汉语拼音,而繁体字的拼音系统则为注音符号。中文有“一音多字”的情形,不同的字具有相同的发音,例如日文的汉字中“确率”和“确立”的发音同为“kakuritsu”,但是第二个字却不相同,此同音异字为发生错字的可能原因之一。此外另一种可能发生错字的原因是发音相似,例如“fa”和“hua”发音相似,所以误将“发挥”写成“花挥”。另外还有“一字多音”的问题,中文音随意转,例如“吃饭”和“口吃”的“吃”,意义不同,发音也跟着不同,所以另一种常发生错字的情形为误将“ 口吃”误写为“口及”。所以在书写中文字时,书写者可能因上述字根或发音的因素,而写错字。书写者所写的错字,可能是看起来相像、但是字根却不完全相同,书写者也有可能在词汇中写了一个意义全然不同的字,所以要解决词汇中的错字问题,不能仅靠单一一种侦测方式(例如只针对字根或只针对发音的侦测方式),而须考虑所有可能导致词汇中错字的原因来进行校正词汇中的错字。拼字检查通常涵盖二个主要的功能,第一是在字/词汇中找出错误的字母/字,第二,如果可能的话,更正错误的字母/字。也就是罗马语系(例如英文)更正单词中错误的字母,非罗马语系(例如中文)更正词汇中错误的字。当比较二个字汇/词汇来侦测错误的字母/字时,信息科学通常引用“编辑距离”的概念。在罗马语系(例如英文)中,编辑距离指的是二个字中字母相异的数目,是在字母的层次中做比较。当比较二个字时,如果编辑距离为0,二个字中字母相异的数目为0,也就是二个字相同。如果编辑距离为1,二个字中有I个字母相异。如果编辑距离为2,二个字中则有2个字母不同。如果编辑距离大于2,此二字很可能为全然不同的二个字,所以无法或不值得去更正拼字的错误。在获得编辑距离之后,即可藉由与一正确拼写的字中相同位置的相关字母作比较,来更正拼写错误的字母。

发明内容
本发明的主要目的在于提供一种检测输入的中文词汇并自动校正输入词汇中错字的系统及方法。依据本发明的一种侦测输入中文词汇并自动校正输入词汇中错字的系统,包括一电脑或是一装置、一数据库、一错字侦测模块、一错字校正模块、以及一模块间通讯通道。所述数据库包含正确的中文词汇以及词汇中中文字的特质(例如发音和字根组成),用来和输入的中文词汇作比较。所述错字侦测模块比较输入的中文词汇和数据库词汇来检测可能的错字。该错字侦测模块从该数据库中所撷取的一部分相符词汇表找出视为与该输入词汇相同的词汇,所述错字校正模块依此来更正该输入词汇中的错字。依据本发明的一种侦测输入中文词汇并自动更正输入词汇中错字的方法,包括下列步骤;输入一组中文词汇;判断所述输入词汇与储存在数据库中的中文词汇完全符合的情形是否存在;如果所述输入词汇与储存在该数据库中的词汇完全符合的情形不存在,则判定该输入词汇为一未知的词汇或将该词汇传送至一错字校正模块;进行一邻近比对测试、一发音符合测试和一字根符合测试;以及校正错误的词汇。


图1为显示本发明侦测及校正中文错字的系统的示意图;图2为显示本发明侦测中文词汇中错字的方法,建立并输出一部分符合词汇清单的流程图;以及图3为显示本发明校正中文词汇中错字的方法的流程图。主要组件符号说明10电脑或装置
20数据库30错字侦测模块40错字校正模块60模块间通讯通道
具体实施例方式以下配合图式对本发明的实施方式做更详细的说明,俾使熟习该项技术领域者在研读本说明书后能据以实施。图1为显示本发明检测输入的中文词汇并校正输入词汇中错字的系统的示意图。图2为显示本发明侦测中文词汇中错字的方法的流程图。图3为显示本发明校正中文词汇中错字的方法的流程图。本发明的检测输入中文词汇与自动校正输入词汇中错字的系统,包括一电脑或是一装置、一数据库、以及软件模块。该电脑或是装置可以是一个人电脑(PC)、一网络服务器、一笔记型电脑、一平板电脑、一智能型手机等装置。此外本发明可以应用于将中文词汇数字化并经由数据网络传输(例如因特网至系统)的一网络系统。所述的输入中文词汇为可以为从各式的数据输入装置传送至电脑或装置的一系列数字化的中文字(至少二个字),该输入词汇可以来自于一键盘、一个人电脑(PC)、一笔记型电脑、一平板电脑、一智能型手机、或是其它的装置传送而来,所述中文输入词汇可以用二进制码格式来编码,然后经由数据网络传输至本发明的检测词汇与自动校正错字的系统。图1显示依据本发明的检测输入中文输入词汇与自动校正输入词汇中错字的系统,所述系统包括有一电脑或是一装置10、一数据库20、一错字侦测模块30、一错字校正模块40以及一模块间通讯通道60。该电脑或装置10设有一中央处理器(CPU)、一非易失性存储器(non-volatilestorage)、一随机存取存储器(random access memory),该电脑或装置10可视需要进一步包含一数据网络适配卡,该电脑或装置10用来执行一词汇错字侦测校正软件。该数据库20和安装档案(set-up files)存储于非易失性存储器(non-volatilestorage),该数据库20和安装档案被配置以包括多个正确的中文词汇、中文字、中文字的相关属性(诸如发音和字根组成),所述的发音特质包含简体字的汉语拼音以及繁体字的注音符号。此外该数据库20还可以视需要进一步包含一特定应用词汇来供使用者存储应用时所需的特殊词汇,在检测校正词汇时,特定应用词汇中所包含的词汇将被忽略,不视为错字。该错字侦测模块30接收中文词汇作为输入的数据,然后比较该输入词汇和数据库中所存储的词汇,来侦测输入词汇中是否有错字。图2显示该错字侦测模块30所执行的步骤,来侦测输入的中文词汇中是否存在错字。中文书写中,非阿拉伯数字可以取代阿拉伯数字,或是阿拉伯数字与非阿拉伯数字同时使用,例如“150”即为中文的“一百五十”,通常词汇中可使用阿拉伯数字或是中文数字,且可了解到数字的意义,所以当比较词汇时,在比较之前,必须先将数字由中文字转换成阿拉伯数字,如果数字转换后的该输入中文词汇符合该数据库中的词汇,则可判定该输A的中文词汇为一正确的词汇。
如果该输入的中文词汇可以在该数据库中找到(亦即编辑距离为0),则判定该输A的中文词汇为一正确的词汇。如果编辑距离大于2,则判定该输入的中文词汇为一未知的词汇。如果编辑距离等于2且词汇长度等于2,同样地判定该输入的中文词汇为一未知的词汇。如果编辑距离等于1,则该输入的中文词汇和自数据库20所撷取的词汇之间存在可能部分符合的情形。如果编辑距离等于2且词汇长度大于2,则输入的中文词汇和自数据库20所撷取的词汇之间存在可能部分符合的情形。该部分符合的词汇将被加入以建构一部分符合词汇清单,应注意的是并非每一个部分符合的输入词汇都是包含错字的词汇,例如,可在数据库20中建立一选择性特定应用词汇,用以存储使用于不同应用的特定词汇,若所述词汇包含于该特定应用词汇,则该错字侦测模块30即忽略该词汇,并将其视为正确的词汇。该错字校正模块40经由模块间通讯通道60接收来自错字侦测模块30所传送的输入数据数据结构,并试图更正错字。该输入数据数据结构包含一部分符合词汇清单、错字及其相关的发音及字根组成,其中该部分符合词汇清单中的词汇的编辑距离小于或等于2。图3显示该错字校正模块40执行更正输入词汇中的错字的步骤。对每一个部分符合词汇,该错字校正模块40将针对该错字自数据库20中撷取发音及字根组成,并与输入词汇中的错字的发音及字根组成作比较,来判断哪一个部分符合词汇和输入词汇最为符合。然后错字校正模块40输出一更正后的正确词汇或是一未知的词汇。通常一非罗马语系语言的发音由语音(phonetics)和语调(intonation)构成,中文中,一个字具有四种可能的语调,当语调不同时,意义通常也就不同,所以除了比较语音之外,还必须要再比较语调,才能断定是否因相同的发音而发生错字的情形。只有当输入词汇和存储在数据库20中的词汇不是完全符合时,才执行发音比较。特别是编辑距离等于I或是编辑距离等于2且词汇长度大于2时,才会执行发音比较。假如编辑距离等于2且词汇长度等于2时,该词汇太短而无法进行更正,如果编辑距离大于2时,该词汇也会被舍弃,不进行更正。发音比较的结果包含以下几种情形(I)发音完全相符如果在另一数据库词汇中可以找到与错字发音相同的字,则判定为发首完全相符;(2)类似发音相符如果在另一数据库词汇中可以找到与错字发音类似的字,则判定为类似发音相符;以及(3)发音不相符。为了进行发音比较,数据库20中必须建立每一中文字的发音映像图,对简体中文而言,数据库20中的每一简体字必须映像至一汉语拼音语串,同样地对繁体中文而言,数据库20中的每一繁体字必须映像至一注音符号语串或一汉语拼音语串。中文字的字根组成包含部首字根和非部首字根,例如“女”和“子”都是部首字根,也可以单独成字。部首字根是否具有意义,端视其是否单独成字。有些字是由二个部首字根所组成,例如“女”和“子”组成“好”,有些字是由一个部首字根和一个非部首字根所组成,例如“女”和“古”组成“姑”,注意其中的非部首字根“古”是由非部首字根“十”和部首字根“口”所组成,在中文中有固定的部首字根。以下为比较二中文字字根的方法(I)字根完全相符如果,而且只有在部首字根和非部首字根二者都相同的情况下,二字判定为字根完全相符;(2)部首字根相符如果,而且只有在部首字根相同但是非部首字根不同的情况下,二字判定为部首字根相符,例如“好”和“姑”具有相同的部首字根“女”;(3)非部首字根相符如果,而且只有在部首字根不同但是非部首字根相同的情况下,二字判定为非部首字根相符,例如“鞠”和“掬”具有不同的部首字根,但是具有相同的非部首字根“匍”;(4)部分非部首字根相符如果,而且只有在非部首字根的一部分不同但是非部首字根的一部分相同的情况下,二字判定为部分非部首字根相符;以及(5)字根不相符如果部首字根和非部首字根皆不存在相同或部分相同的情况下,二字判定为字根不相符。一邻近比对是将输入词汇的相邻二错字对调,然后检视输入词汇是否有任何的部分符合词汇,若有,则错字校正模块40将该部分符合词汇加至一完全符合词汇表。当输入词汇中的错字经由邻近比对、相同发音和类似发音的比对、或是字根的比对,有部分符合词汇的情况时,则该部分符合词汇会被加入该完全符合词汇表。如果输入词汇中的错字无法无部分符合词汇时,则该输入词汇判定为未知的词汇。该输入词汇经一系列的部分符合词汇比对后,若完全符合表中只有一个完全符合词汇,则判定已找到校正后的输入词汇。若完全符合词汇表中包含多个完全符合词汇,则依序采用下列步骤,从完全符合词汇表中选取最佳符合词汇(I)如果在所述完全符合词汇中只有一个完全符合词汇存在邻近比对符合的情形,则判定该完全符合词汇为最佳符合词汇;(2)如果在所述完全符合词汇中只有一个完全符合词汇存在发音完全相符的情形,则判定该完全符合词汇为最佳符合词汇;(3)如果在所述完全符合词汇中只有一个完全符合词汇同时存在类似发音相符以及字根相符,则判定该完全符合词汇为最佳符合词汇;(4)如果在所述完全符合词汇中只有一个完全符合词汇存在类似发音相符,则判定该完全符合词汇为最佳符合词汇;(5)如果在所述完全符合词汇中只有一个完全符合词汇存在字根相符,则判定该完全符合词汇为最佳符合词汇;以及(6)如果无法从所述完全符合词汇中找到最佳符合词汇,则判定没有最佳符合词汇(该输入词汇为一未知的词汇),或是将所述完全符合词汇作为一组建议词汇,由使用者自行判断、选择。为了进行上述的比较,必须建立一字根数据库,其包含繁体字与简体字的字根。必须注意的是该错字侦测模块30和该错字校正模块40的分割是基于功能性和电脑运作时间的效率,在必要时该错字侦测模块30和该错字校正模块40可以合而为一,成为单一的模块,一些错字侦测模块30的检测功能可以移至或提供给错字校正模块40使用,以避免软件程序的重复。
该模块间通讯通道60设于该错字侦测模块30和该错字校正模块40之间,所述的部分符合词汇、错字以及文字的发音和字根组成都从该错字侦测模块30经由该模块间通讯通道60传送至该错字校正模块40,发音和字根组成是用来供系统从事错字侦测及校正之用,系统的软件在电脑启动或运作时会读取永久性储存器来比较词汇和词汇中每一字的特质,该模块间通讯通道60可藉由数据文件、随机存取存储器或是数据库建立起来。虽然本发明涉及中文错字的侦测及校正系统,但是同样的概念也可以应用于其它单词中也同样包含发音和字根组成的特质的非罗马语系语言,例如日文和韩文。图2和图3分别显示错字侦测模块30和错字校正模块40所执行的步骤,本发明侦测及校正词汇中错字的方法包括以下步骤(S31)输入一中文词汇;(S32)错字侦测模块30比较该输入词汇与储存在数据库20的中文词汇;(S33)在步骤(S32)中,如果存在一字根完全相符,则该错字侦测模块30判定该输入词汇为正确的词汇;(S34)在步骤(S32)中,如果字根不完全相符,则该错字侦测模块30比较该输入词汇与视需要所设立的一特定应用词汇所储存的中文词汇,检视是否存在任何相符合的情形、应被忽略的词汇;(S35)在步骤(S34)中,如果存在一字根或发音符合,则该错字侦测模块30判定该输入词汇为正确的词汇;(S36)在步骤(S34)中,如果不存在任何符合,则该错字侦测模块30检视是否存在任何数字符合;(S37)在步骤(S36)中,如果存在一数字符合,则该错字侦测模块30判定该输入词汇为正确的词汇;(S38)在步骤(S36)中,如果不存在数字符合,则该错字侦测模块30比较该输入词汇与储存在数据库20的中文词汇来求取编辑距离和词汇长度;(S39-1)在步骤(S38)中,(I)如果编辑距离大于2,则该错字侦测模块30判定该输入词汇为一未知的词汇;(2)如果编辑距离等于2且词汇长度等于2,则该错字侦测模块30判定该输入词汇为一未知的词汇;(S39-2)在步骤(S38)中,如果编辑距离等于I,或是编辑距离等于2且词汇长度大于2,则该错字侦测模块30至该数据库20撷取该输入词汇的每一个中文错字的相关发音及字根组成,并将所撷取的信息传送至错字校正模块40 ;(S41)该错字校正模块40比较该错字与每一个部分符合词汇中位于相同位置的字;(S42)在步骤(S41)中,该错字校正模块40执行一邻近比对,将该输入词汇的相邻二错字对调,然后检视该输入词汇是否有部分符合词汇,如果发现有符合的词汇,则该错字校正模块40将该部分符合词汇加至一完全符合词汇表;(S43)在步骤(S41)中,该错字校正模块40比较错字的发音与部分符合词汇中位于相同位置的字的发音,如果发音相同,则错字校正模块40将该部分符合词汇加至该完全符合词汇表;如果存在类似发音相符,则该错字校正模块40将该部分符合词汇加至该完全符合词汇表;
(S44)在步骤(S41)中,该错字校正模块40比较错字的字根组成与部分符合词汇中位于相同位置的字的字根组成,如果字根符合存在,则该错字校正模块40将该部分符合词汇加至该完全符合词汇表;(S45)该错字校正模块40判定在所述完全符合词汇表中是否只有一个完全符合词汇,如果只有一个完全符合词汇,则该错字校正模块40校正该错字;(S46)该错字校正模块40判定在所述完全符合词汇表中是否有多个完全符合词汇,如果没有多个完全符合词汇,则该错字校正模块40判定该输入词汇为一未知的词汇;以及(S47)在步骤(S46)中,如果在所述完全符合词汇表中存在多个完全符合词汇而且找到最佳符合词汇,则该错字校正模块40校正该错字;如果在所述完全符合词汇表中存在多个完全符合词汇但是无法找到最佳符合词汇,则该错字校正模块40判定该输入词汇为一未知的词汇,或是将该完全符合词汇作为一组建议词汇,由使用者自行判断、选择。该最佳符合词汇可以依序采用下列方法的步骤获得(I)如果在所述完全符合词汇中只有一个完全符合词汇存在一邻近比对相符,则该完全符合词汇为最佳符合词汇;(2)如果在所述完全符合词汇中只有一个完全符合词汇存在一发音完全相符,则该完全符合词汇为最佳符合词汇;(3)如果在所述完全符合词汇中只有一个完全符合词汇存在一类似发音相符和一字根符合,则该完全符合词汇为最佳符合词汇;(4)如果在所述完全符合词汇中只有一个完全符合词汇存在一类似发音相符,则该完全符合词汇为最佳符合词汇;以及(5)如果在所述完全符合词汇中只有一个完全符合词汇存在一字根相符,则该完全符合词汇为最佳符合词汇。本发明可适用于,但不受限于,下述的应用(I)对一数字数据夹(例如电子书、电子期刊、报章杂志网络版、学位论文、专题论文等)中的文件进行错字侦测并校正中文词汇中的错字;(2)提供一外挂程序软件,在一文字处理软件中侦测中文词汇中的错字并建议更正的词汇或自动更正词汇中的错字;(3)提供一网页浏览器外挂程序软件,在一网页中侦测中文词汇中的错字并建议更正的词汇或自动更正词汇中的错字;(4)从错字侦测/校正软件中提供一软件应用程序接口(API),在一电脑图形使用者接口(API)(例如一电子邮件客户端)中侦测中文词汇中的错字并建议更正的词汇或自动更正词汇中的错字;(5)改进从一搜寻引擎所传回的数据组,对输入词汇预先处理,并同时传送正确与不正确的词汇至搜寻引擎,此预先处理会导致回传的资料增加,例如使用者输入一包含错字的词汇“一蹋胡涂”(第2字为错字),搜寻引擎会回传错误词汇“一蹋糊涂”的相关网页。如果用本发明的系统来处理错误的输入词汇“一蹋胡涂”,系统将侦测到错字并找到正确的词汇,二个搜寻要求“一蹋胡涂”和“一塌糊涂”将同时传送至搜寻引擎,使用者将得到二组搜寻结果。
(6)改进一查字典的软件程序的正确性,在传送输入词汇进行查字典功能之前,先行更正词汇中的错字;以及(7)改进一将中文翻译成其它语言软件程序的正确性,在翻译之前,先行更正词汇中的错子。以上所述者仅为用以解释本发明的较佳实施例,并非企图据以对本发明做任何形式上的限制,因此,凡有在相同的精神下所作有关的任何修饰或变更,皆仍应包括在本发明意图保护的范畴。
权利要求
1.一种检测及校正中文词汇中错字的系统,其特征在于,包括 一数据库,具有多个中文字、所述中文字的发音和字根组成、以及多个正确的中文词汇,每一个词汇包含至少二个中文字,所述中文字的发音和字根组成用来协助检测及校正中文词汇中的错字; 一错字侦测模块,该错字侦测模块输入中文词汇,并执行该数据库中的查询,以撷取该输入词汇的每一字的相关发音和字根组成、以及可能相符的词汇; 一错字校正模块,该错字校正模块对该错字侦测模块所判定的每一错字比较其发音和字根组成,以判定其是否为错字,并校正该错字;以及 一模块间通讯通道,该模块间通讯通道设于该错字侦测模块和该错字校正模块之间,该错字和该错字的发音和字根组成经由该模块间通讯通道,自该错字侦测模块传送至该错字校正模块。
2.如权利要求1所述的检测及校正中文词汇中错字的系统,其特征在于,该数据库包含每一中文字的发音和字根的映射图。
3.如权利要求1所述的检测及校正中文词汇中错字的系统,其特征在于,该错字侦测模块藉由比较该输入词汇和该数据库中的词汇,来侦测该输入词汇中的错字。
4.如权利要求1所述的检测及校正中文词汇中错字的系统,其特征在于,该错字侦测模块从数据库撷取该错字的发音和字根组成。
5.如权利要求1所述的检测及校正中文词汇中错字的系统,其特征在于,该错字校正模块比较该输入词汇的错字的发音和字根组成,来校正错字。
6.如权利要求1所述的检测及校正中文词汇中错字的系统,其特征在于,该输入词汇自一键盘、一数据网络、一二进制代码格式通讯或一记录文件传送至该错字侦测模块。
7.如权利要求1所述的检测及校正中文词汇中错字的系统,其特征在于,该模块间通讯通道藉由数据文件、随机存取存储器或是数据库来建立。
8.如权利要求1所述的检测及校正中文词汇中错字的系统,其特征在于,该系统进一步包括一视需要所设立的特定应用词汇,以储存一些特定的词汇,并判定所述词汇被忽略,将其视为正确的词汇。
9.一种检测及校正中文词汇中错字的方法,其特征在于,包括下列步骤 (51)输入一中文词汇; (52)一错字侦测模块比较该输入词汇和数据库中储存的词汇; (53)在步骤(S2)中,如果存在一字根完全相符,则该错字侦测模块判定该输入词汇为一正确的词汇; (54)在步骤(S2)中,如果字根不完全相符且编辑距离大于2,则该错字侦测模块判定该输入词汇为一未知的词汇; (55)在步骤(S2)中,如果字根不完全相符且编辑距离等于2且词汇长度等于2,则该错字侦测模块判定该输入词汇为一未知的词汇; (56)在步骤(S2)中,如果字根不完全相符,编辑距离等于1,或是编辑距离等于2且词汇长度大于2,则该错字侦测模块查询该数据库以撷取该输入词汇的每一个中文错字的相关发音及字根组成,并将所撷取的信息传送至一错字校正模块; (57)该错字校正模块执行一邻近比对,将该输入词汇的相邻二错字对调,然后检视该输入词汇是否有任何的部分符合词汇,如果发现有符合的词汇,则该错字校正模块将该部分符合词汇加至一完全符合词汇表; (58)该错字校正模块比较该错字的发音与该部分符合词汇中位于相同位置的字的发音,如果发音相同,则该错字校正模块将该部分符合词汇加至该完全符合词汇表; (59)该错字校正模块比较该错字的发音与部分符合词汇中位于相同位置的字的发音,如果存在类似发音相符,则该错字校正模块将该部分符合词汇加至该完全符合词汇表;以及 (SlO)该错字校正模块比较该错字的字根组成与部分符合词汇中位于相同位置的字的字根组成,如果字根符合存在,则该错字校正模块将该部分符合词汇加至该完全符合词汇表。
10.如权利要求9所述的检测及校正中文词汇中错字的方法,其特征在于,该错字侦测模块使用该编辑距离作为依据,来判定该输入词汇中错字是否存在。
11.如权利要求9所述的检测及校正中文词汇中错字的方法,其特征在于,如果编辑距离等于I或是2,但是词汇长度大于2,则该错字侦测模块执行一数据库查询,以撷取该错字的发音及字根组成。
12.如权利要求9所述的检测及校正中文词汇中错字的方法,其特征在于,该错字侦测模块将该错字、字的发音及字根组成、编辑距离等于或小于2的所述部分词汇传送至该错字校正模块,进行校正错字。
13.如权利要求9所述的检测及校正中文词汇中错字的方法,其特征在于,如果该完全符合词汇表中只有一个完全符合词汇,则该错字可以被更正。
14.如权利要求9所述的检测及校正中文词汇中错字的方法,其特征在于,如果该完全符合词汇表中包含多个完全符合词汇,且一最佳符合词汇可以依序采用下列方法的步骤获得,则该错字可以被更正,该方法包含下列步骤 (1)如果在所述完全符合词汇中只有一个完全符合词汇存在一邻近比对相符,则该完全符合词汇为最佳符合词汇; (2)如果在所述完全符合词汇中只有一个完全符合词汇存在一发音完全相符,则该完全符合词汇为最佳符合词汇; (3)如果在所述完全符合词汇中只有一个完全符合词汇存在一类似发音相符和一字根相符,则该完全符合词汇为最佳符合词汇; (4)如果在所述完全符合词汇中只有一个完全符合词汇存在一类似发音相符,则该完全符合词汇为最佳符合词汇;以及 (5)如果在所述完全符合词汇中只有一个完全符合词汇存在一字根相符,则该完全符合词汇为最佳符合词汇。
15.如权利要求14所述的检测及校正中文词汇中错字的方法,其特征在于,进一步包含以下步骤将该完全符合词汇作为一组建议词汇,由使用者自行判断、选择。
全文摘要
一种侦测及校正中文错字的系统及方法,该系统包含数据库,用于字根及词汇的查询;错字侦测模块,用以比较输入词汇及从该数据库中撷取的数据;以及错字校正模块,用以更正错字;该数据库包含正确的词汇及每一中文字的特质如发音及字根组成;在该错字侦测模块中输入至少包含二个字的词汇,并将其与从该数据库中撷取的数据作比较,来判定该词汇是否有错字,该错字校正模块接收来自该错字侦测模块的侦错数据并试图更正错字。该方法包括一错字侦测步骤及一错字校正步骤;是否有错字欲更正是由编辑距离、词汇长度、以及比较所述错字的发音及字根组成来判定。
文档编号G06F17/21GK103034625SQ20121000164
公开日2013年4月10日 申请日期2012年1月5日 优先权日2011年10月5日
发明者王铭樟 申请人:王铭樟
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1