电脑文档自动检错、改错装置及方法

文档序号:6412192阅读:557来源:国知局
专利名称:电脑文档自动检错、改错装置及方法
技术领域
本发明是关于一种文档检错、改错装置及方法,特别是关于一种适用于中文、日文文档的二阶段式检错及改错装置及其方法。本发明所提供的电脑文档自动检错、改错装置及方法,是利用二次断词的方式,达到正确检出错字并改正错字的功效。
由于电脑应用的普及,利用电脑处理各种文件,已经成为现代商业活动的标准作业方式。在所有电脑处理的文档中,内容的正确是一切处理的前提。因此,如何确保电脑文档内容的正确,成为文件处理领域当中的一大课题。
在以中文(含简体中文及繁体中文)、日文作为处理对象的应用当中,无论以常用的键盘输入方式、语音、OCR辨识方式,或者由文档呼出方式所取得的文档,均有错别字的问题。
所谓“错字”,通常是指某一中文字,由于电脑辨识或书写上笔画增减、改变、误置或键盘操作的漏打、多打、误打、选字错误等原因,造成字形的误差。而所谓“别字”,是指应该使用某字,因为认知上的错误而使用其他字的错误。此外,在中国大陆所使用的中文字与台湾使用的中文字互相之间,因用法的不同所产生的差异,也是目前一般文档(尤其是简、繁互换所得的文档)常见的问题。以上以及其他用字的误差,以下统称为“错别字。”对于文件中出现的错别字,常用技术是在系统输入取得文档之后,利用人工加以校正。由于人工校对极为耗时,目前电子信息界已研究出若干以电脑自动检测错别字及/或自动改正错别字的系统,以满足使用者大量自动或半自动校正错别字的要求。
中国台湾发明专利案第59572号揭示一种“中文错字自动检测法及检测装置”,该方法可以自动对中文文档中的错别字,加以检出,以供使用者改正错别字。该方法是利用统计方法,先将文句中的文字作假断词处理,选出不常出现的低频单字词,标示为可能的错别字。该方法提供一种高查全率的检错方法,但其缺点为不能提供正确字的建议、精确率低,且其字接续表参数量庞大,处理速度无法提高。
中国台湾第83103817号专利申请案,揭示一种“中文错别字自动修正方法与装置”,该方法先将文字转换为近似字集,再对近似字集断词。之后,利用一次断词的方式,对各字串组合作评分,找到可能的错别字,并提供改正建议。该方法由于近似字集相当庞大,断词相当费时,且因评分所用的词间字接续表参数数量庞大,取样统计不易完整。在应用上,也有所不便。
因此目前亟需一种能提供高查全率、高精确率,且可提高速度的电脑文档自动检错、改错装置及方法。同时也需有一种与文档的输入方法无关,均能提供自动检错、改错功能的装置与方法。
本发明的目的是提供一种高查全率及高精确率的电脑文档自动检错、改错装置及方法;本发明的另一目的是提供一种速度可以提高的电脑文档自动检错、改错装置及方法;本发明的另一目的是提供一种能适用于不同输入方法的电脑文档自动检错、改错装置及方法。
经本发明人发现,利用一种“二次断词”法,即经由第一次断词,将文句回归到无错的原始形式;再经第二次断词将文句转换成较正确的文字,即可提供高查全率及高精确率的检错及改错功能。在本发明的方法中,首先将文句经由断词分析,以确定字音及字形;其次,将所有文字分别转换为一种音代码形式及一种形代码形式。接着依据所得的音代码或形代码在词库中查找字词,并依查得的字词对该文句作第二次断词。最后,依据第二次断词的结果,形成建议使用者更改的文句。
本发明的电脑文档自动检错、改错装置及方法由于分别采取二次断词、词性分析、音形代码转换的作法,可以达到高查全率、高精确率、高速度的效果。
现讨论如下1.第一次断词可作用的前提,在于经由断词的长度与频率,可以有效地确定可能的错字点,保障高查全率。
2.在第一次断词时同时进行的词性分析,是采用一个词性接续表进行的。利用其结果可以分析词与词之间词性的配合程度。避免将正常的词汇连用的情况,误为错字点,以提高精确率。词性接续表具有文法分析的性质,比(词间)字接续表而言,更具有一般性与推广性。实验证明其效果极佳。
3.以100个词性分类的分析为例,词性接续表约有1000多项资料。而字接续表动辄几十万项资料。因此以词性接续表的拼字改错分析,可以节约查表时间、加快处理速度。
本发明的上述及其他目的及优点,可由以下结合附图的详细说明而更加清楚。
图1表示本发明电脑文档自动检错、改错方法的系统流程图。
图2表示本发明电脑文档自动检错、改错装置第二阶段断词处理子系统的系统图。
表Ⅰ显示适用在本发明的形代码对照表的一部份内容。
经本发明人发现,目前在一般电脑文档中,最常见的错别字发生在同(近)音字,形近似字及简繁转换字。在同(近)音字方面,最常发生在以拼音输入法所输入的词汇,例如“平均值”误为“平均质”,“必会”误为“避讳”或“闭会”。而形近似字则较常发生在以字形为基础的输入法(例如仓颉输入法)输入之文件,或以OCR输入的文件。例如在仓颉输入法将“市场形势(势的仓颉码为土戈大尸)”误为“市场形劫(劫的仓颉码为土戈大尸)”,或以OCR将“已经”误判为“正经”等。而在简繁转换字方面,则主要发生在简体对繁体字为一对多的场合,例如将“後面”误为“后面”等。
由于在电脑文档中发生错别字的原因并非只有一个方面,对电脑文档检错及改错方法必须能够解决各种原因所致的错别字。为达成上述目的,本发明透过不同的代码对照表及一种二阶段断词技术,以确保不同原因造成的错别字均能一一检出,并予改正。
图1表示本发明电脑文档自动检错、改错方法的系统流程图。以下依据


本发明之方法。
在利用本发明的电脑文档自动检错、改错装置及方法进行错别字检测时,首先系统在步骤101从文档中取出一段定长度的文字,并以标点符号为界,将标点符号之前的文字认为一个单位“句子”,作为处理对象。
在此处理阶段,所有文字依据通用的编码方式赋予一个代码。适用的编码方式包括工业界常用的BIG5码等。
其次,在步骤102,由系统从一以共用编码方式编码的词典中,查出该句子中任何二字以上子字串所构成的字词。依此步骤所取得的字词(子字串),可能互相重叠。因此必须有一作业方式,选取不重叠,接续紧密的词汇段落。接着在步骤103依据所取得的字词词长、词频、词性接续情形,依据一定规则,决定该句子最佳的词汇分段方式。适用于此步骤的断词方式,可以是如常用的中国台湾第81105610号专利案“中文文档压缩处理方法及装置”所揭示的断词方法。至此完成第一阶段的断词处理。
第一阶段的断词处理是利用固有词典将句子作预断词,以节省后续处理的时间。
图2表示本发明第二阶段断词处理子系统的系统图。如图所示,第二阶段断词处理子系统包括一个原始文档存储体201、一个原始文件到代码转换装置202、一个代码对照表203、一个代码档存储体204、一个代码到目的文档转换装置205、一输出代码转换对照表206及一目的文档存储体207。
上述代码对照表203如果是一个音代码对照表,则可以依据每个文字的发音,例如以注音符号作为其代码。因此,在此对照表中,同音字有相同的编码。如果代码对照表是一个形代码对照表,则是将每组字形接近或易发生相同误输入的文字,归纳为一组一组的字集(cluster),并以其中一个字,作为其编码。
表Ⅰ显示适用于本发明的形代码对照表的一部份内容。在此代码对照表中,第1栏为每一字集的组成字,第2、3栏为其仓颉码,第4栏为字集的代码。
此外,如果代码对照表203为一简繁字码对照表,则包含所有单一简体字对照至数繁体字的字库,并以其发音代码(如注音符号)作为其代码。
每一句子在步骤104转换为代码之后,即于步骤105储存于代码文档存储体204中,供代码到目的文字档转换装置205进行转换处理。在步骤106转换装置205依据句子的代码,在一以代码编码的词典中,找出与句子中的字串代码相同的子字串,并予记录。接着,转换装置205在步骤107依据所记录的子字串的词长、词频、词性接续,更改字数等四项因子,决定出最佳的词汇分段(断词)方式。最后在步骤108依据所选出的词汇重新构成新的句子。
如有必要,转换装置205可于步骤109显示处理结果,供使用者确认;否则即自动更正句子内容,并在步骤110依据输出代码对照表206的代码,将更动后的句子,转换成以通用编码方式编码的目的文档,而储存于该目的文档存储体207中。
在本发明中,转换装置205决定最佳断词方式的方法,可以利用任何常用的方式,例如前述第83103817号专利案所述。但本发明的实例利用以下的步骤,可能达到更优异的效果。
断词的计算方式为选取一组词汇Wi,i=1到n,使得Σi=1n20×|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30×Ci]]>为最大值。
其中POSi为Wi的词性,而Ci为Wi的更改字数。
定义词长(︱Wi︱)一中文词汇所包含的字数。如“快乐”的词长为2,而“快”的词长为1。
词频(Prob(Wi))词汇在文章中出现的频率,如“快乐”在某一100万词汇的资料中出现100次,则其词频为0.001。
词性接续机率(Prob(POSi︱POSi-1))某词性X的词汇在句子的第i-1个位置出现的条件下,词性Y的词汇接着在第i个位置出现的机率。例如在一资料中动词共出现100次而其后出现名词的情况共32次,则动词与名词的接续机率Prob(名词︱动词)=0.32。
更改字数(Ci)在第二次断词作业中,所考虑的音码相同词(或形码相同词)与同位置原始输入资料不同的字数。例如“形势”为同位置“形劫”的同形词,则更改字数为1。
虽然不拘束于任何理论,但本发明提供上述公式的依据是综合多项中文电脑处理的研究报告,以及发明人长期所作的研究试验,所获得的结论。说明如下1.最简单、有效的“长词优先原则”可以达到90%以上的正确率。然而当两种断词的结果词长相同时,“长词优先原则”就无法决定采用何者。
2.在上述情形下,词的使用常用方式的资料,可以在大部份的情形下,帮助选择正确的断词。这些常态的统计资料包括词使用频率、相邻词性的邻接出现的频率等。例如在词性方面“程度副词‖形容词”优于“时间副词‖动词”,因此在断词处理时,后者应为优先。
3.上述公式实施的效果,会因辞典所收纳的辞汇,处理文章的类型,而有若干程度的变动。经过详细分析,对大量不同类型文章进行实验调整公式,决定该式。
以下说明
具体实施例方式实施例一同音错别字的转换首先系统在步骤101从原始文档存储体201的待处理文档中取出一段定长度的文字,并以标点符号为界,选定一个单位“句子”,作为处理对象“其平均质颇为可信”。
待处理文档是用教育部公布的BIG5码,其代码为其平均质颇为可信A8E4 A5AD A7A1 BDE8 BBE1 ACB0 A569 AB48由待处理的句子得知,其中的“质”字为“值”的同音错别字。
处理时,在步骤102由系统从一以BIG5码编码的词典中,查出该句子中任何二字以上子字串所构成的字词。在步骤103将所取得当为平行四边形时,拆分后D1D3内同为“/”左斜直线或“\”右斜直线段,D2D4为“一”直线段,上述的横线段、左斜直线和右斜直线分别归纳定义为横笔和撇捺笔。当为不规则四边形时,拆分后D1D2D3D4内可同时取“フ”折笔。
本发明中,凡用“田”字和“米”字图对线符进行拆分编码时,如遇某个方位或多个方位无笔画或只有一笔画时,可向下一方位借二笔或一笔进行编码,也可采用“假设笔画法”的方法来取笔编码。
本发明用“米”字图或“田”字图拆分线符后,在某个或几个方位没有笔画时,可假设该方位内的笔画为五种笔画中的任意一种笔画,或固定为折“フ”笔画。也可假设该方位内的笔画为上一方位内的小数笔画。即A2方位内笔画为“丿”,对应数码为“3”,则无笔画的方位,A3的假设笔画为“丨”笔,对应数码为“2”,即2<3,为小数笔画。如字母“レ”与“ヘ”放入“田”字图或“米”字图中拆分,则“レ”在A 2角内无笔画,“ヘ”线符的A4角内无笔画,若假设无笔画的位置为折笔笔画,编码举例レJUBB,ヘNTTW。
本发明通过“米”字或“田”字拆分线符,再加上无笔画位置采用假设笔画的办法来取笔编码,可把特殊的线符确定在特殊的位置上,简称线符定位法,具体方法是a、处在字符右下角的线符,如逗号“,”、句号“。”,处在字符左上角,右上角的线符,如单引号“‘’”、双引号““””,处在字符左下角的线符,如直角“
”等。置于“田”字图或“米”字图中各自的对应的位置内,即左上角A1或S1S2的位置内,右上角A2或S3S4的位置内,右下角A3或S5S6的位置内,左下角A4或S7S8的位置内,则无笔画的方位用假设笔画替代,结合定位符号取笔编码。
b、对于带方向性的特殊线符的定位办法是将带方向性的特殊线符放入“田”字图或“米”字图中各自相对应的位置内,即左方A1A4或S2S1S8S7方位内;右方A2A3或S3S4S5S6方位内,上方A1A2或S1S2S3S4方位内;下方A3A4或S5S6S7S8方位内,则无<p>接着,转换装置205在步骤107依据所记录的子字串的词长、词频、词性接续,更改字数等四项因子,决定出最佳的断词方式。
断词的计算方式为选取一组词汇Wi,i=1到n,使得&Sigma;i=1n20&times;|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30&times;Ci]]>为最大值。
其中POSi为Wi的词性,而Ci为Wi的更改字数。
词长(︱Wi︱)一中文词汇所包含的字数。“平均值”的词长为3,而“平均”的词长为2。
词频(Prob(Wi))词汇在1百万个词汇文章中出现的频率,如“平均值”词频为1次,“平均”词频为101次,“质”词频为33次。
词性接续机率(Porb(POSi︱POSi-1))某词性X的词汇在句子的第i-1个位置出现的条件下,词性Y的词汇接着在第i个位置出现的机率。例如在上例中“平均值”在“其”后出现的接续机率为Porb(Na︱Nh),“平均”在“其”后出现的接续机率为Prob(VH︱Nn),“质”在“平均”后出现的接续机率为Porb(nA︱Nh)。
更改字数(Ci)在第二次断词作业中,所考虑的同音词与同位置原始输入资料不同的字数。例如“平均值”为同位置“平均质”的同音词,则更改字数为1。
经计算后所得的结果包括以下︱其︱平均︱质︱颇为︱可信︱2.498×10-8︱其︱平均值︱颇为︱可信︱3.194×10-5最后在步骤108转换装置205依据所计算的数值,选择较高的词汇重新构成新的句子︱其︱平均值︱颇为︱可信︱。
此外,转换装置205也可于步骤109显示处理结果,供使用者确认;否则即自动更正句子内容,并由代码到目的码转换装置205在步骤110依据输出代码转换对照表206的代码,将更动后的句子,转换成以共用编码方式编码的目的文档,而储存于该目的文档存储体207中。如此即完成同音错别字改错步骤。
实施例二形近似错别字的转换首先系统在步骤101从原始文档存储体201的待处理文档中取出一段定长度的文字,并以标点符号为界,选定一个单位“句子”,作为处理对象“造成市场形劫及力量”。
由待处理的句子得知,是“造成市场形势及力量”的形近似错别字。
其次,在步骤102由系统从一以BIG5码编码的词典中,查出该句子中任何二字以上子字串所构成的字词。在步骤103将所取得的字词依据常用的断词方法,作第一阶段的预断词处理。结果如下︱造成︱市场︱形︱劫︱及︱力量︱。
在步骤104系统设定所要处理的是形近似错别字。因此原始文件到代码转换装置202便在代码对照表203中取得形代码对照表,将所要处理的句子,转换为形代码,并于步骤105将所得结果储存于代码档存储体204中︱造成︱市场︱形︱劫︱及︱力量︱。
↓↓ ↓↓ ↓ ↓ ↓ ↓↓︱胴怕︱咩佞︱侠︱劫︱扳︱六马︱。
形代码对照表是将每组字形接近或易发生相同误输入的文字,归纳为一组一组的字集(cluster),并以其中一个字,作为其编码。例如上述的“胴”是代表下列形近似字集“造週迥胴…”,“怕”是代表下列形近似字集“成叨怍怕…”,“咩”是代表下列形近似字集“市辛咩洋”,以此类推。
文字档转换装置205在步骤106依据句子的形代码,在一以形码编码的词典208中,找出与句子中的字串代码相同的子字串︱造成︱市场︱形︱劫︱及︱力量︱︱胴怕︱咩佞︱侠︱劫︱扳︱六马︱
︱VK33︱Nc30︱Na42︱VD45︱Ca24︱Na41︱,及︱造成︱市场︱形势︱及︱力量︱︱胴怕︱咩佞︱侠劫︱扳︱六码︱︱VK33︱Nc30︱Na99︱Ca24︱Na41︱。等等接着,转换装置205在步骤107依据所记录的子字串的词长、词频、词性接续,更改字数等四项因子,决定出最佳的断句方式。
断词的计算方式为选取一组词汇Wi,i-1到n,使得&Sigma;i=1n20&times;|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30&times;Ci]]>为最大值。
经计算后所得的结果为︱造成︱市场︱形劫︱及︱力量︱3.697×10-5︱造成︱市场︱形势︱及︱力量︱2.184×10-2最后在步骤108转换装置205依据所计算的数值,选择较高的词汇重新构成新的句子︱造成︱市场︱形势︱及︱力量︱。
此外,转换装置205也可于步骤109显示处理结果,供使用者确认;否则即自动更正句子内容,并由代码到目的码转换装置205在步骤110依据输出代码转换对照表206的代码,将更动后的句子,转换成以共用编码方式编码的目的文档,而储存于该目的文档存储体207中。如此即完成形近似错别字改错步骤。
上述形近似错别字的改错方法,可以应用在任何以文字形体特征作为输入依据的输入法,以改正错别字。适用的实例包括以仓颉码输入的文档及以OCR输入的文档。
实施例三简繁转换错别字的改正首先系统在步骤101从原始文档存储体201的待处理文档中取出一段定长度的文字,并以标点符号为界,选定一个单位“句子”,作为处理对象“老板徙后面端來湯面和鹵豆腐干”。
由待处理的句子得知,是“老闆徙後面端來湯麵和滷豆腐干”的繁简转换错别字。
其次,在步骤102由系统从一繁简对照词典中,查出该句子中任何二字以上子字串所构成的字词。在步骤103将所取得的字词依据常用的断词方法,作第一阶段的预断词处理。结果如下︱老板︱徙︱后︱面︱端︱來︱湯︱面︱和︱鹵︱豆腐干︱。
在步骤104系统设定所要处理的是繁简转换错别字。因此原始文件到代码转换装置202便在代码对照表203中取得繁简转换代码对照表,将所要处理的句子,转换为繁简转换代码,并于步骤105将所得结果储存于代码档存储体204中︱老板︱徙︱后︱面︱端︱來︱湯︱面︱和︱鹵︱豆腐干︱。
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓↓↓老 板 徙 后 面 端 來 湯 面 和 鹵 豆腐干简繁字码对照表203包含所有单一简体字对照至数繁体字的字库,并以其中一繁体字作为其代码。
文字档转换装置205在步骤106依据句子的繁简转换代码,在一以代码编码的词典208中,找出与句子中的字串代码相同的子字串︱老板︱從︱后︱面︱端︱來︱湯︱面︱和︱鹵︱豆腐︱干︱。↓↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓↓ ↓老板 從 后 面 端 來 湯 面 和 鹵 豆腐 干↓↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓↓ ↓︱Na︱ Pb ︱Na︱Na︱Vc︱Vc︱Na︱Na︱Ca︱Vc︱ Na ︱ Na ︱,及︱老闆︱從︱後面︱端︱來︱湯麵︱和︱滷︱豆腐乾︱。↓↓ ↓ ↓↓ ↓ ↓ ↓↓ ↓ ↓ ↓↓↓老板 從 后面 端 來 湯面 和 鹵 豆腐干↓↓ ↓ ↓↓ ↓ ↓ ↓↓ ↓ ↓ ↓↓↓︱ Na︱ Pb ︱Nc︱ Vc ︱Vc︱Na︱Ca︱Vc ︱ Na ︱等等。
接着,转换装置205在步骤107依据所记录的子字串的词长、词频、词性接续,更改字数等四项因子,决定出最佳的断句方式。
断句的计算方式为选取一组词汇Wi,i=1到n,使得&Sigma;i=1n20&times;|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30&times;Ci]]>当为平行四边形时,拆分后D1D3内同为“/”左斜直线或“\”右斜直线段,D2D4为“一”直线段,上述的横线段、左斜直线和右斜直线分别归纳定义为横笔和撇捺笔。当为不规则四边形时,拆分后D1D2D3D4内可同时取“フ”折笔。
本发明中,凡用“田”字和“米”字图对线符进行拆分编码时,如遇某个方位或多个方位无笔画或只有一笔画时,可向下一方位借二笔或一笔进行编码,也可采用“假设笔画法”的方法来取笔编码。
本发明用“米”字图或“田”字图拆分线符后,在某个或几个方位没有笔画时,可假设该方位内的笔画为五种笔画中的任意一种笔画,或固定为折“フ”笔画。也可假设该方位内的笔画为上一方位内的小数笔画。即A2方位内笔画为“丿”,对应数码为“3”,则无笔画的方位,A3的假设笔画为“丨”笔,对应数码为“2”,即2<3,为小数笔画。如字母“レ”与“ヘ”放入“田”字图或“米”字图中拆分,则“レ”在A 2角内无笔画,“ヘ”线符的A4角内无笔画,若假设无笔画的位置为折笔笔画,编码举例レJUBB,ヘNTTW。
本发明通过“米”字或“田”字拆分线符,再加上无笔画位置采用假设笔画的办法来取笔编码,可把特殊的线符确定在特殊的位置上,简称线符定位法,具体方法是a、处在字符右下角的线符,如逗号“,”、句号“。”,处在字符左上角,右上角的线符,如单引号“‘’”、双引号““””,处在字符左下角的线符,如直角“
”等。置于“田”字图或“米”字图中各自的对应的位置内,即左上角A1或S1S2的位置内,右上角A2或S3S4的位置内,右下角A3或S5S6的位置内,左下角A4或S7S8的位置内,则无笔画的方位用假设笔画替代,结合定位符号取笔编码。
b、对于带方向性的特殊线符的定位办法是将带方向性的特殊线符放入“田”字图或“米”字图中各自相对应的位置内,即左方A1A4或S2S1S8S7方位内;右方A2A3或S3S4S5S6方位内,上方A1A2或S1S2S3S4方位内;下方A3A4或S5S6S7S8方位内,则无句子中任何二字以上子字串所构成的字词。在步骤103将所取得的字词依据常用的断句方法,作第一阶段的预断句处理。结果如下︱發出︱金︱石︱一様︱饗︱脆︱的︱聲音︱在步骤104系统设定所要处理的是OCR辨识错字。因此原始文件到代码转换装置202便在代码对照表203中取得OCR辨识形似对照表。将所要处理的句子,转换为OCR代码,并于步骤105将所得结果储存于代码档存储体204中︱發出︱金︱石︱一様︱饗︱脆︱的︱聲音︱↓↓ ↓ ↓ ↓↓ ↓ ↓ ↓︱登山︱全 石︱一株︱響︱脱︱約︱聲音︱形代码对照表是将每组字形接近容易经OCR辨识选成误输入的文字,归纳为一组一组之字集(cluster),并以其中一个字,作为其编码。例如上述的“登”是代表下列形近似字集“發登澄”,“山”是代表下列行近似字集“山出仙…”,“全”是代表下列形的近似字集“全金仝…”,以此类推。
文档转换装置205在步骤106依据句子的形代码,在一以代码编码的词典208中,找出与句子中的字串代码相同的子字串︱發出︱金︱石︱一様︱饗︱脆︱的︱聲音︱︱登山︱金︱石︱一株︱響︱脱︱約︱聲音︱︱V R ︱Na︱Na︱D a︱ A ︱ A ︱Ta︱Na︱,及︱發出︱金屬︱一様︱響脆︱的︱聲音︱︱發山︱金石︱一株︱響脱︱約︱聲音︱︱ VR ︱ Na ︱ Da ︱ VH ︱Ta︱ Na ︱。
接着,转换装置205在步骤107依据所记录的子字串之词长、词频、词性接续,更改字数等四项因子,决定出最佳的断句方式。
断句的计算方式为选取一组词汇Wi,i=1到n,使得&Sigma;i=1n20&times;|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30&times;Ci]]>为最大值。
经计算后所得的结果为︱發出︱金︱石︱一様︱饗︱脆︱的︱聲音︱2.19*12-12
︱發出︱金屬︱一様︱響脆︱的︱聲音︱3.86*10-9最后在步骤108转换装置205依据所计算的数值,选择较高的词汇重新构成新的句子︱發出︱金屬︱一様︱響脆︱的︱聲音︱。
此外,转换装置205也可于步骤109显示处理结果,供使用者确认;否则即自动更正句子内容,并由代码到目的码转换装置205在步骤110依据输出代码转换对照表206的代码,将更动后的句子,转换成以共用编码方式编码的目的文档,而储存于该目的文档存储体207中。如此即完成OCR辨识错字改错步骤。
在本发明所提供的方法中,改正的结果可能获得在候选字中所没有的正确字。
实施例五日文文稿改错实施例首先系统在步骤101从原始文档存储体201的待处理文档中取出一段定长度之文字,并以标点符号为界,选定一个单位“句子”,作为处理对象“それは自然化学を研究する。”由待处理的句子得知,其中的“化学”为“科学”的同音错别字。
其次,在步骤102由系统从一日文词典中,查出该句子中任何日文子字串所构成的字词。在步骤103将所取得的字词依据常用的断句方法,作第一阶段的预断句处理。结果如下︱それごは︱自然︱化学︱を︱研究︱する︱在步骤104系统设定所要处理的是形近似错别字。因此原始文件到代码转换装置202便在代码对照表203中取得日文音代码对照表,将所要处理的句子,转换为日文音代码,并于步骤105将所得结果储存于代码档存储体(204)中︱そ れ ご は︱ 自然 ︱ 化学 ︱を︱ 研究 ︱する︱。
︱So re de Wa︱Shi zen︱Ka gaku︱O ︱Ken Kyuu︱Su ru︱简繁字码对照表203包含所有单一简体字对照至数繁体字的字库,并以其发音代码作为其代码。
文字档转换装置205在步骤106依据句子的日文发音代码,在一以代码编码的词典208中,找出与句子中的字串代码相同的子字串︱そ れ で は︱ 自然 ︱ 化学 ︱を︱研究 ︱する︱。
︱So re de wa︱Shi zen︱Ka gaku︱O︱Ken Kyuu︱Su ru︱︱ 接续 ︱ 名词︱名词 ︱宾︱ 动名 ︱动Ⅲ︱,及︱そ れ で は︱ 自然科学 ︱を︱ 研究 ︱する︱。
︱So re de wa︱Shi zen Ka gaku︱O︱Ken Kyuu︱Su ru︱︱ 接续 ︱名词︱宾︱ 动名 ︱动Ⅲ︱等等。
接着,转换装置205在步骤107依据所记录的子字串的词长、词频、词性接续,更改字数等四项因子,决定出最佳的断句方式。
断句的计算方式为选取一组词汇Wi,i=1到n,使得&Sigma;i=1n20&times;|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-30&times;Ci]]>为最大值。
经计算后所得的结果为︱そ れ ゎ で は︱自然 ︱化学︱を︱研究︱する︱3.71×10-9︱そ れ で は︱自然科学 ︱を︱研究︱する︱2.92×10-6最后在步骤108转换装置205依据所计算的数值,选择较高的词汇重新构成新的句子。
“それでは自然科学を研究する”此外,转换装置205也可于步骤109显示处理结果,供使用者确认;否则即自动更正句子内容,并由代码到目的码转换装置205在步骤110依据输出代码转换对照表206的代码,将更动后的句子,转换成以共用编码方式编码的目的文档。而储存于该目的文档存储体(207)中。如此即完成日文同音错字改正步骤。
以上是对本发明电脑文档自动检错、改错装置及方法的实施例的说明,本领域的技术人员不难由上述说明明了本发明的精神,并据以作出各种不同的变化与引伸。若不超出本发明的精神,均应属本发明专利范围之内。52 小NC弓金酒4553 尢KU大山尢3854 尸S 尸 馬3755 山U 山 山156 川LLL 中中中 甽557 工MLM 一中一 酒4558 己SU尸山六12159 已SU尸山六12160 巳RU口山匈5161 巾LB中月巾3062 干MJ一十舨4563 卄JJ十十姨3064 弋IP戈心俠3965 弓N 弓 了3366 才DH木竹匈5167 丑NG弓土了3368 丐MYVS 一卜女尸丐 169 不MF一火不 370 中L 中 甽 571 丰QJ手十六 12172 丹BY月卜始4873 之INO 戈弓人 了3374 尹SK尸大核4075 予NINN 弓戈弓弓予 176 云MMI 一一戈 佞5077 井TT廿廿奘3178 互MVNM 一女弓一互 179 五MDM 一木一 岑3580 亢YHN 卜竹弓 尢3881 仁OMM 人一一 佞5082 什OJ人十尢3883 仃OMN 人一弓 佞5084 仆OY人卜杓3985 仇OKN 人大弓 穹3986 仍ONHS 人弓竹尸舨4587 今OIN 人戈弓 岑3588 介OLL 人中中 刺3789 仄MO一人岑3590 元MMU 一一山 佞5091 允IHU 戈竹山 匈5192 内OB人月穹3993 六YC卜金六 12194 兮CMVS 金一女尸兮 195 公Cl金戈穹3996 冗BHN 月竹弓 冬1697 凶UK山大咩4198 分CSH 金尸竹 扳5099 切PSH 心尸竹 切39100 刈KLN 大中弓 耽33101 匀PIM 心戈一 六 121102 勾PI心戈匈51表一
权利要求
1.一种电脑文档自动检错、改错装置,包括一待处理文档获取装置,含有一个原始文档存储体,并可一待处理文档中取出一段相当长度的文字,视为一个“句子”,储存于该一个原始文档存储体,作为处理对象;一预断词处理装置,含有一以与该待处理句子共用的编码方式编码的词典,依据一定规则将该待处理句子中任何子字串所构成的字词,以不重叠的接续方式排列;一原始文件到代码转换装置,含有一个代码对照表及一个代码文档存储体,可依据该代码对照表,将该待处理句子的文字转换成代码,储存于代码文档存储体;一代码到目的文档转换装置,含有一代码词典,可依据该待处理句子的代码,在该代码词典中,找出与该待处理句子中所含字串代码相同的子字串,并依据该待处理句子中至少二子字串的特性,决定出最佳的断词方式及适用的词汇,并更正该待处理句子的内容;及一输出装置,含有一输出代码转换对照表及一目的文档存储体,可依据该输出代码转换对照表,将该以代码编码的待处理句子,转换成供输出用的编码格式,储存于该目的文档存储体中。
2.如权利要求1所述的装置,其特征在于该代码到目的档转换装置是依照该待处理句子的词长(︱Wi︱一词汇所包含的字数)、词频(Prob(Wi)一词汇在一般文章中出现的频率)、词性接续机率(Porb(POSi︱POSi-1)某词性X的词汇在句子的第i-1个位置出现的条件下,词性Y的词汇接着在第i个位置出现的机率)及更改字数(Ci在代码到目的文档转换作业中,建议更改的字词与同位置原输入资料不同的字数)等,决定出最佳的断词方式及适用的词汇。
3.如权利要求2所述的装置,其特征在于该代码到目的文档转换装置,是依据该待处理句子中所有子字串的特性,决定出最佳的断词方式及适用的词汇。
4.如权利要求3所述的装置,其特征在于该代码到目的文档转换装置决定断词及适用词汇的方式是选取一组辞汇Wi,i=1到n,使得&Sigma;i=1n&alpha;&times;|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-&beta;&times;Ci]]>为最大值。其中,POSi为Wi的词性,︱Wi︱为词长,Prob(Wi)为词频,Porb(POSi︱POSi-1)为词性接续机率,而Ci为Wi的更改字数。
5.如权利要求1,2,3或4所述的装置,其特征在于代码到目的文档转换装置另含一界面装置,含有一显示装置,可于代码到目的文档转换处理中,显示处理结果,供使用者确认,并依据使用者指令,决定断句及适用词汇。
6.如权利要求1,2,3或4所述的装置,其特征在于代码对照表是一个中日文音代码对照表,以文字的发音为其编码规则;该对照表中,所有同音字的代码均相同。
7.如权利要求1,2,3或4所述的装置,其特征在于代码对照表是一个形代码对照表,将字形接近或易发生混同误输入的文字,归纳为一组一组的字集(cluster),每一字集被赋予一代码。
8.如权利要求1,2,3或4所述装置,其特征在于代码对照表为一简繁字码对照表,包含所有单一简体字对照至数繁体字的字组的集合,每一字组被赋予一代码。
9.如权利要求8所述的装置,其特征在于代码对照表是以各组繁简字组之一代表繁体字的字码作为其代码。
10.一种电脑文档自动检错、改错方法,包括待处理句子取得-从一待处理文档中取出一段相当长度的文字,视为一个“句子”,作为处理对象;预断词-依据一定规则,将该待处理句子中任何子字串所构成的字词,以不重叠的接续方式排列;代码转换-依据一代码对照表,将该待处理句子的文字转换成代码;改正处理-依据该待处理句子的代码,于一以该代码编辑而成的代码词典中,找出与该待处理句子中所含字串代码相同的子字串,并依据该待处理句子中至少二子字串的特性,决定出最佳的断词方式及适用的词汇,并更正该待处理句子的内容而以代码型式存在;及目的码转换-依据一输出代码转换对照表,将该以代码编码的待处理句子,转换成供输出用的编码格式,作为输出用目的文档。
11.如权利要求10所述的方法,其特征在于改正处理包括将该待处理句子的“词长”(︱Wi︱一词汇所包含的字数)、“词频”(Prob(Wi)一词汇在一般文章中出现的频率)、“词性接续机率”(Porb(POSi︱POSi-1)某词性X的词汇在句子的第i-1个位置出现的条件下,词性Y的词汇接着在第i个位置出现的机率)及“更改字数”(Ci在代码到目的档转换作业中,建议更改的字词与同位置原输入资料不同的字数)等,作为决定出最佳的断词方式及适用的词汇的依据。
12.如权利要求11所述的方法,其中特征在于改正处理包括依据该待处理句子中所有子字串的特性,决定出最佳的断词方式及适用的词汇。
13.如权利要求12所述方法,其特征在于改正处理包括在该代码词典中,与该待处理句子所含字串代码相同的子字串中,选取一组辞汇Wi=1到n,使得&Sigma;i=1n&alpha;&times;|Wi|-log10Prob(Wi)-log10Prob(POSi|POSi-1)-&beta;&times;Ci]]>为最大值的计算其中,POSi为Wi的词性,︱Wi︱为词长,Prob(Wi)为词频,Porb(POSi︱POSi-1)为词性接续机率,而Ci为Wi的更改字数。
14.如权利要求10,11,12或13所述的方法,特征在于改正处理另含一显示处理结果,供使用者确认,并依据使用者指令,决定断句及适用词汇的步骤。
15.如权利要求10,11,12或13所述的方法,其特征在于代码对照表是一个中日文音代码对照表,以文字的发音为其编码规则;该对照表中,所有同音字的代码均相同。
16.如权利要求10,11,12或13所述的方法,其特征在于代码对照表是一个形代码对照表,将字形接近或易发生混同误输入的文字,归纳为一组一组的字集(cluster),每一字集被赋予一代码。
17.如权利要求10,11,12或13所述的方法,其特征在于代码对照表为一简繁字码对照表,包含所有单一简体字对照至数繁体字的字组的集合,每一字组被赋予一代码。
18.如权利要求17所述的方法,其特征在于代码对照表以各组繁简字组之一代表繁体字的字码作为其代码。
全文摘要
利用一种“二次断词”法,亦即经由第一次断词,将文句回归到无错的原始形式;再经第二次断词将文句转换成较正确的文字,即可提供高查全率及高精确率的检错及改错功能。在本发明的方法中,首先将文句经由断词分析,以确定字音及字形;其次,将所有文字分别转换为一种音代码形式及一种形代码形式。接着依据所得的音代码或形代码在词库中查询字词,并依查得的字词对该文句作第二次断词。最后,依据第二次断词的结果,形成建议使用者更改的文句。
文档编号G06F17/20GK1228565SQ9711470
公开日1999年9月15日 申请日期1997年7月18日 优先权日1997年7月18日
发明者张俊盛, 林翠芬 申请人:睿扬资讯股份有限公司, 张俊盛, 林翠芬
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1