一种文档纠错标记方法与流程

文档序号:14653634发布日期:2018-06-08 22:31阅读:815来源:国知局

本发明涉及一种文档纠错标记方法,属于信息处理技术领域。



背景技术:

文档纠错标记是信息处理技术中一项非常重要的常用技术,通常我们使用的WORD或WPS中都有文档纠错标记功能,主要是用以提醒文档编辑者在文档某处可能出现单词拼写错误或词语逻辑错误等。

目前,传统的文档纠错标记方法主要用于对错误的英文单词进行标记,对中文等非英文语言的支持性并不好,因为英文不涉及分词,词与词之间独立性较强,而中文不像英文那样只需要根据空格就能分出单词,通过查找英文单词数据库就能判断该单词是否正确。中文涉及分词,不管是从统计的角度出发,还是从语法的角度出发,词与词之间都没有一定的规律可言,进而导致对中文的文档纠错标记一度难以实施。



技术实现要素:

本发明要解决的技术问题是针对现有技术的局限和不足,提供一种文档纠错标记方法,用以解决上述问题。

本发明的技术方案是:一种文档纠错标记方法,先将待纠错文档划分为小颗粒集合形式,通过对集合元素分词,之后查找是否存在英文单词的拼写错误并记录,然后对所有词集合进行求词长操作,若存在连续多个独立词,则记录至错误词集合中,最后通过错误词集合中的数据对待纠错文档进行错误标记。

具体包括以下步骤:

Step1:获取待纠错文档X。

Step2:对待纠错文档X以分隔符划分为集合形式,即将待纠错文档X拆分为X:{X1,X2,…,Xn}。

Step3:对待纠错文档X的集合元素Xi,i∈[1,n],将该元素通过分词算法进行分词,得到待纠错文档X的集合元素Xi所对应的词集合Xi:{xi1,xi2,…,xim}。

Step4:遍历词集合Xi:{xi1,xi2,…,xim}中的元素xij,j∈[1,m],若xij为英文单词,则查找英文单词数据库,若该词存在,则忽略,若该词不存在,则将该词下标ij记录至错误词集合ERROR中。

Step5:遍历词集合Xi:{xi1,xi2,…,xim}中的元素xij,j∈[1,m],对元素xij求其长度lenij,并生成词集合Xi:{xi1,xi2,…,xim}所对应的长度集合leni:{leni1,leni2,…,lenim}。

Step6:定义纠错阈值P,遍历长度集合leni:{leni1,leni2,…,lenim},若存在连续多个独立词,即连续P个及P以上个lenij,j∈[1,m]为1,则将这P个lenij所对应的下标ij记录至错误词集合ERROR中。

Step7:遍历待纠错文档X集合形式X:{X1,X2,…,Xn}中所有元素Xi,i∈[1,n],进行步骤Step3、Step4、Step5、Step6的操作。

Step8:根据错误词集合ERROR中的下标数据ij,在待纠错文档X的指定位置处将文本下方加红色波浪线,生成已纠错文档X'并导出。

进一步地,所述步骤Step1中,待检测文本X可以为全中文文档,也可以为中英文结合文档,更可以为全英文文档。

进一步地,所述步骤Step2中,分隔符可以为中文或英文状态下的句号“。”、叹号“!”、问号“?”、省略号“……”以及换行符、分页符等。

进一步地,所述步骤Step3中,分词算法应满足a)可以对中文句子进行正常分词;b)可以对英文单词进行正常分词;c)可以将一串数字单独列出;d)可以将标点符号及空格符去除。

进一步地,所述步骤Step2中待纠错文档X集合形式X:{X1,X2,…,Xn}的长度n,以及Step3中得到的词集合Xi:{xi1,xi2,…,xim}的长度m应满足公式(1)的要求。

n,m∈N+ (1)

进一步地,所述步骤Step4的主要任务是将英文单词进行纠错检查。

进一步地,所述步骤Step5中,长度集合leni:{leni1,leni2,…,lenim}中的元素lenij,j∈[1,m]应满足公式(2)的要求。

lenij∈N+ (2)

进一步地,所述步骤Step6中,纠错阈值P的取值范围如公式(3)所示,可根据具体使用环境进行取值,一般取P=3。

P≥3 (3)

本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术对除英文外的其他语言支持性差,特别是针对中文文档的纠错标记不完善、支持性差等现象,致力于增加目前依靠计算机对中文文档进行纠错标记的支持性。

附图说明

图1是本发明流程示意图。

具体实施方式

下面结合附图和具体实施方式,对本发明作进一步说明。

实施例1:本发明认为对中文句子进行正常分词后,若连续多个词都为独立词,则此处不符合正常语句的逻辑结构,故此处必出错。基于此,本发明先将待纠错文档以分隔符划分为小颗粒集合形式,通过特定的分词算法对所有集合元素进行分词操作,之后根据英文单词数据库查找是否存在英文单词的拼写错误并记录,然后计算所有词集合的词长度,若存在连续多个独立词,即存在连续多个词的长度都为1,则记录至错误词集合中,最后通过错误词集合中的数据对待纠错文档进行错误标记,生成已纠错文档并导出。

一种文档纠错标记方法,具体包括以下步骤:

Step1:获取待纠错文档X;具体的:

假设待纠错文档X的内容为“昆明理工大学(Kunming Univelsity of Science and Technology),简称昆工,坐落于云南省省会明昆市,创建于1954年,时名为昆明工学院,1995年更名为昆明理工大学。1999年原昆明理工大学与原云南工业大学并合立建新的昆明理工大学。已展发成为一所以工为主,理工结合,是一所多学科协调发展的省属重点大学。”。

Step2:对待纠错文档X以分隔符划分为集合形式,即将待纠错文档X拆分为X:{X1,X2,…,Xn};具体的:

划分为集合形式后,集合长度n=3,X1为“昆明理工大学(Kunming Univelsity of Science and Technology),简称昆工,坐落于云南省省会明昆市,创建于1954年,时名为昆明工学院,1995年更名为昆明理工大学。”,X2为“1999年原昆明理工大学与原云南工业大学并合立建新的昆明理工大学。”,X3为“已展发成为一所以工为主,理工结合,是一所多学科协调发展的省属重点大学。”。

Step3:对待纠错文档X的集合元素Xi,i∈[1,n],将该元素通过分词算法进行分词,得到待纠错文档X的集合元素Xi所对应的词集合Xi:{xi1,xi2,…,xim}。

对集合元素X1进行分词,得词集合X1为“昆明,理工大学,kunming,univelsity,of,science,and,technology,简称,昆,工,坐落于,云南省,省会,明,昆,市,创建,于,1954年,更名,为,昆明,理工大学”。

Step4:遍历词集合Xi:{xi1,xi2,…,xim}中的元素xij,j∈[1,m],若xij为英文单词,则查找英文单词数据库,若该词存在,则忽略,若该词不存在,则将该词下标ij记录至错误词集合ERROR中;具体的:

遍历词集合X1,发现词x1`3、x1`4、x1`5、x1`6、x1`7、x1`8均为英文单词,经查找英文单词数据库,发现词xij=univelsity不存在,将该词下标ij=1`4记录至错误词集合ERROR中。

Step5:遍历词集合Xi:{xi1,xi2,…,xim}中的元素xij,j∈[1,m],对元素xij求其长度lenij,并生成词集合Xi:{xi1,xi2,…,xim}所对应的长度集合leni:{leni1,leni2,…,lenim}。

计算词集合X1中集合元素xij的长度lenij,生成的长度集合len1为“2,4,7,10,2,7,3,10,2,1,1,3,3,2,1,1,1,2,1,5,2,1,2,4”。

Step6:定义纠错阈值P,遍历长度集合leni:{leni1,leni2,…,lenim},若存在连续多个独立词,即连续P个及P以上个lenij,j∈[1,m]为1,则将这P个lenij所对应的下标ij记录至错误词集合ERROR中。

定义纠错阈值P=3,遍历长度集合,发现len1`15、len1`16、len1`17是3个连续的独立词,将对应下标ij=1`15、ij=1`16、ij=1`17记录至错误词集合ERROR中。

Step7:遍历待纠错文档X集合形式X:{X1,X2,…,Xn}中所有元素Xi,i∈[1,n],进行步骤Step3、Step4、Step5、Step6的操作。

对集合元素X2、X3同样进行步骤Step3、Step4、Step5、Step6的操作,得连续独立词的下标ij=2`9、ij=2`10、ij=2`11、ij=2`12、ij=3`1、ij=3`2、ij=3`3,并将其记录至错误词集合ERROR中。

Step8:根据错误词集合ERROR中的下标数据ij,在待纠错文档X的指定位置处将文本下方加红色波浪线,生成已纠错文档X'并导出。

已纠错文档X'为“昆明理工大学(Kunming University of Science and Technology),简称昆工,坐落于云南省省会明昆市,创建于1954年,时名为昆明工学院,1995年更名为昆明理工大学。1999年原昆明理工大学与原云南工业大学并合立建新的昆明理工大学。已展发成为一所以工为主,理工结合,是一所多学科协调发展的省属重点大学。”。

实施例结果表明,本发明所采用的方法能够较好的对中文进行文档纠错标记,并且结合传统算法中对英文纠错标记的方法,能够同时对中英文结合的文档进行纠错标记。

以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1