一种中文文本自动校正方法

文档序号:9524185阅读:4251来源:国知局
一种中文文本自动校正方法
【技术领域】
[0001]本发明涉及一种文本校正方法,尤其涉及一种中文文本自动校正方法。
【背景技术】
[0002]随着现代激光照排技术和电子出版业的迅速发展,如何保证所传达的信息正确无误成为研究的重要方面之一。目前人们使用计算机进行写作、编辑和排版等工作,不可避免地会出现一些文字错误,例如多字、漏字、易位、英文单词拼写错误、不规范标点等。因此需要有专门的校队系统对文稿进行校对。从长远发展来看,信息化是将来社会发展的趋势,人们面临的电子信息和文稿日益增多,而传统的手工校对需要校对人员对文本进行逐字逐句的阅读、检查,从成本和效率两个方面都不能适应电子文本数量迅猛增长的趋势。因此,对一个准确度高、效率高的自动校队系统的需求越来越迫切。
[0003]自动校队具有很重要的实用价值,有着广泛的应用领域。在出版业,文本自动校对的实现可以大大减轻工作人员的工作量,将他们从繁琐无味的工作中解脱出来,加快出版节奏推动整个出版业的迅速发展;在文字识别方面,需要用查错、纠错技术对语音识别,ORC文字识别等识别结果进行修改;在文字编辑方面,例如word等很多文本编辑系统中都提供有自动查错技术,对输入的文本进行自动报错;在人机接口方面,例如数据库查询、自然语言等人机接口中要求有一定的容错性能;在辅助教学等系统中需要对输入的句子进行分析,查找出其中的错误,并给出可能的正确答案等。
[0004]此外,自动校对也具有很重要的理论意义。从学科归属上来讲,自动校对从属于自然语言理解的范畴,牵涉许多自然语言理解的基础部门,例如自动分词、词性标注、句法分析等,因而是一个很有学术价值的研究课题。目前,自然语言处理的研究已经进入对大规模真实文本处理的阶段,而实际的真实文本可能存在着错误,自动校对技术就是研究并查找处理这些错误,因此自动校对技术的发展必然能提高其他自然语言处理的容错性能,进一步推动整个自然语言处理研究的发展。

【发明内容】

[0005]本发明所要解决的技术问题是提供一种中文文本自动校正方法,能够对电子文本自动分析,发现、标示出错误并进行纠错改正,将查错和纠错过程很好地结合起来,具有查错速度快,纠错效率高的特点。
[0006]本发明为解决上述技术问题而采用的技术方案是提供一种中文文本自动校正方法,包括如下步骤:a)输入待校对中文文本,按单句对中文文本进行分词预处理;b)按单句查找分词文本中出现的单字、双字或三字及其以上散串;c)采用N-gram模型对分词文本中出现的散串进行连续判断,并结合单字成词概率对每个单句检查文本词级的错误;d)构造纠错知识库生成纠错候选文本。
[0007]上述的中文文本自动校正方法,其中,所述步骤a)采用语音或者键盘输入待校对中文文本,所述预处理包括对输入的待校对中文文本整理语法错误以及进行模式匹配检查。
[0008]上述的中文文本自动校正方法,其中,所述步骤a)中语音输入待校对中文文本的过程如下:接收来自话筒的语音输入并转为计算机所能接收的语音流,对语音流进行特征提取和模板匹配生成候选词字组合,利用语言模型对候选词字组合进行识别。
[0009]上述的中文文本自动校正方法,其中,所述步骤a)中键盘输入待校对中文文本的过程如下:预先对字词进行编码,将击键信号转换为计算机所接受的码序列,并将所述码序列与字词编码相关联。
[0010]上述的中文文本自动校正方法,其中,所述步骤c)对三字及其以上散串的判断过程如下:判断散串中每个字单独成词的概率,确定第一错误系数,采用二元词接续模型依次判断相邻两字成词的概率,确定第二错误系数,采用三元字接续模型依次判断相邻三个字成词的概率,确定第三错误系数,将所有错误系数相加确定文本词级的最终错误系数。
[0011]上述的中文文本自动校正方法,其中,所述步骤c)对连续四字散串WkWk+1Wk+2Wk+3的判断过程如下:cl)分别判断WkWk+1Wk+2Wk+3这几个字单独成词的概率,如果某个字单独出现的概率P = 0,则该处有错,错误系数K1+ = 1.5 ;c2)以Wk 2为起始位置,W k+4为结束位置,采用二元词接续模型进行判断,以连续两个词共现频次R为判断依据;如果R = O,则错误系数K4+ = 0.2,如果R> = 1,则K2- =1.0 ;c3)以Wk:为起始位置,ff k+4为结束位置,采用二元词接续模型进行判断,以连续两个词共现频次R为判断依据;如果R = 0,则错误系数K3+ = 0.5,如果 1<R<2,则 K3+ = 0.2,如果 R> = 2,则 K3- =1.0 ;c4)以 Wk前两个字的第一个字为结束位置,Wk+3后第二个字为结束位置,采用三元字模型进行判断,以连续三个字共现频次R为判断依据;如果R = 0,则错误系数K4+ = 0.2,如果R> = I,则K4- =1.0;
[0012]c5)以^前一个字为起始位置,W k+3后一个字为结束位置,采用二元字模型进行判断,以连续两个字共现频次R为判断依据;如果R = O,则错误系数K5+ = 0.8,如果1〈R〈3,则K5+ = 0.5,如果R> = 3,则K5- =1.0 ;c6)针对某一待查错单字,将所得错误系数相加,即K = 1+1(2+1(3+1(4+1(5,如果K〉= 1.5,则该处有错,将错误文本进行标示。
[0013]上述的中文文本自动校正方法,其中,所述步骤d)对生成的纠错候选文本进行排序,所述排序过程如下:使用每个纠错候选文本替换掉原错误文本,对替换后的单句重复步骤b)和步骤c)再进行查错处理并得到相应的错误系数,按照错误系数大小顺序对纠错候选文本进行排序。
[0014]上述的中文文本自动校正方法,其中,所述步骤d)基于文本的错误特征和似然匹配方法构造各种纠错知识库,所述纠错知识库包括错字词典、易混淆字词典、相似码词典和/或字驱动双向词典。
[0015]本发明对比现有技术有如下的有益效果:本发明提供的中文文本自动校正方法,按单句查找分词文本中出现的单字、双字或三字及其以上散串,采用N-gram模型对分词文本中出现的散串进行连续判断确定标识错误,并构造纠错知识库生成纠错候选文本,从而将查错和纠错过程很好地结合起来,具有查错速度快,纠错效率高的特点。
【附图说明】
[0016]图1为本发明中文文本自动校正流程示意图;
[0017]图2为本发明对待校正中文文本进行预处理过程示意图;
[0018]图3为本发明采用键盘输入获取待校正中文文本过程示意图;
[0019]图4为本发明采用语音输入获取待校正中文文本过程示意图;
[0020]图5为本发明的基于知识库的语音信号到汉字识别过程示意图;
[0021]图6为本发明中文文本自动纠错的详细流程示意图。
【具体实施方式】
[0022]下面结合附图和实施例对本发明作进一步的描述。
[0023]图1为本发明中文文本自动校正流程示意图。
[0024]请参见图1,本发明提供的中文文本自动校正方法,包括如下步骤:
[0025]a)输入待校对中文文本,按单句对中文文本进行分词预处理;采用语音或者键盘输入待校对中文文本,所述预处理包括对输入的待校对中文文本整理语法错误以及进行模式匹配检查,待校对中文文本可以采用语音或者键盘输入,键盘输入过程如图3所示:预先对字词进行编码,将击键信号转换为计算机所接受的码序列,并将所述码序列与字词编码相关联;语音输入过程如图4和图5所示:接收来自话筒的语音输入并转为计算机所能接收的语音流,对语音流进行特征提取和模板匹配生成候选词字组合,利用语言模型对候选词字组合进行识别。
[0026]b)按单句查找分词文本中出现的单字、双字或三字及其以上散串。
[0027]c)采用N-gram模型对分词文本中出现的散串进行连续判断,并结合单字成词概率对每个单句检查文本词级的错误;对三字及其以上散串的判断过程如下:判断散串中每个字单独成词的概率,确定第一错误系数,采用二元词接续模型依次判断相邻两字成词的概率,确定第二错误系数,采用三元字接续模型依次判断相邻三个字成词的概率,确定第三错误系数,将所有错误系数相加确定文本词级的最终错误系数;N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,称之为汉语语言模型(CLM,Chinese LanguageModel)ο
[0028]d)构造纠错知识库生成纠错候选文本;具体可采用基于文本的错误特征和似然匹配方法构造各种纠错知识库,所述纠错知识库包括错字词典、易混淆字词典、相似码词典和/或字驱动双向词典;为了便于用户选择,本发明还可对生成的纠错候选文本进行排序,所述排序过程如下:使用每个纠错候选文本替换掉原错误文
当前第1页1 2 
网友询问留言 已有1条留言
  • 访客 来自[中国] 2020年05月30日 23:00
    日本于1937年征服了上海。由于日本政府实行傲慢的外交政策,日本人决定入侵中国,然后征服了上海。 自1848年以来,上海就有外国特许经营权。由于“鸦片战争”失败,中国和英国签署了《南京条约》:根据该条约在上海开放特许经营权。首先是英国的特许权,然后是日本,法国和美国的特许权。许多外国人住在上海租界中,来自欧洲和西方国家。 当日本人征服上海时,日本人并未占领英,美,法的让步,因为他们不想发动全球战争。但是,第二次世界大战爆发后,英国,法国和美国成为了日本的竞争对手。 1941年12月8日,日本占领了其他外国租界。日本人囚禁了在上海生活的欧洲人和美国人,但德国人不在拘留营中,因为日本和德国是第二次世界大战期间的盟友。 拘留营靠近上海。主要拘留所有“龙华拘留所”,“浦东拘留所”,“豫园路拘留所”,“闸北拘留所”和“杨浦拘留所”。
    0
1