本发明涉及计算机数据处理技术领域,尤其涉及一种文档查错方法和装置。
背景技术:
文档的自动查错技术能够自己检查出文档中出现的各种错误,有些还可以自动更正,提高了文档开发和修改的效率。
目前的文档查错技术主要是搜索某个错误的字词搭配,发现后进行提醒或更正。这种方法有比较大的局限性,存在无法检测文档前后用词一致性的问题。所以,如何检查文档中字词句前后一致性,成为本发明所要解决的技术问题。
技术实现要素:
本发明提供一种文档查错方法和装置,用以解决现有技术无法检测文档前后用词一致性的问题。
依据本发明的一个方面,提供一种文档查错方法,包括:
根据同义字词句库,检查并记录文档中出现的同义字词句;
将记录的同义字词句修改为统一用词。
可选地,本发明所述方法中,在将记录的同义字词句修改为统一用词之前,还包括:
通过语句比对的方式,检查文档中出现的同义字词句,并对检查到的同义字词句中不属于同义字词句库中的同义字词句进行记录。
可选地,本发明所述方法中,所述通过语句比对的方式,检查文档中出现的同义字词句,包括:
根据配置信息,确定语句长度及语句比对方式;
确定搜索起始位置,得到起始语句,将起始语句与该语句之后的所有语句进行比对,以确定起始语句与该语句之后的所有语句中是否存在同义字词句;其中,起始语句之后的所有语句为:在起始语句后,起始位置以字符为单位逐渐向后推移得到的各语句;
将搜索起始位置向后移动一个字符,得到新的搜索起始位置后返回上述语句比对步骤。
可选地,本发明所述方法中,所述语句比对方式包括:
将语句划分为同义字词句前端字符串+同义字词句字符串+同义字词句后端字符串;
将两个语句相同位置的字符串进行比对,若两个语句的前端字符串相同、后端字符串相同且同义字词句字符串不同,则判定两个语句中的同义字词句字符串为同义字词句字符串。
可选地,本发明所述方法还包括:将通过语句对比方式记录的同义字词句写入同义字词句库。
可选地,本发明所述方法中,根据同义字词句库,检测并记录文档中出现的同义字词句之前,还包括:
调取历史修改数据库;
将所述历史修改数据库中记录的被修改的内容进行全文档搜索;
呈现搜索到的内容,并根据用户的指示按历史修改方式进行修改或忽略。
可选地,本发明所述方法中,将记录的同义字词句修改为统一用词时,还包括:将被修改的内容和修改后的内容记录到所述历史修改数据库。
可选地,本发明所述方法中,所述将记录的同义字词句修改为统一用词,具体包括:
呈现记录的同义字词句信息;
基于用户的修改指示,将文档中出现的同义字词句修改为统一用词;其中, 所述统一用词为默认的或者用户指定的某一同义字词句。
依据本发明的另一个方面,提供一种文档查错装置,包括:
同义字词句检查模块,用于根据同义字词句库,检查并记录文档中出现的同义字词句;
同义字词句处理模块,用于将记录的同义字词句修改为统一用词。
可选地,本发明所述装置中,所述同义字词句检查模块,还用于通过语句比对的方式,检查文档中出现的同义字词句,并对检查到的同义字词句中不属于同义字词句库中的同义字词句进行记录。
可选地,本发明所述装置中,所述同义字词句检查模块,具体包括:
信息获取子模块,用于根据配置信息,确定语句长度及语句比对方式;
语句比对子模块,用于确定搜索起始位置,得到起始语句,将起始语句与该语句之后的所有语句进行比对,以确定起始语句与该语句之后的所有语句中是否存在同义字词句;其中,起始语句之后的所有语句为:在起始语句后,起始位置以字符为单位逐渐向后推移得到的各语句;
轮询处理子模块,用于将搜索起始位置向后移动一个字符,得到新的搜索起始位置后,触发所述语句比对子模块。
可选地,本发明所述装置还包括:
历史修改内容检查模块,用于调取历史修改数据库,将所述历史修改数据库中记录的被修改的内容进行全文档搜索,呈现搜索到的内容,并根据用户的指示按历史修改方式进行修改或忽略。
本发明有益效果如下:
本发明引入了同义字词句库和语句比对方案,实现了对文档中同义字词句的检查及修改,解决现有技术无法检测文档前后用词一致性的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种文档查错方法的流程图;
图2为本发明利用同义字词句库搜索同义字词句的流程图;
图3为本发明利用语句比对技术搜索文档内同义字词句的流程图;
图4为本发明中语句比对技术示意图;
图5为本发明对记录的同义字词句进行显示的效果图;
图6为本发明应用示例中待检查文档的示意图;
图7为本发明应用示例中同义字词句库中的记录情况示意图;
图8为本发明应用示例中语句比对搜索同义字词句的示意图;
图9为本发明应用示例中利用同义字词句和语句比对搜索得到的同义字词句示意图;
图10为本发明应用示例中用户在显示的同义字词句中输入了统一用词的效果图;
图11为本发明应用示例中将同义字词句修改为统一用词后的效果示意图;
图12为本发明应用示例中更新后的同义字词句库的示意图;
图13为本发明提供的一种文档查错装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供一种文档查错方法,用于检查文档中字词句前后一致性,如图1所示,所述方法包括:
步骤S101,根据同义字词句库,检查并记录文档中出现的同义字词句;
本实施例中,防止同义字词句库中记录的同义字词句不全,进而可能出现遗漏的问题,在步骤S101后,优选地,可通过语句比对的方式,检查文档中出现的同义字词句,并对检查到的同义字词句中不属于同义字词句库中的同义字词句进行记录。同时,将通过语句对比方式记录的同义字词句写入同义字词句库,以对同义字词句库进行更新。
其中,所述通过语句比对的方式,检查文档中出现的同义字词句,包括:
(1)根据配置信息,确定语句长度及语句比对方式;其中,所述语句比对方式包括但不限于为:将语句划分为同义字词句前端字符串+同义字词句字符串+同义字词句后端字符串;将两个语句相同位置的字符串进行比对,若两个语句的前端字符串相同、后端字符串相同且同义字词句字符串不同,则判定两个语句中的同义字词句字符串为同义字词句字符串。
(2)确定搜索起始位置,得到起始语句,将起始语句与该语句之后的所有语句进行比对,以确定起始语句与该语句之后的所有语句中是否存在同义字词句;其中,起始语句之后的所有语句为:在起始语句后,起始位置以字符为单位逐渐向后推移得到的各语句。
(3)将搜索起始位置向后移动一个字符,得到新的搜索起始位置后返回步骤(2)。
步骤S102,将记录的同义字词句修改为统一用词。
该步骤具体包括:呈现记录的同义字词句信息,基于用户的修改指示,将文档中出现的同义字词句修改为统一用词;其中,所述统一用词可以为默认的某一同义字词句,或者,用户指定的某一同义字词句。
优选地,本实施例还提供一种按照历史修改操作,对文档中的字词句进行 统一的操作,该操作的执行时机可以在S101之前或者S102之后,但优选的是在S101之前,具体处理方式如下:
调取历史修改数据库;
将历史修改数据库中记录的被修改的内容进行全文档搜索;
呈现搜索到的内容,并根据用户的指示按历史修改方式进行修改或忽略。
优选地,本实施例中,在将记录的同义字词句修改为统一用词时,还包括:将被修改的内容和修改后的内容记录到所述历史修改数据库。
综上所述,可知本实施例所述方法,引入了同义字词句库和语句比对方案,实现了对文档中同义字词句的检查及修改,解决现有技术无法检测文档前后用词一致性的问题。
实施例二
本实施例提供一种文档查错方法,其通过公开更多的技术细节,对本发明提出的文档查错方法进行更详细的说明,本实施例披露的技术细节用于解释本发明,但不用于唯一限定本发明。
本实施例所述的文档查错方法的主要处理流程步骤包括:
步骤A:根据同义字词句库中的记录检查可能出现的同义字词句并将结果记录。在此步骤中,程序会根据同义字词句库中的记录对文档进行遍历搜索,并将搜索结果记录下来。处理完后进入步骤B。
该步骤的详细处理流程如图2所示,具体包括:
步骤S201,开始;
步骤S202,检测同义字词句库中是否有记录,若是,则执行步骤S203;否则,转步骤S208;
步骤S203,从同义字词句库中取出一条记录;
步骤S204,搜索文档中符合记录的内容;
步骤S205,判断是否搜索到,若是,则执行步骤S206;否则,执行步骤 S207;
步骤S206,将搜索到的结果记录下来,继续执行步骤S207;
步骤S207,判断是否有需要继续搜索的记录,若是,则返回步骤S203;否则,执行步骤S208。
步骤S208,结束。
步骤B:对文档内部相近的字词句进行搜索并将结果记录。此步骤是为了避免由于同义字词句库中没有列出同义字词句而导致一些同义字词句没有被搜索到,造成遗漏。在此步骤中,程序会根据配置信息,根据前后文情况,遍历搜索文档中可能的近义词,并就将结果记录下来。处理完后进入步骤C。
该步骤的详细处理流程如图3所示,具体包括:
步骤S301,开始;
步骤S302,读取配置信息,确定:同义字词句前段相同字符串的长度;同义字词句字符串的长度;同义字词句后端相同字符串的长度;
步骤S303,确定搜索起始位置1,对于初始搜索,起始位置可以是文档的第一个字符,或者,用户指定的位置;
步骤S304,从搜索起始位置1,根据配置信息,取出前端字符串1、同义字符串1和后端字符串1;
步骤S305,从搜索起始位置1向后移动一段字符串长度(前端+后端+同义字词句字符串长度之后)得到搜索起始位置2;
步骤S306,从搜索起始位置2,根据配置信息,取出前端字符串2、同义字词句字符串2和后端字符串2;如图4所示,从搜索起始位置1和搜索起始位置2取出字符串的示意图。
步骤S307,判断是否前端字符串1和前端字符串2相同,并且前端字符串2和后端字符串2相同,若是,则执行步骤S308;否则,执行步骤S310;
步骤S308,判断是否同义字词句字符串1和同义字词句字符串2相同,若 是,则执行步骤S310;否则,执行步骤S309;
步骤S309,将搜索到的结果记录下来;
步骤S310,判断搜索起始位置2是否已经搜索到文档结尾,若是,执行步骤S312;否则,执行步骤S311;
步骤S311,搜索起始位置2向后移动一个字符长度,返回步骤S306;
步骤S312,判断搜索起始位置1是否已经搜索到文档结尾,若是,则结束;否则,将搜索起始位置1向后移动一个字符串长度后,执行步骤S304。
步骤C:此步骤主要是将步骤A和步骤B发现的近义词显示出来,供用户判断是否需要将近义词进行统一替换,以保证文档用语的一致性。此步骤的显示效果如图5所示。
步骤D:步骤B和步骤C发现的近义词显示出来后,用户会选择忽略或将近义词统一替换。
若选择忽略,则程序不做任何操作;
若选择替换,则将近义词统一替换,同时还进行如下处理:
如果这组近义词和统一修改的词已经保存在近义词库中,则程序不会对同义字词句库进行任何操作;
如果这组近义词已经保存在近义词库中,但统一修改的词是本次新输入的,则程序会更新同义字词句库中这条记录,将统一用词补充进记录中;
如果这组近义词在同义字词句库中还没有记录(是这次新发现的),则程序会将这条记录填加入同义字词句库中;
流程结束。
下面通过一个具体示例,来说明上述方法的具体应用过程,具体如下:
设有一段待检查的文档如图6所示。
此时的同义字词句库中的记录情况如图7所示。
此时运行检查程序,会按下列步骤执行:
步骤1:检查程序会先从同义字词句库中取出第一条记录,即“数据包”和“数据帧”是同义字词句,然后按照图2(同义字词句库记录搜索流程图)流程进行搜索,在文档中会搜索到这两个同义字词句,所以,会将这个搜索结果记录下来。
步骤2:程序按照图3(文档内部同义字词句搜索流程图)流程执行(假设此时配置的搜索条件为前端字符串长度5,同义字词句长度3,后端字符串长度2),则程序会发现文档中存在同义字词句“处理单元”,“处理模块”和“处理程序”,搜索示意图如图8所示,图中的前端字符串和后端字符串都用底色背景标明;
步骤3:程序将步骤2和步骤3检查出的结果显示出来,如图9所示;
步骤4:用户根据显示结果,确定了近义词需要统一使用相同的词语,所以在显示结果界面输入了统一用词,效果如图10所示。
步骤5:用户选择替换近义词为统一用词,程序自动修改文档和同义字词句库。更新后的文档如图11所示(修改后的内容用底色背景标明),更新后的同义字词句库如图12所示。
程序执行结束,文档得到了修改,同义字词句库得到了更新。
实施例三
本实施例提供一种文档差错装置,如图13所示,包括:
同义字词句检查模块1310,用于根据同义字词句库,检查并记录文档中出现的同义字词句;
同义字词句处理模块1320,用于将记录的同义字词句修改为统一用词。
优选地,本实施例中,同义字词句检查模块1310,还用于通过语句比对的方式,检查文档中出现的同义字词句,并对检查到的同义字词句中不属于同义字词句库中的同义字词句进行记录。
同义字词句检查模块1310,具体包括:
信息获取子模块,用于根据配置信息,确定语句长度及语句比对方式;
语句比对子模块,用于确定搜索起始位置,得到起始语句,将起始语句与该语句之后的所有语句进行比对,以确定起始语句与该语句之后的所有语句中是否存在同义字词句;其中,起始语句之后的所有语句为:在起始语句后,起始位置以字符为单位逐渐向后推移得到的各语句;
轮询处理子模块,用于将搜索起始位置向后移动一个字符,得到新的搜索起始位置后,触发所述语句比对子模块。
优选地,本实施例所述装置,还包括:
历史修改内容检查模块,用于调取用以记录历史修改内容的历史修改数据库,将所述历史修改数据库中记录的被修改的内容进行全文档搜索,呈现搜索到的内容,并根据用户的指示按历史修改方式进行修改或忽略。
进一步地,本实施例中,同义字词句处理模块1320在将记录的同义字词句修改为统一用词时,还触发文档修改记录模块将被修改的内容和修改后的内容记录到所述历史修改数据库。
综上所述,可知本发明引入了同义字词句库和语句比对方案,实现了对文档中同义字词句的检查及修改,解决现有技术无法检测文档前后用词一致性的问题。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是其与其他实施例的不同之处。尤其对于装置实施例而言,由于其基本相似与方法实施例,所以,描述的比较简单,相关之处参见方法实施例的部分说明即可。
虽然通过实施例描述了本申请,本领域的技术人员知道,本申请有许多变形和变化而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。