标点符号检测和纠错方法、装置、电子设备及存储介质与流程

文档序号:37595389发布日期:2024-04-18 12:32阅读:6来源:国知局
标点符号检测和纠错方法、装置、电子设备及存储介质与流程

本技术涉及标点符号检测,尤其涉及一种标点符号检测和纠错方法、装置、电子设备及存储介质。


背景技术:

1、目前基于规则的中文文本标点检测和纠错方法面临一些挑战和局限性。首先,由于中文语言的特殊性和标点符号的特定搭配较多,现有规则未充分考虑这些细节,导致在实际应用中效果不佳。例如,在一些表达方式、省略语或成语等特定语境下,标点符号的具体用法可能会有所变化,但现有方法很难准确捕捉这种细微差别。

2、其次,对于复杂的语境和句子结构,现有规则可能无法准确处理,导致误用和纠错效果不够细致。由于句子结构多样且灵活,存在大量的从句、分句以及各种修饰成分,现有的规则往往无法完全覆盖所有情况。例如,存在长句、倒装句、省略句等特殊句式时,规则可能无法准确捕捉到标点符号的位置和使用方式,导致误用和错误纠错的效果不够细致。


技术实现思路

1、本技术提供一种标点符号检测和纠错方法、装置、电子设备及存储介质,用以解决如何提高标点符号检测及纠错的准确率问题。

2、第一方面,本技术提供一种标点符号检测和纠错方法,该方法应用于一标点纠错词典,其包括中英文成对标点和单个标点的使用规则、预设的标点错误类型以及其相应的纠错规则,所述方法包括:

3、调用所述标点纠错词典的第一函数对输入文本进行检测,以判断是否包含半角标点,并将包含的半角标点转换为全角标点;

4、调用所述标点纠错词典的第二函数对所述输入文本进行检测,以查找是否包含连续的多个相同标点符号,并将包含连续的多个相同标点符号进行纠错;

5、调用所述标点纠错词典的第三函数对所述输入文本进行检测,以识别是否存在汉字标点字符错误,并将存在的汉字标点字符错误进行纠错;

6、调用所述标点纠错词典的第四函数对所述输入文本进行检测,以判断是否存在不匹配的成对标点符号,并将存在不匹配的成对标点符号进行纠错。

7、在本技术一实施例中,所述调用所述标点纠错词典的第一函数对输入文本进行检测,以判断是否包含半角标点,并将包含的半角标点转换为全角标点的步骤包括:

8、使用循环语句遍历所述输入文本中的每个字符;

9、对于遍历到的每个字符进行检测和处理操作,以判断该字符是否为半角标点以及是否需要进行转换,具体包括:

10、通过调用第一辅助函数,以检测当前字符前后的上下文信息;

11、根据所述第一辅助函数返回的结果,将检测到的半角标点转换为全角标点,并将相关的操作信息记录在错误信息列表中。

12、在本技术一实施例中,所述调用所述标点纠错词典的第二函数对所述输入文本进行检测,以查找是否包含连续的多个相同标点符号,并将包含连续的多个相同标点符号进行纠错的步骤包括:

13、将所述输入文本按行进行处理,逐一处理每一行的内容;

14、在每一行的文本中,利用所述标点纠错词典中的使用规则和正则表达式进行匹配,查找是否存在连续的多个相同标点符号;

15、对于每一行中找到的连续多个相同标点符号,调用第二辅助函数以获取错误信息列表,并将所述连续多个相同标点符号记录在所述错误信息列表中;以及判断所述错误信息列表中连续多个相同标点符号是否属于特殊领域的错误;

16、如果是属于特殊领域的错误,则将其从所述错误信息列表中剔除;否则进行纠错处理。

17、在本技术一实施例中,所述调用所述标点纠错词典的第三函数对所述输入文本进行检测,以识别是否存在汉字标点字符错误,并将存在的汉字标点字符错误进行纠错的步骤包括:

18、将所述输入文本按行进行处理,逐一处理每一行的内容;

19、对于每一行文本,检测是否存在全角和半角标点符号,并区分是全角标点还是半角标点;

20、对于每一行文本,检测是否存在段首、段中以及段尾位置的标点符号;

21、利用所述标点纠错词典中规定的正则表达式进行匹配,以检测所述输入文本中是否存在的特殊用法的标点符号。

22、在本技术一实施例中,所述调用所述标点纠错词典的第三函数对所述输入文本进行检测,以识别是否存在汉字标点字符错误,并将存在的汉字标点字符错误进行纠错的步骤还包括:

23、根据所述输入文本的检测结果,判断是否属于特殊领域的错误;

24、如果是属于特殊领域的错误,则再通过检测句子结尾是否缺少标点符号、是否在句中误用点号以及最后一个单词是否是标点符号且不在白名单中的方式,来判断是否存在句末点号缺失、句中点号误用以及段尾标点误用的问题;

25、如果不是属于特殊领域的错误,在结尾规则中,如果句子结尾没有标点符号不会报错,但如果有标点符号且不在白名单中,则会报错;若最后一个标点是软连字符,会将错误字符串更改为短横线;若最后一个标点是长破折号,会将错误的位置指向两个长破折号的前面;如果最后一个标点既不是白名单中的标点,也不符合软连字符和长破折号的情况,则报告为正常的标点错误;

26、将经过处理和纠错后的错误信息添加到错误信息列表中。

27、在本技术一实施例中,所述调用所述标点纠错词典的第四函数对所述输入文本进行检测,以判断是否存在不匹配的成对标点符号,并将存在不匹配的成对标点符号进行纠错的步骤包括:

28、将所述输入文本按行进行处理,逐一处理每一行的内容;

29、利用所述标点纠错词典中规定的正则表达式进行匹配,以检测是否存在的成对标点符号,具体包括:

30、对于每一行匹配到的成对标点符号,使用栈的数据结构来检测其单独情况,具体包括遍历成对标点符号,如果是左括号,则将其推入栈中;如果是右括号,则弹出表示左括号的栈顶元素并检测是否与当前右括号匹配;如果不匹配,表示存在不匹配的成对标点符号;

31、将经过检测和纠错后的不匹配标点符号错误信息添加到错误信息列表中。

32、在本技术一实施例中,所述方法还包括:

33、对所述输入文本的每一段进行迭代以处理每段的标点错误,并将不同类型的标点错误合并到同一个列表中,以生成总错误信息列表;

34、如果所述总错误信息列表中存在的多个错误,则按照错误的位置进行排序,并将排序后的总错误信息列表作为函数的处理结果返回。

35、在本技术一实施例中,所述方法还包括:

36、建立所述标点纠错词典,具体包括:

37、收集大规模的中文文本语料库,包括不同领域和类型的中文文本;

38、对收集的中文文本进行分析,识别其中的标点符号使用模式和标点错误类型;

39、根据分析结果,制定中英文成对标点和单个标点的使用规则,并针对不同的标点错误类型制定相应的纠错规则,所述纠错规则包括各种标点符号的正确位置、格式要求、连续标点的限制以及汉字标点字符的使用规范;

40、基于制定的使用规则和纠错规则,以得到所述标点纠错词典。

41、第二方面,本技术还提供一种标点符号检测和纠错装置,其包括一标点纠错词典,其包括中英文成对标点和单个标点的使用规则、预设的标点错误类型以及其相应的纠错规则,所述装置包括:

42、第一调用模块,用于调用所述标点纠错词典的第一函数对输入文本进行检测,以判断是否包含半角标点,并将包含的半角标点转换为全角标点;

43、第二调用模块,用于调用所述标点纠错词典的第二函数对所述输入文本进行检测,以查找是否包含连续的多个相同标点符号,并将包含连续的多个相同标点符号进行纠错;

44、第三调用模块,用于调用所述标点纠错词典的第三函数对所述输入文本进行检测,以识别是否存在汉字标点字符错误,并将存在的汉字标点字符错误进行纠错;

45、第四调用模块,用于调用所述标点纠错词典的第四函数对所述输入文本进行检测,以判断是否存在不匹配的成对标点符号,并将存在不匹配的成对标点符号进行纠错。

46、第三方面,本技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任一项所述的标点符号检测和纠错方法的步骤。

47、第四方面,本技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一项所述的标点符号检测和纠错方法的步骤。

48、本技术提供的一种标点符号检测和纠错方法、装置、电子设备及存储介质,该方法首先调用标点纠错词典的第一函数来检测输入文本中是否包含半角标点,并将这些半角标点转换为全角标点,可以统一标点符号的使用规范,进而提高准确性和一致性。然后,调用标点纠错词典的第二函数来检测输入文本中是否存在连续多个相同的标点符号,并进行纠错,例如,将连续的重复标点符号缩减为一个,可以纠错标点符号使用上的重复错误,使文本更加规范和易读。并且,调用标点纠错词典的第三函数来检测汉字标点字符的错误,并进行纠错,能够找出并纠错汉字标点字符使用上的错误,提高文本的准确性和质量。最后,调用标点纠错词典的第四函数来检测输入文本中是否存在不匹配的成对标点符号,如括号、引号等,并进行纠错,可找出并纠错不匹配的成对标点符号错误,使文本的语法和语义更加准确和合理。

49、因此,本技术通过调用不同的函数对输入文本进行多方面的检测和纠错,以提高标点符号检测及纠错的准确性,能够解决标点符号错误、重复错误、汉字标点字符错误以及不匹配成对标点符号错误等问题,并有效改善文本的质量和准确性,并且统一标点符号的使用规范、减少标点符号重复、纠错汉字标点字符错误以及修复不匹配的成对标点符号,进而提高文本的整体质量和可读性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1