一种文本数据中错误字符的检测方法、装置和设备与流程

文档序号:14940836发布日期:2018-07-13 20:43阅读:来源:国知局

技术特征:

技术总结
本发明提供了一种文本数据中错误字符的检测方法、装置和设备,该方法包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。本发明通过获取文本中频繁出现的目标字符,并判断文本中出现的与目标字符形状相似的字符是否为错误字符,充分考虑了人工录入数据中产生的形状相似的错误字符,有效检测了文本数据中的错误字符,取代人工纠错,提高了错误字符检测效率。

技术研发人员:刘英博;王建民;张育萌
受保护的技术使用者:清华大学
技术研发日:2018.01.22
技术公布日:2018.07.13
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1