一种针对药名光学字符识别文本的纠错方法及系统与流程

文档序号:35672689发布日期:2023-10-07 22:29阅读:35来源:国知局
一种针对药名光学字符识别文本的纠错方法及系统与流程

本发明涉及一种文本纠错方法,尤其涉及一种针对药名光学字符识别文本的纠错方法,并进一步涉及采用了该针对药名光学字符识别文本的纠错方法的纠错系统。


背景技术:

1、随着信息化时代的深入发展,文字信息电子化成为一项基本需求,其中涉及到大量图片信息的提取工作,而通过光学字符识别将图片中的文本信息先提取出来再进行处理是常用的技术手段。在本文中,光学字符识别简称ocr,目前ocr技术已经达到了一定程度的实用性,但对于一些图片质量不好的单据或票据,识别出来的文本仍需进行校对纠错,特别是在一些需要精确录入的领域,比如在医保理赔业务中的单据药名识别,需要针对ocr识别结果进行纠错。

2、现有技术的方案中,部分文献利用检索和音形码相似度找到与ocr文本相似的候选集,再进行评分以查找最优结果;也有利用crnn网络和viterbi对ocr给出的候选字符进行组合概率计算并找到优化解,再结合编辑距离和最长公共子串查找匹配解;还有利用药名分词对药名性质进行细分,或者根据允许字符集与识别结果的比较,区分出缺失字符串和不可存在字符串后进行纠错等。但是,这些现有的技术方案在ocr识别情况较为复杂或是错误严重时,可靠性较差,无法给出正确结果,不能很好地实现纠错,进而影响了实际的应用。


技术实现思路

1、本发明所要解决的技术问题是需要提供一种针对药名光学字符识别文本的纠错方法,旨在能够在ocr识别情况较为复杂或是错误严重时,也可以给出正确的结果,并有效地实现纠错,实际应用提供更加稳定、可靠且精准的技术方案,无需人工标注,快速且高效。在此基础上,还进一步提供采用了该针对药名光学字符识别文本的纠错方法的纠错系统。

2、对此,本发明提供一种针对药名光学字符识别文本的纠错方法,包括以下步骤:

3、步骤s1,根据收集的原始药名数据建立和生成正确的药名库;

4、步骤s2,通过光学字符识别获取光学字符识别药名,将光学字符识别药名与收集药名进行对比和差异处理,生成初步映射的第一错误分词数据库;

5、步骤s3,以分词为单位对错误分词进行过滤和扩展,生成最终的错误分词数据库;

6、步骤s4,对光学字符识别错误的药名进行纠错和替换。

7、本发明的进一步改进在于,所述步骤s1包括以下子步骤:

8、步骤s101,根据原始药名数据中药名的频次和出处信息进行初步筛选,选择频次大于预设频次阈值且具有不同出处信息的药名作为初筛药名;

9、步骤s102,对初筛药名中长度相同的药名,获取差异字符数为1~2的药名对,再对药名对中的两个药名进行分词,如果得到的两组分词数一致,则对含有错别字的药名进行分词的整体替换;如果得到的两组分词数不一致,则选取两组分词之中包含药名关键词且分词数少的药名进行保留,选取两组分词之中不包含药名关键词且分词数多的药名进行过滤。

10、本发明的进一步改进在于,所述步骤s2包括以下子步骤:

11、步骤s201,根据药名关键词对所述光学字符识别药名进行分词处理;

12、步骤s202,选取所述光学字符识别药名中,分词数大于录入药名分词数的药名对;

13、步骤s203,选取差异字符数为1~2的药名对;

14、步骤s204,判断差异字符数是否为2,若是,则将差异字符数为2的药名对转化为差异字符数为1后跳转至步骤s205,若否,则直接跳转至步骤s205;

15、步骤s205,根据对应的收集药名,将收集药名和光学字符识别药名进行对比,将所述收集药名和光学字符识别药名在相同位置的相同分词去掉,并将所述光学字符识别药名剩下的字符串联起来作为错误分词。

16、本发明的进一步改进在于,所述步骤s204中,将所述光学字符识别药名中一个错误字符替换为正确字符,然后判断分词数是否出现变化,若出现变化,则表示两个错误字符不在一个分词中,判定为差异字符数是否为2,分别替换两个错误字符后跳转至步骤s205;若没有出现变化,则表示两个错误字符在一个分词中,直接跳转至步骤s205。

17、本发明的进一步改进在于,所述步骤s3包括以下子步骤:

18、步骤s301,取出错误分词中的错误字符,通过相似字形算法进行筛选;

19、步骤s302,遍历药名库中的药名并进行分词,找出包含步骤s301中错误字符所对应的正确字符,将该正确字符替换为其对应的错误字符后生成新的错误分词,得到第二错误分词数据库;

20、步骤s303,将所述第一错误分词数据库和第二错误分词数据库进行合并,得到第三错误分词数据库;

21、步骤s304,再次遍历药名库中的药名并进行分词,当发现所述第三错误分词数据库中分词时,则将该分词从当前的错误分词数据库中去掉,生成最终的错误分词数据库。

22、本发明的进一步改进在于,所述步骤s301包括以下子步骤:

23、步骤s3011,通过汉字结构字典的查询判断错误字符和正确字符是否同为复合结构,若是,则跳转至步骤s3012;若否,则跳转至步骤s3013;

24、步骤s3012,通过四角编码对错误字符和正确字符进行相似度计算,若相似度大于相似度阈值的下限,则对错误字符予以保留;否则,对错误字符进行排除;

25、步骤s3013,判断错误字符和正确字符是否存在相同的偏旁部首,若存在,则对错误字符予以保留;若否,则跳转至步骤s3014;

26、步骤s3014,通过四角编码对错误字符和正确字符进行相似度计算,若相似度大于相似度阈值的上限,则对错误字符予以保留;否则,对错误字符进行排除。

27、本发明的进一步改进在于,所述步骤s304中,再次利用所述药名库中的正确药名,将步骤s303中的第三错误分词数据库添加到分词器中对药名进行分词,如果发现存在于第三错误分词数据库中的分词,则在错误分词数据库中排除该分词,以此得到最终的错误分词数据库。

28、本发明的进一步改进在于,所述步骤s4包括以下子步骤:

29、步骤s401,在分词器中添加所述错误分词数据库中的错误分词,在获取新的光学字符识别药名之后,根据错误分词对所述新的光学字符识别药名进行分词处理;

30、步骤s402,在所述错误分词数据库中查找所述新的光学字符识别药名的错误分词;

31、步骤s403,通过错误分词和正确分词之间的映射,将错误分词进行对应替换;

32、步骤s404,在药名库中查找进行对应替换后的光学字符识别药名,若未找到则返回步骤s402进行预设次数的查找,若找到则将替换后的光学字符识别药名定义为替换药名,并跳转至步骤s405;

33、步骤s405,查找药名,获取替换药名在药名库中与之差异字符数小于n且字符长度相同的药名,其中,n为替换药名中被替换的错误字符数;若查找成功,则将查到的药名定义为相似药名,跳转至步骤s406;若查找失败,则直接跳转至步骤s407;

34、步骤s406,对所述相似药名进行检查,确认所述相似药名是否可以替换所述替换药名;

35、步骤s407,确认所述替换药名为匹配的光学字符识别药名,从单据中提取光学字符识别出的价格,与药名库中已经收录的价格进行对比,找到价格相符时,则确定用所述替换药名取代光学字符识别药名作为正确药名。

36、本发明的进一步改进在于,所述步骤s406确认所述相似药名是否可以替换所述替换药名的过程为:将所述相似药名与替换前的光学字符识别药名进行比较,对照所述替换药名中错误字符的位置,排除这些位置的字符之后,若其他字符相同,则表示所述相似药名跟替换前的光学字符识别药名匹配,确认所述相似药名不可以替换所述替换药名;若否,则表示不存在满足相似条件的其他药名,判定为光学字符识别药名唯一匹配替换药名。

37、本发明还提供一种针对药名光学字符识别文本的纠错系统,采用了如上所述的针对药名光学字符识别文本的纠错方法,并包括:

38、药名库生成模块,根据收集的原始药名数据建立和生成正确的药名库;

39、错误分词数据库初步生成模块,通过光学字符识别获取光学字符识别药名,将光学字符识别药名与收集药名进行对比和差异处理,生成初步映射的第一错误分词数据库;

40、错误分词的过滤和扩展模块,以分词为单位对错误分词进行过滤和扩展,生成最终的错误分词数据库;

41、错误分词替换模块,对光学字符识别错误的药名进行纠错和替换。

42、与现有技术相比,本发明的有益效果在于:通过已收集的正确药名和光学字符识别药名的对比,并经过映射、过滤和扩展自动生成错误分词;在应用时,对新的光学字符识别药名收集中,能够自动实现纠错和替换以找到正确药名,本发明操作简单、使用方便且运行耗时少,以分词为单位整体替换光学字符识别过程中的分词错误进而保证了其正确性,有效的提高了药名收集效率,能够在ocr识别情况较为复杂或是错误严重时,也可以给出正确的结果,并有效地实现纠错。在此基础上,本发明还将字形相似度算法结合字形结构用于对错误字符库进行过滤,不仅规避了匹配时实时计算耗时长的弊端,还针对光学字符识别药名提出了更加稳定、可靠且精准的技术方案,无需人工标注,快速且高效。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1