用于非规范格式手写中文地址的识别方法

文档序号:8282702阅读:1101来源:国知局
用于非规范格式手写中文地址的识别方法
【技术领域】
[0001] 本发明属于手写中文地址识别技术领域,特别涉及对非规范格式手写的中文地址 的识别。
【背景技术】
[0002] 中文地址识别在信函和包裹的自动分拣中起着非常关键的作用。在邮件处理中 心,每天都有大批量的信函和包裹被处理和派送。这就要求邮件的处理不仅要快,而且要精 确。虽然人们在中文地址识别的研宄中取得了很大的进展,但在真实的信件当中,手写地址 识别仍然是一个未能很好解决的难题。比如,汉字数量多且书写风格变化多样,地址中的字 与字之间还可能存在连笔。特别是地址书写格式的多变性及无规则性,这大大增加了对手 写地址识别的难度。目前极少有工作专门考虑到这一方面来对地址进行识别。
[0003] 传统的中文手写地址识别方法主要目标在于原原本本的识别给定的一幅地址图 像上所有的汉字。它们需要一张地址列表以提供地址识别的上下文信息。这张列表中的每 个条目都是一条完整的地址,且通常被逐一用来和输入地址图像的识别结果进行匹配。为 提高地址检索的效率及降低地址列表的存储空间,人们提出了一种基于查找树结构的方法 来存储地址信息。在这些树的结构中,每一个节点存的是一个字符,因此也被称为字级树。 但是,一方面,字级树对噪声比较敏感,因为它要求地址图像中的所有字符都必须按顺序进 行识别。另一方面,候选模式块与根结点的子结点的匹配是否准确会对识别性能有很大的 影响。简要的说,基于字级树结构的地址识别需要依赖于一个预先定义好的地址列表,如果 地址列表中的地址信息是不完整的,即,它没有包括地址的所有书写格式变化,或者地址列 表所提供的地址信息不足,那么在实际的应用当中这些地址识别方法的识别率将会大大降 低。
[0004] 通常,一条地址是由若干地址词组成的,这些地址词被定义为基本行政单元。例 如:图2 (a)所示的规范书写格式地址"上海市普陀区中山北路"包含地址词"上海市","普 陀区",和"中山北路"。每个地址词的最后一个字被定义为关键字,如"省","市","区","路", 等等。
[0005] 但在实际应用中,信封上的地址书写方式是非常复杂的,人们通常不会按照地址 的规范格式进行书写。例如,在图2中,图2(a)为地址的规范书写形式,图2(b- e)则显示 了它的各种非规范格式书写,这些非规范的书写在现实中被认为是合理的。
[0006] 综上所述,用人工去搜集所有这些非规范的地址书写形式几乎是一项不可能完成 的任务。

【发明内容】

[0007] 本发明的目的是针对现有技术的不足而提出了基于词级树结构的方法将这些非 规范的手写中文地址最终映射成规范化书写的对应地址,实现对其识别;克服了传统方法 对非规范手写中文地址识别的局限性。
[0008] 本发明的目的是这样实现的:
[0009] -种用于非规范格式手写中文地址的识别方法,包括以下步骤:
[0010] 构建词级树,所述构建词级树用以表示并存储规范书写格式的地址;
[0011] 构建字符索引表,所述构建字符索引表用以表示单个字符和地址词之间的关联;
[0012] 分割-识别处理,所述分割-识别处理方法是用于对图像进行字符的分割,合并及 对分割块合并所成的候选模式块进行字符识别;
[0013] 生成候选地址词,所述生成候选地址词的方法用于得到置信度较高的候选地址 词;
[0014] 规范格式地址识别,所述规范格式地址识别方法用于将待识别手写地址映射到它 所对应的规范格式书写的方式;其中:
[0015] 所述构建词级树的深度为5,第1层为根节点,从第2层至第5层分别存储表示 "省","市","区"及"路"名的地址词,其中每个节点存储一个地址词。
[0016] 所述构建字符索引表用于存储所有被包含在地址词中的字符,并且将字符与包含 此字符的所有地址词进行关联。
[0017] 所述分割-识别处理还包括:
[0018] 图像过分割,将图像分割成原子块,用于将手写汉字之间的重叠部分或连笔部分 分割开;
[0019] 合并分割块,将连续的原子合并成候选模式块,用于恢复过分割过程造成的单个 字符或是左右结构的字符被分离开的情况;
[0020] 字符识别,用于识别候选模式块,并计算识别结果置信度;
[0021] 所述图像过分割通过采用连通元分析,归一化重叠度计算及投影分析技术对图像 进行过分割并最终得到一系列原子分割块;
[0022] 所述合并分割块的方法是将连续的原子分割块逐一进行合并形成候选模式块;
[0023] 所述字符识别还包括:
[0024] 手写字符分类器,用于对候选模式块进行分类;
[0025] 置信度转换,用于对识别结果进行置信度的计算;
[0026] 所述生成候选地址词是通过结合候选模式识别结果,字符索引表以及词级树所存 储的地址词,对词级树进行修剪而得。
[0027] 所述规范格式地址识别是将候选地址词结合词级树,对词级树采用至底向上的搜 索方法对候选地址词进行组合,最终生成候选地址。取置信度最高的候选地址作为最终的 地址识别结果。
[0028] 本发明克服了传统方法对非规范手写中文地址识别的局限性,提出了基于词级树 结构的方法,可将非规范格式书写的地址映射到规范格式的对应地址,从而实现对非规范 格式书写地址的识别。
【附图说明】
[0029] 图1为本发明流程图;
[0030] 图2为地址"上海市普陀区中山北路"不同书写方式实例图;
[0031] 图3为规范书写地址格式的词级树的示意图;
[0032] 图4为地址行图像过分割结果实例图;
[0033] 图5为候选模式框图实例图;
[0034] 图6为候选地址词的生成示意图;
[0035] 图7为候选地址词在候选模式框图中对应位置的实例图;
[0036] 图8为词级树路径搜索流程图;
[0037] 图9为在词级树中搜索并生成候选地址的实例图;
[0038] 图10为非规范格式手写中文地址的识别结果实例图。
【具体实施方式】
[0039] 如图1所示,为本发明实施例的流程图,该方法具体包括:
[0040] 构建词级树,用以表示并存储规范书写格式的地址。
[0041] 中国的地址行政关系是一种自上而下的层次结构。层次的数量一般为4。这4层 分别对应"省","市","区"及"路"名。根据此结构定义一棵树,深度为5。根节点为空,从 第2层至第5层分别存储表示"省","市","区"及"路"名的地址词,其中每个节点存储一 个地址词。在词级树中,从根结点到叶子结点的一条路径对应一个规范化格式的书写地址。
[0042] 为处理地址书写中省略关键字的情况,每个地址词的最后一个字(除了"路"字) 都被定义为可选项。构建好的词级树如图3所示,括号中的字表示是可选项。
[0043] 在这棵词级树中,一旦某一叶子节点(即路名)被识别出,可以得到所有包含此路 名的候选地址。例如,若地址词"中山北路"被识别出,通过对词级树进行的至底向上搜索 可以得到地址词"上海市","普陀区","浙江省","杭州市","下城区",等等。那么相关的候 选地址"上海市普陀区浙江省中山北路"及"浙江省杭州市下城区中山北路",等等,就可以 获得。进一步的,如果地址词"普陀区"或"上海市"也被识别出,那么候选地址"上海市普 陀区浙江省中山北路"被作为识别结果的可能性更大,特别是当"普陀区"和"上海市"都被 识别出的情况。
[0044] 构建字符索引表,用以表示单个字符和地址词之间的关联。
[0045] 如表1所示,字符索引表为分3列,第2列为所有出现在地址词中的字符,第1列为 第2列字符对应的GB2312-80编码。第3列为所有包括某一字符的相关地址词。当一个字 符被识别出来的时候,可以得到所有包含这个字符的地址词,用于生成最后的候选地址词。
[0046] 表 1
[0047]
【主权项】
1. 一种用于非规范格式手写中文地址的识别方法,其特征在于该方法包括w下步骤: 构建词级树,用W表示并存储规范书写格式的地址; 构建字符索引表,用W表示单个字符和地址词之间的关联; 分割-识别处理,用于对图像进行字符的分割,合并及对分割块合并所成的候选模式 块进行字符识别; 生成候选地址词,用于得到置信度较高的候选地址词; 规范格式地址识别,用于将待识别手写地址映射到所对应的规范格式书写的方式。
2. 如权利要求1所述的识别方法,其特征在于所述构建词级树的深度为5,第1层为根 节点,从第2层至第5层分别存储表示"省","市","区"及"路"名的地址词,其中每个节点 存储一个地址词。
3. 如权利要求1所述的识别方法,其特征在于所述构建字符索引表用于存储所有被包 含在地址词中的字符,并且将字符与包含此字符的所有地址词进行关联。
4. 如权利要求1所述的识别方法,其特征在于所述分割-识别处理包括: 图像过分割,将图像分割成原子块,用于将手写汉字之间的重叠部分或连笔部分分割 开; 合并分割块,将连续的原子分割块逐一进行合并形成候选模式块,用于恢复过分割过 程造成的单个字符或是左右结构的字符被分离开的情况; 字符识别,用于识别候选模式块,并计算识别结果置信度。
5. 如权利要求4所述的识别方法,其特征在于所述图像过分割通过采用连通元分析, 归一化重叠度计算及投影分析对图像进行过分割并最终得到一系列原子分割块。
6. 如权利要求4所述的识别方法,其特征在于所述字符识别还包括: 手写字符分类器,用于对候选模式块进行分类; 置信度转换,用于对识别结果进行置信度的计算。
7. 如权利要求1所述的识别方法,其特征在于所述生成候选地址词是通过结合候选模 式识别结果,字符索引表W及词级树所存储的地址词,对词级树进行修剪而得。
8. 如权利要求1所述的识别方法,其特征在于所述规范格式地址识别是将候选地址词 结合词级树,对词级树采用至底向上的捜索方法对候选地址词进行组合,最终生成候选地 址;取置信度最高的候选地址作为最终的地址识别结果。
【专利摘要】本发明给出了一种用于非规范格式手写中文地址的识别方法,并建立了一个规范格式的地址表示方法。本方法提出用词级树的结构来存储中文地址库,其中每个结点存储一个地址词,从根结点到叶子结点的一条路径则存储一个规范格式书写的地址。整个地址识别包括:构建词级树;构建字符索引表;图像过分割;合并分割块;字符识别;生成候选地址词;规范格式地址识别。本发明可将非规范格式书写的地址映射到规范格式的对应地址,从而实现识别。
【IPC分类】G06K9-68, G06K9-00
【公开号】CN104598887
【申请号】CN201510044955
【发明人】吕岳, 韦箫华, 吕淑静
【申请人】华东师范大学
【公开日】2015年5月6日
【申请日】2015年1月29日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1