一种针对英文印刷文字双面打印破碎文件复原分析方法_2

文档序号：8223887阅读：来源：国知局

第j号碎片在第k行的连续度 2) 向上匹配，设\为固定端碎片，^_为待匹配段碎片
其中Gnuk为第i号碎片和第j号碎片在第k列的连续度；对于三张碎片的边缘整体以M' bb方式匹配连续度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配，和将第m号碎片的下侧全体小格和第 j张碎片的上侧全体小格由左向右依次检索匹配的总连续度，定义整体匹配连续度函数：
其中Zimj为第j号碎片和左侧第i号碎片及上侧第m号碎片的整体匹配总连续度； S3二维黑白对接匹配模型 1) 横向对接单行匹配度：
2) 纵向对接单列匹配度：
对于三张碎片的边缘整体以M' bb方式总对接匹配度是将第i号碎片的右侧全体小格和第j号碎片的左侧全体小格由上而下依次检索匹配，和将第m号碎片的下侧全体小格和第j张碎片的上侧全体小格由左向右依次检索匹配的总连续度，可得如下黑白总对接匹配度函数：
其中Qinu为第j号碎片和左侧第i号碎片及上侧第m号碎片的总对接匹配度； S4二维匹配模型算法优化： ⑴连续性优化：碎片上一个字的一个笔画，包含了不止一对黑色小格，由上而下发生连续的黑色小格的成功对接Mbb越长，碎片匹配成功的可能性就越大，所以在对匹配小格权重上考虑了连续匹配的，匹配度函数中将对不同M bb连续的情况的权进行不同大小的定义；其中定义Mbb如下： Mbb:两碎片X i、Xj的第k行，X i右边缘的小格X 115和X」的左边缘小格X jk均为黑色的对接； ⑵横行对齐优化：由于碎片文字是由完整文件横切与纵切获得，因此碎片内每行文字均平行于碎片底边；故从碎片文件底边开始扫描，第一行所有像素非全白的横行为一行文字的下边缘，标记此横行的纵坐标；在此基础上继续向上扫描，第一行所有像素全为白色的横行为该行文字的上边缘，标记该横行的纵坐标；在此基础上继续向上扫描，重复上述两个步骤可以得到一个碎片内的文字行分布；相连两张碎片文件横行一定对齐；英文字母书写位于四线三行格内，同一碎片文件内一横行字母可能占三行中的：1)、中间一行2)、上中两行3)、中下两行 4)、上中下三行；与此同时，英文标点符号"均不占满三行中的一行；在取得每一横行上下边缘后，取平均值以减小误差；最后根据平均值对齐且在误差范围内，优化碎片匹配结果；当一个文字被切为二到四部分后，当为纵切时，其左右两个不完整文字的宽度的和为一个完整文字的宽度；由于每个文字字号相同，因此每个文字的宽度在某一定值附近上下浮动；首先用判断图片是否为边缘起始的算法判断该碎片文件边缘有无不完整文字；当有不完整文字时，使用"横行对齐优化"算法确定不完整文字的位置，即其横纵坐标范围；由此可以获得不完整文字的宽度；根据合成完整文字的两个不完整文字的宽度的和为定值，从而优化匹配结果；当不完整文字为横切时处理方法类似，获取不完整文字的高度，再与其他碎片的不完整文字高度比较； ⑶灰度匹配优化当某一笔画正好处于分割边缘时，如果简单将其一边认为是黑，一边认为是白，会造成大量匹配失败，故增加灰度匹配优化；当灰色与白色拼接时，对匹配度无影响；当灰色与黑色拼接时，匹配正确；从而增加匹配的成功率； S5二维匹配问题的综合聚类和匹配度函数对于英文碎片，若满足如下关系式 H+J = 1 即两碎片仅满足横行对齐聚类要求，则可进行匹配检测，二维匹配时的三张碎片的匹配度由如下函数定义： Pimj - Q IIiij+Zimj- 其中Pinu为第j号碎片和左侧第i号碎片及上侧第m号碎片的总匹配度； S6基于正反面特点的大碎片集合分类：在进行上述"任意3块碎片文件不能两两分别属于三个大碎片集合"的检验后即可通过正反面的特点对大碎片集合分类，分成正面与反面两类；通过遍历所有分别属于3个大碎片集合的2个碎片文件即可将全部大碎片集合完成分类；（任意指定一类为正面，从而另一面为反面）有000, OOl两个碎片文件，当OOOa属于大碎片集合A，OOOb属于大碎片集合B，OOla属于B，OOlb属于C ;根据"同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中"这一特点可以判断出A、C属于同一平面； S7基于正反面特点的结果检验 1) 同一块碎片文件的a、b两面不能同时出现在一个大碎片集合中； 2) 任意3块碎片文件不能两两分别属于三个大碎片集合；证明：任取Xi、X」、xmS 〇〇〇, 001，002三个碎片文件，若000a，OOla属于大碎片集合A， 000b, 002a属于大碎片集合B，001b，002b属于大碎片集合C ;由碎片000可知，A、B两个大碎片集合不属于同一面；由碎片001可知，A、C两个大碎片集合不属于同一面；由碎片002 可知，B、C两个大碎片集合不属于同一面；然而由于完整文件只有两面，所以上述三个推断矛盾，因此任意3块碎片文件不能两两分别属于三个大碎片集合。
【专利摘要】一种针对英文印刷文字双面打印破碎文件复原分析方法，图片预处理，为获取样本数据需对图片进行分割，以像素为单位将图片进行网格划分；二维匹配度模型的建立，定义xi为两碎片拼接时位于左侧的已固定碎片，为了有统一的度量标准，根据字母和汉字的上下距离的对称性，定义一个字母的中位线到碎片底端的距离，碎片边缘黑色小格的连续对接匹配连续度：二维匹配过程中存在向左匹配和向上匹配两个方向：二维黑白对接匹配模型，横向对接单行匹配度，纵向对接单列匹配度；二维匹配模型算法优化；二维匹配问题的综合聚类和匹配度函数；基于正反面特点的大碎片集合分类；基于正反面特点的结果检验。
【IPC分类】G06K9-20, G06K9-34
【公开号】CN104537368
【申请号】CN201510008008
【发明人】赵旭, 程维虎, 王云帆, 刘爽, 胡云升, 张洋, 赵天宇
【申请人】北京工业大学
【公开日】2015年4月22日
【申请日】2015年1月7日

完整全部详细技术资料下载

当前第2页1 2