一种对报纸版面进行文字阅读顺序恢复的方法

文档序号:6438314阅读:316来源:国知局
专利名称:一种对报纸版面进行文字阅读顺序恢复的方法
技术领域
本发明属于智能文字与图形信息处理中的文档版面理解技术,具体涉及一种对报纸版面进行文字阅读顺序恢复的方法。
背景技术
随着信息技术的发展与新的媒体形式的出现,跨媒体出版以其信息共享便捷、信息传播高效、信息表现形式丰富、多种媒体优势互补等优势正在迅速发展。基于XML的数字资产管理系统是跨媒体出版的核心,但在传统的信息传播中,信息的存在形式直接依赖于终端媒体的形式,不便于跨媒体出版。特别是报纸数量巨大,历史久远,样式复杂,内容独立性差,阅读顺序模糊,其XML结构化最为困难。如何从这种复杂版面的报纸文档模糊而非独立的文字空间关系恢复成具有语义信息的连贯的独立的篇章文字流并以XML表示是报纸数据资产实现跨媒体出版所面临的问题。对报纸版面进行阅读顺序恢复就是用来解决这些技术问题的方法。
目前,主流OCR数字化软件对带样式文档版面的处理,忽略阅读顺序和语义结构恢复,转换成带样式的电子文档如PDF、HTML再发布,但不利于信息的重用与深加工如检索、利用、交易、改写、补充、整理等,尤其是多篇章的报纸版面,缺乏篇章独立阅读顺序和结构化使得再利用更加困难。进行阅读顺序恢复主要有两类方法一类是利用样式和空间关系信息,如文献“复杂中文报纸的版面分析、理解和重构”(作者陈明、丁晓青、梁健.清华大学学报自然科学版2001年第41卷第1期.页码29~32,59)和1999年在Proceedings of theFifth International Conference on Document Analysis and Recognition发表的文献“Integrated Algorithms for Newspaper Page Decomposition andArticle Tracking”(作者B.Gatos,S.L.Mantzaris,K.V.Chandrinos,A.Tsigris,S.J.Perantonis.页码559~562),把报纸版面视为多个独立文字块的集合,基于同一篇文章样式同质的原理利用规则进行文字块的合并与阅读顺序确定,规则方法只能处理样式和空间关系简单的版面如书籍、期刊论文,但报纸版面多样性和对象相关性的特征使得仅仅利用样式和规则进行复杂版面文字块之间的阅读顺序恢复的正确率过低;另一类是利用语义和空间关系信息,2002年,Aiello M,Monz C,Todoran L等人在文献“Document understandingfor a broad class of documents”(International Journal on PocumentAnalysis and Recognition,2002,5(1)1~16.)中公开了一种首次利用语义信息确定阅读顺序的方法,把所有可能的阅读顺序做一个排列组合,然后根据词性权值公式选出最好的结果,但时间复杂度随着文字块数量的增加而指数级增长,无法提取独立的阅读顺序,且利用的语义信息太少,影响准确率。以上这些技术中,没有充分利用报纸版面文档中的各种潜在信息以便获得更精确的阅读顺序效果,更没有形成统一的数学模型。

发明内容
针对现有技术中存在的问题,本发明的目的是提供一种对报纸版面进行文字阅读顺序恢复的方法,该方法能有效地对报纸版面文档进行阅读顺序恢复且能以篇章为单位进行独立阅读顺序分割,从而能大大提高阅读顺序准确率,又便于进一步XML语义结构化。
为达到以上目的,本发明采用的技术方案是一种对报纸版面进行文字阅读顺序恢复的方法,包括以下步骤(1)读入带样式版面信息的文档,进行版面分析,把样式相同的文字合并成文字块,并分类为正文文字块和非正文文字块,文字块内部文字的空间关系单一,根据左比右先读、上比下先读的规则把块内文字连接成具有阅读顺序的文字流作为块的内容。非正文文字块孤立于周围文字块,无需考虑与其他文字块的阅读顺序,处理的核心是正文文字块内容间的阅读顺序;(2)以正文文字块为顶点,块的左右邻接关系为有向边建立横向邻接有向图,以块为顶点,块的上下邻接关系为有向边建立纵向邻接有向图,基于这两个有向图并根据空间序列规则建立空间序列有向图,空间序列规则定义为如果正文文字块l在横向或纵向邻接有向图中是正文文字块m的先驱,则正文文字块l在空间序列上优于正文文字块m;如果正文文字块l在横向邻接有向图中是正文文字块m的先驱,且正文文字块n在纵向邻接有向图中是正文文字块m的先驱,则正文文字块l在空间序列上优于正文文字块n;如果正文文字块l在横向邻接有向图中是正文文字块m的先驱,且正文文字块l在纵向邻接有向图中是正文文字块n的先驱,则正文文字块n在空间序列上优于正文文字块m;(3)对空间序列有向图进行拆分转化,构造加权二分图,二分图边的权值采用自然语言处理技术,由边的两个顶点对应的正文文字块内容的相关度、重叠词汇的局部活跃度、尾词与首词的成词度和词性转移度等确定;(4)对加权二分图进行最优匹配,基于最优匹配的结果确定多个连续的正文文字块全序序列;
(5)把每个正文文字块序列再根据文字块的样式信息和语义关联信息分割为多个子序列,子序列中文字块的内容按顺序连接起来形成的文字流即是恢复出来的单个文章的独立的文字阅读顺序。
更进一步,为使本发明具有更好的效果在步骤(4)中进行阅读顺序恢复时,将图论中最优匹配的库恩—曼克勒(Kuhn-Munkres)算法用于基于内容的阅读顺序恢复。
步骤(1)中带样式版面信息的文档包括扫描纸介质报纸并OCR识别得到的文档、PDF、专业排版软件如方正飞腾生成的文档,样式信息主要是指每个字都有位置和大小信息,版面分析根据局部样式同质原理自底向上把样式相同的文字合并成文字块;文字块的分类依据文字块字样式和行数量分为正文文字块和非正文文字块,文字块内部版面对象空间关系是行与行之间的纵向邻接关系、行内字与字之间横向邻接关系。
步骤(3)中加权二分图的两个顶点集X和Y都包含空间序列有向图的所有顶点,加权二分图的边满足下面条件X的顶点a和Y的顶点b是空间序列有向图的出点和入点,则它们在加权二分图中也存在边;加权二分图边的权值计算采用自然语言处理技术(1)X的顶点a和Y的顶点b对应内容d1和d2的相关度Similarity(d1,d2)=cosine(d1,d2)=(d1*d2)/||d1||·||d2||;(2)d1和d2词汇的局部活跃度Active(d1,d2)=d1与d2重叠词的个数/重叠词汇链分布度的和;(3)定义d1尾词w1与d2首词w2的成词度WordTrans如果w1w2组成的字串在词典里是个词,则WordTrans定义为1,否则定义为0;(4)d1尾词w1的词性pos1与d2首词w2的词性pos2的词性转移度PosTrans=P(pos1pos2|pos2)=freq(pos1,pos2)/freq(pos1),freq(pos1,pos2)表示pos1与pos2在训练语料中的共现次数,freq(pos1)在训练语料中的出现次数;边权值=α1*Similarity+α2*Active+α3*WordTrans+α4*PosTrans(α1+α2+α3+α4=1)。
步骤(4)中对加权二分图利用库恩—曼克勒(Kuhn-Munkres)算法进行最优匹配,具体算法如下1)给出初始标号l(xi)=maxjωij,l(yi)=0,i,j=1,2...,t,t=max(n,m);]]>
2)求出边集El={(xi,yj)|l(xi)+l(yj)=ωij}、Gl=(X,Yk,El)及Gl中的一个匹配M;3)如M已饱和X的所有结点,则M即是G的最优匹配,计算结束,否则进行下一步;4)在X中找一M非饱和点x0,令A←{x0},B←φ,A,B是两个集合;5)若NGl(A)=B,]]>则转第9)步,否则进行下一步,其中,NGl(A)⊆Yk,]]>是与A中结点邻接的结点集合;6)找一结点y∈NGl(A)-B;]]>7)若y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第5)步,否则进行下一步;8)存在一条从x0到y的可增广路P,令M←ME(P),转第3)步;9)按下式计算α值a=minxi∈Ayj∉NGl(A){l(xi)+l(yj)-ωij},]]>修改标号 根据l′求El′及Gl′;10)l←l′,Gl←Gl′,转第6)步;基于最优匹配的结果M确定多个连续的正文文字块全序序列,序列生成方法是如果X的顶点a与Y的顶点b是M的配对饱和点且X的顶点b与Y的顶点c是M的配对饱和点,则顶点a→顶点b→顶点c形成一个序列,并递推使得序列增加到最长,然后再以不在此序列中的顶点为对象生成新的序列,直到每个顶点都属于某个序列,那么每个序列中顶点对应的文字块就形成了一个文字块序列。
步骤(5)中把每个正文文字块序列再根据文字块的样式信息如栏宽和栏间距及和语义关联信息分割为多个子序列,每个子序列具有等栏宽和等栏间距的性质且子序列中相邻文字块在二分图中对应的边权值要大于阈值,子序列中文字块的内容按顺序连接起来形成的文字流即是恢复出来的单个文章的独立的文字阅读顺序。
本发明的效果在于针对了报纸版面文档的特点,提出一种新的基于内容的对报纸版面恢复文字阅读顺序的方法。该方法能有效的利用报纸版面文档中的语义信息、空间关系信息与样式信息,并利用图论数学模型对阅读顺序问题进行建模,不但完成了阅读顺序的恢复而且文字流还是篇章独立的,使得报纸版面上的内容与样式无关,大大提高了阅读顺序准确率,并更加有利于报纸版面的信息提取和XML结构化,以便实现历史数据资产的再利用和跨媒体再发布,该方法可广泛应用于版面理解等智能文字与图形的信息处理领域,如纸介质、PS、PDF、Word、InDesign等带样式文档的版面理解和结构化处理。
本发明之所以具有如此显著的技术效果,其原因在于1.本发明首次对正文文字块之间的阅读顺序恢复问题以图论最优匹配理论进行数学建模;2.利用空间连续是文字流连续的必要条件,把文字块之间的空间邻接关系表示为有向图的边以减少搜索空间;3.把有向图拆分转化为加权二分图以便定量的选择最可能的阅读顺序序列;4.由于文字流连续最核心的评判标准是基于内容的,利用自然语言处理技术,在词级前一个文字块的尾词和后一个文字块的首词的成词度、句级前一个文字块的尾词和后一个文字块的首词词性转移度、段级内容的相关度、重叠词的局部活跃度等决定了两个文字块是否在阅读顺序上连续,它们的线性加权作为二分图边的权值,通过库恩—曼克勒(Kuhn-Munkres)匹配算法得到多个连续的文字块序列;5.每个序列是非篇章独立的,根据报纸版面样式篇章内部同质、篇章间异质且每个篇章的文字块内容主题一致的特点,由栏宽、栏间距和语义相关信息把文字块序列分割成多个连续的子序列,每个子序列对应的文字块内容的连接即是一个具有阅读顺序的篇章独立的文字流。


图1是本发明的流程图;图2是版面分析后的报纸示意图;图3是报纸版面文档的正文文字块的横向邻接有向图示意图;图4是报纸版面文档的正文文字块的纵向邻接有向图示意图;图5是由横向和纵向邻接有向图拆分转化成的二分图示意图;图6是库恩—曼克勒(Kuhn-Munkres)最优匹配算法结果示意图;图7是恢复阅读顺序后的报纸示意图。
具体实施例方式
下面结合附图和实施列对本发明作进一步地描述。
本实施例中,我们选用了OCR扫描进来的报纸文档作为实例数据,如图1所示,一种对报纸版面进行文字阅读顺序恢复的方法,包括以下步骤
一、读入带样式版面信息的文档,包括扫描纸介质报纸并OCR识别得到的文档、PDF、专业排版软件如方正飞腾生成的文档等,样式信息主要是指每个字都有位置和大小信息。版面分析根据局部样式同质原理自底向上把样式相同的文字合并成文字块;文字块的分类依据文字块字样式和行数量分为正文文字块和非正文文字块,如图2所示,实线矩形表示正文文字块,数字表示其编号,虚线表示非正文文字块。文字块内部版面对象空间关系是行与行之间的纵向邻接关系、行内字与字之间横向邻接关系,根据左比右先读、上比下先读的规则把块内文字连接成具有阅读顺序的文字流作为块的内容。非正文文字块孤立于周围文字块,无需考虑与其他文字块的阅读顺序,处理的核心是正文文字块内容间的阅读顺序。
二、以正文文字块为顶点,块的左右邻接关系为有向边建立横向邻接有向图,如图3所示,以块为顶点,块的上下邻接关系为有向边建立纵向邻接有向图,如图4所示,基于这两个有向图并根据空间序列规则建立空间序列有向图,空间序列规则定义为如果正文文字块l在横向或纵向邻接有向图中是正文文字块m的先驱,则正文文字块l在空间序列上优于正文文字块m;如果正文文字块l在横向邻接有向图中是正文文字块m的先驱,且正文文字块n在纵向邻接有向图中是正文文字块m的先驱,则正文文字块l在空间序列上优于正文文字块n;如果正文文字块l在横向邻接有向图中是正文文字块m的先驱,且正文文字块l在纵向邻接有向图中是正文文字块n的先驱,则正文文字块n在空间序列上优于正文文字块m;三、对空间序列有向图进行拆分转化,构造加权二分图,如图5所示,“f正文”表示阅读顺序的先驱顶点,“t正文”表示阅读顺序的后继顶点,加权二分图的两个顶点集X和Y都包含空间序列有向图的所有顶点,加权二分图的边满足下面条件X的顶点a和Y的顶点b是空间序列有向图的出点和入点,则它们在加权二分图中也存在边,二分图边的权值采用自然语言处理技术,由边的两个顶点对应的正文文字块内容的相关度、重叠词汇的局部活跃度、尾词与首词的成词度和词性转移度等确定,具体计算如下(1)X的顶点a和Y的顶点b对应内容d1和d2的相关度Similarity(d1,d2)=cosine(d1,d2)=(d1*d2)/||d1||·||d2||;(2)d1和d2词汇的局部活跃度Active(d1,d2)=d1与d2重叠词的个数/重叠词汇链分布度的和;(3)定义d1尾词w1与d2首词w2的成词度WordTrans如果w1w2组成的字串在词典里是个词,则WordTrans定义为1,否则定义为0;
(4)d1尾词w1的词性pos1与d2首词w2的词性pos2的词性转移度PosTrans=P(pos1pos2|pos2)=freq(pos1,pos2)/freq(pos1),freq(pos1,pos2)表示pos1与pos2在训练语料中的共现次数,freq(pos1)在训练语料中的出现次数;边权值=α1*Similarity+α2*Active+α3*WordTrans+α4*PosTrans(α1+α2+α3+α4=1)。
四、对加权二分图利用库恩—曼克勒(Kuhn-Munkres)算法进行最优匹配,基于最优匹配的结果确定多个连续的正文文字块全序序列,库恩—曼克勒(Kuhn-Munkres)算法如下(1)给出初始标号l(xi)=maxiωij,l(yj)=0,i,j=1,2...,t,t=max(n,m);]]>(2)求出边集El={(xi,yj)|l(xi)+l(yj)=ωij}、Gl=(X,Yk,El)及Gl中的一个匹配M;(3)如M已饱和X的所有结点,则M即是G的最优匹配,计算结束,否则进行下一步;(4)在X中找一M非饱和点x0,令A←{x0},B←φ,A,B是两个集合;(5)若NGl(A)=B,]]>则转第(9)步,否则进行下一步,其中,NGl(A)⊆Yk,]]>是与A中结点邻接的结点集合;(6)找一结点y∈NGl(A)-B;]]>(7)若y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第(5)步,否则进行下一步;(8)存在一条从x0到y的可增广路P,令M←ME(P),转第(3)步;(9)按下式计算α值a=minxi∈Ayj∉NGl(A){l(xi)+l(yj)-ωij},]]>修改标号 根据l′求El′及Gl′;(10)l←l′,Gl←Gl′,转第(6)步;基于最优匹配的结果M,生成序列方法是如果X的顶点a与Y的顶点b是M的配对饱和点且X的顶点b与Y的顶点c是M的配对饱和点,则顶点a→顶点b→顶点c形成一个序列,并递推使得序列增加到最长,然后再以不在此序列中的顶点为对象生成新的序列,直到每个顶点都属于某个序列,那么每个序列中顶点对应的文字块就形成了一个文字块序列,如图6所示的最优匹配共生成5个序列12→13→14→15→16→17→20→18→21→19→22→1、23→24→25、27→28→0→8→9→10→11→4、26→5→2→6→7→3和29。
五、把每个正文文字块序列再根据文字块的样式信息和语义关联信息分割为多个子序列,每个子序列具有等栏宽和等栏间距的性质且子序列中相邻文字块在二分图中对应的边权值要大于阈值,子序列中文字块的内容按顺序连接起来形成的文字流即是恢复出来的单个文章的独立的文字阅读顺序,如图7所示,共有9个篇章,阅读顺序以箭头表示12→13→14→15→16→17→20→18→21→19→22、23→24→25、27→28→0、8→9→10→11→4、2→6→7→3、1、5、26和29,其中有四个篇章都只含有一个文字块分别是1、5、26和29。
权利要求
1.一种对报纸版面进行文字阅读顺序恢复的方法,包括以下步骤(1)读入带样式版面信息的文档,进行版面分析,把样式相同的文字合并成文字块,并分类为正文文字块和非正文文字块,文字块内部文字的空间关系单一,根据左比右先读、上比下先读的规则把块内文字连接成具有阅读顺序的文字流作为块的内容,非正文文字块孤立于周围文字块,无需考虑与其他文字块的阅读顺序,处理的核心是正文文字块内容间的阅读顺序;(2)以正文文字块为顶点,块的左右邻接关系为有向边建立横向邻接有向图,以块为顶点,块的上下邻接关系为有向边建立纵向邻接有向图,基于这两个有向图并根据空间序列规则建立空间序列有向图,空间序列规则定义为如果正文文字块l在横向或纵向邻接有向图中是正文文字块m的先驱,则正文文字块l在空间序列上优于正文文字块m;如果正文文字块l在横向邻接有向图中是正文文字块m的先驱,且正文文字块n在纵向邻接有向图中是正文文字块m的先驱,则正文文字块l在空间序列上优于正文文字块n;如果正文文字块l在横向邻接有向图中是正文文字块m的先驱,且正文文字块l在纵向邻接有向图中是正文文字块n的先驱,则正文文字块n在空间序列上优于正文文字块m;(3)对空间序列有向图进行拆分转化,构造加权二分图,二分图边的权值采用自然语言处理技术,由边的两个顶点对应的正文文字块内容的相关度、重叠词汇的局部活跃度、尾词与首词的成词度和词性转移度确定;(4)对加权二分图进行最优匹配,基于最优匹配的结果确定多个连续的正文文字块全序序列;(5)把每个正文文字块序列再根据文字块的样式信息和语义关联信息分割为多个子序列,子序列中文字块的内容按顺序连接起来形成的文字流即是恢复出来的单个文章的独立的文字阅读顺序。
2.如权利要求1所述的一种对报纸版面进行文字阅读顺序恢复的方法,其特征在于在步骤(4)中进行阅读顺序恢复时,将图论中最优匹配的库恩-曼克勒(Kuhn-Munkres)算法用于基于内容的阅读顺序恢复。
3.如权利要求1所述的一种对报纸版面进行文字阅读顺序恢复的方法,其特征在于步骤(1)中带样式版面信息的文档包括扫描纸介质报纸并OCR识别得到的文档、PDF、专业排版软件如方正飞腾生成的文档,样式信息主要是指每个字都有位置和大小信息,版面分析根据局部样式同质原理自底向上把样式相同的文字合并成文字块;文字块的分类依据文字块字样式和行数量分为正文文字块和非正文文字块,文字块内部版面对象空间关系是行与行之间的纵向邻接关系、行内字与字之间横向邻接关系。
4.如权利要求1所述的一种对报纸版面进行文字阅读顺序恢复的方法,其特征在于步骤(3)中加权二分图的两个顶点集X和Y都包含空间序列有向图的所有顶点,加权二分图的边满足下面条件X的顶点a和Y的顶点b是空间序列有向图的出点和入点,则它们在加权二分图中也存在边;加权二分图边的权值计算采用自然语言处理技术1)X的顶点a和Y的顶点b对应内容d1和d2的相关度Similarity(d1,d2)=cosine(d1,d2)=(d1*d2)/‖d1‖·‖d2‖;2)d1和d2词汇的局部活跃度Active(d1,d2)=d1与d2重叠词的个数/重叠词汇链分布度的和;3)定义d1尾词w1与d2首词w2的成词度WordTrans如果w1w2组成的字串在词典里是个词,则WordTrans定义为1,否则定义为0;4)d1尾词w1的词性pos1与d2首词w2的词性pos2的词性转移度PosTrans=P(pos1pos2|pos2)=freq(pos1,pos2)/freq(pos1),freq(pos1,pos2)表示pos1与pos2在训练语料中的共现次数,freq(pos1)在训练语料中的出现次数;边权值=α1*Similarity+α2*Active+α3*WordTrans+α4*PosTrans(α1+α2+α3+α4=1)。
5.如权利要求1所述的一种对报纸版面进行文字阅读顺序恢复的方法,其特征在于步骤(4)中对加权二分图利用库恩-曼克勒(Kuhn-Munkres)算法进行最优匹配,具体算法如下1)给出初始标号l(xi)=maxjωij,l(yj)=0,i,j=1,2...,t,t=max(n,m);]]>2)求出边集El={(xi,yj)|l(xi)+l(yj)=ωij}、Gl=(X,Yk,El)及Gl中的一个匹配M;3)如M已饱和X的所有结点,则M即是G的最优匹配,计算结束,否则进行下一步;4)在X中找一M非饱和点x0,令A←{x0},B←φ,A,B是两个集合;5)若NGl(A)=B]]>,则转第9)步,否则进行下一步,其中,NGl(A)⊆Yk]]>,是与A中结点邻接的结点集合;6)找一结点y∈NGl(A)-B;]]>7)若y是M饱和点,则找出y的配对点z,令A←A∪{z},B←B∪{y},转第5)步,否则进行下一步;8)存在一条从x0到y的可增广路P,令M←ME(P),转第3)步;9)按下式计算α值a=minxi∈Ayj∉NGl(A){l(xi)+l(yj)-ωij}]]>,修改标号 根据l′求El′及Gl′;10)l←l′,Gl←Gl′,转第6)步;基于最优匹配的结果M确定多个连续的正文文字块全序序列,序列生成方法是如果X的顶点a与Y的顶点b是M的配对饱和点且X的顶点b与Y的顶点c是M的配对饱和点,则顶点a→顶点b→顶点c形成一个序列,并递推使得序列增加到最长,然后再以不在此序列中的顶点为对象生成新的序列,直到每个顶点都属于某个序列,那么每个序列中顶点对应的文字块就形成了一个文字块序列。
6.如权利要求1所述的一种对报纸版面进行文字阅读顺序恢复的方法,其特征在于步骤(5)中把每个正文文字块序列再根据文字块的样式信息如栏宽和栏间距及和语义关联信息分割为多个子序列,每个子序列具有等栏宽和等栏间距的性质且子序列中相邻文字块在二分图中对应的边权值要大于阈值,子序列中文字块的内容按顺序连接起来形成的文字流即是恢复出来的单个文章的独立的文字阅读顺序。
全文摘要
本发明属于智能文字与图形信息处理中的文档版面理解技术,具体涉及一种基于内容的对报纸版面进行文字阅读顺序恢复的方法。针对现有技术处理复杂报纸版面存在丢失阅读顺序且内容不具有篇章独立性的缺陷,本发明首次对此问题以图论理论进行数学建模,把文字块的邻接关系表示为有向图,并把有向图拆分转化为加权二分图,采用自然语言处理技术计算二分图边权值,通过最优匹配得到多个连续序列,每个序列再根据文字块样式信息分割成多个子序列,子序列对应内容的连接即是独立篇章的具有阅读顺序的文字流。利用了语义、空间关系和样式信息,阅读顺序恢复的正确率大大改进且以篇章为单位具有独立性。本方法可应用于带样式文档的版面理解和结构化重构。
文档编号G06F17/21GK1604075SQ20041009143
公开日2005年4月6日 申请日期2004年11月22日 优先权日2004年11月22日
发明者贾娟, 陈晓鸥, 陈堃銶 申请人:北京北大方正技术研究院有限公司, 北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1