一种数字报刊版面信息的自动提取方法

文档序号:6471037阅读:168来源:国知局
专利名称:一种数字报刊版面信息的自动提取方法
技术领域
本发明涉及计算机信息处理领域的模式识别技术,具体涉及一种数字报刊版面信
息的自动提取方法。
背景技术
随着信息技术、网络技术的发展,报刊数字化的发展步伐也在日益加快。利用先进 的互联网技术能够使大众方便、快捷的浏览到数字化的报刊内容,充分发挥报社的资源优 势,使新闻信息传播的更快、更广,提升报社网站对读者的吸引力。 目前,对于数字报刊在进行标引处理(即对报刊中的内容信息进行组织,如标注 版面信息一 出版日期、版次、版名)时,由于这些数据在不同的报纸版面上均以不同的形式 存在,导致了标引工具对这些内容进行自动提取存在较大的困难,所以一般情况下,均采用 人工标引的方式来提取版面日期、版次、版名。 由于人工标引的方式处理速度较慢,对于大量版面数据需要成批处理时,会限制 处理效率的提高,所以需要一种方式对这些固定存在的版面中的信息进行自动提取,以提 高数字报刊的标引效率。

发明内容
本发明的目的是针对目前数字报刊在进行标引处理时存在的缺陷,提供一种数字 报刊版面信息的自动提取方法,通过综合利用空间和语义信息,对内容进行判断,来实现报 纸版面中的日期、版名、版次内容的自动提取。 本发明的技术方案如下一种数字报刊版面信息的自动提取方法,包括如下步 骤 (1)对版面中独立的文字进行合并,将其组织成为若干个内容块;
(2)根据可能包含所需版面信息的位置筛选出候选内容块; (3)根据日期内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含 出版日期的内容块,并对包含出版日期的内容块进行提取; (4)根据版次内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含 版次的内容块,并对包含版次的内容块进行提取; (5)根据版名内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含 版名的内容块,并对包含版名的内容块进行提取。 进一步,如上所述的数字报刊版面信息的自动提取方法,在步骤(2)中,所述的可 能包含所需版面信息的位置包括版面的左上角、左边、右上角、上部。 进一步,如上所述的数字报刊版面信息的自动提取方法,在步骤(3)中,判断是否 为包含出版日期的内容块时,先进行粗匹配,然后进行细匹配,如果细匹配不成功,则使用 一般匹配规则,在匹配的结果中选择位置最靠顶部的内容块。 更进一步,如上所述的数字报刊版面信息的自动提取方法,在步骤(3)中,所述粗匹配的日期内容的特征为以下任意一个 1. XXXX年XX月XX日星期x,"星期"与"日"间隔0-2个字符; 2. xxxx. xx. xx星期x,"星期"与前面的"xx"间隔0_2个字符; 3. xxxx年xx月星期x,"星期"与"月"间隔0-8个字符; 4. xxxx. xx星期x,"星期"与前面的"xx"间隔0-8个字符; 其中,xxxx为1-4个字符,xx为1-2个字符,x为l个字符,字符均从集合
{0123456789 —二三四五六七八九}中选取。 更进一步,如上所述的数字报刊版面信息的自动提取方法,在步骤(3)中,所述细 匹配的日期内容的特征为以下任意一个 1. xxxx年xx月星期x,"星期"与"月"间隔0-8个字符; 2. xxxx. xx星期x,"星期"与前面的"xx"间隔0_8个字符; 其中,xxxx为1-4个字符,xx为1_2个字符,x为l个字符,字符均从集合
{0123456789 —二三四五六七八九}中选取。 更进一步,如上所述的数字报刊版面信息的自动提取方法,在步骤(3)中,所述一 般匹配规则的日期内容的特征为以下任意一个 1. XXXX年XX月; 2. xxxx. xx ; 其中,xxxx为1-4个字符,xx为1_2个字符,字符均从集合{0123456789
一二三四五六七八九}中选取。 进一步,如上所述的数字报刊版面信息的自动提取方法,在步骤(3)中,若候选内 容块均不符合日期内容的特征判断条件,则将所有候选内容块进行合并,再根据日期内容 的特征对合并后的内容块进行判断。 进一步,如上所述的数字报刊版面信息的自动提取方法,在步骤(4)中,如果候选 内容块包含以下版次内容特征中的任意两个
1.本期xx报xx叠xx版, 其中,"xx报"的xx为任意个任意字符,"xx叠"的xx为任意个任意字符,"xx版"
的xx为1-3个任意字符; 2.第xx期,第xx号, 其中,xx为任意1-5个字符; 3.存在农历日期; 则此内容块包含版次内容信息,且版次内容为头版。
判断农历日期的特征为
a)头部有"农历"两字; b)日期中年份是字符集合[甲乙丙丁戊己庚辛壬癸]和[子丑寅卯辰巳午未申酉 戌亥]中任意两个字符的排列;
c)月份为1-3个字符。 更进一步,如上所述的数字报刊版面信息的自动提取方法,在步骤(4)中,如果候
选内容块包含以下任意一种版次内容特征
1.第xx版,
其中,xx为1-3个字符; 2.字母+数字,或者没有字母,且数字不超过三位;
则此内容块包含版次内容信息。 进一步,如上所述的数字报刊版面信息的自动提取方法,在步骤(5)中,如果候选 内容块包含以下版名内容特征 1.该内容块与已经确定的包含出版日期的内容块或包含版次的内容块在X轴方 向上或Y轴方向上相交; 2.内容块包含的内容信息为单行,字号大于15,字数在2-9之间; 3.内容块的水平位置位于版面横向的30%_70%之间,竖直位置位于版面纵向的
5% -30%之间。 更进一步,如上所述的数字报刊版面信息的自动提取方法,在步骤(5)中,如果存
在多个包含版名内容特征的候选内容块,则选择垂直位置最高的内容块。 本发明的有益效果如下本发明根据相关内容在报纸版面上的位置与语义信息,
自动提取版面上的出版日期、版次、版名数据,通过简单、方便的自动化操作,提高了大量版
面数据成批处理时的处理效率,在减轻工作人员劳动强度的同时,也使得数字报刊的标引
工作更加快捷、准确。


图1为本发明的方法流程图。 图2为数字报刊版面提取独立文字的示意图。 图3为将版面中独立的文字进行合并组成内容块的示意图。
具体实施例方式
下面结合附图和具体实施例对本发明进行详细的描述。 本发明具体应用在PDF分析的版面信息提取的过程中,首先利用自动合并技术将 版面中独立的文字进行合并,使其组织成为内容块,然后根据这些内容块的位置与内容进 行信息的提取。所述的自动合并技术已经在专利申请"一种基于PDF的复杂版面的标引方 法"(200710179938. 4)中进行了描述,具体内容请参见该专利申请的说明书,此处不再进行 过多的描述。通过这种方法,图2中所示的独立文字就被合并为了图3中所示的内容块。
由于可能包含版面信息的位置都具有某种特定性,在将文字合并成若干个内容块 之后,根据可能包含所需版面信息的位置筛选出候选内容块,一般来说这些位置为版面的 左上角、左边、右上角、上部。然后,依次进行出版日期、版次、版名数据的提取,在具体程序 的匹配过程中,利用了正则表达式。
— 、获得版面的出版日期 根据一定的内容匹配规则来筛选候选块,判断是否为日期型内容块。判断是否为
包含出版日期的内容块时,先进行粗匹配,然后进行细匹配,如果细匹配不成功,则使用一
般匹配规则,在匹配的结果中选择位置最靠顶部的内容块。 粗匹配的日期内容的特征为以下任意一个 1. xxxx年xx月xx日星期x,"星期"与"日"间隔0_2个字符;
2. xxxx. xx. xx星期x,"星期"与前面的"xx"间隔0_2个字符;
3. xxxx年xx月星期x,"星期"与"月"间隔0_8个字符;
4. xxxx. xx星期x,"星期"与前面的"xx"间隔0-8个字符; 其中,xxxx为1-4个字符,xx为1_2个字符,x为l个字符,字符均从集合
{0123456789 —二三四五六七八九}中选取。 细匹配的日期内容的特征为以下任意一个 1. xxxx年xx月星期x,"星期"与"月"间隔0-8个字符; 2. xxxx. xx星期x,"星期"与前面的"xx"间隔0_8个字符; 其中,xxxx为1-4个字符,xx为1_2个字符,x为l个字符,字符均从集合
{0123456789 —二三四五六七八九}中选取。 —般匹配规则的日期内容的特征为以下任意一个1. XXXX年XX月; 2. xxxx. xx ; 其中,xxxx为1-4个字符,xx为1-2个字符,字符均从集合{0123456789
一二三四五六七八九}中选取。 如果候选块均不满足匹配条件,则可能是日期被拆分到多个候选块中,所以需要 对这些候选块进行合并,具体的合并方法依然使用在先专利申请"一种基于PDF的复杂版 面的标引方法"中所提及的具体方式。块合并会根据具体的块位置等关系,尽量按照正常阅 读顺序合并,字符合并后会根据粗匹配的结果,获得匹配字符串的起始和结束位置,从而可 以由此提取具体的日期字符串。对找出来的非合并产生的目标内容块,由于其中在日期的 前后会存在被错误合并的其他字符,所以需要进行拆分处理,提取其中的日期字符串。
二、获得版面的版次 在获得版面的出版日期后,对版次进行提取,如果候选内容块包含以下版次内容
特征中的任意两个 1.本期xx报xx叠xx版, 其中,"xx报"的xx为任意个任意字符,"xx叠"的xx为任意个任意字符,"xx版"
的xx为1-3个任意字符; 2.第xx期,第xx号, 其中,xx为任意l-5个字符; 3.存在农历日期; 则此内容块包含版次内容信息,且版次内容为头版。
上述判断农历日期的特征为
a)头部有"农历"两字; b)日期中年份是字符集合[甲乙丙丁戊己庚辛壬癸]和[子丑寅卯辰巳午未申酉
戌亥]中任意两个字符的排列; c)月份为l-3个字符。 若不是头版,根据以下特征进行筛选 1.第xx版, 其中,xx为1-3个字符;
2.字母+数字,或者没有字母,且数字不超过三位; 如果包含上述任意一种版次内容特征,则此内容块包含版次内容信息。
三、查找版名 通过以下特征对内容块进行筛选 1. —般版名块必须与版次或日期需要在x方向上或Y方向上有相交,若不相交则 不是版名块; 2.版名块的内容是为单行,字号大于15,字数在2-9之间; 3.版名块的水平位置一般位于版面横向的30% _70%之间,版名块的竖直位置一 般位于版面纵向的5% _30%之间。 根据以上特征进行筛选,若存在多个候选块则选择垂直位置最高的内容块。
本发明所述的方法并不限于具体实施方式
中所述的实施例,本领域技术人员根据 本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。
权利要求
一种数字报刊版面信息的自动提取方法,包括如下步骤(1)对版面中独立的文字进行合并,将其组织成为若干个内容块;(2)根据可能包含所需版面信息的位置筛选出候选内容块;(3)根据日期内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含出版日期的内容块,并对包含出版日期的内容块进行提取;(4)根据版次内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含版次的内容块,并对包含版次的内容块进行提取;(5)根据版名内容的特征筛选步骤(2)中获得的候选内容块,判断其是否为包含版名的内容块,并对包含版名的内容块进行提取。
2. 如权利要求1所述的数字报刊版面信息的自动提取方法,其特征在于在步骤(2)中,所述的可能包含所需版面信息的位置包括版面的左上角、左边、右上角、上部。
3. 如权利要求1所述的数字报刊版面信息的自动提取方法,其特征在于在步骤(3)中,判断是否为包含出版日期的内容块时,先进行粗匹配,然后进行细匹配,如果细匹配不成功,则使用一般匹配规则,在匹配的结果中选择位置最靠顶部的内容块。
4. 如权利要求3所述的数字报刊版面信息的自动提取方法,其特征在于在步骤(3)中,所述粗匹配的日期内容的特征为以下任意一个1) . xxxx年xx月xx日星期x,"星期"与"日"间隔0-2个字符;2) . xxxx. xx. xx星期x,"星期"与前面的"xx"间隔0-2个字符;3) . XXXX年XX月星期X,"星期"与"月"间隔0-8个字符;4) . XXXX. XX星期X,"星期"与前面的"xx"间隔0-8个字符;其中,xxxx为l-4个字符,xx为l-2个字符,x为l个字符,字符均从集合{0123456789一二三四五六七八九}中选取。
5. 如权利要求3所述的数字报刊版面信息的自动提取方法,其特征在于在步骤(3)中,所述细匹配的日期内容的特征为以下任意一个1) . xxxx年xx月星期x,"星期"与"月"间隔0-8个字符;2) . XXXX. XX星期X,"星期"与前面的"xx"间隔0-8个字符;其中,xxxx为l-4个字符,xx为l-2个字符,x为l个字符,字符均从集合{0123456789一二三四五六七八九}中选取。
6. 如权利要求3所述的数字报刊版面信息的自动提取方法,其特征在于在步骤(3)中,所述一般匹配规则的日期内容的特征为以下任意一个1) . XXXX年XX月52) . xxxx. xx s其中,xxxx为1-4个字符,xx为1-2个字符,字符均从集合{0123456789一二三四五六七八九}中选取。
7. 如权利要求3或4或5或6所述的数字报刊版面信息的自动提取方法,其特征在于在步骤(3)中,若候选内容块均不符合日期内容的特征判断条件,则将所有候选内容块进行合并,再根据日期内容的特征对合并后的内容块进行判断。
8. 如权利要求1所述的数字报刊版面信息的自动提取方法,其特征在于在步骤(4)中,如果候选内容块包含以下版次内容特征中的任意两个1) .本其月XX矛艮XX叠XX片反,其中,"XX报"的XX为任意个任意字符,"XX叠"的XX为任意个任意字符,"XX版"的XX为1-3个任意字符;2) .第xx期,第xx号,其中,XX为任意1-5个字符;3) .存在农历日期;则此内容块包含版次内容信息,且版次内容为头版。
9. 如权利要求8所述的数字报刊版面信息的自动提取方法,其特征在于在步骤(4)中,判断农历日期的特征为a) 头部有"农历"两字;b) 日期中年份是字符集合[甲乙丙丁戊己庚辛壬癸]和[子丑寅卯辰巳午未申酉戌亥]中任意两个字符的排列;c) 月份为l-3个字符。
10. 如权利要求1所述的数字报刊版面信息的自动提取方法,其特征在于在步骤(4)中,如果候选内容块包含以下任意一种版次内容特征1) .第XX版,其中,XX为l-3个字符;2) .字母+数字,或者没有字母,且数字不超过三位;则此内容块包含版次内容信息。
11. 如权利要求1所述的数字报刊版面信息的自动提取方法,其特征在于在步骤(5)中,如果候选内容块包含以下版名内容特征1) .该内容块与已经确定的包含出版日期的内容块或包含版次的内容块在X轴方向上或Y轴方向上相交;2) .内容块包含的内容信息为单行,字号大于15,字数在2-9之间;3) .内容块的水平位置位于版面横向的30% -70%之间,竖直位置位于版面纵向的5% -30%之间。
12. 如权利要求ll所述的数字报刊版面信息的自动提取方法,其特征在于在步骤(5)中,如果存在多个包含版名内容特征的候选内容块,则选择垂直位置最高的内容块。
全文摘要
本发明涉及计算机信息处理领域的模式识别技术,具体涉及一种数字报刊版面信息的自动提取方法。本发明首先对版面中独立的文字进行合并,将其组织成为若干个内容块,然后根据相关内容在报纸版面上的位置与语义信息,自动提取版面上的出版日期、版次、版名数据,通过简单、方便的自动化操作,提高了大量版面数据成批处理时的处理效率,在减轻工作人员劳动强度的同时,也使得数字报刊的标引工作更加快捷、准确。
文档编号G06F17/22GK101727438SQ200810225320
公开日2010年6月9日 申请日期2008年10月30日 优先权日2008年10月30日
发明者徐剑波, 董宁 申请人:北大方正集团有限公司;北京方正阿帕比技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1