一种删除版式文档中的花边字符的方法及装置的制作方法

文档序号:6341410阅读:258来源:国知局
专利名称:一种删除版式文档中的花边字符的方法及装置的制作方法
技术领域
本发明涉及版式文档处理技术,特别涉及一种删除版式文档中的花边字符的方法
及装置。
背景技术
花边字符是一种下载字符,通常被普遍运用在版式文档的排版中,使版面显得新颖、美观,增加版面的灵活性和促进版面的完整性。在数字出版行业中,使用排版软件对版式文档进行排版后,需要对版式文档内记录的文章信息进行重构和标引,即从版式文档中提取文章的内容信息,但版式文档中存在的花边字符会对文章的内容信息的提取产生干扰,从而影响文章版面的阅读顺序。

发明内容
本发明实施例提供一种删除版式文档中的花边字符的方法及装置,用以提高版式文档的反解质量。本发明实施例提供的具体技术方案如下一种删除版式文档中的花边字符的方法,包括导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符;依次确定所述原始块集合中每一个原始块的排版方向及字形相关信息;根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;将包含花边字符的原始块从所述原始块集合中删除。一种删除版式文档中的花边字符的装置,包括导入单元,用于导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符;第一确定单元,用于依次确定所述原始块集合中每一个原始块的排版方向及字形相关信息;第二确定单元,用于根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;删除单元,用于将包含花边字符的原始块从所述原始块集合中删除。本发明实施例中,通过对版式文档中包含的文字或/字符的排版方向及相应的字形相关信息的比对,准确地识别出版式文档的版面中存在的花边字符,并进行过滤删除,这样,便去除了花边字符对版面文档的文章内容的影响,最大程序地还原了文章内容的阅读顺序,使版式文档的版面显得新颖、美观,增加版面的灵活性和促进版面的完整性,从而提高了文章内容的反解质量和标引效率,并且在一定程度上节省了数据加工成本。


图1为本发明实施例中用于删除花边字符的装置功能结构图;图2为本发明实施例中在版式文档中删除花边字符整体流程图;图3为本发明实施例中识别花边字符流程图;图4为本发明实施例中对花边字符进行删除详细流程图。
具体实施例方式下面结合附图对本发明优选的实施方式进行详细说明。参阅图1所示,本发明实施例中,用于删除版式文档中的花边字符的文档处理装置包括导入单元10、第一确定单元11、第二确定单元12和删除单元13,其中,导入单元10,用于导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符;第一确定单元11,用于依次确定原始块集合中每一个原始块的排版方向及字形相关信息;第二确定单元12,用于根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;删除单元13,用于将包含花边字符的原始块从原始块集合中删除。参阅图2所示,本发明实施例中,文档处理装置对版式文档中的花边字符进行删除的详细流程如下步骤200 导入版式文档,并基于版式文档获取原始块集合S。本实施例中,原始块集合S中记录了排版后,版式文档中文章内容包含的所有文字和符号,一个原始块块中包含至少一个文字或字符,即也可以包含多个文字或字符,同时,集合S中还记录了每个原始块的字形相关信息,所谓字形相关信息包含但不限于原始块中包含的文字或字符的字体类型、字符类型、字号大小、序号、以及该原始块的坐标信息, 其中,序号是指原始块输出时的顺序。同时,本发明实施例中,为了更清楚的阐述技术方案,设置下述变量当前原始块的排版方向CurBlockdi,,初始值为未知类型,前一个原始块的排版方向I^reBl0Ckto,初始值为未知类型;从第Martlndex个原始块开始,其后的原始块的字符与之相同,MartIndex 初始值为0,用于记录删除字符的字体类型的字体集合F,初始为空集合,用于记录删除字符的字符类型的字符集合C,初始为空集合。步骤210 将集合S中的原始块按照序号进行排序。步骤220 依次确定集合S中每一个原始块的排版方向及相应的字形相关信息。本实施例中,确定任意一个原始块的排版方向时,执行以下操作,从集合S中读取出需要确定排版方向的当前原始块,以及与当前原始块相邻的下一个原始块,分别记为Blockeur和Blocknext,并且,采用CurBlockdir表示当前原始块的排版方向,采用I^eBlockto表示当前原始块的上一个原始块的排版方向,那么,首先,若出现以下情况中的一种或任意组合,则确定CurBlockto为未知类型DBlocknext 和 Blockeur 的字体不同;2)Blocknext和Block·的序号不连续,即序号差值不为1 ;将集合S中的原始块按照序号进行排序,这样就可以使原始块按照排版输出时的顺序排列,若排版时在两个原始块之间补充一个块,就会产生序号不连续的情况。3) Blocknext和Block·的块间距小于设定阈值A,较佳的,设定阈值A = 0. 1 ;4)Blocknext和Block·的字号差值大于设定阈值B,较佳的,设定阈值B = 0.01 ;Blocknext和Block·的字号差值超过设定阈值B,说明两者字号不近似,因此难以确定 CurBlockdir ;5)Blocknext和Block·的高度差值大于设定阈值C,较佳的,设定阈值C = 0. 01 ;Blocknext和Block·的高度差值超过设定阈值C,说明两者高度不近似,因此难以确定 CurBlockdir ;6)Blocknext和Block·的宽度差值大于设定阈值D,较佳的,设定阈值D = 0.01 ;Blocknext和Block·的宽度差值超过设定阈值D,说明两者宽度不近似,因此难以确定 CurBlockdir ;7) Blocknext和Blockeur的显示字符数目不同;或者,Blocknext和Blockeur的显示字符数目相同,但每个显示字符的编码不相同。其次,若Blocknext和Blockeur的上边界(即外切矩形的上边沿)的坐标差值未超过设定阈值E,较佳的,E = 0. 01,且Blockeur的右边界(即外切矩形的右边沿)和Blocknext 的左边界(即外切矩形的左边沿)的坐标差值未超过设定阈值F,较佳的,F = 0.2则 CurBlockdir为横排从左到右的类型;若Blocknext和Blockem的上边界的坐标差值未超过设定阈值E,较佳的,E = 0. 01, 且Blockem的左边界和Blocknext的右边界的坐标差值未超过设定阈值G,较佳的,G = 0. 2, 则CurBlockto为横排从右到左的类型;在上述两种情况下,原始块的排版方向为横排方式,且排列密集;若Blocknext和Block·的上边界的坐标差值未超过设定阈值E,且上述两种情况均不符合,则CurBlockdi,为未知类型。再次,若Blocknext和Blockeur的左边界的坐标差值未超过设定阈值H,较佳的,H = 0. 01,且Block·的上边界的坐标大于Blocknext的上边界的坐标,则CurBlockto为竖排从下到上的类型;若Blocknext和Blockem的左边界的坐标差值未超过设定阈值H,较佳的,I =0.01, 且Blocknext的上边界的坐标大于Block·的上边界的坐标,则CurBlockdi,为竖排从下到上的类型。在上述两种情况下,原始块的排版方向为竖排方式,且排列不密集。若Blocknext和Block·的左边界的坐标差值未超过设定阈值H,且上述两种情况均不符合,则CurBlockdi,为未知类型。步骤230 根据每个原始块的排版方向及相应的字形相关信息,确定包含花边字符的原始块。步骤MO 将包含花边字符的原始块从集合S中删除。参阅图3所示,本实施例中,执行步骤230过程中,判断任意一个原始块是否为花边字符时,执行以下操作步骤2300 判断I^reBlockdidP CurBlockto是否相同,若相同,则执行步骤2308 ; 否则,执行步骤2301。
步骤2301 判断是否I^reBl0Ckto不是未知类型,且Blocknext的序号与Martlndex 的序号的差值大于设定阈值Dvalue,本实施例中,较佳的,Dvalue= 10 ;若是,则执行步骤2302 ; 否则,执行步骤2307。步骤2302 判断是否同时满足I^reBlock-是竖排从下到上或竖排从上到下的类型、与Blockeur的字符相同的原始块的数目nSameCharCoimt大于设定阈值N_t、以及 Blocknext的序号与MartIndex的序号差值大于设定阈值Nvalue,本发明中,本实施例中,较佳的,Noimt = 25、Dvalue = 25 ;若是,则进行步骤2303 ;否则,执行步骤2304。步骤2303 确定Blockeur为花边签字,并在集合C中记录Block·的字符,以及设置nSameCharCount为O,接着执行步骤2306。本实施例中,在执行步骤2303时,若字符集合C中不存在Bl0ckcu,的字符,保存 Blockcur的字符,并将其出现次数记为1,若字符集合C中已存在Blockcm的字符,则将其出现次数+1。步骤2304 判断是否满足I^eBlockto是竖排从下到上或竖排从上到下的类型,且 Blockcur的显示字符数目大于1,若是,执行步骤2305,否则,执行步骤2306。步骤2305 确定Block·为非花边签字,并将MartIndex设置为Block·的序号, 以及设置 nSameCharCount 为 O。步骤2306 确定Blockeur为花边签字,并将Blockeur的字体记录在字体集合F中, 以及更新其出现次数。步骤2307 将 CurBlockdir 设置为 I^reBlockto,将 MartIndex 设置为 Block·的序号。步骤2308 若Blockeur与Blocknext的字符相同,记录其连续相同字符的数目 nSameCharCount0接着,将会继续判断下一个原始块是否为花边字符,直到识别出所有花边字符,再对其进行删除。参阅图4所示,本发明实施例中,执行步骤MO的过程中,从集合S中删除任意一个包含花边字符的原始块的具体操作如下步骤MOO 根据字体集合F中记录的字体及相应的出现次数,确定集合S中对应字体集合F中每一种字体的原始块数目。具体实现步骤为设置变量SameldCoimt,用来记录原始块的字体和字体集合F中记录的字体相同的原始块数目,依次取出字体集合F中记录的字体,若集合S中的原始块的字体和相应的记录字体相同,则SameldCoimt加1。同时,还要设置变量nSameCharCount,用来表示连续的包含相同字符的原始块数目,初始值设为0,此时,集合S的原始块已按照序号进行了排序,后续将依次读取各个原始块。步骤MOl 从集合S中读取出需要处理的当前原始块,及与该当前原始块相邻的下一个原始块,分别记为Block·’和Blockmxt'。步骤M02:判断Blockeu/的字体记录是否在字体集合F中?若是,则执行步骤 2403 ;否则,执行步骤M09。步骤M03 判断Blockeu/的字符与Blocknext'的字符是否相同?若是,则执行步
9骤M04 ;否则,执行步骤M05。步骤M04 将nSameCharCount加1,并设置Block·,的序号为花边字符的开始位置 StartPos0步骤M05 判断是否满足nSameCharCount加1大于设定阈值Same。_t,并且 Blockcur'的字符记录在字符集合C中,若是,则进行步骤M08 ;否则,执行步骤M06 ;本发明实施例中,较佳的,Samecount设置为25。步骤M06 查看Block·,的字体出现的次数Count。步骤M07 判断count是否大于设定阈值Maxcount,若是,则执行步骤M09 ;否则,执行步骤2408。执行步骤2407的目的是,花边字符的字体和文字的字体有时会相同,为了避免文字被误当作花边删除,基于一个版面中的花边字符的数目较少的特点,设置一阈值 Maxcount,若超过此阈值,则不认为是花边字符。步骤M08 将序号在闭区间BtartP0Sjlockeu/的序号]之间的原始块从集合S 中删除,接着执行步骤对09。步骤M09 将Blocknex/作为下一个需处理的当前原始块Block·,,并读取出与新的Blockeur'相邻的下一个新的Blocknext',接着,返回步骤M02。例如,实际应用中,假设存在如下内容的文档■现状24日11时30分■许,记者来到花园社区南■门附近时,东湖路通往居■民区的路口及道路两侧满是积水,积水还夹杂着各■种生活垃圾。骑行电动车■或摩托车的市民都行驶在■道路中央,与机动车抢道而行。花园社区30号楼居■民黄先生得知记者正在了■解道路积水的事情,拉着■记者说“你看看,雨水排■不出去都积在路上,居民■出行都是问题。我曾经和其他居民查看过积水原■因,发现排水口都被堵上■了,导致排水缓慢。”■附近一位居民用木枝■捅了捅排水口说“你看,■水根本不向排水道内淌,■怎么能指望这些积水尽快■排完呢?
■■则可以采用上述实施例中记载的技术方案,将花边字符■进行删除。综上所述,本发明实施例中,通过对版式文档中包含的文字或/字符的排版方向及相应的字形相关信息的比对,准确地识别出版式文档的版面中存在的花边字符,并进行过滤删除,这样,便去除了花边字符对版面文档的文章内容的影响,最大程序地还原了文章内容的阅读顺序,从而提高了文章内容的反解质量和标引效率,使版式文档的版面显得新颖、美观,增加版面的灵活性和促进版面的完整性,并且在一定程度上节省了数据加工成本。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1.一种删除版式文档中的花边字符的方法,其特征在于,包括导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符;依次确定所述原始块集合中每一个原始块的排版方向及字形相关信息; 根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块; 将包含花边字符的原始块从所述原始块集合中删除。
2.如权利要求1所述的方法,其特征在于,所述字形相关信息包括原始块中包含的文字或字符的字体类型、字符类型、字号大小、以及该原始块的序号和坐标信息。
3.如权利要求1或2所述的方法,其特征在于,确定任意一个原始块的排版方向时,若出现以下情况中的一种或任意组合,则确定所述任意一个原始块的排版方向CurBl0Ckto* 未知类型,其中,Blockem为当前读取的一个原始块,Blocknext为当前读取的Blockeur的下一个原始块Blocknext和Blockem的字体不同; Blocknext和Block·的序号不连续; Blocknext和Block·的块间距小于设定阈值A ; Blocknext和Blockem的字号差值大于设定阈值B ; Blocknext和Blockem的高度差值大于设定阈值C ; Blocknext和Blockem的宽度差值大于设定阈值D ;Blocknext和Block·的显示字符数目不同,或者,Blocknext和Block·的显示字符数目相同,但每个显示字符的编码不相同。
4.如权利要求1或2所述的方法,其特征在于,确定任意一个原始块的排版方向时,包括若Blocknext和Blockem的外切矩形的上边沿的坐标差值未超过设定阈值E,且Blockcm 的外切矩形的右边沿和Blocknext的外切矩形的左边沿的坐标差值未超过设定阈值F,则 CurBlockdir为横排从左到右的类型;若Blocknext和Blockem的外切矩形的上边沿的坐标差值未超过设定阈值E,且Blockcm 的左边界和Blocknext的外切矩形的右边沿的坐标差值未超过设定阈值G,则CurBl0Ckto为横排从右到左的类型;若Blocknext和Blockem的外切矩形的上边沿的坐标差值未超过设定阈值E,且上述两种情况均不符合,则CurBl0Ckto为未知类型;其中,Blockeur为当前读取的任意一个原始块,Blocknext为当前读取的任意一个原始块的下一个原始块,CurBlockdir为Block·的排版方向。
5.如权利要求1或2所述的方法,其特征在于,确定任意一个原始块的排版方向时,包括若Blocknext和Blockem的外切矩形左边沿的坐标差值未超过设定阈值H,且Blockeur的外切矩形上边沿的坐标大于Blocknext的外切矩形上边沿的坐标,则CurBl0Ckto为竖排从下到上的类型;若Blocknext和Blockeur的外切矩形左边沿的坐标差值未超过设定阈值H,且Blocknext 的外切矩形上边沿的坐标大于Blockeur的外切矩形上边沿的坐标,则CurBl0Ckto为竖排从下到上的类型;若Blocknext和Blockem的外切矩形左边沿的坐标差值未超过设定阈值H,且上述两种情况均不符合,则CurBl0Ckto为未知类型;其中,Blockeur为当前读取的任意一个原始块,Blocknext为当前读取的任意一个原始块的下一个原始块,CurBlockdir为Block·的排版方向。
6.如权利要求2所述的方法,其特征在于,根据各原始块的排版方向及相应的字形相关信息,确定包含花边字符的原始块时,包括若同时满足JreBlockdir和CurBlockdir不相同、PreBlockdir不是未知类型且Blocknext 的序号与MartIndex的序号的差值大于设定阈值Dvalue、I3reBlockto是竖排从下到上或竖排从上到下的类型、与Blockcm的字符相同的原始块的数目大于设定阈值N_t、以及 Blocknext的序号与MartIndex的序号差值大于设定阈值Nvalue,则确定Blockeur为花边字符,记录Blockeur的字符并更新该字符出现次数,以及记录Blockeur的字体并更新该字体的出现次数;其中,PreBlockdir为读取的当前原始块的上一个原始块的排版类型,StartIndex为字符连续相同的原始块的起始位置。
7.如权利要求2所述的方法,其特征在于,根据各原始块的排版方向及相应的字形相关信息,确定包含花边字符的原始块时,包括若仅满足JreBlockdiJn CurBlockto不相同、PreBlockto不是未知类型且Blocknext的序号与MartIndex的序号的差值大于设定阈值Dvalue,则进一步判断是否满足TreBlockto 是竖排从下到上或竖排从上到下的类型,且Blockcm的显示字符数目大于1时,若是,则确定Block·为非花边字符,并将MartIndex设置为Block·的序号,否则,确定Block·为花边字符,并记录Block·的字体并更新该字体的出现次数;其中,PreBlockdir为读取的当前原始块的上一个原始块的排版类型,StartIndex为字符连续相同的原始块的起始位置。
8.如权利要求6或7所述的方法,其特征在于,将包含花边字符的任意一个原始块从所述原始块集合中删除,包括若确定当前读取的原始块Blockeur'包含的字体已被记录,且Blockeur'和与Blockcu/ 相邻的下一个原始块Blocknrart’包含的字符不相同,则在进一步确定满足nSameCharCoimt 大于设定阈值Same。_t,且Block·’包含的字符已被记录时,将序号在[MartPos,Block·’ 的序号]之间的原始块从所述原始块集合中删除;其中,StartPos为花边字符的起始位置,nSameCharCount为字符连续相同的原始块的数目。
9.如权利要求6或7所述的方法,其特征在于,将包含花边字符的任意一个原始块从所述原始块集合中删除,包括若确定当前读取的原始块Block·’包含的字体已被记录,且Blockeu/和与Blockeu/相邻的下一个原始块Blockmxt'包含的字符不相同,则在进一步确定不满足nSameCharCoimt 大于设定阈值Same。_t,且Blockeu/包含的字符已被记录时,获取已记录的Blockeu/的字体出现的次数Count,并在确定Count不大于设定阈值Max。_t时,将序号在[MartPos, Blockcur'的序号]之间的原始块从所述原始块集合中删除;其中,StartPos为花边字符的起始位置,nSameCharCount为字符连续相同的原始块的数目。
10.一种删除版式文档中的花边字符的装置,其特征在于,包括导入单元,用于导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合, 一个原始块中包含至少一个文字或字符;第一确定单元,用于依次确定所述原始块集合中每一个原始块的排版方向及字形相关 fn息;第二确定单元,用于根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;删除单元,用于将包含花边字符的原始块从所述原始块集合中删除。
11.如权利要求10所述的装置,其特征在于,所述第一确定单元确定所述字形相关信息时,确定原始块中包含的文字或字符的字体类型、字符类型、字号大小、以及该原始块的序号和坐标信息。
12.如权利要求11所述的装置,其特征在于,所述第二确定单元根据各原始块的排版方向及相应的字形相关信息,确定包含花边字符的原始块时,若同时满足TreBlockdir和CurBlockdir不相同、PreBlockdir不是未知类型且Blocknext 的序号与MartIndex的序号的差值大于设定阈值Dvalue、I3reBlockto是竖排从下到上或竖排从上到下的类型、与Blockcm的字符相同的原始块的数目大于设定阈值N_t、以及 Blocknext的序号与MartIndex的序号差值大于设定阈值Nvalue,则确定Blockeur为花边字符,记录Blockeur的字符并更新该字符出现次数,以及记录Blockeur的字体并更新该字体的出现次数。
13.如权利要求11所述的装置,其特征在于,所述删除单元根据各原始块的排版方向及相应的字形相关信息,确定包含花边字符的原始块时,若仅满足JreBlockto和CurBlockto不相同、PreBlockto不是未知类型且Blocknext的序号与MartIndex的序号的差值大于设定阈值Dvalue,则进一步判断是否满足TreBlockto 是竖排从下到上或竖排从上到下的类型,且Blockcm的显示字符数目大于1时,若是,则确定Block·为非花边字符,并将MartIndex设置为Block·的序号,否则,确定Block·为花边字符,并记录Block·的字体并更新该字体的出现次数;其中,PreBlockdir为读取的当前原始块的上一个原始块的排版类型,StartIndex为文档起始位置,StartIndex为字符连续相同的原始块的起始位置。
14.如权利要求12或13所述的装置,其特征在于,所述删除单元将包含花边字符的任意一个原始块从所述原始块集合中删除时,若确定当前读取的原始块Block。u/包含的字体已被记录,且Block·’和与Block·’相邻的下一个原始块Blocknext'包含的字符不相同, 则再进一步确定满足nSameCharCount大于设定阈值Same。_t,且Block·’包含的字符已被记录时,将序号在[MartPos,Blockcur'的序号]之间的原始块从所述原始块集合中删除;其中,StartPos为花边字符的起始位置,nSameCharCount为字符连续相同的原始块的数目。
15.如权利要求12或13所述的装置,其特征在于,所述删除单元将包含花边字符的任意一个原始块从所述原始块集合中删除时,若确定当前读取的原始块Block。u/包含的字体已被记录,且Block·’和与Block·’相邻的下一个原始块Blocknext'包含的字符不相同, 则在进一步确定不满足nSameCharCount大于设定阈值Same。_t,且Block·’包含的字符已被记录时,获取已记录的Blockeu/的字体出现的次数Count,并在确定Count不大于设定阈值Max。_t时,将序号在[MartPos,Blockcur'的序号]之间的原始块从所述原始块集合中删除;其中,StartPos为花边字符的起始位置,nSameCharCount为字符连续相同的原始块的数目。
全文摘要
本发明涉及文档处理技术,公开了一种删除版式文档中的花边字符的方法及装置,用以提高版式文档的反解质量。该方法为导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符,依次确定所述原始块集合中每一个原始块的排版方向及字形相关信息,根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;将包含花边字符的原始块从所述原始块集合中删除;便去除了花边字符对版面文档的文章内容的影响,最大程序地还原了文章内容的阅读顺序,从而提高了文章内容的反解质量和标引效率,并且在一定程度上节省了数据加工成本。
文档编号G06F17/21GK102567291SQ201010624180
公开日2012年7月11日 申请日期2010年12月31日 优先权日2010年12月31日
发明者徐剑波, 朱兴, 董宁, 黄文娟 申请人:北京方正阿帕比技术有限公司, 北大方正集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1