一种自动生成图码清单的方法及装置的制造方法

文档序号:9375685阅读:213来源:国知局
一种自动生成图码清单的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机排版技术领域,特别涉及一种自动生成图码清单的方法及装 置。
【背景技术】
[0002] 目前,在印刷排版行业中,出版社收到大量的来稿,这些来稿的图片往往达不到印 刷标准,或者配图与文档内容不协调,这样出版社就需要重新对这些文档交由美术编辑重 新进行配图并进行排版。
[0003] 传统方法中需要美术编辑投入大量精力人工干预,逐个将稿件中的图片拷贝粘贴 到一个新的文档之中,这种方法实现图码清单提取方法缺点是:人工费时费力,而且人工的 方法容易造成出错率高,出错难以验证导致得不到及时的解决,间接降低了出版周期效率, 同时也提高了企业成本。

【发明内容】

[0004] (一)要解决的技术问题
[0005] 本发明要解决的技术问题是:如何提高图码清单的提取效率,并降低提取的出错 率。
[0006] (二)技术方案
[0007] 为解决上述技术问题,本发明提供了一种自动生成图码清单的方法,所述方法包 括以下步骤:
[0008] 遍历待处理文档,并进行元数据分析,以提取所述待处理文档中的图片数据;
[0009] 根据图片属性对提取的图片数据进行过滤;
[0010] 将过滤后的图片数据生成图码清单。
[0011] 其中,所述图片属性包括:图片分辨率、图片格式和图片类型中的至少一个。
[0012] 其中,所述根据图片属性对提取的图片数据进行过滤包括:根据图片属性来定义 图片过滤文件,所述图片过滤文件为XML格式,通过所述图片过滤文件来对提取的图片数 据进行过滤。
[0013] 其中,所述遍历待处理文档包括:根据所述待处理文档的格式来选择解析器,通过 选择的解析器对所述待处理文档进行遍历。
[0014] 其中,所述将过滤后的图片数据生成图码清单包括:通过将过滤后的图片数据根 据在所述待处理文档中的位置生成图码清单。
[0015] 本发明还公开了一种自动生成图码清单的装置,所述装置包括:
[0016] 遍历分析模块,用于遍历待处理文档,并进行元数据分析,以提取所述待处理文档 中的图片数据;
[0017] 过滤模块,用于根据图片属性对提取的图片数据进行过滤;
[0018] 清单形成模块,用于将过滤后的图片数据生成图码清单。
[0019] 其中,所述图片属性包括:图片分辨率、图片格式和图片类型中的至少一个。
[0020] 其中,所述过滤模块,进一步用于根据图片属性来定义图片过滤文件,所述图片过 滤文件为XML格式,通过所述图片过滤文件来对提取的图片数据进行过滤。
[0021] 其中,所述遍历分析模块,进一步用于根据所述待处理文档的格式来选择解析器, 通过选择的解析器对所述待处理文档进行遍历。
[0022] 其中,所述清单形成模块,进一步用于通过将过滤后的图片数据根据在所述待处 理文档中的位置生成图码清单。
[0023] (三)有益效果
[0024] 本发明提供了一种自动生成图码清单的方法及装置,从而能够快速生成图码清 单,提高了图码清单的提取效率,并降低了提取图片的出错率。
【附图说明】
[0025] 图1是本发明一种实施方式的自动生成图码清单的方法流程图;
[0026] 图2是进行元数据分析所提取的图片数据的示意图;
[0027] 图3(a)是按照图1所示的方法所生成的图码清单第1页的示意图;
[0028] 图3(b)是按照图1所示的方法所生成的图码清单第2页的示意图;
[0029] 图3(c)是按照图1所示的方法所生成的图码清单第3页的示意图;
[0030] 图4是本发明一种实施方式的自动生成图码清单的装置的结构框图。
【具体实施方式】
[0031] 下面结合附图和实施例,对本发明的【具体实施方式】作进一步详细描述。以下实施 例用于说明本发明,但不用来限制本发明的范围。
[0032] 图1是本发明一种实施方式的自动生成图码清单的方法流程图;参照图1,所述方 法包括以下步骤:
[0033] 遍历待处理文档,并进行元数据分析,以提取所述待处理文档中的图片数据;
[0034] 根据图片属性对提取的图片数据进行过滤;
[0035] 将过滤后的图片数据生成图码清单。
[0036] 为保证过滤的效果,优选地,所述图片属性包括:图片分辨率、图片格式和图片类 型等属性中的至少一个,所述图片类型分为普通图片、数学公式图片和表格图片,所述表格 图片为文档中存在于表格中间的图像文件。
[0037] 为便于实现图片过滤,优选地,所述根据图片属性对提取的图片数据进行过滤包 括:根据图片属性来定义图片过滤文件,所述图片过滤文件为XML(即可扩展标记语言)格 式,通过所述图片过滤文件来对提取的图片数据进行过滤;本实施方式中,图片过滤文件采 用符合w3c标准的规则XML格式。
[0038] 由于不同的文档格式,需要由不同的解析器来实现遍历,优选地,所述遍历待处理 文档包括:根据所述待处理文档的格式来选择解析器,通过选择的解析器对所述待处理文 档进行遍历;例如:对word文档,可采用office API对文档中的图片进行逐个遍历,并通过 元数据识别模块逐一识别图片的元数据信息,以获取图片数据。
[0039] 为实现图码清单中图片的顺序不被打乱,优选地,所述将过滤后的图片数据生成 图码清单包括:通过将过滤后的图片数据根据在所述待处理文档中的位置生成图码清单。
[0040] 实施例
[0041] 本实施例结合【具体实施方式】,以下以最为常见的Word文档为例来说明本发明,但 不限定本发明的保护范围。
[0042] 本实施例的上述步骤可具体化为下列步骤:
[0043] 步骤101 :定义图片过滤文件,本实施例的源代码如下:
[0044]
[0045] 其甲,imageMinPix为1卒现图傢傢系的最小芥限值,为J提咼迓源的双卒,1尤选地, imageMinPix
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1