一种自动生成图码清单的方法及装置的制造方法_2

文档序号:9375685阅读:来源:国知局
定义为图像宽度的最小界限值。
[0046] 其中,mathType定义为是否过滤文档中的数学公式图片(如mathType数学公式 图片)。当其value值为"True"时,对数学公式图片进行保留,否则进行过滤。
[0047] 其中,isTablePic定义为是否过滤文档中的表格图片。当其value值为"True" 时,对表格图片进行保留,否则进行过滤。
[0048] 其中,types定义为支持的图片格式,本实施例中,可支持"jpg"、"tiff"、"png"& "wmf"这四种图片格式。
[0049] 步骤102 :生成步骤101所定义的图片过滤文件。
[0050] 步骤201 :提取word文档中的所有图片文件,参照图2,本实施例采用Word所提供 的API函数获取文档中的所有图,具体代码片段示例如下:
[0051]

[0053] 步骤202 :针对独立成段的普通图片和表格图片结合上下文分析获取其对应的图 题和表题。
[0054] 普通图片:指文档中的内嵌或者浮动的非表格内的图像。
[0055] 表格图片:指文档中存在于表格中间的图像文件。
[0056] 图题和表题的提取方式为:如果是独立成普通图片,提取图片后的第一个段落为 图题内容;如果是表格图片,提取表格前的第一个段落为表题内容;当然该提取方式也可 以根据实际情况进行调整。
[0057] 对应该提取方式的具体编码如下:
[0058]

[0060] 步骤301 :根据步骤201提取的图片集合及步骤102生成的图片过滤文件,对图片 集合进行过滤,采用遍历图像并比较的方法获取需要输出的图片数据,所述图片数据包括: 图片、图题及表题。
[0061] 步骤401 :将步骤301获得的图片数据根据在所述待处理文档中的位置生成图码 清单,如图3 (a)~3 (c)所示,3 (a)~3 (c)的图片与图2并不对应,图2为另一文档的图片 数据的示意图,为说明图片数据所包含的内容。
[0062] 本发明还公开了一种自动生成图码清单的装置,参照图4,所述装置包括:
[0063] 遍历分析模块,用于遍历待处理文档,并进行元数据分析,以提取所述待处理文档 中的图片数据;
[0064] 过滤模块,用于根据图片属性对提取的图片数据进行过滤;
[0065] 清单形成模块,用于将过滤后的图片数据生成图码清单。
[0066] 优选地,所述图片属性包括:图片分辨率、图片格式和图片类型中的至少一个。
[0067] 优选地,所述过滤模块,进一步用于根据图片属性来定义图片过滤文件,所述图片 过滤文件为XML格式,通过所述图片过滤文件来对提取的图片数据进行过滤。
[0068] 优选地,所述遍历分析模块,进一步用于根据所述待处理文档的格式来选择解析 器,通过选择的解析器对所述待处理文档进行遍历。
[0069] 优选地,所述清单形成模块,进一步用于通过将过滤后的图片数据根据在所述待 处理文档中的位置生成图码清单。
[0070] 以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通 技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有 等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
【主权项】
1. 一种自动生成图码清单的方法,其特征在于,所述方法包括以下步骤: 遍历待处理文档,并进行元数据分析,以提取所述待处理文档中的图片数据; 根据图片属性对提取的图片数据进行过滤; 将过滤后的图片数据生成图码清单。2. 如权利要求1所述的方法,其特征在于,所述图片属性包括:图片分辨率、图片格式 和图片类型中的至少一个。3. 如权利要求2所述的方法,其特征在于,所述根据图片属性对提取的图片数据进行 过滤包括:根据图片属性来定义图片过滤文件,所述图片过滤文件为XML格式,通过所述图 片过滤文件来对提取的图片数据进行过滤。4. 如权利要求1所述的方法,其特征在于,所述遍历待处理文档包括:根据所述待处理 文档的格式来选择解析器,通过选择的解析器对所述待处理文档进行遍历。5. 如权利要求1所述的方法,其特征在于,所述将过滤后的图片数据生成图码清单包 括:通过将过滤后的图片数据根据在所述待处理文档中的位置生成图码清单。6. -种自动生成图码清单的装置,其特征在于,所述装置包括: 遍历分析模块,用于遍历待处理文档,并进行元数据分析,以提取所述待处理文档中的 图片数据; 过滤模块,用于根据图片属性对提取的图片数据进行过滤; 清单形成模块,用于将过滤后的图片数据生成图码清单。7. 如权利要求6所述的装置,其特征在于,所述图片属性包括:图片分辨率、图片格式 和图片类型中的至少一个。8. 如权利要求7所述的装置,其特征在于,所述过滤模块,进一步用于根据图片属性来 定义图片过滤文件,所述图片过滤文件为XML格式,通过所述图片过滤文件来对提取的图 片数据进行过滤。9. 如权利要求6所述的装置,其特征在于,所述遍历分析模块,进一步用于根据所述待 处理文档的格式来选择解析器,通过选择的解析器对所述待处理文档进行遍历。10. 如权利要求6所述的装置,其特征在于,所述清单形成模块,进一步用于通过将过 滤后的图片数据根据在所述待处理文档中的位置生成图码清单。
【专利摘要】本发明公开了一种自动生成图码清单的方法及装置,属于计算机排版技术领域,所述方法包括以下步骤:遍历待处理文档,并进行元数据分析,以提取所述待处理文档中的图片数据;根据图片属性对提取的图片数据进行过滤;将过滤后的图片数据生成图码清单。本发明提供了一种自动生成图码清单的方法及装置,从而能够快速生成图码清单,提高了图码清单的提取效率,并降低了提取图片的出错率。
【IPC分类】G06F17/30
【公开号】CN105095297
【申请号】CN201410207349
【发明人】杨勇
【申请人】北大方正集团有限公司, 北京北大方正电子有限公司
【公开日】2015年11月25日
【申请日】2014年5月16日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1