文档文件生成装置及文档文件生成方法

文档序号:8487764阅读:235来源:国知局
文档文件生成装置及文档文件生成方法【
技术领域
】[0001]本发明涉及一种文档文件生成装置及文档文件生成方法,其通过对字符识别获取的原稿字符图像进行电子化,生成F1DF(PortableDocumentFormat)等格式的文档文件。【
背景技术
】[0002]PDF(PortableDocumentFormat)格式是一种电子文件规格。在PDF格式的文件(以下称为PDF文件)中,文档内所用字体信息可以嵌入到该PDF文件自身内。因此,嵌入字体的PDF文件在其制作环境以外,亦可使用文档中嵌入的字体,按照编者的意愿进行描绘,即显示或印刷。[0003]此外,在使用PDF对文档进行电子化时,为控制文件大小,通常使用高度压缩格式。即,对图像中包含的文字或图形等各个对象分别进行图像层(图层)识别,再对每个图层中包含的对象进行相应的图像处理和图像压缩。如此一来,可同时实现高清画质和高度压缩两种效果。[0004]同时,作为使TOF中呈现的字符图像等更为清晰美观的一种方法,可对字符图像进行矢量化操作。然而,在将字符图像矢量化时,需要将矢量化后的字体数据的描绘处理载入PDF文件,这将使其相对文本数据变得过大。[0005]为消除该缺陷,可考虑使用如专利文献I中所示的文档制作方法。即,专利文献I中提出的文档制作方法,将作为是否在文档文件中嵌入字体的衡量标准的字体名称及字号即字体大小的阈值作为表格输入,从处理对象的原数据中获取其使用的字体名称及字号,如果原数据中使用的字体名称及字号已登录在表格中,则将原数据中的字号与表格中的字号阈值进行比较,如存在字号大于阈值的字符,则决定将其字体嵌入。【
发明内容】[0006]发明要解决的课题[0007]上述专利文献I中,由于在制作可包含字体信息的文档信息时不仅关注字体名称,也关注字体字号即字体大小,因此制作的文档文件的大小可以缩小。[0008]然而,如要使每个字体均具有字号等,那么每个字体都需要一个格式。随着注册的字体数量的增加,将会出现文件过大的问题。[0009]本发明的目的在于,鉴于以上情况,提供一种文件文档生成装置及文档文件生成方法,在保持文件大小不变的情况下,制作出图像更为清晰美观的文档文件。[0010]解决课题的方法[0011]本发明的文档文件生成装置是一种生成将通过字符识别获取的原稿字符图像进行电子化的文档文件的装置,其特征在于具备:矢量化单元,其对所述字符图像进行矢量化;矢量化处理控制单元,其对该矢量化单元的矢量化处理进行控制;其中,所述矢量化处理控制单元在所述矢量化处理开始前的第I阶段,根据所述字符图像的字符数及字符大小计算出第I文件的大小,在所述矢量化处理执行中即第2阶段,通过比对由所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标,提取字符图像,并根据该字符图像的字符数及字符大小计算出第2文件的大小,在所述矢量化处理完成后的第3阶段,根据所述字符图像的字符数及所述矢量化的数据计算出第3文件的大小,在所述第I阶段至第3阶段中,所述第I至第3文件的大小小于所述原稿文件的大小,则生成写入有通过所述矢量化单元进行矢量化后的数据的矢量化文件。[0012]还有,所述矢量化处理控制单元的特征在于,具有:计数单元,其对通过所述字符识别获取的原稿的字符图像,按照每个字符图像分别进行计数;文件大小计算比较单元,其计算所述文件大小并进行比较;以及,图像处理单元,其生成所述矢量化文件或文档文件;其中,所述文件大小计算比较单元,在所述第I阶段,通过所述字符图像的字符数与各个字符图像大小的乘积计算出第I文件,在所述第2阶段,通过比对所述字符识别获取的字符坐标与所述矢量化的数据中包含的字符坐标提取目标字符,并通过所述字符图像的字符数与该被提取的目标字符的字体大小的乘积计算出第2文件,在所述第3阶段,通过所述字符图像的字符数与所述矢量化的数据的乘积计算出第3文件的大小,并在所述第I阶段、所述第2阶段或所述第3阶段的任一阶段中将所述第I至第3文件的大小与所述原稿文件的大小进行比较;其中,所述图像处理单元,在所述第I阶段至第3阶段中,所述第I至第3文件的大小小于所述原稿文件的大小的情况下,将生成所述矢量化文件,在所述第I阶段、所述第2阶段或所述第3阶段的任一阶段中所述第I至第3文件的大小大于所述原稿文件的大小的情况下,将中断之后的处理,遵循所述原稿文件的文件格式生成文档文件。[0013]还有,所述文件大小计算比较单元的特征在于,通过所述计数单元得出的各个字符图像的合计字符数与平均了各个字符图像大小的平均字符图像大小的乘积,计算所述第I文件的大小。[0014]还有,所述图像处理单元的特征在于,,通过比对所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标,将一致的字符图像的矢量化数据注册至字体词典中,并利用注册后的矢量化数据生成所述矢量化文件。[0015]还有,所述图像处理单元的特征在于,将与通过所述字符识别获取的字符图像的图型中得出的特征量相一致的字符图像的矢量化数据注册至字体词典中,并利用该注册后的矢量化数据生成所述矢量化文件。[0016]还有,在所述字体词典中进行注册时,其特征在于,对于已注册完的字符不进行注ΠΠ.WsO[0017]还有,本发明的文档文件生成方法的特征在于,其生成文档文件,该文档文件对通过字符识别获取的原稿字符图像进行了数据化,其特征在于具有:通过矢量化单元对所述字符图像进行矢量化处理的工序;以及,通过矢量化处理控制单元对该矢量化单元的矢量化处理进行控制的工序;其中,所述矢量化处理控制单元,在所述矢量化处理开始前的第I阶段,根据所述字符图像的字符数与字符大小计算出第I文件的大小,在所述矢量化处理执行中即第2阶段,通过比对由所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标提取字符图像,并根据该字符图像的字符数与字符大小计算出第2文件的大小,在所述矢量化处理完成后的第3阶段,根据所述字符图像的字符数与所述矢量化后数据计算出第3文件的大小,在所述第I至第3阶段中,如果所述第I至第3文件的大小小于所述原稿文件的大小,则生成写入有通过所述矢量化单元进行矢量化后的数据的矢量化文件。[0018]还有,所述矢量化处理控制单元的特征在于,具有:通过计数单元对由所述字符识别获取的原稿字符图像,按照每个字符图像分别进行计数的工序;通过文件大小计算比较单元计算所述文件的大小并进行比较的工序;以及,通过图像处理单元生成所述矢量化文件或文档文件的工序;其中,所述文件大小计算比较单元,在所述第I阶段,通过所述字符图像的字符数与各个字符图像大小的乘积计算出第I文件,在所述第2阶段,通过比对所述字符识别获取的字符坐标与所述矢量化的数据中包含的字符坐标提取目标字符,并通过所述字符图像的字符数与该被提取的目标字符的字体大小的乘积计算出第2文件,在所述第3阶段,通过所述字符图像的字符数与所述矢量化的数据的乘积计算出第3文件的大小,并在所述第I阶段、所述第2阶段或所述第3阶段的任一阶段中将所述第I至第3文件的大小与所述原稿文件的大小进行比较;其中,所述图像处理单元,在所述第I阶段至第3阶段中,所述第I至第3文件的大小小于所述原稿文件的大小的情况下,将生成所述矢量化文件,在所述第I阶段、所述第2阶段或所述第3阶段的任一阶段中所述第I至第3文件的大小大于所述原稿文件的大小的情况下,将中断之后的处理,遵循所述原稿文件的文件格式生成文档文件。[0019]还有,所述文件大小计算比较单元的特征在于,通过所述计数单元得出的各个字符图像的合计字符数与平均了各个字符图像大小的平均字符图像大小的乘积,计算所述第I文件的大小。[0020]还有,所述图像处理单元的特征在于,通过比对所述字符识别获取的字符坐标与所述矢量化后数据中包含的字符坐标,将一致的字符图像的矢量化数据注册至字体词典中,并利用注册后的矢量化数据生成所述矢量化文件。[0021]所述图像处理单元的特征在于,将与通过所述字符识别获取的字符图像的图型中得出的特征量相一致的字符图像的矢量化数据注册至字体词典中,并利用该注册后的矢量化数据生成所述矢量化文件。[0022]还有,在所述字体词典中进行注册时,其特征在于,对于已注册完的字符不进行注ΠΠ.WsO[0023]根据本发明中的文档文件生成装置及文档文件生成方法,在字符图像矢量化处理开始前的第I阶段,根据字符图像的字符数及字号计算出第I文件的大小;在进行字符图像矢量化处理的过程中的第2阶段,通过对字符识别获取的字符坐标和矢量化后数据中包含的字符坐标进行比对,根据提取的字符图像的字符数及字号当前第1页1 2 3 4 
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1