对流格式文档中的布局结构元素进行色彩编码的制作方法

文档序号:6498722阅读:131来源:国知局
对流格式文档中的布局结构元素进行色彩编码的制作方法
【专利摘要】提供了色彩编码引擎和比较引擎。色彩编码引擎可被利用来检测流格式文档中的逻辑布局对象属性,并将唯一性的色彩应用于与每一逻辑布局对象属性相关联的文本元素。得到的经色彩编码的文档可被保存为目标流格式文档。目标流格式文档可被转换成固定格式文档,并随后被转换引擎转换成流格式文档。得到的经转换流格式文档可被保存为输出流格式文档。比较引擎可被利用来将输出流格式文档和目标流格式文档进行比较以确定布局信息是否已在文档转换过程中被正确地保留。
【专利说明】对流格式文档中的布局结构元素进行色彩编码
[0001] 置量
[0002] 流格式文档和固定格式文档被广泛使用且具有不同的目的。流格式文档使用诸如 章节、段落、列和表之类的复杂逻辑格式化对象来组织文档。结果,流格式文档提供了灵活 性且容易修改,使得它们适用于涉及被频繁更新或受到相当多编辑的文档的任务。相反,固 定格式文档使用诸如文本串、路径和图像之类的基本物理布局元素来组织文档以保留原始 外观。固定格式文档提供了一致且精确的格式布局,使得它们适用于涉及不被频繁或大量 改变的或其中需要统一性的文档的任务。这样的任务的示例包括文档归档、高质量再现、以 及用于商业发布和印刷的源文件。固定格式文档通常从流格式源文档中创建。固定格式文 档还包括物理(即,纸质)文档的数字化再现(例如,扫描和照片)。
[0003] 在其中需要编辑固定格式文档但流格式源文档不可用的情况下,固定格式文档必 须被转换成流格式文档。转换涉及解析该固定格式文档并将来自固定格式文档的基本物理 布局元素变换成在流格式文档中使用的更复杂的逻辑元素。
[0004] 在针对准确性对转换过程进行测试时,在进行了到流格式文档的固定格式文档转 换之后的输出可被测试以确定布局信息是否从固定格式文档中被正确地提取。固定格式文 档具有有限的工具用于保留文档布局信息。目前,对一些布局特征的测试可能需要对这些 布局特征进行人工视觉检查。例如,测试者可观看转换成流格式文档之前的文档和转换之 后的文档以查看特征(诸如,段落)是否是相同的并因此被正确地转换。如可领会的,人工 视觉检查可能是低效的并易引起人为错误。例如,测试者可能观看经转换文档中的标题,并 可确定它看上去好像它在页面顶部的正确位置中;然而该标题可能不在该文档的标题区域 中。
[0005] 本发明正是对于这些和其他考虑事项而做出的。
[0006] 摄述
[0007] 本发明的各实施例通过利用色彩将与文档的布局结构特征和属性有关的信息嵌 入到该文档的内容中来解决以上和其他问题。
[0008] 色彩编码可被利用来在文档中的不同布局结构元素之间进行区分。色彩编码引擎 可被利用来检测流格式文档中的逻辑布局对象属性,并将唯一的色彩应用于与每一逻辑布 局对象属性相关联的文本元素。得到的经色彩编码的文档可被保存为目标流格式文档并被 转换成固定格式文档。固定格式文档可被转换引擎转换成流格式文档并被保存为输出流格 式文档。比较引擎可被利用来将输出流格式文档和目标流格式文档进行比较以确定布局信 息是否已在文档转换过程中被正确地保留。
[0009] 一个或多个实施例的详情在附图及以下描述中阐述。通过阅读以下详细描述并查 阅相关联的附图,其它特征和优点将是显而易见的。应该理解,下述详细的描述仅是说明性 的,而不是对所要求保护的发明的限制。
[0010] 提供本
【发明内容】
以便以简化的形式介绍将在以下【具体实施方式】中进一步描述的 一些概念。本
【发明内容】
并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在 用于帮助确定所要求保护的主题的范围。
[0011] 附图简沐
[0012] 合并在本发明中并构成其一部分的附图示出本发明的各种实施方式。在附图中:
[0013] 图1是包括文档转换器的系统的一个实施例的框图;
[0014] 图2是示出文档处理器的一个实施例的操作流程的框图;
[0015] 图3是包括色彩编码引擎和比较引擎的往返方法的一个实施例的框图;
[0016] 图4是对示例目标文档及输出文档中的经色彩编码的逻辑布局对象进行比较的 图示;
[0017] 图5是对示例目标文档及输出文档中的经色彩编码的逻辑布局对象属性进行比 较的图示;
[0018] 图6是示例报告的图示;
[0019] 图7是用于利用色彩编码来检测在从固定格式文档转换成的流格式文档中的布 局信息的方法的流程图;
[0020] 图8是示出可用来实施本发明的各实施例的计算设备的示例物理组件的框图;
[0021] 图9A和9B是可用来实施本发明的各实施例的移动计算设备的简化框图;以及
[0022] 图10是可用来实施本发明的各实施例的分布式计算系统的简化框图。
[0023] 详细描沐
[0024] 如上简要所述,本发明的实施例涉及提供对流格式文档中的布局结构元素的色彩 编码。流格式文档可被转换成固定格式文档,并随后被转换回流格式文档。根据各实施例, 色彩编码可被利用来在可在比较测试中进行比较的各布局结构元素之间进行区分。
[0025] 下面的详细描述参考各个附图。只要可能,就在附图和以下描述中使用相同的附 图标记来指示相同或相似的元件。尽管可能描述了本发明的各实施方式,但修改、改编和其 他实现也是可能的。例如,可以对附图中所示出的要素进行置换、添加、或修改,且可以通过 对所公开的方法置换、重新排序、或添加阶段来修改此处所描述的方法。因此,下文的详细 描述不限制本发明,相反,本发明的合适范围由所附权利要求来限定。
[0026] 现在参考其中相同的标号代表相同的元素的附图,描述各实施例。图1示出了包 含在计算设备104上执行的文档转换器102的系统的一个实施例。文档转换器102使用解 析器110、文档处理器112以及串行化器114将固定格式文档106转换成流格式文档108。 解析器110从固定格式文档106中读取和提取数据。从固定格式文档中提取的数据被写入 可由文档处理器112和串行化器114访问的数据存储116。文档处理器112使用一个或多 个检测和/或重构引擎来分析该数据并将该数据变换成可流动元素。最后,串行化器114 将可流动元素写成可流动文档格式(例如,文字处理格式)。
[0027] 图2更加详细地示出文档处理器112的操作流程的一个实施例。文档处理器112 包括可任选的光学字符识别(OCR)引擎202、布局分析引擎204以及语义分析引擎206。数 据存储116中包含的数据包括物理布局对象208和逻辑布局对象210。在一些实施例中, 物理布局对象208和逻辑布局对象210被分层安排在编组(S卩,数据对象)的树类阵列中。 在各实施例中,页面是物理布局对象208的顶层编组,而章节是逻辑布局对象210的顶层编 组。从固定格式文档106中提取的数据一般被存储为由固定格式文档106中的包含页面来 组织的物理布局对象208。基本物理布局对象208包括文本串、图像和路径。文本串是在 页面内容流中指定当显示固定格式文档时字符的绘制位置的文本元素。图像是储存在固定 格式文档106中的光栅图像(S卩,图片)。路径描述了诸如用于构建矢量图的线、曲线(例 如,三次贝塞尔曲线)和文本轮廓等元素。逻辑布局对象210包括诸如章节、段落、列、表和 列表等可流动元素。
[0028] 处理开始的位置取决于被解析的固定格式文档106的类型。从流格式源文档直接 创建的本机固定格式文档106A包含基本物理布局元素中的一些或全部。嵌入式数据对象 由解析器提取并且可供文档转换器立即使用;但在某些情况下,微小的重新格式化或其它 微小处理被应用来组织或标准化数据。相反,通过对物理文档进行数字图像化(例如,扫描 或拍照)而创建的基于图像的固定格式文档106B中的所有信息被存储作为不带有附加数 据(即,没有文本串或路径)的一系列页面图像。在这种情况下,可任选的光学字符识别引 擎202分析每一页面图像并创建对应的物理布局对象。一旦物理布局对象208可用,布局 分析引擎204就分析固定格式文档的布局。在布局分析完成之后,语义分析引擎206用从 对物理布局对象和/或逻辑布局对象的分析中获得的语义信息来丰富逻辑布局对象。
[0029] 可针对准确性来测试固定格式文档106到流格式文档108C的转换。根据各实施 例,一个测试方法可包括往返方法。现参考图3,示出了用于确定是否已从固定格式文档 106正确地提取了逻辑布局对象210的往返方法300。如图所示,流格式文档108A(例如, 文字处理文档)可被转换304成固定格式文档106 (例如,PDF文档)。固定格式文档106 可以是经标记的或未经标记的固定格式文档。固定格式文档106可随后被转换306回流格 式文档108C。从固定格式文档106到流格式文档108C的转换306可由转换器102来执行, 如以上参考图1所描述的。
[0030] 根据各实施例,在将流格式文档108A转换304成固定格式文档106时,可以用色 彩对一种或多种类型的逻辑布局对象210进行编码。根据一个实施例,对逻辑布局对象210 进行编码可由色彩编码引擎302来执行。通过用色彩对逻辑布局对象210进行编码,描述 各种文档属性的许多绝对数可被保留,因为色彩可从不同格式转换而来,而几乎没有降级。 可被进行色彩编码的逻辑布局对象210可包括但不限于段落、章节、表、列表和字体属性。 术语"目标文档"1〇8Β在本文中可用于描述在流格式文档108B被转换304成固定格式文档 106之前的该流格式文档108B,且术语"输出文档"108C在本文中可用于描述在流格式文档 108C被从固定格式文档106转换306出后的该流格式文档108C。
[0031] 根据各实施例,色彩编码可被利用来在可在比较测试中进行比较的不同逻辑布局 对象210之间进行区分。所选类型的逻辑布局对象中的每一逻辑布局对象210 (例如,列表 中的每一个列表项、文档中的每一段落,等等)均可以用唯一性的色彩来着色。例如并如图 4所示,色彩编码可被利用来存储有关段落的信息。如图4所示,流格式文档108A中的每 一段落402、404、406、408都可以用不同的色彩来着色。例如,第一段落402可被着红色,第 二段落404可被着蓝色,第三段落406可被着绿色,且第四段落408可被着紫色。在该示例 中,色彩编码可被利用来提供可容易标识的比较特征来对目标文档108B和输出文档108C 中的各段落402、404、406、408进行比较。
[0032] 此外,色彩编码可被利用来表示与逻辑布局对象210的属性310有关的信息。例 如并如图5所示,色彩编码可被利用来在各段落对齐(属性310)之间进行区分。每一段落 对齐类型(例如,左对齐、居中对齐、右对齐和两端对齐)可以用不同的色彩来编码。例如, 第一段落502中的文本可被左对齐并被色彩编码成绿色,第二段落504中的文本可被居中 对齐并被色彩编码成棕色,第三段落506中的文本可被右对齐并被色彩编码成桔色,且第 四段落508中的文本可被两端对齐并被色彩编码成灰色。在该示例中,色彩编码可被利用 来提供可容易标识的比较特征来对目标文档108B和输出文档108C中的段落502、504、506、 508的对齐进行比较。
[0033] 回头参考图2,根据各实施例,一个或多个特征308可被选择以在比较测试中进行 比较。比较测试可包括测试文档108B、108C的子集。比较测试可由比较引擎312来执行。 比较引擎312在将输出文档108C与目标文档108B进行比较时可聚焦于所选的特征308。 可被比较的特征308可包括逻辑布局对象210 (以上参考图4描述)并可包括逻辑布局对 象210的属性310 (如以上参考图5所描述的)。可被进行色彩编码和比较的逻辑布局对 象210可包括但不限于章节、段落、列表、表和单词。下表示出了根据各实施例的可被进行 色彩编码和比较的一些逻辑布局对象210和相关联的属性310。如应领会的,该表不是逻辑 布局对象210和属性310的穷尽列表,并且各实施例不应受限于该表中包括的对象和属性。
[0034]
【权利要求】
1. 一种用于对流格式文档中的布局结构元素进行色彩编码的方法,所述方法包括: 接收流格式文档; 检测一个或多个逻辑布局对象和所述一个或多个逻辑布局对象的属性;W及 将唯一性的色彩应用于与所述一个或多个逻辑布局对象属性中的每一个相关联的文 本兀素。
2. 如权利要求1所述的方法,其特征在于,检测一个或多个逻辑布局对象和所述一个 或多个逻辑布局对象的属性包括: 接收要在比较测试中进行测试的一个或多个特征的指示;W及 检测与要测试的所述一个或多个特征相关联的一个或多个逻辑布局对象W及所述一 个或多个逻辑布局对象的属性。
3. 如权利要求1所述的方法,其特征在于,进一步包括在将唯一性的色彩应用于与所 述一个或多个逻辑布局对象属性中的每一个相关联的文本元素后,将所述流格式文档存储 为目标流格式文档。
4. 一种用于检测在从固定格式文档转换成的流格式文档中的布局结构元素的方法,所 述方法包括: 接收包括一个或多个经色彩编码的特征的目标流格式文档; 接收包括一个或多个经色彩编码的特征的输出流格式文档; 将所述目标流格式文档中的经色彩编码的特征与所述输出流格式文档中的经色彩编 码的特征进行比较;W及 确定在所述输出流格式文档中是否检测到所述目标流格式文档中的所述一个或多个 特征。
5. 如权利要求4所述的方法,其特征在于,接收输出流格式文档包括接收已被从所述 目标流格式文档转换成固定格式文档并且随后被转换成所述输出流格式文档的输出流格 式文档。
6. 如权利要求4所述的方法,其特征在于,将所述目标流格式文档中的经色彩编码的 特征与所述输出流格式文档中的经色彩编码的特征进行比较包括将所述目标流格式文档 中的一个或多个逻辑布局对象的一个或多个属性与所述输出流格式文档中的一个或多个 逻辑布局对象的相应属性进行比较。
7. 如权利要求4所述的方法,其特征在于,接收包括一个或多个经色彩编码的特征的 目标流格式文档包括接收其中唯一性的色彩被应用于与一个或多个属性中的每一个属性 相关联的文本元素的目标流格式文档,所述色彩表示所述属性的标识。
8. 如权利要求4所述的方法,其特征在于,确定在所述输出流格式文档中是否检测到 所述目标流格式文档中的所述一个或多个特征提供对所述目标流格式文档中的经色彩编 码的特征在从所述固定格式文档到所述输出流格式文档的转换期间是否已被保留的确定。
9. 如权利要求4所述的方法,其特征在于,进一步包括基于对在所述输出流格式文档 中是否检测到所述目标流格式文档中的所述一个或多个特征的确定来计算度量并生成报 告。
10. 如权利要求9所述的方法,其特征在于,计算度量包括计算精度度量。
11. 如权利要求9所述的方法,其特征在于,计算度量包括计算召回度量。
12. 如权利要求4所述的方法,其特征在于,进一步包括生成用于转换引擎的训练数 据。
13. -种用于检测在从固定格式文档转换成的流格式文档中的布局结构元素的系统, 所述系统包括: 一个或多个处理器;W及 禪合到所述一个或多个处理器的存储器,所述一个或多个处理器能用于: 接收包括一个或多个经色彩编码的特征的目标流格式文档; 接收包括一个或多个经色彩编码的特征的输出流格式文档; 将所述目标流格式文档中的经色彩编码的特征与所述输出流格式文档中的经色彩编 码的特征进行比较;W及 确定在所述输出流格式文档中是否检测到所述目标流格式文档中的所述一个或多个 特征。
14. 如权利要求13所述的系统,其特征在于,所述输出流格式文档包括已被从所述目 标流格式文档转换成固定格式文档并且随后被转换成所述输出流格式文档的输出流格式 文档。
15. 如权利要求13所述的系统,其特征在于,所述特征包括一个或多个逻辑布局对象 的一个或多个属性。
16. 如权利要求15所述的系统,其特征在于,所述目标流格式文档包括被应用于与所 述一个或多个属性中的每一个属性相关联的文本元素的唯一性的色彩,所述色彩表示所述 属性的标识。
17. 如权利要求13所述的系统,其特征在于,所述处理器进一步能用于基于对在所述 输出流格式文档中是否检测到所述目标流格式文档中的所述一个或多个特征的确定来计 算度量,所述度量提供对转换准确性的测量。
18. 如权利要求17所述的系统,其特征在于,所述度量包括精度度量。
19. 如权利要求17所述的系统,其特征在于,所述度量包括召回度量。
20. 如权利要求17所述的系统,其特征在于,所述处理器进一步能用于生成用于转换 引擎的训练数据。
【文档编号】G06K9/00GK104471588SQ201280074809
【公开日】2015年3月25日 申请日期:2012年7月20日 优先权日:2012年7月20日
【发明者】E·J·谢尔登, M·拉扎日维克, D·斯拉维斯基, M·安提克, A·托米克 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1