检测并重构固定格式文档中的东亚布局特征的制作方法

文档序号：9493680阅读：217来源：国知局

检测并重构固定格式文档中的东亚布局特征的制作方法
【专利说明】检测并重构固定格式文档中的东亚布局特征
[0001]
[0002]流格式文档和固定格式文档被广泛使用且具有不同的目的。流格式文档使用诸如章节、段落、列和表之类的复杂逻辑格式化对象来组织文档。结果，流格式文档提供了灵活性且容易修改，使得它们适用于涉及被频繁更新或受到相当多编辑的文档的任务。相反，固定格式文档使用诸如文本串、路径和图像之类的基本物理布局元素来组织文档以保留原始外观。固定格式文档提供了一致且精确的格式布局，使得它们适用于涉及不被频繁或大量改变的或其中需要统一性的文档的任务。这样的任务的示例包括文档归档、高质量再现，以及用于商业发布和印刷的源文件。固定格式文档通常从流格式源文档中创建。固定格式文档还包括物理(即，纸质)文档的数字化再现(例如，扫描和照片)。
[0003]在其中需要编辑固定格式文档但流格式源文档不可用的情况下，固定格式文档可被转换成流格式文档。转换涉及解析该固定格式文档并将来自固定格式文档的基本物理布局元素变换成在流格式文档中使用的更复杂的逻辑元素。
[0004]许多东亚语言可以是横排或竖排书写的。例如，中文、日文和韩文手稿(有时被称为CJK手稿)可以在水平或垂直方向朝向。在某些情况中，垂直写的文本可包括垂直中的水平文本，其中多个字符可水平地显示在为一个垂直字符保留的区域中。当前，当将具有垂直文本的固定格式文档转换到流格式文档时，包括垂直中的水平文本的垂直书写的文本可能不被识别，并且因此不能被正确地重构。
[0005]此外，在水平和垂直书写的东亚手稿中，包括指示单词的发音的字符的阅读帮助，在此称为ruby文本，可被包括。在水平文本中，ruby文本可置于文本行之上，而在垂直文本中，ruby文本可置于文本行之右。当前，当将固定格式文档转换到流格式文档时，ruby文本可被识别为常规文本流并且不能被正确重构并与对应基础文本相关联。
[0006]此外，各种东亚语音共享Unicode (统一代码)值的一范围，其图形表示可依赖于正被使用的特定字体。因此，当重建以东亚语言(例如，中文、日文、或韩文)书写的文档时，特定语言的确定可被执行以提供针对该语言的合适字体。
[0007]本发明正是对于这些和其他考虑事项而作出的。
[0008]概述
[0009]提供本
【发明内容】
以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。
[0010]本发明的各实施例通过提供固定格式文档中的垂直文本的检测并在将固定格式文档转换成流格式文档时重建垂直文本来解决以上和其他问题。
[0011]本发明的各实施例通过提供固定格式文档中的ruby文本的检测并在将固定格式文档转换成流格式文档时重建ruby文本来解决以上和其他问题。
[0012]本发明的各实施例通过提供固定格式文档中的垂直中的水平文本的检测并在将固定格式文档转换成流格式文档时重建垂直中的水平文本来解决以上和其他问题。
[0013]本发明的各实施例通过提供固定格式文档中的特定东亚语言的检测并在将固定格式文档转换成流格式文档时重建特定东亚语言来解决以上和其他问题。
[0014]—个或多个实施例的细节在附图和以下描述中被阐明。通过阅读下面的详细描述并参考相关联的附图，其他特征和优点将变得显而易见。要理解的是下面的详细描述仅仅是解释性的，而不是对所要求保护的发明的限制。
[0015]附图简沐
[0016]合并在本公开中并构成其一部分的附图例解说本发明的各种实施例。在附图中:
[0017]图1是包括文档转换器的系统的一个实施例的框图；
[0018]图2是示出文档处理器的一个实施例的操作流程的框图；
[0019]图3A是具有垂直文本的固定格式文档的页面的图示；
[0020]图3B是图3A的页面的示出页面的坐标原点和文本串的坐标的图示；
[0021]图4是一种用于检测固定格式文档中的垂直文本的方法的流程图；
[0022]图5A是逆时针旋转90°的图3A中的具有垂直文本的页面的图示；
[0023]图5B是具有经变换的原始坐标的图5A的经旋转的页面的图示；
[0024]图5C是图5A和5B的经旋转页面的图示，其中坐标原点移动到经旋转的页面的左上角；
[0025]图6是ruby文本的图示；
[0026]图7A和7B是一种用于检测固定格式文档中的ruby文本的方法的流程图；
[0027]图8是显示在固定格式文档中的ruby文本的图示；
[0028]图9是包括垂直中的水平的垂直文本的图示；
[0029]图10是一种用于检测垂直中的水平文本的方法的流程图；
[0030]图11是包括分开为文本串和桶的垂直文本的图示；
[0031]图12是枚举日文、韩文、和中文语言的Unicode范围的表的图示；
[0032]图13是包括专用于日文语言的字符和共享字符的段落的图示；
[0033]图14是一种用于检测固定格式文档中的东亚语言的方法的流程图；
[0034]图15是解说可用来实施本发明的各实施例的计算设备的示例物理组件的框图；
[0035]图16A和16B是可用来实施本发明的各实施例的移动计算设备的简化框图；以及
[0036]图17是可在其中实施本发明的各实施例的分布式计算系统的简化框图。
[0037]详细描沐
[0038]如上面简要描述的，本发明的各实施例涉及提供固定格式文档中的垂直文本的检测并在将固定格式文档转换成流格式文档时重建垂直文本。在检测到垂直书写的文本时，垂直文本可被旋转使得它可被处理以供布局分析。垂直书写的文本可引入专门的特征，诸如垂直中的水平文本，其中水平串可被包括在文本的垂直行中。本发明的各实施例提供固定格式文档中垂直行内的水平书写的文本片段的检测并在将固定格式文档转换成流格式文档时重建垂直中的水平文本。
[0039]本发明的各实施例还涉及提供固定格式文档中的与对应的ruby基础文本相关联的ruby文本的检测并在将固定格式文档转换成流格式文档时重建ruby文本。
[0040]此外，本发明的各实施例涉及固定格式文档中的特定东亚语言的检测并在将固定格式文档转换成流格式文档时确定为所检测的语言的文本使用什么字体。
[0041]以下详细描述参考各个附图。只要可能，就在附图和以下描述中使用相同的附图标记来指代相同或相似的元件。尽管可能描述了本发明的各实施例，但修改、改编、以及其他实现是可能的。例如，可对附图中所解说的元素进行替代、添加、或修改，并且可通过对所公开的方法替代、重新排序或添加阶段来修改本文中所描述的方法。因此，下文的详细描述不限制本发明，相反，本发明的合适范围由所附权利要求来限定。
[0042]现在参考附图将描述各种实施例，附图中相同的标号代表相同的元素。图1解说了结合东亚布局引擎118的系统100的一个实施例。在所解说的实施例中，东亚布局引擎118作为在计算设备104上执行的文档转换器102的一部分来操作。文档转换器102使用解析器110、文档处理器112以及串行化器114将固定格式文档106转换成流格式文档108。解析器110从固定格式文档106中读取和提取数据。从固定格式文档提取的数据被写入可由文档处理器112和串行化器114访问的数据存储116。文档处理器112使用一个或多个检测和/或重构引擎(例如，本发明的东亚布局引擎118)分析该数据并将其转换成可流动元素。最后，串行化器114将可流动元素写成可流动文档格式(例如，文字处理格式)。
[0043]图2更加详细地解说了文档处理器112的操作流程的一个实施例。文档处理器112包括可选的光学字符识别(OCR)引擎202、布局分析引擎204以及语义分析引擎206。数据存储116中包含的数据包括物理布局对象208和逻辑布局对象210。在一些实施例中，物理布局对象208和逻辑布局对象210被分层地安排在编组的树类阵列(即，数据对象)中。在各实施例中，页面是物理布局对象208的顶层编组，而章节是逻辑布局对象210的顶层编组。从固定格式文档106中提取的数据一般被存储为由固定格式文档106中的包含页面来组织的物理布局对象208。基本物理布局对象208包括文本串(text run)、图像和路径。文本串是在页面内容流中指定当显示固定格式文档时字符的绘制位置的文本元素。图像是存储在固定格式文档106中的光栅图像(即，图片)。路径描述了诸如用于构建矢量图的线、曲线(例如，三次贝塞尔曲线)和文本轮廓等元素。逻辑布局对象210包括诸如章节、段落、列、表和列表等可流动元素。
[0044]处理开始的位置取决于被解析的固定格式文档106的类型。从流格式源文档直接创建的本机固定格式文档106A包含基本物理布局元素中的一些或全部。嵌入式数据对象由解析器提取并且可供文档转换器立即使用；但在某些情况下，微小的重新格式化或其它微小处理被应用来组织或标准化数据。相反，通过对物理文档进行数字图像化(例如，扫描或拍照)而创建的基于图像的固定格式文档106B中的所有信息被存储作为不带有附加数据(即，没有文本串或路径)的一系列页面图像。在这种情况下，任选的光学字符识别引擎202分析每一页图像并创建对应的物理布局对象。一旦物理布局对象208可用，布局分析引擎204就分析固定格式文档的布局。在布局分析完成之后，语义分析引擎206用从对物理布局对象和/或逻辑布局对象的分析中获得的语义信息来丰富逻辑布局对象。
[0045]如上面简要描述的，许多东亚手稿，诸如中文、日文、和韩文，可朝向在水平或垂直方向。现在参考图3A，示例页面302包括被示为显示在平板计算设备312上的垂直文本304。还示出了垂直文本304的阅读顺序306。如所示的，当以垂直方向朝向时，CJK手稿的阅读顺序306可以是从上往下且从右往左的。根据各实施例，当将固定格式文档106转换成流格式文档108时，文本书写的方向可被识别，例如，使得布局分析引擎204的行为可因此被适配。为支持垂直书写文档的重构，垂直文本检测可被提供。
[0046]图3B示出了图3A的示例页面302，示出系统可能使用的用于固定格式文档106中的垂直文本304的布局分析的坐标320、322、324、326的定位。如所示，页面坐标原点324可被置于页面302的左上角。此外，示例文本串328以文本串坐标原点326 (x，y) = (100, 200)
来示出。
[0047]图4是示出东亚布局引擎118所执行的垂直文本检测方法400的一个实施例的流程图。方法在开始操作405开始并前进到操作410，在那里固定格式文档106被接收用于分析并用于垂直文本304的检测以及用于将固定格式文档106重构为流格式文档108，其中垂直文本304可在流格式文档108中被重构。
[0048]在操作415，页眉和页脚检测可被执行用于检测任何页眉和/或页脚310并将它们从所接收的固定格式文档106的文档主体314的其余部分中分离。在分析页眉308和页脚310并将它们的内容从文档主体314的其余部分中分离之后，方法400可前进到操作420，在那里由东亚布局引擎118作出关于文档106是否包括中文、日文、或韩文文本的判定。根据一个实施例

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D·扎里克;M·舍舒姆;M·拉扎里维克;M·拉斯科维克;
技术所有人：微软技术许可有限责任公司;
我是此专利的发明人

上一篇：重算用户接口中变换的编译的制作方法
上一篇：使用基于逻辑多维度标签的策略模型的分布式网络管理的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。