重新利用文档的制作方法

文档序号:20361530发布日期:2020-04-10 23:43阅读:198来源:国知局
重新利用文档的制作方法



背景技术:

随着个人电脑、笔记本、智能手机、电子阅读器、显示器、以及印刷技术的发展,存在很多方法使用媒体内容。传统的创建内容的方法包括出版图书、专业杂志、研究论文、会议论文等等。经常地,这些内容的读者希望将几个类型的内容源合并起来。

附图说明

参考下述附图更好地理解本公开。附图中的要素可以相对彼此不按比例。相反,重点是要清楚地说明权利要求声明的主题。另外,在几个视图中均示出的相似的附图标记,尽管不标志完全相同的部分,也标志相应的相似部分。

图1为重新利用文档的示例环境的示意图;

图2为示例页码位置的示意图;

图3为示例页面类型的示意图;

图4a为用于重新利用文档的多种操作的示例方法的流程图;

图4b为图4a的方法的附加示例操作的集合;

图5a为用于重新利用文档的示例系统的框图;

图5b为可以用于图5a的示例系统中的附加示例指令的框图;

图6为在内容的页面中查找样式的示例方法的流程图;

图7为连续划分页面以查找页码的示例方法的流程图;

图8为如何连续划分页面以查找页码的几个示例的示意图;

图9a为示例处理器和具有示例指令的计算机可读存储介质的框图,示例指令用于在重新利用文档时查找标记,一般来说例如页码;以及

图9b为可以与图9a中的示例指令一起使用的附加示例指令的框图。

具体实施方式

来自不同源的内容可以被上传到单个电子设备或者被打印。但是,不同内容的各种可能的不同格式可能会导致不理想的用户体验。用户选择的任何电子和印刷内容都希望能合并成单个的统一文档,从而允许读者以“一本书(book-of-one)”的形式使用这些内容。在这种情况下,“一本书”意味着可能有一致格式和连续页码的统一文档,使得用户阅读一本书会查看和使用单个统一文档,仿佛内容来自了单个来源,比如一本书、期刊或杂志出版商。不幸的是,在尝试实现这种内容聚合方法时遇到了许多挑战。例如,每个来源的内容可以在布局、样式、字体、辅助图形、颜色以及例如页码的各种标记方面采用不同的格式。并且,各种标记可以包括图形符号、页眉、页脚、页码、时间和日期、安全标记、条形码等等。

尤其是,对于页码来说,在重新利用之前应该移除这些类型的标记。文档可以被创建为没有可变标记,例如页码。但是,本申请中描述的解决方案旨在用于处理已经创建或扫描的文档内容,这些内容最初并不打算被重新利用,比如带有页码的打印材料。手动移除页码是一项非常费力的任务。将这种手动过程自动化曾是难以实现的,因为页码可以位于页面上的不同位置中。有时页面使用不同的编号系统(例如阿拉伯语、罗马语、希腊语、西里尔语等)并且根据媒体内容可以有不同的字体、尺寸、颜色以及斜体。此外,还可以遵循各种页码约定,如《芝加哥风格手册》、《蓝皮书》或许多出版商内部指南。

一份文档可以包含纸质书、专著、期刊、杂志、漫画书、手稿、以及这些材料的电子拷贝的扫描图像。这些文档也可以在应用程序中,例如在ms-wordtm(.doc,.docx)、adobetm个人文档格式(pdf)、epubtm电子书、amazontmkindletm电子书等,以及其他已创建内容中创建或使用。

本申请描述了一种用于采用快速、有效且准确的方式来查找和移除标记(尤其是页码)的技术。发布者可以摄取各种内容源,管理客户或用户希望从各种内容源的目录中的选择,并且通过这种新技术,允许将合并的内容发送到“一本书”中。该“一本书”可以是印刷的或者以电子方式传输到并储存在电子内容阅读器设备上。

图1为使用新技术30的示例环境10的示意图,该技术将进一步地详细描述以重新利用文档22。用户16可以使用用户界面24在本地设备20上选择电子媒体、预先扫描的印刷媒体、或者其他内容。本地设备20可以为个人电脑、服务器、或者移动设备,例如智能手机、个人数据助理、平板电脑、或多媒体平板电脑,诸如此类示例。本地设备20还可以是终端、智能客户端、网络浏览器等。本地设备20可以通过通信接口连接到远程计算机、服务器、网站或云服务等。通信接口可以为有线或无线的网络、专用链路、内联网或互联网、电话调制解调器等等。在一些例子中,用户16可以直接或间接地在扫描设备14上扫描具有一个或多个页面26的印刷内容22,扫描设备14例如复印机、行扫描仪、页扫描仪或相机成像。每个电子的或印刷的文档22可以包括三个或三个以上页面的样本28,从样本中页码或其他标记可以被检索、识别并且被定位在页面26中。

框32中的新技术30开始于使用多个样本28对具有页码70的文档进行去页码(或通常地,移除标记),并且从样本28中对页面26进行顺序分段,以在内容中查找页码70(或其他标记)的样式。一旦找到了页码70(或标记)的样式,则剩余的页面26将基于使用检测到的样式进行处理,以移除页码70(或标记)。

在框34中,已被相应移除页码70(或标记)的文档22,按照用户16或第三方编辑所确定的进行合并。对合并后的文档重分页(或通常在标记的情况下,如期望的重新标记)以创建带有连续一致的页码70(或期望的新标记)的“一本书”的文档40。

为了易于权利要求主题的讨论和理解,以下的描述,除非另有说明,将描述实现关于页码70的新技术30的方法和系统。本领域技术人员将理解,上述方法可以扩展到任意图形或通常的字母-数字标记72,如稍后将在图9a-9b中进行解释的。

图2为在最佳情况下页码70或标记72的示例位置的第一示意图50。在第一文档52中,存在位于底部左下角或右下角的页码70或标记72。例如,文档22中左边的页面26可以在左下角具有页码70或标记72,并且文档22中右边的页面26可以在右下角、底角或页脚角具有页码70或标记72。在其他惯例中,奇数的页码70可能在底部的一侧,偶数的页码70位于底部的另外一侧。在第二文档54中,页码70仅仅位于页面26底部的中间。在第三文档56中,发布者可能希望将页码70放在页面26的顶部、上部或页眉部分。与第一文档52一样,页码70或标记72可以位于页面26的左侧或右侧。并且,与第二文档54一样,页码70或标记72可以位于顶部的中间。页码70或其他标记72的其他位置可以包括在顶部、底部、中间或其他位置的左页边距或右页边距中。在一些示例的文档22中,页码70或标记72可以在不同的部分被省略,或者使用不同的页码编号方案或位置。

例如,图3为文档22中可能是非典型的页面26的示例类型的第二示意图60。在此示例中,可能存在一组空页面62、章节标题页面64、内容目录页面66、以及版权页面68,这些页面均可能具有与内部内容不同的页码70或标记72的格式和位置。其他可能具有不同的页码的部分可以包括:封面、介绍性材料、前言、致谢、序言、附录、索引、词汇表、参考书目、色卡、后页等等。因此,在一些文档中,对页码70或标记72的定位可能会变得相当复杂。

试图使用光学字符识别(ocr)工具来定位页码70或其他标记72的简单方法是不可靠的。这种方法很容易受到页面上的其他数字或标记的干扰,例如带有数字的数学书籍,带有公式、表格和数字表的科学论文等。有些ocr系统允许移除页码,但是用户需要手动识别样式并将样式输入到ocr系统中。相反,新技术30允许自动检测页码70和标记72的位置以及自动识别文档22中的页码和标记样式。

图4a为一种用于重新利用文档22的多重操作的新技术30的示例方法100的流程图。方法100为计算机实现的方法,通过该方法处理器(202,图5a)从计算机可读介质(204,图5a)中读取并且执行指令,以执行各种操作。这些指令可以包括例程、子例程、面向对象模块、容器等。接下来描述的可操作模块可以由在一个或多个电路上通信连接的一个或多个处理器202实现。处理器202可以物理地放置于同一个整体计算机中或分布于各种物理、虚拟和基于云的位置上。

在框102中,处理器202提取文档22的至少三个样本28。在一个示例中,三个样本28可以来自文档22的前面、中间和结尾部分。在其他示例中,可能存在多于三个样本28,但是每个样本都来自文档22的不同部分,例如通过读取页面的内容目录66以及确定在文档22中的位置。样本28中的每个样本可以为来自大约三个页面至文档22的大约百分之十,或者对于更小的部分,样本的大小可以只是小部分的大小,例如,页面的内容目录66只有一个至几个页面。在上下文中,“大约”可包括增加或减少文档22的百分之三。通过使用文档的小样本28来识别页码的样式,过程可因无需对整个文档进行ocr而加速。

在框104中,针对三个或更多样本28中的每个,处理器202比较各个样本28中的连续页面26,以便识别页码70的样式。可以通过将页面26按顺序划分为较小的区域来查找页码70。对每个较小的区域查找数字,并且如果没有找到数字,则继续将较小的区域划分为更小的区域。可能存在各种将页面26划分为较小区域的方法,例如在图8中示出和描述的。例如,页码70可以通过将页面26划分为页面26的越来越小的区域并且从区域中检测文本来查找,直至找到包含数字的区域,并且发现没有其他更小的区域包含与在先前的区域中找到的数字相同的数字。没有理由使用ocr识别页面的全文,因为这种新技术只是搜索数字或其他标记样式。可以利用矩量分析、相关分析、主成分分析、图像提取或局部ocr等这一些方法进行样式识别匹配来进行搜索。在一个示例中,页面26可以被垂直地划分为四个部分(顶部、顶部中间、底部中间和底部)。如果找到数字,则该数字可能是一个潜在的页码70。如果通过样式匹配没有找到,或者期望更准确的位置,可以将上述四个部分进一步划分为更小的部分,例如有九个更小的部分的井字区域,以确定具有左边、右边和中心位置的顶部、底部、中间。其他划分方法可以为3-4、3-6-8等等。找到的数字可以根据最小部分的位置进行识别和分类。针对页码70识别出的样式可以是通过针对偶数页面和奇数页面最有可能的识别样式进行标记,例如通过多数表决(例如,在空白页的情况下)。如果偶数页面和奇数页面具有相同的识别出的样式,那么可以为样本28返回单一样式,反之可以返回两个样式。如果样本28具有多个识别出的样式,例如样本28的第一部分为一个样式,并且样本的第二部分为第二样式,则识别出的样式可以与不同样式的页面位置一起返回。一种最好的情况为,或者在页面26的顶部或者底部找到页码70,或者在偶数页面26的左侧以及在奇数页面26的右侧集中或交替地找到。

在框106中,处理器202基于针对文档22的各个样本28的每个识别出的样式来移除页码70。如果第一样本28具有与相邻的第二样本28的识别样式匹配的识别样式(或者第二样本匹配相邻的第三样本),那么由第一和第二样本28(或分别为第二和第三样本28)表示的文档的所有页面都使它们的页码70基于分别识别出的样式而移除。

在框108中,处理器202将文档22与例如不包括页码70(未分页或已被新技术30处理以移除页码)的其他文档的其他内容合并起来以创建新产品。

在框110中,处理器202对新产品重分页以创建“一本书”文档40。

图4b为针对图4a的方法100的附加示例操作150的集合,可以与上述方法单独合并或者多个合并。例如,在框152中,处理器202可以允许用户16选择多个文档22(例如通过图1的用户界面24或其他)以进行合并。在将多个文档22中的每个合并108为新产品并且重分页110新产品之前,处理器202对多个文档22中的每个执行提取和比较104的操作以及移除106的操作。

在框154中,当检测到没有页码70的样式时,处理器202可以提取文档22的三个附加样本28,以便获得文档22内容的更好的表示。例如,如果一个样本28来自文档22的前面,则它可能包括封面、序言、目录、以及其他不代表文档22的主要或中心内容的介绍性内容。如果另一个样本28来自文档22的后面,则它可能包括索引、参考文献、定义和封底,这些同样可能不会指示文档22的中心内容。一般地,文档22的内容的10%可以能够得到中心内容的有效样本28,使得页码70的样式可以针对三个样本28中的每个进行识别。然而,如果不能识别,可以从文档22中取得附加样本28,比如在文档22的中心,以允许更好的页码70的样式识别。

在框156中,一旦识别出样式,处理器202就可以移除各个样本28中的所有页面上的页码70,各个样本28带有的页面具有与模式匹配的页码。处理器202还可以移除文档22的剩余页面上的页码70,剩余页面没有使用页码70的识别样式进行抽样。

在框158中,当页面26没有匹配样式的页码70时,处理器202可以比较各个样本28中的连续页面26,以识别页码70的新样式。

图5a为用于重新利用文档22的示例系统200的框图。处理器202与包含指令206的非暂时性且有形的计算机可读介质(crm)204连接,上述指令被处理器202读取和执行时使得处理器运行各种操作,上述操作根据组织为例程、子例程、模块、容器等等的指令运行。系统200还可以包括附加的硬件或逻辑以帮助处理器运行指令206。因此,本文描述的各种示例可以包括逻辑或若干组件、模块或组成部分。模块既可以包括软件模块,例如在crm204中嵌入的代码,也可以包括硬件模块。硬件模块是能够运行特定操作并且可以以特定方式配置或安排的有形单元。在一个示例中,计算机系统200或者计算机系统200的一个或多个硬件模块可以被软件(例如应用程序,或应用程序的一部分)配置为操作以执行本文描述的特定操作的硬件模块。

crm204允许存储一个或多个数据结构和指令206(例如软件、固件、逻辑)的集合,其包含或使用本文描述的任何一种或多种方法或功能。指令206在被计算系统200执行期间还可以全部或至少部分驻留在静态存储器、主存储器、以及处理器202中。主存储器和处理器202的存储器还构成crm204。术语“计算机可读介质”204可以包括存储了一个或多个指令或数据结构的单介质或多介质(集中式或分布式)。crm204可以实施为包括,但不限于,固态、光学和磁性介质,无论是易失性的还是非暂时性性的。这样的示例包括:半导体存储设备(例如可擦除可编程只读存储器(eprom)、电子可擦除可编程只读存储器(eeprom)、以及闪存设备)、磁盘(例如内部硬盘和可移动磁盘)、磁光盘、以及光盘只读存储器(cd-rom)和数字通用光盘(dvd)磁盘。

在框210中,处理器202读取具有多个页面26的第一文档22。在框212中,处理器202提取多个页面26的至少三个样本28,例如从文档22的前面、中间和结尾。在其他示例中,三个样本28可以来自文档22的前面、中间、以及结尾的不同的部分,例如来自前面的目录部分、来自中间的主要或中心部分、以及在文档22的结尾的索引部分。样本28中的每个样本可以达到文档22的总内容的大约10%。

在框214中,处理器204,针对三个样本28中的每个样本,处理器比较各个样本28中的连续页面26,以识别页码70的样式。该识别可通过比较各个样本28中的连续页面26进行,以识别页码70的样式。通过将页面划分为较小的区域来查找页码70,并且对每个较小的区域搜索数字,以及如果没有找到数字,则继续将较小的区域划分为更小的区域。

在框216中,处理器基于针对文档22的各个样本28的每个识别出的样式来移除页码70。在框218中,处理器将文档22与其他内容(例如不包含页码的第二文档22)合并起来以创建新产品40。在框220中,处理器接下来对新产品进行重分页,从而将文档重新利用在新产品40中。

图5b是可以用在图5a的示例系统200中的附加示例指令252的框图250。三个样本28每个都可以表示文档22的内容的大约10%,但至少三个页面。在框254中,当由处理器202检测到没有页码70的样式时,处理器202可以从获取各个样本28的文档22的代表性部分中提取文档22的附加样本28。在框258中,一旦识别出样式,处理器202就移除各个样本28中所有页面26上的页码70,各个样本28带有的页面26具有匹配样式的页码70。

图6为一种用于查找文本22的内容的页面26中的样式的示例方法300的工作流程。在框302中,接收用于重新利用的文档22。在框304中,抽样文档22的至少三个样本28。在框306、308和310中的每个框中,处理各个样本28以比较来自样本28的连续页面,从而识别页码70的一个或多个样式。通过将页面26划分成较小的区域来查找页码70。对每个较小的区域搜索数字,并且如果没有找到数字,则继续将较小的区域划分成更小的区域。存在各种方法来将页面26划分成例如图8所示和描述的较小的区域。例如,页码70可以通过将页面26划分成越来越小的页面26的区域并且从区域中检测文字来进行查找,直至找到包含数字的区域,并且发现没有其它更小的区域包含与在先前的区域中找到的数字相同的数字。没有理由使用ocr识别页面的全文,因为此新技术只搜索数字或其他标记样式。搜索可以通过利用矩量分析、相关、图像提取、主成分分析或部分ocr等此类方法的样式识别匹配进行。在一个示例中,页面26可以被垂直地划分为四个部分(顶部、顶部中间、底部中间和底部)。如果找到了数字,则它可能是潜在的页码70。如果通过样式匹配没有找到,或者期望更精确的位置,可以将上述四个区域进一步划分为更小的区域,例如九个更小的部分的井字区域,以确定具有左侧、右侧和水平中心位置的顶部、底部、垂直中心。其他划分方法可以为3-4、3-6-8等等。查找到的数字可以根据最小区域的位置进行识别和分类。针对页码70的识别样式可以是通过针对偶数页面和奇数页面最有可能的识别样式进行标记,例如通过多数表决(如在空白页的情况下)。如果偶数页面和奇数页面具有相同的识别样式,那么可以为样本28返回单个样式,反之可以返回两个样式。如果样本28具有多个识别样式,例如样本28的第一部分为第一样式以及该样本的第二部分为第二样式,则识别样式可以与不同的样式的页面位置一起返回。一种最好的情况是,或者在页面26的顶部或底部发现页码70,或者在偶数页面26的左侧和奇数页面26的右侧上集中或交替地找到。

在框312中,检查每个样本28的输出对照识别样式,以确定是否针对每个样本28识别出一个或多个样式。如果样本28没有返回样式,流程返回框304以从文档22的代表性的部分获得附加样本28。如果在所有三个样本28中均检测到样式,那么在框314中针对各个样本28的每个识别出文档的所有样式,并且文档22的特定父内容部分将使用每个样本28的相应页码模式从相应的父内容中移除页码70。这种方法减少或消除了必须检查文档的每个页面的页码70,并避免了页面内容文本具有数字的情况(例如,数学书籍)。基于ocr的页面扫描系统可能不正确地删除这种在文档22的原始文本中的随机数字片段。

图7为连续划分页面26以查找页码70的示例方法400的流程图。在框402中,从样本28中提取页面26,并且该页面26作为第一区域使用。在框404中,将此第一区域划分为较小的区域,一个示例是四个(4个)较小的区域,另一个示例是三个(3个)较小的区域。在判定框406中,确定在任何的区域中是否存在任何数字。可以通过如先前讨论的有限的ocr、模式匹配、关联和其他文本或图形识别技术做出上述确定。如果在任意的区域中存在数字,流程继续至框412,其中找到了潜在的页码。如果在判定框406中确定出任意的区域中不存在数字,流程继续至框408,并且将第一区域划分成更小的区域,例如,将四个较小的区域中的每个区域划分成九个(9个)更小的区域。在判定框410中,进行确定这些更小的区域中任意区域是否存在任意数字。如果是,那么在框412中可能找到了潜在的页码70。如果否,流程继续回到框404,并且将小区域划分成更小的区域,并且只要需要就继续进行搜索。在一些示例中,区域的划分可以是两次,例如先化分成4个区域,然后划分成9个区域。另一些示例可以继续划分的更长,例如划分成3个区域以确定为左侧、中间、右侧;然后划分成6个区域,以检查顶部、底部、中间以及相对的左侧和右侧位置;并且之后划分成8个区域以精细调整位置来获得识别样式的精细分辨率。

图8为如何连续划分页面以查找页码70的几种示例的示意图450。在4-9示例452中,将页面26首先划分成4个部分以表示顶部区域、顶部中间区域、底部中间区域和底部区域。不存在位于顶部三个区域中的页码70,但是页码70(在附图中表示为“#”)在该示例中在下方右侧底部区域中找到,并且因此可能是潜在的页码。附加地检查页码可以通过进一步将每个区域划分成九个部分来进行,如所示出地,以提供具有左侧、中间和右侧位置的顶部、中间以及底部。在此示例中,在底部右侧区域中找到页码70。如果在至少三个连续页面上找到,识别出的页码70可以识别为具有底部-底部-右侧的样式。在样本28中的其他页面和那些样本28表示的页面可以从底部-底部-右侧区域移除相应的页码70,不用必须分别扫描每个页面的页码70,从而增加页码移除的速度、效率以及准确度,并且允许文档被重新利用。

在3-4示例454中,将页面26首先划分为表示左侧、中间和右侧的三个区域,其中在右侧部分中找到页码70。进一步的划分区域通过将每个区域分成顶部、顶部中间、底部中间、以及底部四个区域进行。在底部区域中找到页码70。如果至少在三个连续的页面上找到,识别出的页码70可以被识别为右侧-底部的样式。当对每个部分的页码的检测提供了在检测区域内页码70的更详细位置时,可以使用3-4示例454。4-9示例452通过利用更小的区域尺寸提供的更准确的位置允许不太复杂的页码70检测方案。可替代地,3-4示例454可以继续应用3-4区域划分来创建甚至更小的部分,其中设置页码70或其他标记72。

在一些示例中,页面26的区域划分可以包括不止两个类型的区域划分操作。在3-6-8示例456中,将页面26首先划分为表示左侧、中间、以及右侧的三个区域,并且在该示例中页码70在右侧区域中。然后可以将区域进一步划分为六个区域,代表具有上部、中部和下部区域的左侧、后侧。在此示例中,页码70位于左侧-底部区域。接下来这六个区域中的每个区域可以进一步在第三次区域划分操作中通过将每个小区域划分为八个更小的区域被区域划分,以创建具有顶部和底部格式的左侧(l)、左侧中间(lc)、右侧中间(rc)以及右侧(r)区域。现在在右侧-底部-右侧-底部区域中识别出页码70。通过将页面26这样精细划分为这样的小区域,页码检测技术可以专注于仅搜索数字样式并且不需要返回页码在区域中的定位,如同该信息通过3-6-8示例456划分提供的那样。

图9a为示例处理器202和计算机可读介质204的框图500,计算机可读介质204具有用于在重新利用文档22时查找任意标记72(通常包括页码70)的示例指令206。在框502中,指令206使处理器202读取具有多个页面26的文档22。在框504中,处理器502提取文档22的多个页面26的三个样本28。在框504中,处理器202针对三个样本28中的每一个,比较各个样本28中的连续页面26以识别标记72的样式。通过将页面划分成较小的区域查找标记72。对每个较小的区域搜索标记72,并且如果没有找到标记72,继续将较小的区域划分为更小的区域。例如,页面26可以首先被划分为四个较小的区域,并且之后被划分为九个更小的区域。通过划分九个更小的区域为四个更小的区域,并且如果需要,划分四个较小的区域为九个更小的区域,这种区域划分可以继续。页面被划分的次数依赖于页面的内容、字体的大小、以及用以确定划分区域中页码的位置的页码检测样式识别技术的能力。

一旦找到标记72,并且识别出样式,在框506中,处理器202基于针对文档22的各个样本28的每个识别出的样式来移除标记72。每个样本28可以包括一个或多个样式,并且在一些示例中,每个样本28可以包括与其他样本28相同的样式。

图9b为可以与图9a中的示例指令206一起使用的附加示例指令252的框图550。在框552中,当检测到没有标记72的样式时,处理器204提取文档22的附加样本28,例如一至三个附加样本28。

在框554中,一旦识别出样式,将使用样式移除由各个样本表示的所有页面上的标记72,各个样本带有的页面具有与识别样式匹配的标记72。例如,在一些文档22中奇数页面与偶数页面具有不同的样式,并且因此奇数页面将移除与奇数页面样式匹配的标记72并且偶数页面将移除与偶数页面样式匹配的标记72。

在框556中,当页面26不具有匹配识别出的样式的相应标记时,附加指令252使处理器202比较各个样本中的连续页面以识别标记的新样式。例如,来自文档22的前面的样本可以含有具有不同的页码26的格式和不同位置的多个介绍性的部分。在一个示例中,目录可以含有在页面的底部的中心位置的罗马数字,同时其他部分含有阿拉伯数字,其中奇数页面和偶数页面具有不同的页码70位置。

总之,权利要求所要保护的主题与移除标记72有关,特别是页码70、标记72。通过定位和移除标记72,多个文档22(例如书籍等)可以合并为更大的文卷并且之后可以相应的重新标记(对于页码来说,重新标记通过重分页进行)。与全页面ocr相比,新技术30允许更快、更高效、并且更简单的识别过程。为了快速定位标记72可能在文档22中的位置,文档22的至少三个样本28被提取,例如来自前面的大约10%、来自中间的大约10%、以及来自结尾的大约10%。从每个样本28中,检查连续页面26以定位标记72和确定标记72的样式。潜在的标记72通过划分页面26为越来越小的区域进行查找,并且检测样本72直至找到包含标记72的区域,并且未找到包含与在前面区域中找到的标记72相同的标记的更小的区域。在一个示例中,通过首先将页面分段为表示为上部/底部/右侧/左侧的四个区域进行划分,并且之后将四个区域中的每一个分段为九个单独的区域(例如4-9多分段)。可以使用其他多分段方案,例如只是两个附加示例的3-4和3-6-8。

因此,新技术30允许使用样本28从文档内容页面的不同部分查找匹配的模式。这种采样技术在最好的情况下实现快速追踪过程。一些最差的情况可以使得新技术30从信息的特定部分中选择新的样本28。对于每个样本28,比较过程可以在文档的内容的大约30%中在至少三个页面中运行。在一些示例中,在样本28页面26上没有需要被识别的文本,因为新技术30以在样本中识别样式的方式工作,并且为剩余的内容应用找到的样式。例如,对于页码为70的标记72,它们通常以统一的方式出现在连续的页面中。

虽然权利要求所要保护的主题已经根据前面的示例进行了特别的示出和描述,但本领域技术人员将理解,在不偏离下列权利要求中主题的预定范围的情况下,可以在其中进行许多变化。这一描述应被理解为包括本文所描述的所有新的和非显而易见的要素的组合,并且权利要求可出现在当前或以后的应用中的任何新的和非显而易见的要素的组合。前面的例子是说明性的,并且没有在所有可能的声明在这个或以后的应用中的组合中使用一个单独的特性或要素。如果权利要求列举了“一”或“第一”或与其相当的要素,则应将该权利要求理解为包括一项或多项此类要素,但不要求也不排除两项或更多项此类要素。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1