专利名称:扫描至编校的可搜索文档的制作方法
技术领域:
本发明涉及图像处理,并且更具体地涉及文档的扫描和处理。
背景技术:
编校(redaction)是从文档中用黑色挡住(black out)或移除机密信息以使得它 们可以被共享的过程。机密信息可以包括工商企业的人或地方的名称、地址、电话号码或包 括社会保障或顾客编号的其它标识信息。编校 在法律或政府组织中被非常普遍地使用,但 是它也在包括金融、保险和制造业的其它行业被广泛使用。编校的目的是防止敏感信息被 与可能需要与内部的(closed)工商企业、政府或法律程序之外的公众共享的文档一起分 发。当文档以纸件的形式存在时,通过制造机密文档的纸件副本(paper copy)来开始 编校。然后将该副本送给校对者,所述校对者的工作是基于关键字或主题的列表来标识信 息的敏感区域。在简化的过程中,校对者直接编校在文档副本上的文字。在更复杂的过程 中,最初的校对者将加亮(highlight)编校的候选,然后由将对编校做出最终决定的一个 或多个有学识的(informed)或高级的校对者来审阅所述候选。此外,注解或注释通常需要 被附着到该文档以标识为什么区域应该被编校、谁完成了最初的编校审阅、以及谁批准最 后的编校,于是可以进行对该编校的追踪查询或调查。这些注解或注释通常被编码以使得 当最终的文档被编校并且将注解和该文档一起送到未授权的接受者时,他们将不能够觉察 出为什么要编校这些区域或者猜测关于所编校的信息的内容。编校过程中的授权参与者将 能够使用所述注释或注解,并且追踪在涉及所述文档的调查中可能需要的所述编校的历史 和目的。纸件过程(paper process)中的编校使用应用于纸件文档的黑色标记,从而完全 隐藏或破坏该文档中的内容或文本。因为与所使用的文档和纸件上的原始色粉或油墨相比 该标记的密度上的差异,可能不能以令人满意的方式来实现信息的完全移除。为了确保区 域被完全移除并且在仔细检查时不能被识别,经过编校的文档通常在分发之前再次影印。 这实现了在要被隐藏的信息上的一致黑色区域,从而不可能检测出下面的文本。在编校过 程中机密信息的完全破坏是关键的。纸件编校过程需要熟练的校对者并且与数字过程相比 效率非常低。在数字过程中,在数字文档被创建或者可以被编辑的各种软件应用中提供与加 亮、注释以及编校文档类似的工具。为了加快该过程,校对者使用搜索工具来标识需要编校 的文字。一旦在该文档中找到所述文字,就使用适当的工具来加亮、注释或编校所述文字。 为了进一步加快该过程。可以将搜索功能与编校特征的自动编校或加亮相结合。如果该文 档被直接编校,则然后将最终文档保存为准备分发的最终编校副本。如果已加亮或注释用于编校的文字,则然后通过电子邮件或通过文档管理过程将该文档转发到适当的人或多个 人,以用于最终的编校。如在纸件过程中一样,必须在包括文档的属性或隐藏层的该文档的 所有区域中实现对机密信息的绝对移除。已认识到当数字化地进行时,信息共享更容易、更有成效并且比较便宜。因此,随 着将纸件移进数字过程,对于将纸件扫描并转换成数字文档的需要日益增加。在这种意义 下,通常在依靠当前可用数字工具将文档转换成适合的数字格式之后实现该编校以完成编 校。当前可用的纸件至数字的工具根据转换的可编辑文档产生基于文本的PDF文件,或者 根据原始的扫描图像文件产生基于TIFF的图像文件。每种方法都具有优点和缺点。当将文档从经扫描的文件转换成用于编校的可编辑格式时,最有可能在转换过程 中丢失原始文档的完整性。尽管文本是100%准确的,但是可能使该文档的格式、图形和其 它元素失真、重新布置(rearrange)或一起丢失。因此,转换和编校纸件文档的这一方法不 是最佳的。为了防止损害原始文档,可以使用OCR技术来简单地识别需要被编校的经扫描图 像文档上的区域,并且然后将这些改变直接应用于所述图像。这也不是最佳的过程,因为在 最终TIFF图像文件中的文本仍保留为图像,不能利用其向保留的文本搜索重要信息。并 且失去了这样的能力将注解或代码附着到所编校的区域以用于进一步的调查或了解这些 区域的编校如何进行、为何进行以及应用于哪儿。PDF文件格式提供适合的框架以在仍提 供作为原始文档的准确表示的原始图像、要搜索的文本层以及用于注解和注释的评注字段 (annotation field)的同时解决当前过程的缺点。
发明内容
本发明的实施例针对自动的扫描至编校的电子文档过程。接收标识经扫描的文档 的用户输入。然后自动处理经扫描的文档以产生具有可搜索的文档文本和文档图像的对应 的编校文档。可搜索的文档文本包括满足所限定的编校参数的编码的编校文本。文档图像 包括对应于编校元素的编校图像区域。 在另一个特定实施例中,可以在视觉上加亮编校文本以用于审阅。另外或可替换 地,可以从编校文档移除编校文本,并且用占位符字符来代替所述编校文本。可以提供评注 字段以用于记录与所选择的编校文本相关联的后编校注释(post-redaction comment)。在一些实施例中,该过程可以使用预先建立的编校标准来标识并且产生编校文 本。例如,该编校标准可以包括与编校相关联的关键字集和/或表示与编校相关联的文本 模式(pattern)的编校模式的使用。在一些实施例中,可搜索的文档文本可以包括标识编 校文本的段的书签。编校图像区域可以在视觉上是编校所特有的(visuallydistinctive of redaction),例如通过加亮或者通过具有一致的非文本外观。可以根据计算机网络设备 上的用户可选按钮或计算机显示器上的用户可选按钮来产生用户输入。具体来说,编校文 档可以是PDF格式文档或可编辑的文字处理器文档(例如Microsoft Word文档)。
图1示出根据本发明的一个实施例的自动的扫描至编校的过程的功能流程中的各个步骤。
具体实施例方式本发明的实施例基于与一些识别智能相结合的扫描和OCR技术、具有编校代码的预先定义的关键字和PDF文件格式,以产生可以随时审阅、评注且校正的自动的扫描至编 校的PDF文件的过程。被称为“工作流程”的整个过程可以被使用该应用来限定并且可以 利用单按下(在该应用本身内的或分配给设备上的物理或虚拟按钮的)按钮来应用。最终 的结果是“可搜索的PDF”文件。图1示出根据本发明的一个实施例的自动的扫描至编校的过程的功能流程中的 各个步骤。首先,步骤101,扫描源文档,其包括对用于某些图像增强或校正的扫描过程的初 始限定。扫描增强改善OCR识别能力并且增加准确度。这样的校正的实例包括但不限于消 除倾斜(de-skew)、消除杂点和自动旋转。还在该步骤中设置对b/w、灰度级、颜色和分辨率 的设定。一旦该文档被扫描,步骤102,将OCR过程应用于经扫描的文档。这时使用布局或 格式引导以及语言检测。例如,在识别文本时就对照内部词典检查文字,以使得在该词典中 找不到的任何文字在OCR文本校对过程期间都可以被标记为可疑的。为了更高的准确度, 使用包括法律、金融和医学的专业词典。步骤103,当对照用户和专业词典检查文本时,在校对OCR文档的下一步骤期间加 亮可能的错误。用户检查文档中真实句子的上下文中的所识别的文字的准确度。可以使用 校对工具来应用校正。当文字被校验或校正时,用户字典“学习”并且被相应地更新以改善 另外处理的文档的校正过程。步骤104,一旦该文本已在OCR校对步骤之后被校验,就可以开始文档编校过程。 接收标识用于编校的经扫描的文档的用户输入。例如,用户输入可以由用户可选按钮产生, 所述用户可选按钮是计算机网络设备(例如扫描仪等)上的物理按钮或者由软件在计算机 显示器上产生的虚拟按钮。响应于用户输入,自动地处理经扫描的文档以产生包括可搜索 的文档文本和文档图像二者的对应编校文档。可搜索的文档文本包括满足各种限定的编校 参数的编码的编校文本。文档图像包括对应于编校元素的编校的图像区域。利用所建立的处理规则,诸如自动地对文档页进行书签化以容易地标识长文档中 的编校文本的能力。编校规则还可以包括使用预先建立的编校标准以标识并且产生编校文 本。例如,可以使用对应于与编校相关联的文本模式的编校模式,其包括适合(fit)特定模 式的信息或“看起来像”特定信息的自动标记。该模式可以是诸如社会保障号码、日期、货 币价值或电话号码之类的号码的格式。从逗号或制表符分隔的文本文件或直接从ODBC数 据库文件加载编校关键词、编校代码和注解的特定列表。可以立即并且直接完成编校,或者可以加亮编校文本以进一步在PDF编辑应用程 序(例如PDF Converter Professional)中进行审阅。有用地是标识的编校文本可以在视 觉上是编校所特有的,例如具有一致非文本外观。此外,可以利用加亮的颜色来定制用于编 校的加亮的编校文本候选,或者可以使用用于标识(例如轮廓线(outline)或删除线)的 可替换方法。此外,编校区域可以具有在编校区域之前和/或之后应用于预先设置数目的 文字或字符的加亮的颜色,以便容易地视觉标识。在最终文档中,编校或加亮区域可以创建 有评注字段或者创建作为评注字段。
步骤105,可以以类似于后OCR校对步骤的方式使用附加的后编校校对。它检查被 限定为模式或“看起来像”的可能编校候选被准确地移除或标记为必须被编校的文本。经 过标识的文字必须被显示在文档中的真实句子的上下文中。可以提供工具来根据需要对编 校文本进行标记或取消标记。对交互的“编校校对”步骤的替换将是以预先定义的颜色来 自动地加亮可疑的文字以供在PDF编辑工具中进行审阅。步骤106,可以以适当的应用格式来保存经过编校的(或编校加亮的)文档,以用 于随后的审阅、以后的调整,以及或者归档和存储。本应用的实施例还可以读取已经被审阅 并且在其它应用中用加亮标记的经过标记的PDF文件,以使得可以自动地应用所述编校。 当PDF可搜索的图像文件被创建时,应用编校和PDF偏好。编校偏好包括编校颜色(缺省 为“黑色”)、图像上的编校区域的宽度和高度公差(tolerance)以及到接近于编校区域的 对象或文本的公差以使得它们不会无意地被混淆。PDF文件包括各种主要的部分或层,最相关的是图像层和文本层。该图像层包括原 始的经扫描文档,其中编校区域被编校颜色代替并且像素信息被“破坏”。文本层是图像上 面或下面的可以被商业搜索产品编索引和/或搜索的隐藏层。文本层精确地遵循原始文档 的格式化,以使得文本在原始文档的上下文中在PDF查看或编辑应用中是可搜索的。编校 文本被从编校文档中移 去,并且用占位符字符代替以形成等间隔的文本“行”,尽管可以将 这些文本“行”复制并粘贴到其它应用中但是它们不能表示原始文本,因此破坏了该信息。元数据可以被应用于PDF文件属性,所以可以使用商业上可得到的搜索工具来搜 索该元数据。PDF书签可以被自动创建以标识编校页。还可以将定制的戳、页首(header) 和页脚应用于文档以显示相关的信息,例如创建者名称、创建日期和/或编校文档所使用 的项(term)和状况(condition)。评注(例如注解或编校/解除(exemption)代码)被创 建并且被应用于最终的PDF文档。还可以在该步骤设置并应用标准的PDF安全工具。该标准的PDF安全工具包括密 码定义以便于查看或打印文档。还可以将40比特和128比特加密应用于PDF文件,用户能 够利用其来控制是否可以查看、打印、编辑、复制或评注该文档。该应用还将包括用于数字 签署文档以保护和认证信息所需的所有一起。来自第三方卖主的证书不是必需的。编校工作流程将上述所有步骤结合到可以被命名、输出并且输入到应用程序的 其它副本中的单个工作流程文件,以使得可以复制该过程。可以将工作流程作为应用内 的单个步骤而发起,或者将其分配给设备上的物理或虚拟按钮以用于一键过程自动化 (one-button processautomation)。该应用还可以利用文件夹来成批处理存储在网络上的 文件,监视或者自动处理从电子邮件应用输入的文件。可以将扫描的、识别的以及经编校可 搜索的PDF文件自动地保存到本地硬盘驱动器、保存到文档管理系统或者以电子邮件发送 到特定的接受者。该应用还可以将这些文件保存为可编辑的Microsoft Word文档。本发明的实施例可以以任何传统的计算机编程语言实施。例如,优选的实施例可 以在过程编程语言(例如“C”)或面向对象的编程语言(例如“C++”、Python)中实现。本 发明的可替换实施例可以被实施为预先编程的硬件元件、其它相关的组件或硬件和软件组 件的结合。实施例可以被实施为与计算机系统一起使用的计算机程序产品。这样的实施方式 可以包括一系列计算机指令,其固定在有形介质(例如计算机可读介质(例如盘、⑶-ROM、ROM或固定盘))上或者可以经由调制解调器或其它接口设备(例如通过介质连接到网络 的通信适配器)传输到计算机系统。介质可以是有形介质(例如光学或模拟通信线)或利 用无线技术(例如微波的、红外线的或其它传输技术)实现的介质。计算机指令系列包括 针对系统而先前在本文中描述的所有或部分功能。本领域技术人员应该认识到可以以许多 编程语言来写这样的计算机指令,以与许多计算机体系结构或操作系统一起使用。此外,这 样的指令可以被存储在任何存储器设备(例如半导体的、磁的、光学的或其它存储器设备) 中,并且可以使用任何通信技术(例如光学的、红外线的、微波的或其它传输技术)来传输。 期望这样的计算机程序产品可以被分布为具有所附的打印的或电子的文档的可移动介质 (例如现成套装软件(shrink wrapped software)),被用计算机系统预先加载(例如在系 统ROM或固定盘上)或者被从服务器或电子公告板通过网络(例如因特网或万维网)分发。 当然,本发明的一些实施例可以被实施为软件(例如计算机程序产品)和硬件二者的结合。 本发明的又一些实施例被实施为整个为硬件、或整个为软件(例如计算机程序产品)。
尽管已经公开了本发明的各种示例性实施例,但是对于本领域技术人员来说显而 易见的是在不偏离本发明真实范围的情况下可以完成将实现本发明的一些优点的各种改 变和修改.
权利要求
一种产生编校电子文档的方法,该方法包括接收标识经扫描的文档的用户输入;以及自动地处理经扫描的文档以产生对应的编校文档,所述编校文档包括i、可搜索的文档文本,包括满足所限定的编校参数的编码的编校文本,以及ii、文档图像,具有对应于编校元素的编校图像区域。
2.根据权利要求1所述的方法,其中在视觉上加亮所述编校文本以用于审阅。
3.根据权利要求2所述的方法,还包括 从编校文档移除所述编校文本;以及用占位符字符代替所述编校文本。
4.根据权利要求1所述的方法,其中所述编校文本包括代替经扫描的文档中的满足所 限定的编校参数的文本的占位符字符。
5.根据权利要求1所述的方法,还包括提供用于记录与所选择的编校文本相关联的后编校注释的评注字段。
6.根据权利要求1所述的方法,其中所述处理使用预先建立的编校标准来标识并且产 生编校文本。
7.根据权利要求6所述的方法,其中所述编校标准包括与编校相关联的关键字集。
8.根据权利要求6所述的方法,其中所述编校标准包括表示与编校相关联的文本的模 式的编校模式。
9.根据权利要求1所述的方法,其中所述可搜索的文档文本包括标识编校文本的段的书签。
10.根据权利要求1所述的方法,其中所述编校图像区域在视觉上是编校所特有的。
11.根据权利要求10所述的方法,其中所述编校图像区域具有一致的非文本外观。
12.根据权利要求1所述的方法,其中从计算机网络设备上的用户可选按钮产生用户 输入。
13.根据权利要求1所述的方法,其中从计算机显示器上的用户可选按钮产生用户输入。
14.根据权利要求1所述的方法,其中所述编校文档是PDF格式的文档。
15.根据权利要求1所述的方法,其中所述编校文档是可编辑的文字处理器文档。
全文摘要
描述了自动的扫描至编校的电子文档。接收标识经扫描的文档的用户输入。然后自动处理经扫描的文档以产生具有可搜索的文档文本和文档图像的对应的编校文档。可搜索的文档文本包括满足所限定的编校参数的编码的编校文本。文档图像包括对应于编校元素的编校图像区域。
文档编号G06F21/00GK101802840SQ200880107998
公开日2010年8月11日 申请日期2008年7月30日 优先权日2007年7月30日
发明者C·杜达斯, G·查塔迪, G·赖希, J·塞加拉 申请人:微差通信公司