扫描方法

文档序号:6593043阅读:322来源:国知局
专利名称:扫描方法
技术领域
本发明涉及通过包含文本的文档的光学扫描所获得的数字图像或记录的用计算 机执行的处理,上述文本例如为,印刷好的报纸页或其他显示形式的文本,其中,可以在法 律上防止对该文本进行未授权的拷贝。
背景技术
在协调欧盟国家的版权法的基础上,欧洲议会和欧盟理事会在2001年5月22日 的指令2001/29/EC中确定了针对拷贝和扫描的规定。等效的美国法规是数字千年版权法 (DMCA)。可通过传统的扫描仪来执行扫描和拷贝,但是,由于对受版权保护的文档的传统 扫描违反版权法,所以需要有解决此问题的解决方案。欧盟版权指令第2条提供了最基本的“拷贝”权。其对表演者、录音片制造商、电 影制片人、广播组织和作者提供作品的“直接或间接、临时或永久”拷贝的复制的专有权。欧盟版权指令中的第5条确定了可能应用于第2条中提供的权利的限制和例外情 况。第5条第1款中的复制权的强制性例外情况提供“暂时的和附带的”复制(该复制是 由媒介进行的网络传输的“本质的和完整的”部分),或允许作品的没有“独立经济意义”的 合法使用。其还防止权利持有者通过数字技术控制所有对作品的访问,该技术通过其特别的 设计,当将作品从诸如DVD的媒介传递到播放器的用于处理的存储器,然后传递到显示器 或扬声器时,制作作品的临时“拷贝”。受版权保护的公开物(例如,报纸、杂志、行业杂志、科学期刊,和其他期刊)的 监控,例如由媒体监控行业中的公司来有系统地执行,这些公司通过识别有重要性的(of interest)文章或其他文本部分来服务于他们的客户。执行监测,以帮助客户公司和个人掌 握在新闻媒体中提到他们的频率和程度。传统监控以人工阅读例如报纸为基础。当例如在媒体监控公司收到报纸时,将报 纸移交至合格的阅读人,其快速通读报纸,寻找相关文章,例如,提到其客户的文章。阅读人 寻找类似公司名称的词、人名,和/或其他代表某些主题、话题或主旨的关键词,以确定哪 些文章是相关文章。当在报纸的一页上发现关键词时,阅读人标记这些关键词。当已经阅读整页并且 已经标记所有关键词时,阅读人一个关键词一个关键词地进行评测,以确定该文章对于客 户来说是不是相关的。如果发现该文章是相关的,那么阅读人或助手将关于客户的文章物 理切割下来,并将其发送给客户。该过程的耗时部分是花费在寻找关键词上的时间。在左上角开始并在右下角结束 的每页的阅读时间相对于一页上的关键词的数量是不变的。这就导致如果一份报纸中只有 几篇相关文章,那么每次切割都非常耗时。因此,大部分时间花费在阅读上是低效率的。通过使用传统的扫描仪可能在一定程度上进行自动处理,该扫描仪一页一页地扫描整份报纸,并且生成报纸页面的数字图像,以储存电子版本(例如,以JPG、TIFF或PDF 格式),进而储存在文件系统或数据库中。然后,检索每个文件,以进行光学字符识别,以便 生成这样的文件在这些文件钟,根据一定的编码方案(例如,ASCII)表达各个所识别的 字符。也将这些文件储存在文件系统或数据库中。此外,对所谓的搜索引擎装载一组关键 词,搜索引擎进而检索字符和字符顺序编码在其中的这些文件,以提供切割列表的形式的 输出。切割列表为从报纸切割文章的人提供引导其到物理报纸中的该页面的信息——其规 定待切割的文章的名称和其大致位置。此自动处理使得生产率相对于人工处理大幅增加。然而,由于数字图像代表原始材料的电子拷贝,所以认为此处理在很多法规下侵 犯了作者的版权。在某些法规下,即使在显示屏上显示所扫描的图像,也会被认为是侵犯 作者的版权的行为。对于文本而言,无法直接搜索数字图像,而是需要通过光学字符识别 (OCR)将数字图像转换成编码数字形式。然而,从此转换的输出,即,编码数字形式的输出, 也将被认为是对版权的侵犯。在一些国家中,如果电子拷贝是搜索过程或概要文字的“暂时的和附带的”以及 “本质的和整体的”部分,那么可能不会将其认为是对作者的版权的侵犯。如果通过人工阅读文本媒体来进行的传统媒体监控过程是自动的,那么将会制作 文本媒体的拷贝。这些文本媒体的拷贝的产生是一个与版权法相关的问题。因此,版权法 可能是对自动媒体监控的障碍。因此,文本媒体的自动监控和防止违反版权法是仍待解决 的问题。因此,需要有一种技术解决方案来解决文本媒体(例如,报纸、书)的自动监控的 问题和避免违反版权法的问题。US 6,904,183 B2公开了一种包括电子摄像机的电子图像捕捉设备,电子摄像机 具有检测器和镜头,该镜头具有适于限制入射在检测器上的辐射的视场(view of field)。 提供一致动器,以将摄像机及其视场在文档上移动经过,并提供一控制器,以获得与文档的 不同区域相对应的一组重叠子图像。提供处理装置,以形成被这组子图像覆盖的文档部分 的复合图像。产生一组子图像,子图像各自包括与出现在相应子图像中的字符相对应的字 符数据集。将每个子图像的内容拼合(stitch,缝合)在空白文本文档中,以产生包含了所 扫描的文档的文本内容的完整复合文本文档。在拼合之前,子图像首先经过光学字符识别 (OCR)例程,因此,拼合在字符级别执行。这种扫描仪可能具有比所谓的平台式扫描仪占据 更少的桌面空间的优点。以上应用解决了文档的文本扫描的自动化的问题。但是,关于版权法,则是以上应 用或其他应用没有提出也没有解决的问题,因为以上应用钟的文档以数字形式被复制了。由于拷贝违反版权法,所以,当在印刷的文本媒体(例如,报纸或书)上进行文档 扫描时,或当在电子显示的文本文档(例如,电子书)上进行扫描时,需要解决此问题。因此,在现有技术中没有解决在不违反版权法的情况下自动监控新闻媒体的问 题。

发明内容
公开了一种扫描文档的用计算机执行的方法,包括以下步骤-将限于覆盖文档的界定区域(delimited,分割区域)的视域(field)的至少一 个记录获取至存储器;
-处理所述至少一个记录,以执行字符识别;-当识别出字符时,将其记录在存储器中;并且,在移动的位置进行记录的同时, 重复执行以上步骤,以逐渐获得字符串;其特征在于,-对照预定条件评测字符串;-如果不满足条件,从存储器清除字符串的至少一部分和至少一个记录的至少一 部分;-如果满足条件,确定是否提供输出。为了避免违反版权法,文本必须不能以数字形式复制或以其他方式拷贝。此问题的解决方案是,过滤文档内容以提取某人希望获得的信息,并过滤掉剩余 的信息。为了执行内容的过滤,必须定义过滤器特性。可通过预定条件定义过滤器特性。预 定条件可以是,例如,关键词的识别、字符串的最大长度等。如果关键词的识别是过滤器特 性,那么,根据这一点,仅关键词通过过滤器,而文档中剩下的信息将留在后面。通过过滤文 档的内容,不会得到文档的完整拷贝,并且仅从文档中提取期望的信息。期望的信息可以是比文档中的所有信息少的信息,使得仅提取文档内容的一部 分,因此,优选地,决不会将文档的大部分作为输出来提供。实际上,当过滤器识别关键词时,可以存储关键词及该关键词在文档中的位置。一 旦存储了关键词及其位置,便可删除包含关键词的记录,例如图像,因为所有关于该关键词 所需要的信息都被登记了。这样,不会产生文档的任何拷贝,因为扫描涉及过滤处理而不涉 及拷贝产生。可以将利用此方法的扫描表示为窥视孔扫描。窥视孔扫描可通过将像场(image field,像域、像区)移动至移动位置并用摄像机获取记录来执行。然而,也可通过在文档页 上方安装多个摄像机并依次使用这些摄像机来获取记录来执行窥视孔扫描。此外,也可通 过(例如)显示文档的屏幕或其他形式的连续文档表示的视频记录来执行窥视孔扫描。此外,有利的是,窥视孔扫描仪执行电子输入的基于内容的评测,以发现文档信息 的相关片段,即,关键词。窥视孔扫描仪执行内容的过滤,其中,内容是文档片段的形式。当评测字符串并且例如进行输出时,从存储器清除部分字符串和记录,以排除在 扫描过程中产生文档的拷贝或部分文档的拷贝。在扫描过程中一开始就执行过滤处理,因此,窥视孔扫描仪在一个词(word)接一 个词的等级上进行搜索处理,以防止制作文档的拷贝并避免违反版权法。因此,调节执行文档扫描的计算机和相关设备、器材和/或机器的硬件或软件,使 得其以相对于版权法来说在法律上正确的方式起作用。如果没有从存储器清除表示文档内 容的信息,那么就违反了版权法。相反,如果清除了所有表示文档内容的信息,将不会获得 可用于文本媒体的监控的信息。本发明提供上述在不清除任何信息与清除所有信息之间的 方法。本发明使得可以执行文本媒体的自动监控同时避免违反版权法。因此,本发明通过上述计算机执行的扫描方法,解决了监控文本媒体的处理的自 动化问题,并且,本发明通过从存储器清除表示文档内容的信息的一部分,解决了避免违反 版权法的问题,使得在存储器中将不会存在文档的完整拷贝。
除了上述优点以外,本发明包括已知技术的自动化效果和优点,例如快速且可靠, 降低人工执行的人力工作的成本,减少人们可能犯的错误和不规则性等。此外,有利的是,与现有技术相比,对于数据存储可能需要更小的存储器或更少的 存储容量,因为在文档的扫描过程中从存储器连续地且规则地清除并删除数据。字符可以是文字、符号、标记和/或字素(grapheme),例如字母、汉字、数字、标点 符号,以及世界上任何文字系统(writing system)中的所有单独符号。在一个实施方式中,预定条件包括出现在预定关键词的其中一个中的字符串。本 实施方式的一个优点是,如果在字符串中发现整个关键词,或者如果在字符串中发现关键 词的一部分,那么不会立即清除此信息,而是确定是否提供输出。因此,在此情况中,期望的 信息可以是整个关键词或关键词的一部分。如果在所扫描的文档中没有关键词的表示,那么将不存储内容。但是,如果有存在 关键词的表示,那么将不会立即清除字符串,而是考虑确定其是否包含期望的信息。在一个实施方式中,预定条件包括,评测比预定数量的字符少的字符。本实施方式 的一个优点是,确保,如果所评测的字符的数量超过预定上限或阈值,那么将停止字符识别 处理。如果评测过多字符,那么可能违反版权法,但是,本实施方式确保这将不会发生。在一个实施方式中,预定条件包括,字符字体大小小于预定字体大小。本实施方式 的一个优点是,如果字符字体大小大于最大的预定字体大小,那么将停止字符识别处理,以 避免扫描大字符,否则这可能将是非常耗时且低效率的任务。在一个实施方式中,基于字符串是否与预定关键词匹配来确定是否提供输出。本 实施方式的一个优点是,取决于存在关键词匹配来确定是否应该提供输出。输出可在匹配 过程中提供,这在当字符串的一部分与关键词匹配时提供,或当字符串形成完整的关键词 时提供。在一个实施方式中,输出是对包括至少一个记录的文档中的位置的参考,上述至 少一个记录包含构成(contribute to)针对条件进行正向评测的字符串的内容。本实施方 式的一个优点是,将输出作为关键词在文档中的地点/位置/区域的参考,因此,当从存储 器清除记录和关键词之后,然后可以发现上述地点/位置/区域,因此,给出记录(包含了 关于关键词位置的信息)的位置的参考。有利的是,获得位置确定的记录,这将使得在后面 更易于对记录给出参考。在一个实施方式中,将与字符串匹配的关键词布置在文档模板中代表相应词在经 受扫描的文档中的位置的位置处。本实施方式的一个优点是,在文档模板上可接着布置并 接着重新发现关键词,以在切割、列表生成、摘要书写等中使用。文档模板用来给出关键词 在原始文档中的物理位置的概览,而不制作文档拷贝。除了关键词以外的所有其他词都可以例如在文档模板中用灰色区域表示。也可 在文档模板中表示关键词的字体大小和例如灰度颜色,使得可以确定关键词是否位于标题 中,是否位于主体文本中等。在一个实施方式中,生成并存储关于在文档中的位置和/或所发现的关键词的长 度的信息。本实施方式的一个优点是,可在后面发现关键词(一个或多个)在文档中的位 置,并且,可用该信息来比较关键词相对于彼此的位置,以确定关键词是否位于彼此附近。当与其他关键词结合时,关键词可以具有特殊意义,并且,关键词相对于彼此的位置可能包含对于客户来说重要的信息。可通过不同方式来确认关于关键词的位置的信息,例如_通过关键词的坐标;-通过关键词所处的行的位置;-通过关键词在所处的文档中是哪一编号的词;_通过印刷符号,其中,印刷符号包括句号、逗号等;-通过关键词在所处的文档的哪一编号的句子中;-通过关键词处于哪一编号的区段/段落中。在一个实施方式中,输出包括代表满足预定条件的字符串的代码。本实施方式的 一个优点是,可通过任何适当的代码(例如,字符、符号、参考数号、对关键词表的索引等) 来代表字符串与关键词匹配的输出。在一个实施方式中,输出包括对预定关键词列表中其中一个预定关键词的参考。在一个实施方式中,输出包括预定关键词的其中一个。在一个实施方式中,输出包括其中一个预定关键词和对这样的位置的参考,该位 置代表相应词在经受扫描的文档中的位置。在一个实施方式中,当提供输出时,清除字符串。本实施方式的一个优点是,当输 出字符串的内容时,就将其从存储器清除,这样不会产生文档的拷贝。通过输出给出所需要 的关于字符串的所有重要信息。在一个实施方式中,本方法包括将所选择的记录拼合在一起而成为复合记录。本 实施方式的一个优点是,可以将所选择的记录拼合在一起而成为更大的记录或图像。这是 有利的,因为,如果对包含许多不同字体大小的字符(即,标题的大字符字体大小和主体内 容、说明文字等的较小的字符字体大小等)的报纸进行扫描,视域尺寸有时将比字符的字 体大小小很多。并且,由于优选地,视域尺寸可以比经受字符识别的最小的字符对象的字体 大小的例如5倍小,所以较大的字符将通常延伸经过不止一个记录,因此,需要将所选择的 记录拼合在一起。可以将文档页上的字符的字体大小作为输入提供给窥视孔扫描仪,例如,由操作 员等键入。在一个实施方式中,处理复合记录,以执行对延伸经过多个所选择的记录的字符 的识别。本实施方式的一个优点是,在将记录拼合在一起之后,可执行延伸经过多个所选择 的记录的字符的字符识别,因为复合记录将提供完整字符的图像或记录。在一个实施方式中,当处理至少一个记录以识别字符未导致字符的识别时,执行 将所选择的记录结合在一起而成为复合记录的步骤。本实施方式的一个优点是,当不可以 从至少一个记录的处理识别字符时,执行复合记录的拼合和处理。这样,即使字符延伸经过 不止一个记录,也可确定这些字符。在一个实施方式中,预定条件包括,当已经拼合预定数量的记录时,所拼合的复合 记录是否导致字符的识别。本实施方式的一个优点是,加以注意,并且,如果复合记录与字 符不相似,那么可以停止处理。然后,复合记录可以是图片的一部分。预定数量的所拼合的 复合记录可以确保,不会由于扫描仪搜索字符,而将无意地处理完整的图像。通过本方法, 确保适当的预定最大数量的拼合记录被选择,从而不会违反版权法。
本实施方式的另一优点是,确保将在达到记录数量的上限或阈值之前加以注意。 如果在扫描停止之前评测过多的记录,那么可能违反扫描版权法,但是,本实施方式确保这 将不会发生。在一个实施方式中,预定条件包括,在相邻记录中出现相同的颜色。本实施方式的 一个优点是,如果相邻记录(即,彼此紧邻的记录)包含相同的颜色,那么这些记录将可能 是字符而不是图片。另一方面,如果相邻记录不包含相同的颜色,那么其可能是图片、照片、 图画等的记录。为了避免扫描图片,将清除文档的此部分的扫描。在一个实施方式中,当满足预定条件时,清除复合记录。本实施方式的一个优点 是,当满足条件时,例如,进行输出并从文档获得所有期望的信息时,可清除记录的拼合。这 样,某人将避免制作文档的拷贝,进而避免违反版权法。在一个实施方式中,将视域构造为具有彼此相邻地布置为在连续文本(S卩,完整 文本)中的11个词的尺寸。替代地,将视域构造为具有在连续文本中彼此相邻的5个词的 尺寸、在连续文本中彼此相邻的15个词的尺寸、在连续文本中彼此相邻的20个词的尺寸、 在连续文本中彼此相邻的25个词的尺寸等。如果视域包括彼此相邻地布置在连续文本中 的11个词,那么视域可以覆盖书的一页的宽度或A4文档尺寸的文档的宽度,同时,视域的 高度可以是字体的尺寸。如果扫描多栏目页面,例如报纸页面,那么每个栏目行可以包含比 在连续文本中彼此相邻的11个词少的词,并且,多栏目页面的宽度由此也可以包含比在连 续文本中彼此相邻的11个词少的词。多栏目页面的宽度可以包含多于11个词,但是,这11 个词在连续文本中可能不是彼此相邻的。因此,在一个实施方式中,将视域构造为具有与文 档的宽度和字符的字体大小的高度相对应的尺寸。在一个实施方式中,将视域构造成具有比经受字符识别的最小字符的尺寸的5倍 小的尺寸。替代地,将视域构造为具有如下定义的尺寸-具有10mm、20mm、30mm 等的尺寸;-每个文档页面的视域对应预定的数量,例如,100或200;-与最大的字符字体大小相关;-与最小的字符字体大小相关;-与文档页面尺寸相关。这些实施方式的优点是,确保在一个记录中不扫描过多字符,因为这会导致扫描 过多文本,由此会无意地违反版权法。通过确保视域具有例如比最小字符的字体大小的5 倍小的尺寸,一次不可能无意地扫描过多字符。视域的尺寸还可以比最小字符的字体大小的4倍小,或比最小字符的字体大小的 6倍小。在一个实施方式中,同时获取至少两个记录。本实施方式的一个优点是,通过例如同时垂直地获取多个记录,扫描处理可以变 得明显更快。同时,记录过多文本(其可能会违反版权法)的危险将不存在,因为,通过垂 直地获得多个记录,将不同时记录水平地书写在文档页面上的词和句子。当已经处理记录以执行光学字符识别,并且出现 任何关键词都被识别或满足另 一条件时,每个记录最终都被清除,因此,不会制作出文档的拷贝。
此外,在一些语言中以及在一些国家中,在页面上可能是从右向左阅读,而不是从 左向右阅读,和/或垂直地阅读而不是水平地阅读,和/或从页面底部向页面顶部阅读,而 不是从页面顶部向页面底部阅读,等等。因此,也可以在页面上从右向左而不是从左向右地 执行扫描,和/或垂直地而不是水平地执行扫描,和/或从页面底部向页面顶部而不是从页 面顶部向页面底部地执行扫描,等等。在一些实施方式中,在所扫描的文档上的文本的处理可以包括机器翻译(MT),其 是计算语言学的领域,其中,用计算机软件将文本从一种语言翻译成另一种语言。基本上, 机器翻译执行一种语言中的词向另一种语言中的词的简单替换。机器翻译可以是基于规则 的机器翻译、基于实例的机器翻译、统计机器翻译(SMT)等。在一些实施方式中,在所扫描的文档上的文本的处理可以包括重述或改述,S卩,可 以将文本的词或句子重述或改述成相同语言的具有与原始词或句子相同意义的不同词或 句子。当使用根据本发明的方法时,例如,扫描三个词,将其存储在存储器中,然后进行处 理。通过软件程序产生三个词的意义或意思,并且,对三个原始词产生一个或多个同义词或 同义句。因此,生成了原始词、句子或文本的等同词、句子或文本,具有与原始词、句子或文 本相同的意义或意思,但不违反版权法。应理解,可以处理多于或少于三个词,以重述或改 述原始文本或部分文本。在窥视孔扫描处理的一些实施方式中,在扫描之前,利用某种覆盖物在第一区域 中部分地隐藏或覆盖待扫描的文档,并且,当已经扫描所覆盖的文档,且已经处理并删除内 容和图像时,随之在扫描之前利用某种覆盖无再次部分地隐藏或覆盖文档,但是,现在是在 相对的第二区域中。有利的是,扫描可这样执行,部分地覆盖待扫描文档,然后在相对区域中部分地覆 盖该文档,因为这使得扫描可快速且有效地执行。本发明涉及不同方面,包括上述和下述的方法,以及相应的方法、装置、使用和/ 或产品装置,每个均产生一个或多个结合第一所述方面描述的好处和优点,并且,每个均具 有与结合第一所述方面描述的和/或在所附权利要求中公开的实施方式相应的一个或多 个实施方式。特别地,这里公开的是计算机可读的介质,其编码有当在计算机上运行时执行根 据以上任一实施方式的方法的程序。另一方面是包括扫描装置和装载有程序的计算机的系统,当上述程序在计算机上 运行时,该程序执行根据以上任一实施方式所述的方法。又一方面是文档扫描仪,包括-扫描头,用于获取至少一个限于覆盖文档的界定区域的视域的记录;-处理器,适于识别记录中的字符;_数据存储器,用于存储至少一个记录并用于存储所识别的字符;-程序存储器,在处理器上存储一组可执行程序指令,以执行根据任一实施方式的 方法。


下面将参考附图给出实施方式的详细描述,附图中
图1示出了扫描方法的流程图;图2示出了窥视孔扫描仪的全部处理过程;图3示出了窥视孔扫描处理的一个实例;图4示出了与阅读头运动重叠的报纸页面的区段;图5示出了窥视孔扫描处理的一个实例。
具体实施例方式本发明的数字扫描仪扫描文档,而不会生成文档的数字拷贝。在扫描操作的任何 给定时间,所谓的窥视孔扫描仪可以在其存储器中仅包含几个词或部分词,如果这些词与 预定词列表中的词不相应,则之后清除或重写这些词或部分词。通过此扫描和搜索方法,使 用者不应侵犯相应作者的版权。图1示出了扫描方法的流程图。可以通过移动记录的位置101来执行扫描,例如,通过扫描仪在文档(例如,报纸) 的表面上方以连续方式移动来进行,并且,对于每个步骤,扫描仪都获取在文档的视域中的 记录(例如,图像)102。视域优选地是小的,并且,可以不同方式来定义视域的尺寸-视域可构造成具有比经受字符识别的最小字符的字体大小的5倍小的尺寸;-视域可构造成具有IOmm的尺寸;-视域可构造成具有与预定数量的记录或每个文档页面的像域相对应的尺寸;-视域可构造成具有与最大字符字体大小相关的尺寸;-视域可构造成具有与最小字符字体大小相关的尺寸;_视域可构造成具有与文档页面尺寸相关的尺寸。如上所述,可通过将像域移动至移动位置并用摄像机获取记录来执行窥视孔扫 描。替代地,也可通过在文档页面上方安装多个摄像机并依次使用这些摄像机获取记录来 执行窥视孔扫描。例如,可以在文档上方成正方形地安装100个摄像机,并且,右上角的第 一摄像机可以获取第一记录,与第一摄像机相邻的第二摄像机可以获取第二记录等,直到 已经扫描整个文档为止。也可通过(例如)显示电子文档(例如,电纸书(electronic book)或电子书 (e-book))的显示屏的视频记录来执行窥视孔扫描。可通过在位于固定窥视孔扫描仪(例 如,视频摄像机)的前面的显示屏上向上或向下滚动文档来记录显示屏上的文档,或者可 通过移动窥视孔扫描仪经过屏幕来记录显示屏上的文档。在所有情况中,例如,可水平地或 垂直地执行扫描。此外,可以通过使用来自计算机的监视器输出(例如,视频图形阵列(VGA)监视器 信号等),来执行视频放映。监视器信号携带将在监视器上显示的连贯的电子文档。窥视孔 扫描仪可以从连贯的监视器信号提取窥视孔窗口,例如,40个连续扫描行的每一行中的40 个像素,从而,可以从监视器信号中取出与窥视孔窗口对应的图像。然后,可以向下或向上 或向左或向右或对角地等移动窥视孔窗口,并且,可以用窥视孔扫描仪扫描新的窥视孔窗 口。在每次扫描时,均获得与窥视孔窗口对应的图片。然后,所记录的数据可以通过字符识 别在计算机中转化,并进行如上所述的处理。在扫描处理中的每个步骤之后,窥视孔扫描仪都将包含文档表面的区段的小的记录103,例如,图像。该记录可以是灰度的、黑/白的(即二元的)、或彩色的。用光学字符识别(OCR)分析每个记录或图像区段,以确定其是否包含字符、部分 字符、部分图片、空白视域或其组合104。如果记录区段包含字符,那么该记录区段被登记并被转移至所谓的词构造器105, 见下文。如果记录区段包含字符的一部分且字符因此未被识别,那么进行下一次记录106, 并且,OCR等候确定是否可将这些记录区段拼在一起,以形成字符,该字符可被转移至词构如果记录区段包含图片或图片的一部分,那么可以清除该图片部分,以避免拷贝 受版权保护的图片、照片等。记录区段的剩余部分将用来确定,是否可将其与后续的记录区 段拼在一起以形成字符。在连续处理中,词构造器将收集所扫描的字符,并尝试形成有意义的词。将对照预 定条件107(例如,用于识别的关键词列表)测试这些潜在的词。如果识别词,那么就产生 并记录一吻合(hit),并确定108是否应进行输出109,然后,可以进行更多的记录。如果字 符串与预定条件不匹配,那么从存储器清除字符串的至少一部分和至少一个记录的至少一 部分110。当测试字符串是否满足关键词时,而且,当字符串形成通过连字号在例如两行上 延展的词时,检查完整的字符串。因此,如果连字号作为现有行上的最后一个字符标记出 现,那么窥视孔扫描仪将继续扫描下一行。窥视孔扫描仪可像传统的扫描仪一样发挥作用。传统的扫描仪通过设置像域、获 得图像,并将图像存储在存储器中来起作用。此外,传统的扫描仪可执行OCR和搜索引擎(SE)处理(关键词匹配)的任务。当 传统的扫描仪执行这些步骤时,所获得的信息被存储,从而制作出所扫描的文档的拷贝。扫描仪可以是平台式扫描仪、滚筒式扫描仪、进给式扫描仪等。窥视孔扫描仪可以执行这些相同的三个任务扫描、字符识别和关键词匹配。但 是,窥视孔扫描仪在一个连续操作中执行这些任务,且不会生成文档的任何拷贝。传统的 扫描仪典型地同时获取整个文档的图像,而窥视孔扫描仪每次仅获得文档的界定区域的图 像。图2示出了窥视孔扫描仪的整个处理过程,而图1示出了其详细的处理过程。窥 视孔扫描仪“阅读”文档301,执行光学字符识别(OCR) 302,并搜索词303,如图1中的那样。 产生的输出是所扫描的文档包含的词的某种表示。此表示可用于不同的目的,例如,用于产 生切割列表,用于产生关键词列表,用于制作可能的摘要书面文字等304。窥视孔扫描仪可以结合硬件、固件和软件部件。图3示出了窥视孔扫描处理的一个实例,其整体上与图1的作用类似。在图3a) 中,将文档页面401放在扫描仪402下方。将扫描仪的阅读头403布置在轨道405 ( 一个或 多个)上,上述轨道可在导轨406 (—个或多个)上移动,以在文档的整个表面上方移动。 阅读头403通过扁平电缆、USB连接、红外线通信等与阅读头运动控制器408和扫描定序器 (SS)407连接,见图3b)。在一个实例中,阅读头是具有8位灰度分辨率的100X 100像素的CXD阵列。因此,窥视孔在物理窗口视域中包含10000个像素,相当于IcmX Icm,其等于小型页面尺寸的 千分之一。虽然这里提到阅读头的一个实例,但是应理解,阅读头可具有任何规格。在图3b中,扫描定序器(SS) 407控制阅读头运动408。通常,阅读头的运动是从左向右往复循环。如果光学字符识别(0CR)409和拼合 (jigsaw)OCR 410(见下文)针对以另一方式移动阅读头的请求设置了进程(stage,步骤), 例如,水平向左、垂直向下或沿对角线地向上,那么会改变此顺序。阅读头运动408可能由TWAIN接口控制,TWAIN接口是针对图像获取装置的标准。 TWAIN接口可以控制扫描仪阅读头的位置(即,阅读头的χ、y坐标),并控制坐标的增加 (即,Δχ、Δγ)等。OCR 409执行一系列任务。它可以搜索窥视孔视域的内部区域,以定位一个或多个 完整字符,然后,它可以搜索边界,以定位可形成部分字符的形状。此OCR寻找垂直和水平 边界线的片段。此OCR可以寻找行空间并评测对准。此OCR可以寻找连续的标记和栏目分 隔间隔。此OCR可以寻找是较大字符的一部分的单灰色色调形状。此OCR可以寻找具有变 化的灰色色调的区域,该区域可以是图片的一部分。将所识别的字符(例如,带有其字体大 小和在文档中的位置)转移至词构造器411。虽然这里提到了 OCR任务的实例,但是应理解,可以任何适当的方式执行OCR扫描。拼合OCR 410使相邻的窥视孔图像或记录(例如,2、4、9或16个窥视孔图像)结 合以形成窗口,然后,这些窗口在重复处理中经受OCR处理。拼合OCR 410与扫描定序器 407与相互作用,并请求其需要哪个相邻窥视孔来制造字符的完整图像。每个扫描与达到8 个的相邻扫描相结合,分析每个扫描以识别字符或部分字符、行和图片。词构造器411从OCR 409和拼合OCR 410 一个接一个地接收例如包括其字体大小 和位置的字符。这些字符串包括相等的间隔/空白字符和换行。词构造器411将字符组成 词,并可以将这些词与关键词列表进行比较。可以清空/清除或用特殊字符代替被识别成 是关键词列表中的词或字符。可以用预定的灰色色调或Pictel代替具有图片、照片等的区 域。结合有空格字符和垂直行检测的拼合OCR扫描可以评测页面的给定区域中的栏目分离 的似然性。最后,在页面的末尾扫描之后,HIT收集器412可以具有组合成的所有相关关键 词和例如标题行的列表,并且,产生的输出可以是吻合词列表及其在文档中的位置,该输 出可以是具有所示关键词的空白页面的呈现(巡测空白处理,surveying the blanking process),或者,其可以是任何其他适当的输出形式。替代地和/或附加地,所扫描的文档上的文本的处理可以包括机器翻译(MT),其 是计算语言学的领域,其中,使用计算机软件将文本从一种语言翻译成另一种语言。基本 上,机器翻译执行一种语言中的词向另一种语言中的词的简单替换。机器翻译可以是基于 规则的机器翻译、基于实例的机器翻译、统计机器翻译(SMT)等。替代地和/或附加地,在所扫描的文档上的文本的处理可以包括重述或改述,即, 可以将文本的词或句子重述或改述成相同语言的具有与原始词或句子相同意义的不同词 或句子。当使用根据本发 的方法时,例如,扫描三个词,将其存储在存储器中,然后进行处理。通过软件程序生成三个词的意义或意思,并且,生成三个原始词的一个或多个同义词或 同义句。因此,生成了原始词、句子或文本的等价词、句子或文本,其具有与原始词、句子或 文本相同的意义或意思,但不违反版权法。应理解,可以处理多于或少于三个词,以重述或 改述原始文本或文本的一部分。图4a示出了与阅读头运动重叠的报纸的虚构前页面的区段,其中,扫描整体上与 图1的作用类似。起始点在文档页面的左上角。前三个窥视孔扫描(PH扫描)501、502、 503将被标记为没有内容,并被清除或由空白(大约是相同的颜色)重写。第四PH扫描 (PH4) 504包含信息,但是没有字符被OCR识别。因此,请求第五垂直PH扫描(PH5)505,并将 其与PH4结合。OCR查看结合的扫描PH4+PH5,并检测字符“Thurs”和其他一些内容。扫描 定序器请求第六和第七扫描,PH6506和PH7507。将扫描PH4+PH5+PH6+PH7结合,并将其提 交给拼合OCR。该OCR返回词“Thursday”和字符“30t”以及其他一些内容。扫描定序器继 续请求下一个扫描。可以将词“Thursday”和例如其字体大小转移至词识别器。由于字体大 小的原因,可以将词分类成属于报头或标题句子。通过下次扫描,将识别出词“Newspaper”寸。图4b示出了主体文本的扫描,其遵循类似的搜索策略,如图1所示,一步接一步地 一个字符一个字符地显现,并一个词一个词地组合。然后,可以将每个所组合的词与关键词 列表进行比较。如果一个词未在关键词列表中被发现,那么可以用空白重写该词所占据的 区域,并将其从存储器清除。图4b中的实例示出了垂直扫描顺序。搜索处理将所示文本片段中以下的词 “Infopaq”、名字“Jacob” (忽略连续标记)和最后的姓“Meibom”显现。可以使文档中的任 何图片成为空白。图5示出了窥视孔扫描处理的一个实例,其整体上与图1的作用类似。在图5a) 中,在扫描之前,已经用某种类型的覆盖物在区域601中部分地隐藏或覆盖待扫描文档 600。当已经扫描图5a)中所示的被覆盖的文档,并已经处理和删除内容与图像时,然后,如 图5b)中所示的,在扫描之前用某种类型的覆盖物再次部分地隐藏或覆盖文档600,但现在 是在相对的区域603中进行隐藏或覆盖。如图5a)所示,当例如以传统扫描仪扫描部分覆盖的文档时,不产生文档的拷贝, 因为文档的整个内容由于部分覆盖而是看不见的或不可理解的。因此,仅文档的界定区域 602被扫描,并被存储在扫描仪的存储器中。处理被部分覆盖的文档的所扫描的图像,以执 行光学字符识别(OCR)。将所登记的字符存储在存储器中,并且,当获得字符串时,对照预定 条件评测该字符串。根据是否满足预定条件,可以提供输出,并且,从存储器清除字符串的 至少一部分和所扫描的图像的至少一部分,因此,所扫描的图像的内容(其仅代表文档600 的一部分602)和所扫描的图像本身被至少部分地删除了。因此,最终可以删除整个所扫描 的图像(其仅描述文档600的一部分602),因此,不再将文档600的部分602的扫描存储在 存储器中。现在,如在图5b)中看到的,与之前的区域相比,在相对的区域603上部分地隐藏 或覆盖相同的文档600。如上所述,当用例如传统的扫描仪扫描该被部分覆盖的文档时,不 产生文档的拷贝,因为文档的整个内容由于部分覆盖的原因而无法看见或理解。因此,仅扫 描文档600的界定区域604并将其存储在扫描仪的存储器中。处理被部分覆盖的文档的扫描图像,以执行光学字符识别(OCR)。将所登记的字符存储在存储器中,并且,当获得字符串 时,对照预定条件评测该字符串。根据是否满足预定条件,可以提供输出,并且,从存储器清 除字符串的至少一部分和所扫描的图像的至少一部分,因此,所扫描的图像的内容(其仅 代表文档600的一部分604)和所扫描的图像本身被至少部分地删除了。因此,最终可以删 除整个所扫描的图像(其仅描述文档600的一部分604),因此,不再将文档600的该部分 604的扫描存储在存储器中。因此,当启动在区域603中被覆盖的文档600的扫描时,如图5b)所示,在区域601 中被覆盖的文档600的扫描图像已经被删除了,如图5a)所示,因此,描述整个文档600的 完整图像将不会存在。在记录、处理并删除文档600的部分604之前,将记录、处理并从存 储器清除文档600的部分602。区域602和604可以彼此重叠,例如部分重叠,以确保在例如所覆盖的区域601和 603是歪斜的,或记录在某种程度上是歪斜的的情况下,文档中没有部分被损失。可以通过将不透明材料或对象物理地放在文档600的待覆盖的部分上,来提供覆 盖物601、603。替代地和/或附加地,可以通过将不透明材料或对象物理地放在扫描仪的阅 读头或玻璃板上,来提供覆盖物601、602。覆盖材料可以是,例如,纸、不透明带、不透明塑 料、金属和/或类似物。替代地,可以通过阅读器头的电子掩蔽或选通来提供覆盖物601和603。例如,扫 描线可以是高度为1像素,长度为3000像素。然后,阅读器头可以扫描文档的每条扫描线 的一部分,并删除每条扫描线的另一部分。例如,阅读器头可以扫描一扫描线的第一部分, 例如像素数1-100,删除该扫描线的第二部分,例如像素数100-200,扫描该扫描线的第三 部分,例如像素数200-300,删除该扫描线的第四部分,例如像素数300-400等等,直到每条 扫描线的每个部分都被扫描或者删除为止。然后,在处理扫描线的所有扫描部分之后,将其 从存储器清除,现在,扫描扫描线的所有在之前未被扫描而是被删除了的部分,并且,扫描 线的之前被扫描了的部分现在被删除,例如,删除扫描线的第一部分,例如像素数1-100,扫 描扫描线的第二部分,例如像素数100-200,删除扫描线的第三部分,例如像素数200-300, 扫描扫描线的第四部分,例如像素数300-400等等。删除扫描线的一部分包括没有对存储 器进行输入,即扫描线的该部分的内容被压制或忽略了。在报纸页面上,字母或字符可以是高度15至20像素,并且,页面长度可以是3000 像素,与如上所述的扫描线相对应。因此,通过扫描或删除扫描线的部分,可获得与图5所 示的覆盖物相应的电子掩蔽。此外,图片典型地是灰度或颜色变化的,并且,当扫描仪检测到文档上的灰度或颜 色变化时(例如由阅读器头检测到),向包含灰度或颜色变化的像素分配一特定值,然后, 清除或覆盖所有具有此特定值的所有像素,以隐藏这些像素的内容,其可能是图片。覆盖物601、603的形式和形状可以是图5所示的列。替代地和/或附加地,覆盖物 601、603的形式和形状可能是正方形、检查图案、格栅、三角形、圆形、线条、具有任何数量的 边的多边形等。
权利要求
一种扫描文档的计算机执行的方法,包括以下步骤 将限于覆盖文档的界定区域的视域的至少一个记录获取至一存储器; 处理所述至少一个记录,以执行字符识别; 当字符被识别时,将该字符记录在一存储器中;以及,当在移动位置进行记录的同时,重复执行以上步骤,以逐渐获得字符串;其特征在于, 对照预定条件评测所述字符串; 如果不满足条件,从所述存储器清除所述字符串的至少一部分和所述至少一个记录的至少一部分; 如果满足条件,确定是否提供输出。
2.根据权利要求1所述的计算机执行的方法,其中,所述预定条件包括所述字符串在 其中一个预定关键词中出现。
3.根据权利要求1或2所述的计算机执行的方法,其中,预定条件包括评测到少于预定数量的字符。
4.根据权利要求1至3中任一项所述的计算机执行的方法,其中,预定条件包括字符字 体大小小于预定的字体大小。
5.根据权利要求1至4中任一项所述的计算机执行的方法,其中,基于所述字符串是否 与其中一个预定关键词匹配来确定是否提供输出。
6.根据权利要求1至5中任一项所述的计算机执行的方法,其中,所述输出是对包含至 少一个记录的文档中的位置的参考,该至少一个记录包含构成针对所述条件被正向评测的 字符串的内容。
7.根据权利要求1至6中任一项所述的计算机执行的方法,其中,将与所述字符串匹配 的关键词布置在文档模板中的这样的位置处,该位置代表相应词在经受扫描的文档中的位置。
8.根据权利要求1至7中任一项所述的计算机执行的方法,其中,生成并存储关于所述 文档中的位置和/或所发现的关键词的长度的信息。
9.根据权利要求1至8中任一项所述的计算机执行的方法,其中,所述输出包括代表满 足所述预定条件的所述字符串的代码。
10.根据权利要求1至9中任一项所述的计算机执行的方法,其中,所述输出包括对预 定关键词列表中的其中一个预定关键词的参考。
11.根据权利要求1至10中任一项所述的计算机执行的方法,其中,所述输出包括预定 关键词的其中一个。
12.根据权利要求1至11中任一项所述的计算机执行的方法,其中,所述输出包括预 定关键词的其中一个和对这样的位置的参考,该位置代表相应词在经受扫描的文档中的位置。
13.根据权利要求1至12所述的计算机执行的方法,其中,当提供输出时,清除所述字符串。
14.根据权利要求1至13中任一项所述的计算机执行的方法,包括将所选择的记录拼 合在一起而成为复合记录。
15.根据权利要求14所述的用计算机执行的方法,其中,处理所述复合记录,以执行对 延伸经过多个所选择的记录的字符的识别。
16.根据权利要求14所述的计算机执行的方法,其中,当处理所述至少一个记录以识 别字符的操作未导致字符的识别时,执行将所选择的记录拼合在一起而成为复合记录的步马聚ο
17.根据权利要求14所述的计算机执行的方法,其中,所述预定条件包括,当已经拼合 预定数量的记录时,所拼合的复合记录是否导致字符的识别。
18.根据权利要求14所述的计算机执行的方法,其中,所述预定条件包括所述字符串 在其中一个预定关键词中出现。
19.根据权利要求14所述的计算机执行的方法,其中,所述预定条件包括评测到少于 预定数量的字符。
20.根据权利要求14至19中任一项所述的计算机执行的方法,其中,所述预定条件包 括字符字体大小小于预定的字体大小。
21.根据权利要求14至20中任一项所述的计算机执行的方法,其中,所述预定条件包 括在相邻记录中出现相同的颜色。
22.根据权利要求17所述的计算机执行的方法,其中,当满足预定条件时,清除所述复 合记录。
23.根据权利要求1至22中任一项所述的计算机执行的方法,其中,将所述视域构造为 具有彼此相邻地布置在连续文本中的11个词的尺寸。
24.根据权利要求1至23中任一项所述的计算机执行的方法,其中,将所述视域构造为 具有与所述文档的宽度和字符的字体大小的高度相对应的尺寸。
25.根据权利要求1至22中任一项所述的计算机执行的方法,其中,将所述视域构造为 具有比经受字符识别的最小字符的尺寸的5倍小的尺寸。
26.根据权利要求1至25中任一项所述的计算机执行的方法,其中,同时获取至少两个 记录。
27.一种计算机可读的介质,编码有当在计算机上运行时执行根据权利要求1至26中 任一项所述的方法的程序。
28.—种包括扫描装置和装载有程序的计算机的系统,当所述程序在计算机上运行时, 所述程序执行根据权利要求1至26中任一项所述的方法。
29.一种文档扫描仪,包括-扫描头,用于获取限于覆盖文档的界定区域的视域的至少一个记录;-处理器,适于识别所述记录中的字符;-数据存储器,用于存储至少一个记录并用于存储所识别的字符;-程序存储器,在所述处理器上存储一组可执行程序指令,以执行根据权利要求1至26 中任一项所述的方法。
全文摘要
一种扫描文档(例如报纸或书)的用计算机执行的方法,其中,可以在法律上防止对文本进行未授权的拷贝,包括以下步骤将限于覆盖文档的界定区域的视域的至少一个记录获取至存储器;处理至少一个记录,以执行字符识别;当识别出字符时,将其记录在存储器中;并且,在移动的位置记录的同时,重复执行以上步骤,以逐渐获得字符串;并对照预定条件评测所述字符串。如果不满足条件,从存储器清除所述字符串的至少一部分和所述至少一个记录的至少一部分;如果满足条件,确定是否提供输出。
文档编号G06F17/30GK101981569SQ200980108147
公开日2011年2月23日 申请日期2009年3月5日 优先权日2008年3月7日
发明者拉尔斯·斯蒂格·尼尔森, 雅各布·梅布姆 申请人:Jl私人控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1