自动创建索引的图像形成装置及其方法

文档序号:6563086阅读:110来源:国知局
专利名称:自动创建索引的图像形成装置及其方法
技术领域
本发明涉及一种图像形成装置,以及一种在图像形成装置中自动创建索引的方法。更具体地讲,本发明涉及一种图像形成装置,其在复制多张文档页时,通过提取与其它一般文本不同的特殊文本作为索引来创建包括页信息的索引页,本发明还涉及一种自动创建该索引页的方法。
背景技术
一般,图像形成装置能够通过扫描放置在文档托盘上的文档页来复制文档的图像,并能够打印与该文档的复制图像相同的图像。典型地,图像形成装置可以包括扫描仪、复印机、打印机、传真机以及在其中组合了其它装置的功能的多功能外设(MFP)。
通常,图像形成装置扫描文档以便将读取的数据传输到外部设备,诸如主机设备或另一个图像形成装置。图像形成装置还能够在打印纸上打印出从外部设备接收的图像或自己扫描的图像。当文档有很多页时,图像形成装置仍以相同的方式处理该文档。
然而,当传统图像形成装置处理具有多页的文档时,为了确定传输到外部设备或打印的文档的内容,用户需要阅读整个文档。而且,可能需要用户使用主机设备或应用程序来手工创建索引页。在这种情况下,就需要一个在主机设备上运行的应用程序。并且,创建索引页所需的额外工作会给用户带来不便。

发明内容
因此,本发明提供了一种图像形成装置,其能够在复制多张文档页时,通过从文档页提取与一般文本不同的特殊文本作为索引对象来自动创建包括页信息的索引页,本发明还提供了相应的方法。
本发明的其它方面将在下面的说明中进行部分地阐述,并且将从说明中部分地变得明显,或可以通过对本发明的实践而学到。
本发明的前述和/或其它方面可以通过提供一种图像形成装置来实现,所述图像形成装置包括扫描单元,用于扫描文档;文本/图像分离单元,用于将所扫描的文档分离为文本区域和图像区域,并用于将文本区域中的文本分离为符号;索引确定单元,用于提取所分离的符号的一个或多个特性(property),并用于将所提取的符号特性与一个或多个索引阈值进行比较,以确定包括该符号的文本是否是索引对象;以及索引页创建单元,用于创建索引页,该索引页包括被确定为索引对象的文本以及关于包括对应于所述索引对象的文本的页的信息。
所提取的符号特性可以包括符号宽度、符号高度以及笔划宽度中的一个或多个。
所述索引阈值可以是用于确定索引对象符号的参考值,包括符号宽度阈值、符号高度阈值和笔划宽度阈值中的一个或多个。所述索引阈值可以被设置为基于预先设置的符号特性的变化而计算的预先设置的符号特性的平均值,或者所述索引阈值可以由用户来设置。
索引确定单元可以在所提取的符号特性大于索引阈值时,将所述符号确定为索引对象符号、将索引对象符号分类为组、并将由索引对象符号的组形成的文本确定为索引对象。
索引页创建单元可以将所确定的索引对象链接到包括对应于该索引对象的文本的页。
本发明的前述和/或其它方面还可以通过提供一种图像形成装置来实现,所述图像形成装置包括文本/图像分离单元,用于接收与具有一页或多页的文档相关的数据,并用于确定在所述一页或多页中的文本区域;索引确定单元,用于从所述一页或多页的文本区域中确定一个或多个内容指示文本;以及索引页创建单元,用于创建包括所述一个或多个内容指示文本的文档的索引页。
本发明的前述和/或其它方面还可以通过提供一种图像形成装置来实现,所述图像形成装置包括索引确定单元,用于在与具有一页或多页的文档相关的数据中区分特殊内容和一般内容;以及索引页创建单元,用于创建包括作为一般内容的内容指示符的特殊内容的索引。
本发明的前述和/或其它方面还可以通过提供一种在图像形成装置中自动创建索引的方法来实现,所述方法包括扫描文档;将所扫描的文档分离为文本区域和图像区域,并将所述文本区域中的文本分离为符号;提取所分离的符号的一个或多个特性,并比较所提取的符号特性与一个或多个索引阈值以确定包括所述符号的文本是否是索引对象;以及创建索引页,该索引页包括被确定为索引对象的文本和关于包括对应于索引对象的文本的页的信息。
所提取的符号特性可以包括符号宽度、符号高度和笔划宽度中的一个或多个。
所述索引阈值可以是用于确定索引对象符号的参考值,包括符号宽度阈值、符号高度阈值和笔划宽度阈值中的一个或多个。所述索引阈值可以被设置为基于预先设置的符号特性的变化计算的预先设置的符号特性的平均值,或者所述索引阈值可以由用户来设置。
当所提取的符号特性大于索引阈值时,所述符号可以被确定为索引对象符号,所述索引对象符号可以被分类为组,并且由所述组形成的文本可以被确定为索引对象。
所述索引页的创建可以包括将所确定的索引对象链接到包括对应于所述索引对象的文本的页。
本发明的前述和/或其它方面还可以通过提供一种在图像形成装置中自动创建索引页的方法来实现,所述方法包括接收与具有一页或多页的文档相关的数据,并确定在所述一页或多页中的文本区域;从所述一页或多页的文本区域中确定一个或多个内容指示文本;以及自动生成包括所述一个或多个内容指示文本的文档的索引页。
本发明的前述和/或其它方面还可以通过提供一种在图像形成装置中自动创建索引页的方法来实现,所述方法包括在与具有一页或多页的文档相关的数据中区分特殊内容和一般内容;以及自动生成包括作为一般内容的内容指示符的特殊内容的索引页。
本发明的前述和/或其它方面还可以通过提供一种含有可执行代码的计算机可读介质来实现,所述可执行代码用于执行在图像形成装置中自动创建索引页的方法的,所述介质包括用于扫描文档的可执行代码;用于将所扫描的文档分离为文本区域和图像区域、并将所述文本区域中的文本分离为符号的可执行代码;用于提取所分离的符号的一个或多个特性、并比较所提取的符号特性与一个或多个索引阈值以确定包括所述符号的文本是否是索引对象的可执行代码;以及用于创建索引页的可执行代码,该索引页包括被确定为索引对象的文本和关于包括对应于索引对象的文本的页的信息。


通过以下结合附图对实施例进行描述,本发明的这些和/或其它方面将变得清楚和更容易理解,其中图1是图示根据本发明的实施例的图像形成装置的框图;图2是图示图1的图像形成装置的文本/图像分离单元的操作的视图;图3是图示图1的图像形成装置的索引确定单元的操作的视图;图4是图示图1的图像形成装置的索引页创建单元的视图;以及图5是图示根据本发明的实施例,在图像形成装置中自动创建索引的方法的流程图。
具体实施例方式
现在将详细参考本发明的实施例,其示例被图示在附图中,其中相同的参考标号总是指代相同的元件。以下描述实施例以便通过参考附图对本发明进行解释。
图1是图示根据本发明的实施例的图像形成装置的框图。
当复制多张文档页时,本实施例的图像形成装置从包括在每张文档页的文本区域中提取与一般文本不同的一个或多个特殊文本,并自动创建包括所提取的文本以及相应的页信息的索引页。由于文档的题目、标题或主要内容通常比一般文本要大,因此在特殊文本与一般文本之间的辨别可以基于特殊文本的尺寸来执行。特殊文本可以从文档中的每页提取,或者从文档中有题目、标题或主要内容的页提取。
参考图1,图像形成装置包括扫描单元110、文本/图像分离单元120、索引确定单元130、索引页创建单元140、存储单元150和控制单元160。
扫描单元110逐页扫描多张文档页。文本/图像分离单元120将扫描单元110扫描的文档划分为(1)包括字母、数字和记号的文本区域和(2)包括图片、照片和图表的图像区域。此外,文本/图像分离单元120还将文本区域的各个文本分离为符号(例如,字符)。
索引确定单元130提取由文本/图像分离单元120分离的各个符号的特性,并利用所提取的符号的特性确定索引对象符号。即,索引确定单元130将所提取的构成文档的主要内容、题目或标题的符号确定为索引对象符号。而且,索引确定单元130将所确定的在最小距离内的索引对象符号分类为组,并将分组的索引对象符号,即文本,确定为索引对象。这里,索引确定单元130将靠近的索引对象符号分组在一起,这样每组索引对象符号就构成了单个索引对象。
索引页创建单元140通过排列被索引确定单元130确定为索引对象的文本以及关于包括对应于索引对象的文本的页的信息来创建索引页。索引页创建单元140还将创建的索引页插入到文档中作为文档的第一页。这里,索引页创建单元140将索引页链接到文档中的其它原始页。例如,索引页创建单元140能够将索引页中的特定对象链接到文档中的特定标题或题目。
存储单元150存储由扫描单元110扫描的文档和由索引页创建单元140创建的索引页。
控制单元160控制文本/图像分离单元120、索引确定单元130和索引页创建单元140,以便基于所扫描的文档自动创建索引页。
图2是图示图1的图像形成装置的文本/图像分离单元120的操作的视图。
参考图1和2,将被复制的文档的第一页200包括文本区域210和图像区域220。
在扫描单元110扫描文档的第一页200之后,文本/图像分离单元120将所扫描的第一页200分离为文本区域210和图像区域220。
文本/图像分离单元120二进制化(binarize)所分离的文本区域210(即,通过转换为具有位于特定像素的点的二进制图像),并利用8邻域连通分量(8-neighborhood connected component)将二选制化的文本分离为各个符号。更具体地讲,文本/图像分离单元120确定在存在点的特定像素周围连通的8个像素中是否存在点,并将具有连通性的一个独立的个体分离为符号。换句话说,文本/图像分离单元120检查在文本区域210中具有点的特定像素的8个相邻像素,以便分离文本区域210的各个符号(例如,字符)。例如,文本/图像分离单元120将文本区域210中所示的“What”分别分离为字母“W”、“h”、“a”和“t”。
图3是图示图1的图像形成装置的索引确定单元130的操作的视图。
参考图1、2和3,“H”是从第一页200的文本区域210的第二段中的“How”中分离出的符号。
索引确定单元130提取该符号的特性,例如,符号宽度、符号高度和笔划宽度。更具体地讲,索引确定单元130通过从最大X轴坐标值(X_max)减去最小X轴坐标值(X_min)来提取符号宽度,并通过从最大Y轴坐标值(Y_max)减去最小Y轴坐标值(Y_min)来提取符号高度。而且,索引确定单元130确定在X轴方向上连续的像素中是否存在点,由此来提取最高出现频率(occurrence frequency)的点的数量作为笔划宽度。例如,在图3中,由于在符号“H”中由“笔划宽度”所指示的部分出现频率最高,因此索引确定单元130将该部分的宽度提取为笔划宽度。
此外,索引确定单元130分别将所提取的符号特性与预先设置的索引阈值Th进行比较。索引阈值Th是用于确定一个符号是否是索引对象符号的参考值,其包括符号宽度阈值、符号高度阈值和/或笔划宽度阈值。索引阈值Th可以是基于符号特性的变化而计算的符号特性的平均值,或者可以由用户来设置。索引阈值Th可以被预先设置。当所提取的符号特性之一等于或大于相应的预先设置的索引阈值时,索引确定单元130将该符号确定为索引对象符号。换句话说,如果符号足够大,索引确定单元130就将该符号确定为索引对象符号。
同样地,索引确定单元130针对所有符号来确定索引对象符号,基于接近度将被确定为索引对象符号的符号分成组,并将索引对象符号的组确认为索引的对象。这里,例如,索引确定单元130可以通过考虑索引对象符号之间的最小距离来进行分组。结果,文档第一页200的文本“How we got here”可以被确定为索引中的对象。
图4图示了根据本发明的实施例的索引页创建单元140的操作。
索引页创建单元140通过排列被索引确定单元130确定为索引中的对象的文本以及关于包括对应于该索引对象的文本的页信息的信息来创建索引页400。索引页创建单元140还将索引页400插入到文档中作为文档的第一页。或者,索引页400可以被插入到文档的其它部分(例如,题目页后的第二页、最后一页等)。在这个阶段,索引页创建单元140将索引页400链接到文档中的原始页,以便当用户从索引页400选择索引对象(例如,通过选择特定文本)时,文档中的相应原始页可以被选择和/或展现。
如图4所示,索引页400包括被确定为索引中的对象的文本以及包括对应于该索引对象的文本的页信息。在文档的第2页中,“Our ManagementPhilosophy”是被确定为索引中的第二个索引对象的文本。在文档的第3页中,“CEO message”是被确定为索引中的第三个对象的文本。
因此,使用所创建的索引页400可以容易地选择文档中每个原始页的主要内容。而且,由于索引页400被链接到原始页,因此能够便利对期望内容的搜索。
图5是图示根据本发明的实施例,在图像形成装置中自动创建索引的方法的流程图。例如,图5的方法可以由图1的图像形成装置来执行。因此,出于举例说明的目的,下面将参考图1到图5来描述图5的方法。
参考图5,扫描单元110逐页扫描文档(操作S510)。
文本/图像分离单元120将由扫描单元110扫描的文档分离为文本区域和图像区域(操作S520)。此外,文本/图像分离单元120将文本区域的文本分离为符号(操作S530)。
索引确定单元130提取由文本/图像分离单元120分离的符号的特性(操作S540)。此外,索引确定单元130确定每个提取的符号特性是否大于预先设置的索引阈值Th(操作S550)。这里,索引确定单元130分别比较所提取的符号特性与相应的索引阈值Th(例如,符号宽度阈值、符号高度阈值和笔划宽度阈值)。当所提取的任何一个符号特性大于相应的索引阈值时,索引确定单元130将该符号确定为索引对象符号。
当所提取的符号特性大于索引阈值时(操作S550-是),索引确定单元130临时存储该索引对象符号(操作S560)。索引确定单元130对临时存储的索引对象符号进行分组,由此从分组的符号形成文本对象。
控制单元160确定正在处理的页是否是文档的最后一页(操作S570)。当确定正在处理的页是文档的最后一页时(操作S570-是),控制单元160控制索引页创建单元140排列由索引确定单元130确定为索引中的对象的文本以及关于包括该文本对象的页的信息,由此来创建索引页(操作S580)。操作S520到S580可以在文档在操作S510被扫描期间或之后执行。
控制单元160可以控制图像形成装置,以使得由索引页创建单元140创建的索引页被打印输出在打印纸上或被输出到外部显示设备,从而展示给用户。
虽然本发明的实施例描述了在扫描文档时创建索引页,但是应当理解,本发明也可以在从外部设备接收文档时实施。例如,本发明可以应用到从外部设备接收的文档数据。
本发明的实施例可以实施为一种计算机可读记录介质上的计算机可读代码。所述计算机可读记录介质可以包括任何能够存储数据、且该数据随后可以被计算机系统读取的数据存储设备。计算机可读记录介质的例子包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光数据存储设备和载波(诸如通过因特网的数据传输)。计算机可读记录介质还能够分布在与计算机系统相连接的网络上,从而以分布式方式存储和执行计算机可读代码。本发明的实施例还可以以硬件或硬件与软件的组合来实现。
根据对本发明实施例的上述说明,由于索引页被自动创建,因此文档的原始页的主要内容可以被容易地选择和/或展示。而且,通过在索引页与原始页的内容之间的链接,给搜索期望的内容带来了便利,从而提高了用户的便利性。
虽然示出和描述了本发明的一些实施例,但是本领域的技术人员应当理解,在不脱离本发明的原理和精神的情况下,可以对这些实施例进行改变,而本发明的范围由所附权利要求书及其等效物来定义。
权利要求
1.一种图像形成装置,包括扫描单元,用于扫描文档;文本/图像分离单元,用于将所扫描的文档分离为文本区域和图像区域,并用于将文本区域中的文本分离为符号;索引确定单元,用于提取所分离的符号的一个或多个特性,并用于将所提取的符号特性与一个或多个索引阈值进行比较,由此确定包括所述符号的文本是否是索引对象;以及索引页创建单元,用于创建索引页,该索引页包括被确定为索引对象的文本以及关于包括该文本的页的信息。
2.权利要求1的图像形成装置,其中所述提取的符号特性包括符号宽度、符号高度和笔划宽度中的一个或多个。
3.权利要求1的图像形成装置,其中所述索引阈值是用于确定索引对象符号的参考值,该索引阈值包括符号宽度阈值、符号高度阈值和笔划宽度阈值中的一个或多个,并且所述索引阈值被设置为基于预先设置的符号特性的变化而计算的预先设置的符号特性的平均值,或者所述索引阈值由用户来设置。
4.权利要求1的图像形成装置,其中所述索引确定单元在所提取的符号特性大于所述索引阈值时,将所述符号确定为索引对象符号、对所述索引对象符号进行分组、并将包括所述索引对象符号的组的文本确定为索引中的对象。
5.权利要求1的图像形成装置,其中所述索引页创建单元将所确定的索引对象链接到包括对应于所述索引对象的文本的页。
6.一种图像形成装置,包括文本/图像分离单元,用于接收与具有一页或多页的文档相关的数据,并用于确定在所述一页或多页中的文本区域;索引确定单元,用于从所述一页或多页的文本区域中确定一个或多个内容指示文本;以及索引页创建单元,用于创建包括所述一个或多个内容指示文本的文档的索引页。
7.权利要求6的图像形成装置,还包括打印单元,用于打印具有一页或多页的文档以及由所述索引页创建单元创建的索引页。
8.权利要求6的图像形成装置,其中所述文本/图像分离单元将具有图像、图片或图表的区域分离为图像区域,并将具有字母、数字或符号的区域分离为文本区域。
9.权利要求6的图像形成装置,其中所述文本/图像分离单元对所述文本区域进行二进制化,并分离所述文本区域中的每一个符号,并且将分离的符号提供给索引确定单元。
10.权利要求9的图像形成装置,其中所述文本/图像分离单元通过检查每个像素点和相邻的像素来分离所述文本区域中的每个符号。
11.权利要求6的图像形成装置,其中所述索引确定单元基于文本尺寸比较来确定一个或多个内容指示文本。
12.权利要求6的图像形成装置,其中所述索引确定单元基于对所述文本区域中的字符的尺寸和预定尺寸阈值的比较、通过选择内容指示文本的字符来确定内容指示文本,并基于相互之间的相对接近度来将所选择的字符分组在一起。
13.权利要求6的图像形成装置,其中所述索引确定单元从所述文本/图像分离单元接收文本区域的分离的符号,并将所分离的符号与一个或多个预定尺寸参数进行比较,以确定所述分离的符号是否是内容指示符号。
14.权利要求13的图像形成装置,其中所述索引确定单元将相邻的内容指示符号分组在一起,并将分组的内容指示符号确定为索引页的内容指示文本。
15.权利要求13的图像形成装置,其中所述一个或多个预定尺寸参数包括所分离的符号的笔划宽度、所分离的符号的符号宽度以及所分离的符号的符号高度。
16.权利要求13的图像形成装置,还包括存储单元,用于存储由索引确定单元确定的每个内容指示符号,以便索引页创建单元访问该存储单元以创建索引页。
17.权利要求6的图像形成装置,其中所述索引页创建单元创建包括内容指示文本的索引页,所述内容指示文本与包括该内容指示文本的文档页的页指示符相关联。
18.权利要求6的图像形成装置,其中所述索引页创建单元将所述索引页添加到所述文档。
19.权利要求6的图像形成装置,其中所述索引页创建单元将索引页中的内容指示文本链接到与该内容指示文本相关联的页。
20.一种图像形成装置,包括索引确定单元,用于在与具有一页或多页的文档相关的数据中区分特殊内容和一般内容;以及索引页创建单元,用于创建包括作为一般内容的内容指示符的特殊内容的索引。
21.权利要求20的图像形成装置,其中所述特殊文本包括标题和题目之一。
22.权利要求20的图像形成装置,其中所述索引包括特殊文本和文档的相应页码。
23.一种在图像形成装置中自动创建索引的方法,所述方法包括扫描文档;将所扫描的文档分离为文本区域和图像区域,并将文本区域中的文本分离为符号;提取所分离的符号的一个或多个特性,并将所提取的符号特性与一个或多个索引阈值进行比较,以确定包括所述符号的文本是否是索引对象;以及创建索引页,该索引页包括被确定为索引对象的文本以及关于包括对应于该索引对象的文本的页的信息。
24.权利要求23的方法,其中所述所提取的符号特性包括符号宽度、符号高度和笔划宽度中的一个或多个。
25.权利要求23的方法,其中所述索引阈值包括用于确定索引对象符号的参考值,其包括符号宽度阈值、符号高度阈值和笔划宽度阈值中的一个或多个,并且所述索引阈值被设置为基于预先设置的符号特性的变化而计算的预先设置的符号特性的平均值,或者所述索引阈值由用户来设置。
26.权利要求23的方法,其中在所提取的符号特性大于所述索引阈值时,所述符号被确定为索引对象符号,所述索引对象符号被分组,并且包括所述索引对象符号的组的文本被确定为索引中的对象。
27.权利要求23的方法,其中创建索引页包括将所确定的索引对象链接到包括对应于所述索引对象的文本的页。
28.一种在图像形成装置中自动生成索引页的方法,所述方法包括接收与具有一页或多页的文档相关的数据,并确定在所述一页或多页中的文本区域;从所述一页或多页的文本区域中确定一个或多个内容指示文本;以及自动生成包括所述一个或多个内容指示文本的文档的索引页。
29.权利要求28的方法,还包括打印所述具有一页或多页的文档以及所生成的索引页。
30.权利要求28的方法,其中确定在所述一页或多页中的文本区域包括将具有图像、图片或图表的区域分离为图像区域,并将具有字母、数字或符号的区域分离为文本区域。
31.权利要求28的方法,其中确定在所述一页或多页中的文本区域包括对所述文本区域进行二进制化,并分离所述文本区域中的每一个符号。
32.权利要求31的方法,其中从所述一页或多页的文本区域中确定一个或多个内容指示文本包括通过检查每个像素点以及相邻的像素来分离文本区域中的每个符号。
33.权利要求28的方法,其中从所述一页或多页的文本区域中确定一个或多个内容指示文本包括基于文本尺寸比较来确定一个或多个内容指示文本。
34.权利要求28的方法,其中从所述一页或多页的文本区域中确定一个或多个内容指示文本包括基于对所述文本区域中的字符的尺寸与预定尺寸阈值的比较,通过选择内容指示文本的字符来确定内容指示文本;以及基于相互之间的相对接近度来将所选择的字符分组在一起。
35.权利要求28的方法,其中从所述一页或多页的文本区域中确定一个或多个内容指示文本包括接收文本区域的分离的符号;以及将所分离的符号与一个或多个预定尺寸参数进行比较,以确定所述分离的符号是否是内容指示符号。
36.权利要求35的方法,其中从所述一页或多页的文本区域中确定一个或多个内容指示文本还包括将相邻的内容指示符号分组在一起;以及将分组的内容指示符号确定为索引页的内容指示文本。
37.权利要求35的方法,其中所述一个或多个预定尺寸参数包括所分离的符号的笔划宽度、所分离的符号的符号宽度以及所分离的符号的符号高度。
38.权利要求35的方法,还包括存储每个所确定的内容指示符号,以便索引页生成操作访问所存储的内容指示符号以自动生成索引页。
39.权利要求28的方法,其中生成包括一个或多个内容指示文本的文档的索引页包括生成包括内容指示文本的索引页,所述内容指示文本与包括该内容指示文本的文档页的页指示符相关联。
40.权利要求28的方法,还包括将所生成的索引页添加到所述文档。
41.权利要求28的方法,还包括将索引页中的内容指示文本链接到与该内容指示文本相关联的页。
42.一种在图像形成装置中自动创建索引页的方法,所述方法包括在与具有一页或多页的文档相关的数据中区分特殊内容和一般内容;以及自动生成索引页,该索引页包括作为一般内容的内容指示符的特殊内容。
43.权利要求42的方法,还包括将所述索引页插入到所述文档;以及展示包括所述索引的文档。
44.权利要求43的方法,其中展示所述文档包括以下一个或多个步骤在显示单元上显示该文档;以及使用图像形成单元打印该文档。
45.一种计算机可读介质,含有用于执行在图像形成装置中自动创建索引的方法的可执行代码,所述介质包括用于扫描文档的可执行代码;用于将所扫描的文档分离为文本区域和图像区域、并将文本区域中的文本分离为符号的可执行代码;用于提取所分离的符号的一个或多个特性、并将所提取的符号特性与一个或多个索引阈值进行比较以确定包括所述符号的文本是否是索引对象的可执行代码;以及用于创建索引页的可执行代码,该索引页包括被确定为索引对象的文本和关于包括对应于该索引对象的文本的页的信息。
全文摘要
一种能够自动创建索引的图像形成装置及其方法。该图像形成装置包括扫描单元,用于扫描文档;文本/图像分离单元,用于将所扫描的文档分离为文本区域和图像区域,并用于将文本区域中的文本分离为符号;索引确定单元,用于提取所分离的符号的一个或多个特性,并用于将所提取的符号特性与一个或多个索引阈值进行比较,由此确定包括该符号的文本是否是索引对象;以及索引页创建单元,用于创建索引页,该索引页包括被确定为索引对象的文本以及关于包括对应于该索引对象的文本的页的信息。因此,由于索引页被自动地创建,文档每一页的主要内容可以被容易地选择和/或展示。而且,通过链接索引页与文档页中的原始内容,给搜索文档中的期望的内容带来了便利,从而提高了用户的便利性。
文档编号G06K9/20GK1967567SQ200610149429
公开日2007年5月23日 申请日期2006年11月20日 优先权日2005年11月18日
发明者玉炯洙 申请人:三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1