给文档编索引的制作方法

文档序号:6351537阅读:206来源:国知局
专利名称:给文档编索引的制作方法
技术领域
本发明涉及给文档编索引和检索文档。更具体而言,本发明涉及内部索引集的使用。
背景技术
例如WORD 文档和EXCEL 文档的文档可以具有相关联的文档元数据(例如,谁创建了该文档及创建日期),该文档元数据可以用于给文档编索引(WORD和EXCEL是美国、其它国家或者两者兼有的微软公司的商标)。然而,可用的元数据是有限的,而且,让用户定制索引这些文档的项将是有用的。此外,ADOBE 便携式文档格式(PDF)是1993年来自Adobe Systems公司的文·档体系结构(ADOBE是在美国、其它国家或者两者兼有的Adobe Systems公司的商标)。PDF文档最初是为了打印而创建的,但是现在在互联网上也发现了大量的PDF文档。事实上,PDF已经成为基于互联网的文档的事实标准。因为互联网的迅猛发展,各个公司正快速地从比较老的专有打印格式转向支持PDF0这种转移允许它们生成报表(statement)(例如,发票)的打印拷贝并主控(host)相同版本的报表用于在环球网(也称为万维网或者WWW)上浏览。在这种转移之前,文档从专有的数据类型转换成HF。作为这种转移的一部分,各个公司正在暴露关于PDF格式的体系结构问题,因为它涉及包括多个报表的大量单个PDF文档。这种类型的PDF文档被称为PDF报告文档。例如,为了访问PDF报告文档中的单个报表,提取唯一的信息块(即,索引,有时候也称为元数据),使得用户可以搜索特定的文档。这种把PDF报告文档分解成单独的文档并且提取用于每个单独文档的索引的技术称为编索引。从PDF报告文档提取索引的典型技术是搜遍PDF报告,查找该PDF报告文档的某些预定位置中的文本,而且这些预定位置被称为PDF文档中文本的边界框。为了提取文本,首先以图形化形式呈现PDF文档的每一页。然后,检查每个PDF页面的每个词,以便确定该词是否在边界框之内。这种技术需要许多的图形、字体和浮点运算,这使得这种技术很慢,尤其是当PDF文档变得比较大时。即,已知的索引器使用图形技术来提取数据,这是非常资源密集的而且容易出错(即,由于字体规格,具有取整误差的边界框等等)。因而,需要利用内部索引集来给文档编索引。

发明内容
本发明寻求提供用于检索文档的方法、计算机程序产品与系统,所述文档对于每一页都包括由处理该文档的应用程序忽略的区域而且包括与该文档的每个页子集相关联的不同内部索引集,其中每个不同的内部索引集都与一个区域关联并且存储索引,而且其中每个索引都由名称-值对构成。然后,对于文档中的每一页,确定该页是否与一个内部索引集相关联;而且,响应于确定该页与一个内部索引集相关联,从该内部索引集提取一个或多个名称-值对,其中所述一个或多个名称-值对中的每一个都提供关于该文档的特定信息,用于识别该文档。


现在将参考附图仅仅作为例子描述本发明的实施方式,附图中图I以框图例示了根据本发明某些实施方式的计算环境;图2以流程图例示了根据某些实施方式的内部索引集的创建;图3以流程图例示了根据某些实施方式的采用内部索引集来建立内部索引集数据库;
图4例示了根据某些实施方式的示例页面-块词典(page-piece dictionary);图5以流程图例示了根据某些实施方式的由内部索引集提取器执行的处理;图6例示了根据某些实施方式的在存储来自一个或多个内部索引集的索引的数据库中的示例表;图7以流程图例示了根据某些实施方式的内部索引集的数据库的使用;及图8例示了根据某些实施方式的可以使用的计算机体系结构。
具体实施例方式在以下描述中,参考构成本文一部分并且例示本发明几种实施方式的附图。应当理解,在不背离本发明范围的情况下,可以使用其它的实施方式而且可以进行结构与操作的改变。图I以框图例示了根据本发明某些实施方式的计算环境。计算设备100耦接到库160。计算机100包括文档处理器110、索引系统120、搜索系统130和映射140。索引系统120包括内部索引集提取器122。库160包括文档170和索引数据库180 (本文中的“数据库”)。在某些实施方式中,文档170包括PDF报告文档、1WORD 文档和EXCEL 文档。在某些实施方式中,文档处理器110创建PDF格式、WORD 格式或者EXCEL 格式的文档。在某些实施方式中,内部索引集驻留在预定的结构中。在某些实施方式中,内部索引集是非图形化结构。在某些实施方式中,对于一个文档,每个内部索引集都具有以下特征特征I)内部索引集位于与文档的一页的一个区域关联的结构中。文档的每一页都包括由处理该文档的应用程序(例如,文档阅读器、文档转换器或者处理该文档的其它工具/应用程序)忽略(即,观察不到)的区域,而且内部索引集就存储在这个区域中。索引存储在内部索引集中。在某些实施方式中,每个索引都由名称-值对(例如,"AccountNo7558-1 ”)构成。该名称-值对可以稍后用于搜索包含这个名称-值对的文档。即,名称-值对提供了关于一个文档的特定信息,这种信息可以用于响应于搜索请求而识别文档。例如,PDF文档、1WORD 文档和EXCEL· 文档每个都具有这种可以包含在此所述的内部索引集的区域。
2)其中存储内部索引集的结构与文档的一页或多页关联。即,与文档的一页关联的内部索引集与那一页及所有后续的页相关,直到到达文档中的另一个内部索引集或者文档的结尾。例如,在一个包含两个内部索引集的十页的文档中,与第一页关联的第一个内部索引集适用于文档的第一至第五页,而与第六页关联的第二个内部索引集适用于文档的第六至第十页。例如,对于PDF文档、WORD 文档和EXCEL 文档,这种结构可以与文档的任何一页关联。3)内部索引集可以驻留在文档中,而不会损害文档的完整性或者干扰可以处理该文档的任何应用程序(例如,文档阅读器和文档转换器)。例如,对于PDF文档、WORD 文档和EXCEL 文档,这都是成立的。 在其中文档170是PDF文档的某些实施方式中,可以不需要访问边界框就访问内部索引集。在某些实施方式中,索引存储在内部索引集中并可以在边界框中获得。图2以流程图例示了根据某些实施方式的内部索引集的创建。控制在块200开始。在块200,响应于用户输入,文档处理器110创建文档170,在该文档中具有一个或多个内部索引集。在块202,文档处理器110把文档170存储在库160中。在某些实施方式中,存储文档170的处理包括利用索引系统120给文档编索引。对于有些实施方式,在创建文档170时,用于文档170的索引就存储在文档170内部的一个或多个区域中。文档制作者知道什么数据在文档170中是有用的,因此,可以在文档170内的一个或多个区域中创建包含索引(B卩,名称-值对)的一个或多个内部索引集,并把索弓I值放到文档的内容流中。图3以流程图例示了根据某些实施方式的采用内部索引集建立内部索引集数据库。控制在块300开始,索引系统120检索文档170,文档170针对每一页都包括由处理文档170的应用程序忽略的区域并且包括与文档170的每个页子集关联的不同内部索引集,其中每个不同的内部索引集都与一个区域关联并存储索引,而且其中每个索引都由名称-值对构成。在块302,内部索引集提取器122从不同的内部索引集提取索引(B卩,名称-值对)。在某些实施方式中,内部索引集提取器122使用应用编程接口(API)来提取索引。在块304,索引系统120在数据库180的一个表中存储索引(B卩,名称-值对)。在某些实施方式中,对于每个内部索引集,在数据库180中都存在一行,而且存在对应于每个索引的名称的多个列。即,对于一个名称-值对,索引名称对应于表中的列名,而索引值对应于存储在一行中列名为所述名称的值。在某些实施方式中,索引值是字符格式,而且索引系统120根据需要使用映射140把索引值转换成其它格式,以便把索引值存储在数据库180中。例如,索引系统120可以把帐号从字符格式转换成整数格式,并且把该整数格式存储在数据库180中。因而,实施方式除去了搜索文本、确定边界框和执行浮点计算的需要。索引系统122还不需要知道在文档170中包含多少名称-值对。因为不需要这些任务,所以索引系统122复杂度更低而且给文档170编索引的性能提高了。而且,对于所有类型的文档,实施方式都允许定制给这些文档编索引的项。在某些实施方式中,满足上述三个特征的内部索引集是页面-块词典。在其中文档170是PDF文档的实施方式中,页面-块词典可以用于存储索引。即,页面-块词典是存储一个或多个内部索引集的结构。
图4例示了根据某些实施方式的示例页面-块词典400。该页面-块词典包含应用程序数据词典,而应用程序数据词典可以是PDF结构,该结构可以存储包含作为索引被提取的索引名称和索引值的名称-值对。关键字PieceInfo把这个对象标识为页面-块词典。在图4的例子中,关键字ODIndexes标识包含用于文档的索引的条目。相同的关键字由创建索引的索引系统120和提取索引的内部索引集提取器122使用。使用相同的关键字关联使得内部索引集提取器122能够在包含该索引的页面-块词典中定位正确的条目。在某些实施方式中,关键字Private和LastModif ied是由PDF体系结构为应用程序数据词典指定的。字“AccountNo”、“Name”和“RunDate”是索弓I名称。文本“7558-1 ”、“David Smith"和“03AUG2004”是索引值。索引名称和索引值是以很清楚哪个索引名称与哪个索引值相关联这样一种方式结构化的。关键字“AnotherEntry”包含页面-块词典中与提取索引无关的另一个条目,显示其是为了说明页面-块词典可以具有由用于不同目的的不同应用程序所使用的多个条目的事实。例如,索引系统120使用内部索引集,而另一个 应用程序可以使用AnotherEntry数据。页面-块词典可以作为页面对象的一部分来创建。任何页面对象都可以包含单个页面-块词典。页面对象可以描述为指定文档的单个页面的属性的词典。图5以流程图例示了根据某些实施方式的由内部索引集提取器122执行的处理。控制在块500以内部索引集提取器122选择文档170的下一页开始。在块502,内部索引集提取器122确定是否存在与该页关联的内部索引集。在某些实施方式中,多个内部索引集可以包括在一页上的该区域中(例如,在图4中,代替“AnotherEntry”,可以有“0DIndeXes2”条目)。如果是这样,处理就继续到块504,否则,处理就继续到块506。例如,在块502中,内部索引集提取器122可以使用API在页面上观察不到的区域中查找识别内部索引集的关键字(例如,ODIndexes)。在块504,内部索引集提取器122从内部索引集提取名称-值对。例如,内部索引集提取器122可以使用API检索每个名称-值对,然后可以使用API提取每个名称-值对的名称和值。例如,当检索到名称-值对“AccountNo”/ “7558-1”时,提取出“AccountNo”和“7558-1”。处理从块504继续到块506。在块506,内部索引集提取器确定是否文档170的所有页面都已经被选择了。如果是,处理完成,否则,处理循环返回到块500,以选择文档170的另一页。因而,实施方式使索引可以在文档170中的非图形位置与页面关联。实施方式从文档170提取文本信息,包括但不限于索引。对于实施方式,索引值嵌入到文档170中。图6例示了根据某些实施方式的在存储来自一个或多个内部索引集的名称-值对的数据库180中的示例表600。在图6中,表600存储来自图4中所例示的ODIndexes条目的索引名称与索引值。表600中的每一行都具有用于文档标识符的列(用于文档170把索引存储在这一行中)和用于图4中所述的每个索引名称的列。例如,对于包括十个内部索引集的文档170,表600将包括十行,每一行对应于每一个内部索引集。图7以流程图例示了根据某些实施方式的内部索引集数据库170的使用。控制在块700以搜索系统130接收具有一个或多个搜索关键字的搜索请求开始。在块702,搜索系统130将一个或多个搜索关键字与内部索引集数据库170中的索引值进行比较。在块704,响应于确定一个或多个搜索关键字与至少一个索引值相匹配,搜索系统130提供包括与至少一个索引值相匹配的一个或多个内部索引集的一个或多个文档170。例如,如果搜索关键字是“7558-1”,那么将(例如,向用户)提供具有与索引值“7558-1”相匹配的内部索引集的文档。因而,某些实施方式提供了使得能够更快更准确地给文档170编索引的唯一途径。某些实施方式结合了几个使用内部索引集的想法。一个想法是让文档制作者以内部索引集的形式复制索引。即,除了把索引放到内容流中可见的页面上之外或者作为代替,索引还拷贝到文档170的页面上不需要图形操作来检索的预定(例如,索引系统12知道的)区域。附加实施方式细节如本领域技术人员将认识到的,本发明的各方面可以体现为系统、方法或者计算机程序产品。相应地,本发明的各方面可以采取完全硬件实施方式、完全软件实施方式(包括固件、驻留软件、微代码等)或者结合软件与硬件方面的实施方式,这些实施方式在这里总体上都可以称为“电路”、“模块”或者“系统”。此外,本发明的各方面还可以采取体现在一种或多种计算机可读介质中的计算机程序产品的形式,其中计算机可读介质中包含了计算机可读的程序代码。可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限于——电、磁、光、电磁、红外、或半导体的系统、装置或器件,或者以上的任意适合组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文的环境中,计算机可读存储介质可以是任何包含 或存储程序的有形介质,该程序可以被执行或运行指令的指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括一但不限于——无线、电线、光纤光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各方面的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言一诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络一包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如,利用因特网服务提供商来通过因特网连接)。下面将参照根据本发明实施方式的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置的处理器执行,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。这些计算机程序指令还可以存储在计算机可读介质中,所述介质可以指示计算机、其它可编程数据处理装置或者其它设备以如下特定的方式起作用,即,使得存储在计算机可读介质中的指令产生一种包括指令的制造品,所述指令实现流程图和/或框图的一个或多个方框中所规定的功能/动作。计算机程序指令还可以加载到计算机、其它可编程数据处理装置或者其它设备·上,使一系列操作性步骤在所述计算机、其它可编程装置或者其它设备上执行,以产生一种计算机实现处理,使得在所述计算机或者其它可编程装置上执行的指令提供用于实现流程图和/或框图的一个或多个方框中所规定的功能/动作的处理。实现所述操作的代码还可以在硬件逻辑或者电路系统(例如,集成电路芯片、可编程门阵列(PGA)、专用集成电路(ASIC)等)中实现。图8例示了根据某些实施方式可以使用的计算机体系结构800。计算设备100可以实现计算机体系结构800。计算机体系结构800适于存储和/或执行程序代码,而且包括至少一个直接或者通过系统总线820间接耦接到存储器元件804的处理器802。存储器元件804可以包括在程序代码的实际执行过程中所采用的本地存储器、大容量储存器及为了减少执行过程中必须从大容量储存器检索代码的次数而提供对至少一些程序代码的临时存储的高速缓冲存储器。存储器元件804包括操作系统805及一个或多个计算机程序806。输入/输出(I/O)设备812、814 (包括但不限于键盘、显示器、指向设备等等)可以直接或者通过中间I/o控制器810耦接到系统。网络适配器808也可以耦接到系统,以使得数据处理系统能够通过中间网络耦接到其它数据处理系统或者远端打印机或存储设备。调制解调器、电缆调制解调器和以太网卡仅仅是当前可获得的网络适配器808的一些类型。计算机体系结构800可以耦接到储存器816 (例如,非易失性存储区域,象磁盘驱动器、光盘驱动器、磁带驱动器,等等)。储存器816可以包括内部存储设备或者附连的或可通过网络访问的储存器。储存器816中的计算机程序806可以加载到存储器元件804中并且由处理器802以本领域众所周知的方式执行。计算机体系结构800可以包括比所例示少的部件、在此未例示的附加部件或者所例示部件与附加部件的某种组合。计算机体系结构800可以包括本领域中已知的任何计算设备,例如大型机、服务器、个人计算机、工作站、膝上型计算机、手持式计算机、电话设备、网络设备、虚拟设备、存储控制器,等等。附图中的流程图和框图显示了根据本发明的多个实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。以上已经出于例示和描述的目的给出了对本发明的各实施方式的描述。上述说明并非是穷尽性的,并且也不是要将实施例限于所披露的精确形式。根据以上教义,许多修改与变体都是可能的。实施方式的范围不是由这种具体描述而是由所附权利要求限制的。以上的说明书、例子和数据提供了对实 施方式组成的制造与使用的完整描述。由于在不背离实施方式的主旨与范围的情况下可以构成许多实施方式,因此所述实施方式在于下文所附的权利要求或者任何后续提交的权利要求及其等同物中。
权利要求
1.一种计算机实现的方法,包括 检索包括至少一页的文档,该文档针对每一页都包括由处理该文档的应用程序忽略的区域,并且该文档包括与该文档的每个页子集相关联的不同内部索引集,其中每个不同内部索引集都与一个区域相关联并且存储索引,而且其中每个所述索引都由名称-值对构成;及 对于所述文档中的每一页, 确定该页是否与一个内部索引集相关联;及 响应于确定该页与一个内部索引集相关联,从该内部索引集提取一个或多个名称-值对,其中所述一个或多个名称-值对中的每一个都提供关于所述文档的特定信息,用于识别该文档。
2.如权利要求I所述的方法,其中,所述提取还包括利用应用编程接口(API)来提取所述一个或多个名称-值对。
3.如权利要求I或者权利要求2所述的方法,其中,所述应用程序包括文档阅读器和文档转换器。
4.如前面任何一项权利要求所述的方法,还包括 把每个内部索引集的一个或多个名称-值对存储到数据库的一个表中,其中,对于一个名称-值对,名称对应于该表中的列名,而值对应于存储在一行中列名为所述名称的值。
5.如权利要求4所述的方法,还包括 响应于接收到具有一个或多个搜索关键字的搜索请求,比较所述一个或多个搜索关键字与所述数据库中的值;及 响应于确定所述搜索关键字中的一个或多个与至少一个值相匹配,提供与和至少一个索引值相匹配的一个或多个内部索引集相关联的一个或多个文档。
6.如前面任何一项权利要求所述的方法,其中,多个内部索引集与一个区域相关联。
7.如前面任何一项权利要求所述的方法,其中,与文档的一页关联的内部索引集与该页及后续的页相关,直到到达所述文档中的另一个内部索引集或者所述文档的结尾。
8.一种系统,包括 执行操作的硬件逻辑,所述操作包括 检索包括至少一页的文档,该文档针对每一页都包括由处理该文档的应用程序忽略的区域,并且该文档包括与该文档的每个页子集相关联的不同内部索引集,其中每个不同内部索引集都与一个区域相关联并且存储索引,而且其中每个所述索引都由名称-值对构成;及 对于所述文档中的每一页, 确定该页是否与一个内部索引集相关联;及 响应于确定该页与一个内部索引集相关联,从该内部索引集提取一个或多个名称-值对,其中所述一个或多个名称-值对中的每一个都提供关于所述文档的特定信息,用于识别该文档。
9.如权利要求8所述的系统,其中,所述提取的操作还包括利用应用编程接口(API)来提取所述一个或多个名称-值对。
10.如权利要求8或者权利要求9所述的系统,其中,内部索引集存储在所述页的由处理该文档的应用程序忽略的区域中,其中所述应用程序包括文档阅读器和文档转换器。
11.如权利要求8至10中任何一项所述的系统,其中,所述操作还包括 把每个内部索引集的一个或多个名称-值对存储到数据库的一个表中,其中,对于一个名称-值对,名称对应于该表中的列名,而值对应于存储在一行中列名为所述名称的值。
12.如权利要求11所述的系统,其中,所述操作还包括 响应于接收到具有一个或多个搜索关键字的搜索请求,比较所述一个或多个搜索关键字与所述数据库中的值;及 响应于确定所述搜索关键字中的一个或多个与至少一个值相匹配,提供与和至少一个索引值相匹配的一个或多个内部索引集相关联的一个或多个文档。
13.如权利要求8至12中任何一项所述的系统,其中,多个内部索引集与一个区域相关联。
14.如权利要求8至13中任何一项所述的系统,其中,与文档的一页关联的内部索引集与该页及后续的页相关,直到到达所述文档中的另一个内部索引集或者所述文档的结尾。
15.一种包括计算机可读存储介质的计算机程序产品,所述计算机可读存储介质包括计算机可读程序,其中所述计算机可读程序在被计算机上的处理器执行时使得该计算机 检索文档,该文档针对每一页都包括由处理该文档的应用程序忽略的区域,并且该文档包括与该文档的每个页子集相关联的不同内部索引集,其中每个不同内部索引集都与一个区域相关联并且存储索引,而且其中每个所述索引都由名称-值对构成;及 对于所述文档中的每一页, 确定该页是否与一个内部索引集相关联;及 响应于确定该页与一个内部索引集相关联,从该内部索引集提取一个或多个名称-值对,其中所述一个或多个名称-值对中的每一个都提供关于所述文档的特定信息,用于识别该文档。
16.如权利要求15所述的计算机程序产品,其中,所述提取还包括利用应用编程接口(API)来提取所述一个或多个名称-值对。
17.如权利要求15所述的计算机程序产品,其中,内部索引集存储在所述页的由处理该文档的应用程序忽略的区域中,其中所述应用程序包括文档阅读器和文档转换器。
18.如权利要求15所述的计算机程序产品,其中,所述计算机可读程序在被计算机上的处理器执行时,使得该计算机 把每个内部索引集的一个或多个名称-值对存储到数据库的一个表中,其中,对于一个名称-值对,名称对应于该表中的列名,而值对应于存储在一行中列名为所述名称的值。
19.如权利要求18所述的计算机程序产品,其中,所述计算机可读程序在被计算机上的处理器执行时,使得该计算机 响应于接收到具有一个或多个搜索关键字的搜索请求,比较所述一个或多个搜索关键字与所述数据库中的值;及 响应于确定所述搜索关键字中的一个或多个与至少一个值相匹配,提供与和至少一个索引值相匹配的一个或多个内部索引集相关联的一个或多个文档。
20.如权利要求15所述的计算机程序产品,其中,多个内部索引集与一个区域相关联。
21.如权利要求15所述的计算机程序产品,其中,与文档的一页关联的内部索引集与该页及后续的页相关,直到到达所述文档中的另一个内部索引集或者所述文档的结尾。
22.一种包括程序代码装置的计算机程序,当所述程序在计算机上运行时,所述程序代码装置适于执行权利要求I至7中的所有步骤。
全文摘要
本发明提供了用于检索文档的技术,该文档针对每一页都包括由处理该文档的应用程序忽略的区域并且包括与该文档的每个页子集相关联的不同内部索引集,其中每个不同内部索引集都与一个区域相关联并存储索引,而且其中每个所述索引都由名称-值对构成。然后,对于所述文档中的每一页,确定该页是否与一个内部索引集相关联;而且,响应于确定该页与一个内部索引集相关联,从所述内部索引集提取一个或多个名称-值对,其中所述一个或多个名称-值对中的每一个都提供关于该文档的特定信息,用于识别该文档。
文档编号G06F17/30GK102959538SQ201080058410
公开日2013年3月6日 申请日期2010年12月10日 优先权日2009年12月21日
发明者B·K·霍伊特, P·J·穆尔, G·S·菲尔德曼 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1