准备显示文档用于分析的设备的制作方法

文档序号:6478198阅读:128来源:国知局
专利名称:准备显示文档用于分析的设备的制作方法
技术领域
本发明涉及准备显示文档用于分析的设备。
背景技术
在执行文本分析之前,从文档(如,PDF文件)中提取与所述文档相关联的文本。
理想地,在执行文本分析之前,所提取的文本具有逻辑(即,读)顺序。
—些文档格式,特别是那些用于显示目的的(如,PDF),以从左到右(LtR)的顺序 显示文本,而不管与所述文本相关联的语言是否具有相关联的LtR逻辑顺序(如,英语)或 从右到左(RtL)的逻辑顺序(如,阿拉伯语)。 如果文本是与RtL逻辑顺序相关联的,且以LtR顺序显示相关联的文档,则当前的 文本提取工具以显示的顺序(如,LtR顺序)提取所述文本。因此,所提取的文本不适合于 文本分析,这是因为,所述文本处于(反转的)LtR顺序。

发明内容
根据第一个方面,提供了准备显示文档用于分析的设备,其包括提取器,用于从 所述显示文档提取字符数据;顺序识别器,用于确定与所述字符数据的处理相关联的第一 顺序、以及与所述字符数据的逻辑顺序相关联的第二顺序,并确定第一顺序与第二顺序是 否不同;以及反转组件,用于响应于顺序识别器确定所述第一顺序不同于第二顺序,反转所 述字符数据。 根据第二个方面,提供了准备显示文档用于分析的方法,其包括以下步骤从所述 显示文档中提取字符数据;确定与所述字符数据的处理相关联的第一顺序、以及与所述字 符数据的逻辑顺序相关联的第二顺序;确定所述第一顺序是否不同于第二顺序;以及响应 于确定所述第一顺序不同于第二顺序,反转所述字符数据。 根据第三个方面,提供了一种计算机程序,其包括程序代码部件,当所述程序在计 算机上运行时,适应于执行上述方法的所有步骤。


下面将描述本发明,通过仅仅示例的方法,参考如以下附图所图解的其优选的实 施例 图1是所述优选的实施例的设备的框图; 图2是显示在用于准备显示文档用于分析的过程中涉及的操作步骤的流程图;
图3是显示在用于显示确定至少一种语言的过程中涉及的操作步骤的流程图;
图4是显示在用于确定在提取出的文本中的逻辑顺序是否是反转的过程中涉及 的操作步骤的流程图;以及 图5是显示在用于响应于确定提取出的文本的逻辑顺序是反转的、校正文本的过 程中涉及的操作步骤的流程图。
具体实施例方式
图1描述了所述优选的实施例的一种设备(100)。 在预处理步骤中,优选地,提取器(102)提取与所述文档(如,其中以PDF文件的
形式存储所述文档)相关联的文本。 在此第一个示例中,存储提取出的文本。 设备(100)包括可操作用于访问一个或多个文档(130)的语言识别器(105)。
在此第一个示例中,处理顺序是从文本的开头到结尾(有效地,LtR顺序)。
优选地,处理顺序被发送到顺序识别器(110)。 所述顺序识别器(110)可操作用于访问第一存储组件(120)和反转组件(115)。
下面参考所述附图描述优选实施例的一个过程。 参考图2,在步骤200,分析所述提取出的文本,以确定至少一种语言。 步骤200包括在图3中描绘的多个步骤。在步骤300,优选地,语言识别器(105)
调用分析工具(如,LanguageWare (LanguageWare是IBM公司的注册商标))。 在一个示例中,所述分析工具分析与文档相关联的提取出的文本(以处理顺序,
如,LtR顺序),并将所述提取出的文本与一组辞典相比较,其中, 一个辞典与一种语言相
关。响应于所述比较,分析工具确定指示与提取出的文本相关联的至少一种语言的结果。
优选地,如果所述分析工具不能确定一种语言,则反转提取出的文本,并将其输入到分析工
具。典型地,作为响应,所述分析工具更有可能确定一种语言(如,阿拉伯语)。 优选地,所述分析工具向语言识别器(105)提供与所述结果相关联的置信度值
(如,利用统计数据)。 在步骤305,所述语言识别器(105)确定所提供的置信度值是否满足可预配置的 置信度阈值。如果所提供的置信度值满足所述可预配置的置信度阈值,则存储所述结果。
所述语言识别器(105)将结果传递给顺序识别器(110)。图3的过程结束,并执行 图2的步骤205。 如果所提供的置信度值不满足可预配置的置信度阈值,则优选地,所述语言识别 器(105)调用(步骤310) —个或多个功能。 可以采用诸如ISO 8859或UTF-16 (Unicode)的多种编码方案之一存储字符。通 过采用编码方案,所代表的每种语言的每个字符具有唯一的"代码",也就是,在所述编码方 案内分配给它的唯一的"编号"。 编码方案可以具有明确地与它相关联的语言,例如,ISO 8859-6与阿拉伯语相关 联。其他编码方案(如,Unicode)可以支持多种语言。 在一个示例中,所述语言识别器(105)调用(步骤310)第一功能,其获取与所述 提取出的文本相关联的字符编码集合。第一功能将所述字符编码集合与将字符编码与语言 映射的知识库相比较。响应于所述比较,所述第一功能确定指示与提取出的文本相关联的 至少一种语言的结果。 优选地,第一功能提供与所述结果相关联的置信度值给语言识别器(105)。
优选地,如果第一功能确定所确定的语言是至少两种语言之一,则优选地,所述语 言识别器(105)调用(步骤310)第二功能。
6
在一个示例中,所述第二功能将字符编码集合与将字符编码与脚本(script)映 射的知识库相比较。例如,两种语言可以具有不同的脚本,因此,所述第二功能可被用于确 定至少两种语言中的哪种语言与提取出的文本相关。响应于所述比较,所述第二功能确定 指示与提取出的文本相关联的至少一种语言的结果。 优选地,第二功能提供与所述结果相关联的置信度值给语言识别器(105)。
在一个优选的实施例中,包含由所述分析工具和一个或多个功能所确定的一种或 多种语言的结果被合并。 可选地,在步骤315,所述语言识别器(105)确定包含由所述分析工具和一个或多 个功能所确定的一种或多种语言的结果是否应该被合并。 在一个示例中,如果从所述分析工具和一个或多个功能接收到的每个置信度值不
满足可预配置的置信度阈值,则语言识别器(105)确定所述结果应该被合并。 响应于确定所述结果应该被合并,语言识别器(105)合并(步骤320)所述结果。 所述语言识别器(105)将合并的结果传递给顺序识别器(110)。 图3的过程结束,并执行图2的步骤205。 响应于确定所述结果不应该被合并,存储由一个或多个功能所确定的结果。 所述语言识别器(105)将所述结果传递给顺序识别器(110)。 图3的过程结束,并执行图2的步骤205。 在第一个示例中,所述结果包括英语和阿拉伯语。 参考图2,在步骤205,所述顺序识别器(110)确定在提取出的文本中,逻辑顺序是 否是反转的,也就是,逻辑顺序是否关于所述处理顺序是反转的。 在一个示例中,分析工具和一个或多个功能中的至少一个可以能够确定在提取出 的文本中、逻辑顺序是否是反转的。例如,如果具有被反转(如,LtR)的逻辑顺序(如,RtL) 的所述提取出的文本被输入到分析工具,则所述分析工具将不能确定语言。然而,如果反转 提取出的文本(例如,其子集)并将其输入到分析工具,则所述分析工具更有可能确定语言 (如,阿拉伯语)。 然而,如果不能确定在提取出的文本中的逻辑顺序是否是反转的,则优选地,可执 行图4的过程。 参考图4,在步骤400,所述顺序识别器(110)分析与提取出的文本相关联的标点 符号。 例如,提取出的文本包括以下子集。应该理解,提取出的文本包括具有LtR逻辑顺 序(如,"cows drink water.,,)的文本禾口具有RtL逻辑顺序(如,".doof emos tae stac eht")的文本。应该理解,具有RtL逻辑顺序的文本在此示例中代表阿拉伯语文本。应该 理解,大写字母未被用在下面的示例中
cows drink water. . doof emos tae stac eht 首先,所述顺序识别器(110)以LtR顺序处理提取出的文本。作为响应,所述顺序 识别器(110)识别与标点符号(如,依赖位置的字符)相关联的字符。 参考上述文本,所述顺序识别器(110)识别第一个句号(".")。响应于识别出标 点符号字符,所述顺序识别器(110)识别该标点符号字符的任一侧的字符。参考上述文本, 所述顺序识别器(110)识别句号的左手侧的字母字符(如,"r")、以及所述句号的右手侧的空格字符。因此,所述顺序识别器(110)识别出包括LtR顺序的以下类型的字符的集合
[字母字符][标点符号字符][空格字符] 参考上述文本,所述顺序识别器(110)识别出第二个句号(".")、句号左手侧的 空格字符以及句号右手侧的字母字符(如,"d")。因此,所述顺序识别器(110)识别出包 括LtR顺序的以下类型的字符的集合
[空格字符][标点符号字符][字母字符] 优选地,所述顺序识别器(110)将所述集合与存储在第一存储组件(120)的规则 的第一集合相比较。优选地,规则将与标点符号的使用相关联的数据、与逻辑顺序及有关该 逻辑顺序在提取出的文本中是否是反转的指示映射。 规则的一种示例如下所示。所述规则与格式相关联,在该格式中,标点符号典型地 出现在词(word)的逻辑结尾,而不管文本具有LtR逻辑顺序还是RtL逻辑顺序
如果[空格字符][标点符号字符][字母字符]
则 逻辑顺序=RtL ;顺序=反转
如果[字母字符][标点符号字符][空格字符] 贝U : 逻辑顺序=LtR 响应于与所述规则进行比较,顺序识别器(110)生成结果,其指示所述文本包括 LtR和RtL的逻辑顺序。所述结果也指示所述RtL逻辑顺序在提取出的文本中是反转的。
优选地,所述顺序识别器(110)也在结果中提供具有LtR逻辑顺序的文本以及具 有RtL逻辑顺序的文本出现次数的指示。在第一个示例中,所述顺序识别器(110)指示具 有LtR逻辑顺序的文本的一次出现(如,第一个标点符号字符)、以及具有RtL逻辑顺序的 文本的一次出现(如,第二个标点符号字符)。 优选地,所述顺序识别器(110)确定与结果相关联的置信度值,并确定(步骤405) 所述置信度值是否满足可预配置的置信度阈值。如果所提供的置信度值满足可预配置的置 信度阈值,则存储所述结果。
图4的过程结束。 如果提取出的文本的至少一个子集的逻辑顺序是反转的,则顺序识别器(110)将 所述结果传递给反转组件(115),并执行图2的步骤210。 如果提取出的文本的至少一个子集的逻辑顺序不是反转的,则图2的过程结束。
优选地,一种规则可以与一种语言相关联。有利地,所述顺序识别器(110)可以使 用遵循以下步骤200获得的结果(多个)(即,指示至少一种已确定的语言的结果),以选择 比较提取出的文本所针对的规则(如,与英语相关联的规则)。因此,有利地,选择与特定语 言的特征相关联的规则(其可以提高顺序识别器(110)所确定的结果的准确度)。
在分析依赖位置的字符的另一个示例中,可以采用与字符相关联的呈现 (presentation)数据的分析。例如,在例如阿拉伯语的一些语言中的字符除了字符编码之 外还具有与呈现形式相关联的编码。
8
这是因为,取决于字符在一个词中如何出现,而有所不同地显示该字符(例如,在 一个词的中间("中间(medial)");在一个词的开始("开始(initial)");在一个字的结 尾("最后(final)")或孤立("孤立(isolated)"))。 例如,顺序识别器(110)处理所述提取出的文本,并确定与第一个字符相关联的 呈现数据。在一个示例中,所述呈现数据包括"开始"。顺序识别器(iio)确定所述第一个 字符的任意一侧的字符。在一个示例中,左手侧的字符是字母字符,而右手侧的字符是空格 字符。所述顺序识别器(110)将找到的字符的类型(如,[字母字符][开始][空格字符]) 与规则相比较。 优选地,规则将与呈现数据相关联的数据、与逻辑顺序及有关该逻辑顺序在提取 出的文本中是否是反转的指示映射。 规则的示例如下所示。所述规则与一种格式相关联,在该格式中,开始的字符典型 地在左手侧具有空格字符,且在右手侧具有字母字符,而不考虑文本具有LtR逻辑顺序还 是RtL逻辑顺序
如果[字母字符][开始][空格字符]
贝U : 逻辑顺序=RtL ;顺序=反转 响应于基于所述规则的比较,顺序识别器(110)生成结果,其指示所述文本包括 RtL逻辑顺序,且在提取出的文本中,RtL逻辑顺序是反转的。 有利地,这个机制利用了这样的事实特定语言(如,阿拉伯语)可具有这样的字 符,该字符取决于其在词中出现的位置而被不同地呈现。 如果所提供的置信度值不满足可预配置的置信度阈值,则所述顺序识别器(110) 分析(步骤420)所提取出的文本中的通常出现的词。 例如,顺序存储器(110)访问存储在第一存储组件(120)中的通常出现的词的集 合(如,优选地,在多种语言中通常出现的词)。 优选地,诸如"the"等通常出现的词以LtR逻辑顺序(如,"the")以及反转的逻
辑顺序(如,"eht")存储。优选地,与逻辑顺序相关联的标识符(identifier)与通常出现
的词相关联。优选地,与逻辑顺序在提取出的文本中是否反转相关联的指示也与通常出现
的词相关联。 一个示例显示如下" the ";逻辑顺序=LtR "eht";顺序二反转的逻辑顺序 优选地,通常出现的词与边界字符的任一侧的空格字符一起存储。例如,"the"被 存储为"the"。这保证了顺序识别器(110)不会在另一个词内找到通常出现的词。例如,顺 序识别器(110)将不会在"other"内找到"the"。 优选地,当被反转时是不同的第二个词的第一个词不被使用(如,"room"当被反 转时是"moor")。这是因为,顺序识别器(110)将不能区分已经被反转的第一个词的出现、 以及所述不同的第二个词的出现。然而,如果这样的词被使用,则优选地,所述顺序识别器 (110)调用语法分析,使得顺序识别器(110)可以区分已经被反转的第一个词的出现以及 所述不同的第二个词的出现。
所述顺序识别器(110)以LtR逻辑顺序处理提取出的文本,并向其检查以LtR逻
辑顺序和反转的逻辑顺序存储的一个或多个通常出现的词。 参考上述文本,顺序识别器(110)识别出"eht"。 作为响应,所述顺序识别器(110)使用随着通常出现的词的出现而被存储的数 据,以便确定结果,其指示逻辑顺序在提取出的文本中是反转的。 优选地,所述顺序识别器(110)在该结果中也提供具有LtR逻辑顺序的文本和具 有反转的逻辑顺序的文本出现次数的指示。 在第一个示例中,所述顺序识别器(110)指示具有反转的逻辑顺序的文本的一次 出现(如,通常出现的词"eht")。 优选地,所述顺序识别器(110)确定与该结果相关联的关联置信度值,并确定(步 骤425)所述置信度值是否满足可预配置的置信度阈值。如果所提供的置信度值满足可预 配置的置信度阈值,则存储所述结果。
图4的过程结束。 如果提取出的文本的至少一个子集的逻辑顺序是反转的,则所述顺序识别器 (110)将该结果传递给反转组件(115),并执行图2的步骤210。 如果提取出的文本的至少一个子集的逻辑顺序不是反转的,则图2的过程结束。
如果提供的置信度值不满足可预配置的置信度阈值,则顺序识别器(110)调用 (步骤430) —个或多个辞典的查找(look-up)。 例如,先前的步骤可能没有产生满足置信度阈值的结果,这是因为,提取出的文本 与特定的领域(如,专利说明书;计算机技术相关的文档)相关联。 优选地,辞典包括以LtR逻辑顺序和反转的逻辑顺序存储的词、与逻辑顺序相关
联的标识符、以及与提取出的文本中的逻辑顺序是否反转相关联的指示。 可选择地,与LtR逻辑顺序相关联的词可以被输入到所述辞典,并且,如果所述辞
典不能确定结果,则该词被反转,并被输入到辞典。作为响应,典型地,所述辞典更有可能确
定结果。有利地,这使得辞典必须存储更少的数据。 优选地,响应于步骤430,所述顺序识别器(110)确定结果,其指示是否存在具有 LtR逻辑顺序的文本、具有RtL逻辑顺序的文本;逻辑顺序在提取出的文本中是否是反转 的;以及LtR逻辑顺序和RtL逻辑顺序出现次数的指示。
优选地,存储所述结果。
图4的过程结束。 如果提取出的文本的至少一个子集的逻辑顺序是反转的,则顺序识别器(110)将 结果传递给反转组件(115),并执行图2的步骤210。 如果提取出的文本的至少一个子集的逻辑顺序不是反转的,则图2的过程结束。
优选地,在一个或多个先前的机制之后使用一个或多个辞典的查找,这是因为,查 找需要增加的处理和时间。 优选地,依照与先前的机制相关联的置信度值来使用一个或多个辞典的查找。
应该理解,可以执行任意数目的其他机制,以确定结果,其指示是否存在具有 LtR逻辑顺序、具有RtL逻辑顺序的文本;逻辑顺序在提取出的文本中是否是反转的;以及 LtR逻辑顺序和RtL逻辑顺序出现次数的指示。
10
应该理解,优选地,依照遵循步骤200获得的结果(多个)(S卩,指示至少一种已确 定的语言的结果)来选择这样的机制。因此,有利地,与特定语言的特征相关联的机制可被 选择。 在一个示例中,可使用语法分析。 参考图2,如果在提取出的文本中、逻辑顺序是反转的,则执行图2的步骤210,据
此,反转组件(115)反转与提取出的文本相关联的一个或多个文本部分。 步骤210包括在图5中描绘的多个步骤。 反转组件(115)使用从顺序识别器(110)接收到的结果。 在此示例中,反转组件(115)使用一个或多个结果,其指示是否存在具有LtR逻 辑顺序的文本、具有RtL逻辑顺序的文本;逻辑顺序在提取出的文本中是否是反转的;以及 具有LtR逻辑顺序的文本和具有RtL逻辑顺序的文本的出现次数的指示。
在步骤500,反转组件(115)利用一个或多个结果来确定逻辑顺序是否主要是 RtL(如,通过使用存在具有RtL逻辑顺序的文本的指示、以及具有LtR逻辑顺序的文本和具 有RtL逻辑顺序的文本的出现次数的指示)。 在第一个示例中,反转组件(115)确定文本具有RtL逻辑顺序、具有LtR逻辑顺序 的文本的一次出现(如,第一个标点符号字符)、以及具有RtL逻辑顺序的文本的两次出现 (如,第二个标点符号字符和通常出现的词"eht")。 在第一个示例中,反转组件(115)确定所述逻辑顺序主要是RtL,且优选地,反转 (步骤505)提取出的文本的一个或多个文本部分。 优选地,反转组件(115)使用与提取出的文本相关联的位置数据来确定文本部 分。例如,如果所述位置数据指明行处于正确的逻辑顺序,则反转组件(115)确定所述文本 部分是一行,且作为响应,一次反转一行。因此,响应于所述反转,可以从首到尾正确地读取 文本。 应该理解,可出现任意数目的其他文本部分(如,段落)的确定。
在第一个示例中,反转的结果显示如下
the cats eat some food., retaw knird swoc 在步骤510,反转组件(115)使用一个或多个结果来确定是否存在具有LtR逻辑顺 序的文本。 如果反转组件(115)确定不存在具有LtR逻辑顺序的任何文本,则图5的过程结 束(且图2的过程结束)。处理过的文本可以被发送给一个或多个工具,如用于分析。
如果反转组件(115)确定存在具有LtR逻辑顺序的文本,则反转组件(115)确定 一个或多个具有LtR逻辑顺序的文本部分。 典型地,除了字符编码之外,字符还具有与方向(S卩,逻辑顺序)相关联的属性。典 型地,空格字符具有属性"中性(neutral)",其指示其不具有RtL逻辑顺序,也不具有LtR 逻辑顺序。 优选地,反转组件(115)处理所述提取出的文本,并查找每个字符的属性,以确定 相关联的逻辑顺序。 在第一个示例中,提取出的文本的字符以及相关联的属性显示如下,其中,"r"指 示RtL逻辑顺序;'T指示LtR逻辑顺序;以及"n"指示中性:
11
the cats eat some food., retaw knird swoc 在第一个示例中,反转组件(115)确定存在三个具有LtR逻辑顺序的文本部分。
作为响应,反转组件(115)反转(步骤515)具有LtR逻辑顺序的所述文本部分。 优选地,包括所述三个文本部分的整个部分是反转的(包括所述三个文本部分内的具有中 性属性的字符)。然而,在整个部分的边界(如,开头或结尾)具有中性属性的字符不是反 转的。例如,用以下下划线指示的空格字符不是反转的
food.—.retaw 在第一个示例中,反转的结果显示如下
the cats eat some food, cows drink water. 图5的过程结束(且图2的过程结束)。处理过的文本可以被发送给一个或多个 工具,如用于分析。 有利地,如果具有RtL逻辑顺序的文本在提取出的文本中是主要的,则在步骤505 执行文本的批量反转(bulk reversal)校正了在单个执行中的大多数文本的反转。通过在 批量反转之后校正一些(即,大多数)具有LtR逻辑顺序的文本部分的反转,提高了效率。
如果反转组件(115)确定所述逻辑顺序并非主要是RtL,则优选地,在步骤520,反 转组件(115)利用一个或多个结果来确定是否存在具有RtL逻辑顺序的任何文本。
如果反转组件(115)确定不存在具有RtL逻辑顺序的任何文本,则图5的过程结 束(且图2的过程结束)。处理过的文本可被发送给一个或多个工具,如用于分析。
如果反转组件(115)确定存在具有RtL逻辑顺序的文本,则反转组件(115)确定 一个或多个具有RtL逻辑顺序的文本部分(如,通过分析与字符的方向相关联的属性)。
作为响应,所述反转组件(115)反转(步骤515)具有RtL逻辑顺序的文本部分。
图5的过程结束(且图2的过程结束)。处理过的文本可被发送给一个或多个工 具,如用于分析。 有利地,如果具有RtL逻辑顺序的文本在提取出的文本中不是主要的,则执行具
有RtL逻辑顺序的一些(即,少数的)文本部分的反转,因此提高了效率。 应该理解,如果提取出的文本以RtL顺序处理,则可以进行一个或多个修改。 例如,被用作在上述规则集合中指定的逻辑顺序的规则的第二集合将是不正确
的。例如,如果以下字符类型被确定,则相关联的逻辑顺序是LtR,而不是RtL :[空格字符][标点符号字符][字母字符] 还可以做进一步的修改,例如,其中,词以RtL逻辑顺序和反转的逻辑顺序被存储 在辞典中。 有利地,本发明接收输入包括具有相关联的第一顺序的文本的文档,并处理具有 第二逻辑顺序的文本,这样可以有效地分析所述文本。 有利地,通过使用与启发式(heuristics)相关联的多种机制、以及使用置信度阈 值,可以提高本发明的设备所产生的结果的鲁棒性。 有利地,本发明可以用于任意数量的显示文档。例如,可以使用以LtR顺序存储文 本用于显示的PDF文档。在另一个示例中,可以使用包括已使用光学字符识别(OCR)而被 扫描和处理的文档的文件。在又一个示例中,可以使用包括不正确地指定或未指定文本的逻辑顺序的标记(如HTML)的文件。 有利地,本发明可以用于多种应用。例如,用于准备用于文本分析的文本;准备由文本处理系统(如word处理系统)使用的文本;以及准备用于文本检索系统(如数据库或内容管理系统)的存储的文本。 有利地,本发明可操作用于处理包括双向文本(也就是,具有RtL逻辑顺序的文本以及具有LtR逻辑顺序的文本)的文档。 本领域的普通技术人员应该清楚,本发明所述优选的实施例的所有或部分方法可
以适当并有用地体现在一个逻辑设备中,或多个逻辑设备中,其包括安排用于执行本方法
的所述步骤的逻辑元素,且这些逻辑元素可以包括硬件组件、固件组件或其组合。 本领域的技术人员也应该同样清楚,根据本发明所述优选的实施例的所有或部分
逻辑安排可以适当地体现在一个逻辑设备中,其包括执行所述方法的步骤的逻辑元素,且
这些逻辑元素可以包括诸如逻辑门等组件,例如,可编程逻辑阵列上或应用指定的集成电
路。这样的逻辑安排可以进一步体现在使能暂时或永久地在这些阵列或电路上建立逻辑结
构的元素上,例如,虚拟硬件描述语言,其可以利用固定的或可传送的承载介质来存储或传输。 应该意识到,上述方法和安排也可以适当地在一个或多个处理器(图中未显示)上运行的软件上全部或部分地施行,且所述软件可以以在诸如磁或光盘等任意合适的数据载体(图中也未显示)上携带的一个或多个计算机程序元素的形式提供。数据传输的信道可以同样地包括各类存储介质以及信号承载介质,诸如有线或无线信号承载介质。
本发明可以进一步适当地体现为计算机系统使用的计算机程序产品。这样的实现可以包括一系列计算机可读指令,其被固定在有形介质(如计算机可读介质,如磁盘、CD-R0M、R0M或硬盘)上,或可经由有形介质(包括但不局限于光或模拟传输线路)、或无形地利用无线技术(包括但不局限于微波、红外或其他传输技术),通过调制解调器或其他接口设备传输到计算机系统。所述计算机可读指令系列体现了此前描述的所有或部分功能。
本领域的技术人员应该意识到,这些计算机可读指令可以用很多计算机架构或操作系统使用的多种编程语言书写。而且,这些指令可以利用任意存储技术存储,当前的或将来的,包括但不局限于半导体、磁、或光,或利用当前的或将来的任意传输技术传输,包括但不局限于光、红外或微波。考虑到这些计算机程序产品也能作为伴随打印的或电子的文档的移动介质发布,例如,在系统ROM或固定盘,或从服务器或电子布告栏通过网络发布,例如,因特网或万维网。 在另一种情况,本发明的优选实施例可以以部署服务的计算机实现的方法的形式
实现,所述服务包括部署计算机程序代码的步骤,当其被部署到计算机基础结构并在其上
执行时,所述程序代码可操作用于使所述计算机系统执行上述方法的所有步骤。 本领域的技术人员应该清楚,在不脱离本发明的范围的情况下,可以对前面提到
的典型实施例做很多改进和修改。
1权利要求
一种准备显示文档用于分析的设备,包括提取器,用于从所述显示文档提取字符数据;顺序识别器,用于确定与所述字符数据的处理相关联的第一顺序、以及与所述字符数据的逻辑顺序相关联的第二顺序,并确定第一顺序与第二顺序是否不同;以及反转组件,用于响应于该顺序识别器确定所述第一顺序不同于所述第二顺序,反转所述字符数据。
2. 如权利要求1所述的设备,其中,所述顺序识别器可操作用于 确定依赖位置的字符数据;将所述依赖位置的字符数据与规则相比较;以及 响应于所述比较,确定所述第二顺序。
3. 如权利要求2所述的设备,其中,所述依赖位置的字符数据包括标点符号字符和呈 现数据中的至少一个。
4. 如权利要求1所述的设备,其中,所述顺序识别器可操作用于 确定所述字符数据中的通常出现的词; 将所述通常出现的词与规则相比较;以及 响应于所述比较,确定第二顺序。
5. 如权利要求1所述的设备,其中,所述顺序识别器可操作用于 将所述字符数据与辞典集合相比较;以及 响应于所述比较,确定第二顺序。
6. 如权利要求1所述的设备,还包括语言识别器,用于识别与文档中的所述字符数据 相关联的至少一种语言。
7. 如权利要求6所述的设备,其中,所述语言识别器可操作用于分析下列的至少一个 与所述字符数据相关联的词汇;与所述字符数据相关联的至少一种字符编码;以及与所述 字符数据的脚本相关联的脚本数据。
8. 如权利要求6或权利要求7所述的设备,其中,所述顺序识别器可操作用于使用所识 别的语言来确定规则,其中将文档中的字符数据与该规则相比较,以便确定所述第二顺序。
9. 如权利要求6至8中的任一个所述的设备,其中,所述语言识别器和所述顺序识别器 中的至少一个可操作用于生成分别与所识别的语言和所确定的第二顺序中的至少一个相关联的置信度值。
10. 如权利要求9所述的设备,还包括用于将所述置信度值与置信度阈值相比较的部件。
11. 如权利要求1所述的设备,其中反转组件可操作用于确定文档中的所述字符数据 是否具有主要的第一顺序。
12. 如权利要求11所述的设备,其中,响应于确定文档中的字符数据具有主要的第一 顺序,所述反转组件可操作用于确定与第二顺序相关联的数据的至少一个子集;以及 反转所确定的子集。
13. 如权利要求11所述的设备,其中,响应于确定文档中的字符数据不具有主要的第 一顺序,所述反转组件可操作用于反转所述字符数据;响应于反转所述字符数据; 确定与第一顺序相关联的字符数据的至少一个子集;以及 反转所述确定的子集。
14. 如权利要求l所述的设备,其中,响应于所述反转组件反转文档中的所述字符数 据,文本检索系统、文本分析系统以及文本处理系统中的至少一个可操作用来接收所述字 符数据。
15. 如权利要求1所述的设备,其中第一顺序与所述字符数据的检索相关联。
16. —种准备显示文档用于分析的方法,包括以下步骤 从所述显示文档中提取字符数据;确定与所述字符数据的处理相关联的第一顺序、以及与所述字符数据的逻辑顺序相关 联的第二顺序;确定所述第一顺序是否不同于所述第二顺序;以及 响应于确定所述第一顺序不同于所述第二顺序,反转所述字符数据。
17. 如权利要求16所述的方法,还包括以下步骤 确定依赖位置的字符数据;将所述依赖位置的字符数据与规则相比较;以及 响应于所述比较,确定所述第二顺序。
18. 如权利要求17所述的方法,其中,所述依赖位置的字符数据包括标点符号字符和 呈现数据中的至少一个。
19. 如权利要求16所述的方法,还包括以下步骤 确定所述字符数据中的通常出现的词; 将所述通常出现的词与规则相比较;以及 响应于所述比较,确定所述第二顺序。
20. 如权利要求16所述的方法,其中,还包括以下步骤 将所述字符数据与辞典集合相比较;以及 响应于所述比较,确定第二顺序。
21. 如权利要求16所述的方法,还包括以下步骤 识别与文档中的所述字符数据相关联的至少一种语言。
22. 如权利要求21所述的方法,还包括以下步骤分析下列的至少一个与所述字符数据相关联的词汇;与所述字符数据相关联的至少 一种字符编码;以及与所述字符数据的脚本相关联的脚本数据。
23. 如权利要求21或权利要求22所述的方法,还包括以下步骤使用所识别的语言来确定规则,其中将文档中的字符数据与该规则相比较,以便确定 所述第二顺序。
24. 如权利要求21至23中的任一个所述的方法,其中,所述语言识别器和所述顺序识 别器中的至少一个可操作用于生成分别与所识别的语言和所确定的第二顺序中的至少一 个相关联的置信度值。
25. 如权利要求24所述的方法,还包括以下步骤将所述置信度值与置信度阈值相比较。
26. 如权利要求16所述的方法,还包括以下步骤确定文档中的所述字符数据是否具 有主要的第一顺序。
27. 如权利要求26所述的方法,还包括以下步骤响应于确定文档中的字符数据具有 主要的第一顺序,确定与第二顺序相关联的数据的至少一个子集;以及 反转所确定的子集。
28. 如权利要求26所述的方法,还包括以下步骤响应于确定文档中的字符数据不具 有主要的第一顺序反转所述字符数据;确定与第一顺序相关联的字符数据的至少一个子集;以及 反转所述确定的子集。
29. 如权利要求16所述的方法,其中,响应于所述反转组件反转文档中的所述字符数 据,文本检索系统、文本分析系统以及文本处理系统中的至少一个可操作用来接收所述字 符数据。
30. 如权利要求16所述的方法,其中,第一顺序与所述字符数据的检索相关联。
31. —种计算机程序,包括程序代码组件,其被适配为当在计算机上运行所述程序时, 执行权利要求16至30中的任一个的全部步骤。
全文摘要
一种准备显示文档用于分析的设备,包括提取器,用于从所述显示文档提取字符数据;顺序识别器,用于确定与所述字符数据的处理相关联的第一顺序、以及与所述字符数据的逻辑顺序相关联的第二顺序,并确定第一顺序与第二顺序是否不同;以及反转组件,响应于顺序识别器确定所述第一顺序不同于第二顺序,反转所述字符数据。
文档编号G06F17/22GK101796509SQ200880105360
公开日2010年8月4日 申请日期2008年8月6日 优先权日2007年9月3日
发明者阿德里安·李 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1