自动组成评估器的制造方法_2

文档序号:9438920阅读:来源:国知局
性XML文件(可以通过XSLT实现)如下所不O
[0026]<?xml vers1n=”1.0” encoding=”UTF-8”?>
<eval_document mse_new,,zzOlOlOlO” sz_units=”mm”〉
<eval_page physical_no=,,I ” logical_no=,,235” sz_width=,,207.9625” sz_height=”276.225,,》
〈eval_para maxConsecu ti veHyphens= α v maxln terlineSpacing= “,,> 〈eval_line sz x=,,14.8158” sz_y=,,51.8583” sz_area_left= ^ 14.8158” sz_area_right=,,192.0875” sz_area_ top=”45.5083”
sz_area_bo ttom= ”51.8583” sz_ th=”3.5278” sz_ tlb=,,0” sz_ tvs=,,O ” sz_ tvb= ”2.0959 ” hyphena ted= ^yes ”/〉
〈/3 val_para>
〈/3 val_page>
〈/3 val_ documen t>
在以上示例中,度量文件可以具有与标准应用生成的XML文件的格式类似的格式,但还可以包括与正在被评估的文档有关的某些附加信息。与该标准应用生成的XML文件类似,度量文件可以包括构成标记部分的字符串、字符、以及对象。作为一个示例,构成标记部分的字符串可以从字符“〈”开始并且以“〉”结束。这些字符串被称为标记(tag)。这些标记可以包括例如开始标记、结束标记以及空元素标记。在示例性评估器标准XML文件的以上说明中,〈eval_document mse_newvzzOlOlOlO ” sz_units=,,nun 是开始标记,而 </eval_documents是结束标记。逻辑文档组件或者以开始标记开始并且以匹配的结束标记结束或者仅由空元素标记(如<liiw—breeik A)组成。
[0027]在一个实施例中,在步骤160的文件转换过程中,处理器(多个)120执行来自存储器124的软件指令以便对在步骤150接收的文件进行提取、分类、重新安排或以其他方式将其转换成度量文件,如评估器标准XML文件。作为一个示例,在以上说明性度量文件中,与文本行相关联的参数由“ eval_line”标记指示;与页相关联的参数由“ eval_page”标记指示;等等对应于图3A和图3B,详细描述了以上说明性度量文件中的参数。简言之,这些参数可以表示对象的特性,如文本行、表格、方程、图形、页和文档。参数可以包括数值参数,如以上说明性度量文件中所示的行参数的“ X ”和“ I ”坐标。参数还可以包括文本参数、布尔型参数、定性参数,或者是任何其他令人期望的形式。尽管以上说明性度量文件演示与一定数量的对象相关联的一定数量的参数,但度量文件可以包括任何数量的参数和任何数量的对象。
[0028]度量文件中所包括的对象的类型可以包括文本行、段落、表格、方程、图形、栏、页、文档、和/或以上对象的任何组合,如框(frame)。框可以包括同一类型或不同类型的对象中的一个或多个对象。例如,框可以包括彼此靠近的若干行文本或段落。框还可以包括若干表格。度量文件可以包括对象、框、或这两者的组合。
[0029]除了标记部分,度量文件还可以包括构成内容部分的字符串、字符、对象、以及框,这些可以不与标记相关联。内容包括在步骤150过程中接收的文件中的实质性材料,如原始文档中的文本、表格、方程、以及图形的组成。度量文件可以包括标记部分和内容部分中的一者或两者。
[0030]在步骤160的文件转换过程中,处理器(多个)120可以执行存储器124中存储的软件指令来以不同方式处理在步骤150中接收的文件的组成信息。作为一个示例,如果所接收的文件是包括所有可用组成信息的标准应用生成的XML文件,则处理器(多个)120可以执行对组成信息进行提取、排序、拷贝、分类或以其他方式将其转换成多个对象(如表格、方程、图形、栏、页和文档)的软件指令;以及生成相应的度量文件。可替代地,如果在步骤150中接收的文件例如是纯文本文件、微软Word文件、或Adobe PDF文件,则处理器(多个)120可以首先例如通过将该文件转换成标准XML文件并且然后生成度量文件来创建对该文件中的不同对象进行标识的标记。此外,处理器(多个)120还可以纠正在步骤150中接收的文件中可能存在的任何格式化错误。在某些实施例中,步骤160的文件转换过程还可以由带有或不带有处理器(多个)120和存储器124的自动组成评估器110 (如由解释器114)执行。
[0031]在一个实施例中,自动组成评估器110的阅读器112可以执行软件指令来执行文件读取过程(步骤170)。阅读器112可以获得在步骤160的文件转换过程中生成的度量文件。阅读器112可以将该度量文件存储在自动组成评估系统100的存储器124或任何其他存储组件中。
[0032]在某些实施例中,解释器114可以执行文件解释过程(步骤200 )。解释器114可以将在步骤160的文件转换过程中生成的度量文件当作输入文件,或者将该度量文件和在步骤150中接收的文件两者当作输入文件。作为一个示例,解释器114可以首先取度量文件并确定该度量文件是否包括所期望的用于评估的组成信息。如果所有期望的组成信息是可获得的,则解释器114可以继续进行以解释该度量文件。然而,如果解释器114确定某些期望的组成信息丢失,则其可以试图解释丢失的信息本身(如下文将描述的)或者可以试图从在步骤150中接收的文件中获得丢失的信息。例如,如果度量文件不包括表格对象的宽度信息,则解释器114可以直接从在步骤150中接收的文件中获得那条信息。然而,如果解释器114不能获得所需要的信息,则解释器114可以终止步骤200的解释过程,或者可以继续该解释过程但要报告错误消息。
[0033]如果解释器114确定所有期望的组成信息在度量文件中可获得,或者可以从在步骤150中接收的文件中获得,或者可以被解释,则解释器114可以执行该文件解释过程(步骤200)。对应于图3A和图3B,详细描述了步骤200。简言之,解释器114可以获得与度量文件中的多个对象相关联的组成信息并生成一个或多个参数,该一个或多个参数可以用于评估和符合性确定过程(步骤300)。作为一个示例,如果解释器114确定某些期望的参数(如最大连续连字符(maxConsecutiveHyphens))或最大行间间距(maxInterlineSpacing)在度量文件中丢失,则该解释器可以试图从该度量文件中计算或导出丢失的信息。如果度量文件包括每个连续连字符实例的连续连字符的数量,或包括所有行的行间间距的数量,则解释器114可以计算相应的最大数值以获得丢失的最大连续连字符和最大行间间距。然而,如果度量文件不包括上述数量信息,则解释器114可以在其计算最大值之前试图从在步骤150中接收的文件中获得该信息。
[0034]在某些实施例中,评估器116可以执行评估和符合性确定过程(步骤300 )。对应于图5A至图5E和图6至图8,详细描述了步骤300的评估和符合性确定过程。简言之,评估器116可以基于规则引擎122提供的多个组成规则评估步骤200的文件解释过程生成的参数。这些组成规则可以用于确定例如在步骤150中接收的文件是否符合预设的标准。这些组成规则可以由规则引擎122预先配置并加载到自动组成评估系统100的存储器124。还可以根据需要对这些组成规则进行更新。
[0035]评估器116可以通过例如将这些参数与这些组成规则进行比较来评估这些参数。使用参数maxConsecutiveHyphens作为一个不例,如果maxConsecutiveHyphens的组成规则设置为四的阈值,则出现多于四个连续连字符会引起最大连续连字符超过该阈值的结果。然后,评估器116可以基于这些结果生成结论并确定在步骤150中接收的文件是否符合组成规则。
[0036]图3A是与某些披露的实施例一致的示例性文件解释过程200的流程图。文件解释过程200以及其中任何或所有单独步骤可以由自动组成评估系统100的任何组件(包括阅读器112、解释器114、评估器116和处理器120)执行。为了示例性目的,图3A被披露为由解释器114执行。
[0037]自动组成评估系统100可以通过解释器114执行软件指令来确定文本对象的一个或多个参数(过程200)。文本对象的一个或多个参数有时还被称为文本参数。文本对象可以包括文本,如字符、字符串、行、段落、章节、栏等。自动组成评估系统100还可以将例如文本的行或段落分割或分开成多个文本对象。因此,文本的一行或一个段落可以对应于一个或多个文本对象。在某些实施例中,自动组成评估系统100可以确定文本对象的一个或多个参数,包括输入文档中的所有文本、或输入文档中的文本的任何部分,如页中的段落或栏内的文本。
[0038]自动组成评估系统100通过解释器114可以确定文本对象中的文本行的坐标(步骤202)。这些坐标可以是2维x,y坐标。一方面,可以从度量文件或者从在步骤150接收的输入文件确定坐标信息。自动组成评估系统100还可以确定文本对象中的文本行的行距(leading)信息(步骤202)。行距信息可以包括文本的连续行的基线之间的距离。例如,以微软Word为格式,行距是行间距(line spacing)或行间间距(inter-line spacing),即,文本行之间的竖直行间距。行距还可以包括字体大小。例如,行之间2镑间距的10镑文本可以对应于12镑的行距。还可以从度量文件或者从输入文件确定行距信息。
[0039]自动组成评估系统100通过解释器114可以标识文本对象的标题(步骤204)。标题的格式化要求可以与正文文本行的格式化要求不同。例如,标题可以具有更大的字体大小、更宽的行距公差等。因此,可以将不同的格式化要求强加于标题上,并且可以与文本行的其他部分有区别地评估标题。在某些实施例中,在步骤204中,可以标识不同级别的标题。例如,文档可能具有多个级别的标题,从而总结整个文档的主题、栏、章节和段落。这多个标题级别中的每个级别会要求与其他级别不同的格式。自动组成评估系统100通过解释器114可以通过使用例如度量文件中的标记标识不同的标题级别。解释器114还可以通过任何其他手段(如通过解释文本行的坐标、文本行在文档中的位置、文本行间距以及与文档的其他部分的关系)来标识标题。
[0040]自动组成评估系统100通过解释器114可以确定标注的位置(步骤206)。标注可以包括通过线、箭头、或与对象的特征类似的图形(如图示或图形)连接的文本串,并且给予关于那个特征的信息。标注还可以包括文本串,该文本串指代与该文本串相关联但不一定与其连接的对象。标注可能连接或指代的对象包括表格、方程、图形(如示意图、图表、绘图、图像(被称为“非文本对象”))、以及任何其他期望的对象。非文本对象是可以具有或可以不具有文本包裹在其周围的对象并且可以距离相应的标注一定距离。非文本对象可以被编排在文本下方、文本上方、或文本的同一层内。非文本对象还可以与一个或多个标注连接。例如,微软Word格式的标注可以是特殊的文本框,该文本框带有或不带有可以指向文档中的不同位置的小“尾巴(tail)”。非文本对象还可以指相应标注中的一个或多个标注,但不一定与其连接。例如,标注可以仅包括字符串,如“图X”,而图X是被编排在文档中的某个地方的图形对象。自动组成评估系统100可以确定标注的位置,包括例如非文本对象是否被编排在相关联标注的前面。自动组成评估系统100还可以确定标注是否恰好与非文本对象相关联和是否有不与任何非文本对象相关联的任何标注(即,孤立标注)。
[0041]自动组成评估系统100通过解释器114可以确定对象(包括文本对象、非文本对象、以及度量文件中的任何其他对象)的位置(步骤208)。除了其他事项以外,自动组成评估系统100可以确定大对象(major object)和小对象(minor object)的位置、浮动对象和固定对象、以及对象或有序对象的位置和/或顺序。大对象和小对象可以指对象的大小。例如,具有页宽度的对象可以被称为大对象,而具有栏宽度的对象可以被称为小对象。大对象和小对象可以是固定对象或浮动对象。固定对象固定就位,这样使得其相对于某个其他对象的位置在重编页码过程中保持不变。例如,图形对象可以固定文本对象上,这样使得它们始终好像在一起。另一方面,浮动对象可以改变其位置。
[0042]当自动组成评估系统100确定非文本对象的位置时,该系统还可以确定非文本对象与其相关联的标注的距离(在步骤206确定标注的位置)。例如,非文本对象(如浮动对象)可以被编排成若干文本行或有时若干页远离其标注。因此,自动组成评估系统100可以确定标注与相应的浮动对象之间的行数或页数。一方面,可以按一定顺序编排某些对象。例如,被称为“图2”的图形对象可以不被编排在对象“图1”后面。自动组成评估系统100可以确定例如“图1”与“图2”之间的行数或页数以及“图1”与“图2”对象的相对位置。
[0043]自动组成评估系统100通过解释器114还可以确定例如标题和脚注的位置(未示出步骤)。在确定标题的位置时,自动组成评估系统100可以计算所标识的标题后面的行数(例如,从步骤204开始)。自动组成评估系统100还可以获得是否将不同的标题级别分开的指示。而且,自动组成评估系统100还可以确定被编排在栏结束附近的标题在标题后是否具有所要求的最少数量的文本行。自动组成评估系统100还可以确定以上没有描述的对象的位置,包括任何其他期望类型的位置。
[0044]自动组成评估系统100通过解释器114可以确定XPath内容(步骤210)。度量文件(如可评估的XML文件)可以包括XPath内容。XPath (S卩,XML路径语言)是用于从XML文档中选择节点和用于从XML文档的内容中计算值(例如,字符串、数字、或布尔值)的查询语言。可以关于上下文节点评估XPath表达式。作为一个示例,XPath可以包括被称为定位路径(locat1n path)的表达式类型。定位路径由定位步骤序列组成,并且每个定位步骤可以具有三个组成部分,即,轴、节点测试、以及零或更多谓词。轴具有说明符,如“子(child)”或“后裔(de
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1