为移动通信装置的文档内容做摘要的方法和装置的制作方法

文档序号:6376184阅读:102来源:国知局
专利名称:为移动通信装置的文档内容做摘要的方法和装置的制作方法
技术领域
本发明涉及用于由移动通信装置接收和处理的电子文档的摘要信息的产生。
相关技术的描述背景技术使用各种计算机程序,例如文字处理软件、空白表格程序、财务软件以及显示软件来产生电子文档。除了文本之外,文档可以包括″丰富″的内容,例如字体信息、嵌入的图像、说明、标记和超级链接。这些电子文档可被组织成结构组,例如页、工作表或幻灯片。当移动通信装置的用户希望访问驻留在远程计算机上的电子文档并且在该移动通信装置上浏览该文档时,一般是经过一个可能带宽受限的无线网络把整个电子文档发送到该移动通信装置。例如,如果用户希望仅浏览在一个400页文档的开头位置的一页条款和条件部分,则通常是把整个文档发送到该移动通信装置,其使用者在该移动通信装置上仅浏览这一页。
该电子文档的浏览使用的是该移动通信装置的用户接口,该用户接口一般不同于在PC上用于建立和浏览文档的用户接口。虽然在PC上用于创建一个电子文档的用户接口可以包括一个大的彩色显示和例如鼠标的一个定点装置,但该移动装置可能有的是一个小的无彩色的屏面、并且可能没有鼠标。另外,与用于浏览电子文件的可以是很大规模的PC相比,该移动装置在处理和存储能力上则一般有较大的局限性。

发明内容
针对一个电子文档产生一文档摘要(summary),该摘要包括多个摘要条目的一个集合。在该文档摘要的产生中,分析在该电子文档中的内容结构或特性。根据该内容结构或特性的分析,从该电子文档的内容中选择多个摘要条目。该电子文档中的内容结构可以包括一个目录、多个电子表格工作表、多个文档页等。在该电子文档中的内容特性可以包括文字格式、段落格式编排、段落大小等。优选地,在该电子文档中的最佳可用的内容结构或特性最好在该多个摘要条目的选择中被识别和利用。响应对于电子文档的请求,把该文档摘要提供到一个移动通信装置。


现将参考附图通过示例描述本发明的实施例,其中图1是其中可以实现对文档内容进行摘要的一个系统的数据处理系统的框图;图2是一个文档服务器的框图;图3是摘要文档内容的一个系统的框图;图4是摘要文档内容的一个方法的流程图;图5是摘要一个非结构的电子文档的一个方法的流程图;以及图6是说明摘要一个未格式编排的电子文档的一个方法的流程图。
具体的实施方式针对一个电子文档产生一文档摘要,该摘要包括有多个摘要条目的一个集合。在该文档摘要的产生中,分析在该电子文档中的内容结构或特性。根据该内容结构或特性的分析,从该电子文档的内容中选择多个摘要条目。在该电子文档中的内容结构可以包括一个目录、多个电子表格工作表、多个文档页等。在该电子文档中的内容特性可以包括文字格式、段落格式编排、段落大小等。优选地,在该电子文档中的最佳可用的内容结构或特性最好在该多个摘要条目的选择中被识别和利用。响应对于电子文档的请求,把该文档摘要提供到一个移动通信装置。
图1是其中可以实现对文档内容进行摘要的一个系统的数据处理系统的框图。该系统包括一个文档服务器100,通过互联网络102和无线网络104与一个移动通信装置106通信。
将在图2中进一步描述的文档服务器100处理和组织来自电子文档的内容,以便能够将该内容发送到请求该内容的一个客户。该电子文档可被置于该文档服务器中,或可以从远程计算机或服务(未示出)检取该电子文档。文档服务器100处理各种不同格式的电子文档。例如,一个文档可以使用由专用文字处理计算机程序识别的一个格式,可以使用对于文本和图像进行图形存储的一个标准格式或可以是仅包括无格式文本的一个文档。由该文档服务器100执行的这种组织实现了在一个客户请求该内容时从该文档高效地传送该内容。
该移动通信装置106是从该文档服务器100请求内容的一个客户。该移动通信装置106包括一个用户接口(未示出)。用户接口包括例如键盘和轨迹轮的一个或者多个输入设备,以及例如计算机屏幕的一个输出装置。用户使用移动通信装置106的输入装置来启动从该文档服务器100针对文档内容的请求。一旦已经通过互联网络102和无线网络104把文档内容从该文档服务器100发送到该移动通信装置106,则在移动通信装置106的输出装置上显示该内容。
图2是一个文档服务器的框图。文档服务器包括一个分析模块200和一个摘要模块202。该分析模块200处理电子文档,并且创建一个通用文档内容数据模式,称之为文档目标模块(DOM)。DOM是一个电子文档内容的一种统一表示,DOM与文档的原始格式无关。来自一个电子文档的内容被分层地组织成一个DOM,这将实现针对一个文档的具体章节的提取。一个DOM存储了例如来自一个电子文档的文本、格式信息、图像和嵌入对象,以及组织的辅助工具,例如目录、超级链接、标记、标题、脚注、以及页编号。该摘要模块202摘要一个电子文档的内容,并且产生一个摘要的结果。通过迭代贯穿存储在DOM中的文档的分层结构而产生该摘要。该摘要把一个电子文档的内容组织成对应于该电子文档的各章节的命名条目。该入口标号能随即被用于检取内容从该对应的章节的该电子文档。图3中示出一个对文档内容进行摘要的系统。
参考图1和图2,当文档服务器100从例如移动通信装置106的一个客户接收一个请求时,该分析模块200针对来自电子文档的内容而处理该电子文档,并且建立与该电子文档相关的DOM。该摘要模块202随后根据与该电子文档相关的DOM建立一个摘要。该摘要被随即发送到该移动通信装置106。该摘要条目被展示给移动通信装置106的用户,用户可以随即挑选条目之一,从而从该文档服务器100请求对应于该条目的内容。作为响应,文档服务器100把对应于该条目名称的内容发送到该移动通信装置106。
使用由摘要模块202产生该摘要,从而使得客户请求一个电子文档的一些章节,排除了把整个电子文档发送到移动通信装置106的需要。这将最小化网络带宽的消耗量,同时还最小化发送该电子文档内容所需要的时间。同样,用于在移动通信装置106上显示内容所需要的存储量以及处机时间也被最小化。在该移动通信装置106上该摘要的使用将有助于在一个电子文档中的定位。在一个具体章节的搜索中不是遍历该可能庞大的电子文档,而是仅从该摘要中选择该具体章节。这对于在一个移动通信装置106上浏览电子文档将特别有用,因为一个移动通信装置106通常具有受限的输入装置,例如一个轨迹轮,这将使得经由大文档的定位很耗时。
图3是对文档内容进行摘要的一个系统的框图。该系统包括一个结构文档摘要级300、一个非结构文档摘要级302、以及一个未格式编排的文档摘要级304。提供一个根据电子文档的DOM作为对于该系统的输入。该系统的输出是对于该电子文档的一个摘要。
结构文档摘要级300确定该输入的电子文档是否具有能被用作一个摘要的结构。详查(traverse)该DOM来确定该文档是否具有一个分页、幻灯片、工作表或其它结构。该级还确定是否有与例如页面名称、幻灯片标题或工作表名称的结构成分相关的描述名称。
结构的文档摘要级300还确定该电子文档是否包括一个目录。目录可能已经由被用于产生该电子文档的计算机软件产生。该结构文档摘要级300使用一个目录来产生该输出的摘要。该结构文档摘要级300使用在该目录中的条目,从一个目录产生一个摘要。每一个目录条目都包括名称、以及在该电子文档中链接到的一个位置。该连接具有一个对应书签,该对应书签指定了由在该目录条目中的连接涉及的段落。从条目名称目录复制该摘要条目名称,而对应于该摘要条目的该电子文档的章节就是与该条目目录相关的该书签涉及的段落。
在电子文档中的目录是分级的,并且可以包括不同的条目等级。在一个目录的最高级中的条目对应于该文档的最概括的章节,而在较低级的条目则对应于在较高级别的条目的从属章节。该结构文档摘要级300通过检查由该条目涉及到的段落的标记的等级来确定一个目录条目的等级。其对应段落被平等缩排的那些条目是在目录中的相同的等级。无缩排则表明一个最高等级的条目,而缩排越大则表示等级越低。当客户首先从包括一个目录的电子文档中请求信息内容时,对文档内容进行汇总的该系统则根据该目录的最高等级的条目来返回摘要条目。
针对结构的但没有目录的电子文档,结构文档摘要级300根据一个可选结构产生一个摘要。针对其中该结构单元是工作表的电子表格文档,该摘要包括针对该电子表格文档中的每一个工作表一个条目。如果在该文档中有与该工作表相关的描述名称,则该描述名称被用作该摘要条目名称。如果没有描述名称,则根据该文档中的工作表的位置产生针对该摘要条目的名称。例如,该产生的条目名称可能是″表1″、″表2″、″表3″等。
针对其中结构单元是页的电子文档,例如某些文字处理和便携文档格式(PDF)文档,该摘要包含对应于以第一页开始的该电子文档中的连续页数范围条目。使用规定在该摘要中的最大条目的数目的一个可配置的值以及表示在该电子文档中的总页数的值计算该范围。除了最后的摘要条目之外,对应于等于全部页数的页数范围,每个摘要条目被最大输入项数目除,然后上舍入(rounded up)。该最后条目对应于页数范围,但该页数范围还不对应一个摘要条目,并且可能包括比对应于先前摘要条目的范围少几页。该摘要条目的名称描述的是该摘要条目对应的页范围。例如,如果一个电子文档有十页,并且在该摘要中该可配置的最大条目数目是三,则该摘要条目可以是″页1至页4″、″页5至页8″和″页9至页10″。
对于文档内容进行摘要的系统还包括非结构文档摘要级302,摘要未被该结构文档摘要级300确定结构的电子文档。该非结构的文档摘要级302在这样的一个假设条件下操作,即假设一个电子文档中的大多数文本被以同样方式格式编排,而题目和标题则被以不同于在该电子文档中的大多数文本的格式方式编排。例如,标题可能是粗体并且具有比在电子文档中的文本的其余章节更大的字体。分析对该电子文档进行的格式编排,以便确定在该电子文档中是例如标题和题目的章节标识符的文本单元。随后使用章节标识符作为条目名称来生成一个摘要。对应于使用一个章节标识符作为其名称的一个摘要条目的该文档章节是包括该章节标识符的该电子文档的章节。
该非结构文档摘要级302检查在该电子文档中的文本格式编排的改变。被检查的格式编排包括字体特性,这些特性包括字体名称、大小、磅值和类型,例如斜体和下划线字体。被检查的格式编排还包括段落样式、诸如左或右对齐、以及缩进。在这些格式编排特性中的改变指示在该电子文档中的可能的章节标识符。例如,如果一个文档包含具有字体大小为12的文本,则除了具有字体大小为14并且是粗体的段落之外,则具有更大字体的段落是可能的章节标识符。
为了确定在一个电子文档中的哪一段落是将被包括在该摘要中的章节标识符,该非结构文档摘要级302将详查与该电子文档相关的DOM,以便从该电子文档收集字体和段落特性以及文本。随后分析收集的信息,以便产生对于该电子文档的一个摘要。
该非结构文档摘要级302详查在该DOM,检查在该电子文档中的段落。收集针对每一个段落的段落信息。针对每一个段落收集的信息包括在该段落中的字符的数量,使用在该段落中的第一字体的字体特性,使用该段落中的第一字体做格式编排的文本字段,指示该段落中的全部文本是否具有相同字体的格式编排的一个标志,左、中右或两端对齐的段落对齐方式,以及该段落中文本第一行的缩进等级。
该非结构的文档摘要级302还详查该DOM,以便检查该电子文档中的每个字符,以及与每一个字符相关的字体特性。收集每一个字体以及在以该字体格式编排的电子文档中的字符数目。该收集的字体信息被用于确定哪一个字体是有效的章节标识符字体。使用该假设,即在一个电子文档中的大多数段落是以同样的方式格式编排并且不是章节标识符,贯穿电子文档广泛使用的字体不是有效的章节标识符字体并且是放弃。一个无效的章节标识符字体具有以该字体格式编排的字符数对于在该电子文档中的字符总数的一个比例,该比例高于一个可配置的门限。不是以一个有效章节标识符字体格式编排的段落不被考虑为章节标识符,并且放弃该收集的对应于该段落的信息。
该段落信息被进一步筛选,以便放弃不是将被使用作为摘要条目的一个适当规模的段落。用于不包含不是空格的字符的段落的段落信息被放弃。该段落信息被进一步筛选以便放弃文档标题段落。文档标题段落出现在一个电子文档的开始,并且利用在这电子文档中唯一的字体和段落特性的一个组合格式编排。
非结构文档摘要级302把段落信息组织成针对段落的信息组,这些段落以格式编排的文本开始,具有相同的字体和段落特性。每一个段落信息组都由包括字体和段落特性的格式编排信息以及来自被以字体和段落特性格式编排的段落的文本组成。根据在该组中的格式编排特性排序该段落信息组。被考虑的格式编排特性是这样的特性,即利用那些特性最可能来格式编排章节标识符。首先根据段落的字体大小排序这些组。其字体大小特性指定的字体大小越大,该段落信息组具有的排序越高。根据在先的判据属于是等同的那些组被进一步根据段落对齐方式排序。其段落对齐方式特性指定中心文本的段落信息组具有较高的排序。同等的组则被根据在该段中的全部特征是否以一个完全相同的字体格式编排来进一步排序。规定在该段落中的全部字符被以一个完全相同的字体格式编排的段落信息组具有较高的排序。同等组被进一步根据缩进的等级排序。其段落缩进特性指定的段落缩进越大,该段落信息组具有的排序越高。同等组被进一步根据字体磅值排序。其字体磅值特性指定粗体文本的段落信息组具有较高的排序。同等组被进一步根据字体排序,该字体包括斜体和下划线文本。其字体特性规定斜体和下划线文本的段落信息组具有较高的排序。最后,根据在先的判据属于是等同的那些组被进一步根据字体名称排序。其字体名称特性指定用于格式编排在该电子文档中的字符越少的字体的段落信息组具有的排序越高。
因此,该段落信息组被排序,使得来自最可能是章节标识符的段落的文本被包括在该最高排序的组中,而使得来自最不可能是章节标识符的段落的文本被包括在该最低排序的组中。除非已经收集了仅针对一个段落的信息,仅包括来自一个段落的文本的段落信息组被放弃。
使用具有最高排序的段落信息组生成对于该电子文档的摘要。根据在该段落信息组中的段落信息的排序,把用于段落的条目加到该摘要。对于段落信息被包括在该组中的每一个段落来说,以在段落中的该第一字体格式编排的文本字段被认为是一个章节标识符,并且被包括作为在该摘要中的一个条目名称。对应于该摘要条目的该电子文档的章节是包含该章节标识符的文档的章节。另外,可以使用来自多个段落信息组的段落信息生成该摘要。
对文档内容进行摘要的系统还包括一个未格式编排文档摘要级304,其产生针对作为由该非结构文档摘要级302确定的不包含文本格式编排信息、或其中全部文本被完全相同地格式编排的电子文档的摘要。该未格式编排的文档摘要级304检查段落规模和段落文本模式,以便确定哪一段落最可能是章节标识符。例如,较短的段落比较长的段落更可能是章节标识符。为了确定在一个未格式编排的电子文档中的哪一段落是将被包括在该摘要中的章节标识符,该未格式编排的文档摘要级304将详查与该电子文档相关的DOM,以便从该电子文档收集段落信息以及文本。随后分析收集的信息,以便产生对于该电子文档的一个摘要。
该未格式编排的文档摘要级304详查在该DOM,检查在该电子文档中的段落。收集针对每一个段落的段落信息。针对每一个段落收集的信息包括在该段落中包括的字符数量以及包含在该段落中的文本。该段落信息被进一步筛选,以便放弃不是将被使用作为摘要条目的一个适当规模的那些段落。用于不包含不是空格的字符的段落的段落信息被放弃。该未格式编排的文档摘要级304把物段落信息组织成用于具有相同的字符数的段落的信息组。每一个段落信息组都包括一个段落规模以及来自在包含等于该段落规模的一个字符数的电子文档中的段落的文本。根据该段落规模把该段落信息组以升序排序,其中规定越小的段落规模的段落信息组具有越高的排序。该段落信息组被如此排序,使得来自最可能是章节标识符的段落的文本被包括在该最高排序的组中,而使得来自最不可能是章节标识符的段落的文本被包括在该最低排序的组中。
由于段落规模是确定在一个未格式编排的电子文档中的哪一段落最可能是章节标识符的关键判据,所以如果在该文档中的段落规模中没有足够的变化,则该未格式编排的文档摘要级304把该文档确定为是不可摘要的。不可摘要的文档是那些其最大段落的规模与最小段落的规模之比不大于一个构成的最小阈值的那些文档。例如,该阈值可以是2∶1,使得一个未摘要((unsummarizing)的电子文档是一个其最大段落不大于最小段落的两倍的一个电子文档。例如不可摘要的文档可以是电影副本或未加工的试验数据。
针对被确定为是可摘要的的一个未格式编排的电子文档,则从段落信息被收集的段落中产生该摘要。检查该段落信息以便确定该未格式编排的电子文档是否包括一个列表。如果该段落的文本内容的多数是以指示一个列表单元的文本模式开始,则该文档内容被确定为是一个列表。例如,该文本模式可以是升序号码,使得一个段落以一个″1″开始、一个随后段落以一个″2″开始、一个随后段落以一个″3″开始等等。列表元还可能以字母或罗马数字开始。
针对被确定为是一个列表的一个未格式编排的电子文档,属于是列表元的段落文本内容被认为是章节标识符,并且被包括作为在该摘要中的条目名称。针对被确定为不是一个列表的一个未格式编排的电子文档,不以文本模式开始的段落文本内容被认为是章节标识符,并且被包括作为在该摘要中的条目名称。根据在该段落信息组中的段落信息的排序,把用于段落的条目加到该摘要。对应于每一个摘要条目的该电子文档的章节是包含该摘要条目名称的文档的章节。对文档内容进行摘要的该系统可以把在一个电子文档中的其它信息标识作为可能的章节标识符。这种信息包括书签、元标签、在一个电子表格文档中接近一个公式的格式编排的文本、曲线标记和图例。除了章节标识符之外,由对文档内容进行摘要的系统输出的摘要可以包括导向意义的其它单元的条目,比如图像和嵌入对象。一个嵌入对象的示例是在单词处理文档中嵌入的一个电子表格。
对文档内容进行摘要的系统还可以包括一个摘要数据库(未示出),该摘要数据库可用于提高该非结构文档摘要级302以及该未格式编排的文档摘要级304的精确度。当一个非结构的电子文档被提供到该对文档内容进行摘要的系统时,产生一个摘要,或如上所述地把该文档确定为是不可摘要的文档。该摘要数据库随后记录该摘要的结果,并且记录该格式编排的特性,该格式编排特性包括字体和段落特性,被用于章节标识符和在该未格式编排的电子文档中的其它段落。格式编排信息对于包括在该摘要数据库中的章节标识符的关系能被一个启发性学习过程使用,用于摘要改善属于是被汇总的每一个附加电子文档的文档。
图4是摘要文档内容的一个方法的流程图。该方法产生由一个文档目标模块(DOM)表示的一个电子文档400的摘要。该方法以步骤402开始,确定电子文档400是否为一个电子表格。电子表格包括以行和列存在的数据,并且由一个或者多个工作表组成。如果在步骤402确定该电子文档400是一个电子表格,则该方法以步骤404继续。否则,该方法以步骤410继续。一个电子表格可能还包括与在该电子表格中的工作表相关的描述名称。如果在步骤404确定该电子表格包括与该工作表相关的描述名称,该方法以步骤406继续。否则,该方法以步骤408继续。在步骤406,根据该描述工作表名称产生该电子文档400的一个摘要。从该工作表描述名称复制该摘要的条目名称,并且对应于该摘要条目的文档章节是该工作表。在步骤408,根据针对该工作表产生的名称产生该电子文档400的一个摘要。根据在该电子文档400中的该工作表的位置产生工作表名称。例如,如果有三种工作表,则该工作表的名称可以是″表1″、″表2″和″表3″。对应于该摘要条目的该文档的章节是该工作表。
步骤410确定是否DOM以及电子文档400包括一个目录表。如果确定该电子文档400确实包括一个目录,则在步骤412产生根据该目录的摘要。从具有对应于该目录中的条目中定义的连接的书签的段落内容复制在该摘要中的条目的名称。对应于该摘要条目的该文档章节是该目录中的条目涉及的段落。如果在步骤410确定该电子文档不包括一个目录,则该方法以步骤414继续。
步骤414确定该电子文档400是否具有一个分页结构。如果这电子文档400具有一个分页结构,则该方法以步骤416继续。根据以第一页开始的电子文件400中的连续的页数范围,以步骤416产生一个摘要。在该摘要中的每一个条目都对应于该文档中的页数范围,并且具有描述该页数范围的一个名称。根据该摘要中的一个可配置最大条目数目、并且根据该电子文档400中的页的数量来计算该页数范围。除了对应于该最后摘要条目的范围之外,在每一范围中的页的数量是由该摘要中的最大条目数目除该文档中的页数而只入不舍的页数。在对应于该最后摘要条目的范围中的条目的数量是该文档中的总数,小于在其它范围中的页数的总数。如果在步骤414确定该电子文档400不具有一个分页结构,则该方法以步骤418继续。
步骤418确定该电子文档400是否包含文本格式编排信息。文本格式编排信息包括字型、字体以及字体大小。如果该电子文档不包括文本格式编排信息,或如果在该电子文档400中的全部文本都被完全相同地格式编排,则该文档被确定为是未格式编排的,并且该方法以步骤422继续。否则,该方法以步骤420继续。在步骤420,根据该文本格式编排信息产生针对该电子文档400的一个摘要。通过检查在该文本格式编排信息中的改变来确定该摘要条目。图5中示出使用文本格式编排信息来摘要一个非结构电子文档的方法。在步骤422,根据该段落文本模式产生针对该电子文档400的一个摘要。通过检查段落规模和段落文本模式来确定该摘要条目。图6中示出使用段落文本模式来摘要一个未格式编排的电子文档的方法。
图5是说明使用文本格式编排信息摘要一个非结构的电子文档的一个方法的流程图。该方法产生由一个DOM表示的一个非结构的电子文档500的一个摘要。该方法以步骤502开始,详查DOM以便收集字体、段落格式编排和文本信息。针对该非结构电子文档500中的每一个段落,该收集的信息包括段落对齐方式、段落缩进、段落中的字符的总数、用于格式编排该段落中的文本的第一字体的字体特性、以及以该第一字体格式编排的文本字段。该字体特性包括字体名称、字体大小、字体磅值、以及例如斜体字或下划线文字的字体。
该方法以步骤504继续,产生对于字符计数的字体特性的一映射(map)。对于在步骤502收集的不同字体特性的组合,该字体特性到字符计数的映射包括一个条目,该条目把字体特性的组合映射为等于在以该特性格式编排的非结构电子文档500中的字符数量的一个计数。该方法以步骤506继续,产生段落信息的一个列表。针对该非结构电子文档500中的每一个段落,段落信息列表包含一个条目和一个标志,该条目包括字体、段落格式编排以及用于步骤502收集的段落的文本信息,该标志指示以该第一字体格式编排的文本字段的大小是否等于该段落的大小,因此指示在该段落中的全部字符是以相同的字体格式编排的。本方法以步骤508继续,从该段落信息列表中去除用于空段落的信息。空的段落不包含无间隔字符。该方法以步骤512继续,产生对于字体的字符计数的一个映射。该映射记录了字符的数量,这些字符是以使用在该非结构电子文档500中的每一个字体格式编排,并且根据在步骤504中产生的字体特性到字符计数的映射产生。在步骤514,广泛使用在该非结构电子文档500中、并且因此被认为是不属有效摘要条目的格式编排文本的常规字体被从字符计数到字体的映射中消除。如果以该字体格式编排的字符对该文档中的字符数的比例高于一个可配置的阈值,则该字体被确定为是一常规字体。
该方法以步骤516继续,产生有效字体的一个列表。用于每一个有效字体来说,由于以该有效字体格式编排的字符对该文档中的字符数的比例低于可配置阈值,所以有效字体是在步骤514之后保持在字符计数到字体的映射中的那些有效字体。未被以有效字体格式编排段落不包括在该产生的摘要中。该方法以步骤518继续,产生格式编排特性到段落信息的一映射。该映射是利用字符计数到步骤512产生的字体、步骤516产生的有效字体列表、以及步骤506产生的段落信息列表的映射。格式编排特性的映射到段落信息映射中的几个关键字包括对特性进行格式编排,该特性被用于确定该段落被包括在该产生的摘要中的可能性的情况。对特性进行格式编排包括在一个段落中的字符是否全部以相同的字体、段落对齐方式、段落缩进、字体名称、字体大小、表示文本是否为粗体的字体磅值、表示文本是否斜体或下划线的字形来格式编排。对于每个关键字来说,映射到该关键字的值是来自对应于在该未格式编排的电子文档500中的段落的段落信息列表的条目,以包括在该关键字中的格式编排特性格式编排该未格式编排的电子文档500。
通过贯穿该段落信息列表中的条目的迭代来产生格式编排特性到段落信息的映射。对于在该列表中的每个段落信息条目来说,如果该规定的第一文本字体不在有效字体的列表中,则从该列表中删除该段落信息条目。如果该规定的第一文本字体是在有效字体的列表中,则从该段落信息构成一个关键字。如果该关键字还不在格式编排特性到段落信息的该映射中,则添加该关键字。该段落信息被随即加到在映射中被映射到该关键字的值。格式编排特性到段落信息的映射被排序,使得用于属于最可能被包括在产生的摘要中的段落的段落信息被首先放置在该映射中,而用于属于最不可能被包括在产生的摘要中的段落的段落信息被最后放置在该映射中。关键字被添加到该映射,以便保持该排序。
给定在格式编排特性到段落信息的映射中的两个关键字,则通过比较包括在该关键字中的格式编排信息确定相对于这第二关键字的排序的该第一关键字的排序。如果该第一关键字的字体大小特性指定了比该第二关键字的字体大小特性更大的规模,则该第一关键字被排序在第二关键字之前。如果该第二关键字的字体大小特性指定了比该第一关键字的字体大小特性更大的规模,则该第二关键字被排序在第一关键字之前。另外,如果该第一关键字的段落对齐方式特性指定中间对齐文本,并且该第二关键字的段落对齐方式没有指定中间对齐文本,则该第一关键字被排序在该第二关键字之前。另外,如果该第二关键字的段落对齐方式特性指定中间对齐文本,并且该第一关键字的段落对齐方式没有指定中间对齐文本,则该第二关键字被排序在该第一关键字之前。另外,如果该第一关键字指定在一个段落中的全部字符都以完全相同的字体格式编排,而该第二关键字不是指定在一个段落中的全部字符都以完全相同的字体格式编排,则该第一关键字被排序在该第二关键字之前。如果该第二关键字指定在一个段落中的全部字符都以完全相同的字体格式编排,而该第一关键字不是指定在一个段落中的全部字符都以完全相同的字体格式编排,则该第二关键字被排序在该第一关键字之前。另外,如果该第一关键字的段落缩进特性指定了比该第二关键字的缩进特性更大的缩进,则该第一关键字被排序在该第二关键字之前。如果该第二关键字的段落缩进特性指定了比该第一关键字的缩进特性更大的缩进,则该第二关键字被排序在该第一关键字之前。另外,如果该第一关键字的字体磅值特性指定了粗体文本,而该第二关键字的字体磅值特性没有指定粗体文本,则该第一关键字被排序在该第二关键字之前。如果该第二关键字的字体磅值特性指定了粗体文本,而该第一关键字的字体磅值特性没有指定粗体文本,则该第二关键字被排序在该第一关键字之前。另外,如果该第一关键字规定了斜体字型形式,而该第二关键字没有规定斜体字型形式,则该第一关键字被排序在该第二关键字之前。如果该第二关键字规定了斜体字型形式,而该第一关键字没有规定斜体字型形式,则该第二关键字被排序在该第一关键字之前另外,如果该第一关键字规定了下划线形式,而该第二关键字没有规定下划线字形,则该第一关键字被排序在该第二关键字之前。如果该第二关键字规定了下划线型形式,而该第一关键字没有规定下划线型形式,则该第二关键字被排序在该第一关键字之前另外,如果在以第一关键字中的字体名称规定的字体格式编排的非结构电子文档中的字符少于以该第二关键字中的字体名称规定的字体格式编排的字符,则该第一关键字被排序在该第二关键字之前。如果在以第二关键字中的字体名称规定的字体格式编排的非结构电子文档中的字符少于以该第一关键字中的字体名称规定的字体格式编排的字符,则该第二关键字被排序在该第一关键字之前否则,该第一和第二关键字被认为是相等,并且由该关键字映射了对应信息的段落被同样可能地包括中产生的摘要中。
方法以步骤520继续,删除出现在电子文档的开始的文档标题段落,并且该文档标题段落是以在该电子文档中属于是唯一的该字体和段落特性的一个组合而格式编排的。如上所述,针对该段落信息列表的第一单元,产生由格式编排信息组成的一个关键字,该关键字对应于在该非结构的电子文档500中的第一段落。如果在格式编排属性到段落信息的映射中存在该关键字,则从格式编排特性到段落信息的映射中删除对应于以包括在该关键字中的特性格式编排的非结构电子文档500中的第一段落开始的连续地段落。
该方法以步骤522继续,生成该摘要。通过贯穿在格式编排属性到段落信息的映射中的关键字的迭代来产生该摘要,直到发现有一个以上条目被映射的一个关键字为止。针对其信息由该关键字映射的每一段落产生摘要条目。针对这种段落的每一个,该摘要条目名称是以在该段落中的第一字体格式编排的文本字段。对应于每一个摘要条目的该电子文档的章节是包含该摘要条目名称的文档的章节。如果没有关键字被映射到用于多个段落的段落信息,则从由该第一关键字映射的段落信息中产生该摘要。另外,可以使用在格式编排特性到段落信息的映射中由多个关键字映射的段落信息构造该摘要。
图6是说明摘要一个未格式编排的电子文档的一个方法的流程图。该方法产生由一个DOM表示的一个未格式编排的电子文档600的一个摘要。该方法以步骤602开始,详查DOM以便收集段落和文本数据。对于在该未格式编排的电子文档600中的每个段落,收集的信息包含该段落中的字符的总数,以及该段落的文本内容。该方法以步骤604继续,产生段落信息的一个列表。对于在未格式编排的电子文档600中的每个段落来说,该段落信息列表包含一个条目,该条目包括在步骤602收集的信息。本方法以步骤605继续,从该段落信息列表中去除不包含无间隔字符的信息。该方法以步骤607继续,产生对于段落大小到段落信息的一个映射。通过贯穿该段落信息列表的迭代、并且把用于每一个段落的信息映射到在对应于该段落中的字符的数量的映射中的一个关键字而产生段落大小到段落信息的映射。该映射被排序,使得针对较短段落的信息在该映射中首先出现,而针对较长段落的信息在该映射中最后出现。在步骤608,确定该未格式编排的电子文档600是否为可摘要的电子文档。如果该最大段落对最小段落的大小比例大于一个可配置的阈值,例如2∶1,则该文档是可摘要的,并且该方法以步骤612继续。否则,该方法终止于步骤610。
在步骤612,确定该未格式编排的电子文档600是否包括一个列表。通过贯穿该段落信息列表迭代、以及检查在这段落文本内容的开始的文本来进行这一确定。如果文本内容的多数以指示一个列表的模式开始,例如升序号码或字母,则那方法以步骤616继续。否则,该方法以步骤614继续。在步骤614,如上所述,从来自不以一个列表模式开始的段落信息列表的段落文本内容中产生该摘要。针对不以一个列表模式开始的每一个段落,产生一个摘要条目,该摘要条目的名称是从段落文本内容复制的。对应于该摘要条目的该未格式编排电子文档600的章节是包括该摘要条目名称的章节。根据在段落大小到段落信息的映射中的该段落信息的排序,把用于段落的条目加到该摘要。在步骤616,如上所述,从来自不以一个列表模式开始的段落信息列表的段落文本内容产生该摘要。针对以一个列表模式开始的每一个段落,产生一个摘要条目,该摘要条目的名称是从该段落文本内容复制的。对应于该摘要条目的该未格式编排电子文档600的章节是包括该摘要条目名称的章节。根据在段落大小到段落信息的映射中的该段落信息的排序,把用于段落的条目加到该摘要。摘要文档内容的方法可能包括比示出图4-6示出更少、附加、或不同的排序步骤。
在此描述的方法可以通过网络中的一个或多个服务器执行。提供应用程序的计算机程序产品可以包括存储在一个计算机存储介质(移动装置的存储器或网络的一个或多个服务器,软盘或CD-ROM)上的计算机指令,该计算机指令是根据描述的逻辑写成的。
最后的评论。已经描述了用于摘要移动通信装置的文档内容的方法和装置。一示例性的方法包括步骤分析在一个电子文档中的内容结构或特性;根据该内容结构或特性的分析,产生包括从该电子文档内容中选择的多个摘要条目的一个集合的文档摘要信息;并且提供用于一个移动通信装置的该文档摘要信息。在该电子文档中的内容结构可以包括一个目录、多个电子表格工作表、多个文档页等。在该电子文档中的内容特性可以包括文字格式、段落格式编排、段落大小等。在该电子文档中的最佳可用的内容结构或特性最好在该多个摘要条目的选择中被识别和利用。在该最佳实施例中,如果内容结构是可利用的,则根据内容结构选择该摘要条目,如果文本/段落格式编排是可利用的,则在内容结构后面跟随在文本/段落格式编排中的差异,并且随后跟随在段落大小中的差异。提供应用程序的一个相关的计算机程序产品包括一个计算机存储介质;并且存储在该计算机存储介质上的计算机程序指令可在一台处理器上执行,通过分析在一个电子文档中的内容结构或特性来产生用于一个电子文档的摘要信息;根据该内容结构或特性的分析,产生包括从该电子文档内容中选择的多个摘要条目的一个集合的文档摘要信息;并且提供用于一个移动通信装置的该文档摘要信息。
针对电子文档产生摘要信息的服务器包括一个或多个文档摘要处理,诸如结构文档摘要处理、格式编排的文献摘要处理、以及非结构的/未格式编排的文档摘要处理。通过根据在该电子文档中标识的一个预定内容结构而从一个电子文档选择多个摘要条目,该结构文档摘要处理被构成来产生摘要信息。通过根据在该电子文档中标识的内容格式编排而从一个电子文档中选择多个摘要条目,该格式编排文档摘要处理被构成来产生摘要信息。通过根据在该电子文档中的段落大小中的差异而从一个电子文档中选择多个摘要条目,该非结构的/未格式编排的文档摘要处理被构成来产生摘要信息。
以利于把用于电子文档的摘要信息传递到移动通信装置的一个系统包括一个服务器、一个无线通信网络、和一个操作中在该无线通信网络中的移动通信装置。该服务器包括一个或多个文档摘要处理,诸如结构文档摘要处理、格式编排的文献摘要处理、以及非结构的/未格式编排的文档摘要处理。通过根据在该电子文档中标识的一个预定内容结构而从一个电子文档选择多个摘要条目,该结构文档摘要处理被构成来产生摘要信息。通过根据在该电子文档中标识的内容格式编排而从一个电子文档中选择多个摘要条目,该格式编排文档摘要处理被构成来产生摘要信息。通过根据在该电子文档中的段落大小中的差异而从一个电子文档中选择多个摘要条目,该非结构的/未格式编排的文档摘要处理被构成来产生摘要信息。该无线通信网络被构成来响应对于电子文档的请求而把摘要信息传递到一个移动通信装置。
上述描述涉及本发明的一个示例。对于在本领域中的技术人员来说将明显有许多变化,并且这种变化是在该应用的范围之内。例如,虽然图1示出的示例中一个移动通信装置106通过一个无线网络104和互联网络102与一种文档服务器100通信,但除移动通信装置106以外的客户能够从文档服务器100请求电子文档的摘要,并且可以通过不同网络与文档服务器100通信。在此处列举的权利要求中描述的本发明打算覆盖和包含在技术中的全部适当的改变。
权利要求
1.一种针对一个电子文档产生由一个移动通信装置使用的摘要信息的方法,包括步骤分析在一个电子文档之内的一个内容结构或特性;根据该内容结构或特性的分析,产生包括从该电子文档内容中选择的多个摘要条目的一个集合的文档摘要信息;并且提供用于一个移动通信装置的该文档摘要信息。
2.权利要求1的方法,还包括其中分析该内容结构或特性的行为包括标识在该电子文档中的目录表。
3.权利要求1的方法,还包括其中分析该内容结构或特性的行为包括标识在该电子文档中的多个电子表格工作表。
4.权利要求1的方法,还包括其中分析该内容结构或特性的行为包括标识在该电子文档中的文档页。
5.权利要求1的方法,还包括其中分析该内容结构或特性的行为包括分析在该电子文档中的文本格式编排。
6.权利要求1的方法,还包括分析该内容结构或特性的行为包括分析在该电子文档中的文本字体名称、文本字体大小、文本字体磅值、以及文本字形的至少之一。
7.权利要求1的方法,还包括其中分析该内容结构或特性的行为包括标识在该电子文档中的段落对齐方式或缩排中的差异。
8.权利要求1的方法,还包括其中分析该内容结构或特性的行为包括标识在该电子文档中的段落大小的差异。
9.权利要求1的方法,其中该摘要信息被提供到该移动通信装置而没有电子文档。
10.一种计算机程序产品,包括一个计算机存储介质;存储在该计算机存储介质上的计算机程序指令;可通过下列步骤在一个处理器上执行该计算机程序指令,以便产生用于一个电子文档的摘要信息分析在一个电子文档之内的一个内容结构或特性;根据该内容结构或特性的分析,产生包括从该电子文档内容中选择的多个摘要条目的一个集合的文档摘要信息;并且提供用于一个移动通信装置的该文档摘要信息。
11.权利要求10的计算机程序产品,其中该计算机程序指令可是进一步执行用于通过标识在该电子文档中的一个目录来分析该内容结构或特性。
12.权利要求10的计算机程序产品,其中该计算机程序指令可是进一步执行用于通过标识在该电子文档中的多个电子表格工作表来分析该内容结构或特性。
13.权利要求10的计算机程序产品,其中该计算机程序指令可进一步执行用于通过标识在该电子文档中的多个文档页来分析该内容结构或特性。
14.权利要求10的计算机程序产品,其中该计算机程序指令可进一步执行用于通过标识在该电子文档中的文本格式编排来分析该内容结构或特性。
15.权利要求10的计算机程序产品,其中该计算机程序指令可进一步执行用于通过分析在该电子文档中的文本格式编排来分析该内容结构或特性;并且其中根据在该电子文档中的文本格式编排中的不同从该电子文档的内容中选择的多个摘要条目。
16.权利要求10的计算机程序产品,其中该计算机程序指令可进一步执行用于通过分析在该电子文档中的文本字体名称、文本字体大小、文本字体磅值、以及文本字形的至少之一来分析该内容结构或特性。
17.权利要求10的计算机程序产品,其中该计算机程序指令可进一步执行用于通过标识在该电子文档中的段落对齐方式或缩排中的不同来分析该内容结构或特性。
18.权利要求10的计算机程序产品,其中该计算机程序指令可进一步执行用于通过标识在该电子文档中的段落大小中的不同来分析该内容结构或特性。
19.产生用于一个电子文档的摘要信息的方法,包括步骤标识一个电子文档,针对该电子文档产生具有多个摘要条目的摘要信息;在该摘要信息的产生中如果该电子文档具有一个预定的内容结构,则根据该预定的内容构造从该电子文档中选择多个摘要条目;以及另外,如果该电子文档具有内容特性,则根据在该内容特性中的不同而从该电子文档中选择多个摘要条目。
20.权利要求19的方法,还包括响应一个移动通信装置对于该电子文档的请求而提供该摘要信息。
21.权利要求19的方法,还包括如果该电子文档没有预定的内容结构以及没有内容特性,则根据在段落规模中的不同从该电子文档中选择多个摘要条目。
22.权利要求19的方法,其中该预定的内容结构包括一个目录表。
23.权利要求19的方法,其中该预定的内容结构包括多个电子表格工作表。
24.权利要求19的方法,其中该预定的内容结构包括一个便携文档格式编排的多个文档页。
25.权利要求19的方法,其中该内容特性包括文字格式。
26.权利要求19的方法,其中该内容特性包括文本格式编排,该格式编排包括文本字体名称、文本字体大小、文本字体磅值、以及文本字形的至少一个。
27.权利要求19的方法,其中该内容特性包括段落对齐方式或缩排。
28.针对产生针对电子文档的摘要信息的一个服务器,包括一个结构文档摘要处理,通过根据在该电子文档中标识的一个预定内容结构而从一个电子文档选择多个摘要条目来产生摘要信息。以及一个格式编排文档摘要处理,通过根据在该电子文档中标识的内容格式编排中的不同而从一个电子文档选择多个摘要条目来产生摘要信息。
29.权利要求28的服务器,进一步包括一个非结构/未格式编排的文档摘要处理,根据在段落大小中的不同而通过从一个电子文档选择多个摘要条目来产生摘要信息。
30.权利要求28的服务器,其中该预定的内容结构包括一个目录表。
31.权利要求28的服务器,其中该预定的内容结构包括多个电子表格工作表。
32.权利要求28的服务器,其中该预定的内容结构包括多个文档页。
33.权利要求28的服务器,其中该内容格式编排包括文本字体名称、文本字体大小、文本字体磅值以及文本字形的至少之一。
34.权利要求28的服务器,其中该内容格式编排包括段落对齐方式或缩排。
35.以利于用于电子文档的摘要信息传递到移动通信装置的一个系统,包括一个服务器,具有一个结构文档摘要处理,通过根据在该电子文档中标识的一个预定内容结构而从一个电子文档选择多个摘要条目来产生摘要信息。一个无线通信网络,响应对于那电子文档的一个请求将摘要信息传递到一个移动通信装置。
36.权利要求35的系统,还包括一个移动通信装置,响应对于该电子文档的请求而接收该摘要信息。
37.权利要求35的系统,还包括该服务器具有一个格式编排文档摘要处理,通过根据在该电子文档中标识的内容格式编排中的不同而从一个电子文档选择多个摘要条目来产生摘要信息。
38.权利要求35的系统,还包括该服务器具有一个非结构/未格式编排的文档摘要处理,根据在该电子文档中的段落大小的不同而通过从一个电子文档选择多个摘要条目来产生摘要信息。
39.权利要求35的系统,还包括该服务器具有一个格式编排文档摘要处理,通过根据在该电子文档中标识的内容格式编排中的不同而从一个电子文档选择多个摘要条目来产生摘要信息;以及该服务器具有一个非结构/未格式编排的文档摘要处理,根据在该电子文档中的段落大小的不同而通过从一个电子文档选择多个摘要条目来产生摘要信息。
全文摘要
针对一个电子文档(400)产生一文档摘要,该摘要包括多个摘要条目的一个集合。在该文档摘要的产生中,分析在该电子文档中的内容结构或特性。根据该内容结构或特性的分析,从该电子文档的内容中选择多个摘要条目。在该电子文档中的内容结构可以包括一个目录表(410)、多个电子表格工作表(402)、多个文档页(414)等。该电子文档中的内容特性可以包括文字格式(420)、段落格式(422)、段落大小(422)等。优选地,在该电子文档中的最佳可用的内容结构或特性在该多个摘要条目(406,408,412,416,420,422)的选择中被识别和利用。响应对于电子文档的请求,把该文档摘要提供到一个移动通信装置。
文档编号G06F17/21GK1732451SQ200380108099
公开日2006年2月8日 申请日期2003年10月24日 优先权日2002年10月31日
发明者袁建伟, 奥拉夫·A·西尔泽 申请人:艾瑞赞公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1