一种电子文档的元信息提取方法

文档序号:6535796阅读:235来源:国知局
一种电子文档的元信息提取方法
【专利摘要】本发明公开了一种电子文档的元信息提取方法,属于计算机应用【技术领域】。本方法采用模块化的理念将文档信息提取的过程分为三个部分:文档格式解析模块、文档信息优化模块和文档信息解析模块,然后使用一种统一的文档信息格式将三个模块联系起来。通过这样的设计使得添加一种格式支持以及增加信息提取类型变得简单方便,只需关注自身的实现却可以享受到已有其他模块带来的便利。与此同时不同的提取方法和格式支持可以快速自由地配置,这对于个性化系统定制和升级维护都有很大的帮助。
【专利说明】一种电子文档的元信息提取方法
【技术领域】
[0001]本发明涉及一种电子文档的元信息提取方法,属于计算机应用【技术领域】。
【背景技术】
[0002]随着计算机技术的不断进步,大量的图书、杂志、报刊、报告,手册等文档都越来越多地用电子格式进行存储和传播,因而对于这些电子文档的管理成为了一个重要工作。为了方便检索和阅读,人们一般都将这些文档中的一些重要信息提取出来作为索引存储,这些信息一般都描述了该文档的领域、主题等高度概括性的信息,一般称之为元信息。然而,当前电子文档的格式多种多样(常用的如D0C、roF、HTML),即使同一种格式的标准也并不统一,比如HTML文档虽有W3C标准,但是不同的浏览器兼容的格式是有差异的。与此同时,不同的应用和领域对文档信息提取的要求也是不同的,假如现在有M种文档格式和N种提取要求,那么就需要实现M*N种文档信息提取器来满足所有的需求,这将会进行大量的重复性劳动。正因如此,设计一种能够避免这样重复劳动的模式显得十分的重要。
[0003]当前常见的文档格式都有许多解析器的实现,比如解析TOF的iText、pdfBox,解析 HTML+CSS 的 WebkitJridentJ^Zi1 Office 文档系列的 MS0fficeAP1、P0I 等等。这些成熟的实现都可以复用到系统中来。
[0004]当前抽取文档信息的方法同样有很多,有基于统计的方法,也有基于规则的,还有基于视觉布局的,这些方法同样可以应用到系统中来。
[0005]现有的解决系统复杂度的方法是将所有格式的文档转换成纯文本,然后再进行下一步的处理。但是这样的处理将丢失大量有利于后期处理分析的文档结构化信息,使得接下来的处理的复杂度大大增加。

【发明内容】
`
[0006]本发明的目的是简化和改善多格式文档中元信息的提取。尽可能地复用已有的提取方法,避免为新添一种文档格式而花费大量的时间来做重复的工作,同时可以快速自由地配置不同的提取方法。
[0007]为实现上述目的,本发明所采用的技术方案如下:
[0008]采用模块化的理念将文档信息提取的过程分为三个部分:文档格式解析模块、文档信息优化模块和文档信息解析模块,然后使用一种统一的文档信息格式将三个模块联系起来。
[0009]一个统一文档由O个或I个或多个信息聚合组成。信息聚合指:一个信息聚合块是由I个或多个信息块组成;或同一个信息聚合内的信息块视觉位置相邻;或不同信息聚合内的信息块视觉位置不相邻。本技术方案中,信息块由I个或多个字符组成;每个信息块是一个四元组:
[0010]Block = {content, bound, font, next}
[0011]其中,content是/[目息块的字符串;bound是该/[目息块的边界范围;font是该/[目息块的字体信息,包括字体族、类型、字号、颜色;next是与该信息块相邻的下一个信息块,不存在时为空。不同行的内容处于不同的信息块中;同一行相邻的信息块的font属性不同;同一行相邻的信息块视觉位置也相邻;信息块的边界区域只包含文本内容。
[0012]一种电子文档的元信息提取方法实现步骤:
[0013]步骤一、进行文档格式解析:利用文档格式解析器将不同格式的文档解析成统一的文档信息格式,得到的统一文档中的每一信息聚合有且只有一个信息块;对于不同的文档格式可以有不同的实现,对于同一种文档格式也可以有不同的实现;
[0014]步骤二、进行文档信息优化:
[0015]步骤一得到的统一文档信息经过多个串联的信息优化器进行优化,每个优化器的输入和输出都米用统一文档信息格式;把输入的统一文档中的信息聚合经过模板匹配、粗粒度聚合等合适的方法合并或者消除得到新的统一文档;
[0016]步骤三、文档信息提取:
[0017]根据提取需要采用聚合顺序和位置信息判断等合适的方法识别出统一文档中需要的信息聚合,然后将其内容的部分或全部提取出来;对于提取不同的信息可以有不同的实现,对于提取相同的信息也可以有不同的实现。
[0018]有益效果
[0019]利用该模型构建的文档信息提取系统具有良好的可扩展性和可配置性。为系统增加一种支持的文档格式通常只需要实现一个该格式的文档格式解析器即可,之后便可享受到已有的优化方法和信息提取方法提取特定的信息。反过来,为系统增加一种提取信息的类型只要实现一个提取该信息的提取器即可,之后便可以对所以系统支持的文档格式进行优化并提取相应的信息。同样的,增加文档信息优化器也不会影响到文档格式和信息提取的类型的支持。同时,对于文档格式解析器、信息优化器和信息提取器的选择和组合可以自由的进行,这对于个性化系统定制和升级维护都有很大的帮助。
【专利附图】

【附图说明】
[0020]图1为系统框架图
[0021]图2为文档的转换流程
[0022]图3为优化器组织
[0023]图4为文档格式解析结果
[0024]图5为文档信息优化结果
【具体实施方式】
[0025]下面结合实施例对本发明做进一步说明。
[0026]假定需要处理的文档是AnenhancedACOalgorithmtoselectfeaturesfortext categorizationanditsparalIelization, ExpertSystemswithAppIicat ions39 (2012) 5861 - 5871.文档格式为H)F,需要提取的信息为作者和标题。提取流程如图1所示;
[0027]根据步骤一进行文档格式解析;文档转化流程如图2所示,得到的统一文档如下,参照图4。信息块如下:[0028]Blockl:
[0029]> Content:ExpertSystemswithApplications39 (2012)5861 - 5871
[0030]> Bound:449,95,363,23
[0031]> Font: Times,Normal,8px,black
[0032]> Next: Block2
[0033]Block2:
[0034]> Content:C ontentslistsavaiIableatSciVerseScienceDirect
[0035]> Bound:438, 151,394,21
[0036]> Font:Arial, Normal, Ilpxj black
[0037]> Next:Block3
[0038]Block3:
[0039]Content:ExpertSystemswithApplications
[0040]> Bound:391,199,483,38
[0041]> Font: Times,Normal,19px, black
[0042]> Next:Block4
[0043]Block4:
[0044]> Content:journalhomepage:www.elsevier.com/locate/eswa
[0045]> Bound: 379,263,506,23
[0046]> FontiCalibrijNormalj Ilpxj black
[0047]> Next: Block5
[0048]Block5:
[0049]^ Content:AnenhancedACOalgorithmtoselectfeaturesfortextcategorization
[0050]、Bound:81,366,915,34
[0051]、Font:Calibrij Normal, 17px, black
[0052]> Next:Block6
[0053]Block6:
[0054]> Content:anditsparallelization
[0055]> Bound:81,404,292,34
[0056]、Font:Calibrij Normal, 17px, black
[0057]> Next: Block7
[0058]Block7:
[0059]、Content:M.JanakiMeenaj K.R.Chandranj A.Karthikj A.VijaySamuel
[0060]> Bound:81,452,686,30[0061]> Font:Helvetica, Normal, 15px, black
[0062]> Next:Block8
[0063]Block8:
[0064]> Content:DepartmentofCSEjPSGCoIIegeofTechnology, Coimbatore, TamilNadu641004,India
[0065]> Bound:87,494,535,19
[0066]> Font:Times,Italic,8px,black
[0067]> Next: Block9
[0068]Block9:
[0069]> Content:DepartmentofITjPSGColIegeofTechnologyj Coimbatore, TamilNadu641004,India
[0070]> Bound:87, 511,524,19
[0071]> Font:Times,Italic, 8px, black
[0072]>Next:无
[0073]Document:
[0074]Clusterl {Blockl}
[0075]Cluster2 {Block2}
[0076]Cluster3 {Block3}
[0077]Cluster4 {Block4}
[0078]Cluster5 {Block5}
[0079]Cluster6 {Block6}
[0080]Cluster7 {Block7}
[0081 ]Cluster8 {Block8}
[0082]Cluster9 {Block9}
[0083]根据步骤二进行文档信息优化,优化器如图3所示,得到优化后的文档信息如下,参照图5。
[0084]Document:
[0085]Clusterl {Blockl}
[0086]Cluster2 {Block2}
[0087]Cluster3 {Block3}
[0088]Cluster4 {Block4}
[0089]Cluster5 {Block5,Block6}
[0090]Cluster6 {Block7}
[0091]Cluster7 {Block8,Block9}
[0092]根据步骤三提取文档信息,识别标题所在聚合为Cluster5,作者在Cluster6,最终信息提取如下:
[0093]标题:AnenhancedACOalgorithmtoseIectfeaturesfortextcategorizationanditsparallelization
[0094]作者:Μ.JanakiMeenaj K.R.Chandranj A.Karthikj A.Vi jaySamuel。
【权利要求】
1.一种电子文档的元信息提取方法,其特征在于: 步骤一、进行文档格式解析:利用文档格式解析器将不同格式的文档解析成统一的文档信息格式,得到的统一文档中的每一信息聚合有且只有一个信息块;对于不同的文档格式可以有不同的实现,对于同一种文档格式也可以有不同的实现; 步骤二、进行文档信息优化:步骤一得到的统一文档信息经过多个串联的信息优化器进行优化,每个优化器的输入和输出都采用统一文档信息格式;把输入的统一文档中的信息聚合经过模板匹配、粗粒度聚合等合适的方法合并或者消除得到新的统一文档; 步骤三、文档信息提取:根据提取需要采用聚合顺序和位置信息判断等合适的方法识别出统一文档中需要的信息聚合,然后将其内容的部分或全部提取出来;对于提取不同的信息可以有不同的实现,对于提取相同的信息也可以有不同的实现。
【文档编号】G06F17/30GK103744983SQ201410017927
【公开日】2014年4月23日 申请日期:2014年1月15日 优先权日:2014年1月15日
【发明者】冯冲, 李侃, 黄河燕, 史树敏, 陈嘉骏 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1