对待与服务关联的文档进行分类的方法、以及相关的扫描仪的制作方法

文档序号:6351188阅读:92来源:国知局

专利名称::对待与服务关联的文档进行分类的方法、以及相关的扫描仪的制作方法
技术领域
:本发明涉及对待与至少一个服务关联的文档进行分类的方法,该方法包括具有处理器的扫描仪在对文档进行扫描时所依照的步骤。本发明还涉及应用所述方法的扫描仪。
背景技术
:经济和社会活动的复杂化已经导致各种经济和社会行为体之间储存和交换文档的数量惊人地增加,无论这些经济和社会行为体是否是公司、协会或个人。因此,估计公司接收50至150份不同类型的文档(发票、投诉等),总之,每年需处理数千份文档。很多时候,这些文档都是以纸件形式接收或发送的文档。为了方便这些文档的交换和处理,如何对这些文档进行扫描和数字化以将它们转换为计算机文件,以及如何对所述文件进行处理以从中提取相关信息是已知的。于是这被称为文档的非物质化。非物质化还可用于对在公司内部和/或在与合作伙伴(行政机构、客户、供应商等)交换的范围内传送的数据或文档进行电子处理。很多时候,取决于文档的类型,需要对文档执行适当的处理。例如,如果文档是待处理的发票,公司可求助于服务操作方,服务操作方的角色是对这些发票进行储存和处理。对于另一类型的文档,公司将求助于另一个操作方。在实践中,随后雇员需要针对该发票并针对服务操作方选择合适的非物质化软件包,以为操作方提取相关信息(发票数量、客户身份、数额等)。因此在这种方法中,需要培训雇员来处理文档。此外,需要在公司内安装和配置强大的软件包来处理这些文档。所有这些均增加处理时间和处理操作的成本。此外,如果服务操作方期望对文档进行不同处理,他/她只好再次对雇员进行培训并对非物质化软件包应用新的现场参数。因此这类处理不是很灵活并且不是很适于变化。从R6myMullot的“Lesdocuments6crits”(书面文档)中可知的对扫描的文档进行分类的方法包括半监督式学习步骤。此外,包括涉及人类操作者对执行分类的机器倡议的学习步骤的对扫描的文档进行分类的方法从GeorgeNagy等人的“Adaptiveandinteractiveapproachestodocumentanalysis(文档分析的自适应和交互方法)”可知。现有技术的方法通常包括完成初步学习,该初步学习涉及高昂的调试费、以及待处理文档中依赖于时间的变化的低鲁棒性。GeorgeNagy所描述的连续学习包括实现对存在于待识别以改善知识库的文档中的重要图案的连续识别。假设学习是由专家实现的。学习不允许由非专家人类用户在应用级实现并且因此不适用于那些在产品的当前使用期间针对公司市场的产品。在任何情况下,现有技术的方法均包括完成初步学习,该学习涉及高昂的调试费、以及待处理文档中对依赖于时间的变化的低鲁棒性。现有技术的方法也没有充分利用应对文档进行处理的自动操作器的强大的分析能力。
发明内容因此需要提出一种文档处理的改进以克服这些缺点。为了这个目的,根据本发明提出了根据权利要求I所述的方法。本发明通过从属方法权利要求的特征单独地或以任何在技术上可能的组合的方式有利地完善。本发明还涉及一种应用所述方法的扫描仪。本发明具有许多优点。本发明的一个优点是提出一种经济且灵活的解决方案,用于处理文档的方法和装置可针对用户配备并透明地更新。本发明的另一个优点是提出了一种处理文档的自动且快速的解决方案。本发明的又一个优点是提出了一种分类文档的可靠的解决方案。根据本发明的技术,依靠获取用于使分类生效或无效的指令的自动学习步骤,能够充分利用应处理文档的自动操作器的强大分析能力,并且极大地降低了分类出错的风险。通过下面的纯粹示意性而非限制性且必须参照附图来阅读的描述,本发明的其它特征、目的和优点将变得显而易见。图I示意性地示出了根据本发明的扫描仪I;图2示意性地示出了根据本发明的方法的主要步骤;以及图3示出了图2是某些步骤的更加详细的视图。在全部图示中,相同的参考标号表示相同的元件。具体实施例方式图2和3示意性地示出了根据本发明的方法的主要步骤和根据本发明的扫描仪I的主要部件。主要原理对待与至少一个服务Si关联的文档3进行处理的方法通常包括在步骤El期间扫描仪I扫描文档3所依照的步骤。扫描仪I对文档3的扫描是本领域技术人员已知的,并且在本说明书中的后续部分将不在赘述。此外,扫描仪I包括处理器6,处理器6包括本身已知的用于执行根据本发明的方法的步骤的所有处理和记忆存储装置。扫描步骤El允许对文档3进行数字化以将其转换为可被处理的计算机文件。各服务Si可例如是用于处理发票的服务SI、用于处理CV的服务S2、用于处理投诉信函的服务S3、用于处理订单的服务S4,等等。该方法随后包括步骤E2,在步骤E2期间,处理器6制作了代表文档3的至少一个结构Ej。如从本说明书的后续部分中的示例中更详细可见,代表文档3的结构Ej可例如对应于重新获得(reprenant)文档的至少一个单词的出现次数的列表、和/或对应于文档的图形或形态结构、和/或文档的颜色结构、和/或文档的至少一个表达的语义结构。其它结构也是可以想到的。该方法随后包括步骤E3,在步骤E3中,处理器6在文档3的代表结构Ej与具有相同性质并代表所述服务Si的参考结构Rij之间为各服务Si确定至少一个相似度值0ij。为了这个目的,并且如本说明书的后续部分中更详细可见,扫描仪I包括存储器5,在存储器5中,储存有各参考结构Rij和用于计算各值Oij的参数。在图I中,存储器5是本地的并且包含在扫描仪I中,但应理解,存储器5也可以是远程的,例如,位于电信网络上并可由处理器6依靠传统通信装置4进行存取。该方法随后包括步骤E4,在步骤E4期间,处理器6从值oij推断文档3应关联的服务Si。该方法随后包括步骤E5,在步骤E5期间,处理器6根据所关联的服务Si处理文档3。处理操作包括使文档可供远距离和自动服务操作器使用。示例性应用下面给出本发明的非限制的示例性应用。在用于扫描文档3的步骤El之后,处理器6转到步骤E2,在步骤E2期间,处理器6开发代表文档3的至少一个结构Ejo例如II是重新获得文档3的各单词的出现次数的列表;I2是重新获得任选地存在于文档3中的至少一个标识的文档的形态结构;I3是重新获得文档3的至少一个图形组织的文档的图形结构;I4是文档3的语义结构;以及I5是文档3的颜色的结构。文档可例如为打字/印刷或手写类型。在打字/印刷类型的文档的情况下,字符识别方法(或光学字符识别(OCR))是本领域技术人员熟知的,并且在本说明书中的后续部分将不在赘述。在手写类型的文档的情况下,现在也能够执行单词识别,例如,如SylvainChevalier在2004年12月3日递交的论文“Reconnaissanced,ecrituremanuscritepardestechniquesmarkoviennes:uneapprochebidimensionnelleetgenerique衣靠Markov技术的手写识别二维且通用的方法)”的公开所示。这被称为智能字符识别或智慧字符识别。标识识别不构成任何困难,如来自意大利的佛罗伦萨、锡耶纳和比萨的大学的E.Francesconi、P.Frasconi、M.Gori、S.Marinai、J.Q.Sheng、G.Soda和k.Sperduti的“LogoRecognitionbyRecursiveNeuralNetworks(依靠递归神经兀网络的标识识别)”(http://www.dsi.unifi.it/paolo/ps/GREC-97-logo.pdf)所不。最后,语义结构或颜色的识别也是本领域技术人员熟知的,例如,如以下出版物所示。-UCRELSemanticAnalysisSystem(UCREL语义分析系统)(USAS)(http://ucrel.lanes,ac.uk/usas/),以及-2001年2月10日出版于“TechniquesdeI’ingenieur^(参考书目H7258)上的CecileFabre的“Traitementautomatiquedetexts:techniqueslinguistiques(文本的自动处理语言技术)”。图形结构识别的示例也不构成任何困难,如RolfIngold于2002年8月10日发表于“TechniquesdeI’ing6nieur”(参考书目H7020)上的出版物“Analyseetreconnaissanced’imagesdedocuments(对来自文档的图像的分析和识别)”、或PhilippeLefevre于1999年5月10日发表于“TechniquesdeI’ing6nieur”(参考书目H1348)上的出版物“ReconnaissancedeI’imprime(印刷形式识别)”所示。处理器6随后转到步骤E3,在步骤E3期间,处理器6在文档3的代表结构Ej与具有相同性质并代表所述服务Si的参考结构Rij之间为各服务Si确定至少一个相似度值Oij°为了这个目的,存储器5包括数据库7,在数据库7中,储存有参考结构Rij,例如,特别地Rll是针对发票的单词的列表,诸如例如“欧元”、“数额”、“所排除的税”、“VAT”、“客户”等;R12是重新获得某些发票的至少一个具体标识的形态结构,例如优选供应商的信头;R21是针对CV的单词的列表,诸如例如“学校”、“培训期”、“经验”、“教育”、“职业”等;R23是重新获得CV的特定组织的图形结构,诸如具有多个行和列的表格;R34是针对投诉信函的语义结构,诸如例如单词“对象”、“投诉”、“产品”、“日期”、“购买”的语义连接;以及R45是例如来自优选客户的订单格式的特定颜色的结构。处理器6分别在结构21、22、21、23、I4和I5与结构Rll、R12、R21、R23、R34和R45之间确定相似度值O11、O12、O21、O23、O34和O45。对于形成单词k的列表的结构,处理器例如使用以下公式=工4'Wi)(EQi)k€.Rij其中,如果列表Rij的单词k不位于列表Ej中,则sEj(k)的值为0,以及如果列表Rij的单词k位于列表Ej中,则8EJ(k)的值为1,以及如果Xk是可能赋予单词k或多或少意义的加权系数。参数5Ej(k)和\k也储存在数据库7中。应理解,用于为单词列表计算相似度值0ij的其它示例也是可能的。还应理解,对于形态结构、图形结构、语义结构或颜色结构,处理器6还可根据文档3的结构中是否存在标识、特定组织、相似表达或颜色来使用例如公式(EQ1)。在这种情况下,、k同样是赋予相关元素k或多或少意义的加权系数。应理解,用于为形态结构、图形结构、语义结构或颜色结构计算相似度值Oij的其它示例也是可能的。处理器6随后转到步骤E4,在步骤E4期间,处理器6从这些值oij推断文档3应关联的服务Si。待与文档3关联的这些服务SI的索引I是这样的crv=max(aij).因此,在我们的示例中,如果O21〈o11,则列表2I与列表Rll所共有的单词多于列表2I与列表R21所共有的单词,因此文档3更接近于发票而非CV。因此关联的服务是用于处理发票的服务SI。处理器6随后转到步骤E5,在步骤E5期间,文档3根据所关联的服务Si被处理。待对文档3执行的处理E5以及如何对文档3的数据进行编码或甚至加密,实际上取决于操作器(op^ateur)。处理操作首先包括使对文档执行处理的自动和远程服务操作器存取该文档。操作器对文档的存取E5包括,根据第一个应用,向提供服务SI的操作器发送E51文档3。如本领域技术人员本身已知,发送E51通常由扫描仪I的通信装置4执行。因此在本说明书中的后续部分将不在赘述。服务操作器随后在其位置中并在专用装置上对文档3执行所需的处理,以产生与服务操作器的工作相对应的服务。这些专用装置可任选地为非常强大的计算装置。例如由发票非物质化操作器所提供的服务是提取供应商的名称、供应商的参考号、发票数额、发票日期、支付期限,组成发票的不同条目(单价、数额)的多种信息的细节。服务操作器还可例如为相关客户确保所提取的供应商参考号与对现有供应商参考号相对应,确保所提取的数量与通常被处理的数额相对应。该信息及其有效性同样是帮助操作器建立所执行的非物质化的关联性的要素。所执行的非物质化的相关性是第二级,即用于对所提出的分类进行检查的所谓的“应用级”。为了使由操作器提供的服务具有更完整的概念,可参照诸如2005年7月的RFComptableNo.319,会计杂志的出版物,或参照由诸如SERES公司所提出的服务投标(进入的发票的非物质化,特别地)。根据本发明的第二种可能的应用,存取E5包括执行E53扫描仪I的存储器5中所储存的处理指令,使得各操作器可将操作器自己的特性集成至扫描仪I。为了这目的,存储器5包括专用于储存所关联的服务Si的处理指令的存储空间9。因此,在扫描仪I上本地执行文档所需的处理以产生服务。空间9被有利地划分以使各操作器可具有操作器自己的存储空间并保持对操作器的处理的控制。根据该第二种应用的有利替换,处理器6在步骤E52期间将处理指令上传至扫描仪I的存储器5中,尤其是空间9中,然后执行E53所述指令。这允许存储空间9的必然减少,并能够确保处理器6总是使用这些指令,这些指令由操作器直接更新。因此,在例如具有多页的文档3中,服务的关联性是在本地储存于存储器5中的第一页上实现和处理的,合适的处理指令可随后例如在第二页的扫描期间在隐秘时间内上传。上传E52通常使用通信装置4进行。有利地,推断步骤E4包括学习(由附图中的E40指示),其中,处理器6在步骤E41期间基于所计算的相似度值Oij建议待与文档3关联的服务。为了这个目的,扫描仪I包括显示装置2,显示装置2通常包括液晶屏,液晶屏例如允许以所关联服务Si的名称显示步骤E41的建议。在我们的示例中,例如可能发生O11〈031,并且处理器6使文档3与服务3关联。学习过程E40还包括步骤E42,在步骤E42期间,控制器8发送用于使建议E41生效的指令,例如,由OK表示,或使建议E41无效的指令,例如由NXT或CNCL表示。为了这个目的,控制器8可包括与装置2关联的接口,例如按钮和/或触觉选项。如果在对文档3进行学习之后,人类用户估计处理器的建议E41是正确的,则他随后促动控制器8以发送E420K类型的生效指令。如果相反,用户估计来自处理器的建议E41是不正确的,则他/她随后促动控制器8以发送E42无效指令。无效指令可以为两种类型。第一类型由NXT表示,并且可例如为要求处理器6建议具有下一个最高相似度的服务,等等,直至产生发送生效指令的正确建议,如上所述。第二类型由CNCL表示,并且可例如为要求处理器6撤销服务建议的指令,服务与文档3的关联随后例如由用户手动执行。处理器6在步骤E43期间在后续服务建议E41中考虑所述指令。为了这个目的,数据库7包括位于值与相似度Oij之间的相应表格,以为服务Si的各建议E41检索生效或无效。在用户接受OK指令(即接受服务Si的建议)的情况下,处理器6随后例如在步骤E34期间执行数学迭代,使得Oi^f(Oi)其中表格中的有限值Oi通过函数f替换为新的有限值oi,使得Vx,f(x)>X函数f可例如为递增函数,诸如f(x)=x+l在用户通过NXT指令不接受服务Si的建议的情况下,处理器6建议具有下一个最大相似度的服务。然而,对于之前被建议且被无效的服务Si,处理器6随后例如在步骤E43期间执行Oi^g(Oi)其中表格中的有限值通过函数g替换为新的有限值Oi,函数g如下Vxg(x)<;c函数g可例如为递减函数,诸如g(X)=X-I在用户通过CNCL指令不接受服务Si的建议的情况下,处理器6不修改相应表格。随后,应理解,处理器6可在随后的E41建议中有利地提出具有之前导致由控制器8发送E420K生效指令的服务。为了这个目的,等式(EQl)被修改为(EQ2),使得权利要求1.对待与至少一个服务(Si)关联的文档(3)进行分类的方法,包括-包括处理器(6)的扫描仪(I)扫描(El)文档(3)所依照的步骤,以及所述处理器(6)-开发(E2)代表所述文档(3)的至少一个结构(Ej)所依照的步骤,-将所述文档的代表结构(Ej)与具有相同性质并代表所述服务(Si)的至少一个参考结构(Rij)相比较所依照的步骤,-在所述文档的代表结构(Ej)与具有相同性质并代表所述服务(Si)的所述参考结构(Rij)之间为各服务(Si)确定(E3)至少一个相似度值(0ij)所依照的步骤,以及-从该相似度值(Oij)推断(E4)待与所述文档(3)关联的服务(Si),从而在本地形成用于对所述文档进行分类的建议(E41)所依照的步骤,所述方法的特征在于,所述推断(E4)包括学习过程(E40),根据所述学习过程-人类用户和/或因此相关的远程和自动服务操作器经由控制器(8)向所述处理器(6)发回(E42)由所述处理器在本地执行的用于使所述建议(E41)生效或无效的指令,以及-所述处理器(6)在后续服务建议(E41)中考虑所述指令(E43),并在后续建议(E41)中提出已导致由所述控制器(8)发送(E42)生效指令(OK)的服务。2.根据权利要求I所述的方法,其中所述处理器(6)将所述相似度值(Oij)与置信度阈值(t)相比较。3.根据权利要求I或2所述的方法,其中所述处理器根据所述服务(Si)使所述因此相关的远距离和自动服务操作器(Si)存取(E5)所述文档(3)。4.根据权利要求3所述的方法,其中对所述文档的存取(E5)包括通过所述扫描仪(I)的通信装置(4)将所述文档(3)发送(E51)至提供所述服务的操作器。5.根据权利要求3所述的方法,其中对所述文档的存取(E5)包括执行(E53)本地储存于所述扫描仪(I)的存储器(5)中的处理指令。6.根据权利要求5所述的方法,其中所述处理器(6)向所述扫描仪的所述存储器(5)上传(E52)所述处理指令。7.根据权利要求I至6中任一项所述的方法,其中代表文档(3)的结构(Ej)对应于-重新获得所述文档的至少一个单词的出现次数的列表,和/或-所述文档的图形或形态结构,和/或-所述文档的颜色的结构,和/或-所述文档的至少一个表达的语义结构。8.用于文档(3)并用于对待与所述文档(3)关联的服务进行选择的扫描仪(1),所述扫描仪(I)包括处理器(6),所述处理器(6)适于-开发(E2)代表所述文档(3)的至少一个结构(Ej),-在所述文档的代表结构(Ej)与具有相同性质并代表所述服务(Si)的参考结构(Rij)之间为各服务(Si)确定(E3)至少一个相似度值(Oij),以及-根据该相似度值(Oij)本地推断(E4)待与所述文档(3)关联的服务(Si),所述扫描仪(I)的特征在于,所述处理器(6)在所述推断(E4)期间适于学习过程(E40),-并因此适合于经由控制器(8)从人类操作者和/或从因此相关的远距离和自动服务操作器接收由所述处理器在本地执行的用于使所述建议(E41)生效或无效的指令,以及-在后续服务建议(E41)中由所述处理器(6)考虑(E43)所述指令,-并因此适合于在后续建议(E41)中提出已导致由所述控制器(8)发送(E42)生效指令(OK)的服务。9.根据权利要求8所述的扫描仪,还包括具有服务器和/或具有服务操作器的远程通信装置(4)。全文摘要本发明涉及一种对待与至少一个服务(Si)关联的文档(3)进行分类的方法,包括包含处理器(6)的扫描仪(1)在对扫描(E1)文档(3)时所依照的步骤,其中所述方法的特征在于,所述方法还包括处理器(6)所依照的步骤开发(E2)代表文档(3)的至少一个结构(∑j),在代表文档的结构(∑j)与具有相同类型并代表服务(Si)的参考结构(Rij)之间为各服务(Si)确定(E3)至少一个相似度值(σij),从该相似度值(σij)推演(E4)待与文档(3)关联的服务(Si),以及根据所关联的服务(Si)处理(E5)文档(3)。本发明还涉及一种用于实施该方法的扫描仪。文档编号G06K9/00GK102648474SQ201080053051公开日2012年8月22日申请日期2010年11月23日优先权日2009年11月23日发明者斯蒂芬尼·马纳可申请人:萨热姆文献简易股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1