用于电子记录标记的系统和方法与流程

文档序号:17850601发布日期:2019-06-11 22:10阅读:356来源:国知局
用于电子记录标记的系统和方法与流程

本申请要求2016年8月9日提交的美国临时申请号62/372,556的权益,上述申请通过引用而全文并入于此。

发明背景

信息通常可以储存在物理文档文件上。然而,这样的物理存储系统可能要求有极大量的空间可供无限期使用。例如,物理文档文件可被收藏于档案馆、仓库、图书馆和/或保管库中。物理文档一旦被储存,还可能需要日常维护,以便防止文档的损坏、破坏或劣化(例如,自然劣化)。此外,对储存在物理文档文件上的信息的访问可能昂贵且耗时。物理文档不仅会难以定位和运送,而且一旦物理文档被识别出来,从物理文件中提取信息也可能会是耗时的。

作为替代方案,可以将来自物理文档的信息转移到电子介质,并且储存在存储器中。在一些情况下,可以电子地创建和储存信息。这可以消除对于存储空间和存储期间维护的需求。



技术实现要素:

即使作为电子记录储存,当存在繁多的其他电子文件需要翻查时,特定信息和/或文档可能难以定位和隔离。对于例如能够保存多达或超过数千万个记录的大规模记录管理系统,传统分类方法诸如记录到分类组成部分的手动映射可能非常低效。本文认识到需要用于电子记录的高效切准确的分类和标记以及此后对其准确检索的系统和方法。

提供了用于使用从电子记录的特定区域或区提取和分析的信息对记录管理系统中的记录进行分类和标记的系统和方法。在一些情况下,可以对电子记录进行分类和标记。在一些情况下,可以对电子记录中的特定区域或区进行分类和标记。可以用记录分类的一个或多个元素对记录和/或区域或区进行分类和标记。这样的分类和标记可以至少部分地基于自然语言并与之兼容。这样的分类和标记可以至少部分地基于用户活动和/或记录活动并与之兼容。有益地,使用本文提供的系统和方法分类和标记的记录可在此后基于用户活动和/或记录活动来检索,这可以提供例如比搜索关键词更多的上下文相关性。本文的系统和方法可以允许对记录管理系统进行训练以供无监督和自动化的标记。

在一个方面,提供了一种用于对电子记录进行分类的计算机实现的方法,包括:借助于一个或多个计算机处理器访问分类模板库,其中所述分类模板库的每个分类模板包括一个或多个标记(tag)和一个或多个分类单元,其中分类单元包括:(i)所述电子记录的区域或区以及(ii)分类方法;将所述电子记录与所述分类模板库的第一分类模板相匹配;确定针对所述电子记录的所述第一分类模板的模板接近度得分,其中所述模板接近度得分至少部分地基于对安置在所述电子记录的所述区域或区中的内容应用的所述分类方法;以及至少部分地基于所述模板接近度得分向所述电子记录分配所述第一分类模板的所述一个或多个标记。

在一些实施方式中,该方法还包括针对所述分类模板库的第二分类模板重复上述操作。

在一些实施方式中,如果所述模板接近度得分大于预定阈值得分,则向所述电子记录分配所述第一分类模板的所述一个或多个标记。

在一些实施方式中,至少两个分类模板共享同一分类单元。

在一些实施方式中,该方法还可以包括确定所述第一分类模板中的每个分类单元的单元接近度得分,其中所述单元接近度得分至少部分地基于对安置在所述电子记录中的所述分类单元的所述区域或区中的内容应用的所述分类单元的所述分类方法,并且其中所述模板接近度得分是针对每个分类单元确定的所述单元接近度得分的聚合(aggregate)。

在一些实施方式中,所述分类方法是包括以下各项的组中的至少一个成员(member):(i)正则表达式模式、(ii)词性模式以及(iii)一个或多个分类算法。

在一些实施方式中,所述单元接近度得分是二元的。

在一些实施方式中,该方法还可以包括:从用户接收向所述电子记录分配第一标记的指令;向所述电子记录分配所述第一标记;在一个或多个数据库中将所述电子记录的内容存储为用于分类成所述第一标记的训练材料;以及从所述训练材料中,学习将电子记录作为所述第一标记的分类方法。

在一些实施方式中,从图数据库访问所述分类模板库,其中所述图数据库包括所述分类模板库和分类单元库。

在一些实施方式中,将所述电子记录与所述分类模板库的所述第一分类模板相匹配包括,针对所述第一分类模板的每个分类单元,对安置在所述电子记录的所述区域或区中的内容应用所述分类方法。

在另一方面,提供了一种用于对电子记录进行分类的计算机系统,包括:一个或多个处理器;以及存储器,其通信地耦合到所述一个或多个处理器,包含能够由所述一个或多个处理器单个地或共同地执行以实现用于对电子记录进行分类的方法的指令,所述方法包括:通过计算机网络,从用户接收分类模板的定义,其中通过一个或多个标记和一个或多个分类单元来定义分类模板,其中至少通过(i)所述电子记录的区域或区和(ii)分类方法来定义分类单元;将所述电子记录与所述分类模板相匹配;确定针对所述电子记录的所述分类模板的模板接近度得分,其中所述模板接近度得分至少部分地基于对安置在所述电子记录的所述区域或区中的内容应用的所述分类方法;以及至少部分地基于所述模板接近度得分,向所述电子记录分配所述分类模板的所述一个或多个标记。

在一些实施方式中,所述方法还包括重复确定所述分类模板中的每个分类单元的单元接近度得分,其中所述单元接近度得分至少部分地基于对安置在所述电子记录中的所述分类单元的所述区域或区中的内容应用的所述分类单元的所述分类方法,并且其中所述模板接近度得分是针对每个分类单元确定的所述单元接近度得分的聚合。

在一些实施方式中,如果所述模板接近度得分大于预定阈值得分,则向所述电子记录分配所述第一分类模板的所述一个或多个标记。

在一些实施方式中,所述分类单元还包括页索引和尺寸。

在一些实施方式中,所述方法还包括在图形用户界面上显示所述电子记录的一个或多个页。

在一些实施方式中,从所述图形用户界面接收所述定义。

在一些实施方式中,在所述图形用户界面上的所述电子记录的所述一个或多个页之上显示所述电子记录的所述区域或区的定义。

在一些实施方式中,所述分类方法是包括以下各项的组中的至少一个成员:(i)正则表达式模式、(ii)词性模式以及(iii)一个或多个分类算法。

在一些实施方式中,所述方法还包括:从用户接收向所述电子记录分配第一标记的指令;向所述电子记录分配所述第一标记;在一个或多个数据库中,将所述电子记录的内容存储为用于分类成所述第一标记的训练材料;以及从所述训练材料中,学习将电子记录作为所述第一标记的分类方法。

在一些实施方式中,从图数据库访问所述分类模板库,其中所述图数据库包括所述分类模板库和分类单元库。

根据下面的具体实施方式,本公开的其他方面和优点对于本领域技术人员来说将变得容易理解,其中仅示出和描述了本公开的说明性实施方式。如将认识到的那样,本公开能够具有其他和不同的实施方式,并且其若干细节能够在各个明显的方面进行修改,所有这些都没有脱离本公开。因此,附图和说明书本质上被认为是说明性的,而不是限制性的。

援引并入

本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文,其程度如同每个单独的出版物、专利或专利申请被具体地和单独地指出以通过引用并入。当通过引用而并入的出版物以及专利或专利申请达到与本说明书中包含的公开相抵触的程度时,本说明书应当取代和/或优先于任何此类抵触资料。

附图说明

本发明的新颖特征在随附权利要求书中具体阐明。通过参考以下对其中利用到本发明原理的说明性实施方式加以阐述的具体实施方式和附图(本文亦称为“图”)将会更好地理解本发明的特征和优势,在附图中:

图1图示了用于对记录管理系统中的记录进行分类和标记的方法的简化流程图。

图2图示了电子记录中的区域或区的示例。

图3示出了词性标记的示例。

图4示出了用于分类模板库和分类单元库的图数据库的示例。

图5图示了用于微调来自单个分类单元的单元接近度得分的反馈处理。

图6示出了被编程用于实现本公开的方法的计算机控制系统。

具体实施方式

尽管本文已经示出和描述了本发明的各个实施方式,但是对于本领域技术人员来说容易理解的是,这样的实施方式只是作为示例而提供的。本领域技术人员可以想到许多变化、改变和替换而不偏离本发明。应当理解,可以采用本文所描述的本发明实施方式的各种替代方案。

海量的信息可由政府机构以及私人和公共实体储存在物理文档中。这些文档可以被保存在大规模档案库、仓库、图书馆和/或保管库中。然而,物理文档可能难以手动定位、访问、搜索和/或操纵。此外,可能难以从这样的物理文档定位、访问、搜索和/或提取信息。手动方法可能昂贵、低效、不可靠并且/或者受制于隐私问题。例如,人工处理大量文档可能很慢、容易出错、由于暴露于文档中的化学物和/或暴露于紧固件而对人体健康造成损害、对文档造成损害,和/或当涉及含有敏感信息的文档时易受安全漏洞影响。定位特定文档和/或运送这样的文档可能是费力且昂贵的。信息在物理文档上的存储还可能容易丢失——例如当物理文档丢失、损坏、以其他方式实体性地劣化(例如,油墨褪色、纸页完整性减弱等)、破坏和/或标示错误。至少由于在此描述的原因,提取储存在物理文档上的信息可能是困难的,从而阻碍或阻止了对大量的存储信息的访问。

将物理文档上储存的信息转换为数字信息可以使信息易于通过数字搜索访问。例如,可以诸如使用相机或其他成像设备或光学传感器对物理文档进行数字扫描或以其他方式进行成像。在一些情况下,可以通过自动化或半自动化系统和方法将大量物理文档(例如,数百万份)转换成电子记录。这样的自动化或半自动化系统和方法可被配置用于高效且大致一致地处理大量物理文档,诸如通过使原本在物理文档到电子记录的转换期间手动执行的一个或多个过程(例如,对杂乱无章的文档堆栈进行排序,从文档堆栈分离出纸页,松开固定到一个或多个纸页的紧固件,将文档馈送到设备中,对文档进行扫描,对文档进行定向,处置经扫描的文档等)自动化。本文所述系统和方法可以是自动化端到端过程的一部分,该过程涉及物理文档到电子记录的转换,以及电子记录的后续分类和标记。

在一些情况下,数字化信息可以得到进一步处理,诸如经受文本识别(例如,光学字符识别(opticalcharacterrecognition,ocr))。数字化信息可以储存在现场服务器或位于安全地点的远程服务器中,并且/或者可以在请求时容易和可靠地复制。信息的数字化可以提高可靠性、降低成本,以及/或者避免敏感信息的暴露。然而,虽然数字信息可以比储存在物理文档上的信息更容易地搜索,但即使作为电子记录,当存在繁多的其他电子记录需要翻查时,特定信息和/或文档可能难以定位和隔离。

提供了用于促进电子记录管理系统或除此之外电子文档管理系统中的分类和标记的系统和方法。本文所述的系统和方法可适用于从物理文件转换(例如,数字扫描或以其他方式成像)的电子记录和创建并储存为电子文件的电子记录。本文所述的系统和方法可适用于电子记录或电子文档。

提供了用于使用从电子记录的特定区域或区提取和分析的信息对记录管理系统中的记录进行分类和标记的系统和方法。在一些情况下,可以对电子记录进行分类和标记。在一些情况下,可以对电子记录中的特定区域或区进行分类和标记。可以用记录分类的一个或多个元素对记录和/或区域或区进行分类和标记。这样的分类和标记可以至少部分地基于自然语言并与之兼容。这样的分类和标记可以至少部分地基于用户活动和/或记录活动并与之兼容。有益地,使用本文提供的系统和方法分类和标记的记录可在此后基于用户活动和/或记录活动来检索,这可以提供例如比搜索关键词更多的上下文相关性。本文的系统和方法可以允许对记录管理系统进行训练以供无监督和自动化的标记。

图1图示了用于对记录管理系统中的记录进行分类和标记的方法的简化流程图。

用于对记录管理系统中的电子记录进行分类和标记的方法总体上可以包括定义110分类模板、将电子记录与定义的分类模板相匹配120,以及基于匹配来标记130电子记录的操作。这些操作在下文详细描述。

记录管理系统可以包含多个电子记录。本文所述的记录管理系统可以包含任何数目的电子记录。例如,记录管理可以包含至少1个、10个、100个、103个、104个、105个、106个、107个、108个、109个、1012个、1015个或更多个电子记录。电子记录可以是任何包含信息的数字记录,例如,文本和/或图像。电子记录可以是电子文档或来自电子文档的摘录(例如,词语、短语、句子、段落、节、章、页、其他分段等)。电子记录可以是物理文档或来自物理文档的摘录的数字图像。电子记录可以是以电子形式可供线下和/或线上(例如,因特网上)使用的贴文、列表、评论、注释、小册子、指南、手册、照片、图片、图像、图解、图、表、图表、博客、网站、文章、任何文本和/或图像、任何其他信息,以及/或者它们的组合。

分类模板可由用户创建和/或定义。用户可以是或者可以不是记录管理系统的用户。例如,用户可以是记录管理系统的操作者、管理者或管理员。用户可以是记录管理系统的客户。用户可以是记录管理系统的文档和/或记录的提供者。用户可以是记录管理系统的文档和/或记录的创建者。用户可以是个人。用户可以是实体。用户可以是多个个人。用户可以是多个实体。在一些情况下,记录管理系统可以通过唯一标识符(例如,用户名、用户账户、用户id等)来标识用户。

在一些情况下,分类模板可以储存在分类模板库中。分类模板库可以储存在计算机系统(例如,服务器)的存储器中,诸如储存在一个或多个数据库中。如下文进一步描述,分类模板库可以储存在图数据库中。例如,可以将用户创建的任何分类模板保存和储存在分类模板库中,以供系统(例如,记录管理系统)使用。分类模板可对应于一个或多个标记111,并且由一个或多个分类单元112定义。

标记可以是用于描述电子记录的标签。标记可以是用于对具有共同主题的不同电子记录进行分组的标签。标记可以是文本字符串。标记可以是数值。标记可以是关键词和/或短语。标记可以是名称。标记可以是评级。标记可以是类别、组、主题和/或类型。标记可以是注释。标记可以是非结构化分类的一个或多个组成部分。标记可以是标准化信息。标记可以是电子记录或文件的任何元数据字段。标记可以储存成电子记录的元数据字段,例如当分配给电子记录时。在一些情况下,标记可以是二元的(例如,是/否、o/x、0/1等)。标记可以可分配给电子记录和/或从电子记录移除。标记可以用于对电子记录进行索引。标记可以用于标识一组记录。标记可以用于对电子记录进行分类。标记可以用于搜索和筛选电子记录。标记可以改变、修改和/或以其他方式更新。在一些情况下,标记可以在分配给一个或多个电子记录的同时被改变、修改和/或以其他方式更新。

分类模板可对应于一个或多个标记111。在一些情况下,分类模板可对应于仅一个标记。在一些情况下,分类模板可对应于至少2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、100个或更多个标记。在一些情况下,分类模板可对应于至多100、50、45、40、35、30、25、20、15、10、9、8、7、6、5、4、3、2或1个标记。在一些情况下,可以存在对应于每个标记的至少一个分类模板。多个分类模板可对应于同一标记和/或同一组标记。举例而言,第一分类模板可对应于“运动”、“健康的生活方式”和“食品”标记,第二分类模板可对应于“竹子”标记,并且第三分类模板可对应于“树木”、“竹子”、“橄榄”和“食品”标记。在另一示例中,可以为特定供应商或商家的电子记录分配以下标记:标识电子记录类型(例如,发票)的标记、标识客户(例如,客户名称)的标记、标识内容(例如,售出的产品)的标记、标识记录生成时间(例如,年、月、日、时间等)的标记,以及其他标记。

分类模板可由一个或多个分类单元112定义。分类单元可由电子记录113中的区域或区、页索引114、尺寸115和分类方法116来定义。分类单元可由用户创建和/或定义。用户可以是或者可以不是记录管理系统的用户。在一些情况下,分类单元可以储存在分类单元库中。分类单元库可以储存在计算机系统(例如,服务器)的存储器中,诸如储存在一个或多个数据库中。如下文进一步描述,分类单元库可以储存在图数据库中。同一数据库可以储存分类单元库和分类模板库。例如,可以将用户创建的任何分类单元保存和储存在分类单元库中以供系统(例如,记录管理系统)使用。同一分类单元可以定义不同分类模板。

在一些情况下,分类模板可由仅一个分类单元定义。在一些情况下,分类模板可由至少2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、100个或更多个分类单元定义。在一些情况下,分类模板可由至多100、50、45、40、35、30、25、20、15、10、9、8、7、6、5、4、3、2或1个分类单元定义。

区域或区113可以是电子记录的任何页或其他子单元(例如,章、节、段、句等)。电子记录中的区域或区可具有任何形状。例如,区域或区可以是矩形或圆形。区域或区可以是多边形,或者是任何其他任意形状。在一些情况下,用户可以选择预先提供的形状(例如,矩形、平行四边形、圆形、梯形、六边形等),以便定义电子记录的页上的区域或区。在一些情况下,用户可以提供形状的坐标、尺寸和/或度量。在一些情况下,坐标、尺寸和/或度量可相对于参考点或尺寸(例如,边角、边缘、边缘中点、页或子单元的中心、宽度、长度、斜边、直径、半径、周长、对角线、面积、宽度百分比、长度百分比、斜边百分比、直径百分比、半径百分比、周长百分比、对角线百分比、面积百分比等)。在一些情况下,区域或区可相对于行号(例如,从第5到第17行)或者页的其他单元(例如,列2-4、行3-5等)来定义。在一些情况下,区域或区可以是整个页。在一些情况下,区域或区可以跨越不止一页。在一些情况下,区域或区可以小于一页。

在一些情况下,用户可以绘制定制形状。在一些情况下,用户可以在显示要在其中定义区域或区的电子记录的页或其他子单元的图形用户界面上定义区域或区,例如通过预览页或其他子单元上的区域或区的形状来进行定义。图形用户界面可以向用户显示电子记录的一个页、多个页或其他子单元。在图形用户界面上,用户可以选择和/或手绘区域或区,诸如通过拖放预定义形状、点击并拖动以绘制形状,以及/或者其他可用的用户交互方法(例如,点击、触摸、轻敲、拖动、保持、放下、滑动、双击、三击、滚动、扩大、捏缩等)。在一些情况下,图形用户界面可以向用户显示工具箱、工具栏、侧边栏、菜单、选项或类似的行动(例如,选择形状模板、绘制形状、开始编辑、完成编辑等)。

在一些情况下,用户可以在基于网络的界面上定义分类模板和/或分类单元。用户可以向系统上传电子文件(例如,pdf文件、doc文件、jpeg文件等)。用户可以在界面上使用工具(诸如上述工具)来绘制形状和/或添加其他定义,以便定义区域或区。若已经定义了区域或区,用户可以继续定义分类单元,例如通过定义分类方法;或者若已经在屏幕上绘制了形状,用户可以定义分类单元的其他属性,诸如分类方法或预定阈值得分,这将在下文描述。

图2图示了电子记录中的区域或区的示例。电子记录的页202可具有两个分类单元:具有第一矩形区或区域204的第一分类单元和具有第二矩形区或区域206的第二分类单元。

页索引114可以是包含区域或区113的电子记录的页的索引。在一些情况下,页索引可以是字母数字的。在一些情况下,页索引可以是电子记录的页码。在一些情况下,页索引可以是页的顺序(例如,电子记录的第5页可以具有页索引5,即使页码为11)。分类模板可以包括定义不同页上的区域或区的分类单元。例如,包括三个分类单元的分类模板可以具有定义电子记录上的第三页(具有页索引3)上的两个不同区域或区的第一分类单元和第二分类单元,以及定义第七页(例如,具有页索引17)上的而不同区域或区的第三分类单元。如下文进一步描述,当将电子记录与分类模板相匹配时,可以对电子记录的相同或不同页上的由分类模板中的分类单元定义的每个区域或区进行分析。

如上文所述,尺寸115可以是区域或区113的尺寸。尺寸可以是任何单位(例如,英寸、英尺、厘米、米、厘米、毫米、四分之一英寸等)。

分类单元可由分类方法116定义。分类方法可以采用正则表达式模式。分类方法可以采用词性标记文本模式。分类方法可以采用一个或多个其他分类算法(例如,标记算法、信息提取算法、约简正则表达式、朴素贝叶斯、最大熵、提升树、随机森林等)。分类方法可以采用上述各项的组合。分类方法可以使用自然语言处理(naturallanguageprocessing,nlp)分类方法和/或算法。有益地,具有多个分类单元的分类模板可以使用不同的分类方法对电子记录进行分类。

如下文进一步描述,当将分类模板与电子记录相匹配120时,对分类模板的分类单元的区域或区应用分类方法可以确定121该分类单元的单元接近度得分。在一些情况下,单元接近度得分可以至少部分地基于单元的最小阈值得分。最小阈值得分可以是用户定义的和/或预编程的。可以结合分类模板的单元接近度得分来确定122该分类模板的模板接近度得分。针对与电子记录相匹配的分类模板确定的模板接近度得分可以确定对应于该分类模板的一个或多个标记是否被分配给电子记录。

分类方法可以采用正则表达式模式。正则表达式模式(例如,正规表达式(regex)、正规表达式(regexp)等)可以是用于描述搜索模式的特殊文本字符串。正则表达式可以是描述一定量的文本的模式。举例而言,“\b[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}\b”模式可以描述电子邮件地址。该模式可以用于搜索文本(例如,串、字符串)以寻找文本中的电子邮件地址或类似于电子邮件地址的字符串。当对分类单元应用采用正则表达式模式的分类方法时,可以搜索位于或者以其他方式安置在分类单元的指定区域或区中的文本以寻找正则表达式模式的字符串。在一些情况下,基于采用正则表达式模式的分类方法的评分可以是二元的(例如,0或1),使得当存在至少一个匹配(例如,找到一个或多个电子邮件地址)时确定得分1,而当不存在匹配(例如,未找到电子邮件地址)时确定得分0。替代地或附加地,基于采用正则表达式模式的分类方法的评分可以基于非二元标度,诸如匹配频度、出自最大数值(例如,出自1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、1000等)的以百分比或分数为单位的得分,或者任何其他评分系统。例如,对于更频繁地包含具有正则表达式模式的字符串(例如,7个电子邮件地址)的分类单元的单元接近度得分可以高于较不频繁地包含具有正则表达式模式的字符串(例如,2个电子邮件地址)的单元接近度得分。

分类方法可以采用词性模式。词性模式可以包括标记有词性(例如,普通名词、复数普通名词、专有名词、情态动词、基本动词、形容词、比较级形容词等)和固定关键词的文本。举例而言,“looking/vbg,for/in,[nn],…,in/in,[nn],…”的模式可以具有标记vbg(动词动名词)、in(介词或从属连词)和nn(普通名词)。在图3中示出了其他词性标记的示例。词性标记不限于图3中所示的词性标记。当对分类单元应用采用词性模式的分类方法时,可以搜索位于或者以其他方式安置在分类单元的指定区域或区中的文本以寻找固定关键词,并且可以用词性标记来标记匹配的文本。

作为示例,词性标记模式可以是:“form/nn[cd]”。在本例中,存在合格名词:“form”,随后是任何数字“[cd]”。词性标记模式的另一更复杂示例可以是:“[nn][vbg]tax/nnrecords/nns”。在本例中,第一符记(token)是不合格名词“[nn]”,随后是不合格动词“[vbg]”,以及两个合格名词“tax/nn”和“records/nns”。用户可以为某一模式中的每个符记定义权重,使得该模式的总权重为1。符记权重可以确定如何对特定模式进行评分以确定模式接近度得分,该得分可以与分类单元的最低阈值得分进行比较。单元接近度得分可以至少部分地基于模式接近度得分。扩展前面的示例,与权重定义相同的模式可以是:“[nn-0.2][vbg-0.1]tax/nn-0.4records/nns-0.3”,其中不合格名词[nn]具有0.2的权重,不合格动词[vbg]具有0.1的权重,合格名词“tax/nn”具有0.4的权重,并且合格名词“records/nns”具有0.3的权重。用户可以进一步定义用于接受符合模式的文本的最低阈值,例如0.8。更严格的最低阈值“1”可要求文本完全符合词性模式。在一些情况下,最低阈值“0”可允许分类方法接受任何模式的文本,不论符合词性标记模式与否。用户可以定义任何最低阈值。

采用词性模式的分类方法可以起始于系统自动用词性标记来标记提取出的文本(例如,从位于或以其他方式安置在分类单元的指定区域或区中的文本提取)。在标记之后,可以将文本符记化成包含关键词和词性标记的符记。例如,以下文本“informationcontainingtaxrecords”可被标记和符记化成“information/nn,containing/vbg,tax/nn,records/nns”。一旦已经标记文本并将其符记化,系统可以通过首先确定在该文本中是否存在分类单元中所定义的模式来对文本进行评分。可以将文本与单个符记进行比较。如果一个或多个单个符记匹配,则可以将与模式中的单个符记相关联的权重聚合起来以确定模式接近度得分。一旦已经处理所有的符记,可以将模式接近度得分与最低阈值进行比较。在一些情况下,如果模式接近度得分处于或高于最低阈值,则分类单元可以收到单元接近度得分1,否则为0。在一些情况下,单元接近度得分可以为非二元的。例如,单元接近度得分可以至少部分地基于模式接近度得分。

分类方法可以采用其他分类算法,诸如朴素贝叶斯、最大熵、提升树、随机森林分类器。分类算法可以是标记算法、信息提取算法、其他模式(例如,约简正则表达式等)、nlp算法和/或其他算法。当应用采用一个或多个分类算法的分类方法时,可以根据算法对位于或以其他方式安置在分类单元的指定区域或区中的文本进行分类和评分。在一些情况下,评分可以是二元的(例如,0或1)。替代地或附加地,评分可以基于非二元标度,诸如匹配频度、出自最大数值(例如,出自1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、1000等)的以百分比或分数为单位的得分,或者任何其他评分系统。在一些情况下,用户可以定义单元接近度得分的预定阈值,该预定阈值可以用于确定模板接近度得分。预定阈值可以是最低和/或最高得分。

返回参考图1,一旦针对电子记录的分类模板中的每个分类单元确定121了单元接近度得分,可以从单个单元接近度得分确定分类模板的模板接近度得分。模板接近度得分可以是单个单元接近度得分的聚合得分。以下的聚合得分方法可以用于确定模板接近度得分。例如,系统可以采用经典矢量余弦相似度算法(classicvectorcosignsimilarityalgorithm):

其中单元接近度得分是二元的,在模板处理期间,可以添加满足最低阈值得分的每个分类单元的得分作为具有1的分类矢量,而不满足最低阈值得分的每个分类单元的得分可以具有0。对于每个分类单元,可以将分类矢量与具有1的控制矢量进行比较。上述矢量余弦算法可以计算两个矢量之间的相似度,以便确定模板接近度得分。替代地或附加地,可以使用其他方法来确定模板接近度得分。

如下文进一步描述,可以将分类单元与分类模板之间的关系储存在基于图的数据结构中,其中分类模板和分类单元作为通过相似度关系彼此连接的节点。在一些情况下,由于调整分类单元与分类模板之间的相似度关系的反馈过程(例如,反馈处理),可以将分类模板中具有低接近度得分的边远分类单元排除出确定模板接近度得分的聚合得分公式之外。

模板接近度得分可以指示出电子记录与对应于分类模板的一个或多个标记之间的接近度。可以至少部分地基于模板接近度得分,通过对应于分类模板的一个或多个标记来标记电子记录。例如,可以将分类模板的模板接近度得分与预定阈值得分进行比较,其中仅当模板接近度得分处于或高于预定阈值得分(例如,0.95等)时才用对应于分类模板的一个或多个标记来标记电子记录,否则不进行标记。在一些情况下,用户可以定义记录管理系统的预定阈值得分。在一些情况下,默认阈值得分(例如,0.8、50、70、85、50%、70%、85%等)可以是系统的预定阈值得分。在一些情况下,用户定义的预定阈值得分可以覆盖默认阈值得分。

在分类处理期间,可以将电子记录与多个分类模板相匹配。在一些情况下,可以将电子记录与记录管理系统的分类模板库中的所有分类模板相匹配。有益地,可以在对电子记录进行分类和标记之前,针对与系统中所有标记的接近度来评估电子记录。在一些情况下,可以将记录管理系统中的所有电子记录与分类模板库中的每个分类模板相匹配。在一些情况下,如果为电子记录分配了对应于多个分类模板的标记,则系统可在此后跳过或以其他方式放弃电子记录与对应于同一标记的分类模板的匹配。有益地,这样可以节省系统的处理能力和缩短分类时间。

在一些情况下,分类单元可由不止一个区域或区来定义。例如,针对分类单元的分类方法可适用于该分类单元的所有区域或区。

如上文所述,分类模板可以储存在分类模板库中。例如,可以将用户创建的任何分类模板保存和储存在分类模板库中以供系统(例如,记录管理系统)使用。在一些情况下,分类模板库可特定于用户(例如,记录管理系统的客户)。在这样的情况下,可以保存用户创建的分类模板并使其仅可用于该用户和/或用户的电子记录。替代地或附加地,所有分类模板可以可用于记录管理系统的所有用户。有利地,这允许系统在针对相同的标记对不同电子记录进行分类时应用相同的标准(例如,在分类模板中定义)。此外,用户无需针对每个标记冗余地重新定义分类方法和/或关于分类方法应用的细节。

如上文所述,分类单元可以储存在分类单元库中。例如,可以将用户创建的任何分类单元保存和储存在分类单元库中以供系统(例如,记录管理系统)使用。同一分类单元可以定义不同的分类模板。在一些情况下,分类单元库可以特定于用户(例如,记录管理系统的客户)。在这样的情况下,可以保存用户创建的分类单元并使其仅可用于该用户、用户的分类模板和/或用户的电子记录。替代地或附加地,所有分类单元可以可用于记录管理系统的所有用户。有利地,用户无需针对每个分类模板冗余地重新定义分类方法和/或关于分类方法应用的细节。

在一些情况下,分类单元库和/或分类模板库可以存储在图数据库中。图4示出了用于分类模板库和分类单元库的图数据库的示例。图数据库400可以储存分类模板(例如,用于第一标记的第一模板402、用于第二标记的第二模板404等)、分类单元(例如,第一单元406、第二单元408、第三单元410、第四单元412等),以及分类模板与分类单元之间的接近度关系(例如,接近度关系414、416、418、420、422等)。将在此讨论的接近度关系与上文讨论的接近度得分(例如,指示出分类单元与电子记录之间的接近度的单元接近度得分、指示出分类模板与电子记录之间的接近度的模板接近度得分)相区分开来。

在图4中,第一模板402具有与第一单元406的第一接近度关系414、与第二单元408的第三接近度关系418,以及与第三单元410的第四接近度关系420。第二模板404具有与第一单元406的第二接近度关系416以及与第四单元412的第五接近度关系422。在本例中,第一分类单元406被同时包含在第一分类模板402和第二分类模板404中。

在一些情况下,图数据库400可以特定于记录管理系统的用户。或者,图数据库400可以适用于记录管理系统的所有用户。

分类模板与分类单元之间的接近度关系(例如,接近度关系414、416、418、420、422等)可以服务于至少两个目的。分类模板与分类单元之间的接近度关系可以定义分类单元与分类模板之间的相关程度。在一些情况下,分类模板与分类单元之间的接近度关系可以量化,诸如量化为接近度关系得分,并且与接受电子记录作为由该单元分类所需的阈值得分进行比较。在一些情况下,可以将分类模板与分类单元之间的接近度关系分解成聚合单个单元接近度得分的模板接近度得分。例如,可以通过单元接近度得分的分类单元与分类模板之间的相对接近度关系来加权单位接近度得分。

在一些情况下,图数据库400还可以储存标记(图4中未示出)、标记与分类模板之间的接近度关系(图4中未示出)以及/或者标记与分类单元之间的接近度关系(图4中未示出)。

分类模板与标记之间的接近度关系可以服务于至少两个目的。分类模板与标记之间的接近度关系可以定义标记与分类模板之间的相关程度。分类模板与标记之间的接近度关系可以确定分类模板是否对应于一个或多个正确的标记。在一些情况下,可以将标记与分类模板之间的接近度关系分解成基于分类模板的模板接近度得分用标记进行标记的预定阈值得分。例如,如果第一分类模板具有两个对应的标记,并且第一分类模板相比第二标记更接近第一标记,则基于第一分类模板的模板接近度得分用第一标记进行标记的预定阈值得分可低于基于第一分类模板的模板接近度得分用第二标记进行标记的预定阈值得分。

分类单元与标记之间的接近度关系可以服务于至少两个目的。分类单元与标记之间的接近度关系可以定义标记与分类单元之间的相关程度。分类单元与标记之间的接近度关系可以确定分类单元是否对应于一个或多个正确的标记。在一些情况下,可以将标记与分类单元之间的接近度关系分解成基于具有分类单元的分类模板的模板接近度得分用标记进行标记的单元接近度得分。例如,如果第一分类模板具有两个分类单元,并且第一分类单元相比第二分类单元更接近第一分类模板的第一标记,则在确定第一标记的模板接近度得分的过程中第一分类单元的单元接近度得分的权重可以高于第二分类单元。

有益地,图数据可可以映射分类模板、分类单元和标记中的每一个之间的接近度关系,并且使用这样的接近度关系在每个分类循环中例如通过上文所述方法(例如,调整接近度得分公式)来流畅地提高标记的准确性。

分类模板可以随时间推移而演变,诸如随着重复使用和/或分类而演变。例如,在通过分类模板的一个或多个标记对电子记录进行分类时,可以随时间推移自动微调分类模板的模板接近度得分。图5图示了用于微调分类单元最低阈值得分的反馈处理。

反馈处理500可适用于采用分类算法的分类单元。反馈处理可以微调分类单元的最低阈值得分。在一些情况下,仅当用户将分类单元的额最低阈值得分定义为“可调”时,才可以调整该得分。例如,用户可以允许针对取值为0.90与0.95之间的得分自动调整最低阈值得分。分类单元的反馈处理可以基于分类单元的过去得分的时间序列。用户可以定义时间序列的持续时间。该持续时间的单位可以是条目(例如,1000个条目)或时间(例如,2个月)。用户可以定义调整频度。例如,针对每个月,所允许的最大调整值可以是上下0.001。任何自动调整可以依赖于对时间序列数据执行的线性回归。例如,如果将得分与先前运行进行比较并且如果该值更高,则可以上调最低阈值得分。类似地,如果得分低于先前运行,则可以调低最低阈值得分。

在图5中,在分类开始502之后,可以对分类单元进行评分504(例如,单元接近度得分、模式接近度得分等)。可以将得分与最低阈值得分进行比较508。如果得分小于最低阈值得分,则反馈处理可以在不进行任何调整的情况下结束510。如果得分高于最低阈值得分,则系统可以确认512分类单元是否被配置用于得分调整,例如,其是否得到用户的允许。如果分类单元未被配置用于得分调整,则反馈处理可以在不进行任何调整的情况下结束514。如果分类单元被配置用于得分调整,则系统可以确认516得分是否处于定义的(例如,由用户定义、预编程)最低和最高调整边界内。如果得分处于最低和最高调整边界之外,则反馈处理可以在不进行任何调整的情况下结束518。如果得分处于定义的最低和最高调整边界之内,则可以将得分与包含预定时段内的得分的时间序列数据进行比较522。如果得分高于先前运行,则可以将最低阈值得分上调通过时间序列数据的线性回归确定的量,例如通过调整模块520确定的量。如果得分小于先前运行,则可以下调最低阈值得分。因此,可以重新定义506分类单元的最低阈值得分。

利用反馈处理调整,系统可以使其自身适应于其所分类的内容。例如,如果第一分类模板中的第一分类单元的得分经常低于第一分类模板中的其他分类单元并且/或者得分低于对应于与第一分类模板相同的标记的其他分类模板中的其他分类单元,则可以在确定模板接近度得分时向下调整分类单元的权重。返回参考图4中的图数据库,这样的经常性的较低得分可指示出第一分类单元与第一分类模板之间的接近度关系相对于其他分类单元与第一分类模板之间的接近度关系更远。这样的经常性的较低得分可指示出第一分类单元与第一分类模板的第一标记之间的接近度关系相对于其他分类单元与第一标记之间的接近度关系更远。

用户可以手动标记记录管理系统中的电子记录,例如不对电子记录应用分类模板。系统可以在系统的用户手动标记电子记录时进行监控。这样的手动标记数据可以用于对系统进行训练。有益地,由于在手动标记期间直接提供了用户分类意图,因此可以将标记的手动标记的每个实例视为让系统标识针对该标记分类的内容的学习机会。可以将手动标记的实例储存为训练数据。训练数据和本文所述的分类模型可以随时间推移而演变,并且随着重复的分类迭代而提高准确性。

举例而言,系统可以用以下元数据来标记电子记录:

(1){标记:“legalfiles”,得分:“0.9”,方法:“a”}

(2){标记:“legalfiles”,得分:“1”,方法:“m”}

在示例(1)中,通过自动(“a”)方法,亦即,通过应用具有模板接近度得分“0.9”的对应于“legalfiles”标记的分类模板,用“legalfiles”标记来标记电子记录,其中模板接近度得分“0.9”通过了低于0.9的预定阈值得分。在示例(2)中,通过手动“m”方法,亦即,在不应用分类模板而是手动地用接近度得分1进行标记,用标记“legalfiles”标记来标记电子记录。在一些情况下,所有手动标记的记录可以收到接近度得分1。或者,当评分方案具有不为1的最大值时,手动标记的记录可以收到最大值的接近度。有益地,这还可以对自动化标记方法与手动标记方法进行归一化。

在一些情况下,可以储存任何手动标记的电子记录的内容作为训练材料。在一些情况下,可以储存具有“0.95”或更高的模板接近度得分的任何自动标记的电子记录的内容作为训练材料。或者,可以储存具有约0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、0.96、0.97、0.98、0.99或更高的模板接近度得分的任何自动标记的电子记录的内容作为训练材料。或者,可以储存具有小于约0.5的模板接近度得分的任何自动标记的电子记录的内容作为训练材料。应当明白,可以用不同的最大得分值(例如,不为1)来相应地缩放针对作为训练材料存储的阈值得分。

在一些情况下,当使用采用正则表达式和/或采用词性标记的分类方法进行分类时,系统可以分析和确定项,并且将随同所定义的模式周围区域中的模式频繁存在的项加以组合。该数据可被储存作为训练材料。

在一些情况下,训练材料可能过期。例如,训练材料可在最初由系统获取之后约1小时、2小时、3小时、4小时、5小时、6小时、12小时、24小时、1天、2天、3天、4天、5天、6天、7天、1周、2周、3周、4周、1个月、2个月、3个月、4个月、5个月、6个月、1年、2年、3年、4年、5年、6年、7年、8年、9年、10年、10年、20年、30年、40年、50年或更长时间之后过期。有益地,鉴于某些分类方案和/或标准可能随时间推移而演变或改变(例如,番茄可能在第一时间点被分类为水果而在第二时间点被分类为蔬菜,政治家可能在第一时间点被分类为环境问题的倡导者而在第二时间点被分类为教育问题的倡导者,企业可能在第一时间点被分类为非营利性公益企业而在第二时间点被分类为以盈利为目的的企业,等等),可以仅通过更有可能是准确的当前信息来训练记录管理系统。

计算机控制系统

本公开提供了被编程用于实现本公开的方法的计算机控制系统。图6示出了计算机系统601,其被编程或以其他方式配置用于分类和标记电子标记、定义分类模板和/或接收分类模板的定义、定义分类单元和/或接收分类单元的定义、计算分类公式、确定单元接近度得分、确定模板接近度得分、比较预定阈值得分、创建、巡览和/或扩展图数据库、确定标记、分类模板和分类单元之间的接近度关系、确定训练材料、分类和标记的机器学习,以及操作记录管理系统,以及其他操作。计算机系统601可以是用户的电子设备或者相对于该电子设备位于远处的计算机系统。电子设备可以是移动电子设备。

计算机系统601包括中央处理单元(cpu,本文亦称为“处理器”或“计算机处理器”)605,该cpu605可以是单核或多核处理器,或者是用于并行处理的多个处理器。处理器605可以是控制器、微处理器和/或微控制器。计算机系统601还包括存储器或存储器位置610(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元615(例如,硬盘)、用于与一个或多个其他系统通信的通信接口620(例如,网络适配器),以及外围设备625,诸如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器610、存储单元615、接口620和外围设备625通过通信总线(实线)诸如主板与cpu605通信。存储单元615可以是用于储存数据的数据存储单元(或数据储库)。计算机系统601可以借助于通信接口620而操作地耦合到计算机网络(“网络”)630。网络630可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。网络630在一些情况下是电信和/或数据网络。网络630可以包括一个或多个计算机服务器,所述服务器可以支持分布式计算,诸如云计算。在一些情况下,借助于计算机系统601,网络630可以实现点对点网络,该点对点网络可以使耦合到计算机系统601的设备能够起到客户端或服务器的作用。

cpu605可以执行能够以程序或软件来体现的一系列机器可读指令。可以将指令储存在存储器位置中,例如存储器610中。可以将指令引导至cpu605,其随后可以编程或以其他方式配置cpu605以实现本公开的方法。由cpu605执行的操作的示例可以包括提取、解码、执行和回写。

cpu605可以是电路诸如集成电路的一部分。系统601的一个或多个其他组件可以被包括在电路中。在一些情况下,电路是专用集成电路(asic)。

存储单元615可以储存文件,诸如驱动程序、库和已保存的程序。存储单元615可以储存用户数据,例如,用户偏好和用户程序。计算机系统601在一些情况下可以包括位于计算机系统601外部的一个或多个附加的数据存储单元,诸如位于通过内联网或因特网来与计算机系统601通信的远程服务器上。

计算机系统601可以通过网络630来与一个或多个远程计算机系统通信。例如,计算机系统601可以与用户(例如,记录管理系统的用户)的远程计算机系统通信。远程计算机系统的示例包括个人计算机(例如,便携式pc)、板式或平板pc(例如,ipad、galaxytab)、电话、智能电话(例如,iphone、支持android的设备、)或个人数字助理。用户可以经由网络630访问计算机系统601。

本文所述的方法可以通过储存在计算机系统601的电子存储位置上(例如,储存在存储器610或电子存储单元615上)的机器(例如,计算机处理器)可执行代码来实现。机器可执行或机器可读代码能够以软件的形式提供。在使用期间,代码可以由处理器605执行。在一些情况下,可以从存储单元615检索代码并将其储存在存储器610上以供处理器605随时访问。在一些情况下,可以排除电子存储单元615,并将机器可执行指令储存在存储器610上。

代码可以被预先编译并被配置用于与具有适于执行代码的处理器的机器一起使用,或者可以在运行时期间被编译。代码可以用编程语言来提供,可以选择编程语言以使代码能够以预编译(pre-compiled)或随时编译(as-compiled)的方式执行。

诸如计算机系统601之类的本文提供的系统和方法的各方面可以在编程中体现。本技术的各个方面可以被认为是通常以机器(或处理器)可执行代码和/或关联数据的形式的“产品”或“制造品”,这些代码和/或关联数据被携带或体现于一类机器可读介质中。可以将机器可执行代码储存在电子存储单元上,诸如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的有形存储器或其关联模块(诸如各种半导体存储器、带驱动器、盘驱动器等)中的任何一个或全部,其可以在任何时刻提供非暂时性存储以供软件编程。所有或部分软件可以不时通过因特网或各种其他电信网络进行通信。例如,这样的通信可以使软件能够从一个计算机或处理器加载到另一计算机或处理器,例如,从管理服务器或主计算机加载到应用服务器的计算机平台中。因此,另一可承载软件元素的介质类型包括光波、电波和电磁波,诸如跨本地设备之间的物理接口、通过有线和光学陆线网络以及通过各种空中链路使用的光波、电波和电磁波。承载这样的波的物理元件,诸如有线或无线链路、光链路等,也可以被认为是承载软件的介质。如本文所使用的,除非限于非暂时性,否则有形“存储”介质,诸如计算机或机器“可读介质”之类的术语是指参与向处理器提供用于执行的指令的任何介质。

因此,诸如计算机可执行代码的机器可读介质可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质例如包括光盘或磁盘,诸如任何(一个或多个)计算机等中的任何存储设备,诸如可用于实现附图中所示的数据库等的存储设备。易失性存储介质包括动态存储器,诸如这样的计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号的形式,或者诸如在射频(rf)和红外(ir)数据通信期间生成的声波或光波的形式。因此,计算机可读介质的常见形式例如包括:软盘、柔性盘、硬盘、磁带、任何其他磁介质、cd-rom、dvd或dvd-rom、任何其他光学介质、穿孔卡纸带、具有孔图案的任何其他物理存储介质、ram、rom、prom和eprom、flash-eprom、任何其他存储器芯片或盒、传输数据或指令的载波、传输这样的载波的电缆或链路,或者计算机可以从其中读取编程代码和/或数据的任何其他介质。在将一个或多个指令的一个或多个序列输送到处理器以供执行的过程中可以涉及这些形式的计算机可读介质中的许多形式。

计算机系统610可以包括电子显示器635或者与之通信,所述电子显示器635包括用于让用户例如向记录管理系统提供指令的用户界面(ui)640,以及/或者呈现为用户可管理界面的记录管理系统。ui的示例包括但不限于图形用户界面(gui)和基于web的用户界面。

本公开的方法和系统可以通过一个或多个算法的方式来实现。算法可以通过在由中央处理单元605执行时的软件的方式来实现。算法例如可以通过本文所述的一个或多个分类方法来累一个或多个电子记录、标记电子标记、定义分类模板和/或接收分类模板的定义、定义分类单元和/或接收分类单元的定义、计算分类公式、确定单元接近度得分、确定模板接近度得分、比较预定阈值得分、创建、巡览和/或扩展图数据库、确定标记、分类模板和分类单元之间的接近度关系、确定训练材料、训练记录管理系统以供自动分类和标记、在过期日期之后使训练材料过期,或者以其他方式操作记录管理系统,以及其他操作。

尽管本文已经示出和描述了本发明的优选实施方式,但是对于本领域技术人员而言容易理解的是,这样的实施方式只是以举例的方式提供的。本发明不应受到说明书内提供的特定示例的限制。虽然已经参考前述说明书对本发明作出了描述,但本文实施方式的描述和说明不应当以限制性的意义来解释。在不偏离本发明的情况下本领域技术人员现在将会想到许多变型、改变和替换。此外,应当理解,本发明的所有方面都不限于本文阐述的,取决于多种条件和变量的特定描绘、配置或相对比例。应当理解,可以在实践本发明时采用本文所描述的本发明实施方式的各种替代方案。因此,设想到本发明还应当涵盖任何这样的替代、修改、变体或等同项。以下权利要求书旨在限定本发明的范围,并且由此涵盖这些权利要求书的范围内的方法和结构及其等同项。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1