从文档表示信息的制作方法

文档序号:6495782阅读:129来源:国知局
从文档表示信息的制作方法
【专利摘要】本发明公开了用于将被包括在非结构化文本文档中的信息表示成结构化格式的系统和技术。所述系统和技术在非结构化文档中识别事件和与事件相关联的信息、将所识别的事件和信息分类、并且基于所计算的分类评分而以结构化格式来表示所识别的事件和信息。所述系统和技术也可以向所识别的事件分配置信度评分、比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分并且基于所述比较而以结构化格式来表示所识别的事件和与事件相关联的信息。
【专利说明】从文档表示信息

【技术领域】
[0001]本公开涉及从非结构化信息表示信息,并且更具体地涉及用于自动以结构化格式而从非结构化文档表示信息的系统和方法。

【背景技术】
[0002]现今有主要地以被包括在文档中的非结构化文本数据的形式的越来越多的信息量,其与投资者的决策过程有关。当该信息是大量的时,投资者所需要用以识别术语和领会被包括在这些文档中的语义的努力可能是辛苦的。尽管文档的电子存储已经简化了浏览多重和大文档的过程,浏览大量文本以理解和快速定位感兴趣的信息仍然是困难和耗时的。
[0003]例如,企业新闻发布通常在非结构化(例如自由形式)文本中连同附加信息一起识别企业金融事件,诸如红利、每股收益、管理和所有制结构等等。解析该信息以识别感兴趣的项目是耗时的过程。此外,虽然大多数文字处理工具确实提供用于在文档中搜索单独项目的机制,但是这些工具中没有一个提供伴随感兴趣的项目的补充信息。
[0004]因此,有用于从非结构化数据提供信息的改进的系统和技术的需要,所述信息诸如事实和事件。


【发明内容】

[0005]公开了用于以结构化格式来表示被包括在非结构化文本文档中的信息的系统和技术。所述系统和技术在非结构化文档中识别事件和与事件相关联的信息、将所识别的事件和信息分类、并且基于所计算的分类评分而以结构化格式来表示所识别的事件和信息。所述系统和技术也可以向所识别的事件分配置信度评分、比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分并且基于所述比较而以结构化格式来表示所识别的事件和与事件相关联的信息。
[0006]所述系统和技术的各种方面涉及计算概率值和组合概率值以生成分类评分。
[0007]例如,根据一个方面,方法包括识别被包括在非结构化文本文档中的事件的属性,其中每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性;为每个所识别的属性生成文档特征;并且将多个分类器中的至少一个应用于每个所生成的特征。所述至少一个先前使用预定义事件属性所训练的分类器对应于所述所识别的事件属性。
[0008]所述方法也包括从由所述至少一个分类器使用概率估计模型所生成的分类器评分来计算概率值,其中所述概率值指示所识别事件属性的似然性,所述所识别事件属性对应于所述预定义事件属性集合中之一;组合与所识别属性相关联的多个所计算的概率值以生成分类评分;并且至少部分基于所述分类评分而从非结构化文本文档将事件和所识别的属性表示成结构化格式。
[0009]在一个实施例中,所述方法此外包括使用至少一个置信度模型来向事件分配置信度评分,比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分,并且基于所述比较以结构化格式从非结构化文本文档表示事件和所识别的属性。
[0010]在又一个方面,方法包括访问非结构化文本文档以识别事件和与事件相关联的属性集合,其中所述属性集合与预定义事件属性集合有关,并且生成与所述属性集合相关联的文档特征集合,所述文档特征集合具有比所述属性集合更高数目的集合元素。对于在所述文档特征集合中的第一文档特征,所述方法包括生成第一分类器评分,其中所述第一分类器评分是利用先前已经使用预定义事件属性集合所训练的分类器被生成的,并且基于所述第一分类器评分而使用概率估计模型来计算第一概率值,所述第一概率值指示来自事件属性集合的第一事件属性对应于预定义事件属性集合的似然性。
[0011]所述方法也包括,对于在所述文档特征集合中的第二文档特征,生成第二分类器评分,所述第二分类器评分是利用分类器所生成的,并且基于所述第二分类器评分而使用概率估计模型来计算第二概率值,所述第二概率值指示来自事件属性集合的第二事件属性对应于预定义事件属性集合的似然性。
[0012]所述方法此外包括使用第一概率值和第二概率值而生成分类评分并且基于所述分类评分而以结构化数据格式从非结构化文本文档表示事件和属性集合。
[0013]公开了一种系统,以及包括存储用于实施各种技术的机器可读指令的机器可读媒介的产品。以下更详细地讨论各种实施的细节。
[0014]从以下详细描述、附图和权利要求,附加特征和优点将是显而易见的。

【专利附图】

【附图说明】
[0015]图1是用于从非结构化文本文档表示信息的示范性基于计算机的系统的示意图。
[0016]图2说明用于训练在图1中所示出的基于计算机的系统的示范性方法。
[0017]图3说明用于从非结构化文本文档表示信息的示范性方法。
[0018]图4说明用于训练图1的基于计算机的系统的示范性用户界面。
[0019]在各种图中同样的参考符号指示同样的元件。

【具体实施方式】
[0020]本发明包括方法和系统,其便于从非结构化数据将事件(例如事实)和所识别的事件属性(例如与事件有关的信息)自动提取(例如表示)成结构化数据格式。可以在本发明的情况下所使用的非结构化数据的示例包括但不限于书、杂志、文档、元数据、健康记录、金融记录和非结构化文本,所述非结构化文本诸如新闻报道、企业新闻发布、电子邮件消息的正文、网页以及文字处理器文档。
[0021]结构化数据格式指定数据将如何被组织并且包括使信息的结构和内容标准化的规则。由本发明所生成的示例结构化数据格式包括但不限于可扩展标记语言(XML)、可扩展商业报告语言(XBRL)、超文本标记语言(HTML)和具有所公布的规范文档的其它数据格式。
[0022]所述方法和系统在以下情景中是特别有益的,在所述情景中,金融事件连同多重其它事实一起被包括在非结构化文本中,所述多重其它事实中的一些涉及金融事件和其中一些不涉及金融事件。
[0023]例如,企业新闻发布可以包括事件,诸如股票红利宣告,所述股票红利宣告与其相关联地具有股票红利是可支付的时段和识别支付股票红利的商行(business concern)的实体名称,其是市场专业人员感兴趣的。所述新闻发布也可以包括与红利事件无关的附加信息,诸如新员工福利信息,其可能对于市场专业人员是较少感兴趣的。使用本发明,市场专业人员不需要花时间阅读整个新闻发布和在新员工福利信息中挑选,因为市场专业人员所感兴趣的红利和有关信息可以以若干结构化数据格式之一被自动提供给市场专业人员。
[0024]现在转向图1,公开了一种适合的计算系统10的示例,在所述计算系统10中,本发明的实施例可以被实施。所述计算系统10只是一个示例并且不意图暗示关于本发明的使用或功能性的范围的任何限制。所述计算系统10也不应当被解释为具有与所说明组件的任何一个或组合有关的任何依赖性或要求。
[0025]例如,本发明用许多其它通用或专用计算消费电子设备、网络PC、小型计算机、大型(mainframe)计算机、膝上型计算机以及包括任何以上系统或设备的分布式计算环境等等是可操作的。
[0026]可以在由计算机所执行的计算机可执行指令的通常上下文中描述本发明,所述计算机可执行指令诸如程序模块。通常,程序模块包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构、循环代码段和构造等等。本发明可以在分布式计算环境中被实行,在所述分布式计算环境中,任务由远程处理设备执行,所述远程处理设备通过通信网络被链接。在分布式计算环境中,程序模块位于包括存储器存储设备的本地和远程计算机存储媒介这两者中。在以下并且借助于图来描述由程序和模块所执行的任务。本领域技术人员可以将描述和图实施为处理器可执行指令,所述处理器可执行指令可以被写在任何形式的计算机可读媒介上。
[0027]参考图1,在一个实施例中,系统10包括服务器设备12,所述服务器设备12被配置以包括诸如中央处理单元(‘CPU’ )的处理器14、随机存取存储器(‘RAM’ ) 16、诸如显示设备(未不出)和键盘(未不出)的一个或多个输入-输出设备18和非易失性存储器20,所有这些经由公共总线22被互相连接并且由处理器14控制。
[0028]如在图1示例中所示出的,在一个实施例中,非易失性存储器20被配置以包括规格化(normalizat1n)模块24、特征模块26、分类模块28、置信度模块30和提取模块32,所述规格化模块24用于从非结构化文本文档识别事件属性,诸如货币、金融限定符、时段、定界符、实体名称和在金融领域中有重大意义的其它项目,所述特征模块26用于生成描述在非结构化文本文档中所出现的诸如单词、术语、标点符号等等的项目的文档特征(例如数字向量),所述分类模块28用于归类文档特征集合并且向在非结构化文本文档中所出现的项目分配分类评分,置信度模块30用于确定在从非结构化文本文档识别事件方面的准确度,所述提取模块32用于从非结构化文本文档以结构化数据格式来表示事件和任何所识别的事件属性。如此处所使用的,单词‘集合’和‘多个集合’指的是从空集合至多元素集合的任何事物。结合图2、3和4来讨论这些模块24、26、28、30和32的附加细节。
[0029]提供网络32,其可以包括各种设备,诸如被连接在内联网、外联网或互联网配置中的路由器、服务器和交换元件。在一个实施例中,网络32使用有线通信以在访问设备(未示出)、服务器设备12和数据存储装置34之间传递信息。在另一个实施例中,网络32采用无线通信协议以在访问设备、服务器设备12和数据存储装置34之间传递信息。还在其它实施例中,网络32采用有线和无线技术的组合以在访问设备、服务器设备12和数据存储装置34之间传递信息。
[0030]数据存储装置34是维护和存储由前述模块24、26、28、30和32所利用的信息的仓库。在一个实施例中,数据存储装置34是关系数据库。在另一个实施例中,数据存储装置34是目录服务器,诸如轻量目录访问协议(‘LDAP’ )。在又一个实施例中,数据存储装置34是服务器12的非易失性存储器20的区域。
[0031]如在图1示例中所示出的,在一个实施例中,数据存储装置34包括训练文档集合
36、所提供的多个特征生成方案(schema)38和所提供的预定义规则集合40,所述训练文档集合36由分类模块28使用以在事件属性上训练多重二进制分类器,所述多个特征生成方案38由特征模块26应用来为训练文档集合36和非结构化文档集合44生成文档特征,如果被包括在非结构化文档集合之一中的属性被肯定地识别,则所述预定义规则集合40由分类模块28应用。
[0032]数据存储装置34也包括预定义事件集合42。预定义事件42中的每一个包括与之相关联的至少一个预定义事件属性。例如,在一个实施例中,被命名为“红利”的预定义事件与之相关联地具有以下预定义事件属性:数量、时期和限定符。在一个实施例中,每个预定义事件属性与系统中的唯一识别符相关联。所述数据存储装置34也包括一个或多个所训练的置信度模型46和概率估计模型48,所述置信度模型46提供在非结构化文档集合44中所识别的事件的准确度确定,所述非结构化文档集合44在一个实施例中可能包括通过实时数据馈给所接收的一个或多个新项目,所述概率估计模型48用以从由分类模块28所计算的分类评分来计算概率值。以下更详细地讨论被包括在数据存储装置34中的信息的附加细节。
[0033]尽管在图1中所示出的数据存储装置34被连接到网络32,但是将由本领域技术人员所意识到的是,在图1中所示出的数据存储装置34和/或任何信息36-48可以跨越各种服务器而分布并且通过网络32对服务器12是可访问的、被直接耦合到服务器12或被配置在服务器12的非易失性存储器20的区域中。
[0034]此外,应当注意的是,在图1中所示出的系统10只是本公开的一个实施例。本公开的其它系统实施例可以包括没有被示出的附加结构,诸如二级存储装置和附加计算设备。另外,本公开的各种其它实施例包括比在图1中所示出的实施例更少的结构。例如,在一个实施例中,在非联网独立式配置中在单个计算设备上实施本公开。数据输入经由诸如键盘和/或鼠标的输入设备被传送到计算设备。系统的数据输出从计算设备被传送到显示设备,诸如计算机监控器。
[0035]现在转到图2,公开了一种用于训练在图1中所示出的基于计算机的系统的示例方法。首先,在步骤50处,规格化模块24规格化训练文档集合36中的每个文档。在一个实施例中,每个文档的规格化包括为训练文档集合中的每个识别来自金融领域的有重大意义的记号(例如单词、短语、字母序列、数字和特定字符)。
[0036]其次,在步骤52处,规格化模块24在每个训练文档中识别候选属性。如此处所使用的,术语‘候选属性’指的是以下单词、短语或有重大意义的其它记号,所述单词、短语或有重大意义的其它记号可能涉及与系统中预定义事件42中之一相关联的预定义属性。例如,在一个实施例中,候选属性包括但不限于被包括在每个训练文档中的货币、金融限定符、时段、定界符和实体名称。规格化模块24于是在每个训练文档内向每个有重大意义的所识别的记号分配唯一识别符。
[0037]参考图4,在一个实施例中,规格化模块24提供用户界面,所述用户界面向诸如人类专家的用户显示每个经规格化的训练文档。规格化模块24在每个训练文档内将每个所识别的候选属性显示为文本的标记/标签部分(marked-up/tagged port1n)。如在图4示例中所示出的,专家可以识别由唯一识别符在系统中所表示的文本的标记/标签部分,所述文本的标记/标签部分对于(例如,对应于)与事件42相关联的预定义事件属性集合中的任何属性是阳性的(positive)。规格化模块24于是生成(MT",Si)对,所述(MT",Si)对表示对于预定义事件属性%是阳性的、在文档Ti中的文本M的第j个标记/标签部分。所有这种对的集合P于是由规格化模块24存储在数据存储装置34中。
[0038]在一个实施例中,对于每个预定义事件属性S,,规格化模块24从训练文档集合36识别阳性示例和阴性(negative)示例。阳性示例是对集合P中的对应于预定义事件属性Si中之一的所有对。阴性示例是P中的不对应于预定义事件属性S,、但具有与Si类似的属性类型的所有对。例如,如果Si是数字红利值,则所有其它数字值被识别为阴性示例。
[0039]参考回图2,一旦阳性和阴性示例被确定,则在步骤54处,特征模块26为每个所识别的阳性和阴性示例生成一个或多个文档特征。在一个实施例中,特征模块26在每个阳性和阴性示例的潜在(例如,候选)事件属性周围的一部分非结构化文本(例如,标记/标签文本)上生成一个或多个文档特征(例如,数字向量)。非结构化文本的所述部分的大小是用户可配置的。例如,参考非结构化文本的以下示例,在候选事件属性“0.45//’周围的非结构化文本的该部分是“Aoart/ is recommending, subject to shareholder approval, a totaldividend for the year of 0.45p per share (2009:0.4p per share) ”。
[0040]本发明的特征模块26利用多个特征生成方案38 (例如,算法)用以为阳性和阴性示例生成文档特征。例如,在一个实施例中,特征生成方案包括但不限于以下方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值(Figure)-值-阈”、“ N元(N-Grams)”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。
[0041]特征模块26使用词袋方案来为在包括标记/标签信息的一部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征并且基于每个唯一单词、短语或经规格化的文本分别在该部分非结构化文本中所出现的次数来向所生成的文档特征分配特征值。例如,参考非结构化文本的前述示例,所提取的一元(unigram)包括“Board”、“is”、“recommending,,、“ subject” 等等。
[0042]特征模块26使用最远距离/最近距离方案来为标记/标签信息生成文档特征。在一个实施例中,特征模块26比较标签信息和与预定义事件属性集合相关联的多个预定义文本,并且然后基于所述比较为所述标签信息生成文档特征。特征模块26于是向所生成的文档特征分配特征值,所述特征值表示在标记/标签信息和候选属性之间的空间距离。
[0043]例如,参考非结构化文本的前述示例,如果单词“recommending”和“dividend”是与预定义事件属性集合相关联的预定义文本的部分,则被分配给所生成的文档特征的特征值将是11/21和5/21,其中11和5是离候选属性45p”的词距(word distance)并且二十一 (21)表示在非结构化文本的前述示例中的单词数目。
[0044]特征模块26使用之前或之后方案来为在与预定义事件属性相关联的预定义文本列表中所出现的标记/标签信息生成文档特征。在一个实施例中,特征模块26比较标记/标签信息和与预定义事件属性集合相关联的多个预定义文本,基于所述比较为所述标记/标签信息生成文档特征,并且于是如果所述标记/标签信息被包括在所述多个预定义文本中并且所述标记/标签信息在该部分非结构化文本中出现在候选属性之后,则向所生成的文档特征分配第一特征值、例如数字一(I )。如果所述标记/标签信息被包括在所述多个预定义文本中、在该部分非结构化文本中出现在所述至少一个候选属性之前,则特征模块26向所生成的文档特征分配第二特征值、例如负一(-1),并且如果标签信息没有被包括在所述多个预定义文本中,则向所生成的文档特征分配第三特征值、例如零(O)。
[0045]例如,参考非结构化文本的前述示例,如果短语“per share”和“recommending”是与数值事件属性相关联的预定义文本的部分,则特征模块26分别分配一(I)和负一(-1)的特征值,因为“per share”在示例文本中出现在数值候选属性之后并且“recommending”在示例文本中出现在数值候选属性之前。
[0046]特征模块26使用存在限定符方案来为在该部分非结构化文本中所出现的限定术语(例如,区分、表征或区别候选属性的术语)生成文档特征。在一个实施例中,特征模块26识别被包括在该部分非结构化文本中的限定符文本,为所识别的限定符文本生成文档特征并且然后向所生成的文档特征分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
[0047]例如,参考非结构化文本的前述示例,如果预定义限定符文本包括单词“total”、“final'“interim”和“basic”,则特征模块26可以分别向所生成的文档特征分配一(I)、零
(O)、零(O)和零(O)的特征值,因为只有单词“ total ”存在于示例非结构化文本中。
[0048]特征模块26使用存在定界符方案来为在该部分非结构化文本中所出现的每个定界符(例如,逗号、冒号、括号、句点等等)生成文档特征。在一个实施例中,特征模块26识别被包括在该部分非结构化文本中的定界符,为所识别的定界符生成文档特征并且然后向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性相关联的多个预定义定界符中。
[0049]特征模块26使用数值-值-阈方案来为数字事件属性生成文档特征。在一个实施例中,特征模块26识别被包括在该部分非结构化文本中的数字事件属性,为所识别的数字事件属性生成文档特征,比较数字事件属性与预定义阈值;并且基于所述比较向所生成的文档特征分配特征值。如果数字事件属性没有超过阈值,则特征模块26可以分配一(I)的特征值并且如果数字事件属性超过阈值则分配零(O)的特征值。
[0050]特征模块26使用N元方案来为在该部分非结构化文本中所出现的每个单一 N元(例如,二元、三元等等)生成文档特征并且将所述N元在该部分非结构化文本窗中所出现的次数用作文档特征频率。在一个实施例中,特征模块26识别被包括在该部分非结构化文本中的每个单一 N元,为每个所识别的N元生成文档特征并且然后基于每个所识别的单一 N元在该部分非结构化文本中所出现的频率来向所生成的文档特征分配特征值。
[0051]例如,参考非结构化文本的前述示例并且使用二元,使用N元方案的特征模块26将生成以下作为文档特征:“Board is”、“is reco_ending”、“per share”等等。
[0052]特征模块26使用标题词方案来为在非结构化文本的标题和该部分非结构化文本这两者中所出现的标记/标签信息生成文档特征。例如,在一个实施例中,特征模块26为标记/标签信息生成文档特征并且向每个所生成的文档特征分配特征值,所述特征值表示标签信息是否被包括在与非结构化文本文档相关联的标题中以及也被包括在与预定义事件属性集合相关联的多个预定义文本中。
[0053]特征模块26使用上下文中时期方案来为依赖时期的事实类型生成文档特征并且基于从文档上下文(例如,文档标题或元数据(metadata))所识别的时期是否对应于在该部分非结构化文本中所指定的时期来向所生成的文档特征分配特征值。在一个实施例中,特征模块26从非结构化文本文档的上下文识别依赖时期的属性,其中所述上下文由与非结构化文本文档相关联的标题和与非结构化文本文档相关联的元数据中之一定义;为依赖时期的属性生成文档特征;并且如果所述依赖时期的属性被包括在该部分非结构化文本中则向所生成的文档特征分配第一特征值。
[0054]特征模块26使用最近单匹配标签方案来为最接近于候选属性分别在其左边或右边所出现的标记/标签信息生成文档特征。例如,在一个实施例中,特征模块26为最接近于被包括在该部分非结构化文本中的候选属性的标记/标签信息生成文档特征并且基于与所述至少一个候选属性最接近的标签信息的数字索引来向所生成的文档特征分配特征值。
[0055]特征模块26使用基于数值的属性的值的对数方案来生成特征值,所述特征值表示基于数值的候选属性的实际值的对数。在一个实施例中,特征模块26识别被包括在该部分非结构化文本中的数字事件属性,为所识别的数字事件属性生成文档特征并且基于数字事件属性的对数来向所生成的文档特征分配特征值。
[0056]在一个实施例中,一旦多个文档特征被生成,则特征模块26规格化使用一些或所有上述特征生成方案所获得的特征值。在一个实施例中,特征模块26使用术语频率-逆文档频率(TF-1DF)来规格化所分配的特征值。在另一个实施例中,特征模块26使用其它规格化方式来规格化所分配的特征值。
[0057]参考图2,一旦特征模块26为阳性和阴性示例生成文档特征,则在步骤56处,分类模块28使用阳性和阴性示例来为每个预定义事件属性类型训练多重二进制分类器。在一个实施例中,每个二进制分类器使用不同分类算法、所生成的文档特征集合和/或训练文档的不同子集。其次,在步骤58处,对于每个所训练的分类器,分类模块28使用若干现有方式之一来训练概率估计模型。例如,在一个实施例中,分类模块28使用保序回归技术来训练概率估计模型。在另一个实施例中,分类模块28使用概率估计方式来训练概率估计模型。
[0058]其次,在步骤60处,对于事件集合42中的每个事件,置信度模块60构造置信度模型。在一个实施例中,置信度模块60通过首先为在训练文档集合36中的对应于事件集合42中预定义事件属性的任一非结构化文本部分中所出现的每个单一 η元计算η元计数而构造置信度模型,其中η是可配置的。其次,置信度模块60向非结构化文本的每一部分分配置信度评分。所述置信度评分是与非结构化文本的每一部分相关联的η元计数的平均值。其次,置信度模型60使用所述置信度评分来为非结构化文本部分中的每一个计算统计特性。所述统计特性包括但不限于所有置信度评分的平均值、最大值、最小值和标准偏差。置信度模型60于是基于这些统计特性来生成第一文档语料库和第二文档语料库。所述第一语料库包括来自训练文档集合36的、对于预定义事件属性是真阳性的非结构化文本部分。所述第二文档语料库包括来自训练文档集合36的、对于预定义事件属性是假阳性实例的非结构化文本部分。
[0059]现在参考图3,公开了用于从非结构化文本文档表示信息的示范性方法。如在图3示例中所示出的,在步骤61处,规格化模块24规格化非结构文档集合44中的至少一个。如之前所描述的,所述非结构化文档集合可以是通过实时新闻馈给所接收的非结构化文本文档D。在一个实施例中,规格化模块24通过识别被包括在非结构化文本文档中的候选属性、将唯一识别符与候选属性相关联、比较候选属性与预定义事件属性集合中的每一个并且基于所述比较而存储所述候选属性、唯一识别符和所述预定义事件属性中至少之一来规格化文档D。所述候选属性可以是在金融领域中所定义的关键词、字母序列、数字和字符。
[0060]其次,在步骤62处,规格化模块24识别被包括在非结构化文本文档D中的事件的属性。每个所识别的属性至少类似于被包括于在事件集合42中所定义的预定义事件属性集合中的至少一个事件属性。其次,在步骤64处,特征模块26使用之前所讨论的特征生成方案中一个或多个来从非结构化文本文档生成文档特征。
[0061]例如,在一个实施例中,特征模块26可以通过为在一部分非结构化文本文档中所出现的每个单一单词、短语或经规格化的文本生成文档特征和基于所述单词、短语或经规格化的文本中的每个分别在该部分非结构化文本文档中所出现的次数来向所生成的文档特征分配特征值而应用词袋特征生成方案。
[0062]特征模块26也可以通过从与预定义事件属性集合相关联的多个预定义文本识别与所识别的属性之一邻近的文本、为所识别的邻近文本生成文档特征和向所生成的文档特征分配特征值而应用最远距离/最近距离特征生成方案,其中所述特征值表示在所识别的邻近文本和所识别的属性之一之间的空间距离。
[0063]在一个实施例中,例如,特征模块26可以通过识别与所识别的属性之一邻近的文本、为所识别的邻近文本生成文当特征、如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之后则向所生成的文档特征分配第一特征值而应用之前或之后特征生成方案。
[0064]如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之前,则特征模块26也可以向所生成的文档特征分配第二特征值。如果所识别的邻近文本没有被包括在与预定义事件属性集合相关联的多个预定义文本中,则第三特征值可以由特征模块26分配给所生成的文档特征。
[0065]特征模块26可以通过识别被包括在该部分非结构化文本中的限定符文本、为所识别的限定符文本生成文档特征并且向所生成的文档特征分配特征值而应用存在限定符特征生成方案,其中所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
[0066]在一个实施例中,特征模块26可以通过识别被包括在该部分非结构化文本中的定界符、为所识别的定界符生成文档特征并且向所生成的文档特征分配特征值而应用存在定界符特征生成方案,其中所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。
[0067]特征模块26可以通过识别被包括在该部分非结构化文本中的数字事件属性、为所识别的数字事件属性生成文档特征、比较所述数字事件属性与预定义阈值并且基于所述比较向所生成的文档特征分配特征值而应用数值-值-阈特征生成方案。
[0068]在一个实施例中,特征模块26可以通过识别被包括在该部分非结构化文本中的每个单一 N元、为每个所识别的N元生成文档特征并且基于每个所识别的唯一 N元在该部分非结构化文本中出现的频率来向所生成的文档特征分配特征值而应用N元特征生成方案。
[0069]特征模块26可以通过识别与所识别的属性之一邻近的文本、为所识别的邻近文本生成文档特征并且向所生成的文档特征分配特征值而应用标题词特征生成方案,其中所述特征值表示所识别的邻近文本是否被包括在与非结构化文本文档相关联的标题和与预定义事件属性集合相关联的多个预定义文本中。
[0070]在一个实施例中,例如,特征模块26可以通过从非结构化文本文档的上下文识别依赖时期的属性、为所述依赖时期的属性生成文档特征并且如果所述依赖时期的属性被包括在该部分非结构化文本中则向所生成的文档特征分配第一特征值而应用上下文中时期特征生成方案,其中所述上下文由与非结构化文本文档相关联的标题或与非结构化文本文档相关联的元数据定义。
[0071]特征模块26可以通过为在该部分非结构化文本中最接近于所识别的属性的邻近文本生成文档特征并且基于与所识别的属性最接近的邻近文本的数字索引来向所生成的文档特征分配第一特征值而应用最近单匹配标签特征生成方案。
[0072]在又一个实施例中,特征模块26可以通过识别被包括在该部分非结构化文本中的数字事件属性、为所识别的数字事件属性生成文档特征并且基于数字事件属性的对数来向所生成的文档特征分配特征值而应用基于数值的属性的值的对数特征生成方案。
[0073]其次,如在图3的步骤66中所示出的,分类模块28将多个分类器中至少一个应用于每个所生成的文档特征。之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性。其次,在步骤68处,分类模块28使用之前所训练的概率估计模型之一从由所述至少一个分类器所生成的分类器评分而计算概率值。所计算的概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性。
[0074]如在步骤70中所示出的,分类模块28其次使用所计算的概率值来为D中每个所识别的属性计算分类评分。在一个实施例中,分类模块28通过组合分类器的结果来计算分类评分。例如,在一个实施例中,分类模块28使用规格化或概率估计方式来将由分类器所分配的原始评分规格化和/或转变成概率。在一个实施例中,分类模块28在规格化原始评分中使用保序回归,但是在本领域中已知的其它估计方式也可以由分类模块28所利用。这些经规格化的评分于是被组合成作为加权线性组合的单一评分。在一个实施例中,分类模块28经验式地确定加权(weight)。在另一个实施例中,分类模块28通过在每个所识别的属性上应用交叉验证而确定加权。
[0075]其次,在步骤72处,分类模块28确定D中所识别的属性是否已经被阳性地识别为预定义事件属性集合中的属性。如果分类模块28确定D中所识别的被阳性地识别,则在步骤74处,分类模块将预定义规则集合40中至少之一应用于所识别的属性。预定义规则集合40中的每一个识别与D中事件邻近的文本部分中的模式。
[0076]例如,参考如由分类器所识别的与“1.1p per share”的数值事件属性邻近的文本的以下示例部分:“A dividend of 1.1p per share totaling £2.1m in respect of the per1d endedI October 2006 was paid in this per1d,,
以下阐明示例预定义规则:

【权利要求】
1.一种方法,包括: 识别被包括在非结构化文本文档中的事件的属性,每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性; 为每个所识别的属性生成文档特征; 将多个分类器中至少之一应用于每个所生成的文档特征,之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性; 使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值,所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性; 组合与所识别的属性相关联的多个所计算的概率值,以生成分类评分;和至少部分基于所述分类评分而从非结构化文本文档将事件和所识别的属性表示成结构化格式。
2.根据权利要求1所述的方法,此外包括: 将来自多个预定义规则的至少一个规则应用于每个所识别的属性;和基于所述至少一个规则来确定每个所识别的属性是否类似于被包括在预定义属性集合中的至少一个事件属性。
3.根据权利要求1所述的方法,此外包括: 使用至少一个置信度模型来向事件分配置信度评分; 比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分;和 基于所述比较以结构化格式从非结构化文本文档表示事件和所识别的属性。
4.根据权利要求3所述的方法,其中识别事件的属性包括规格化非结构化文本文档。
5.根据权利要求4所述的方法,其中规格化非结构化文本文档包括: 识别被包括在非结构化文本文档中的候选属性; 将唯一识别符与候选属性相关联; 比较所述候选属性与预定义事件属性中的每一个;和 基于所述比较来存储所述预定义事件属性中至少之一、所述候选属性和所述唯一识别符。
6.根据权利要求5所述的方法,其中所述候选属性是关键词、字母序列、数字和字符之一,所述候选属性是在金融领域中所定义的。
7.根据权利要求3所述的方法,此外包括: 识别邻近和包括事件的一部分非结构化文本,该部分非结构化文本具有用户可配置的文本大小; 通过对从该部分非结构化文本所得到的所有N元计数求平均值来计算与事件相关联的置信度评分; 比较所计算的与事件相关联的置信度评分和与被包括在预定义事件属性集合中的至少一个事件属性相关联的在先估计平均值;和基于所述比较向事件分配置信度评分。
8.根据权利要求7所述的方法,此外包括如果置信度评分超过阈值,则确定被包括在该部分非结构化文本中的候选属性是否很可能要由在非结构化文本的第一语料库上所训练的模型M识别,非结构化文本的所述第一语料库是被确定为对于事件属性是真阳性的一部分非结构化文本。
9.根据权利要求8所述的方法,其中由在非结构化文本的第一语料库上所训练的模型M识别所述候选属性的似然性通过以下公式计算:
其中P#en.*f(nl是在非结构化文本的第一语料库上所训练的模型M生成η元η的概率并且通过以下公式计算:
其中SO是计算出O出现η元的古德图灵平滑函数。
10.根据权利要求9所述的方法,其中如果所计算的候选属性似然性小于与在非结构化文本的第一语料库上所训练的模型相关联的阈概率值,则使所计算的置信度评分的值变小。
11.根据权利要求9所述的方法,此外包括: 将二进制分类器应用于该部分非结构化文本; 如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阳性的,则为候选属性增大所计算的置信度评分;和 如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阴性的,则为候选属性减小所计算的置信度评分。
12.根据权利要求1所述的方法,其中概率估计模型使用保序回归或概率估计方式并且所生成的分类评分是多个所计算的概率值的加权线性组合。
13.根据权利要求1所述的方法,其中为每个所识别的属性生成文档特征包括将多个特征生成方案应用于所识别的属性。
14.根据权利要求13所述的方法,包括至少从方案的以下组中选择所述多个特征生成方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。
15.根据权利要求14所述的方法,其中应用词袋特征生成方案包括: 为在该部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征;和 基于所述单词、短语或经规格化的文本中的每一个分别在该部分非结构化文本中所出现的次数来向所生成的文档特征分配特征值。
16.根据权利要求14所述的方法,其中应用最远距离/最近距离特征生成方案包括:从与预定义事件属性集合相关联的多个预定义文本识别与所识别的属性之一邻近的文本; 为所识别的邻近文本生成文档特征;和向所生成的文档特征分配特征值,所述特征值表示在所识别的邻近文本和所识别的属性之一之间的空间距离。
17.根据权利要求14所述的方法,其中应用之前或之后特征生成方案包括: 识别与所识别的属性之一邻近的文本; 为所识别的邻近文本生成文档特征; 如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之后,则向所生成的文档特征分配第一特征值; 如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之前,则向所生成的文档特征分配第二特征值;和 如果所识别的邻近文本没有被包括在与预定义事件属性集合相关联的多个预定义文本中,则向所生成的文档特征分配第三特征值。
18.根据权利要求14所述的方法,其中应用存在限定符特征生成方案包括: 识别被包括在该部分非结构化文本中的限定符文本; 为所识别的限定符文本生成文档特征;和 向所生成的文档特征 分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
19.根据权利要求14所述的方法,其中应用存在定界符特征生成方案包括: 识别被包括在该部分非结构化文本中的定界符; 为所识别的定界符生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。
20.根据权利要求14所述的方法,其中应用数值-值-阈特征生成方案包括: 识别被包括在该部分非结构化文本中的数字事件属性; 为所识别的数字事件属性生成文档特征; 比较所述数字事件属性与预定义阈值;和 基于所述比较向所生成的文档特征分配特征值。
21.根据权利要求14所述的方法,其中应用N元特征生成方案包括: 识别被包括在该部分非结构化文本中的每个唯一 N元; 为每个所识别的N元生成文档特征; 基于每个所识别的唯一N元在该部分非结构化文本中所出现的频率来向所生成的文档特征分配特征值。
22.根据权利要求14所述的方法,其中应用标题词特征生成方案包括: 识别与所识别的属性之一邻近的文本; 为所识别的邻近文本生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示所识别的邻近文本是否被包括在与非结构化文本文档相关联的标题和与预定义事件属性集合相关联的多个预定义文本中。
23.根据权利要求14所述的方法,其中应用上下文中时期特征生成方案包括: 从非结构化文本文档的上下文识别依赖时期的属性,所述上下文由与非结构化文本文档相关联的标题或与非结构化文本文档相关联的元数据定义; 为所述依赖时期的属性生成文档特征;和 如果所述依赖时期的属性被包括在该部分非结构化文本中,则向所生成的文档特征分配第一特征值。
24.根据权利要求14所述的方法,其中应用最近单匹配标签特征生成方案包括: 为在该部分非结构化文本中最接近于所识别的属性的邻近文本生成文档特征; 基于与所识别的属性最接近的邻近文本的数字索引来向所生成的文档特征分配第一特征值。
25.根据权利要求14所述的方法,其中应用基于数值的属性的值的对数特征生成方案包括: 识别被包括在该部分非结构化文本中的数字事件属性; 为所识别的数字事件属性生成文档特征;和 基于所述数字事件属性的对数向所生成的文档特征分配特征值。
26.根据权利要求1所述的方法,此外包括使用多个特征生成方案、各自包括至少一个候选事件的训练文档集合和预定义事件属性集合来训练所述多个分类器。
27.根据权利要求26所述的方法,包括: 通过加标签于被包括在每个训练文档中的多个信息来规格化训练文档集合的每个文档,所述多个标签信息与金融领域相关联并且多个标签信息中的每一个在每个训练文档之内被分配唯一识别符; 从用户界面接收信号,所述信号指示多个标签信息中至少之一对应于预定义事件属性集合之一;和 响应于接收信号,存储所述唯一识别符和对应的预定义事件属性作为对。
28.根据权利要求27所述的方法,此外包括提供用户界面用于显示每个经规格化的文档和多个标签信息。
29.根据权利要求27所述的方法,包括: 比较被包括在所述对中的对应的事件属性与预定义事件属性集合中的每一个;和 基于所述比较,确定所述对对于每个预定义事件属性是表示阳性示例还是阴性示例。
30.根据权利要求29所述的方法,包括通过将多个特征生成方案应用于与至少一个候选事件邻近的至少一部分标签信息来为每个所确定的阳性示例和阴性示例生成至少一个文档特征,其中该部分标签信息具有用户可配置的文本大小。
31.根据权利要求30所述的方法,其中为每个所确定的阳性示例和阴性示例生成至少一个文档特征包括将多个特征生成方案分别应用于阳性示例和阴性示例。
32.根据权利要求31所述的方法,包括至少从方案的以下组中选择所述多个特征生成方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。
33.根据权利要求32所述的方法,其中应用词袋特征生成方案包括: 为在包括标签信息的一部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征;和基于所述单词、短语或经规格化的文本中的每一个分别在包括标签信息的该部分非结构化文本中所出现的次数来向所生成的文档特征分配特征值。
34.根据权利要求32所述的方法,其中应用最远距离/最近距离特征生成方案包括: 比较标签信息和与预定义事件属性集合相关联的多个预定义文本; 基于所述比较为所述标签信息生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示在所述标签信息和所述至少一个候选属性之间的空间距离。
35.根据权利要求32所述的方法,其中应用之前或之后特征生成方案包括; 比较标签信息和与预定义事件属性集合相关联的多个预定义文本; 基于所述比较为所述标签信息生成文档特征; 如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在该部分非结构化文本中出现在所述至少一个候选属性之后,则向所生成的文档特征分配第一特征值; 如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在该部分非结构化文本中出现在所述至少一个候选属性之前则向所生成的文档特征分配第二特征值;和 如果标签信息没有被包括在与所述预定义事件属性集合相关联的多个预定义文本中,则向所生成的文档特征分配第三特征值。
36.根据权利要求32所述的方法,其中应用存在限定符特征生成方案包括: 识别被包括在该部分非结构化文本中的限定符文本; 为所识别的限定符文本生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
37.根据权利要求32所述的方法,其中应用存在定界符特征生成方案包括: 识别被包括在该部分非结构化文本中的定界符; 为所识别的定界符生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。
38.根据权利要求32所述的方法,其中应用数值-值-阈特征生成方案包括: 识别被包括在该部分非结构化文本中的数字事件属性; 为所识别的数字事件属性生成文档特征; 比较数字事件属性与预定义阈值;和 基于所述比较向所生成的文档特征分配特征值。
39.根据权利要求32所述的方法,其中应用N元特征生成方案包括: 识别被包括在该部分非结构化文本中的每个唯一 N元; 为每个所识别的N元生成文档特征; 基于每个所识别的唯一N元在该部分非结构化文本中所出现的频率来向所生成的文档特征分配特征值。
40.根据权利要求32所述的方法,其中应用标题词特征生成方案包括:为标签信息生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示所述标签信息是否被包括在与非结构化文本文档相关联的标题中和被包括在与预定义事件属性集合相关联的多个预定义文本中。
41.根据权利要求32所述的方法,其中应用上下文中时期特征生成方案包括: 从非结构化文本文档的上下文识别依赖时期的属性,所述上下文由与非结构化文本文档相关联的标题和与非结构化文本文档相关联的元数据之一所定义; 为所述依赖时期的属性生成文档特征;和 如果所述依赖时期的属性被包括在该部分非结构化文本中,则向所生成的文档特征分配第一特征值。
42.根据权利要求32所述的方法,其中应用最近单匹配标签特征生成方案包括: 为在该部分非结构化文本中最接近于所述至少一个候选属性的标签信息生成文档特征;和 基于与所述至少一个候选属性最接近的标签信息的数字索引来向所生成的文档特征分配第一特征值。
43.根据权利要 求32所述的方法,其中应用基于数值的属性的值的对数特征生成方案包括: 识别被包括在该部分非结构化文本中的数字事件属性; 为所识别的数字事件属性生成文档特征;和 基于所述数字事件属性的对数来向所生成的文档特征分配特征值。
44.一种系统,包括: 包括处理器和存储器的服务器,所述存储器存储指令,所述指令响应于接收用于访问服务的第一请求,使处理器: 识别被包括在非结构化文本文档中的事件的属性,每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性; 为每个所识别的属性生成文档特征; 将多个分类器中至少之一应用于每个所生成的文档特征,之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性; 使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值,所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性; 组合与所识别的属性相关联的多个所计算的概率值以生成分类评分;和至少部分基于所述分类评分,从非结构化文本文档将事件和所识别的属性提取成结构化格式。
45.根据权利要求44所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 将来自多个预定义规则的至少一个规则应用于每个所识别的属性;和基于所述至少一个规则,确定每个所识别的属性是否类似于被包括在预定义属性集合中的至少一个事件属性。
46.根据权利要求44所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 使用至少一个置信度模型向事件分配置信度评分; 比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分;和 基于所述比较,以结构化格式从非结构化文本文档提取事件和所识别的属性。
47.根据权利要求46所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器规格化非结构化文本文档。
48.根据权利要求47所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 识别被包括在非结构化文本文档中的候选属性; 关联唯一识别符与所述候选属性; 比较所述候选属性与预定义事件属性集合中的每一个;和 基于所述比较,存储预定义事件属性中至少之一、所述候选属性、和所述唯一识别符。
49.根据权利要求48所述的系统,其中所述候选属性是关键词、字母序列、数字和字符之一,所述候选属性是在金融领域中所定义的。
50.根据权利要求46所 述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 识别邻近和包括事件的一部分非结构化文本,其中该部分非结构化文本具有用户可配置的文本大小; 通过对从该部分非结构化文本所得到的所有N元计数求平均值来计算与事件相关联的置信度评分; 比较所计算的与事件相关联的置信度评分和与被包括在预定义事件属性集合中的所述至少一个事件属性相关联的在先估计平均值;和 基于所述比较,向事件分配置信度评分。
51.根据权利要求50所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:如果所述置信度评分超过阈值,则确定被包括在该部分非结构化文本中的候选属性是否很可能要由在非结构化文本的第一语料库上所训练的模型M识别,其中非结构化文本的第一语料库是被确定为对于所述事件属性是真阳性的一部分非结构化文本。
52.根据权利要求51所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器通过以下公式计算所述候选属性由在非结构化文本的第一语料库上所训练的模型M识别的似然性Pm(C):
其中m—,v(n}是在非结构化文本的第一语料库上所训练的模型M生成η元η的概率并且由以下公式计算:
其中SO是计算出O出现η元的古德图灵平滑函数。
53.根据权利要求52所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:如果所计算的候选属性似然性小于与在非结构化文本的第一语料库上所训练的模型相关联的阈概率值,则使所计算的置信度评分的值变小,使所计算的置信度评分的值变小。
54.根据权利要求52所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 将二进制分类器应用于该部分非结构化文本; 如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阳性的,则为所述候选属性增大所计算的置信度评分;和 如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阴性的,则为所述候选属性减小所计算的置信度评分。
55.根据权利要求44所述的系统,其中所述概率估计模型使用保序回归或概率估计方式并且所生成的分类评分是多个所计算的概率值的加权线性组合。
56.根据权利要求44所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器将多个特征生成方案应用于所识别的属性来为每个所识别的属性生成特征,包括将多个特征生成方案应用于所识别的属性。
57.根据权利要求56所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器至少从方案的以下组中选择所述多个特征生成方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。
58.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 为在该部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征;和 基于所述单词、短语或经规格化的文本中的每一个分别在该部分非结构化文本中所出现的次数来向所生成的文档特征分配特征值。
59.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 从与预定义事件属性集合相关联的多个预定义文本识别与所识别的属性之一邻近的文本; 为所识别的邻近文本生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示在所识别的邻近文本和所识别的属性之一之间的空间距离。
60.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 识别与所识别的属性之一邻近的文本; 为所识别的邻近文本生成文档特征; 如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之后,则向所生成的文档特征分配第一特征值; 如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在该部分非结构化文本中出现在所识别的属性之前,则向所生成的文档特征分配第二特征值;和 如果所识别的邻近文本没有被包括在与预定义事件属性集合相关联的多个预定义文本中,则向所生成的文档特征分配第三特征值。
61.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 识别被包括在该部分非结构化文本中的限定符文本; 为所识别的限定符文本生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
62.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 识别被包括在该部分非结构化文本中的定界符; 为所识别的定界符 生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。
63.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 识别被包括在该部分非结构化文本中的数字事件属性; 为所识别的数字事件属性生成文档特征; 比较所述数字事件属性与预定义阈值;和 基于所述比较向所生成的文档特征分配特征值。
64.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 识别被包括在该部分非结构化文本中的每个唯一 N元; 为每个所识别的N元生成文档特征; 基于每个所识别的唯一 N元在该部分非结构化文本中所出现的频率,向所生成的文档特征分配特征值。
65.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 识别与所识别的属性之一邻近的文本; 为所识别的邻近文本生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示所识别的邻近文本是否被包括在与非结构化文本文档相关联的标题和与预定义事件属性集合相关联的多个预定义文本中。
66.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 从非结构化文本文档的上下文识别依赖时期的属性,所述上下文由与非结构化文本文档相关联的标题或与非结构化文本文档相关联的元数据定义; 为所述依赖时期的属性生成文档特征;和 如果所述依赖时期的属性被包括在该部分非结构化文本中,则向所生成的文档特征分配第一特征值。
67.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 为在该部分非结构化文本中最接近于所识别的属性的邻近文本生成文档特征; 向所生成的文档特征分配第一特征值。
68.根据权利要求57所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 识别被包括在该部分非结构化文本中的数字事件属性; 为所识别的数字事件属性生成文档特征;和 基于所述数字事件属性的对数,向所生成的文档特征分配特征值。
69.根据权利 要求44所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器使用多个特征生成方案、各自包括至少一个候选事件的训练文档集合和预定义事件属性集合来训练所述多个分类器。
70.根据权利要求69所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器: 通过加标签于被包括在每个训练文档中的多个信息来规格化训练文档集合的每个文档,所述多个标签信息与金融领域相关联并且所述多个标签信息中的每一个在每个训练文档内被分配唯一识别符;和 响应于从用户界面接收信号,存储所述唯一识别符和所述对应预定义事件属性作为对,所述信号指示所述多个标签信息中至少之一对应于预定义事件属性集合之一。
71.根据权利要求71所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器提供用户界面,用于显示每个经规格化的文档和多个标签信息。
72.根据权利要求70所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器: 比较被包括在所述对中的对应事件属性与预定义事件属性集合中的每一个;和 基于所述比较,确定所述对对于每个预定义事件属性是表示阳性示例还是阴性示例。
73.根据权利要求72所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器通过将多个特征生成方案应用于与所述至少一个候选事件邻近的至少一部分标签信息来为每个所确定的阳性示例和阴性示例生成至少一个文档特征,其中该部分标签信息具有用户可配置的文本大小。
74.根据权利要求73所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器将多个特征生成方案应用于所述阳性示例和所述阴性示例来为每个所确定的阳性示例和阴性示例生成所述至少一个特征。
75.根据权利要求74所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器至少从以下组中选择所述多个特征生成方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。
76.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器: 为在包括标签信息的一部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征;和 基于所述单词、短语或经规格化的文本中的每一个分别在包括标签信息的该部分非结构化文本中所出现的次数,向所生成的文档特征分配特征值。
77.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器: 比较标签信息和与预定义事件属性集合相关联的多个预定义文本; 基于所述比较,为标签信息生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示在标签信息和所述至少一个候选属性之间的空间距离。
78.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器: t匕较标签信息和与预定义 事件属性集合相关联的多个预定义文本; 基于所述比较,为标签信息生成文档特征; 如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在该部分非结构化文本中出现在所述至少一个候选属性之后,则向所生成的文档特征分配第一特征值; 如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在该部分非结构化文本中出现在所述至少一个候选属性之前,则向所生成的文档特征分配第二特征值; 如果所述标签信息没有被包括在与预定义事件属性集合相关联的多个预定义文本中,则向所生成的文档特征分配第三特征值。
79.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器: 识别被包括在该部分非结构化文本中的限定符文本; 为所识别的限定符文本生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。
80.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器: 识别被包括在该部分非结构化文本中的定界符; 为所识别的定界符生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。
81.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器:识别被包括在该部分非结构化文本中的数字事件属性; 为所识别的数字事件属性生成文档特征; 比较所述数字事件属性与预定义阈值;和 基于所述比较,向所生成的文档特征分配特征值。
82.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器: 识别被包括在该部分非结构化文本中的每个唯一 N元; 为每个所识别的N元生成文档特征; 基于每个所识别的唯一 N元在该部分非结构化文本中所出现的频率,向所生成的文档特征分配特征值。
83.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器: 为标签信息生成文档特征;和 向所生成的文档特征分配特征值,所述特征值表示所述标签信息是否被包括在与非结构化文本文档相关联的标题中和被包括在与预定义事件属性集合相关联的多个预定义文本中。
84.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器: 从非结构化文本文档的上下文识别依赖时期的属性,所述上下文由与非结构化文本文档相关联的标题和与非结构化文本文档相关联的元数据之一定义; 为所述依赖时期的属性生成文档特征;和 如果所述依赖时期的属性被包括在该部分非结构化文本中,则向所生成的文档特征分配第一特征值。
85.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器: 为在该部分非结构化文本中最接近于所述至少一个候选属性的标签信息生成文档特征;和 向所生成的文档特征分配第一特征值。
86.根据权利要求75所述的系统,其中所述存储器存储指令,所述指令响应于接收第二请求,使处理器: 识别被包括在该部分非结构化文本中的数字事件属性; 为所识别的数字事件属性生成文档特征;和 基于所述数字事件属性的对数,向所生成的文档特征分配特征值。
87.—种系统,包括 用于识别被包括在非结构化文本文档中的事件的属性的识别装置,每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性; 用于为每个所识别的属性生成文档特征的特征生成装置; 用于将多个分类器中至少之一应用于每个所生成的特征的应用装置,之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性;用于使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值的计算装置,所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性; 用于组合多个所计算的与所识别的属性相关联的概率值以生成分类评分的组合装置;和 用于至少部分基于所述分类评分从非结构化文本文档将事件和所识别的属性表示成结构化格式的表示装置。
88.一种方法,包括: (1)访问非结构化文本文档以识别事件和与所述事件相关联的属性集合,所述属性集合与预定义事件属性集合有关; (2)生成与所述属性集合相关联的文档特征集合,所述文档特征集合具有比所述属性集合更高数目的集合元素; (3)对于在所述文档特征集合中的第一文档特征: a.生成第一分类器评分,所述第一分类器评分是利用之前已经使用预定义事件属性集合训练的分类器被生成的;和 b.基于所述第一分类器评分,使用概率估计模型来计算第一概率值,所述第一概率值指示来自事件属性集合的第一事件属性对应于预定义事件属性集合的似然性; (4)对于在所述文档特征集合中的第二文档特征: a.生成第二分类器评分,所述第二分类器评分是利用所述分类器被生成的;和 b.基于所述第二分类器评分,使用概率估计模型来计算第二概率值,所述第二概率值指示来自事件属性集合的第二事件属性对应于预定义事件属性集合的似然性; (5)使用第一概率值和第二概率值来生成分类评分; (6)基于所述分类评分,从非结构化文本文档,将事件和属性集合表示成结构化格式。
【文档编号】G06F17/27GK104081385SQ201280032515
【公开日】2014年10月1日 申请日期:2012年4月25日 优先权日:2011年4月29日
【发明者】H.H.马利克, V.S.巴瓦, H.菲奥尔勒塔, A.拉法特 申请人:汤姆森路透社全球资源公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1