利用自动规则生成的非结构化数据支持的制作方法

文档序号:6424034阅读:211来源:国知局
专利名称:利用自动规则生成的非结构化数据支持的制作方法
技术领域
此申请涉及数据处理领域,并且具体地,涉及用于自动地生成用于非结构化数据的语言规则的方法和系统。
背景技术
非结构化数据是指要么不具有数据结构要么具有不能由计算机程序容易地使用的数据结构的计算机化信息。非结构化数据可以来源于诸如,例如电子邮件、网站、财务报告等等的多个源。非结构化数据因此可以与结构化数据或者半结构化数据形成对比,所述结构化数据诸如以基于域(field-based)的格式存储在数据库中的信息,所述半结构化数据是在电子文档中被注释(例如,被进行了语义标注的)的数据。同时,研究表明在所有潜在可用的商业信息当中很大百分比是以非结构化的形式生成的,比如在电子邮件,网页、财务报告等等中。 一些现有的系统能够从非结构化数据源提取已经识别为与预定种类相关联的信息。一些系统甚至允许处理包含外文文本的非结构化数据。可以使用语言规则处理非结构化数据。然而一个挑战是检测和提取不同数据类型的数据实例可能需要特定的语言规则。例如,可能需要编写一组特定语言规则以处理包含不动产的描述的非结构化数据,而可能需要编写一组不同的特定语言规则以处理包含本地商业新闻的非结构化数据。语言规则写作会是复杂的过程,其需要特殊技能和一般在商业用户的专业知识范围之外的知识。

发明内容
根据本发明的一个方面,提供一种计算机实现的系统,其包括接收器,用于访问非结构化数据的源;实体类型模块,用于确定实体类型;规则生成器,用于基于确定的实体类型自动地生成语言规则;以及实体提取器,用于使用语言规则从非结构化数据的源获得实体,所述实体包括字母数字串。根据本发明的另一方面,提供一种计算机实现的方法,包括使用一个或多个处理器执行如下操作访问非结构化数据的源;确定实体类型;基于确定的实体类型自动地生成语言规则;以及将该语言规则提供给实体提取器以使用所述语言规则从非结构化数据的源获得实体,所述实体包括字母数字串。根据很发明的另一方面,提供一种机器可读的非暂时性存储介质,其具有导致机器执行如下操作的指令数据访问非结构化数据的源;确定实体类型;以及基于确定的实体类型自动地生成语言规则,所述语言规则适于从非结构化数据的源获得实体,所述实体包括字母数字串。


以示例的方式示出本发明的实施例,但并不限于附图中的图形,附图中相似的参考标号指示相似的元件,其中
图I是根据一个示例实施例的可以在其中实现用于处理非结构化数据的系统的网络环境的图示;图2是根据一个示例实施例的用于处理非结构化数据的系统的框图;图3是根据一个示例实施例的用于处理非结构化数据的方法的流程图;图4是根据一个示例实施例的非结构化数据的源的图示;图5是根据一个示例实施例的选择视图的图示;图6是根据一个示例实施例的基于经处理的非结构化数据而生成的报告的图示;以及图7是采用其中可以运行指令的计算机系统的形式的示例机器的图示,所述指令用于使机器执行在此讨论的任何一个或多个方法。
具体实施例方式在下面的描述中,出于解释的目的,阐述许多特定细节以便提供对一些示例实施例的全面理解。然而,对本领域技术人员来说,很显然没有这些特定细节也可以实践本发明的实施例。可以提供计算机实现的方法和系统以基于选择的实体类型自动地生成用于处理非结构化数据的语言规则。在本描述的上下文中,短语“实体类型”是指字母-数字信息的类型或种类。被识别为与实体类型相关联并且因此从非结构化数据源被提取的特定的字母-数字串可以称为实体。在一个示例实施例中,用于利用自动规则生成来处理非结构化数据的系统组合了文本分析和企业报告技术的特征,并且允许用户基于他们的非结构化数据输入来报告信息。通过使用基于一个或多个实体类型自动生成的语言规则来提取实体。语言规则是使用正则表达式和语言学属性编写的语句,所述正则表达式和语言学属性定义用于非结构化数据的源之内的实体、事件和关系的模式。语言规则可以被编写(例如,使用计算机实现的开发工具来编写或者根据此处描述的一些实施例自动地编写)、编译并且使其可用于提取引擎(extraction engine),该提取引擎可以被提供有在计算机系统上运行的应用。可以将所述提取引擎配置为基于语言规则从非结构化数据的源识别并且提取信息。实体类型可以是预定义的实体类型。预定义实体类型可以包括,例如,在与各种各样的主题(topic)相关的非结构化数据的源中通常出现的实体类型。这种常见的实体类型(为了本描述的目的,也被称为通用实体类型)的示例是地址、日期、电子邮件、电话等等。在下面的表I中示出了与可能出现在非结构化数据的源中的地址信息以及用于实体类型地址的语言规则有关的示例文本。表I
Address: 555 Fifth Ave, New York, NY
#group Address: ([TE ADDRESS|FACILITY@PATH]<>+[/TE])
(<((a|A)t|(n|N)ear)> ([TE
ADDRES S |FACILITY@PATH]<>+[/TE]))
在下面的表2中示出了与可能出现在非结构化数据信息的源中的日期以及用于实体类型日期的语言规则有关的示例文本。表权利要求
1.一种计算机实现的系统,包括 接收器,用于访问非结构化数据的源; 实体类型模块,用于确定实体类型; 规则生成器,用于基于确定的实体类型自动地生成语言规则;以及 实体提取器,用于使用语言规则从非结构化数据的源获得实体,所述实体包括字母数字串。
2.如权利要求I所述的系统,包括提供选择视图的选择视图模块,所述选择视图显示实体类型。
3.如权利要求2所述的系统,其中 所述选择视图包括用于接收用户提供的关键字的输入区;以及 所述实体类型是基于用户提供的关键字的定制实体类型。
4.如权利要求2所述系统,其中,所述选择视图将呈现用于选择实体类型的选择控制。
5.如权利要求4所述系统,其中,所述实体类型是先前存储的通用实体类型。
6.如权利要求4所述系统,其中,所述选择视图将呈现关于实体类型与非结构化数据的源中的数据的相关度的信息。
7.如权利要求4所述系统,其中,所述选择视图将呈现关于实体类型在非结构化数据的源中出现的频率的信息。
8.如权利要求I所述的系统,包括提供报告视图的报告模块,所述报告视图用于在显示设备上绘制实体。
9.如权利要求I所述系统,其中,所述非结构化数据的源是网页。
10.如权利要求I所述系统,其中,所述非结构化数据的源是电子邮件。
11.一种计算机实现的方法,包括 使用一个或多个处理器执行如下操作 访问非结构化数据的源; 确定实体类型; 基于确定的实体类型自动地生成语言规则;以及 将该语言规则提供给实体提取器以使用所述语言规则从非结构化数据的源获得实体,所述实体包括字母数字串。
12.如权利要求11所述方法,包括提供选择视图,所述选择视图用于显示实体类型。
13.如权利要求12所述的方法,包括经由选择视图中的输入区接收用户提供的关键字,其中,所述实体类型的确定包括基于用户提供的关键字生成定制实体类型。
14.如权利要求12所述方法,包括使用选择视图呈现用于选择实体类型的选择控制。
15.如权利要求14所述方法,其中,所述实体类型的确定包括访问先前存储的通用实体类型。
16.如权利要求14所述方法,包括使用选择视图呈现关于实体类型与非结构化数据的源中的数据的相关度的信息。
17.如权利要求14所述方法,包括使用选择视图呈现关于实体类型在非结构化数据的源中出现的频率的信息。
18.如权利要求11所述的方法,包括提供报告视图,所述报告视图用于在显示设备上绘制实体。
19.如权利要求11所述方法,其中,所述非结构化数据的源是网页。
20.一种机器可读的非暂时性存储介质,其具有导致机器执行如下操作的指令数据 访问非结构化数据的源; 确定实体类型;以及 基于确定的实体类型自动地生成语言规则,所述语言规则适于从非结构化数据的源获得实体,所述实体包括字母数字串。
全文摘要
提供一种用于处理非结构化数据的系统。一种用于处理非结构化数据的示例系统包括接收器,用于访问非结构化数据的源;实体类型模块,用于确定实体类型;规则生成器,用于基于确定的实体类型自动地生成语言规则;以及实体提取器,用于使用语言规则从非结构化数据的源获得实体。所述实体包括字母-数字串。
文档编号G06F17/22GK102779114SQ20111012209
公开日2012年11月14日 申请日期2011年5月12日 优先权日2011年5月12日
发明者刘靖, 熊务真, 郑健豪 申请人:商业对象软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1