提供信息管理的制作方法

文档序号:6352473阅读:215来源:国知局
专利名称:提供信息管理的制作方法
提供信息管理
背景技术
企业利用商业智能(BI)技术来做出战略和战术决策。在很多情况下,决策环可能持续几周的时间周期,诸如在活动管理方面,或者可能持续数月的时间周期,诸如在提高客户满意度方面。然而,竞争压力迫使公司要做出更快的反应,以快速的改变营业状况和客户需求。因此,越来越渴望利用商业智能来协助每天(在一些情况下近乎实时)获得并优化经营活动。这种类型的商业智能被称作操作型商业智能。在传统的商业智能体系中,利用数据提取、转换和装载的应用程序来从包括结构化数据源和非结构化数据源的多种数据源中收集企业的交易数据。处理所收集的数据,例如,从非结构化数据中提取语义,并且将该数据作为结构化数据载入数据仓库中。用户然后可以对数据仓库运行查询,产生来自数据仓库的报告等。将结构化数据和非结构化数据集成到公用数据存储库中的处理能够掩盖结构化数据和非结构化数据之间的数据质量差异。查询这种数据将产生质量几乎为最低标准的结果,进而破坏通常与结构化数据相关的高数据质量。另外,从非结构化数据源中提取语义的过程可能是不完整的,并且其可能使结构化数据和非结构化数据之间的联合运算失真而导致错误结果。


在以下的具体描述中并结合附图描述某些示例性实施例,其中:图1是根据本发明实施例的被配置为集成来自不同数据质量的数据源的数据的系统的框图。图2是根据本发明实施例的用于在处理不同数据源之间的数据质量差异的同时提供实时商业智能的图1的更详细框图。图3是根据本发明实施例的用于集成来自不同数据质量的多个数据源的数据的方法的处理流程图。图4是根据本发明实施例的示出存储用于集成来自不同数据质量的数据源的数据的代码的非临时性计算机可读介质的框图。
具体实施例方式本发明各实施例提供来自不同数据质量的数据源的数据的集成。根据各实施例,提供一种对所集成的结构化数据和非结构化数据执行实时信息管理的新模式。通过将准确性概率与从不同数据源提取的事实相关联来处理数据质量。今天,大部分自然语言处理(NLP)引擎是以规则和语法为基础的。然而,存在新一代概率的或随机的NLP引擎(pNLP),其可以基于事实的准确性概率从非结构化文本中提取事实。PNLP引擎可以确定与文件的文字相关的一个或多个可能的含义,将不同的概率与每个可能的含义相关联,并且返回具有最高准确性概率的含义。事实的准确性指的是从文件中提取的事实是否正确地传达了该文件的作者所意指的含义并且是否会被该文件的读者所理解。换句话说,具有高概率度的事实由于例如就将数据输入文件的人而言的人为失误而实际上可能仍然是错误的。然而,该事实在其向文件的读者传达与之相关的含义的意义上来说却是“准确的”。传统的PNLP计算所给文字的可能含义的概率,选择具有最高概率的含义,并且返回具有最高概率的含义作为事实。根据各实施例,修改PNLP引擎,以将文字的所有不同含义与它们的对应概率一起导出。可以以在本文中被称为“元组”的数据格式来表示PNLP引擎所返回的每个事实。每个元组包括事实是准确的对应概率。从结构化数据和非结构化数据产生的元组可以被组合到集成数据集中,然后可以利用其中客户可以指定他们答案的预期准确度的信息模型来对元组进行查询。信息模型可以将可能的不同答案与相关联的准确性概率一起返回。在这个模型中,来自低质量数据和高质量数据的混合数据将不会影响答案质量。即可以从结构化数据源又可以从非结构化数据源中收集信息。从结构化数据源收集的信息可以与信息是准确的高概率度(例如100%)相关联。从非结构化数据源收集的信息的数据质量通常容易变化。因此,不同的概率可以与从不同的非结构化数据源返回的不同的元组相关联。这些元组和它们的关联概率可以被存储到公用数据存储区。利用概率作为结果的属性的查询语言可以应用于该公用数据存储区。另外,模糊推理也可以应用于该公用数据存储区,以获得若干个可能的答案,答案中的每一个具有关联的准确性概率。根据各实施例的信息模型提供比现有信息模型更多的数据,这是因为其揭示了来自同一数据集的更多信息。在各实施例中,利用信息管理系统来提供实时的操作型商业智能。该信息管理系统使能够以并行方式直接从多个操作型数据源收集具体数据,作为对诸如查询或报告请求等的被请求的商业智能客户端操作的响应。通过这种方法,整个企业网络上的数据可以直接从这些数据的数据源实时访问,而不是仅仅依靠已经被事先存储到数据仓库的数据。图1是根据本发明各实施例的被配置为提供一种新的用于实时操作型商业智能的信息模型的系统的框图。该系统大体上以附图标记100来表示。如图1所示,系统100可以包括计算设备102,计算设备102可以被视为运行诸如Linux或Windows的传统操作系统的传统服务器集群。计算设备102可以包括一个或多个处理部件(PE) 104。例如,除其它配置之外,计算设备102还可以包括中央处理单元(CPU)或者对称式多处理器(SMP)集群。处理部件104运行用于从企业中的不同数据源收集相关数据的专门应用软件。在实施例中,计算设备102是通用计算设备,例如一个或多个处理部件104集群。计算设备102能够可操作地联接到企业网络108,企业网络108可以是局域网(LAN)、广域网(WAN)或者另一个网络结构。计算设备102通过企业网络108可以访问多种操作型数据源110,多种操作型数据源110包括结构化数据源和非结构化数据源,诸如数据仓库112、数据集市、客户关系管理(CRM)系统118、企业资源计划(ERP)系统114和文件存储库120等。数据集市是被配置为支持企业中部门的商业需求的数据存储系统,诸如数据库。如在本文中所使用的,术语“结构化数据”指代其中所存储的数据的语义被明确定义的数据。例如,结构化数据源包括关系数据库和XML数据库等。术语“非结构化数据”用于指代其中数据的语义未被明确定义的数据源。例如,非结构化数据可以指代纯文本文件、扫描文件、ADOBE 可携式文档文件(PDF)、Microsoft Word文件。术语“非结构化数据”在本文中还指代其中数据的语义(例如使用元数据标签)被编码的半结构化数据。半结构化文件的示例包括可扩展标记语言(XML)文档和超文本标记语言(HTML)文档等等。在各实施例中,系统100包括用于管理内部资源和外部资源的企业资源计划(ERP)系统114,内部资源和外部资源例如为财政资源、人力资源、材料、器材以及其他有形和无形资产。企业资源计划系统114可以用于提供企业未来商业计划(诸如计划的产品、月艮务和收购等)的策略,并且便于信息在整个企业流动以及协调企业的商业操作。系统100可以包括用于管理提供给终端客户的产品和服务的产量的供应链管理(SCM)系统116。供应链管理系统116可以用于跟踪和管理原材料、在制品存货和成品从供应商到客户的移动和存储。系统100还可以包括用于跟踪和管理与企业的客户、商业客户端和销售前景的关系的客户关系管理(CRM)系统118。例如,客户关系管理系统118可以用于保持跟踪销售活动、市场活动、客户服务互动、客户控诉和技术支持等。在各实施例中,系统100包括用于存储重要企业文件的一个或多个文件存储库120,重要企业文件例如为员工工作产品、技术论文、信件、合同、发票和法律文件等。存储到该文件存储库的文件可以包括ppt演不、电子邮件、PDF> Microsoft Word文件、电子表格和扫描文件等。本领域普通技术人员将领会,系统100的结构仅仅是可以在本发明实施例中实现的系统的一个示例。基于特定系统的设计考虑,本领域普通技术人员会能容易地定义具体设备、系统和操作型数据源110。计算设备102还包括信息管理系统122,信息管理系统122被配置为执行针对操作型数据源112的各种数据收集操作。可以以特定数据源特有的数据格式从每个操作型数据源112收集数据。可以通过一个或多个pNLP引擎执行从非结构化数据源收集数据的过程,该一个或多个PNLP引擎从非结构化数据源提取事实并且提供与各个事实相对应的关联概率。可以通过查询界面从结构化数据源收集数据,并且可以为这些数据分配事实是准确的高概率,例如100%。来自非结构化数据源和结构化数据源的数据与它们对应的概率可以被转换为通用的数据格式,并且被存储为组合数据结构,这使得能实现诸如概率查询或模糊推理的基于概率的商业智能操作。在各实施例中,信息管理系统122在处理诸如执行查询、产生报告、在线分析处理(OLAP)等的商业智能客户端请求的过程中执行数据收集操作。OLAP是用于快速回答多维分析查询的商业智能技术。信息管理系统122使能够响应于诸如查询或报告请求的被请求操作而以并行方式直接从多个操作型数据源收集具体数据。可以对所收集的数据执行被请求操作,并且可以将该操作的结果例如存储为数据结构和/或显示给用户。在各实施例中,信息管理系统122在更新数据仓库的过程中定期执行数据收集操作。然后可以对存储到数据仓库的数据执行商业智能操作。结合图2可以更好地理解信息管理系统122。图2是根据本发明实施例的信息管理系统的框图,该信息管理系统被配置为在如先前描述的处理数据质量的同时提供实时商业智能。信息管理系统122的各部件是可以支持专用硬件以优化执行的一组软件模块,专用硬件例如为固态硬盘(SSD)或现场可编程门阵列(FPGA)。在各实施例中,信息管理系统122的各部件可以在计算设备102中实现,如图1所示。信息管理系统122包括查询引擎209,查询引擎209用于产生被涉及的单个结构化数据源和单个非结构化数据源的相关查询。查询引擎209可以将商业智能客户端请求分解为针对结构化数据源和非结构化数据源的一组查询。查询引擎向对应的连接器204 (用于结构化数据源)和对应的连接器206 (用于非结构化数据源)产生合适的查询。连接器从对应的数据源112获得合适的数据。每个结构化数据源连接器204可以可操作地联接到对应的结构化数据源200,诸如关系数据库、XML数据库、数据仓库和数据集市等。连接器204可以被配置为利用其所联接到的特定结构化数据源200所特有的数据模型来执行对应的结构化数据源200的查询。例如,连接器204可以利用结构化查询语言(SQL)或XML数据库上的XQuery等执行数据库查询。每个非结构化数据源连接器206可以可操作地联接到非结构化数据源202,诸如文件存储库120 (图1)和客户关系管理(CRM)系统118等。非结构化数据源202中的一个或多个文件可以包括用于提供其中包含的数据(例如XML文档、HTML文档等)的语义的元数据标签。每个连接器206可以包括pNLP引擎208和搜索引擎210 (诸如语义搜索引擎)。非结构化数据源202可以可操作地联接到pNLP引擎208和搜索引擎210。非结构化数据源202中的一个或多个文件可以包括半结构化数据,诸如包括给用于提供其中所包含的数据(例如XML文档、HTML文档等)的语义的元数据标签。搜索引擎210可以执行非结构化数据源202的搜索。在确定从非结构化数据源202提取的各种事实的语义时,搜索引擎210可以考虑这些元数据标签。pNLP引擎208可以用于从包括纯文本的非结构化文件提取数据,该非结构化文件例如为MiciOSOftx Word文件、PDF文件和扫描文件等。非结构化数据源202的一些示例可以包括文件存储库120 (图1)、客户关系管理系统118等。pNLP引擎208可以通过分析特定主题内容中的测试文本文件的大型语料库而产生。pNLP引擎208可以基于相同文字在整个语料库和周围环境中的若干次出现,使用统计学或其他机器学习技术来确定文字可能的含义。在一些实例中,PNLP引擎208可以产生相同文字的可能的不同含义,在这种情况下,每个可能的含义可以与对应的概率相关联。pNLP引擎208可以用于从非结构化数据源202的文本中提取语义。pNLP引擎208使用从非结构化数据源202中提取的语义来产生一组元组,元组在本文中被称为“事实”。每个事实或者元组描述从非结构化数据源中提取的文字之间的关系,并且包括关系是准确的对应概率。在各实施例中,可以根据在本文中也被称为三元组的语义web格式,即由万维网联合会(W3C)规定的资源描述框架(RDF)来格式化事实。在各实施例中,RDF数据模型从三元组(主语、谓语、宾语)扩展到四元组(主语、谓语、宾语、概率值)。主语表示资源,谓语表示资源的特征或特点,并且表达主语和宾语之间的关系。该概率识别出通过PNLP引擎208所确定的事实是准确的概率。RDF四元组的示例包括主语“红”、谓语“颜色”、宾语“汽车”,以及80%的概率,其传达出汽车的颜色是红色具有80%的概率。在一些情况中,pNLP引擎208可以识别非结构化数据源202中相同文字的两个或多个可能含义。pNLP引擎208被配置为产生与这两个或更多个可能含义相对应的事实,并且将不同的概率关联到每个事实,而不是选择具有最高概率的可能含义。例如,假定来自非结构化数据源202的文本的相同部分,pNLP引擎208可以产生第一事实和第二事实,第一事实表示汽车的颜色是红色具有80%的概率,第二事实表示衣服的颜色是红色具有79%的概率。用于执行非结构化内容的搜索的特定技术可以根据存储到对应的非结构化数据源202的数据的特定类型而调整。此外,因为可以调节信息管理系统122,以容纳任何适当数量和类型的在特定实现中可以包括的数据源112,因此各实施例并不限于图2所示的数据源112的数量和类型。在各实施例中,信息管理系统122可以被配置为处理商业智能客户端请求,并且可以包括BI处理器212和集成模块214。BI处理器212可以被配置为接收来自客户端216(例如来自用户或分析软件)的商业智能客户端请求。商业智能客户端请求可以包括查询、报告请求、OLAP请求和其他商业分析。在各实施例中,商业智能客户端操作还可以包括内容标识符,内容标识符使得集成模块214能够识别用于商业智能客户端操作的相关数据源。例如,用户可以选择金融内容,在这种情况下,商业智能客户端操作可以应用于与企业中的财务相关数据源相对应的数据源112。BI处理器212将BI请求传递至查询引擎209,查询引擎209被配置为将适当的查询请求或搜索请求发给相关连接器。集成模块214收集从适当数据源112通过连接器204和206返回的结果。连接器204和206将从每个数据源返回的数据转换为通用数据显示,其中通用数据显示合并了诸如作为由万维网联合会(W3C)规定的资源描述框架(RDF)的扩展的RDF四元组的概率。连接器204和206还使不同数据源110之间的语义一致。例如,一个数据源110可以将本地地址信息称为“本地地址”,同时另一个数据源110可以将相同类型的信息称为“居住地址”。连接器204和206可以被配置为确定这两个词语指代相同类型的信息,并且将该信息转换为通用语义显示。例如,连接器204和206可以被配置为将“居住地址”的实例转换为“本地地址”或某个其他通用词语。连接器204和206还使数据源110之间的语义和包括在内容标识符中的域具体语义一致,该域具体语义可以被提供在商业智能客户端请求中。在各实施例中,从相关连接器返回的组合数据被存储到公用数据存储区中。如果所扩展的RDF格式(即四元组)被用作通用数据显示格式,则该公用数据存储区可以被称为“四元组存储区”。例如,四元组存储区可以利用ORACLE 11G、JENA、3ST0RE、SESAME、B0CA或其他可用软件来实现。BI处理器212可以利用由集成模块214产生的公用数据存储区来执行被请求的BI客户端操作。例如,BI处理器212可以对包含从集成模块214返回的四元组的四元组存储区执行SPARQL查询的扩展版本。另外,BI处理器212可以产生报告,创建多维OLAP结构,或者利用模糊web本体语言(模糊OWL )对四元组存储区中的四元组执行模糊本体推理。可以由BI处理器212执行的其他商业智能客户端操作包括诸如数据挖掘、统计分析、预测分析、业务流程建模和其他商业分析的分析。由商业智能客户端请求提供的结果可以包括多个答案,其中每个答案可以与答案是正确的确定性概率相关联。例如,响应于诸如概率查询的概率商业智能客户端请求,BI处理器212可以产生可以向用户展示的概念图,并且包括适合查询中规定的标准的事实。每个事实可以包括对应于所提供的结果是准确的确定度的确定指标。在实施例中,BI处理器212被配置为返回满足由确定性规范规定的确定性的结果。例如,BI处理器212可以使用确定性规范以忽略具有降到规定确定性以下的概率的事实。另外,如果BI处理器212识别出两个或更多个可能的事实,该两个或更多个可能的事实的对应概率位于确定性规范之上,所有的这些事实可以被展示给用户,包括对应于每个事实的每个确定性指标。图3是根据本发明实施例的集成来自不同数据质量的数据源的数据的方法的处理流程图。该方法以附图标记300来表示,并且可以通过图1所示的信息管理系统122来实现。在各实施例中,通过例如如关于图2所讨论的从用户或分析软件所接收的商业智能客户端请求来触发方法300。在这些实施例中,可以响应于商业智能客户端请求,而从各个数据源收集数据。因此,该方法可以在框302开始,在框302中接收商业智能客户端请求。商业智能客户端请求可以包括其结果依赖于一个或多个结构化数据源和一个或多个非结构化数据源中的信息的查询。如关于图2所讨论的,商业智能客户端请求可以通过信息管理系统122的BI处理器212接收。BI处理器212可以将商业智能客户端请求发送至查询引擎209,查询引擎209将商业智能客户端请求分解为任意数量的适当数据收集操作,以获取与商业智能客户端操作相对应的数据。例如,查询引擎209可以产生一组一个或多个子查询。该组子查询可以包括由联接至对应的结构化数据源200的连接器204处理的SQL查询。该组子查询还可以包括由联接至对应的非结构化数据源202的pNLP引擎208处理的一个或多个搜索请求。在框304,可以利用pNLP引擎208从非结构化数据源获得数据,如关于图2所描述的。所获得的数据可以包括被结构化为元组(例如RDF四元组)的多个事实。通过pNLP引擎208返回的每个事实将包括事实为准确的对应概率。在框306,可以利用诸如连接器204 (图2)的查询界面来从结构化数据源获得数据。该数据也可以包括被结构化作元组(例如RDF四元组)的多个事实。在各实施例中,连接器204以结构化数据源所特有的数据格式从结构化数据源接收数据。连接器204将所接收的数据转换为一个或多个事实,并且为该事实分配高概率(例如大约100%)。换句话说,从结构化数据源获得的事实将与表示事实是准确的概率相关联。在框308,可以利用包括概率的通用数据格式将在框304和框306中从结构化数据源和未结构化数据源所接收的数据存储到组合数据存储区。该组合数据集可以表示通过若干数据收集操作返回的每个数据集的联合。在各实施例中,该组合数据集是表示概念图的RDF四元组存储区,在概念图中每个事实描述为主语-谓语-宾语的关系和对应的概率。在各实施例中,从PNLP引擎208或连接器204接收的数据中的一些数据可以以适当的数据模型来表示。例如,PNLP引擎208可以以资源描述框架数据模型编码从非结构化数据源202提取的结构化数据。没有以通用数据格式编码的数据集可以通过集成模块214被转换为通用格式。在框310,可以针对包含概率的组合数据集处理商业智能客户端请求。BI处理器212可以利用由集成模块214产生的组合数据集执行所请求的BI操作。在各实施例中,针对组合数据集执行的商业智能客户端请求可以利用语义web查询语言(SPARQL)的扩展版本来处理,或者利用模糊OWL执行推理,如关于图2所讨论的。返回的结果可以被储藏以供将来使用。图4是示出存储用于集成来自不同数据质量的数据源的数据的代码的非临时性计算机可读介质的框图。大体上通过附图标记400来指该非暂时性计算机可读介质。非暂时性计算机可读介质400可以对应于用于存储诸如程序代码等计算机实现的指令的任何典型的存储设备。例如,非暂时性计算机可读介质400可以包括一个或多个非易失性存储器、易失性存储器和/或一个或多个存储设备。非易失性存储器的示例包括,但是并不限于电可擦可编程只读存储器(EEPROM)和只读存储器(ROM)。易失性存储器的示例包括,但是并不限于,静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)。存储设备的示例包括,但是并不限于此,硬盘驱动器、光盘驱动器、数字多功能影音光碟机、光驱和快闪存储器设备。根据本文所描述的信息管理系统122的实施例,处理器402,其可以是如图1所示的处理部件104,通常检索并执行存储在非暂时性计算机可读介质400中的指令,从而以考虑由不同数据源提供的数据的不同数据质量的方式集成来自非结构化数据源和结构化数据源的数据。如上所述,处理器402可以被配置为利用概率自然语言处理器从非结构化数据源获得数据。该数据可以包括多个事实,每个事实包括事实是准确的的对应概率。处理器还可以被配置为从结构化数据源获得数据。从结构化数据源获得的数据可以包括多个事实,每个事实包括对应的高概率,例如大约100%。处理器可以被配置为利用包括概率的通用数据格式将数据存储至组合数据集。处理器还可以被配置为接收商业智能客户端请求,并响应于该商业智能客户端请求而从两个或更多个数据源获得数据。在各实施例中,处理器被配置为对组合数据集执行商业智能客户端请求,例如,利用考虑概率的语义web语言。
权利要求
1.一种用于信息管理的方法,包括: 利用概率自然语言处理(PNLP)引擎从非结构化数据源获得第一数据集,所述第一数据集包括第一元组,所述第一元组包括关系以及所述关系是准确的的对应概率; 从结构化数据源获得第二数据集,所述第二数据集包括第二元组,所述第二元组包括第二关系和表示所述第二关系是准确的概率;以及 利用包括与所述第一数据集和所述第二数据集相对应的概率的通用数据格式将所述第一数据集和所述第二数据集存储到公用数据存储区中。
2.根据权利要求1所述的方法,包括接收商业智能客户端请求,并且将所述商业智能客户端请求分解为针对所述结构化数据源和所述非结构化数据源的一组子查询。
3.根据权利要求2所述的方法,包括至少部分基于所述概率针对所述公用数据存储区处理所述商业智能客户端请求。
4.根据权利要求2所述的方法,其中所述商业智能客户端请求包括与预期答案相关联的确定性规范,并且所述商业智能客户端请求的结果满足由所述确定性规范规定的确定度。
5.根据权利要求2所述的方法,其中响应于所述商业智能客户端请求所提供的结果包括多个答案,每个答案与确定性的概率相关联。
6.一种提供信息管理的系 统,包括: 处理器,被配置为执行计算机可读指令;以及 存储设备,用于存储所述处理器可执行的指令模块,所述指令模块包括: 被配置为从非结构化数据源提取事实的概率自然语言处理引擎,其中每个事实包括关系和所述关系是准确的的对应概率; 连接器,被配置为从结构化数据源提取事实,并将从所述结构化数据源提取的事实与表示所述事实是准确的的概率度相关联;以及 集成模块,被配置为将从所述结构化数据源和所述非结构化数据源返回的结果存储到包括与每个事实相关联的对应概率的公用数据存储区。
7.根据权利要求6所述的系统,包括商业智能处理器,所述商业智能处理器被配置为接收商业智能客户端请求,并且至少部分基于与每个事实相关联的概率针对所述公用数据存储区处理所述商业智能客户端请求。
8.根据权利要求7所述的系统,其中所述公用数据存储区包括扩展的RDF数据模型,所述扩展的RDF数据模型包括与每个事实相关联的概率。
9.根据权利要求8所述的系统,其中所述商业智能处理器利用概率查询语言或模糊推理来从所述公用数据存储区中提取答案。
10.根据权利要求6所述的系统,其中所述集成模块被配置为响应于商业智能客户端请求从多个数据源获得多个事实。
11.一种非暂时性计算机可读介质,包括被配置为指令处理器进行以下操作的指令: 从非结构化数据源获得第一数据集,所述第一数据集包括第一事实和所述第一事实是准确的的对应第一概率; 从结构化数据源获得第二数据集,所述第二数据集包括第二事实和所述第二事实是准确的的对应第二概率;以及利用包括与所述第一数据集和所述第二数据集相对应的概率的通用数据格式将所述第一数据集和所述第二数据集存储在组合数据存储区中。
12.根据权利要求11所述的非暂时性计算机可读介质,包括被配置为指令所述处理器接收商业智能客户端请求并至少部分基于概率针对所述组合数据存储区处理所述商业智能客户端请求的指令。
13.根据权利要求12所述的非暂时性计算机可读介质,其中所述商业智能客户端请求包括与响应于概率商业智能客户端请求所提供的结果是准确的的预期确定度相对应的确定性规范。
14.根据权利要求12所述的非暂时性计算机可读介质,包括被配置为指令所述处理器产生所述商业智能客户端请求的结果的指令,所述结果包括与所述结果是准确的的确定度相对应的确定性指标。
15.根据权利要求11所述的非暂时性计算机可读介质,包括被配置为指令所述处理器接收商业智能客户端请求的指令,其中获得所述第一数据集和获得所述第二数据集响应于所述商业智能客户端请求而 被执行。
全文摘要
本发明提供一种以实时信息管理环境处理数据质量的计算机可实现的方法。该方法包括利用概率自然语言处理(pNLP)引擎从非结构化数据源获得第一数据集,第一数据集包括第一元组,第一元组描述关系和该关系是准确的对应概率。该方法还包括从结构化数据源获得第二数据集,第二数据集包括第二元组,第二元组描述第二关系和表示第二关系是准确的概率。该方法还包括利用包括与第一数据集和所述第二数据集相对应的概率的通用数据格式将第一数据集和第二数据集存储到通用数据存储区中。
文档编号G06Q50/06GK103154996SQ201080069686
公开日2013年6月12日 申请日期2010年10月25日 优先权日2010年10月25日
发明者艾哈迈德·K·伊扎特 申请人:惠普发展公司,有限责任合伙企业
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1