远程监督关系提取器的制作方法

文档序号：11530736阅读：229来源：国知局

背景技术：

填充描述实体与实体的属性之间的关系的事实数据库通常要求聚集以高水平的精度聚集很多信息。手动地填充大型事实数据库是耗时的、昂贵的并且常常不切实际的。由于在没有人类监督的情况下使用不一致的语言、单元和格式从变化的结构化、半结构化和非结构化信息源以必要的精度提取数据中的困难，因而自动地填充事实数据库也可以是耗时的。常规自动事实提取技术包括模式匹配和自然语言处理。

模式匹配通常地使用手工制作和硬编码的正则表达式和/或特定规则，其依赖于以相同顺序使用相同词语被表达的信息。在没有综合模式集的情况下，关系的许多表达可能被错失。添加更多模式可以降低错失的表达的数目，而且可能导致收集无关的数据。最终，虽然仔细的模式匹配可能改进，但是创建模式是耗时的、昂贵的并且不可扩展的。

使用统计模型的自然语言处理不由特定模式限制，但是建立好的模型要求许多适当地注释的训练数据。手动地注释大型数据集以建立高精度模型是耗时的并且昂贵的。相反，使用更小的数据集或者更少的监督降低时间和成本，而且增加错失正确关系或者收集不正确关系的可能性。

待解决的技术问题涉及在最小人类介入和高精度的情况下自动地找到非结构化数据中的关系。关于这些和其他考虑，已经做出本发明。虽然已经讨论了相对特定的问题，但是应当理解，本文所公开的方面不应当限于解决背景技术中所标识的特定问题。

技术实现要素：

提供该概述以引入以在详细描述章节中下文进一步描述的简化形式的概念的选择。该概述不旨在标识所要求保护的主题的关键特征或基本特征，其也不旨在用作辅助确定所要求保护的主题的范围。

关系提取器的方面包括将在最小人类介入的情况下使用根据大型未标记的数据集建立的统计实体类型预测和关系预测模型的机器学习方法和基于轻模式的方法交互式地组合，以从非结构化、半结构化和结构化文档提取关系。关系提取器通过将针对来自现有事实数据库的已知实体的真相与描述已知实体的文档中的文本相匹配来从未标记的文档的集合收集训练数据，并且建立针对一个或多个关系类型的对应的模型。对于建模的关系类型而言，关系提取器找到文档中的感兴趣的文本数据块。机器学习分类器预测文本数据块之一是正被寻找的实体的概率。组合的机器学习和基于轻模式的方法通过过滤提供经改进的查全率和高精度并且允许所提取的关系的约束和归一化。

关系提取器包括文档解析器、自然语言处理器和一个或多个二元分类器。可选的页面类型分类器分析文档并且确定针对每个文档的页面类型。页面类型可以被用于确定文档是否描述具有主题类型的主题匹配与正被搜索的关系类型兼容的主题类型。

文档解析器读取文档的本地格式并且从文档提取文本以用于处理。文档的内容可以是结构化或非结构化的数据。自然语言处理器提供用于检测参与在文档中正被搜索的所选择的关系类型的所选择的对象类型的对象的提及的逻辑。一旦提及被检测到，自然语言处理器就提取与提及相关联的特征。所提取的特征可以被编译为作为输入被供应到二元分类器的特征向量。

对于自动地训练预测模型而言，自动标记器使用从现有事实数据库所收集的已知事实来将提及特征标记为肯定训练示例或否定训练示例，并且建立大型训练数据集。训练数据中的一些或全部被馈送到二元分类器中以建立一个或多个预测模型，其可以包括关系预测模型和实体预测模型。使用初始预测模型做出的预测经由用户接口被呈现给用户以用于验证。该用户验证使用初始预测模型做出的少量的预测是正确还是不正确的。基于从用户接收到的输入，预测模型被重新训练以产生在运行时期间所使用的最终预测模型来处理所选择的文档(包括具有一个或多个未知关系的文档)。该用户还可以指定被用于建立基于模式的模型的一个或多个规则以自定义关系提取。

附图说明

本公开的进一步的特征、方面和优点将通过参考以下附图变得更好理解，其中元素不按比例以便更清楚地示出细节，并且其中相同参考数字贯穿数个视图指代相同元素：

图1是图示关系提取器的方面的系统图；

图2是图示用于以高精度从非结构化文本提取关系的方法的方面的高层流程图；

图3图示了在数据提取操作期间所生成的视图和模板的方面；

图4是图示适于实践本发明的方面的计算设备的物理部件的框图；

图5a图示了适于实践本发明的方面的移动计算设备；

图5b是图示适于实践本发明的方面的移动计算设备的架构的框图；以及

图6是利用其可以实践本发明的方面的分布式计算系统的简化框图。

具体实施方式

下面参考形成本发明的一部分并且示出本发明的特定示例性方面的附图更完全地描述本发明的方面。然而，本发明可以以许多不同的形式被实现并且不应当被解释为限于本文所阐述的方面；相反，提供这些方面使得本公开将是彻底并且完整的，并且将方面的范围完全地传达给本领域的技术人员。方面可以被实践为方法、系统或者设备。因此，可以使用硬件、软件或者硬件和软件的组合实践实施方式。因此，以下详细描述将不以限制性意义理解。

在本文中描述并且在附图中图示了关系提取器的方面和伴随的方法。关系提取器将在最小人类介入的情况下使用根据大型未标记的数据集建立的统计实体类型预测和关系预测模型的机器学习方法和基于轻模式的方法交互式地组合，以从非结构化、半结构化和结构化文档提取关系。该关系提取器通过将针对来自现有事实数据库的已知实体的真相与描述已知实体的文档中的文本相匹配来从未标记的文档的集合收集训练数据，并且建立针对一个或多个关系类型的对应的模型。对于建模的关系类型而言，关系提取器找到文档中的感兴趣的文本数据块。机器学习分类器预测文本数据块之一是正被寻找的实体的可能性。组合的机器学习方法和基于轻模式的方法通过过滤提供经改进的查全率和高精度并且允许所提取的关系的约束和归一化。

图1是图示关系提取器的方面的系统图。该关系提取器100包括文档解析器102、自然语言处理器104和一个或多个二元分类器106。该文档解析器102读取文档108的本地格式并且从文档108提取文本以用于处理。该文档的内容可以是结构化或非结构化数据。如本文所使用的，非结构化数据宽泛地涵盖自由文本和半结构化文本(诸如信息框、表和列表)。关系提取器100可以收集文档并且将他们存储为快照以用于处理或者可以收集实况文档以用于处理。

文档108可以被存储在文档存储库110中作为文档集合112的一部分。文档是包含计算机可读格式的关系信息的任何电子文件(即，计算机可读文本)。文档的示例包括但不限于网页、文本文件和字处理文件。该文档可以使用标记语言(诸如但不限于超文本标记语言(html)或者可扩展标记语言(xml))被格式化。文档可以是文档的静态或者动态集合的一部分。文档集合的示例包括但不限于在线百科全书(例如，维基百科)、新闻资源和文章储存库。针对html文档的适合的文档解析器的一个示例是但不限于htmlagilitypack。

自然语言处理器104提供用于检测参与在文档中正被搜索的所选择的关系类型的所选择的对象类型的对象的提及的逻辑。关系涵盖语义地链接主题和对象的主题、对象和预测。关系类型指代主题与对象之间的语义链接的描述或者分类。该主题可以是实体，并且对象可以是实体或者属性。

实体宽泛地涵盖可以与其他实体区分的任何对象或者事件。为了简单起见，属性指代描述实体的特定特性或者特点(例如，年龄或者出生日期)的值。实体和属性可以由对应的类型分类。实体类型包括但不限于人、组织、位置。属性类型包括但不限于日期和数量。例如，tombrokaw是人实体类型的实体，nbcnightlynews是组织实体类型的实体，newyork是位置实体类型的实体，并且电视记者是职业实体类型的实体。如本文所使用的，对象类型可以指代实体类型或者属性类型。提及是对主题或者对象(即，实体或者属性)的引用。可以通过由普通名词或者名词短语所指示或者通过代词所表示的其名称来在文本中引用实体。

自然语言处理器104可以包括以下各项中的一项或多项：语法解析器、命名实体识别器、词性标记器、链接解析器、模式匹配器和用于提及检测和特征提取的分词器。一旦检测到提及，自然语言处理器104就提取与提及相关联的特征。所提取的特征可以被编译为作为输入被供应到二元分类器的特征向量。

对于自动地训练预测模型而言，自动标记器114使用从现有知识图116或者其他事实数据库收集的已知事实(即，已知关系)，以将提及特征标记为肯定训练示例118(即，匹配对象类型和已知关系的值的提及)或者否定训练示例120(即，匹配对象类型但是不匹配已知关系的值的提及)来建立大型数据集122。

训练数据中的一些或全部被馈送到二元分类器106中以建立一个或多个预测模型124，其可以包括关系预测模型和实体预测模型。使用自动标记的训练数据建立的预测模型124被认为是初始预测模型。使用初始预测模型做出的预测经由用户接口128被呈现给用户126以用于验证。用户接口128允许通过各种各样的输入和输出模态与用户126交互。用户126验证使用初始预测模型做出的少量的预测是正确还是不正确的。基于从用户126接收到的输入，预测模型被重新训练以产生在运行时期间所使用的最终预测模型124来处理所选择的文档(包括具有一个或多个未知关系的文档)。用户还可以指定被用于建立基于模式的模型130的一个或多个规则以自定义关系提取。

文档收集器可以可选地包括页面类型分类器132，其分析文档并且确定针对每个文档的页面类型。该页面类型可以被用于确定文档是否描述具有主题类型的主题匹配与正被搜索的关系类型兼容的主题类型。该页面类型分类器可以使用文档的各种特征来确定页面类型。

文档收集器可以可选地包括特征散列器134，其用于对所提取的特征进行散列以改进关系提取器的存储器消耗和处理速度。

关系提取器100可以被实现在使用单个计算设备的本地架构或者使用一个或多个计算设备(诸如但不限于与服务器138通信的客户端设备136)的分布式架构中。客户端设备136和服务器138可以使用各种计算设备被实现，包括但不限于：服务器或者台式计算机、膝上型电脑、平板计算机、智能电话、智能手表和智能家电。分布式部件可以经由网络(诸如但不限于局域网、广域网或因特网)进行通信。

针对关系提取器的两个主要成功措施是精度和查全率。精度是表示从由关系提取器标识的关系的总数中正确地标识的关系的数目的部分。查全率是表示从在文档中出现的正确关系的总数中正确地标识的关系的数目的部分。换句话说，精度示出了多少不正确的关系被选择(假肯定)，并且查全率示出了多少正确的关系被错失(即，假否定)。

如本文所使用的，取决于预期用途，高精度指代近似地90％或者更大的精度。该关系提取器能够实现用于在填充事实数据库中使用的99％的精度。同时，关系提取器能够进行高查全率；然而，为了支持精度，可以牺牲查全率。

图2是图示用于以高精度从非结构化文本提取关系的方法的方面的高层流程图。该方法200包括训练阶段200a和运行时阶段200b。

快照操作202获得文档的快照以用于分析。该快照可以直接地从源被获得或者从先前获得的快照重新使用。取得快照降低受欢迎的实体的数据的重复。由于可以直接地解析原始文档，因而快照操作202是可选的。

真相收集操作204从现有事实数据库、知识数据库、知识图或者其他实体关系数据库(诸如satori或freebase)收集一个或多个已知关系。真相被用作当生成训练数据时自动地注释出现在文档中的提及的基础。

页面分类操作206确定由文档所描述的实体类型，被称为页面类型。页面分类允许文档基于内容与正被搜索的关系类型的相关性而被评价。例如，如果关系类型是出生日期，则不存在与位置实体(例如，国家、山脉或者桥梁)有关的文档中搜索日期的值。仅评价相关文档对较低的资源利用和较快的搜索时间有贡献。此外，仅评价相关页面通常改进精度，这是因为如果描述位置的文档未被评价，则描述位置的文档中的日期不能不正确地被标识为文档中的出生日期关系。页面分类操作206是可选的。

页面类型分类的方面可以包括基于页面类型和参与关系的主题的实体或者实体类型，选择相关文档。在训练阶段200a期间，当由页面所描述的实体匹配针对所选择的真相的主题时，选择文档。在运行时阶段200b期间，当页面类型匹配针对正被搜索的关系的主题的实体类型时，可以选择相关文档。

数据提取操作208提取文档的文本(即，内容)并且将文本转换为一个或多个视图(即，元素)。例如，可以通过提取定位在html<text>标签之间的内容来从网页解析文本。相关文档的文本可以被解析为一个或多个视图，包括但不限于章节、段落、语句、标记化语句、词性标签、命名实体识别跨度、超链接跨度、章节标题和文档题目。视图可以被转换为模板。

文本可以解析并且转换以创建各种视图，包括但不限于段落、语句、标记化语句、词性标签、命名实体识别跨度、超链接跨度和章节标题。当计算特征时，可以使用这些视图。

提及检测操作210定位对应于参与出现在相关文档中的关系的对象的对象类型的提及。对象类型可以是最高级或者通常对象类型(例如，人)；然而，提及检测操作的方面许可对象类型(例如，女性)中的更多特殊性，这取决于被用于检测提及的技术。检测提及的一个技术是命名实体识别(ner)。使用命名实体识别所检测的对象类型对应于有限的一般地接受的对象类型集，诸如在由语言数据联盟或者由计算语言学协会的自然语言学习的特殊利益集团的自然语言学习会议发表的自动内容提取(ace)注释实体指南中所识别的那些对象类型。更特别地，命名实体识别很适于对象类型(诸如人(per)、组织(org)、位置(loc)和日期(date))的检测。

提及通常落在表1中所示的四个提及类型之一内。对于综合关系提取而言，比使用命名实体识别可用的需要更多类型的对象的检测。因此，提及检测操作210可以采用其他技术，包括但不限于词典查找、实体链接和模式匹配(例如，使用正则表达式)。

表1

基于实体链接的提及检测将对文档中的其他实体的链接的存在用作提及的指示器。在页面分类可用的情况下，描述提及的页面的实体类型可以被用于对提及类型进行分类。

词典存储与预测相关联的对象名称集。词典促进通过将提及值与词典中的预测值匹配检测来自值的闭集的提及。可以通过指定预测名称和唯一槽类型标识符并且拉下针对来自知识图的预测的已知值来创建词典。除了预测的典型名称之外，词典可以可选地包括针对预测的别名。

模式匹配通过将提及值与正则表达式集进行比较或者基于规则来促进标量提及的检测。例如，正则表达式可以被用于匹配所选择的单元中的测量结果(诸如距离)。

由于真相值和提及值可以包含不重要的或者非必需的变量，因而提及检测操作210可以包含考虑这些变量的方面，诸如但不限于舍入、归一化、标准化、转换和公差的使用。例如，当匹配时，标度值可以具有公差或者使用舍入处理精度的差异。对于可以由于缩略语、缩写、缩略词等而变化的匹配值而言，标准化可以被用于展开缩略语或者缩略全部字、利用首字母替换字或者利用缩略词替换名称。在大小写敏感性不重要的情况下，值可以被标准化到所选择的大小写。在待匹配的值以不同的单位表达时，一个或两个值可以被转换为相同单位类型。另外，用户创建的自定义匹配准则还可以被用于解决表明和归一化形式的变型。

特征化操作212计算所检测的提及的特征。可以基于提及、包含提及(即，包含元素)的文档元素(例如，语句、段落或者章节)或者与提及相关联的视图，计算特征。所计算的特征的示例包括但不限于文档内的提及或者包含元素的位置、章节标题、本地上下文特征(例如，提及的左边和右边的字、包含元素的字n元语法、左n元语法、右n元语法)、提及类型、包含元素内的提及的位置、包含元素的主题、文档题目与包含元素之间的重叠、文档题目与语句的前n字之间的重叠、语句的前n字中的主题代词的存在、文档类型和实体类型。

自动训练数据生成操作214将每个提及值与真相值相比较，并且将所计算的特征添加到被用于训练统计模型的训练数据以用于实体分类和关系分类。训练数据包括肯定示例集和否定示例集。如果提及值匹配真相值，则所计算的特征被添加为肯定示例。相反地，如果提及值不匹配真相值，则所计算的特征被添加为否定示例。

特征散列操作216将唯一标识符与每个唯一计算出的特征相关联并且为相同特征提供特征压缩。唯一标识符可以是具有附加到其的随机值的特征名称的散列。当处理大型数据集时，特征散列显著地改进存储器使用和处理(诸如可以使用关系提取器被生成)。该特征散列操作216是可选的。

针对对应的文档，选择并且测试足够数目的现有事实关系以计算大量的自动标记的训练数据示例(肯定和否定二者)。大量的训练数据示例可以被指定为最小数目(例如，近似地5000、近似地7500、近似地10000、近似地25000或者近似地50000)的总计示例、肯定示例和/或否定示例。对于肯定示例和否定示例的最小数目可以不同或者仅针对示例的一种类型被约束。例如，假定描述人的典型文档包括数个日期值，其当测试出生日期关系时，与平均五个否定示例相比较，仅产生一个肯定示例。对于不同的类型的关系而言，肯定示例和否定示例的数目可以是更平衡的。大量的训练数据示例还可以被指定为待使用在训练中的最小数目的现有事实。

模型建立操作218将训练数据的一部分馈送到二元分类器中以建立用于预测实体(即，页面)类型和关系满意度的初始统计模型。训练数据的剩余部分被预留用于作为结果的模型。可选地，所有训练数据可以被用于建立实体预测和关系预测模型和被用于评价模型的其他数据。模型建立操作218可以利用数据预处理(诸如根据实例归一化和模型权重正则化)。根据实例归一化(诸如l2球归一化)，改进查全率。模型权重正则化(诸如l2正则化)被用于避免过度拟合训练数据。除上文所提到的那些技术之外的归一化和正则化技术可以被用于改进查全率并且避免过度拟合训练数据。具有高偏置的简单线性模型或模型可以被用于过度拟合训练数据。

一旦初始统计模型被建立，模型评价操作220就对训练数据进行校正并且基于来自用户的输入来调节针对适当模型的阈值。模型评价操作220包括将预测模型应用到测试数据。预测模型基于被提供到模型的特征向量的统计分析，计算提及满足关系的置信度值(即，概率)。在训练阶段200a期间，置信度值被用于使训练过程偏置。在运行时阶段200b期间，分类基于置信度值与阈值的比较，其可以被设定但不限于默认值或者根据训练和/或测试结果所估计的值。

预测的子集被选择并且被呈现给用户(例如，开发者、注释者或者评价者)以用于验证。该子集表示由关系提取器做出的预测的数目的小数目、肯定示例的数目、否定示例的数目或者训练数据示例的总数目。该子集可以被选择为总计预测的小百分比(例如，不超过近似10％、5％、3％、2.5％、2％或1％)或者固定数目(例如，不超过近似500、250、200、175、150、125、100、75或50)的预测。预测可以连同源文档经由用户接口被显示，以用于由用户评价。用户可以例如利用是/否答案对由关系提取器所生成的确认问题作出响应。确认问题可以让用户判断由文档(即，主题)所描述的实体是否属于由关系提取器使用初始预测模型所分配的实体分类。例如，当显示针对实体蝙蝠侠的维基百科页面时，用户可能被询问实体是否适当地被分类为虚构宇宙中的人物，其是“人”的更宽的实体类型的子类型。用户的响应用于标记评价的预测。训练数据利用用户标记的预测进行更新。

子集中的项的数目是提供足够的信息以准确地测量初始模型的精度所选择的小数目。通过对每所提取的关系类型的少量的分类进行采样，用户参与被最小化。可以使用近似地50个预测那么少有效地评价该训练模型，并且很少要求超过近似地200个预测以实现关于模型的期望的精度水平。

自定义操作222可以允许用户定义实现用于过滤、归一化和约束全部文档上的所提取的关系的一个或多个模式或规则的基于模式的模型。过滤器或约束可以被用于限制从针对给定关系类型的文档所选择的关系的数目。在没有约束或过滤器的情况下，选择其中置信度满足阈值的所有关系。对于一些关系而言，这是期望的。例如，如果主题类型是国会议员并且对象类型是成员关系中的人，则可以存在作为具有高置信度水平的文档中所提到的国会议员的成员的多个人。然而，如果对象类型是女性，则过滤器或约束可以被用于限制具有高置信度水平的文档中所提到的国会议员的人成员的提及。

在另一示例中，可以添加指定人不能专业地进行超过两个运动或必须具有超过一个成员的乐队的约束。过滤器可以基于从其获得信息的文档的章节，动态地指定或者修改选择阈值。例如，可以使用较低的阈值(即，给定较大的置信度)接受题为“个人生活”的文档的章节中所找到的出生日期或者结婚日期，同时来自题为“备忘录”的章节的出生日期或者结婚日期可以要求针对接受的较高的阈值。类似地，通过示例，如果在“个人生活”章节中找到出生日期，则针对来自文档的其他章节的出生日期的接受的阈值可以被提高。归一化可以包括将值转换为由其中所提取的关系将被存储的目标知识图使用的单位或格式(例如，日期或者当前格式)的所选择的系统。这样的自定义通常导致关系提取器的查全率的增加。

重新训练操作224使用基于来自用户的输入更新的完全训练数据集来重新训练预测模型并且响应于来自用户的输入调节阈值。可以在重新训练期间调节所估计的阈值。

方法200允许大型训练数据集被收集并且以短时间量和小成本自动地注释。典型地，收集训练数据，并且具有必需高精度和通常高查全率的模型可以在几小时内被训练、评价和自定义。

跟随训练阶段200a，方法200可以继续其中先前地所生成的模型被用于处理文档的运行时阶段200b。与训练阶段相反，在运行时期间所处理的文档不限于描述已知主题的文档。由在运行时期间所处理的文档可以是先前尚未处理的新文档，或者是使用新的或更新的模型正重新处理以提取新的或更新的关系的现有文档。

运行时阶段200重复来自训练阶段200a的一些操作，诸如快照生成操作202、页面分类操作206、数据提取操作208、提及检测操作210和特征散列操作216。通常，因为除了正处理的文档之外(即，范围中的差异)，在运行时阶段200b与训练阶段200a中的重复的操作之间不存在差异。

关系提取操作226通过将在模型建立操作218中先前生成的先前生成模型应用到由运行时特征化操作212所产生的特征向量来提取关系。后处理操作228将在自定义操作222中先前地所生成的阈值和基于自定义模式的模型(如果有的话)应用到文档以产生最后的所提取的关系集。关系存储230操作将最终的所提取的关系集提交给已知图形或者其他储存库以改进区域中的知识图，诸如但不限于完整性、数量、质量(即，准确度)和/或被存储在知识图中的信息的新近度(即，更新性)。

图3图示了在数据提取操作期间所生成的视图和模板的方面。表的顶行示出从文档所解析的文本的章节所提取的原始语句。

第二行示出从原始语句所解析的标记化语句。标记的分隔符通常是标点符号和空格字符。标记由非定界符字符的每个邻近字符串形成。每个单个非空格定界符(例如，标点符号)字符也形成标记。

第三行示出对应于标记的词性标签。标签nn表示单数或者不可数名词，fw表示外来词，vbn表示过去分词动词，cd表示基数词，vbz表示第三人称单数现在进行时动词，vbg表示动名词或者过去分词动词、dt表示限定词，jj表示形容词，rbs表示最高级副词、in表示介词，to表示不定式“to”，并且cc表示并列连词。

第四行示出命名实体识别跨度和相关联的实体标签。前六个标记(“thomas”+“john”+“\"”+“tom”+“\"”+“brokaw”)形成对应于人的一个命名实体跨度。第9到第12个标记(“february”+“6”+“1940”)、第34个标记(“1982”)和第36个标记(“2004”)形成对应于日期(即，属性)的附加的命名实体跨度。第30到第32个标记(“nbc”+“nightly”+“news”)形成对应于组织(即，实体)的另一命名实体跨度。

第五行示出链路跨度、相关联的实体标签以及相关联的url。第30到第32个标记形成对应于具有重定向到链接的html文档的组织的链路跨度。

第六行示出了使用命名实体从标记化语句的变换所生成的模板。前六个标记利用表示人实体对象的实体标签替换。第9到第12、第34和第36个标记利用表示日期的属性标签替换。第30到第32个标记利用表示组织实体对象的实体标签替换。

如果该实例被匹配到出生日期关系的训练期间的事实，则日期对象将是参与出生日期关系的候选；然而，仅日期1940年2月6日匹配从现有知识图所获得的tombrokaw的出生日期的已知事实。因此，使用1940年2月6日构建的特征将被添加为肯定训练示例，同时根据日期1982和2004构建的特征将被用作否定训练示例。例如，使用导出模板构建的字二元语法“borndate”将是肯定训练示例，同时使用导出模板构建的字二元语法“fromdate”和“todate”将是否定训练示例。

相反，如果描述tombrokaw的文档将被分析以在运行时分析期间找到出生日期，则统计模型将分配短语“bornfebruary6,1940”对应于满足出生日期关系的日期的高概率/置信度和短语“from1982”和“to2004”的较低的概率。

本发明的方面可以被实践为系统、设备和其他制造品或者使用硬件、软件、计算机可读介质或者它们的组合的方法。以下讨论和相关联的附图描述所选择的系统架构和计算设备表示可以被用于实践本文所描述的本发明的方面并且不应当被用于以任何方式限制本发明的范围的大量的系统架构和计算设备。

可以经由机载计算设备显示器或者经由与一个或多个计算设备相关联的远程显示单元来显示各种类型的用户接口和信息。例如，各种类型的用户接口和信息可以被显示在各种类型的用户接口和信息被投影到其上的墙面上并且与其交互。与可以实践本发明所利用的许多计算设备的交互可以通过但不限于击键输入、触摸屏输入、语音或者其他音频输入、其中相关联的计算设备装备有用于收集和解译用于控制计算设备的功能的用户手势的检测(例如，照相机)功能性的手势输入等而被完成。

图4是图示可以实践本发明的方面利用的计算设备的架构的框图。计算设备400适于实现被实施在各种各样的计算机和可编程消费者电子设备中的本发明的方面，包括但不限于大型计算机、小型计算机、服务器、个人计算机(例如，台式和膝上型计算机)、平板计算机、上网本、智能电话、智能手表、视频游戏系统和智能电视和智能消费者电子设备。

在由虚线408所指示的基本配置中，计算设备400可以包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型，系统存储器404可以包括但不限于易失性存储(例如，随机存取存储器)、非易失性存储(例如，只读存储器)、闪速存储器或者这样的存储器的任何组合。该系统存储器404可以包括适于控制计算设备400的操作的操作系统405和适于运行软件应用420(包括实现本文中所描述的本发明的软件)的一个或多个程序模块406。

当在处理单元402上执行时，软件应用420可以执行过程，包括但不限于方法200的阶段中的一个或多个。根据本发明的示例可以使用的其他程序模块可以包括电子邮件和联系人应用、字处理应用、电子数据表应用、数据库应用、幻灯片演示应用或者计算机辅助绘图应用等。

除基本配置之外，计算设备400可以具有附加的特征或者功能。例如，计算设备400还可以包括附加的数据存储装置(可移除和/或不可移除的)(诸如例如磁盘、光盘或者磁带)。通过可移除的存储装置409和不可移除的存储装置410图示这样的附加存储装置。

计算设备400还可以具有一个或多个输入设备412(诸如键盘、鼠标、笔、声音输入设备、触摸输入设备等)。还可以包括(一个或多个)输出设备414(诸如显示器、扬声器、打印机等)。前述设备是示例并且可以使用其他示例。计算设备400可以包括允许与其他计算设备418通信的一个或多个通信连接416。适合的通信连接416的示例包括但不限于rf发射器、接收器和/或收发器电路、通用串行总线(usb)、并行和/或串行端口。

如在此所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于信息(诸如计算机可读指令、数据结构或者程序模块)的存储的任何方法或者技术中实现的易失性和非易失性、可移除和不可移除的介质。系统存储器404、可移除的存储装置409和不可移除的存储装置410全部是计算机存储介质示例(即，存储器存储)的示例。计算机存储介质可以包括随机存取存储器(ram)、只读存储器(rom)、电可擦只读存储器(eeprom)、闪速存储器或者其他存储器技术、压缩光盘只读存储器(cd-rom)、数字多用光盘(dvd)或者其他光学存储、磁带盒、磁带、磁盘存储或者其他磁性存储设备或者可以被用于存储信息并且可以由计算设备400访问的任何其他制造品。任何这样的计算机存储介质可以是计算设备400的一部分。

此外，本发明的示例可以实践在包括分离的电子元件的电路、包含逻辑门的封装或者集成电子芯片、利用微处理器的电路中、或者包含电子元件或微处理器的单个芯片上。例如，本发明的方面可以经由片上系统(soc)被实践，其中所图示的部件中的每个或许多部件可以被集成到单个集成电路上。这样的soc设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和全部被集成(或者“被烧制”)到芯片衬底上作为单个集成电路的各种应用功能。当经由soc操作时，关于软件应用420在此所描述的功能可以经由单个集成电路(芯片)上的计算设备400的其他部件集成的专用逻辑被操作。本发明的方面还可以使用能够执行逻辑操作(诸如例如and、or和not)的其他技术实践，包括但不限于机械、光学、流体和量子技术。另外，本发明的方面可以实践在通用计算机内或者在任何其他电路或系统中。

图5a图示了适于实践本发明的方面的移动计算设备500。适合的移动计算设备的示例包括但不限于移动电话、智能电话、平板计算机、平面计算机和膝上型计算机。在基本配置中，移动计算设备500是具有输入元件和输出元件二者的手持式计算机。移动计算设备500通常包括显示器505和一个或多个输入按钮510，其允许用户将信息输入到移动计算设备500中。移动计算设备500的显示器505还可以用作输入设备(例如，触摸屏显示器)。如果被包括，可选侧面输入元件515允许进一步的用户输入。侧面输入元件515可以是旋转开关、按钮或者任何其他类型的手动输入元件。移动计算设备500可以包含更多或更少的输入元件。例如，显示器505不需要是触摸屏。移动计算设备500还可以包括可选的小键盘535。可选的小键盘535可以是物理小键盘或触摸屏显示器上生成的“软”键盘。输出元件包括用于示出图形用户接口的显示器505、视觉指示器520(例如，发光二极管)和/或音频换能器525(例如，扬声器)。该移动计算设备500可以包含用于向用户提供触觉反馈的振动换能器。移动计算设备500可以包含输入和/或输出端口(诸如音频输入(例如，麦克风插孔))、音频输出(例如，头戴式耳机插孔)和用于将信号发送到外部设备或从外部设备接收信号的视频输出(例如，hdmi端口)。

图5b是图示可以实践本发明的方面利用的移动计算设备的架构的框图。作为示例，移动计算设备500可以被实现在系统502，诸如能够运行一个或多个应用(例如，浏览器、电子邮件客户端、备忘录、联系人管理器、消息客户端、游戏和媒体客户端/播放器)的智能电话中。

一个或多个应用程序565可以被加载到存储器562中并且在操作系统564上运行或者与操作系统564相关联。应用程序的示例包括电话拨号器程序、电子邮件程序、个人信息管理(pim)程序、字处理程序、电子数据表程序、因特网浏览器程序、消息程序等。系统502还包括存储器562内的非易失性存储区域568。非易失性存储区域568可以被用于存储在系统502断电的情况下不应当丢失的持久信息。应用程序565可以使用和存储非易失性存储区域568中的信息(诸如电子邮件或由电子邮件应用使用的其他消息等)。同步应用(未示出)还驻留在系统502上并且被编程为与驻留在主机计算机上的对应的同步应用相互作用，以保持存储在非易失性存储区域568中的信息与存储在主机计算机处的对应的信息同步。如应当理解，其他应用可以被加载到存储器562中并且被运行在移动计算设备500(包括实现本文所描述的本发明的方面的软件)。

系统502具有电源770，其可以被实现为一个或多个电池。电源570可能还包括外部电源(诸如对电池补充或者再充电的加电对接支架)。

系统502还可以包括无线电572，其执行发射和接收射频通信的功能。无线电572经由通信载波或者服务提供商促进系统502与外部世界之间的无线连接。在操作系统564的控制下，进行到无线电572的传输和从无线电572的传输。换句话说，由无线电572接收的通信可以经由操作系统564被传播到应用程序565，并且反之亦然。

视觉指示器520可以被用于提供视觉通知，和/或音频接口574可以被用于经由音频换能器525产生可听通知。如所示出的，视觉指示器520可以是发光二极管(led)。这些设备可以直接耦合到电源570，使得当被激活时，即使处理器560和其他部件可能关闭以用于保存电池电量，其也保持由通知机制指示的持续时间。led可以被编程以保持无限期直到用户采取动作指示设备的加电状态。音频接口574被用于将可听信号提供给用户和从用户接收可听信号。例如，除了被耦合到音频换能器525之外，音频接口574还可以被耦合到麦克风以接收可听输入(诸如促进电话交谈)。麦克风还可以用作促进通知的控制的音频传感器，如下文将描述的。系统502可以还包括视频接口576，其使得板上照相机530的操作能够记录静止图像、视频流等。

实现系统502的移动计算设备500可以具有附加的特征或功能。例如，移动计算设备500还可以包括附加的数据存储装置(可移除和/或不可移除的)，诸如磁盘、光盘或者磁带。通过非易失性存储区域568图示这样的附加存储装置。外围设备端口540允许外部设备被连接到移动计算设备500。外部设备可以向移动计算设备500提供附加特征或者功能和/或允许数据被传递到移动计算设备500或者从移动计算设备500被传递。

由移动计算设备500生成或者收集并且经由系统502所存储的数据/信息本地存储在移动计算设备500上，如上文所描述的，或者数据可以被存储在经由无线电572或者经由移动计算设备500与关联于移动计算设备500(例如，分布式计算网络(诸如因特网)中的服务器计算机)的分离的计算设备之间的有线连接可以由设备访问的任何数目的存储介质。如应当理解，可以经由移动计算设备500或者无线电572或者经由分布式计算网络访问这样的数据/信息。类似地，根据众所周知的数据/信息传送和存储装置(包括电子邮件和协作数据/信息共享系统)，这样的数据/信息可以在计算设备之间容易地传送以用于存储和使用。

图6是用于实践本发明的方面的分布式计算系统的简化框图。与软件应用(包括实现本文所描述的本发明的方面的软件)相关联开发、交互或者编辑的内容可以被存储在不同的通信信道或者其他存储装置类型中。例如，可以使用目录服务622、web门户624、邮箱服务626、即时消息存储628或社交网络站点630存储各种文档。软件应用可以使用用于使能数据利用的这些类型的系统等中的任一个，如本文所描述的。服务器620可以向客户端提供软件应用。作为一个示例，服务器620可以是提供网络上的软件应用的网络服务器。服务器620可以通过网络615向客户端提供网络上的软件应用。通过示例，客户端设备可以被实现为计算设备400并且被实现在个人计算机618a、平板计算机618b和/或移动计算设备(例如，智能电话)618c中。这些客户端设备中的任一个可以从存储616获得内容。

本申请中所提供的一个或多个实施例的描述和图示旨在向本领域的技术人员提供主题的全部范围的完全彻底并且完整的公开内容，并且不旨在以任何方式限制或者约束如所要求保护的本发明的范围。本申请中所提供的方面、实施例、示例和细节被认为足以传达所有权并且使得本领域的技术人员能够实践所要求的本发明的最佳模式。被认为是对于本领域的技术人员众所周知的结构、资源、操作和动作的描述可以简要或者被省略以避免模糊本申请的主题的较少的已知或者独特方面。除非本文明确说明，否则所要求保护的本发明不应当被解释为限于本申请中所提供的任何实施例、示例或者细节。不管是否共同地或分离地示出或描述，各种特征(结构的和方法的二者)旨在选择性地包括或者省略以产生具有特定特征集的实施例。进一步地，可以以任何顺序或者并发地执行所示或所描述的功能和行为的任何或全部。已经提供本申请的描述和图示，本领域的技术人员可以想到落在被实现在不脱离的所要求的本发明的较宽的范围的本申请中的一般发明构思的较宽的方面的精神内的变型、修改和替换。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·夏尔马;张见闻;S·阿罗尼超;柳元沇;汪瑜婧
技术所有人：微软技术许可有限责任公司
我是此专利的发明人

上一篇：电子设备和用于其口头交互的方法与流程
上一篇：来自声音的对数字文档元素的动作的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。