可再用的组织知识的提取与发布的制作方法

文档序号:6359374阅读:342来源:国知局
专利名称:可再用的组织知识的提取与发布的制作方法
可再用的组织知识的提取与发布
背景技术
通常在工作环境中,对于多个用户来说可能相关并且可再用的内容可能对其他人不可用。内容可被包含在各种电子文件中,诸如电子文档、电子邮件、日历项、联系人项、任务项、即时消息、SMS文本消息、社交联网通信、或其他人可能无法访问的其他内容储存库。或者虽然其他人可访问所需的内容,但该内容可被存储在其他人难以找到的地方。由于内容在各用户之间可能不可用且不被共享,因此冗余可能是常见的。例如,团队成员可以向用户提出问题,而该用户可通过电子邮件来提供答案。另一个团队成员可能有相同或相关的问题,并且可能向该用户提出相同的问题。该用户也许必须多次重新键入相同的响应,这会浪费时间和资源。一个人可能不容易找到包含在多种电子文件内的内容。例如,任务或会议信息可被包含在一用户的电子邮件内。虽然该用户可以访问该信息,但特定的内容片段(例如,任务或会议信息)可能不容易被发现,并且可能需要额外的时间来查找。 正是关于这些及其他考虑才作出了本发明。

发明内容
本发明的各实施例通过提供自动地分析包含在非结构化数据源中的内容,发现并提取有趣的可再用数据,并将该数据存储在其他人可通过搜索、浏览、推荐等来查找的公共储存库,来解决上述和其他问题。一个或多个实施例的细节在附图和以下描述中阐明。通过阅读下面的详细描述并参考相关联的附图,其他特征和优点将变得显而易见。要理解的是下面的详细描述仅仅是说明性的,而不是对所要求保护的发明的限制。提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。附图简述合并在本公开中并构成其一部分的附图示出本发明的实施例。在附图中图IA是项目数据聚集和管理(PDAM)应用的操作环境的框图;图IB是用于提供可再用内容的自动提取的操作环境的框图;图2是示出被提取的问题和答案的示例PDAM用户界面的图示;图3是示出被提取的词汇表项的示例PDAM用户界面的图示。图4是提供可再用数据的自动提取和发布的方法的流程图;以及图5是包括计算设备的系统的框图。
具体实施例方式本发明的各实施例针对自动地分析并提取来自多种电子文件(诸如电子文档、电子邮件、日历项、联系人项、任务项、备注、文本消息、社交联网通信、对话、或者其他人可能无法访问或其他人可能发现难以定位的其他内容储存库)的可再用信息。经分析和被提取的信息可被自动地发布到共享的团队储存库。下面的描述涉及附图。只要可能,就在附图和以下描述中使用相同的附图标记来指示相同或类似的元素。尽管可能描述了本发明的实施例,但修改、改编、以及其他实现是可能的。例如,可对附图中所示的元件进行置换、添加、或修改,并且可通过对所公开的方法置换、重新排序、或添加阶段来修改本文中所描述的方法。因此,以下详细描述并不限制本发明。相反,本发明的正确范围由所附权利要求书定义。现在参考附图,其中在若干附图中相似的附图标记表示相似的元素,将描述本发明的各方面和示例性操作环境。图IA和IB以及以下讨论旨在提供其中可实现本发明的合适的操作环境的简要概括描述。尽管将在结合在有线或移动计算设备上的操作系统上运行的应用程序执行的程序模块的一般上下文中描述本发明,但本领域的技术人员将认识到,本发明也可结合其他程序模块来实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组 件、数据结构和其它类型的结构。此外,本领域的技术人员将理解,本发明可以使用其他计算机系统配置来实施,包括手持式设备、多处理器系统、基于微处理器或可编程的消费电子产品、小型计算机、大型计算机等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备两者中。如上简述,各实施例针对自动地分析并提取来自各种电子文件(诸如电子文档、电子邮件、日历项、联系人项、任务项、备注、文本消息、对话、社交联网通信、或者其他人可能无法访问或其他人可能发现难以定位的其他内容储存库)的可再用信息。另外,发现经分析和被提取的数据项的上下文,并且汇编可与给定数据项相关的信息源。图IA示出可用其实现本发明的各实施例的项目数据聚集和管理应用(PDAM应用)114的系统框架。图IA是PDAM应用114的各实施例的系统体系结构的简化框图。PDAM应用的各实施例可被用作项目数据聚集和管理工具。现在参考

图1A,可以提供数据项103。数据项103可以是多种内容类型的,并且可以来自多种数据源102。数据源102可包括但不限于活动、文档、电子邮件、问题与答案、任务、日历、联系人、备注、文本消息、对话、社交联网通信、或可从其检索与一个或多个项目相关的数据的其他电子数据。数据项103可以位于本地文件系统内、基于web的内容管理系统(诸如华盛顿州雷蒙德市的微软公司的SHAREP0INT)内,或远程定位并通过通信网络来链接。在分布式计算环境中,数据项103可位于本地和远程存储器存储设备两者中。数据项103可以是例如日历项、联系人项、电子邮件(“电邮”)通信、社交联网通信、文本消息、通知、任务项、备注、电子文档(例如,文字处理文档、电子表格文档、幻灯片演示文档等)、图像文件、音频文件、或可能与一个或多个感兴趣的项目相关的任何其他数据项。如在此所使用的,术语“项目”不旨在局限于努力或着手创建产品或服务,而是可以包括其中两个或更多个数据片段或其它信息可与主题相关联、并被聚集以供组织和管理的任何主题。本发明的各实施例可包括同步架构106,该同步架构是此处被称为数据收集器的数据收集界面104的架构。数据收集器104是可与数据源102通信、并从该数据源102提取数据项103的界面,该数据项103可包含与项目相关的信息。可以从数据源102拉取数据项103,或另选地,可将数据项103从数据源推送到数据收集器104。用户可在PDAM应用114内创建项目。当项目被创建时,可向该项目赋予标题和描述,该标题和描述可被用作元数据110,以便自动地发现可能与项目相关的内容。数据收集器104可以本地地或从外部储存库搜索内容。可向用户建议已发现的内容,其中该用户可接受所建议的内容片段,并且该数据项103可被提取并被存储到项目数据存储108中。在数据源102与数据收集器104之间交换的信息可以是可定制的。例如,如果数据源102是电子邮件应用、电子日历应用、电子任务应用、或提供这些应用的经组合的资源的应用(例如,华盛顿州雷蒙德市的微软公司的OUTLOOK),则数据收集器104可被实现为与电子邮件应用接口,使得它可用于发现电子邮件的数据和元数据。应当理解,可以存在数据源102的多个提取点。因此,可以存在用于数据源102的多个数据收集器104。考虑上面的示例,数据源102是电子邮件应用、电子日历应用、电子任务应用、或组合功能应用时,一个数据收集器104可被实现为发现电子邮件数据,而另一个数据收集器104可被实现为发现日历数据,再一个用于发现任务数据等。数据收集器104可以不仅知道在哪里得到数据,还 知道如何检索以及检索什么类型的数据。
当新的数据源102被添加到项目时,同步框架106可以实现新的数据收集器104界面。对于每种可能的类型的收集,该界面的实现可被添加到同步框架106。同步框架106可以拉入数据,以及将数据推出回到数据源102。数据可以通过两种模式之一被拉入。根据第一模式,可以根据指定的时间间隔检查数据源102以得到新内容。例如,可以每隔三十
(30)秒钟检查数据源102,以查看是否存在可用的新数据。对于某些数据源102,以这种方式来拉取数据可能是低效的。通过利用订阅者类型的模型,数据源102可在改变发生时通知同步框架106。例如,考虑数据收集、组织和共享应用(例如,华盛顿州雷德蒙市的微软公司的SHAREP0INT)是项目的数据源102。该应用可以使用非常大的列表来传送数据。该列表可具有数千个元素,因此拉取它们并且每隔三十(30)秒钟检查一千个元素以得到新数据将是低效的。因此,第二模式可用于检查新数据。同步框架106可以注册一事件,其中当改变发生时可以通知该同步框架106。数据收集器从数据源102拉取与项目相关的数据项103时,该数据可被存储在项目数据存储108中。该项目数据存储108是数据储存库或组织知识库,并且可对其他人可用且可由其访问。数据收集器104可以根据可能是对系统最高效的任何方式将数据放入项目数据存储108中。例如,如果文档信息正被收集,则可通过下载该文档并将整个文档与项目相关联,将该数据放入数据存储108中。另选地,可以下载到文档的链接,而不是下载完整的文档;并且可用最近的修改日期来标记链接信息。可以根据相同的方式从多个聚集点收集多种形式的数据,数据被内部存储的方式可以变化。项目数据108可以是实际数据的标识的集合,该实际数据可以被本地地存储、或被存储在不同的位置。数据可包含与项目有关的内容及联系人信息、以及可能与项目相关的任何其他可用的内容。项目数据存储108也可包含元数据110,诸如,标题或关键词、描述、可被联接并在项目上工作的其他人、安全描述符、应该被存储在项目内的内容的类型、以及应该如何将其显示在用户界面112中。根据一个实施例,数据可被存储在数据库表中,例如结构化查询语言(SQL)数据表。项目数据存储108被创建后,全部相关联的内容可被添加到该数据存储中。内容可包括提供名称、标识符、创建日期、和其他元数据片段以及有效载荷的通用包装器,有效载荷包括实际数据或到该实际数据的链接。例如,如果用户向项目添加联系人,则可以创建可包含联系人的头衔、其被创建的日期等、和有效载荷的包装器。对于联系人,有效载荷将是正被添加作为联系人的用户的唯一标识符。对于项目内的每种类型的内容都存在包装器和有效载荷。根据一实施例,项目可以与企业级结构化项目共存,该企业级结构化项目可以是与数据、数据源相关联的项目,以及跨可变大小和结构的组织和实体的项目。企业项目可以是可从其提取信息的源。企业项目可包含可交付物,该可交付物可被定义为PDAM应用项目。总体项目系统可以管理这些可交付物或PDAM应用项目。PDAM应用用户界面(UI) 112是可以显示来自多个数据源102的数据项103的模块化用户界面。例如,PDAM应用Π 112可以显示像日历数据、电子邮件、任务等的数据项103,以及诸如文字处理文档、电子表格文档、演示文档、备注文档和社交联网通信的任何其 他类型的数据。PDAM应用Π 112可以借用诸如电子邮件应用、电子日历应用、电子任务应用、或提供这些应用的经组合的资源以供显示并与日历、任务和电子邮件项交互的应用等一个或多个应用的功能。PDAM应用Π 112还可以扩展其他应用的功能,使得它可以显示其他相关的项目信息。可以在PDAM应用UI 112内提供通知系统。根据一实施例,当数据收集器104从数据源102检索数据项103时,可以通过PDAM应用UI 112通知用户新信息可用,使得该用户随后可对其进行操作。例如,项目中的一人可上传与该项目有关的新文档。该项目中的其他成员可能需要知道新文档已被上传。其他用户可以接收新活动可用的通知。根据一实施例,可依赖于数据源102类型来提供通知。例如,被路由到一项目的给定用户的电子邮件可能不需要通知该项目的其他用户。根据另一个实施例,用户可以通过PDAM应用UI 112来发布可被发出到多个数据源102的新数据。例如,如果用户具有被链接到多个通信源(诸如,电子邮件、即时消息收发、以及例如FACEB00K或TWITTER的一个或多个社交网络)的项目,则该用户可将内容推出回到那些通信源中的一个或多个。用户可以从该PDAM应用Π 112内创建电子邮件、或文本消息、或其他合适的消息收发形式。PDAM应用Π 112可以作为内容聚集器以及将内容推出回到任何所需接收用户或接收系统的方法。已经描述了用其实现本发明各实施例的项目应用和管理应用(PDAM应用)114的系统架构,图IB是用于提供对来自各种多个电子文件(诸如,电子文档、电子邮件、日历项、联系人项、任务项、备注、文本消息、社交网络通信等)的可再用信息的自动分析和提取、以及将被提取的可再用组织信息自动发布到共享团队储存库的操作环境100的简化框图。应当理解,可以不共享某些类型的信息。例如,针对给定用户的数据项(例如,被提取的任务、电子邮件等)可以仅对该用户可见。现在参考图1B,示出了同步架构106,其中如上所述的架构是与任何数据源通信而无论其类型的数据收集器104的集合。同步架构106可从多个数据源拉入数据,并将该数据及其元数据110存储到项目数据存储108中。分析模块116,也被称为分析器,可在新的数据项和内容被添加到项目数据存储108时由同步架构106触发。分析模块116可在新内容上运行一系列分析特征提取器,其中可以执行分析,并且可从数据项中提取感兴趣的特征。从数据项提取的一个或多个感兴趣的特征可包括关键词、问题、答案、术语、链接、图像、作者、发送者、接收者、日期、名称、次数以及来自电子文档、电子邮件、日历项、联系人项、任务项、社交网络通信、通知等的其他内容。分析可利用自然语言处理来提供自动或半自动的信息提取。分析可依赖于内容类型而利用诸如搜索和机器学习技术的其它技术来提取信息。被提取的感兴趣的特征可作为元数据110被保存到项目数据存储108内,并且可以与从其提取该特征的数据项相关联。被提取的感兴趣的特征可以与多个数据项103相关联。例如,可以从电子邮件线程的概述提取感兴趣的特征,其中被提取的结果可以与整个电子邮件线程相关联,并因此与数据项103集合而不是单个数据项相关联。根据一实施例,分析模块116可用于发现可从已位于项目数据存储108的内容中搜集的附加信息。作为一个示例,与给定联系人或用户相关联的元数据110可用于发现他/她可订阅的其他项目。新内容被添加和分析时,以及感兴趣的新特征被提取并作为元数据110被保存且被添加到数据存储108时,可以为那些感兴趣的新特征重新分析旧内容。分析模块116也可以重新分析旧内容,诸如电子邮件(电邮)线程。例如,如果对话线程上的新的电子邮件被添加到数据存储108,则可以重新分析整个对话线 程,而不仅是新的电子邮件。如上所述,分析模块116可提取的感兴趣的特征可包括给定数据项的各个方面或组件。作为一个示例,电子邮件的地址字段和主题字段内的数据、以及电子邮件主体内的关键词可被提取作为元数据110。根据一实施例,分析模块116可以提取包含在数据内的隐式信息。例如,多个任务和问题可被散落在电子邮件的主体各处中。该任务或问题中没有一个可被显式地标记为任务或问题。根据各实施例,分析模块116用于从该内容提取隐式任务和问题。类似地,对该电子邮件的回复可包含问题的答案。可以提取这些答案,与对应的问题配对,并将其作为元数据110保存到项目数据存储108内。根据一实施例,感兴趣的特征可被聚集到单独的储存库中。例如,问题和答案可被聚集并被存储到常见问题(FAQ)的单独数据库中。分析模块116还可利用项目数据存储108来存储与用户同所建议和/或所存储的元数据110的交互相关联的数据。该观察到的交互和收集到的数据可用于学习功能,使得未来的分析可以被改进。可以在用户界面112中显示项目数据,其中用户可与项目数据交互。数据可被标记为私有、公共、或对精选用户是公共的。例如,如果数据从用户的电子邮件被提取,则该数据可被存储到项目数据存储108中,但是该数据可以是私有的并仅对该用户是可访问的。如果用户选择,他/她可以指定使该数据变为对其他人是公共的或可访问的。虽然分析模块116在图IB中被示为是与同步架构106分开的模块,但应当理解的是,分析模块116和同步架构可以作为单个模块来操作。现在参考图2,示出了示例PDAM应用用户界面(UI)112的图示。在该示例Π 112中,示出了问题与答案(QnA)面板200。QnA面板200可以是问题202和(若提供)该问题的答案的共享的项目专用储存库。如参考图IB所描述的,可以从诸如电子邮件或文档等数据项103中提取诸如问题202和答案204的数据。如图2所示,已经从各种数据项103提取了各种问题202。问题和答案项202、204在数据项103中可能未被显式地标记为问题和/或答案,但可通过分析模块116从项目数据中被自动地提取。问题和/或答案可在用户批准时或通过直接张贴到QnA面板中,来被添加到QnA面板。可使QnA项202、204是公共的,并可将其展示给其他成员。现在参考图3,示出了显示专门术语面板300的示例Π 112。专门术语面板300可以是共享的项目专用的术语词汇表。词汇表项302可像图2中的QnA面板200那样通过分析模块116从多种电子文件(诸如电子文档、电子邮件、日历项、联系人项、任务项、备注、社交联网通信、对话、文本消息等)被自动地提取。如图3所示,还可从项目数据中提取definition (定义)304、usage (使用)306、和 synonym (同义词)数据 308 并在 UI 112 中提供。现在参考图4,将描述方法400的过程流程图,该方法用于提供对来自电子文件(诸如,电子文档、电子邮件、日历项、联系人项、任务项、备注、文本消息、对话、社交联网通信、或其他电子内容)的可再用组织信息的自动分析和提取、以及将被提取的可再用信息自动发布到共享的团队储存库。根据一个实施例,方法400包括用于提供从非结构化数据项提取感兴趣的特征、并将该感兴趣的特征填充到结构化数据存储的方法。该方法在操作405开始,并前进到操作410,其中数据项103被添加到项目数据存储108。数据项103可包含与项目相关的数据和任何其他可用的内容,诸如来自例如电子文档、电子邮件、日历项、联 系人项、任务项、备注、文本消息、社交联网通信等可与项目相关的电子文件的内容。如上所述,可从包括本地和远程数据库、服务器和基于web的内容管理系统的多个数据源102中收集数据项103。数据项103可由用户手动地或通过数据收集器界面104自动地添加到项目数据存储108。方法400前进至操作415,其中同步架构106触发分析模块116以分析被添加到项目数据存储108的新的数据项。在操作420,数据项103可由分析模块116来分析以得到感兴趣的特征。无论数据类型如何,新的数据项都可以被分析以得到一个或多个感兴趣的特征。感兴趣的特征可包括但不限于关键词、问题、答案、术语、链接、图像、作者、发送者、接收者、文本的一部分、日期、同样的话题/主题分析、联系人建议。应当理解,该感兴趣的特征列表不旨在是穷尽式的列表。分析模块116可利用自然语言解释以查找感兴趣的特征,其中感兴趣的特征可以是为内容片段给出上下文的数据。例如,电子邮件对话可以正在两个或更多个用户之间发生。在一个电子邮件中,一个用户可能提出关于如何提交专利的问题。响应于该电子邮件,另一个用户可能通过陈述该过程包括提交专利申请来回答该问题。他/她还可安排会议以讨论提交专利。根据各实施例,分析模块116可以分析电子邮件串并提取问题、答案,将问题与答案配对,并且提取会议信息。在操作425,被提取的数据可以作为元数据110被存储到数据存储108中。该数据存储是共享的且可搜索的数据储存库。元数据110可以与也存储元数据或其他信息的一个或多个其他数据项相关联,并且可以通过搜索该一个或多个其他数据项来发现所存储的元数据110 (并且由此可以发现数据项)。根据一实施例,可以请求或需要来自用户的响应以将数据片段作为元数据110来保存。如果用户接受,则元数据110可被存储到项目数据存储108中。可以观察用户与所建议和/或所存储的元数据110的交互并将其作为数据来收集,以便用在学习功能中。该方法在430结束。如上所述,发明的各实施例可通过本地和远程计算和数据存储系统来实现,包括参考图I和2所示和所述的系统。根据本发明的各实施例,上述存储器存储和处理单元可在诸如图5所示的计算设备500的一个或多个计算设备中实现。可使用硬件、软件或固件的任何合适的组合来实现存储器存储和处理单元。例如,存储器存储和处理单元可用计算设备500或任何其他计算设备518结合计算设备500来实现,其中在分布式计算环境(如内联网或因特网)中可通过网络将功能集合在一起,以执行如本文所述的功能。根据本发明的实施例,上述系统、设备和处理器是示例,而其他系统、设备和处理器可包括上述存储器存储和处理单元。此外,计算设备500可包括如上所述的操作环境100。操作环境100并不限于计算设备500。参考图5,符合本发明的各实施例的系统可包括诸如计算设备500的计算设备。在基本配置中,计算设备500可包括至少一个处理单元502和系统存储器504。取决于计算设备的配置和类型,系统存储器504可包括,但不限于,易失性存储器(例如,随机存取存储器(RAM))、非易失性存储器(例如,只读存储器(ROM))、闪存、或任何组合。系统存储器504可包括操作系统505、一个或多个编程模块506,并可包括项目数据聚集和管理应用114和分析模块116,其中项目数据聚集和管理应用114和分析模块116是具有充足的计算机可执行指令的软件应用,当指令被执行时执行如此处所述的功能。例如,操作系统505可适用于控制计算设备500的操作。此外,本发明的实施例可结合图形库、其他操作系统、或任何其他应用程序来实践,并且不限于任何特定应用或系统。该基本配置在图5中由虚线508内的那些组件示出。
计算设备500可具有附加特征或功能。例如,计算设备500还可包括附加数据存储设备(可移动和/或不可移动),诸如例如,磁盘、光盘、或磁带。这些附加存储在图5中由可移动存储509和不可移动存储510示出。计算设备500还可包含可允许设备500诸如通过分布式计算环境中的网络(例如,内联网或因特网)来与其他计算设备518进行通信的通信连接516。通信连接516是通信介质的一个示例。如上所述,可在系统存储器504中存储包括操作系统505在内的多个程序模块和数据文件。当在处理单元502上执行时,编程模块506 (例如,项目数据聚集和管理应用114)可执行各过程,包括例如,如上所述的方法200的各阶段中的一个或多个。上述过程是一个示例,且处理单元502可执行其他过程。根据本发明的实施例可使用的其他编程模块可包括电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片演示应用程序、绘图或计算机辅助应用程序等。一般而言,根据本发明的实施例,程序模块可包括可执行特定任务或可实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外,本发明的实施例可用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器的系统或可编程消费电子产品、小型机、大型计算机等。本发明的实施例还可在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备两者中。此外,本发明的实施例可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实践。本发明的实施例还可使用能够执行诸如例如,AND (与)、0R (或)和NOT (非)的逻辑运算的其他技术来实践,包括但不限于,机械、光学、流体和量子技术。另外,本发明的实施例可在通用计算机或任何其他电路或系统中实践。例如,本发明的实施例可被实现为计算机过程(方法)、计算系统、或诸如计算机程序产品或计算机可读介质之类的制品。计算机程序产品可以是计算机系统可读并对用于执行计算机过程的指令的计算机程序编码的计算机存储介质。因此,本发明可以硬件和/或软件(包括固件、常驻软件、微码等)来体现。换言之,本发明的实施例可采用其上包含有供指令执行系统使用或结合其使用的计算机可使用或计算机可读程序代码的计算机可使用或计算机可读存储介质上的计算机程序产品的形式。计算机可使用或计算机可读介质可以是可包含、存储、通信、或传输程序以供指令执行系统、装置或设备使用或结合其使用的任何介质。本文所使用的术语计算机可读介质可包括计算机存储介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器504、可移动存储509和不可移动存储510都是计算机存储介质(即,存储器存储)的示例。计算机存储介质可包括,但不限于,RAM,ROM,电可擦除只读存储器(EEPR0M)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD )或其他光存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或者可用于存储信息且可由计算设备500访问的任何其他介质。任何这样的计算机存储介质都可以是设备500的一部分。计算设备500还可具有输入设备512,诸如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可包括输出设备514,诸如显示器、扬声器、打印机等。上述设备是示例,并且可使用其他设备。 本文所使用的术语计算机可读介质还可包括通信介质。通信媒介可由诸如载波或其他传输机制的已调制数据信号中的计算机可读指令、数据结构、程序模块、或其他数据来体现,并且包括任何信息传递介质。术语“已调制数据信号”可以描述以对该信号中的信息进行编码的方式设定或者改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接等有线介质,以及诸如声学、射频(RF)、红外线和其他无线介质等无线介质。以上参考例如根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作示图描述了本发明的实施例。框中所注明的各功能/动作可按不同于任何流程图所示的次序出现。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可基本同时执行,或者这些框有时可按相反的次序执行。尽管已描述了本发明的特定实施例,但也可能存在其他实施例。此外,虽然本发明的实施例被描述为与存储在存储器和其他存储介质中的数据相关联,但是数据还可被存储在其他类型的计算机可读介质上或从其读取,诸如辅助存储设备(像硬盘、软盘、或CD-ROM)、来自因特网的载波、或其他形式的RAM或ROM。此外,所公开的方法的各步骤可以任何方式修改,包括通过对各步骤重新排序和/或插入或删除步骤,而不背离本发明。包括此处所包括的代码中的版权在内的所有权利都归属于申请人并且是本申请人的财产。本申请人保持并保留此处所包括的代码中的所有权利,并且授予仅关于所授权专利的再现且未出于其他目的再现该材料的许可。尽管本说明书包括示例,但本发明的范围由所附权利要求书来指示。此外,尽管用对结构特征和/或方法动作专用的语言描述了本说明书,但权利要求书并不限于以上所描述的特征或动作。相反,以上所描述的特定特征和动作是作为本发明的实施例的示例来公开的。
权利要求
1.一种用于提供从数据项提取感兴趣的特征,并将所述感兴趣的特征填充到数据存储中的方法,所述方法包括 接收被添加到数据存储的新的数据项的指示; 分析所述新的数据项以得到一个或多个感兴趣的特征; 从所述新的数据项中提取一个或多个感兴趣的特征;以及 将被提取的感兴趣的特征作为与所述新的数据项相关联的元数据存储到所述数据存储中。
2.如权利要求I所述的方法,其特征在于,所述一个或多个感兴趣的特征包括关键词、问题、答案、术语、链接、图像、作者、发送者、接收者、名称、文本的一部分、或日期。
3.如权利要求I所述的方法,其特征在于,分析所述新的数据项以得到一个或多个感 兴趣的特征包括,通过对所述新的数据项的自然语言解释来分析所述新的数据项以得到一个或多个感兴趣的特征。
4.如权利要求I所述的方法,其特征在于,接收被添加到数据存储的新的数据项的指示包括通过同步架构来接收被添加到数据存储的新的数据项的所述指示。
5.如权利要求I所述的方法,其特征在于,数据项是电子文档、电子邮件、日历项、联系人项、任务项、备注、文本消息、对话和社交联网通信中的一个。
6.如权利要求I所述的方法,其特征在于,分析所述新的数据项以得到一个或多个感兴趣的特征而无论其数据类型。
7.如权利要求I所述的方法,其特征在于,还包括将与所述新的数据项相关联的所述元数据与一个或多个其他数据项相关联,其中通过搜索所述一个或多个其他数据项,所存储的元数据是能够被发现的。
8.一种存储指令集的计算机可读介质,所述指令集在被执行时执行用于提供从未结构化数据项中提取感兴趣的特征、并将所述感兴趣的特征填充到结构化数据存储的方法,由所述指令集执行的所述方法包括 通过同步架构来接收被添加到数据存储的新的数据项的指示; 分析所述新的数据项以得到一个或多个感兴趣的特征; 分析之前已存储的数据项以得到一个或多个感兴趣的特征; 从所述新的数据项中提取一个或多个感兴趣的特征; 建议一个或多个被提取的感兴趣的特征; 响应于对所建议的一个或多个被提取的感兴趣的特征的接受,将被提取的感兴趣的特征作为与所述新的数据项相关联的元数据存储到所述数据存储中;以及 将与对一个或多个所建议的被提取的感兴趣的特征的接受或拒绝相关联的数据用于对未来分析的学习功能。
9.一种用于提供从非结构化数据项中提取感兴趣的特征,并将所述感兴趣的特征填充到结构化数据存储中的系统,所述系统包括 存储器存储; 耦合到所述处理器存储的处理单元; 分析模块,用于 接收被添加到数据存储的新的数据项的指示;分析所述新的数据项以得到一个或多个感兴趣的特征; 从所述新的数据项中提取一个或多个感兴趣的特征;以及 将被提取的感兴趣的特征作为与所述新的数据项相关联的元数据存储到所述数据存储中。
10.如权利要求9所述的系统,其特征在于,所述分析模块还用于利用自然语言解释来分析各种类型的数据项以得到一个或多个感兴趣的特征。
全文摘要
分析模块,在新的数据项被添加到项目数据存储而被同步架构触发时,在该新内容上运行一系列分析特征提取器。可以执行分析,并且可以从该数据项提取感兴趣的特征。该分析利用自然语言处理以及其他技术来提供自动或半自动的信息提取。被提取的感兴趣的特征作为元数据被保存在项目数据存储内,并且与从其提取该特征的数据项相关联。该分析模块可用于发现可从已位于项目数据存储的内容中搜集的附加信息。
文档编号G06Q10/00GK102741867SQ201180006415
公开日2012年10月17日 申请日期2011年1月13日 优先权日2010年1月19日
发明者A·卡特拉普, A·沙玛, B·E·蔡尔兹, B·Sj·克赫尔米尔, C·A·奥基弗, D·佩雷斯德尔卡皮奥, J·C·路德维格, J·沙哈, K·曼尼斯, K·鲍威尔, M·P·沃尔维卡, M·盖蒙, N·卡尔德维尔, P·W·特尔霍斯特, S·迪米克, S·阿扎姆, T·H·潘, V·P·奇拉卡玛瑞, 王野翊, 蔡亦铮, 郭薰如 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1