基于用户和数据属性推荐数据的制作方法

文档序号:6378599阅读:130来源:国知局
专利名称:基于用户和数据属性推荐数据的制作方法
技术领域
本申请涉及数据推荐,尤其涉及基于用户和数据属性推荐数据。
背景技术
1.背景和相关技术计算机系统和相关技术影响社会的许多方面。的确,计算机系统处理信息的能力已转变了人们生活和工作的方式。计算机系统现在通常执行在计算机系统出现以前手动执行的许多任务(例如,文字处理、日程安排和会计等)。最近,计算机系统彼此耦合并耦合到其他电子设备以形成计算机系统和其他电子设备可以在其上传输电子数据的有线和无线计算机网络。因此,许多计算任务的执行分布在多个不同的计算机系统和/或多个不同的计算环境中。当用户操作数据集时,用户一般被要求前往并寻找可能将值添加到数据集的相关数据和/或数据资源。寻找数据和/或数据资源一般是手动的并且对于用户而言是有些麻烦的过程。此外,用户必须知晓要搜索什么数据并且也知晓他们想要搜索该数据。即,用户不得不知晓要问的正确的问题。例如,当操作数据集时,用户一般离开他们的数据应用(例如,文字处理器、电子表格、数据库等)并使用搜索工具(例如,基于Web的搜索引擎)来寻找他们可将其带入到他们的数据集中来添加值的相关数据和/或数据资源。使用搜索工具一般也需要用户向搜索工具提供相关输入来使搜索工具寻找相关数据和/或数据资源。此外,搜索工具一般缺少任何关于用户的可被用于改进对相关数据和/或数据资源的搜索的信息(例如,用户上下文)。

发明内容
本发明涉及用于基于用户和数据属性推荐数据的方法、系统和计算机程序产品。检测到用户已经访问了数据处理应用内的数据集。为所访问的数据集导出源属性。从以下一个或多个导出源属性用户的用户信息和数据的数据信息。为一个或多个目标数据集和/或一个或多个目标数据服务标识目标属性。所导出的源属性与为至少一个目标数据集和/或至少一个目标数据服务所标识的目标属性一起使用,以确定至少一个目标数据集和/或至少一个目标数据服务作为相关数据的源的期望度。至少一个目标数据集和/或至少一个目标数据服务作为能够提供相关数据被推荐给用户。相关数据被发现为对于在与所访问的数据集类似的数据上操作的其它用户有用。提供发明内容述以便以简化形式介绍将在以下具体实施方式
中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。附加的特征和优点将在以下的描述中被阐述,并且部分地可通过该描述而对本领域技术人员显而易见,或者可通过对本文中的教示的实践来习得。本发明的实施例的特征和优点可以通过在所附权利要求中特别指出的手段和组合来被实现并获得。本发明的实施例的特征将从以下描述和所附权利要求书中变得完全显而易见,或者可通过如下所述对本发明的实践而习得。


为了描述可获得本发明的上述和其他优点和特征的方式,将通过参考附图中示出的本发明的具体实施例来呈现以上简要描述的本发明的更具体描述。可以理解,这些附图仅描述本发明的典型实施例,从而不被认为是对其范围的限制,本发明将通过使用附图用附加特征和细节来描述和说明,在附图中图1示出了便于基于用户和数据属性推荐数据的示例计算机体系结构。图2示出基于用户和数据属性推荐数据的示例方法的流程图。
具体实施例方式本发明涉及用于基于用户和数据属性推荐数据的方法、系统和计算机程序产品。检测到用户已经访问了数据处理应用内的数据集。为所访问的数据集导出源属性。从以下一个或多个导出源属性用户的用户信息和数据的数据信息。为一个或多个目标数据集和/或一个或多个目标数据服务标识目标属性。所导出的源属性与为至少一个目标数据集和/或至少一个目标数据服务所标识的目标属性一起使用,以确定至少一个目标数据集和/或至少一个目标数据服务作为相关数据的源的期望度。至少一个目标数据集和/或至少一个目标数据服务作为能够提供相关数据被推荐给用户。相关数据被发现为对于在与所访问的数据集类似的数据上操作的其它用户有用。本发明的各实施例可包括或利用专用或通用计算机,该专用或通用计算机包括诸如例如一个或多个处理器、系统存储器和显示器等计算机硬件,如以下更详细讨论的。本发明范围内的各实施例还包括用于承载或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这样的计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(设备)。承载计算机可执行指令的计算机可读介质是传输介质。由此,作为示例而非限制,本发明的各实施例可包括至少两种显著不同的计算机可读介质计算机存储介质(设备)和传输介质。计算机存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(SSD)(如基于RAM)、闪存、相变存储器(PCM)、其它类型的存储器、其他光盘存储、磁盘存储或其他磁存储设备、或可用于存储计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的任何其他介质。“网络”被定义为允许在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当信息通过网络或另一个通信连接(硬连线、无线、或者硬连线或无线的组合)传输或提供给计算机时,该计算机将该连接适当地视为传输介质。传输介质可包括可用于携带计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的网络和/或数据链路。上述的组合也应被包括在计算机可读介质的范围内。此外,在到达各种计算机系统组件之后,计算机可执行指令或数据结构形式的程序代码装置可从传输介质自动传输到计算机存储介质(设备)(或反之亦然)。例如,通过网络或数据链接接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如,“NIC”)内的RAM中,然后最终被传输到计算机系统RAM和/或计算机系统处的较不易失性的计算机存储介质(设备)。因而,应当理解,计算机存储介质(设备)可被包括在还利用(甚至主要利用)传输介质的计算机系统组件中。计算机可执行指令例如包括,当在处理器处执行时使通用计算机、专用计算机、或专用处理设备执行某一功能或某组功能的指令和数据。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述特征或动作。相反,上述特征和动作是作为实现权利要求的示例形式而公开的。本领域的技术人员将理解,本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践,这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、平板、寻呼机、路由器、交换机等等。本发明也可在其中通过网络链接(或者通过硬连线数据链路、无线数据链路,或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备二者中。 本发明的实施例包括使用当前用户的已标识的属性以及源数据或两者,以向用户提议相关目标数据和数据服务。也使用目标数据或数据服务的属性。目标数据和数据服务被推荐。目标数据和数据服务可类似于被发现对用户(如操作类似源数据的数据的当前用户)有用的那些。因此,用户可被提供相关数据和/或数据服务而不必积极搜索。此外,可提供对于目标数据和/或数据服务的使用推荐。图1示出了便于基于用户和数据推荐数据的示例计算机体系结构100。参考图1,计算机体系结构100包括应用101、分析模块102、数据存储108、数据目录112,以及数据服务113。组件中的每一个都通过诸如例如局域网(“LAN”)、广域网(“WAN”)或甚至因特网之类的网络(诸如例如,网络131)彼此连接(或者是网络的一部分)。因此,所描绘的计算机系统中的每一个以及任何其他连接的计算机系统及其组件都可以创建消息相关数据并通过网络131交换消息相关数据(例如,网际协议(“IP”)数据报和利用IP数据报的其他更高层协议,诸如传输控制协议(“ TCP ”)、超文本传输协议(“HTTP ”)、简单邮件传输协议(“ SMTP ”)等)。
应用101包括用户界面119。应用101基本上可以是任何数据处理应用,诸如例如电子表格应用、数据库应用、文字处理程序等。用户107可与用户界面119进行交互以将输入提交给应用101并观察来自应用101的输出。用户107可与用户界面119进行交互以将数据集装载到应用101中并操纵包括在被装载到应用101中的数据集的数据。用户界面119可以呈现在显示设备上。数据目录112和数据服务113对于用户107与之相关联的组织(例如,公司)而言可以是内部的或外部的。通常,分析模块102被配置为分析用户和数据,并将源属性匹配到目标属性以标识被推荐的数据。分析模块102可作为(例如,自动化的)后台进程来操作。如此,分析模块102可具有很少,如果有,对于计算机体系结构100内的其它进程(例如,在应用101)的性能影响。分析模块102包括源属性导出模块142、目标属性导出模块143,和匹配模块147。源属性导出模块142被配置成从以下一个或多个导出源属性源数据集信息、用户信息,和环境条件(例如操作系统的环境条件,正被执行的任务,等)。目标属性导出模块143被配置成从数据目录112中的数据以及通过数据服务113可用的数据导出目标属性。匹配模块147可将源属性匹配到目标属性,以标识可提供超出源数据集的值的数据的数据目录和/或数据服务。分析模块102可在推荐数据时实现各种不同机制中的任一种。在一些实施例中,分析模块102实现统计算法,以从更高维度属性空间转换到更低维度空间(亦称‘特性空间’)。从更高维度属性到更低维度属性空间的转换可被用来生成源属性。在这些实施例中,分析模块学习特性空间中的值的每个组合所期望的评级。另选地或组合地,分析模块102可利用基于辅助规则的算法。基于辅助规则的算法可在更高维度属性空间和更低维度空间两者操作。基于辅助规则的算法可修补由统计算法提议的推荐。修补推荐可包括添加、移除,或调整推荐。基于辅助规则的算法允许除统计的以外的编辑推荐。基于辅助规则的算法通过在属性上处理条件树的表达式,并向下评估到关于它是否应该激发的布尔值来运算。推荐可具有允许它们被跨系统组合的等级。推荐可被修补以基于来自统计算法的推荐已如何表现而重新缩放推荐。图2示出基于用户和数据属性推荐数据的示例方法200的流程图。方法200将参考计算机架构100的组件和数据来描述。方法200包括检测用户作为执行指定任务的一部分访问了数据处理应用内的数据集的动作(动作201)。例如,应用101可检测用户107作为任务(例如,将数据添加到客户或产品电子表格)的一部分访问了应用101内的数据集111。用户107可将访问命令123发送(可能通过用户界面119)到数据存储108以装载应用101中的数据111。方法200包括导出所访问的数据集的源属性的动作,源属性从以下一个或多个导出用户的用户信息、数据的数据信息,环境条件(动作202)。例如,源属性导出模块142可从以下一个或多个导出(数据集111的)源属性144 :用户信息148、数据集111,和环境条件141 (例如,操作系统的条件、指定任务的条件等)。方法200包括标识一个或多个目标数据集和/或一个或多个目标数据服务的目标属性的动作(动作203)。例如,目标属性导出143可标识数据目录112A、112B、112C等中的数据,和数据服务113A、113B、113C等处的可用数据的目标属性146。方法200包括将所导出的源属性与为一个或多个目标数据集的至少一个和/或一个或多个目标数据服务的至少一个所标识的目标属性一起使用,以确定一个或多个目标数据集的至少一个和/或一个或多个目标数据服务的至少一个作为相关数据的源的期望度的动作(动作204)。例如,匹配模块147为至少一个数据目录112和/或为至少一个数据服务113使用源属性144和标识出的属性146,以确定至少一个数据目录112和/或至少一个数据服务113作为与数据集111相关的数据的源的期望度。在一些实施例中,匹配模块147将源属性114至少部分匹配到目标属性146。方法200包括向用户推荐至少一个目标数据集和/或至少一个目标服务,作为能够提供被发现为对于在类似环境条件下在与所访问的数据集类似的数据上操作的用户有用的数据的动作(动作205)。例如,匹配模块147可向用户界面119发送推荐116。推荐116包括分别对应于数据目录112A和数据服务113A和113B的推荐117AU18A,和118B。每个推荐可指示数据目录和/或数据服务如何与数据集111相关。推荐数据目录或数据服务可包括使用统计和/或基于规则的算法。推荐116还可以指示被推荐的数据目录和/或数据服务可以如何被用来将数据集成到数据集111内。例如,推荐116可指示由数据目录或数据服务提供的两列数据要被结合用于包括在数据集111中。用户107随后可选择在用户界面119处呈现的一个或多个推荐。例如,用户107可将选择121提交给用户界面119来选择推荐118A。用户界面119可接收选择121。响应于对推荐118A的选择,分析模块102可将相关数据122从数据服务113A传送到数据集111中。因此,相关数据122可被用在应用101内,而不需要用户107必须离开应用101。在一些实施例中,基于对用户行为的推断和用户的明确标记,用户属性被收集并周期性地更新。例如,分析模块102可基于对用户107的行为的推断和/或用户107的明确标记收集并周期性地更新用户107的用户属性。数据集属性可通过管道收集。管道可基于以下一个或多个原始数据(或数据视图)、一组特性样本或数据聚集(统称采样数据),通过检查采样数据标识的属性。总之,可能是数据集意味着被一起使用(如excel文件中的工作表)。因此,分析运行在数据集内的数据的每个部分。数据集属性跨各部分(例如,列、表和表集)被标识。数据集属性被馈送到分析模块(例如分析模块102),分析模块处理这些属性并提出数据和数据服务的推荐。在一些实施例中,用户可相对于被推荐的数据直接使用所访问的数据集。在其它实施例中,被推荐的数据被转换以便于直接使用。转换模块(未示出)可考虑以下一个或多个数据类型、语义含义、数据格式,和域覆盖(在为直接使用而转换被推荐的数据时)。例如,可以有(例如电子表格中的)实值数量(类型)的两列,其以纬度和经度(格式)表示加拿大东南(域覆盖)的位置(语义含义)。兴趣高的和高质量的数据源可直接与这些排成一行,并可被简单提议与具有正确属性的列结合。转换可以被链接以允许未期望但对用户有用的数据。例如,给定你的移动应用的IP地址记录,IP地址可被转换成位置信息。地址信息可随后被转换成人口统计信息和与你的移动应用相关的社交媒体意见。基于数据集各部分(例如电子表格的列)的粒度、数据集的数据各部分内的数据的分布和相关联的语义,可构建转换管道以便于数据源的直接使用而数据最小劣化。粒度可
被用来缓解数据丢失-国家的人口统计相比邮政编码(postal code)的人口统计更少有
价值。域覆盖可被用来评估结合产品——如果数据集在邮政编码(zip code)数据中几乎不交迭,但在国家数据中完全交迭,即使邮政编码更局部的,但使用国家数据可能更好。因此,通过按粒度和/或结合产品给管道打分,可通过一系列使用数据集和数据服务的转换来获得最小信息丢失。数据服务可被看作数据集它们本身,其中被分析数据是所期望的模式以及跨所支持数据的值采样。输出可被看作所访问数据集的部分(例如当表格一行一行地排列),对所访问的数据集的补充(例如,当数据按列排列但是表示新行),或作为新数据源(例如既不一行一行排列,也不按列排列)。如此,本发明的实施例包括周期性地(并可能自动地)访问并更新用户信息和所访问的数据集。源属性从用户信息和所访问的数据集导出。目标属性从数据目录和数据服务导出。源属性与目标属性进行比较。当所访问数据集的源属性与数据目录或数据服务的目标属性匹配时,因为具有与所访问数据集相关的数据,数据目录或数据服务可被推荐给用户。因此,相关数据可被推荐给用户,无需用户必须明确搜索相关数据或甚至知晓相关数据存在。本发明可具体化为其它具体形式而不背离其精神或本质特征。所描述的实施例在所有方面都应被认为仅是说明性而非限制性的。因此,本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变被权利要求书的范围所涵盖。
权利要求
1.在包括一个或多个处理器、系统存储器,和显示设备的计算机系统处,一种用于推荐与数据集相关的数据的方法,所述数据集在数据处理应用中使用,所述方法包括 检测用户已经访问所述数据处理应用内的数据集作为执行指定任务的部分的动作; 导出所访问的数据集的源属性的动作,所述源属性从以下一个或多个导出所述用户的用户信息和所述数据的数据信息; 为一个或多个目标数据集和/或一个或多个目标数据服务标识目标属性的动作; 将所导出源属性与为所述一个或多个目标数据集的至少一个和/或所述一个或多个目标数据服务的至少一个所标识的目标属性一起使用,以确定所述一个或多个目标数据集的至少一个和/或所述一个或多个目标数据服务的至少一个作为相关数据的源的期望度的动作;以及 向所述用户推荐所述至少一个目标数据集和/或所述至少一个目标数据服务作为能够提供被发现为对于在与所访问的数据集类似的数据上操作的其他用户有用的数据的动作。
2.如权利要求1所述的方法,其特征在于,导出所访问数据集的源属性的动作包括从包括在所访问数据集内的原始数据中导出源属性的动作。
3.如权利要求1所述的方法,其特征在于,导出所访问数据集的源属性的动作包括从所访问数据集的一组聚集中导出源属性的动作。
4.如权利要求1所述的方法,其特征在于,导出所访问数据集的源属性的动作包括从用户相关信息中导出源属性的动作。
5.如权利要求1所述的方法,其特征在于,将所导出的源属性与所标识的所述一个或多个目标数据集的至少一个的属性进行匹配的动作包括 基于从高维度属性空间到较低维度空间的转换将源属性提交到统计系统的动作;以及 学习在较低维度空间中的每个组合的所期望的评级的动作。
6.如权利要求5所述的方法,其特征在于,还包括 将在较低维度空间中的每个组合的所期望的评级提交到基于规则的系统的动作; 基于规则的系统在源属性和目标属性上操作以修补由所述统计系统提议的推荐的动作,所述修补包括添加推荐、移除推荐,和调整推荐的一个或多个。
7.如权利要求6所述的方法,其特征在于,基于规则的系统在源属性和目标属性上操作以修补由所述统计系统提议的推荐的动作包括向来自所述统计系统的推荐添加编辑推荐的动作。
8.如权利要求1所述的方法,其特征在于,将所导出的源属性与所标识的所述一个或多个目标数据集的至少一个和/或所述一个或多个数据服务的至少一个的属性进行匹配的动作,包括基于以下一个或多个标识所述一个或多个目标数据集的所述至少一个和/或所述一个或多个数据服务的所述至少一个数据类型、语义含义、格式,和域覆盖。
9.如权利要求1所述的方法,其特征在于,还包括向所述用户指示所推荐的至少一个目标数据集和/或所推荐的至少一个数据服务如何可被用来将数据集成到所访问的数据集内的动作。
10.一种供在计算机系统处使用的计算机程序产品,所述计算机系统包括显示设备,所述计算机程序产品用于实现一种用于推荐与在数据处理应用内的使用的数据集相关的数据的方法,所述计算机程序产品包括其上存储有计算机可执行指令的一个或多个计算机存储设备,所述指令在由处理器执行时,使得所述计算机系统执行所述方法,包括以下检测用户作为执行指定任务的一部分访问了所述数据处理应用内的数据集; 导出所访问的数据集的源属性,所述源属性从以下一个或多个导出所述用户的用户信息和所述数据的数据信息; 为一个或多个目标数据集和/或一个或多个目标数据服务标识目标属性; 将所导出源属性与为所述一个或多个目标数据集的至少一个和/或所述一个或多个目标数据服务的至少一个所标识的目标属性一起使用,以确定所述一个或多个目标数据集的至少一个和/或所述一个或多个目标数据服务的至少一个作为相关数据的源的期望度;以及 向用户推荐所述至少一个目标数据集和/或所述至少一个目标数据服务,作为能够提供被发现为对于在与所访问的数据集类似的数据上操作的其他用户有用的数据。
11.如权利要求10所述的计算机程序产品,其特征在于,在被执行时致使所述计算机系统将所导出源属性与为所述一个或多个目标数据集的至少一个和/或所述一个或多个目标数据服务的至少一个所标识的属性一起使用的计算机可执行指令,包括被执行时致使所述计算机系统将执行以下的指令 基于从较高维度属性空间到较低维度空间的转换将所述源属性提交到统计系统;以及 学习在较低维度空间中的每个组合的所期望的评级。
12.如权利要求11所述的计算机程序产品,其特征在于,还包括在被执行时使所述计算机系统执行以下动作的计算机可执行指令 将在较低维度空间中的每个组合的所期望的评级提交到基于规则的系统;以及在所述源属性和目标属性上操作以修补由所述统计系统提议的推荐,包括添加推荐、移除推荐,和调整推荐的一个或多个。
13.如权利要求12所述的计算机程序产品,其特征在于,在被执行时使所述计算机系统在所述源属性和目标属性上操作以修补由所述统计系统提议的推荐的计算机可执行指令包括,在被执行时使得所述计算机系统向来自所述统计系统的推荐添加编辑推荐的计算机可执行指令。
14.如权利要求10所述的计算机程序产品,其特征在于,还包括在被执行时使所述计算机系统执行以下动作的计算机可执行指令向所述用户指示所推荐的至少一个目标数据集和/或所推荐的至少一个数据服务如何可被用来将数据集成到所访问的数据集内。
15.在包括一个或多个处理器、系统存储器,和显示设备的计算机系统处,一种用于推荐与数据集相关的数据的方法,所述数据集在数据处理应用中使用,所述方法包括 在指定时间自动访问关于所述计算机系统的用户的用户信息的动作; 检测所述用户已经访问了所述计算机系统处的数据处理应用内的数据集的动作; 导出所访问的数据集的源属性的动作,所述源属性从所访问的用户信息、所访问的数据集,和与所述数据处理应用相关联的环境条件中导出; 为一个或多个目标数据集和/或一个或多个目标数据服务标识目标属性的动作; 将所导出的源属性与所标识的所述一个或多个目标数据集的至少一个和/或所述一个或多个目标数据服务的至少一个的属性进行匹配的动作;以及向用户推荐所述至少一个目标数据集和/或所述至少一个目标数据服务,作为能够提供被发现 为对于在类似环境条件下在与所访问的数据集类似的数据上操作的其他用户有用的数据的动作。
全文摘要
本发明涉及用于基于用户和数据属性推荐数据的方法、系统和计算机程序产品。用户信息和所访问的数据集被周期性(并且可能自动地)访问和更新。源属性从用户信息和所访问的数据集导出。目标属性从数据目录和数据服务导出。所访问数据集的源属性与数据目录或数据服务的目标属性一起使用,以确定数据目录或数据服务作为与所访问数据集相关的数据的源的期望度。数据目录和/或数据服务可被推荐为能够提供相关数据。因此,所推荐的相关数据可被推荐给用户,无需用户明确搜索相关数据或甚至知晓相关数据存在。
文档编号G06F17/30GK102999553SQ201210382799
公开日2013年3月27日 申请日期2012年10月10日 优先权日2011年10月11日
发明者J·芬尼根, H·斯瓦拉马克瑞希楠, A·N·比切 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1