用于偏差分析的候选特征的确定的制作方法

文档序号:32478495发布日期:2022-12-09 20:01阅读:39来源:国知局
用于偏差分析的候选特征的确定的制作方法

1.本公开涉及用于偏差分析的系统和方法。


背景技术:

2.当今的组织以不断增长的速度收集和存储大量数据。这些大数据流的示例包括传感器数据和金融数据。物联网已大大增加了部署的传感器数量,由此生成的传感器数据量已以指数方式增加。金融业生成大量数据来促进预测、模式识别和战略规划。
3.在这些大数据集上执行计算或在这些大数据集内识别模式可能是耗时或者甚至是不可行的。现代数据分析试图帮助人类有效地理解收集的数据。例如,数据挖掘使用机器学习和/或统计技术来发现存储在数据库、数据仓库或其他信息存储库中的大量数据内的潜在有用的模式。
4.偏差分析是数据挖掘的一种类型,其可以包括确定数据集的所选择的连续特征(例如,销售额)和离散特征(例如,颜色、类型)之间的偏差。例如,偏差分析可以确定离散特征(颜色)的所有离散值(蓝色、红色、绿色)相对于连续特征(销售额)是否以大致相似的方式表现。如果不是,偏差分析还可以指示任何一个离散值偏离标准的程度(例如,蓝色比红色或绿色对销售额的贡献更强)。可以对若干个离散特征中的每一个相对于同一连续特征执行偏差分析,以便确定哪个离散特征包括偏差最大的离散值。
5.挖掘大数据集的所选择的连续特征和离散特征之间的偏差关系在计算上可能很昂贵,特别是在该数据集包含许多离散特征,每个离散特征包含许多离散值的情况下。期望用于执行偏差分析的改进系统,其比传统系统需要更少的计算资源要求,同时产生合适质量的偏差分析。


技术实现要素:

6.根据本公开的一个实施例,一种用于偏差分析的系统,包括:存储器,存储处理器可执行的程序代码;以及处理单元,执行处理器可执行的程序代码,以使系统:接收包括第一连续特征和多个离散特征的数据,第一连续特征与多个连续值相关联,并且多个离散特征中的每一个与多个离散值相关联;基于与离散值相关联的连续特征的值,为多个离散特征中的每一个确定离散特征的每个离散值的统计;基于为离散特征的每个离散值确定的统计,为每个离散特征确定第一概要统计;基于为离散特征确定的第一概要统计和为离散特征的每个离散值确定的统计,为每个离散特征确定相异度;基于所确定的相异度确定多个离散特征中的候选离散特征,所述候选离散特征包括少于所有的多个离散特征;基于与候选离散特征的每个离散值相关联的连续特征的值,为候选离散特征中的每一个确定第二概要统计;基于第二概要统计确定候选离散特征中的每一个的偏差分数;以及基于所确定的偏差分数发送候选离散特征以便显示。
7.根据本公开的一个实施例,一种用于偏差分析的方法,包括:接收包括第一连续特征和多个离散特征的数据,第一连续特征与多个连续值相关联,并且多个离散特征中的每
一个与多个离散值相关联;基于与离散值相关联的连续特征的值,为多个离散特征中的每一个确定离散特征的每个离散值的统计;基于为离散特征的每个离散值确定的统计,为每个离散特征确定第一概要统计;基于为离散特征确定的第一概要统计和为离散特征的每个离散值确定的统计,为每个离散特征确定相异度;基于所确定的相异度确定多个离散特征中的候选离散特征,所述候选离散特征包括少于所有的多个离散特征;基于与候选离散特征的每个离散值相关联的连续特征的值,为候选离散特征中的每一个确定第二概要统计;基于第二概要统计确定候选离散特征中的每一个的偏差分数;以及基于所确定的偏差分数发送候选离散特征以便显示。
8.根据本公开的一个实施例,一种存储处理器可执行程序代码的非暂时性介质,处理器可执行程序代码可由计算系统的处理单元执行以使计算系统:接收包括第一连续特征和多个离散特征的数据,第一连续特征与多个连续值相关联,并且多个离散特征中的每一个与多个离散值相关联;基于与离散值相关联的连续特征的值,为多个离散特征中的每一个确定离散特征的每个离散值的统计;基于为离散特征的每个离散值确定的统计,为每个离散特征确定第一概要统计;基于为离散特征确定的第一概要统计和为离散特征的每个离散值确定的统计,为每个离散特征确定相异度;基于所确定的相异度确定多个离散特征中的候选离散特征,所述候选离散特征包括少于所有的多个离散特征;基于与候选离散特征的每个离散值相关联的连续特征的值,为候选离散特征中的每一个确定第二概要统计;基于第二概要统计确定候选离散特征中的每一个的偏差分数;以及基于所确定的偏差分数发送候选离散特征以便显示。
附图说明
9.图1是根据一些实施例的对多个离散特征相对于连续特征执行偏差分析的架构的框图。
10.图2包括根据一些实施例对多个离散特征相对于连续特征执行偏差分析的过程的流程图。
11.图3包括根据一些实施例的所选择的离散特征数据和连续特征数据的表格表示。
12.图4示出了根据一些实施例为离散特征的每个离散值所确定的统计。
13.图5示出了根据一些实施例的用于输入偏差分析的、为离散特征确定的统计。
14.图6是根据一些实施例的呈现多个离散值中的每一个对输出值的成比例贡献的用户界面的外视图(outwardview)。
15.图7示出了根据一些实施例的提供数据分析的系统。
16.图8是根据一些实施例的用于确定多个离散值中的每一个对输出值的成比例贡献的硬件系统的框图。
具体实施方式
17.提供以下描述以使本领域的任何人员能够制作和使用所描述的实施例,并且阐述了预期用于实现一些实施例的最佳模式。然而,各种修改对于本领域技术人员来说将是清晰的。
18.如本文所使用的,特征指的是数据集的属性。在表格数据的情况下,每一列可以被
认为表示数据的相应特征,而每一行是数据的每个特征的值的实例。使用在所选择的范围内具有无限数量的可能值的数字数据来表示连续特征。离散特征由具有有限数量的可能值的数据来表示,以下称为离散值。温度是连续特征的示例,而星期几(days of the week)和性别是离散特征的示例。
19.一些实施例提供了数据集的离散特征的自动和有效选择,偏差分析随后被应用于该数据集。因此,实施例可以避免对未选择的离散特征执行偏差分析以及相关联的资源消耗,同时提供类似于如果偏差分析被应用于数据集的所有离散特征将会产生的结果。
20.候选特征选择试图识别候选特征,候选特征相对于给定的连续特征具有产生异常偏差分数的更高可能性,并且因此表现出与给定的连续特征的更强的信息关系。这种识别可以改进随后对所识别的候选特征执行的偏差分析的质量和准确性。根据一些实施例的候选特征选择可以利用相对于每个离散特征的离散值导出的统计。尽管下面描述的实施例使所识别的候选特征服从于后续偏差分析,但是实施例不限于此。
21.图1是根据一些实施例的对多个离散特征相对于连续特征执行偏差分析的架构100的框图。所示的组件可以使用已知的或变得已知的计算硬件和/或软件的任何合适的组合来实现。在一些实施例中,两个或更多组件由单个计算设备实现。图1的两个或更多组件可以同地协作。一个或多个组件可以实现为云服务(例如,软件即服务、平台即服务)。图1的任何组件的基于云的实现可以根据需求、需要、价格和/或任何其他度量弹性地分配计算资源。
22.数据110可以包括数据库表的值。更具体地,数据110可以包括数据库表的行,并且每行包括相对应的数据库列或特征的值。数据110由至少一个连续特征和一个或多个离散特征构成。
23.特征选择组件120识别数据110的连续特征以及可选的一个或多个离散特征。用户可以选择连续特征和一个或多个离散特征(未示出)。在一些实施例中,用户不选择离散特征,在这种情况下,特征选择组件120选择数据110的所有离散特征。在图1的示例中,数据110的列130包括由特征选择组件120选择的连续特征的值,并且列135包括由特征选择组件120选择的离散特征的值。
24.候选特征识别组件140为每个所选择的离散特征确定相异度分数。基于为离散特征的每个离散值确定的统计来确定离散特征的相异度分数。如以下将描述的,基于对应于每个离散值的连续特征的值来确定统计。
25.为离散特征确定的相异度分数表示由候选特征分析组件150将为离散特征确定显著偏差分数的可能性。根据一些实施例,候选特征识别组件140输出与n个最高相异度分数相关联的离散特征作为候选离散特征145。
26.候选特征分析组件150接收所选择的连续特征130和候选离散特征145,并对其应用偏差分析算法,以产生每个候选离散特征145的偏差分数。根据一些实施例,候选特征分析组件150基于统计来确定候选离散特征145的偏差分数,统计反过来基于对应于候选离散特征145的每个离散值的连续特征的值来确定。偏差分数指示每个候选离散特征145与所选择的连续特征130的偏差关系。候选离散特征145然后基于它们相应的偏差分数被排序和输出。
27.与为所有所选择的离散特征确定偏差分数的系统相比,实施例可以更快地和/或
使用更少的资源来产生离散特征和相应偏差分数的有序列表。特别地,从所选择的离散特征集中初始确定候选离散特征允许避免为可能不与相对于服从的连续特征的显著偏差相关联的那些离散特征确定偏差分数。
28.图2是根据一些实施例的对多个离散特征相对于连续特征执行偏差分析的过程200的流程图。过程200和本文描述的其他过程可以使用硬件和软件的任何合适的组合来执行。体现这些过程的程序代码可以由任何非暂时性有形介质存储,包括固定盘、易失性或非易失性随机存取存储器、数字化视频光盘(dvd)、闪存驱动器或磁带,并由任何一个或多个处理单元执行,包括但不限于处理器、处理器核心和处理器线程。实施例不限于下面描述的示例。
29.过程200可以由确定对数据集的特定连续特征的最高贡献者的请求启动。这样的请求可以经由数据分析应用从终端用户接收。
30.数据集在s210处以诸如表格形式的结构化形式接收。结构化格式促进了定义数据内的一个或多个连续特征和一个或多个离散特征。
31.在s220处,选择连续特征中的一个以及多个离散特征。连续特征是每个所选择的离散特征的偏差将相对于其来确定和排列的特征。在一些实施例中,如果在s220处用户没有选择离散特征,则在s220处假设数据的所有离散特征都被选择。
32.在s230处,为每个离散特征的每个离散值确定统计。基于与离散值相关联的连续特征的值来确定给定离散值的统计。在s230处确定的统计的示例包括但不限于最小值、最大值、计数、平均值和方差。
33.图3示出了根据一些实施例在s220处选择的四个离散特征的列310和连续特征的列320。列310和320可以包括在s210处接收、且包括离散或连续特征的一个或多个其他列的数据集的列。每个列包括与其相应特征相关联的值。每个值在列310的离散特征的情况下是离散值,以及在列320的连续特征的情况下是连续值。
34.如上所述,在s230处,基于与离散值相关联的连续特征的值,为每个离散特征的每个离散值确定统计。表410示出了基于与离散值a1、a2、a3中的相应离散值相关联的连续特征contfeat1的值,确定离散特征discrfeata的离散值a1、a2、a3的统计。
35.表410的行412示出了在s230处为离散特征discrfeata的离散值a1确定的统计。如图3所示,离散特征discrfeata的离散值a1与连续特征contfeat1的值4、6和4相关联。行412示出了这些相关联值的最小值(即4)、最大值(即6)、平均值(即4.67)和方差(1.33)。类似地,离散特征discrfeata的离散值a2与连续特征contfeat1的值8、3、7和6相关联。与离散值a2相关联的行414示出了这些相关联值的最小值(即3)、最大值(即8)、平均值(即6)和方差(4.67)。最后,离散特征discrfeata的离散值a3与连续特征contfeat1的值2和4相关联,并且相对应的行416示出了这些相关联值的最小值(即2)、最大值(即4)、平均值(即3)和方差(即2)。根据一些实施例,在s230处类似地为离散特征discrfeatb、discrfeatc、以及discrfeatd的每个离散值确定统计。
36.在s240处,基于在s230处为每个离散值确定的统计,为每个离散特征确定相异度分数。根据一些实施例,基于为离散特征的每个离散值确定的统计的平均,以及为每个离散值确定的统计与平均的相异度,来确定离散特征的相异度分数。虽然本文描述了离散值的平均的特定统计,但是实施例可以采用离散值的特定统计的另一统计概要(summary)。
37.图4的行420示出了为离散特征discrfeata的离散值确定的每个统计的平均。s240可以包括确定表示从表410的每个行的统计到行420的平均统计的距离的分数。分数可以表示最大距离、平均距离或基于所确定的距离确定的任何其他值。距离可以被计算为余弦相异度,但是实施例不限于此。
38.余弦相似度算法测量两个向量(例如,值的列表)之间的相似度。这种相似度被定义为两个向量之间的余弦角,并指示两个向量指向相同方向的程度。
39.通常,余弦相似度其中,其中,并且
40.s240因此可以包括确定与离散特征相关联的平均统计(例如,行420的值)和与离散特征的每个离散值相关联的统计(例如,行412、414、416中的每个的值)之间的余弦相似度。然后,相异度分数被确定为为离散特征确定的所有余弦相似度的最小值。
41.在s250处,基于所确定的相异度分数来确定候选离散特征集。在这点上,在s240处为在s220处选择的每个离散特征确定相异度分数。在一些实施例中,在s250处,与n个最大相异度分数相关联的所选择的离散特征被确定为候选离散特征。n可以是任何期望的数字,并且可以被选择来限制对候选离散特征执行下述偏差分析所需要的处理资源的量。
42.在s260处,为每个候选离散特征确定第二统计,为s270处的偏差分析做准备。为离散特征确定的第二统计基于与离散特征的每个离散值相关联的所选择的连续特征的值。在s260的一些实施例中,与离散特征的每个离散值相关联的连续值被求和,并且基于该总和确定离散特征的第二统计量。
43.图5示出了根据一些实施例在s260处确定离散特征的第二统计。表510示出了与离散特征discrfeatb的离散值b1、b2、b3、b4中的每一个相关联的连续特征contfeat1的值的总和。根据该示例,离散特征discrfeatb的第二统计包括总和的平均值(11)以及α的值(例如,如果平均值为负,则为总和的最小值,或者如果平均值为正,则为总和的最大值)。在s260处,可以基于与离散特征的每个离散值相关联的所选择的连续特征的值来确定离散特征的任何类型的第二统计。第二统计是需要作为在s270处采用的特定偏差分析算法的输入的那些统计。
44.在s270处,为每个离散特征确定偏差分数。基于在s260处为每个离散特征确定的第二统计来确定偏差分数。根据一个非穷举实施例,离散特征的偏差分数的确定如下:
[0045][0046]
其中,如上所述:
[0047][0048]
根据上述示例,为离散特征discrfeatb确定的偏差分数为(14

11)/11==0.273。
[0049]
在s280处,根据候选离散特征相应的偏差分数来呈现候选离散特征。例如,候选离
散特征可以从最高偏差分数到最低偏差分数排序,其中,较大的偏差分数指示离散特征的离散值之间的较大偏差行为。
[0050]
图6示出了根据一些实施例的数据分析应用的用户界面600。用户可以执行web浏览器来经由超文本传输协议访问数据分析应用,并且作为回报接收用户界面600。
[0051]
用户界面600包括下拉字段610,用于选择用户可以访问(have access to)的表格。表格的选择导致以所选择的表格的可选择的连续特征的列表填入(population)下拉菜单620。一旦选择了连续特征,就可以执行诸如过程200的过程来确定所选择的表格的候选离散特征,然后确定每个候选离散特征的偏差分数。用户界面600的区域630示出了根据偏差分数排序的这种候选特征。实施例不限于用户界面600。实施例可以利用任何界面隐喻(metaphor)以便选择表格的连续特征(以及表格的可选地一个或多个离散特征)以及基于相对应的确定的偏差分数来呈现候选离散特征。
[0052]
图7示出了根据一些实施例的向应用提供包括数据挖掘的数据分析的系统700。应用服务器710可以包括为诸如应用712的应用提供执行平台和服务的预置的(on-premise)或云实现的服务器。应用712可以包括可由处理单元执行的程序代码,以基于编码逻辑和存储在数据存储714中的数据716向诸如用户720的用户提供功能。数据716可以包括以基于列或基于行的格式存储的表格数据、对象数据或已知或变得已知的任何其他类型的数据。数据存储714可以包括任何合适的存储系统,诸如数据库系统,其可以部分或完全远离应用服务器710,并且可以如本领域中已知地分布。
[0053]
根据一些实施例,用户720可以与应用712交互(例如,经由执行与应用712相关联的前端ui应用的web浏览器),以请求考虑到数据716的表格的连续特征的离散特征的偏差分析。应用712可以访问分析平台730来服务该请求。分析平台730也可以由预置的或基于云的服务器实现。
[0054]
分析平台730包括特征偏差分析框架732的程序代码,其可被执行以如本文所述的确定候选离散特征和每个候选离散特征的偏差分数。分析平台730可以向应用712提供候选离散特征和偏差分数,用于随后呈现给用户720。分析平台730可以向应用提供附加功能,诸如但不限于机器学习模型训练和推理。
[0055]
图8是根据一些实施例的确定候选离散特征和相对应的偏差分数的硬件系统的框图。硬件系统800可以包括通用计算装置,并且可以执行程序代码来执行本文描述的任何功能。在一些实施例中,硬件系统800可以由分布式基于云的服务器实现,并且可以包括分析平台730的实现。根据一些实施例,硬件系统800可以包括其他未示出的元件。
[0056]
硬件系统800包括可操作地耦合到i/o设备820的处理单元810、数据存储设备830、一个或多个输入设备840、一个或多个输出设备850和存储器860。i/o设备820可以促进与外部设备的数据交换,诸如外部网络、云或数据存储设备。输入设备840可以包括例如键盘、小键盘、鼠标或其他定点设备、麦克风、旋钮或开关、红外(ir)端口、拓展坞和/或触摸屏。输入设备840可以用于例如将信息输入到硬件系统800中。输出设备850可以包括例如显示器(例如显示器屏幕)、扬声器和/或打印机。
[0057]
数据存储设备830可以包括任何适当的永久存储设备,包括磁存储设备(例如,磁带、硬盘驱动器和闪存)、光存储设备、只读存储器设备(rom)设备和ram设备的组合,而存储器860可以包括ram设备。
[0058]
数据存储设备830存储特征偏差分析框架的程序代码,程序代码可由处理单元810执行,以使硬件系统800实现任何组件并执行本文描述的任何一个或多个过程。实施例不限于由单个计算设备执行这些过程。数据存储设备830还可以存储用于提供附加功能和/或硬件系统800的操作所必需的数据和其他程序代码,诸如设备驱动程序、操作系统文件等。
[0059]
前述示图表示了用于描述根据一些实施例的过程的逻辑架构,并且实际实现可以包括以其他方式布置的更多或不同的组件。其他拓扑可以与其他实施例结合使用。此外,本文描述的每个组件或设备可以由经由任何数量的其他公共和/或专用网络通信的任何数量的设备来实现。两个或更多这样的计算设备的位置可以彼此远离,并且可以经由任何已知方式的网络和/或专用连接彼此通信。每个组件或设备可以包括合适于提供本文描述的功能以及任何其他功能的任何数量的硬件和/或软件元素。例如,在一些实施例的实现中使用的任何计算设备可以包括执行程序代码的处理单元,使得计算设备如本文描述地操作。
[0060]
本文描述的实施例仅仅是为了说明的目的。本领域技术人员将认识到,可以通过对上述实施例的修改和变更来实施其他实施例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1