识别提供者网络内电子文件分布的违规行为的方法和系统与流程

文档序号:19734690发布日期:2020-01-18 04:19阅读:218来源:国知局
识别提供者网络内电子文件分布的违规行为的方法和系统与流程

本发明涉及用于识别提供者网络内的电子文件的分布的违规行为的计算机实施的方法、数据分析装置和系统。



背景技术:

已知在提供者网络内将电子文件(例如,电子媒体文件,尤其是数字音乐文件或数字视频文件)从服务器计算机分布到作为所述提供者网络的成员的一个或多个客户端计算机。数字音乐文件的众所周知的提供者网络(例如)被认为是deezer、googleplay、spotify或zune,而数字视频文件的提供者网络被认为是(例如)netflix、maxdome或amazonprime。

此类电子媒体文件是由它们的相应的权利持有人提供以便进行分布。这些权利持有人接收关于电子文件在提供者网络内的分布的数据。基于电子文件在这些提供者网络中从服务器计算机被分布到客户端计算机的次数,权利持有人从所述提供者网络接收收益。然而,随着数字多媒体行业的发展和音乐权利持有人的所得的收益的增加,需要可靠的工具来审计他们的电子文件投资组合。具体来说,需要检测提供者网络内的电子文件的分布的违规行为,因为此类违规行为可能指示未授权的分布和欺诈。

然而,权利持有人不具有技术手段来直接评估从与相应的提供者网络相关联的服务器计算机中的每一者下载他们的电子文件的数目。而是,他们必须依赖于由提供者网络自身提供的数据,这使得检测违规行为(例如,提供者网络的未授权的分布)是不可能的。

销售电子文件(例如,电子书或软件)的在线商店面临类似的问题:它们的电子产品的销售数目通常经历大幅波动。相应电子文件的拥有者没有手段来直接评估从与相应的提供者网络相关联的服务器计算机中的每一者下载他们的电子产品的数目。



技术实现要素:

因此,本发明的目的是提供一种用于自动识别提供者网络中的电子文件的分布的违规行为(例如,此类电子文件的未授权的分布)的方法、装置和系统。

通过根据独立权利要求的方法和系统来解决此目的和其它目的。

根据本发明,提供一种用于识别提供者网络内的电子文件的分布的违规行为的计算机实施的方法,其中,每个提供者网络包括至少一个服务器计算机,所述至少一个服务器计算机适于将所述电子文件分布到所述提供者网络内的多个客户端计算机。所述方法包括以下步骤:通过数据分析装置中的选择单元界定数目为n的离散时间周期t1…tn;通过所述选择单元从电子文件中选择特定查询文件;通过所述选择单元选择一组d个的提供者网络;通过所述数据分析装置中的采集单元从与所述d个选定的提供者网络相关联的d个服务器计算机采集指示已经与所述查询文件相关联的常用度量的一组时间序列数据流p(t)=p1(t),p2(t),…,pd(t);通过所述数据分析装置中的变换单元对p(t)执行变换以计算成分数据集z(t)=z1(t),z2(t),…,zd(t);通过所述数据分析装置中的滤波单元使用局部稳健滤波模型对z(t)=z1(t),z2(t),…,zd(t)的值进行滤波以计算局部估计通过所述数据分析装置中的离群值检测单元计算残差其中l=1,2,…,d,并且对rl(t)执行多变量离群值检测以计算离群值度量。

可以提出,为了计算所述离群值度量,还对rl(t)执行单变量离群值检测并且与对rl(t)的多变量离群值检测的结果进行比较。

可以提出,响应于所述所计算的离群值度量,所述数据分析装置中的评估和报告单元在显示装置上显示所述所计算的离群值度量。

可以提出,响应于所述所计算的离群值度量,所述数据分析装置中的评估和报告单元将所述所计算的离群值度量与历史或预定阈值进行比较,并且在超过所述阈值的情况下在显示装置上输出警告信号。

可以提出,响应于所述所计算的离群值度量,所述数据分析装置中的评估和报告单元计算一组控制数据以控制所述提供者网络中的电子文件的所述分布,并且所述数据分析装置将所述控制数据发送到所述服务器计算机,其中,所述控制数据致使所述服务器计算机修改电子文件的所述分布。

可以提出,所述值p1(t),p2(t),…,pd(t)指示已经通过所述服务器计算机将所述查询文件向其分布的客户端计算机的数目。

可以提出,所述值p1(t),p2(t),…,pd(t)指示已经通过所述服务器计算机分布所述查询文件的次数。

可以提出,所述电子文件是:电子媒体文件,例如电子书文件;软件包;音频文件,尤其是数字音乐文件;或视频文件,例如呈mpg或任何其它数字视频格式的数字视频文件。

可以提出,通过所述数据分析装置的内部存储单元将模型数据传输到所述变换单元、所述滤波单元和/或所述离群值检测单元,并且将历史数据传输到所述评估和报告单元。

可以提出,在自动审核过程中使用根据本发明的方法以评估提供者网络内的电子文件的所述分布的违规行为,其中,通过所述选择单元使用预先界定的查找表或统计数据来自动地选择所述时间周期、所述查询文件和所述提供者网络。

本发明还涉及一种计算机可读介质,所述计算机可读介质包括致使电子装置执行根据本发明的方法的计算机可执行指令。

本发明还涉及一种电子数据分析装置,所述电子数据分析装置包括处理单元、内部存储器和通信单元,所述通信单元被配置成与提供者网络内的多个服务器计算机通信,所述服务器计算机将电子文件分布到多个客户端计算机,其中,所述数据分析装置包括选择单元,所述选择单元被配置成界定数目为n的离散时间周期t1…tn;从所述电子文件中选择特定查询文件;以及选择一组d个的提供者网络。所述数据分析装置还包括:采集单元,所述采集单元被配置成从与所述d个选定的提供者网络相关联的d个服务器计算机采集指示已经与所述查询文件相关联的常用度量的一组时间序列数据流p(t)=p1(t),p2(t),…,pd(t);变换单元,所述变换单元被配置成对p(t)执行等比对数变换以计算成分数据集z(t)=z1(t),z2(t),…,zd(t);滤波单元,所述滤波单元被配置成使用局部稳健滤波模型对z(t)=z1(t),z2(t),…,zd(t)的值进行滤波以计算局部估计以及离群值检测单元,所述离群值检测单元被配置成计算残差其中l=1,2,…,d,并且对rl(t)执行多变量离群值检测以计算离群值度量。

可以提出,所述电子数据分析装置包括评估和报告单元,所述评估和报告单元被配置成响应于所述离群值度量而计算一组控制数据以控制所述提供者网络中的电子文件的分布,并且所述数据分析装置被配置成将所述控制数据发送到所述服务器计算机。

所述控制数据适于致使所述服务器计算机修改电子文件的所述分布。

可以提出,所述电子分析装置包括被配置成在显示装置上显示所述离群值度量的评估和报告单元。

可以提出,所述电子分析装置包括内部存储单元,所述内部存储单元适于将模型数据提供给所述变换单元、所述滤波单元和所述离群值检测单元,并且将历史数据提供给所述评估和报告单元。

本发明还涉及一种电子系统,所述电子系统包括具有至少一个服务器计算机的多个提供者网络,其特征在于,所述系统包括至少一个根据本发明的数据分析装置。

每个服务器计算机可以包括:报告单元,所述报告单元适于准备时间序列数据流pi(t);以及通信单元,所述通信单元适于将所述数据流传输到所述数据分析装置并且优选从所述数据分析装置接收控制数据。

在附属权利要求中界定了其它有利的实施例。

现在关于附图更详细地描述本发明。

图1说明示例性系统的图,在所述示例性系统中实施根据本发明的方法的实施例。所述示例性系统包括若干提供者网络2、2’、2”、2”’,所述提供者网络(例如)是基于互联网的媒体分布平台,例如googleplay、deezer、spotify或zune。每个提供者网络包括至少一个服务器计算机3、3’、3”、3”’。每个服务器计算机被布置成将多个电子文件1分布到多个客户端计算机4。每个客户端计算机4是至少一个提供者网络的成员,但还有可能特定客户端计算机4是一个以上提供者网络的成员。

可以尤其通过在客户端计算机4上起始请求之后对电子文件1进行选定下载来实施电子文件1到客户端计算机的分布。因此可以设置每个客户端计算机4以从一个或若干服务器计算机3接收电子文件1。

客户端计算机4可以包括标准膝上型计算机和桌上型计算机以及例如智能电话的移动电子装置,或包括电子数据通信设备(例如,数据收发器)以访问远程提供者网络中的服务器计算机的尤其具有访问互联网的能力的任何其它计算装置。然而,还有可能客户端计算机4经由lan、wan或专有网络协议来访问服务器计算机3。

每个服务器计算机3存储多个电子文件1。在此实施例中,电子文件1是电子音乐文件。在其它实施例中,电子文件1是电子数据文件、电子文本文件或电子视频文件。

在此实施例中,提供者网络3是数字音乐平台,例如deezer、googleplay、spotify和zune。在此实施例中,电子文件1是在这些平台上销售的艺术家的音乐文件。

在客户端计算机4中的一者请求之后,服务器计算机3将特定电子文件1传输到客户端计算机4。服务器计算机3通过例如tcp/ip连接等数据连接而连接到客户端计算机4。具体来说,客户端计算机4通过互联网连接到服务器计算机3。

为了控制通过服务器计算机3对电子文件1的分布,并且为了检测违规行为,提供了电子数据分析装置6。

电子数据分析装置6包括处理单元9、内部存储器10和通信单元11,所述通信单元被配置成与服务器计算机3通信。所述通信单元还被配置成与外部电子存储装置7通信。

处理单元9可以包括一个或多个处理器,例如微处理器(cpu)、图形处理器(gpu)或专用集成电路(asic)。在替代性实施例中,数据分析装置6可以包括或访问例如基于云的服务的其它计算资源,所述其它计算资源提供用于执行在本说明书中描述的确定和计算中的一者或多者的额外的处理选项。

处理单元9通过内部数据链路或数据总线与内部存储器10连接,并且在此实施例中,适于执行存储在内部存储器10中的程序指令以致使数据分析装置6执行本文描述的功能中的一者或多者。

内部存储器10和电子存储装置7都可以包括一个或多个非暂时性机器可读存储介质,例如固态存储器、磁盘、随机存取存储器(ram)只读存储器(rom),或能够存储信息任何其它有形介质。

数据分析装置6被配置成经由通信单元11与不同提供者网络的服务器计算机3通信。在一些实施例中,此类通信单元11包括硬件部件,例如电子调制解调器或网卡,以执行电子输入和输出操作。具体来说,所述通信单元被配置成使用tcp/ip协议经由互联网访问服务器计算机3。

数据分析装置6适于向服务器计算机3、3’、3”、3”’提供电子文件1以在与每个服务器计算机相关联的相应的提供者网络2、2’、2”、2”’中进行分布。为此,数据分析装置6被配置成查询存储电子文件1和元数据的电子存储装置7。

可替代地,数据分析装置6适于分布drm(数字权利管理)数据,所述drm数据允许服务器计算机3、3’、3”3”’自身访问并且分布或下载相应的电子文件1。

数据分析装置经由通信单元11进一步连接到显示装置16,例如电子屏幕,以便通过合适的图形表示来显示和报告所计算的离群值度量。

为了控制电子文件的分布,数据分析装置6被配置成计算一组控制数据8并且将控制数据8发送到每个提供者网络的服务器计算机3。控制数据8可能还包含待分布的电子文件1或drm(数字权利管理)访问代码,所述drm访问代码允许服务器计算机3访问和分布特定电子文件1。服务器计算机3可以配备有用于从数据分析装置6接收控制数据8的接收单元。

在此实施例中,每个提供者网络2、2’、2”、2”’使常用度量与待分布的每个电子文件1相关联。在特定实施例中,此类度量可以是与用户在客户端计算机4处下载电子文件1时待支付的电子文件1相关联的价格。所选择的度量,例如电子文件的价格,是每个提供者网络共同的,但值在不同的提供者网络中可能不同。

在一些实施例中,所述常用度量可以是电子文件1的计数、质量指数、文件长度、特定元数据,例如创建日期、艺术家、特定图表中的排名、提供者网络中的可用日期,或特定提供者网络2、2’、2”、2”’内的特定电子文件1特有的任何其它数据。

对于电子文件1在提供者网络2内的每个分布,通过提供者网络2、尤其通过此提供者网络2的服务器计算机3来记录与此电子文件1相关联的常用度量。在专用的时间周期t1,t2,…,tn内,服务器计算机3向数据分析装置6报告所分布的文件中的每一者的度量p(t)。

举例来说,在特定实施例中,如果在专用月内已经在提供者网络2内分布了特定电子文件1达特定次数,那么此提供者网络2的服务器计算机3向数据分析装置6报告此数目。

对于每个电子文件1,服务器计算机3还可以通过在时间周期t内向客户端计算机4分布此电子文件1来报告在提供者网络2内实现的收益。服务器计算机3可以加装有报告和传输单元,以向数据分析装置6报告常用度量值。

为了识别提供者网络内的电子文件的分布的违规行为,数据分析装置6从多个电子文件1中选择特定查询文件5,并且从若干d个服务器计算机3采集一组时间序列数据p(t)=p1(t),p2(t),…,pd(t),所述一组时间序列数据指示已经在预定时间周期t1,t2,…,tn内与所述查询文件相关联的常用度量,例如此文件的所报告的收益。在示意图中使用点线来指示示出所述时间序列数据的传输的数据流。

图2说明与根据本发明的方法的实施例一致的数据分析装置6和此装置中的数据流的示意图。

首先,数据分析装置6的处理单元9中的选择单元18选择数目为n的离散的时间周期t1,t2,…,tn。选择单元18从可用的电子文件1中进一步选择特定查询文件5,将针对所述特定查询文件执行以下审计方法。选择单元18随后选择已知分布查询文件5的数目为d的提供者网络。为此,选择单元18可能查询数据分析装置6的内部存储器10。

数据分析装置6的处理单元9中的采集单元17经由数据分析装置6的通信单元11查询所述d个服务器计算机3并且从与所述d个选定的提供者网络2相关联的服务器计算机3接收数目为d的时间序列数据流p1(t),p2(t),…,pd(t)。

p1(t),p2(t),…,pd(t)的值指示已经与查询文件5相关联的常用度量。

采集单元17和选择单元18都可以在软件中实施为程序模块,或者在硬件中实施,如在专用集成电路(asic)或现场可编程门阵列(fgpa)中实施。

所接收的数据流进入处理单元9中的变换单元12。变换单元12对所接收的数据执行变换以计算成分数据集,其中可以从数据分析装置6的内部存储装置10接收模型数据。变换单元12可以在软件中实施为程序模块,或者在硬件中实施,如在专用集成电路(asic)或现场可编程门阵列(fgpa)中实施。

变换单元12将已变换的数据z(t)=z1(t),z2(t),…,zd(t)发送到处理单元9中的滤波单元13。滤波单元13对已变换的数据进行滤波。为此,内部存储装置10提供特定滤波模型数据。滤波单元13可以在软件中实施为程序模块,或者在硬件中实施,如在专用集成电路(asic)或现场可编程门阵列(fgpa)中实施。

滤波单元13将经滤波的数据(其中l=1,2,…,d-1)发送到离群值检测单元14。离群值检测单元14执行算法以检测经滤波的数据中的离群值并且计算离群值度量md(t)。为此,内部存储装置10提供特定模型数据。离群值检测单元14可以在软件中实施为程序模块,或者在硬件中实施,如在专用集成电路(asic)或现场可编程门阵列(fgpa)中实施。

离群值检测单元14将所计算的离群值度量md(t)发送到评估和报告单元15。评估和报告单元15准备离群值度量md(t)以供视觉表示,并且基于由内部存储装置10提供的数据来确定控制数据8以控制提供者网络2中的电子文件1的分布。

评估和报告单元15将所述数据发送到通信单元11,所述通信单元将所述数据转发到提供者网络2的服务器计算机3。

评估和报告单元15可以在软件中实施为程序模块,或者在硬件中实施,如在专用集成电路(asic)或现场可编程门阵列(fgpa)中实施。

评估和报告单元15可以适于访问内部存储装置10以将所计算的离群值度量与历史数据进行比较。所述评估和报告单元还可以适于基于用户的手动反馈来准备控制数据8。在某些实施例中,评估和报告单元15适于准备数据集以便在显示装置16上可视化经由通信单元11的离群值度量。所述评估和报告单元还可以适于在准备控制数据8之前等待手动反馈。在其它实施例中,评估和报告单元15可以适于使用查找表、历史数据、深度学习或其它方法基于存储在内部存储器10中的决策规则数据来准备控制数据8。

图3说明在根据本发明的数据分析装置中执行的根据本发明的方法的实施例中的示意性数据流程图。

在第一步骤中,将数据读入数据分析装置。首先,通过数据分析装置6的处理单元9中的选择单元18选择数目为n的离散的时间周期t1…tn。此数目可以基于其中已知会发生文件分布违规行为的典型时间周期,例如数天、数周或数月。

随后,通过选择单元18于在提供者网络2内分布的多个电子文件1中选择特定查询文件5。所述选择可以基于查询文件的流行度或任何其它特性而作出;所述选择还可能是可用的所有电子文件中的随机选择,或者由手动输入选择。可以在查询数据分析装置6的内部存储装置10或外部存储装置7之后作出查询文件5的选择。

随后,通过选择单元18选择数目为d的提供者网络2。对提供者网络2的选择可以基于提供者网络2的流行度或任何其它特性,所述选择还可能是随机选择或手动选择。

可以提出,仅选择已经接收了查询文件5或其分布权利的提供者网络2。可以提出,仅选择数据分析装置6知晓分布查询文件5的提供者网络2。

因为所描述的方法仅针对三个或更多个不同的提供者网络有意义,所以如果d等于或大于三,那么完成检查。如果不是,那么所述方法回到起点以改变时间周期、查询文件和/或提供者网络。

在下一步骤中,通过数据分析装置6的处理单元9中的采集单元17查询与所述d个选定的提供者网络2相关联的d个服务器计算机3,并且在采集单元17处接收时间序列数据流p1(t),p2(t),…,pd(t)。p1(t),p2(t),…,pd(t)的值指示已经与查询文件5相关联的常用度量,例如此电子文件的价格。

在特定实施例中,p1(t1)…p1(tn)的值是由第一提供者网络2报告的用于在时间周期t1..tn时分布查询文件5(例如,给定艺术家的歌曲)的收益。因此,p2(t1)…p2(tn)的值是由第二提供者网络报告的用于在时间周期t1..tn内分布查询文件5的收益,并且pd(t1)…pd(tn)的值是由第d提供者网络报告的用于在时间周期t1..tn内分布查询文件5的收益。

在根据本发明的方法的特定示例中,d的值是3,并且n的值是30,使得向量

p(t)=(p1(t),p2(t),p3(t))

表示在所述时间周期(例如,数月,t=1、2…30)内来自三个选定的提供者网络的收益的组合。

因为以下变换依赖于p(t)的值的对数变换,所以每个单个数据点pi(tj)必须大于零。为此,通过数据分析装置6的处理单元9执行单独的数据缺失值插补例程。

在此数据缺失值插补例程中,首先,对由每个提供者网络报告的值执行统计分析,并且通过此特定提供者网络的5%分位数值取代数据流中的任何零值。

可替代地,可以使用某一小值,例如0.01,来替代零。还提出使用取决于在所考虑的整个时间周期期间分量与其它分量的平均关系的值来替代。

在下一步骤中,在数据分析装置6的处理单元9中的变换单元12中变换所接收的时间序列数据流以计算成分数据集。使用成分数据允许相对于彼此分析数据流,使得可以更容易地识别相对于整体趋势的违规行为。

假设对于任何给定的时间周期t,由所有d个提供者网络实现的收益的总和是常数,

pi(t)>0,i=1,...,d,

结果是,d部分成分仅是d-1维度的,即,在欧几里得空间中没有直接表示,而是仅在单纯形空间中具有直接表示。可以使用等比对数(比率的对数)变换ilr(p(t))来提供从受约束的样本空间到实际空间的一对一映射。对于d部分成分,等比对数变换产生d-1维度的实际空间表示。此类变换还提供有用的性质,例如等距,即,两个观察值p(t1)与p(t2)的艾奇逊距离等于已变换的成分ilr(p(t1))和ilr(p(t2))的欧几里得距离。

因此可以如下将d维度向量p(t)变换为成分数据集z(t):

ilr(p(t))=ilr(p1(t),...,pd(t))=z(t)=(z1(t),...,zd-1(t))t

其中向量(t)的分量是

因为d-1ilr变量是关于艾奇逊几何形状的单纯形上的标准正交基的坐标,所以对此基础的适当选择对于它们的解译来说是至关重要的。实际上,对标准正交基的以下的d个选择似乎非常有用:

对于1=1,…,d和时间点t,表示成分部分的排列,使得第1部分通过下式移动到第一位置

由此获得以下(d-1)维度的实际向量:

在此设置中,第一坐标(ilr变量z1(1)(t))由关于原始成分部分p1(t)的所有相对信息(对数-比率)组成,l=1,…,d。对于时间点t,我们表示ilr(pl(t))=z1(l)(t),l=1,…,d。应注意,可以将ilr(pl(t))的公式写为

对于d=3的示例,成分数据集z(t)的分量具有以下形式:

换句话说,z1(t)=ilr(p1(t))表示由deezer报告的度量与由googleplay报告的度量和zune的度量的关系,而z2(t)=ilr(p2(t)表示由googleplay报告的度量与deezer和zune的度量的关系,并且z3(t)=ilr(p3(t)表示由zune报告的度量与由googleplay和deezer报告的度量的关系。然而,在此步骤中,还可以使用其它变换模型,其中变换单元12可以从内部存储器10接收变换模型数据和模型约束条件。

在下一步骤中,在数据分析装置6的处理单元9中的滤波单元13中对成分数据进行滤波以移除意外的偏差和随机噪声。为此,通过信号加上噪声表示来对z(t)的值建模,其中μ(t)表示平滑信号且ξ(t)表示噪声分量:

z(t)=μ(t)+ξ(t),t∈1,...,t.

为了从z(t)提取信号μ(t),使用重复的中值(rm)回归模型,其中假设可以在长度n的短时间窗口内通过回归线来局部近似信号μ(t):

μ(t-n+i)≈μ(t)+β(t)·(i-n),i=1,...,n.

其中μ(t–n+i)是时间点(t–n+i)处的回归线的水平,并且β(t)是所述回归线的斜率。可以将给定样本z(t)=(z(t-n+1),…,z(t))的斜率β(t)和水平μ(t)的回归估计计算为

窗口宽度n的选择是基于使用众所周知的scarm(斜率比较自适应重复中值)方法对窗口内的回归线的斜率的测试。通过表示已变换的数据z(t)的局部经滤波值。然而,还可以使用其它滤波模型,其中可以在滤波单元13处从内部存储器10接收模型数据。

可能已经使用zl(t)的值或它们的局部估计来针对一个提供者网络与其余提供者网络的每个关系单独地执行单变量离群值检测。然而,此类单变量离群值检测并不可靠并且未考虑到变量之间的所有相互作用。仍然可以使用单变量离群值检测作为多变量离群值检测的补充。

在下一步骤中,在数据分析装置6的处理单元9中的离群值检测单元14中计算成分数据集zl(t)与局部估计之间的残差值。

t=1,...,t,l=1,...,d.

任何主要残差rl(t)是不同的提供者网络内的相应的电子文件的分布的违规行为的指示。具体来说,在负残差rl(t)的情况下,这是所报告的收益的值低于实际预期的指示。

在考虑到观察值中的所有维度的情况下,在离群值检测单元14中应用多变量离群值检测算法来找出样本中的与整体偏离的此类多变量观察值。多变量离群值检测可以基于协方差结构的估计。在此背景下,向每个观察值指派指示所述观察值与关于协方差结构的数据中心相距多远的距离。此距离量度取决于数据的所估计的协方差结构并且是众所周知的马哈拉诺比斯距离(md),其被定义为

md(r(t))=[(r(t)-m)c-1(r(t)-m)]fort=1,...,t.

此处,m和c分别表示位置和协方差的估计。可以取算术平均值和样本协方差矩阵,在正常分布的数据的情况下,这被证明是非常高效的。根据此实施例,根据本发明的方法的结果是离群值度量,例如其中md的值超过特定阈值的时间周期和提供者网络的列表。

然而,还可以使用其它离群值检测算法,其中可以在离群值检测单元14处从内部存储器10接收离群值算法模型数据。

将所计算的离群值度量发送到数据分析装置6的处理单元9中的评估和报告单元15以报告离群值,并且产生控制数据8以便控制不同的提供者网络对查询文件5的分布。举例来说,评估和报告单元15可能产生致使提供者网络停止对查询文件5的进一步分布的控制数据8。数据分析装置6还可能完全阻止提供者网络分布任何其它电子文件1。

为了评估所计算的离群值度量,评估和报告单元15可能从内部存储器10接收决策规则。还提出,在数据分析装置6的显示装置16上可视化离群值度量,并且装置6响应于所述离群值度量而等待手动交互。

最后,在显示装置16上输出所计算的离群值度量。任选地,可以计算控制数据以控制提供者网络对电子文件的未来的分布。

图4a至图4f示出当执行本发明的实施例时数据分析装置6内的若干点处的时间相关数据的若干示意性数据图。

图4a示出在数据分析装置6的采集单元17处接收的一组四个时间序列数据流p1(t)、p2(t)、p3(t)和p4(t)。示出描绘已经与特定查询文件5相关联的常用度量的这些时间序列数据具有正值,这遵循具有视觉偏差的共同趋势。

图4b至图4e示出已经如上文描述从时间序列数据流计算出的成分数据z1(t)、z2(t)、z3(t)和z4(t)。此外,将局部经滤波的值示出为虚线。使用实心圆表示其中已经检测到多变量离群值的时间周期。

图4f示出在离群值检测单元14中计算的马哈拉诺比斯距离md(t)的所计算的值。可以看到,仅在特定时间周期处,出现超过阈值的md(t)的值,这被指示为虚线。这些值指示在此时间周期处已经出现提供者网络内的电子文件的分布的违规行为。通过将md(t)的值与残差rl(t)的值进行比较,并且任选地还与单变量离群值检测的结果进行比较,可以确定引起所述违规行为的提供者网络。

可以将本发明的实施例实施为在智能电话或平板计算机上执行的计算机app。具体来说,可以将数据分析装置6实施为运行根据本发明的方法的智能电话或平板计算机装置。可替代地,可以将显示装置16实施为显示根据本发明的方法的状态和/或结果的智能电话或平板计算机装置。

可以将本发明的实施例实施于数字电子电路中、有形体现的计算机软件或固件中、包含在本说明书中公开的结构以及其结构等效物的计算机硬件中,或它们中的一者或多者的组合中。可以将实施例实施为计算机程序,即,在有形非暂时性程序载体上编码的供数据处理设备执行的计算机程序指令的模块。

计算机存储介质可以是机器可读存储装置、随机或串行存取存储器装置,或它们中的一者或多者的组合。

可以通过任何形式的编程语言来编写根据本发明的计算机程序,所述编程语言包含经过编译或解译的语言、或声明性或程序性语言,并且可以通过任何形式来部署所述计算机程序,包含部署成独立的程序或适合于在计算环境中使用的模块、部件、子例程或其它单元。计算机程序可以对应于文件系统中的文件。程序可以存储在保存其它程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中、存储在专用于所讨论的程序的单个文件中,或者存储在多个协调文件(例如,存储一个或多个模块、子程序或代码的部分的文件)中。可以将此类计算机程序部署成在一个计算机上执行,或者在位于一个场所处或跨多个场所而分布并且通过通信网络互连的多个计算机上执行。

本文描述的过程和逻辑流可以由一个或多个可编程处理器执行,所述一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并且产生输出来执行功能。所述过程和逻辑流可以由专用逻辑电路执行,并且可以将设备实施为专用逻辑电路,所述专用逻辑电路例如为fpga(现场可编程门阵列)、asic(专用集成电路)或gpu(通用图形处理单元)。适合于执行根据本发明的方法的计算机可以基于通用微处理器或专用微处理器或以上两者,或任何其它种类的中央处理单元(cpu)。此类中央处理单元将从只读存储器或随机存取存储器或以上两者接收指令和数据。

计算机的基本元件是用于履行或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器装置。一般来说,计算机还将包含用于存储数据的一个或多个大容量存储装置,例如,磁盘、磁光盘或光盘,或者操作性地耦合到所述一个或多个大容量存储装置以从其接收数据或向其传递数据或以上两者。然而,计算机不需要具有此类装置。

另外,根据本发明的计算机可以嵌入另一装置中,所述另一装置例如是移动电话、智能电话、平板计算机装置、移动音频或视频播放器、游戏控制台、全球定位系统(gps)接收器或便携式存储装置(例如,通用串行总线(usb)快闪驱动器)。

适合于存储计算机程序指令和数据的计算机可读介质包含所有形式的非易失性存储器、介质和存储器装置,包含(例如):半导体存储器装置,例如,eprom、eeprom和快闪存储器装置;磁盘,例如,内部硬盘或可移除盘;磁光盘;以及cdrom和dvd-rom盘。可以通过专用逻辑电路来补充处理器和存储器,或者处理器和存储器可以并入专用逻辑电路中。

为了实现与用户的交互,本发明的实施例可以在计算机上实施,所述计算机具有:显示装置,例如,crt(阴极射线管)或lcd(液晶显示器)监视器,以用于向用户显示信息;以及键盘和指向装置(例如,鼠标或追踪球),用户可以借此向计算机提供输入。还可以使用其它种类的装置来实现与用户的交互;例如,向用户提供的反馈可以是任何形式的知觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;以及可以接收来自用户的呈任何形式的输入,包含听觉、语音或触觉输入。

另外,计算机可以通过以下操作与用户交互:将文档发送到由用户使用的装置以及从所述装置接收文档;例如,通过响应于从网络浏览器接收到的请求而将网页发送到用户的客户端装置上的网络浏览器。

在本说明书中描述的主题的实施例可以在计算系统中实施,所述计算系统包含:后端部件,例如,作为数据服务器;或中间件部件,例如,应用服务器;或前端部件,例如,具有图形用户接口或网络浏览器的客户端计算机,用户可以借此与在本说明书在描述的主题的实现方式交互;或一个或多个此类后端部件、中间件部件或前端部件的任何组合。可以通过任何形式或媒介的数字数据通信(例如,通信网络)将系统的部件互连。通信网络的示例包含局域网(“lan”)和广域网(“wan”),例如,互联网。

所述计算系统可以包含客户端和服务器。客户端和服务器一般彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系凭借在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来维系。

虽然本说明书含有许多特定实施细节,但是这些细节不应理解为限制任何发明或可能要求保护的内容的范围,而是对可能是本发明的特定实施例特有的特征的描述。在本说明书中在单独的实施例的背景下描述的某些特征也可以在单个实施例中组合地实施。类似地,虽然图式中以特定次序描绘操作,但这不应被理解为需要以所示出的特定次序或以连续次序执行此类操作或需要执行全部所说明的操作以实现合意的结果。在某些情形中,多任务处理及并行处理可以是有利的。

另外,上述实施例中的各种系统模块和部件的分离不应理解为在所有实施例中都需要此分离,并且应理解,所描述的程序部件和系统可以大体上一起集成在单个软件产品中或封装到多个软件产品中。

已经描述了主题的特定实施例。其它实施例处于所附权利要求书的范围内。举例来说,在权利要求书中叙述的动作可以按照不同的次序执行并且仍实现合意的结果。作为一个实例,在附图中描绘的过程不一定需要所示出的特定次序或连续次序来实现合意的结果。在某些实现方式中,多任务处理和并行处理可以是有利的。

数字列表

1-电子文件

2-提供者网络

3-服务器计算机

4-客户端计算机

5-查询文件

6-数据分析装置

7-电子存储装置

8-控制数据

9-处理单元

10-内部存储器

11-通信单元

12-变换单元

13-滤波单元

14-检测单元

15-评估和报告单元

16-显示装置

17-采集单元

18-选择单元。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1