一种数据质量评估的方法、设备及系统与流程

文档序号:13166644阅读:319来源:国知局
一种数据质量评估的方法、设备及系统与流程
本发明涉及数据处理
技术领域
,具体涉及一种数据质量评估的方法、设备及系统。
背景技术
:当前例如一些道路交通状况还依据专门的摄像头和传感器来收集数据,需要大量的硬件资源,维护成本也非常高。随着无线通信技术和传感器技术的快速发展,移动终端呈爆炸式增长,而且当前的智能移动终端上基本都安装有摄像头和各种功能的传感器,若能合理的利用移动终端上的这些资源,必然会节省例如交通状况监测等很多方面的专门资源投入。基于此,有人已经提出了移动群智感知系统,移动群智感知系统包括云端设备和大量的移动终端,云端设备下发任务给移动终端,移动终端按照任务指示采集相关的数据上报给云端设备。云端设备可以根据移动终端上报的数据判定一些信息,例如:在交通场景中使用移动群智感知时,云端设备可以确定公交车的位置,某一路段上交通是否拥堵等信息。当前使用移动群智感知系统收集声音数据的方案中,针对同一地点各个不同移动终端收集到的声音数据也有很大差异,这会对云端设备的决策造成很大干扰,所以对移动终端所上报的数据进行质量评估就显得尤为重要。技术实现要素:为了解决现有技术中,同一地点的声音数据差异大,导致影响云端设备决策的问题,本发明实施例提供一种数据质量评估的方法,可以通过秩和比算法评估各移动终端上报的同一地点的声音数据的质量,并在评估时引入了移动终端在收集声音数据时的加速度,增加了评估的准确性。本发明实施例还提供了相应的设备及系统。本发明第一方面提供一种数据质量评估的方法,所述方法应用于移动智群感知系统,所述移动智群感知系统包括云端设备和多个移动终端,所述方法包括:所述云端设备向所述多个移动终端下发声音数据采集任务,所述声音数据采集任务指示所述多个移动终端上报指定地点的声音数据;所述云端设备接收移动终端上报的各自采集的声音数据和当前加速度数据;所述云端设备针对同一地理范围内的n个移动终端的声音数据和当前加速度数据,利用秩和比算法评估所述n个移动终端所上报的声音数据的质量,所述n为大于1的正整数。本发明第二方面提供一种云端设备,所述云端设备应用于移动智群感知系统,所述移动智群感知系统还包括多个移动终端,所述云端设备包括:发送单元,用于向所述多个移动终端下发声音数据采集任务,所述声音数据采集任务指示所述多个移动终端上报指定地点的声音数据;接收单元,用于接收移动终端上报的各自采集的声音数据和当前加速度数据;评估单元,用于针对所述接收单元接收的同一地理范围内的n个移动终端的声音数据和当前加速度数据,利用秩和比算法评估所述n个移动终端所上报的声音数据的质量,所述n为大于1的正整数。本发明第三方面提供一种移动智群感知系统,包括云端设备和多个移动终端,所述云端设备为上述第二方面所述的云端设备。与现有技术中,同一地点的声音数据差异大,导致影响云端设备决策的问题,本发明实施例提供一种数据质量评估的方法,可以通过秩和比算法评估各移动终端上报的同一地点的声音数据的质量,并在评估时引入了移动终端在收集声音数据时的加速度,增加了评估的准确性。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例中移动智群感知系统的一实施例示意图;图2是本发明实施例中数据质量评估的方法的一实施例示意图;图3是本发明实施例中数据质量评估的方法的另一实施例示意图;图4是本发明实施例中数据质量评估的方法的另一实施例示意图;图5是本发明实施例中云端设备的一实施例示意图;图6是本发明实施例中云端设备的另一实施例示意图;图7是本发明实施例中云端设备的另一实施例示意图;图8是本发明实施例中云端设备的另一实施例示意图。具体实施方式本发明实施例提供一种数据质量评估的方法,可以通过秩和比算法评估各移动终端上报的同一地点的声音数据的质量,并在评估时引入了移动终端在收集声音数据时的加速度,增加了评估的准确性。本发明实施例还提供了相应的设备及系统。以下分别进行详细说明。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。图1为本发明实施例中移动智群感知系统的一实施例示意图。如图1所示,本发明实施例所提供的移动智群感知系统包括云端设备30、网络20和多个移动终端10,云端设备30与多个移动终端10之间通过网络20进行通信。本发明实施例所提供的云端设备可以是单独的云端服务器,也可以是服务器集群,还可以是以虚拟机形式存在的物理资源。移动终端可以是手机、平板电脑和智能手表等终端设备。云端设备30可以通过网络20向多个移动终端10下发声音数据采集任务,所述声音数据采集任务指示所述多个移动终端上报指定地点的声音数据;移动终端10采集到声音数据和当前加速度数据后,通过网络20向云端设备30上报;云端设备30接收移动终端10上报的各自采集的声音数据和当前加速度数据;云端设备30针对同一地理范围内的n个移动终端的声音数据和当前加速度数据,利用秩和比算法评估所述n个移动终端所上报的声音数据的质量,所述n为大于1的正整数。实际上,云端设备30下发的任务可以是一个r轮m个地点的采集任务,每一轮可以有一个时间段,移动终端可以在每一轮中采集一次或者多次声音数据和当前加速度数据,并向云端设备上报。云端设备可以针对同一地理范围内的每一轮的声音数据进行一次质量评估,并且,还可以针对同一地理范围内的每一轮采集工作有一个预算金额,该预算金额可以在数据收集结束后,根据数据的质量支付给移动终端的用户,这样可以激励用户积极参与数据收集。针对大量用户上报上来的数据,云端设备30可以按照预先设定的地理范围,以及移动终端所处的地理位置,将这些数据划分到对应的地理范围数据分组中。在依赖图1所示的移动智群感知系统实现本发明实施例中的数据质量评估的过程可以参阅图2进行理解。图2为本发明实施例中数据质量评估的方法的一实施例示意图。如图2所示,本发明实施例所提供的数据质量评估的方法的一实施例包括:101、云端设备向所述多个移动终端下发声音数据采集任务,所述声音数据采集任务指示所述多个移动终端上报指定地点的声音数据。102、每个移动终端接收到采集任务后,会采集自己所在地的声音数据和当前加速度数据。声音数据可以通过麦克风采集,加速度数据可以通过加速度传感器采集。103、云端设备接收移动终端上报的各自采集的声音数据和当前加速度数据。104、云端设备针对同一地理范围内的n个移动终端的声音数据和当前加速度数据,利用秩和比(rank-sumratio,简称rsr)算法评估所述n个移动终端所上报的声音数据的质量,所述n为大于1的正整数。与现有技术中,同一地点的声音数据差异大,导致影响云端设备决策的问题,本发明实施例提供一种数据质量评估的方法,可以通过秩和比算法评估各移动终端上报的同一地点的声音数据的质量,并在评估时引入了移动终端在收集声音数据时的加速度,增加了评估的准确性。其中,步骤104评估声音数据质量的过程可以参阅图3进行理解。图3为本发明实施例中数据质量评估的方法的另一实施例示意图。如图3所示,步骤104可以包括:1041、确定同一地理范围内n个移动终端所上报的声音分贝值的平均值deavg和声音分贝值的中位数demid。平均值就是每个声音分贝值dei的加和再求平均,可以用公式表示为:中位数(又称中值,英语:median),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。为了更好的理解,下面列举表1所示的几个数值进行说明。表1:移动终端上报数据表指标噪声分贝/db加速度/m/s2移动终端1330.03移动终端2400移动终端3450.05如表1所示,该地理范围内上报声音数据和加速度数据的移动终端有3个,也就是n=3。每个移动终端上报的数据参阅表1可知,移动终端1的噪声分贝值为33,加速度为0.03,移动终端2的噪声分贝值为40,加速度为0,移动终端1的噪声分贝值为45,加速度为0.05。根据上述分贝值的平均值计算公式可以确定deavg=(33+40+45)/3=39.33,中位数demid=40。1042、针对所述n个移动终端中的移动终端i,当i从1到n逐个取正整数值时,分别确定所述移动终端i所上报的声音分贝值dei与所述deavg的差值以及所述dei与所述demid的差值针对每个移动终端的计算办法都是一致的,所以,只要i从1到n逐个取正整数值,就可以计算出每个移动终端的和按照公式以及公式可以计算出表2所示的几个评价指标的数值:表2:评价指标数值表关于表2中的评价指标数值,以移动终端1为例说明该数值的计算过程:a1=0.03,移动终端2和移动终端3的两行数值与移动终端1的评价指标数值的计算过程相同,本处不一一列出计算过程。1043、将以及所述移动终端i的加速度ai作为评估指标,形成n行3列的数据矩阵。该数据矩阵可以表示为:则当n=3时,上述例子的数据矩阵可以表示为:1044、对所述数据矩阵中的每个评估指标进行编秩,得到秩矩阵r=(rij)n×3,其中,rij表示第i个移动终端在第j列的编秩,所述j的取值为1、2和3。编秩就是给各评估指标编一个序号,徐如:填加序号1、序号2和序号3。这3个评价指标均为成本型指标,所以从大到小编秩。也就是同一列中数值大的就可以编1,然后按照数值从大到小的顺序依次编2和3,以及其他序号。同一指标数据相同的编相同秩。得到秩矩阵记为r=(rij)n×3,其中ri1为第i个移动终端声音分贝值与分贝值平均值的差值的编秩,ri2为第i个移动终端声音分贝值与分贝值中位数的差值的编秩,ri3为第i个移动终端的加速度ai的编秩。按照上述所描述的编秩方式,对表2编秩后的结果可以用表3表示:表3:表2的编秩结果表用秩矩阵可以表示为:1045、根据所述秩矩阵r=(rij)n×3确定所述n个移动终端中每个移动终端的第一加权秩和比wrsri。第i个移动终端的第一加权秩和比为:以及ai都有对应的权重wj,j∈{1,2,3},在本发明实施例的例子中,设定w1=0.4,w2=0.4,w3=0.2。则根据第一加权秩和比的公式结合表3中的数值,以及权重值w1=0.4,w2=0.4,w3=0.2,可以计算出表4中每个移动终端所对应的第一加权秩和比的数值。表4:wrsri结果表关于表4中wrsri结果的数值,以移动终端1为例说明该数值的计算过程:wrsr1=(0.4*1+0.4*1+0.2*2)/3=0.4,另外wrsr2和wrsr3的计算过程与wrsr1相同,只是公式中分别代入移动终端2和移动终端3各行所对应的数值即可得到表2中的最终结果。1046、根据所述wrsri确定第二加权秩和比wrsri′,所述wrsri′用于评估声音数据的质量,wrsri′越大,声音数据的质量越好。其中,步骤1046还可以包括图4所示的步骤:10461、将每个移动终端第一加权秩和比的数值从小到大排序后,列出移动终端i的频数fi。由于每个移动终端i加权秩和比wrsri均只有一个值,所以fi=1;若有同一终端提交多次数据的情况,则fi的数值就会累加,例如:若提交了三次,云端设备针对这三次提交的数据都采用了,则fi=3。10462、计算移动终端i对应的累计频数cfi,以及累积频率pi=cfi/n。最后一个累积频率按估计。累计频数cfi就是排序后自身fi与前面所有fi的累加和。当fi=1时,cfi=i10463、将累积频率pi按照预置映射关系转换为概率单位probiti。probiti为标准正态分布的pi分位数加5,probiti=norminv(pi,0,1),其中0为均值,1为分布的标准偏差。以上wrsri、fi、cfi、pi和probiti在上述例子中的数值可以参阅表5进行理解。表5:指标wrsrificfipiprobiti移动终端10.4110.33334.569181移动终端21120.66675.430819移动终端30.6130.91676.383212表5中wrsri使用表4中的计算结果,每个fi都等于1,因cfi就是排序后自身fi与前面所有fi的累加和,所以cf1=1,cf2=1+1=2,cf2=1+1+1=3。因pi=cfi/n,所以,表5中p1=1/3=0.3333,p2=2/3=0.6667,其中,移动终端3的所以p3=0.9167。关于probiti的计算过程,可以参阅如下描述进行理解:标准正态分布的累积分布函数为用误差函数表示公式简化为其中erf(x)表示误差函数,其定义为:则标准正态累积分布函数的反函数为以移动终端1为例,p1=0.3333代入得到即求得probit1=4.569181。10464、以累积频率pi所对应的概率单位probiti为自变量xi,以wrsri为因变量yi,计算第一直线回归方程wrsri=a+b×probiti,使用最小二乘法求回归直线,求出a、b的估计值和在本发明的例子中,根据上述已经求出的数值,可以按如下公式计算出估计值和其中平均值:10465、将估计值代入wrsri=a+b×probiti,得到第二回归直线方程wrsri′=0.115244+0.100974×probiti。10466、根据第二回归直线方程计算第二加权秩和比wrsri′。结合上述示例过程,就可以计算出三个移动终端各自的第二加权秩和比wrsri′。因为wrsri′的值越大,排名越靠前,表示该移动终端上报的数据质量越好,云端设备还可以根据该wrsri′,计算出应该给各移动终端应分配的资源,也就是应支付的报酬。当同一地理范围内的可分配资源为brm时,按照如下公式为所述n个移动终端中每个移动终端分配资源;其中,所述qi为移动终端i所分配到的资源。则结合上述示例,当brm=100时就可以计算得到表6的各参数的数值。表6:wrsri′排序qi移动终端10.576612328.83移动终端20.663615233.18移动终端30.759782137.99若brm=100元,则移动终端1可以得到28.83元,移动终端2可以得到33.18元,移动终端3可以得到37.99元。上述过程只是针对同一地理范围内,同一轮内移动终端所采集数据的处理过程,实际上,云端设备可以下达采集r轮m个地点的数据采集任务。针对采集r轮m个地点的数据时,移动群智感知噪声采集系统的工作流程可以包括:云端设备发布一个r轮m个地点的噪声采集任务,用矩阵task表示,其中taskij表示第r轮第m个地点的任务,r=1,2,...,r,m=1,2,...,m。对每一轮每个地点都有一个预算brm,即要求该轮中该地点支付给所有用户的报酬总和不超过brm。然后针对每个地点每一轮的数据都执行上述图2至图4中从101至10466的过程,完成整个r轮m个地点,整个数据采集任务中数据质量的评估,以及资源的分配。本发明实施例所提供的数据质量评估方案,在数据质量评估后,并对其排名,方便平台合理支付和选用更优的数据。目前智能手机配置了多种传感器,这便于用户采集数据时调用传感器来收集数据。如:在高速公路上收集噪声数据。为了采集声音数据,用户的手机将开启麦克风接收声音信号。考虑到手机在不同状态,采集的声音信号可能不同,所以还引入了加速度,加速度可以反映出手机当前的运动状态。这样在评估时提高了数据质量评估的准确度。以上所描述的是在移动智群感知系统中如何评估移动终端上报的数据质量,以及如何针对数据质量进行资源分配的过程,下面结合以上的描述,介绍本发明实施例中的云端设备。参阅图5,本发明实施例所提供的云端设备30应用于移动智群感知系统,所述移动智群感知系统还包括多个移动终端,所述云端设备30包括:发送单元301,用于向所述多个移动终端下发声音数据采集任务,所述声音数据采集任务指示所述多个移动终端上报指定地点的声音数据;接收单元302,用于接收移动终端上报的各自采集的声音数据和当前加速度数据;评估单元303,用于针对所述接收单元302接收的同一地理范围内的n个移动终端的声音数据和当前加速度数据,利用秩和比算法评估所述n个移动终端所上报的声音数据的质量,所述n为大于1的正整数。与现有技术中,同一地点的声音数据差异大,导致影响云端设备决策的问题,本发明实施例提供的云端设备,可以通过秩和比算法评估各移动终端上报的同一地点的声音数据的质量,并在评估时引入了移动终端在收集声音数据时的加速度,增加了评估的准确性。可选地,所述评估单元303用于:确定同一地理范围内n个移动终端所上报的声音分贝值的平均值deavg和声音分贝值的中位数demid;针对所述n个移动终端中的移动终端i,当i从1到n逐个取正整数值时,分别确定所述移动终端i所上报的声音分贝值dei与所述deavg的差值以及所述dei与所述demid的差值将所述以及所述移动终端i的加速度ai作为评估指标,确定所述n个移动终端中每个移动终端的第一加权秩和比wrsri。可选地,所述评估单元303用于:将以及所述移动终端i的加速度ai作为评估指标,形成n行3列的数据矩阵;对所述数据矩阵中的每个评估指标进行编秩,得到秩矩阵r=(rij)n×3,其中,rij表示第i个移动终端在第j列的编秩,所述j的取值为1、2和3;根据所述秩矩阵r=(rij)n×3确定所述n个移动终端中每个移动终端的第一加权秩和比wrsri;根据所述wrsri确定第二加权秩和比wrsri′,所述wrsri′用于评估声音数据的质量,wrsri′越大,声音数据的质量越好。可选地,所述评估单元303用于:将每个移动终端第一加权秩和比的数值从小到大排序后,列出移动终端i的频数fi;计算移动终端i对应的累计频数cfi=i,以及累积频率pi=cfi/n;将累积频率pi按照预置映射关系转换为概率probiti;以累积频率pi所对应的概率单位probiti为自变量xi,以wrsri为因变量yi,计算第一直线回归方程wrsri=a+b×probiti,使用最小二乘法求回归直线,求出a、b的估计值和将估计值代入wrsri=a+b×probiti,得到第二回归直线方程根据第二回归直线方程计算第二加权秩和比wrsri′。可选地,参阅图6,本发明实施例提供的云端设备30还包括资源分配单元304,所述资源分配单元304,用于在所述评估单元303确定wrsri′之后,当同一地理范围内的可分配资源为brm时,按照如下公式为所述n个移动终端中每个移动终端分配资源;其中,所述qi为移动终端i所分配到的资源。可选地,参阅图7,本发明实施例提供的云端设备30还包括分组单元305,所述分组单元305,用于在所述接收单元302接收到移动终端上报的各自采集的声音数据和当前加速度数据之后,按照预先设定的地理范围,将所述移动终端上报的各自采集的声音数据和当前加速度数据划分到各自所属的地理范围数据分组内。以上图5至图7所描述的云端设备可以参阅图1至图4部分的描述进行理解,本处不再重复赘述。图8是本发明实施例提供的云端设备30的结构示意图。所述云端设备30包括处理器310、存储器350和收发器330,存储器350可以包括只读存储器和随机存取存储器,并向处理器310提供操作指令和数据。存储器350的一部分还可以包括非易失性随机存取存储器(nvram)。在一些实施方式中,存储器350存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:在本发明实施例中,通过调用存储器350存储的操作指令(该操作指令可存储在操作系统中),通过收发器330向所述多个移动终端下发声音数据采集任务,所述声音数据采集任务指示所述多个移动终端上报指定地点的声音数据;接收移动终端上报的各自采集的声音数据和当前加速度数据;针对同一地理范围内的n个移动终端的声音数据和当前加速度数据,利用秩和比算法评估所述n个移动终端所上报的声音数据的质量,所述n为大于1的正整数。与现有技术中,同一地点的声音数据差异大,导致影响云端设备决策的问题,本发明实施例提供的云端设备,可以通过秩和比算法评估各移动终端上报的同一地点的声音数据的质量,并在评估时引入了移动终端在收集声音数据时的加速度,增加了评估的准确性。处理器310控制云端设备30的操作,处理器310还可以称为cpu(centralprocessingunit,中央处理单元)。存储器350可以包括只读存储器和随机存取存储器,并向处理器310提供指令和数据。存储器350的一部分还可以包括非易失性随机存取存储器(nvram)。具体的应用中云端设备30的各个组件通过总线系统320耦合在一起,其中总线系统320除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统320。上述本发明实施例揭示的方法可以应用于处理器310中,或者由处理器310实现。处理器310可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器310中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器310可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器350,处理器310读取存储器350中的信息,结合其硬件完成上述方法的步骤。可选地,处理器310用于:确定同一地理范围内n个移动终端所上报的声音分贝值的平均值deavg和声音分贝值的中位数demid;针对所述n个移动终端中的移动终端i,当i从1到n逐个取正整数值时,分别确定所述移动终端i所上报的声音分贝值dei与所述deavg的差值以及所述dei与所述demid的差值将所述以及所述移动终端i的加速度ai作为评估指标,确定所述n个移动终端中每个移动终端的第一加权秩和比wrsri。可选地,处理器310用于:将以及所述移动终端i的加速度ai作为评估指标,形成n行3列的数据矩阵;对所述数据矩阵中的每个评估指标进行编秩,得到秩矩阵r=(rij)n×3,其中,rij表示第i个移动终端在第j列的编秩,所述j的取值为1、2和3;根据所述秩矩阵r=(rij)n×3确定所述n个移动终端中每个移动终端的第一加权秩和比wrsri;根据所述wrsri确定第二加权秩和比wrsri′,所述wrsri′用于评估声音数据的质量,wrsri′越大,声音数据的质量越好。可选地,处理器310用于:将每个移动终端第一加权秩和比的数值从小到大排序后,列出移动终端i的频数fi;计算移动终端i对应的累计频数cfi=i,以及累积频率pi=cfi/n;将累积频率pi按照预置映射关系转换为概率probiti;以累积频率pi所对应的概率单位probiti为自变量xi,以wrsri为因变量yi,计算第一直线回归方程wrsri=a+b×probiti,使用最小二乘法求回归直线,求出a、b的估计值和将估计值代入wrsri=a+b×probiti,得到第二回归直线方程根据第二回归直线方程计算第二加权秩和比wrsri′。可选地,处理器310还用于:当同一地理范围内的可分配资源为brm时,按照如下公式为所述n个移动终端中每个移动终端分配资源;其中,所述qi为移动终端i所分配到的资源。可选地,处理器310还用于:按照预先设定的地理范围,将所述移动终端上报的各自采集的声音数据和当前加速度数据划分到各自所属的地理范围数据分组内。以上的云端设备30可以参阅图1至图4部分的描述进行理解,本处不做过多赘述本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:rom、ram、磁盘或光盘等。以上对本发明实施例所提供的数据质量评估的方法、设备以及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1