基于最大似然比的群智数据有效性验证方法

文档序号:6631232阅读:266来源:国知局
基于最大似然比的群智数据有效性验证方法
【专利摘要】本发明提供了一种基于最大似然比的群智数据有效性验证方法,包括步骤:实验获取一个未经训练的普通人将某个观测分量判断错的先验概率;服务器对已经积累的所有数据按观测值归类;对同一测量值的所有数据,使用核密度估计计算概率密度函数,计算置信概率;服务器等待用户上传新的数据;测量者使用其移动终端进行多次测量,获得一组数据,连同测量者自己观察得到的观测分量一同上传给服务器;服务器将用户提供的数据与数据库相比较,使用一种基于最大似然比的群智数据有效性验证方法计算这组数据的似然可靠度;服务器决定是否接受这组数据,根据可靠性支付报酬,更新这个测量值的数据库,重新计算概率密度函数和置信概率。
【专利说明】基于最大似然比的群智数据有效性验证方法

【技术领域】
[0001] 本发明涉及通信【技术领域】,具体地,涉及一种基于最大似然比的群智数据有效性 验证方法。

【背景技术】
[0002] 群智(crowdsourcing)在智能手机的应用中有十分广阔的前景。随着互联网技术 的飞速发展,网络中个体的数量飞速增长,个体相互之间的联系也越来越紧密。在这样的大 环境下,群智服务应运而生。如何有效的构建群智服务平台,促进社会中的资源共享,是下 一代互联网研究需要解决的重要问题。
[0003] 如今,信息提供商往往采用群智激励机制(Crowdsourcing Incentive Mechanism),将采集信息的工作交由分散的用户来做,并为他们提供的信息或服务给予 一定的回报。例如有人想知道某段道路的拥堵情况,由正在该路段上的用户提供的信息 不仅比提供商派人去勘察得到的信息更快也更准确。如今手机传感技术(Mobile Phone Sensing)正在蓬勃的发展之中,多种多样的传感设备正在被安装到智能手机上,例如加速 传感器,GPS,距离传感器,相机等。利用这些分散的用户的智能手机传感技术获取到所需的 信息并上传给提供商是现阶段逐渐流行的手段。
[0004] 尽管群智有众多优点,但是其弊端也是不可避免的。由于数据的测量者没有经过 专业训练,测量的数据的观测误差总体来说会比较大,而且,由于测量者未经训练,不同数 据的有效性的差异也会比通过传统方法获得的数据更大。极端情况下,如果测量者对测试 对象非常陌生,甚至误操作,导致数据严重偏离了正常水平,采用这个数据将会对样本的有 效性造成一定损害。
[0005] 这是群智场景中特有的一种误差,以下称为观测误差;其余的称为测量误差。这两 种误差通常都可以用更大的样本量来弥补,但是我们的目的在于通过概率论的方法对群智 数据进行定量评价与比较。进一步地,目的在于能从中筛选出相对有效性更高的一部分,也 就是观测误差较小的一部分。
[0006] 经过对现有技术文献的检索发现,M. Ramadan等2008年在International Symposium on Personal, Indoor and Mobile Radio Communications 发表的 "Implementation and evaluation of cooperative video streaming for mobile devices"中提出了基于合作下载的视频分享机制,但该机制要求所有参与用户都相互 认识并主动组成无线局域网,因而应用场景受到了极大限制。LKeller等2012年在 International Conference on Mobile Systems, Applications, and Services 发表的 "MicroCast !cooperative video streaming on smartphones,'中提出了一种利用手机之 间无线通信实现的视频协作下载加速机制。但该机制要求所有参与用户都希望下载同一个 视频,该条件在大部分情况下都得不到满足,因而有很大的局限性。


【发明内容】

[0007] 针对现有技术中的缺陷,本发明的目的是提供一种基于最大似然比的群智数据有 效性验证方法,通过利用服务器数据库中已经积累的大量数据内容更好地筛选有效的数 据,减少录入错误数据造成的判断偏差。
[0008] 根据本发明提供的一种基于最大似然比的群智数据有效性验证方法,包括如下步 骤:
[0009] 步骤1 :实验获取先验概率Plj,其中,Plj表示对于某个观测分量j,一个未经训练 的测量者将该观测分量j判断为1的概率;
[0010] 步骤2 :服务器对已经积累的所有数据按观测值归类;对同一测量值j的所有数 据,使用核密度估计计算概率密度函数,计算置信概率Ci j ;
[0011] 步骤3 :服务器等待用户上传新的数据;
[0012] 步骤4 :测量者i使用其移动终端进行多次测量,获得一组数据,这组数据连同测 量者自己观察得到的观测分量一同上传给服务器;
[0013] 步骤5 :服务器将用户提供的数据与数据库相比较,计算这组数据的似然可靠度;
[0014] 步骤6 :服务器决定是否接受这组数据,根据可靠性支付报酬;如果服务器接受这 组数据,返回步骤2,更新这个测量值j的数据库,重新使用步骤2中的方法计算概率密度函 数和置信概率%.。
[0015] 优选地,所述步骤1包括如下步骤:
[0016] 步骤I. 1 :对于基于Wi-Fi信号强度的室内定位的训练过程中,测量者需要确定自 已所处室内的位置,产生观测误差;测量者的观测误差被抽象为其处于房间中一点时对于 房间最近的两个墙壁的距离的估计误差;
[0017] 步骤1. 2 :通过预先的一次实验确定先验概率ρυ并将先验概率ρυ应用于所有室 内定位的活动中,具体为,令多个测量者在一个没有距离参照物的房间里某些固定点j判 断自己的位置1,收集该多个测量者的判断结果分布情况即作为P lj ;
[0018] 步骤1. 3 :对于不能通过预先的一次实验确定的Plj,可取克罗内克函数:

【权利要求】
1. 一种基于最大似然比的群智数据有效性验证方法,其特征在于,包括如下步骤: 步骤1 :实验获取先验概率Pm其中,示对于某个观测分量j,一个未经训练的测 量者将该观测分量j判断为1的概率; 步骤2 :服务器对已经积累的所有数据按观测值归类;对同一测量值j的所有数据,使 用核密度估计计算概率密度函数,计算置信概率aj; 步骤3 :服务器等待用户上传新的数据; 步骤4 :测量者i使用其移动终端进行多次测量,获得一组数据,这组数据连同测量者 自己观察得到的观测分量一同上传给服务器; 步骤5 :服务器将用户提供的数据与数据库相比较,计算这组数据的似然可靠度; 步骤6 :服务器决定是否接受这组数据,根据可靠性支付报酬;如果服务器接受这组数 据,返回步骤2,更新这个测量值j的数据库,重新使用步骤2中的方法计算概率密度函数和 置信概率ct
2. 根据权利要求1所述的基于最大似然比的群智数据有效性验证方法,其特征在于, 所述步骤1包括如下步骤: 步骤I. 1 :对于基于Wi-Fi信号强度的室内定位的训练过程中,测量者需要确定自已所 处室内的位置,产生观测误差;测量者的观测误差被抽象为其处于房间中一点时对于房间 最近的两个墙壁的距离的估计误差; 步骤1. 2 :通过预先的一次实验确定先验概率ρυ并将先验概率ρυ应用于所有室内定 位的活动中;具体为,令多个测量者在一个没有距离参照物的房间里某些固定点j判断自 己的位置1,收集该多个测量者的判断结果分布情况即作为Plj ; 步骤1. 3 :对于不能通过预先的一次实验确定的ρυ,取克罗内克函数:
其中,Sυ表示克罗内克函数。
3. 根据权利要求1所述的基于最大似然比的群智数据有效性验证方法,其特征在于, 所述步骤2包括如下步骤: 步骤2. 1 :服务器的数据库中的每个观测分量对应积累数据集j= 1,2, 3, ...,N,N表示观测分量的总数,h中的各个元素D/,k= 1,2, 3, ...T,服从(X)分布,T表示每个 观测分量的数据总数,f"(x)表示观测分量j所服从的概率密度函数;T= |D」>>M,M表 示测量者一次上传的数据总数,则
具甲,Kh衣不後嵆皮凼数,X衣不数据变量; 步骤 2. 2 :设.Ws(X) =Σ?:=ι2/ι- /)/),即ns(x)表示[x-h,x+h]内数据库中已存在 数据个数,h表示核密度函数Kh的带宽;ns(x)可能有T+1个取值,服从分布:
其中,P( ·)表示ns(x)的概率质量函数,ns(x)表示表示[x-h,x+h]内数据库中已存 在数据个数,ns取0,1,. . .,T,T+1中的一值,Cf表示从T个不同元素中取出ns个的组合 数,h表示表示核密度函数Kh的带宽; 步骤2. 3 :通过数据库大小确定ril的期望,将这个期望作为置信概率α,其中,ril表示 观测者i所上传的数据属于观测分量1的概率密度;显然,不同观测值对应的积累数据量是 不同的,因此对于不同观测值有不同的置信概率CIjtj
4. 根据权利要求1至3中任一项所述的基于最大似然比的群智数据有效性验证方法, 其特征在于,所述步骤4包括如下步骤: 步骤4. 1 :测量者获得一纟目M个数据记作下式
其中,巧;表示测量者i对同一观测分量进行多次测量获得的一组数据,j表示这组M个 数据的一个需要观测的分量的真实值,je{1,2,3, ...,N},N表示观测分量的总数;Xti服 从分量j对应分布f" (X),Xti表示测量者i上传的第t个数据; 步骤4. 2 :观测误差体现为测量者将j判断为j'上报给服务器,即$;。
5. 根据权利要求4所述的基于最大似然比的群智数据有效性验证方法,其特征在于, 所述步骤5包括如下步骤: 步骤5. 1 :服务器取得数据后计算所有IriJ:
其中,M表示测量者一次上传的数据总数,f( ·)表示观测分量所服从的概率密度函数, 1表示观测分量编号,Xt^表示观测者i上传的第t个数据,并将其判断为观测分量j',N 表示观测分量的总数,的物理意义为属于观测分量1的概率密度;显然,当I=j时 最大; 步骤5. 2 :定义参数L(X3,
其中%称为置信概率,Ρυ,表示对于观测分量j',测量者将该观测分量j'判断为观 测分量1的概率;当= 1时L(X;〇的意义为测量数据的最大可能概率密度的对数;显然 对于相同长度的一组数据,L(Xtj)较大者更可信; 步骤5. 3 :通过能够对所有群智数据的有效性进行排序,根据需要取其中的前 若干个。
6. 根据权利要求5所述的基于最大似然比的群智数据有效性验证方法,其特征在于, 在步骤2. 1中,取核密度函数为均匀核函数:AW< /1,h足够小使得数据在带 宽范围内近似均匀分布,落到这个区域内的概率Ps =P(|x_Djk| <h) =f(x)2h; 在步骤2. 3中,所有>O的数据都具有采用的价值,下面是一种计算ril的期望ElriJ的方法:
其中,P(Xt)表示观测分量1取值为Xt的概率密度,1表示第1个观测分量,t表示观 测者上传的第t个数据,M表示测量者一次上传的数据总数,!表示阶乘,e表示自然底数, Ps =P(|x-Djk| <h) =f(Xi) 2h,f(Xi)用核密度估计得出;上式中不存在T以外的变量,故 确定了置信概率与数据库大小T的关系。
【文档编号】G06F17/30GK104462187SQ201410568300
【公开日】2015年3月25日 申请日期:2014年10月22日 优先权日:2014年10月22日
【发明者】闻于天, 张奇, 田晓华, 杨峰, 王新兵 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1