一种基于手机信号在复杂环境中将用户分群的方法及装置与流程

文档序号:17695516发布日期:2019-05-17 21:28阅读:306来源:国知局
一种基于手机信号在复杂环境中将用户分群的方法及装置与流程
本发明涉及一种在复杂建筑物环境下的用户分群的技术,尤其涉及的是一种基于手机信号在复杂环境中将用户分群的方法及装置。
背景技术
:随着互联网、移动物联网、物联网、云计算的不断发展,社会各个领域都在源源不断地产生大量的数据。数据资源被各国视为未来最重要的国家资产,推动着未来人类社会生产、生活模式的改变和创新。近两年,各国不断颁布推动大数据发展的政策,大数据应用也开始逐渐落地,从概念阶段正式进入成熟阶段。电信运营商作为大数据的重要拥有者,其数据具备数量体大、类型多、真实、准确的特点;近期电信运营商因传统业务发展饱和,国家持续的“提速降费”、“取消漫游费用”等政策的限制,再加之最近国家经济发展疲软等诸多因素,导致其传统业务收入不断下滑,急需新的业务增长点,与此同时各国际运营商亦积极开展战略转型,布局大数据等新兴领域;所以围绕当前的数据金矿,充分挖掘、发挥数据价值是当前电信运营商的必走之路,而在诸多运营商数据核心能力中,位置能力就是其中之一,在对内运维优化、精准营销,对外数据变现、行业应用支撑等方面起着至关重要的作用。当前运营商最新主流的,能够提供较为准确位置能力的技术是基于mr的指纹定位技术;mr是指移动终端通过控制信道,在业务信道上以一定时间间隔,以mr的方式向基站周期性上报所在小区的下行信号强度、质量等信息,基站将终端上报的下行信息和自身收集的上行物理信息上传给基站控制器,并由其收集与统计。以td-scdma网络为例,每个mr主要包括上下行接收信号码功率、上下行信噪比、时间提前量、上下行路径损耗、ue发射功率及nodeb发射功率等。上报的mr可用于系统中无线资源控制子层完成诸如切换等事件的触发,也可用于系统维护,观察系统的运行状态;位置指纹是指用户所处位置的场景特征。基于mr的指纹定位技术的原理是:将实际地图根据一定距离,划分成连续的正方形栅格,然后将海量含有经纬度的mr数据点根据经纬度落入栅格中,提取每个栅格中的信息特征,建设成mr指纹库;对某条mr记录定位的过程为,提取这条mr数据的特征,然后与现有库中每个栅格的特征进行比较,计算欧式距离,以距离最小的栅格作为此条mr数据定位到的栅格,以栅格中心点作为定位经纬度;但是目前建库时,栅格内如果存在复杂的地理环境,则栅格中的信号特征呈现多样性,无法统一,或者强行统一后特征失真,导致建成的指纹库不符合实际情况,导致后续定位不准,需要进一步考虑如何避免或者减少复杂多变的环境对mr指纹库造成的影响。现有主流方法在实际的建库过程中存在以下缺陷:现有技术将地图划分成规则的大小相同的栅格,一个栅格内实际的地理情况复杂,可能涵盖地铁、道路、高架、不规则建设物、室外等多种环境,都会导致信号特征变化较大,影响建库准确性;以建筑物遮挡为例,如图1所示,图中区域1、2、3、4的信号特征会有明显差异,基于此栅格内的信号特征建设的指纹库,势必造成定位误差;如果将栅格划分更小、更细,理论上不管多小的栅格,都有这种情况存在,可以一定程度避免,无法完全避免,但越小的栅格划分势必导致建库难度、定位的效率(因库过大,比对次数变多)产生指数级影响,且因为过于细化,也可能导致实际建成的库失真,定位效果变差。技术实现要素:本发明所要解决的技术问题在于:如何在复杂建筑群中分辨出不同的信号特征,提供了一种基于手机信号在复杂环境中将用户分群的方法及装置。本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:(1)以小区编码cellid为特征,选取满足特征选取条件的数据点数对应的小区编码cellid作为栅格的特征;(2)将选取出来的特征进行电平值的添补处理;(3)将数据以子栅格为单位,并将数据分为n个数据集进行聚类计算;(4)根据聚类结果,分别提取这n个数据集的特征值;(5)根据最新的数据集特征,建立指纹库。所述步骤(1)中,以小区编码cellid为特征,统计出某栅格内数据点总数n,然后统计出包含每个小区编码的数据点数为d1、d2、d3、…,根据特征选取公式:d/n>x,x为自定义参数,将满足特征选取公式的数据点数d对应的小区编码cellid作为此栅格的特征。所述步骤(2)中,设栅格选出来的特征cellid的个数为m个,分别记为:c1、c2、c3、…、cm,每个cellid所对应的电平值rsrp总和sum(rsrp)=rsrp1、rsrp2、rsrp3…、rsrpm,对电平值进行添补如下:假设某数据点缺失的cellid为ci,计算di与数据点总数n的比值pi=di÷n,计算ci电平值的平均值avg(rsrp)i=rsrpi÷di,添补rsrp的公式为:rsrp_补=avg(rsrp)i×wi,wi为权重。所述步骤(2)中,wi与pi的关系如下:当pi≥z1,wi=a1;当z2≤pi≤z3,wi=a2;…;当pi≤zn,wi=an,z1~zn和a1~an分别为预设的自定义值。所述聚类计算为k均值聚类算法。一种基于手机信号在复杂环境中将用户分群的装置,所述装置包括:选取模块,用于选取满足特征选取条件的数据点数对应的小区编码cellid作为栅格的特征;添补模块,用于对电平值进行添补;聚类模块,用于将数据以子栅格为单位,分为n个数据集进行聚类计算;特征值提取模块,用于提取聚类计算后的n个数据集的特征值;指纹库建立模块,用于利用最新的数据集特征建立指纹库。本发明相比现有技术具有以下优点:本发明在划分正常大小的栅格后,基于用户的信号特征,利用聚类算法,将用户分组,相似信号特征的用户分为一类,分别提到信号特征,分组建库,有效避免了复杂多变的环境对mr指纹库造成的影响;即能不增加建库的难度,又可以灵活控制每个栅格分组的组数,让定位效率在可接受范围内,最终实现定位的效果更准确。能够将用户在复杂多变的现实环境中进行有效的分类分群,然后分别提炼出手机信号特征,为后续精准定位、运维优化等工作提供核心数据支撑。附图说明图1是现有复杂建筑群的区域特征信号图;图2是本发明的实施流程图。具体实施方式下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。如图2所示,本实施例包括以下步骤:(1)栅格内特征选取为了选出更能符合小区实际覆盖情况的信号特征,对异常特征进行剔除,以减少或屏蔽异常特征的影响;以小区编码cellid为特征,首先统计出某栅格内数据点总数,设为n,然后统计出包含每个cellid的数据点数,设为d1、d2、d3、…;如果某栅格内的大量数据点都不包含某特征,说明很大概率此栅格无此特征,可剔除此特征,得出特征选取公式:d/n>x,x为自定义,将满足特征选取公式的数据点数d对应的小区编码cellid作为此栅格的特征;(2)特征完善处理对于不同的数据点之间,只有部分特征相同,如不进行补充完善,则互相之间无可比性,无法实现分类的目的;所以需要将选取出的数据特征进行修补、完善等,进一步还原实际场景并处理成具有相同的特征格式,利用现有成熟聚类算法实现分群的目的。预处理的步骤如下:(a)设栅格选取出来的特征cellid数为m个,按照排序,分别记为c1、c2、c3、…、cm,每个cellid所含的数据点数分别为d1、d2、d3、…、dm,每个cellid所对应的rsrp总和sum(rsrp)=rsrp1、rsrp2、rsrp3…、rsrpm,对于每个数据点,大部分只包含部分的cellid,为了能够对所有数据点进行有效分类,需要将数据点缺失的cellid进行添补,主要添补的为缺失的cellid的rsrp,cellid+rsrp可组成一组可相互比较的特征。(b)添补规则参考以下两个原则:采集原理原则:因原始数据的采集原理是,采集记录每个数据点的最好的x个电平值及对应的cellid,有时可能出现信号漂移现象,无法非常准确体现实际情况,可利用大量的数据现象屏蔽异常数据,所以缺失的cellid很大概率是电平值较小的。聚类算法分类原理原则:为缺失的cellid添加rsrp的是最主要目的就是为了能够使用聚类算法,将所有数据点进行准确分类,所以理论上添加的值与正常的值应该存在明显差异,要能在使用聚类算法计算欧式距离时,有效体现距离差距,方可实现分类目的,所以添补值要与当前值存在差异。可定义添补的规则如下:假设某数据点缺失的cellid为ci,首先,计算di与数据点总数n的比值pi=di÷n,计算ci电平值的平均值avg(rsrp)i=rsrpi÷di,那么添补rsrp的公式为:rsrp_补=avg(rsrp)i×wi,其中wi的值可设为某个定值,如:0或者0.1等,也可参考pi的值的大小来确定,因为pi越大,代表具备对应cellid特征的数据点越多,代表此cellid特征在此栅格内越明显,故可自定义wi(为体现与现有值的差异,应远离1)与pi有对应关系如表1所示:表1wi与pi的取值关系对应表piwipi≥z1a1z2≤pi≤z3a2……pi≤znanz1~zn和a1~an分别为预设的自定义值,例如可以设置,当pi>40%时,rsrp_补=avg(rsrp)*0.5;当20%<pi<40%,rsrp_补=avg(rsrp)*0.2…。下面举例说明:假设有3个数据点,分别为数据点1:[1000150.24|1000249.23|1000338.79]数据点2:[1000151.34|1000245.23|1000437.89]数据点3:[1000248.28|1000339.24|1000436.79]其中:10001、10002、10003和10004分别表示小区cellid,后面的值表示电平强度rsrp,rsrp越大信号越好。可以看出这三个数据点的格式并不统一,第一个点只包含10001、10002和10003三个cgi,不包含10004,第二、三个点也是如此,第二个点不包含10003,第三个点不包含10001。对于10001来说,p1=2/3,avg(rsrp)1=(50.24+51.34)/2=50.79,假设权重w1为0.5,所以缺失10001应该添补的rsrp值为50.79×0.5=25.40,由于10002每条数据都含有,所以就不存在添补了;同理缺失10003应该添补(38.79+39.24)/2×0.5=19.51;缺失10004应该添补(37.89+36.79)/2×0.5=18.67;添补后的数据如下:数据点1:[1000150.24|1000249.23|1000338.79|1000418.67]数据点2:[1000151.34|1000245.23|1000319.51|1000437.89]数据点3:[1000125.40|1000248.28|1000339.24|1000436.79](3)将数据以子栅格为单位,输入主流聚类算法,将现在数据分成n(自定义)个数据集(具体步骤参考k均值聚类算法);(4)根据聚类结果,分别提取这n个数据集的特征值;(5)根据最新的数据集特征,建设指纹库。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1