一种基于用户话单数据中不同基站接入频次加权的基站位置估计方法与流程

文档序号:13516695阅读:481来源:国知局

本发明涉及大数据分析与统计学习方法,特别是涉及一种基于用户话单数据中不同基站接入频次加权的基站位置估计方法。



背景技术:

电信运营商话单大数据中包含有当前通话的接入基站信息,而这些基站信息是由基站建设、维护人员事先人为手动输入、制表存储于服务器端的。这些数据常常因为输入人员的疏忽而引起错误数据的输入,因此这其中常带不可避免的混入了错误信息。

这些错误信息的存在,常常给电信运营商的基站维护、布局,用户定位服务等带来很多问题,严重影响了最终用户的使用体验,为此有必要通过适当的技术手段,对上述基站的错误位置信息进行排查、更正。显然,因为巨大的数据量,人为地去修正上述错误信息是繁重的,笨拙的。

基于此,本发明提出一种基于用户话单数据中不同基站接入频次加权的基站位置估计方法与系统。对于海量的用户话单大数据信息中位置存疑的基站信息,根据对话单大数据的分析、挖掘,给出恰当、合理的存疑基站位置估算。



技术实现要素:

针对基站数据手动输入中可能引入的错误信息,提出一种基于用户话单数据中不同基站接入频次加权的基站位置估计方法。

算法通过对用户话单中连接各基站的不同频率信息的挖掘、分析与计算,给出一定范围内不同基站在当前基站位置估计中的权重比例,作为加权计算的权值信息,从而给出当前存疑基站的经、纬度估计值。

一种基于用户话单数据中不同基站接入频次加权的基站位置估计方法,具体包括如下步骤:

(1)对于经、纬度信息存疑的基站,在话单大数据中寻找与该基站进行连接了的全部电话号码;

(2)对这些电话号码在连接该基站的一定时间范围内(例如,前后1小时内,根据经验给出)的话单数据进行分析,基于时空的连续性,对这些号码连接该存疑基站上、下文基站的信息进行统计;

(3)针对上述基站,建立基站集合,根据集合中不同基站出现的频次,计算上述基站在基站估计中的权值,对存疑基站的经、纬度信息进行加权平均计算;

(4)为提高估计的准确性,对上述目标多天数据进行采集,剔除干扰外点,并采用最小二乘估计算法计算平均值作为最终存疑基站的经、纬度估计值。

与现有技术相比,本发明具有以下明显的优势和有益效果:

(1)本发明基于一定时间内,用户终端连接存疑基站的上、下文连接基站在基站集合中出现的频次,提出一种基于用户话单数据中不同基站接入频次加权的基站位置估计方法与系统。通过对用户话单中连接存疑基站的基站上、下文信息的挖掘、分析与计算,给出不同基站经、纬度信息在当前基站位置估算中所占的权重比例,作为加权计算的权值信息(通常,基站更倾向于首先连接到与它最近的基站,因此出现频次最多基站意味着在地理位置上可能更靠近存疑基站的位置,在位置估计中,应该将其赋予较大权值,以使被估计基站具有更高精度),给出当前存疑基站的经、纬度估计值。

(2)本发明根据不同接入频次信息对集合中不同基站的经、纬度数据进行加权,克服了原有的为集合中不同基站经、纬度赋予相同权值进行存疑基站位置估计的传统方法的不足,位置估计精度更高。

本发明采用根据不同基站的不同接入频次加权为集合内基站的地理信息设置权值,自动的完成存疑基站的位置纠偏工作,确保了大量存疑数据的准确修复。

附图说明

图1为基于用户话单数据中不同基站接入频次加权的基站位置估计方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

如图1所示,本发明提供一种基于用户话单数据中不同基站接入频次加权的基站位置估计方法,包括以下步骤:

(1)一定时间t内,话单大数据中存疑基站连接电话号码查询、制表

对话单大数据中全部的已标出带有纠偏存疑的基站,建立存疑基站表单b1,在oracle数据库中选取其一定时间内(例如前、后60分钟)所连接的全部电话号码,使用select语句进行查询,给出这段时间与该基站相连全部电话的表单p1;

(2)一定时长内,电话号码连接基站信息提取

对于p1中每一个电话号码,以该存疑基站为参考基站,以连接该参考基站时间点to为参考时间,查找连接该参考基站上、下文信息,即连接到该参考基站之前和之后连接的时间相邻两基站(bi,bj),并建立基站集合b2,分别提取这些基站的经、纬度信息lo、la;

(3)基于不同基站可信度度量的基站经、纬度加权权值计算

针对上述基站上、下文,建立基站集合,根据集合中不同基站出现的频次,给上述基站赋予不同权值,设第i个基站bi出现频次为fi,基站集合中出现频次最高基站对应频次为fmax,则bi在存疑基站经、纬度估计中的权值wi定义为:

wi=fi/fmax

(4)基于不同基站可信度度量的基站经、纬度计算

根据上述权值,使用如下公式对存疑基站的经、纬度信息进行加权平均计算,则存疑基站经、纬度lo、la分别为:

lo=σwi·loi/n

la=σwi·lai/n

这里n为参与统计的基站总和。

(5)基于距离的外点去除算法剔除干扰外点

为提高估计的准确性,对上述存疑基站多天的地理位置估计数据进行统计,并使用基于距离的外点去除算法剔除干扰外点,该方法中最小距离阈值d和局部可达密度p通过经验确定,本发明中基站数据的最小距离阈值d设置为20m和局部可达密度p设置为3,如多天基站地理位置估计值中某一天基站估计位置20m半径内含有的基站数少于3个,则根据基于距离的外点去除算法原则从统计数据中去除该点。

(6)基于最小二乘法的存疑基站最佳经、纬度计算

设待求取存疑基站经纬度最佳估计为lob和lab,则采用最小二乘估计算法计算lob和lab作为最终存疑基站的经、纬度估计值,通过已获得的已知参与统计的基站经、纬度估计值与待求解存疑基站经、纬度估计值的差值平方和minσ(loi-lob)2和minσ(lai-lab)2最小值估计算法来求解存疑基站经、纬度的最佳估计lob和lab。

本发明的基于用户话单数据中不同基站接入频次加权的基站位置估计方法,涉及到以下几个步骤:1、对于经、纬度信息存疑的基站,在话单数据中寻找与该基站进行连接了的全部电话号码;2、对这些号码在连接该基站的一定时间范围内(例如,前后1小时内)的话单数据进行分析,给出这些号码连接该基站之前的上、下文基站信息,并对上述信息进行统计;3、针对上述基站,建立基站集合,根据集合中不同基站出现的频次,给上述基站赋予权值,对存疑基站的经、纬度信息进行加权平均计算;4、为提高估计的准确性,对上述目标多天数据进行采集,基于距离的外点去除算法剔除干扰外点,并采用最小二乘估计算法计算平均值作为最终存疑基站的经、纬度估计值。本发明基于用户终端连接存疑基站的上、下文基站信息出现的频次,提出一种基于用户话单数据中不同基站接入频次加权的基站位置估计方法与系统。通过对用户话单中连接存疑基站的上、下文基站信息的挖掘、分析与计算,给出不同基站经、纬度信息在当前基站位置估算中的权重比例,作为加权计算的权值信息,给出当前存疑基站的经、纬度估计值。最后,应用本发明方法对话单大数据进行了分析、挖掘,实验结果证明利用本文算法,可实现较高精确度的基站经、纬度估计。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1