一种移动网络小区标识信息补正方法与流程

文档序号:13764120阅读:396来源:国知局

本发明属于移动网络领域。



背景技术:

对移动网络而言,小区(也称扇区,cell)是网络覆盖区域划分的基本单位。当手机终端开机驻留网络时或者进行业务时,所在小区的小区标识是重要的参数。小区标识为唯一确定一个小区的标识参数的组合,一般由若干参数组合而成,对于不同的网络制式,所使用的参数数量、名称和含义均有所不同。例如,对GSM、WCDMA、TD-SCDMA网络,小区标识为(LAC,CI),对CDMA 1x/EVDO网络则为(SID,NID,BID),LTE网络为(TAC,eNodeBID,CI,PCI)。

在很多基于终端的应用场景中,都需要从终端侧采集信息。一种重要的应用场景是利用终端上运行的软件监测并采集终端的用户业务体验质量(也称业务感知)信息、网络质量信息、业务使用行为等,采集的信息回传到云端的服务器,并在服务器上基于采集到的相关信息进行业务感知的评价与优化、网络质量的评价与优化、用户画像分析等数据挖掘工作。在上述采集的信息中,一个很重要的数据是采样时刻用户终端所处小区的小区标识,该信息被用来确定为该终端提供服务的基站设备、对终端进行位置定位、以小区为单位进行数据的统计分析和挖掘等。

但是在进行终端侧数据采集时,由于终端的个体性差异、不同品牌终端对安卓OS的定制化开发、iOS的封闭性等原因,很多情况下无法从终端OS的API接口采集到完整、准确的当前所在小区标识信息(比如可能只采集到部分小区标识信息,或采集到的小区标识超出正常范围),因此无法对用户业务发生时的服务小区做精确判定,导致不能进行有针对性的业务感知评价与优化、网络质量评价与优化等工作。

目前对于这种关键信息缺失的采样数据,一般的处理方式是在数据清洗时作为无效数据丢弃掉。



技术实现要素:

本发明是要解决如何通过后处理的方式将终端采样数据中缺失或无效的小区标识信息进行补充和修正。

一种移动网络小区标识信息补正方法,其特征在于,步骤如下:

步骤1:终端数据采集

在进行基于终端侧采集数据的业务感知评价、网络质量评价、业务行为分析时,在监测模式下采集终端侧的业务感知数据、网络质量数据或业务行为数据,数据包括:日期,时间,经纬度,定位方式,定位精度,当前所在省和地市名称,运营商,网络制式,小区标识,终端标识,用户标识,{指标集},{无线参数集};

其中小区标识为唯一确定一个小区的标识参数的组合;

其中{指标集}包括对业务感知评价或对网络质量评价;

其中{无线参数集}是指采样时刻终端所处无线环境的参数,如信号强度、信噪比(SNR)、Ec/Io、RSRQ等(对于不同的网络制式,所用的参数也不同)。

上述采样数据由终端上运行的数据采集软件通过数据通道回传到云端的服务器,并解析后存入数据库中相应的终端采样数据表;一般以一个本地网为单位建表,即同一个城市下同一个运营商的同一个特定网络下的全部样本数据存放在一张表上,可以日期和时间为顺序排列。

步骤2:异常样本标定

对终端采样数据表,逐条扫描各样本数据中的“小区标识”字段,如果该字段存在部分或全部信息缺失,或者字段的值超出设定的有效取值范围,则标定该样本为异常样本,否则为正常样本;

有效取值范围的设定:对于不同运营商的不同网络制式,有效值的范围设定不同,应根据国际标准中对该标识参数的定义以及运营商对小区标识的分配规则确定。

步骤3:建立时空相关数据集

从第一个异常样本数据开始,对每个异常样本数据建立相应的时空相关数据集;具体方法是:对于选定的异常样本,从该样本所在的终端采样数据表中,选取时间间隔小于设定的时间相关门限Tt的全部样本;设该异常样本的采样时刻为Ta,设定的时间相关门限为Tt分钟,则选取采样时刻为(Ta-Tt~Ta+Tt)的全部正常样本;

根据各样本中的经纬度信息,分别计算并记录该异常样本与所选取的各正常样本的欧氏距离,如果距离小于设定的空间相关门限Ts,则该正常样本放入时空相关数据集;Ts默认值可取500米;

设一个异常样本A的经纬度为(Xa,Ya),定位精度为Pa,Pa单位为米;采样时刻为Ta;其对应的时空相关样本集{Oi,i=1~M}中的正常样本数为M,将这些正常样本按照小区标识分为N组进行排列,其小区标识分别为{Cj,j=1~N},每组中样本数分别为Mj,j=1~N,则

设样本集中各样本的经纬度为{(Xi,Yi),i=1~M},定位精度为{Pi,i=1~M};则异常样本A与样本集{Oi}中各点间的欧氏距离分别为:

<mrow> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>X</mi> <mi>a</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msup> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>Y</mi> <mi>a</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>~</mo> <mi>M</mi> </mrow>

设样本集中各样本的采样时刻为{Ti,i=1~M},则按下式计算并保存异常样本A与样本集{Oi}中各点间的时间间隔:

Gi=|Ta-Ti|,i=1~M;

步骤4:相似度计算

按照相似度与距离和时间间隔成反比的原则,同时考虑计算异常样本与时空相关样本集中各小区标识组的相似度{Sj,j=1~N},具体方法为:

首先根据各正常样本的定位精度计算各自的定位置信度:

其次,根据下式计算异常样本与各组样本的相似度:

<mrow> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <msub> <mi>M</mi> <mn>1</mn> </msub> <mo>+</mo> <mo>...</mo> <mo>+</mo> <msub> <mi>M</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>M</mi> <mn>1</mn> </msub> <mo>+</mo> <mo>...</mo> <mo>+</mo> <msub> <mi>M</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>M</mi> <mi>j</mi> </msub> </mrow> </munderover> <mfrac> <mrow> <msub> <mi>T</mi> <mi>s</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>T</mi> <mi>t</mi> </msub> </mrow> <mrow> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>G</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>&CenterDot;</mo> <msub> <mi>PT</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>~</mo> <mi>N</mi> </mrow>

取Sj最大者所对应的小区标识作为该异常样本的小区标识;

步骤5:小区标识补全

选取相似度最高的小区标识组的小区标识作为该异常样本的小区标识;

当所有异常样本都按照步骤3~5处理完毕,则本流程结束。

另外,当异常样本所属终端为双网双待手机,双网设为A网和B网;其A网下小区标识为缺失或无效值,但其B网下的小区标识CB为有效值,则根据所采的B网小区标识CB在其他样本中进行查找,其他样本为具有相同的双网双待功能的终端上采集到的、B网小区标识为CB且其A网小区标识也为有效的正常样本;将如果匹配出多个时,以距离最近者为准,将匹配出的该正常样本的A网小区标识作为该异常样本的A网小区标识。

通过对缺失或无效的小区标识信息进行补充和修正,可以有效提高可用的终端采样数据的样本数,有利于开展更准确的数据分析挖掘。

附图说明

图1为本发明的完整的算法流程图。

具体实施方式

本发明提供了一种基于最小时空距离准则对终端采样数据中缺失或无效的小区标识信息进行补充和修正的方法。

具体步骤详细描述如下:

步骤1:终端数据采集

在进行基于终端侧采集数据的业务感知评价、网络质量评价、业务行为分析时,通过部署在海量用户智能终端上的App等形式在监测模式下采集终端侧的业务感知数据、网络质量数据或业务行为数据,这些采样数据一般包括:日期,时间,经纬度,定位方式(GPS、网络辅助定位、基站坐标等),定位精度,当前所在省和地市名称,运营商,网络制式,MCC,MNC,小区标识,终端标识(IMEI),用户标识(IMSI),{指标集},{无线参数集}等。

其中小区标识为唯一确定一个小区的标识参数的组合,一般由若干参数组合而成,对于不同的网络制式,所使用的参数数量、名称和含义均有所不同。例如,对GSM、WCDMA、TD-SCDMA网络,小区标识为(LAC,CI),对CDMA 1x/EVDO网络则为(SID,NID,BID),LTE网络为(TAC,eNodeBID,CI,PCI)。

其中{指标集}针对不同的具体应用场景有所不同,比如对业务感知评价,包括网页打开时延、视频下载速率等KQI指标,对网络质量评价则包括业务速率、呼叫接通时延、数据连接建立时延等KPI指标。

其中{无线参数集}是指采样时刻终端所处无线环境的参数,如信号强度、信噪比(SNR)、Ec/Io、RSRQ等(对于不同的网络制式,所用的参数也不同)。

上述采样数据由终端上运行的数据采集软件通过数据通道回传到云端的服务器,并解析后存入数据库中相应的终端采样数据表。一般以一个本地网为单位建表,即同一个城市下同一个运营商的同一个特定网络下的全部样本数据存放在一张表上,可以日期和时间为顺序排列。

步骤2:异常样本标定

对终端采样数据表,逐条扫描各样本数据中的“小区标识”字段,如果该字段存在部分或全部信息缺失,或者字段的值超出设定的有效取值范围,则标定该样本为异常样本,否则为正常样本。

有效取值范围的设定:对于不同运营商的不同网络制式,有效值的范围设定不同,应根据国际标准中对该标识参数的定义以及运营商对小区标识的分配规则确定。例如:对于LTE网络,TAC为16bit,对应的取值范围为0~65535;eNodeBID为20bit,对应取值范围为0~1048575;CI为8bit,对应取值范围为0~255;PCI取值范围为0~503。具体到某个运营商的某个地市的某个网络下,则参数的有效取值范围会根据该运营商在各省的字段分配规则进一步缩小,例如,对于四川移动在成都的LTE网络,其eNodeBID的有效取值范围为0x80000~0x80FFF(16进制)。

步骤3:建立时空相关数据集

从第一个异常样本数据开始,对每个异常样本数据建立相应的时空相关数据集。具体方法是:对于选定的异常样本,从该样本所在的终端采样数据表中,选取时间间隔小于设定的时间相关门限Tt(默认值取Tt=15分钟)的全部样本(设该异常样本的采样时刻为Ta,设定的时间相关门限为Tt=15分钟,则选取采样时刻为(Ta-15’~Ta+15’)的全部正常样本。

进一步,根据各样本中的经纬度信息,分别计算并记录该异常样本与所选取的各正常样本的欧氏距离,如果距离小于设定的空间相关门限Ts(默认值取Ts=500米),则该正常样本放入时空相关数据集。

设一个异常样本A的经纬度为(Xa,Ya),定位精度为Pa(单位为米),采样时刻为Ta。其对应的时空相关样本集{Oi,i=1~M}中的正常样本数为M,将这些正常样本按照小区标识分为N组进行排列,其小区标识分别为{Cj,j=1~N},每组中样本数分别为Mj,j=1~N,则

设样本集中各样本的经纬度为{(Xi,Yi),i=1~M},定位精度为{Pi,i=1~M}。则异常样本A与样本集{Oi}中各点间的欧氏距离分别为:

<mrow> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>X</mi> <mi>a</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msup> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>Y</mi> <mi>a</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>~</mo> <mi>M</mi> </mrow>

设样本集中各样本的采样时刻为{Ti,i=1~M},则按下式计算并保存异常样本A与样本集{Oi}中各点间的时间间隔:

Gi=|Ta-Ti|,i=1~M。

步骤4:相似度计算

按照相似度与距离和时间间隔成反比的原则,同时考虑计算异常样本与时空相关样本集中各小区标识组的相似度{Sj,j=1~N},具体方法为:

首先根据各正常样本的定位精度计算各自的定位置信度:

其次,根据下式计算异常样本与各组样本的相似度:

<mrow> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <msub> <mi>M</mi> <mn>1</mn> </msub> <mo>+</mo> <mo>...</mo> <mo>+</mo> <msub> <mi>M</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>M</mi> <mn>1</mn> </msub> <mo>+</mo> <mo>...</mo> <mo>+</mo> <msub> <mi>M</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>M</mi> <mi>j</mi> </msub> </mrow> </munderover> <mfrac> <mrow> <msub> <mi>T</mi> <mi>s</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>T</mi> <mi>t</mi> </msub> </mrow> <mrow> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>G</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>&CenterDot;</mo> <msub> <mi>PT</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>~</mo> <mi>N</mi> </mrow>

取Sj最大者所对应的小区标识作为该异常样本的小区标识。

步骤5:小区标识补全

选取相似度最高的小区标识组的小区标识作为该异常样本的小区标识。

此外,如果异常样本所属终端为双网双待(设为A网和B网)手机,其A网下小区标识为缺失或无效值,但其B网下的小区标识CB为有效值,则可根据所采的B网小区标识CB在其他样本(具有相同的双网双待功能的终端上采集到的、B网小区标识为CB且其A网小区标识也为有效的正常样本)中进行查找,将如果匹配出多个时,以距离最近者为准,将匹配出的该正常样本的A网小区标识作为该异常样本的A网小区标识。

当所有异常样本都按照步骤3~5处理完毕,则本流程结束。

实验数据:基于在中国移动北方某市的商用4G网络中采集的真实的业务感知数据,我们利用上述方法进行了测试和验证。所采集的样本数据共312038条,共涉及到12085个4G小区,为了便于对算法有效性进行验证,我们从正常样本数据(共250439条)中随机选择5%的样本共计12521条,将其中的小区标识信息删除后作为异常样本,利用上述算法进行小区标识的补正和回填,并与删除前的真实小区标识进行比对,最终正确率为89.3%,表明该方法具有良好的性能。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1