高铁用户分离方法及装置与流程

文档序号:11157944
本发明涉及通信领域,尤其是涉及一种高铁用户分离方法及装置。
背景技术
:随着高速铁路的发展,航空公司会迫于运营成本压力停飞高铁沿线站点的部分航线。航空公司失去的该部分客户可能不在乎出行成本,但更在乎出行时间以及出行期间的通信需求,高速铁路也必将赢得一部分高端商务人士的青睐,这些商务人士也往往是运营商们最为重视的高ARPU(AverageRevenuePerUser,每用户平均收入)值用户。因此,如何有效识别高铁用户以及将高铁用户从其它用户分离出来,将是打造优质稳定的高速铁路网络和保证这些高端用户的通信需求的有力保障。为了达到将高铁用户从普通用户分离出来的目的,目前通常采用三种方式:方式1、基于A口和Abis口信令数据进行高铁用户的分离,该方式需要建立高铁常驻用户数据库,在确定高铁常驻用户之后才能确定高铁用户,由于高铁常驻用户更新慢,导致不能适应高铁用户快速变化的需求,而且容易存分离误判的问题;方式2、通过接收用户上报的位置更新信息确定高铁用户,该方式需要预设上报时间和位置更新次数阈值,而这些值的合适选取和设定存在很大难度,而且对于用户没有发生位置更新的情况,容易导致高铁用户的确定不准确;方式3、在方式1的基础上结合使用高铁实际路测数据来分离沿线常驻用户外的高铁用户和沿线低速用户,该方式也存在数据库更新慢导致无法快速适应适应高铁用户快速变化的需求。因此,传统的高铁用户分离方式的分离实时性较低,分离不准确,导致无法适应高铁用户的快速变化,也无法满足基站和铁路网快速更新的需求。技术实现要素:本发明的主要目的在于提供一种无需建立高铁常驻用户数据库,无需精确设定用户上报位置更新信息的时间和位置更新次数阈值,也无需使用高铁实际路测数据的高铁用户分离方案,以解决传统分离方案存在实时性较低,分离不准确,导致无法适应高铁用户的快速变化等问题。为了达到上述目的,本发明提供了一种高铁用户分离方法,包括:获取高铁沿线基站的覆盖范围内移动终端的信令数据,作为第一信令数据;根据预设的高铁用户特征提取模板对所述第一信令数据进行特征提取,得到所述移动终端的用户特征信息;将所述用户特征信息输入预设的高铁用户识别模型进行识别,得到识别概率;判断所述识别概率是否大于预设概率,得到判断结果,如果所述判断结果为是,确定使用移动终端的用户为高铁用户。优选地,获取高铁沿线基站的覆盖范围内移动终端的信令数据包括:采集运营商服务范围内所有移动终端的信令数据,作为第二信令数据;根据所述高铁沿线基站的预设配置信息对所述第二信令数据进行过滤,得到所述第一信令数据。优选地,所述预设配置信息包括:位置区编码(LAC)、小区标识(CID)以及基站到高铁始发站的直线距离。优选地,所述第一信令数据和所述第二信令数据均包括以下参数:事件开始时间、基站控制器(BSC)信令点编码、移动交换中心(MSC)信令点编码、事件类型、移动台综合业务数字网号码(MSISDN)、国际移动用户识别码(IMSI)、业务发起的位置区编码(LAC)、业务发起的小区标识(CID)、业务终止的LAC、业务终止的CID以及移动设备国际身份码(IMEI)。优选地,所述高铁用户特征提取模板包括以下参数:移动终端切换位置、移动终端切换频率、移动终端切换基站序列、移动终端运动速度、同一基站的覆盖范围中发生的切换事件及所述切换事件的次数。优选地,所述高铁用户识别模型为:识别概率与用户特征信息呈线性关系的逻辑回归模型,其中,用于表达所述线性关系的线性参数是通过将预先选取的高铁用户特征信息作为训练样本,进行逻辑回归训练后得到的。本发明还提供了一种高铁用户分离装置,应用于运营商管理系统,包括:获取模块,用于获取高铁沿线基站的覆盖范围内移动终端的信令数据,作为第一信令数据;提取模块,用于根据预设的高铁用户特征提取模板对所述第一信令数据进行特征提取,得到所述移动终端的用户特征信息;识别模块,用于将所述用户特征信息输入预设的高铁用户识别模型进行识别,得到识别概率;判定模块,用于判断所述识别概率是否大于预设概率,得到判断结果,如果所述判断结果为是,确定使用移动终端的用户为高铁用户。优选地,所述获取模块包括:采集单元,用于采集运营商服务范围内所有移动终端的信令数据,作为第二信令数据;过滤单元,用于根据所述高铁沿线基站的预设配置信息对所述第二信令数据进行过滤,得到所述第一信令数据。优选地,所述预设配置信息包括:位置区编码(LAC)、小区标识(CID)以及基站到高铁始发站的直线距离。优选地,所述第一信令数据和所述第二信令数据均包括以下参数:事件开始时间、基站控制器(BSC)信令点编码、移动交换中心(MSC)信令点编码、事件类型、移动台综合业务数字网号码(MSISDN)、国际移动用户识别码(IMSI)、业务发起的位置区编码(LAC)、业务发起的小区标识(CID)、业务终止的LAC、业务终止的CID以及移动设备国际身份码(IMEI)。优选地,所述高铁用户特征提取模板包括以下参数:移动终端切换位置、移动终端切换频率、移动终端切换基站序列、移动终端运动速度、同一基站的覆盖范围中发生的切换事件及所述切换事件的次数。优选地,所述高铁用户识别模型为:识别概率与用户特征信息呈线性关系的逻辑回归模型,其中,用于表达所述线性关系的线性参数是通过将预先选取的高铁用户特征信息作为训练样本,进行逻辑回归训练后得到的。与现有技术相比,本发明所述的高铁用户分离方法及装置,通过预设的高铁用户识别模型对大范围采集手机的信令数据中的用户特征信息进行识别的方式,将高铁用户从普通用户中分离出来,相比于传统分离方式需建立高铁沿线的常驻用户数据库或结合进行路测得到的路测数据才能够确定高铁用户的方式,具有分离成本,分离精度高,实时性强的优势,而且,可以根据实际路网和高铁运行情况自适应地将高铁用户进行分离,更好地适应高铁用户的快速变化的特点。附图说明图1是根据本发明实施例的高铁用户分离方法流程图;图2是根据本发明实施例的高铁用户确定过程示意图;图3是根据本发明实施例的高铁用户分离装置的结构框图;以及图4是根据本发明实施例的优选高铁用户分离装置的示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域的普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例提供了一种高铁用户分离方法。图1是根据本发明实施例的高铁用户分离方法流程图,如图1所示,该流程包括以下步骤(步骤S102-步骤S108):步骤S102、获取高铁沿线基站的覆盖范围内移动终端的信令数据,作为第一信令数据。在本发明实施例中,该步骤S102的实现可以采用这样的方式:先实时采集运营商服务范围内所有移动终端的信令数据,作为第二信令数据,再根据所述高铁沿线基站的预设配置信息对所述第二信令数据进行过滤,得到所述第一信令数据。其中,所述第一信令数据和所述第二信令数据均可以包括以下参数:事件开始时间、BSC(BaseStationController,基站控制器)信令点编码、MSC(MobileSwitchingCenter,移动交换中心)信令点编码、事件类型、MSISDN(MobileStationIntegratedServicesDigitalNetworknumber,移动台综合业务数字网号码)、IMSI(InternationalMobileSubscriberIdentificationNumber,国际移动用户识别码)、业务发起的LAC(LocationAreaCode,位置区编码)、业务发起的CID(CellID,小区标识)、业务终止的LAC、业务终止的CID以及IMEI(InternationalMobileEquipmentIdentity,移动设备国际身份码)。在实际应用中,这些参数的值都属于CDR(CallDetailsRecordDatabase,呼叫细节记录)数据,都是可以通过运营商管理系统中的预先设置的信令采集终端(或称为信令采集器)进行实时采集得到的,需要说明的是,信令采集终端可以与运营商管理系统中的管理服务器集中设置的,也可以是独立于管理服务器而单独设置的,例如可以设置在基站中,也可以设置在用于管理一个或多个基站的基站控制器中,这些不同的设置方式不会影响信令采集终端的实时性。当然,本发明实施例中先实时采集运营商服务范围内所有移动终端的信令数据的方式可能涉及的采集范围比较大,进行信令数据滤除的过程中需要滤除的信令数据比较多,但是这种方式(可以称之为方式一)并不需要对采集范围进行选择或设定。如果为了缩小采集范围,也可以预先对需要进行信令数据采集的范围进行预先选择(可以称之为方式二),例如选择高铁沿线一定距离范围内的基站所覆盖的范围作为采集范围,需要说明书的是,这两种方式的效果区别并不大,在实际应中,可以选择采用哪种方式,本发明实施例中并不对此作出限定。对于本发明实施例采用的方式一,信令采集终端采集到所述第二信令数据后,可以将所述第二信令数据发送给运营商管理系统中的服务器端,接着服务器端可以根据高铁沿线基站中的预设配置信息对所述第二信令数据进行过滤,以得到所述第一信令数据,在本发明实施例中,所述预设配置信息是在高铁沿线建设基站时存储在基站中的,其包括位置区编码(LAC)、小区标识(CID)以及基站到高铁始发站的直线距离,也就是说,由于所述第二信令数据是从大量基站中采集到的,但是有些从距离高铁沿线距离较远的基站采集到的信令数据并无太大用处,可以将这些数据抛弃,而只从所述第二信令数据中过滤出从高铁沿线基站采集到的信令数据,即所述第一信令数据)。例如,所述第一信令数据标识和所述第二信令数据标识可以采用以下的集合方式表达:Sigi={Stime,Sbsc,Smsc,Sevent,Smsisdn,Simsi,Slac_start,Sci_start,Slac_end,Sci_ebd,Simei}。步骤S104、根据预设的高铁用户特征提取模板对所述第一信令数据进行特征提取,得到所述移动终端的用户特征信息。在本发明实施例中,所述高铁用户特征提取模板可以包括以下参数:移动终端切换位置、移动终端切换频率、移动终端切换基站序列、移动终端运动速度、同一基站的覆盖范围中发生的切换事件及所述切换事件的次数。在实际应用中,使用这些参数作为所述高铁用户特征提取模板可以尽可能地从所述第一信令数据中提取出每个移动终端的用户特征信息,在提取过程中,所述第一信令数据中并不是每个移动终端的用户特征信息都具有所述高铁用户特征提取模板中的上述参数,有的可能具有多个参数,有的可能只有一个参数,这是因为有的移动终端可能触发了多个事件,例如,进行了语音通话,使用了多媒体数据等等,而又的移动终端可能只触发了一个事件,例如,只进行了语音通话。当然,所述高铁用户特征提取模板涵盖上述多个参数的目的也是为了能够从多维角度对移动终端的信令数据进行提取,以找到更多符合预定要求的用户特征,以提高用户特征准确度。步骤S106、将所述用户特征信息输入预设的高铁用户识别模型进行识别,得到识别概率。在本发明实施例中,所述高铁用户识别模型可以为:识别概率与用户特征信息呈线性关系的逻辑回归模型,其中,用于表达所述线性关系的线性参数是通过将预先选取的高铁用户特征信息作为训练样本,进行逻辑回归训练后得到的。在实际应用中,对于所述高铁用户识别模型的设计并不作出限定。而且,为了提高所述高铁用户识别模型的准确度,在通过本发明实施例确定出预定数量的高铁用户之后,还可以将确定出的高铁用户作为训练样本重新代入所述逻辑回归模型进行逻辑训练,这样可以提高线性参数的精度,自然也就提高了所述高铁用户识别模型的准确度。步骤S108、判断所述识别概率是否大于预设概率,得到判断结果,如果所述判断结果为是,确定使用移动终端的用户为高铁用户。为了更加了解图1所示的上述流程,以下将结合图2进行进一步的描述。图2是根据本发明实施例的高铁用户确定过程示意图,如图2所示,该过程可以采用以下步骤实现:S202,数据采集,得到运营商服务范围内的大量信令数据(即上述第二信令数据)。该信令数据的采集可以由运营商管理系统中预设的信令数据采集终端实时采集服务范围内所有手机的信令数据得到(这些数据都属于CDR数据),而后将这些大量信令数据发送到服务器端,具体内容如前面所述,可以包括:事件开始时间、BSC信令点码、MSC信令点码、事件类型、MSISDN、IMSI、业务发起的LAC、业务发起的CID、业务终止的LAC、业务终止的CID以及IMEI。其中,信令数据可以用以下公式表示:Sigi={Stime,Sbsc,Smsc,Sevent,Smsisdn,Simsi,Slac_start,Sci_start,Slac_end,Sci_ebd,Simei};例如,这些信令数据如表1所示(其中,每一行代表一个时刻的信令数据):表1接着,先根据高铁沿线基站的位置信息以及覆盖范围将高铁沿线的终端信令数据(即上述第一信令数据)过滤出来,然后对过滤后的信令数据以及终端对应的通话信息进行特征抽取,形成单台终端的切换位置、切换频次、切换基站序列、运行速度以及同一时间窗口内某一基站发生切换的事件以及其对应的次数等。具体过程如下:S204,信令数据过滤。当终端信令在高铁沿线基站覆盖范围内时,其终端用户才可能为高铁用户,因此可以将采集到的信令数据进行过滤,可以以避免后续处理的用户数据较大。即:其中,Li,Ci为高铁沿线基站的LAC,CID。过滤时,可以根据所述高铁沿线基站的预设配置信息对采集到的信令数据(即上述第二信令数据)进行过滤,其中,预设配置信息可以是预先设置在高铁沿线基站中的一张高铁资源表,如表2所示:表2这样,采用表2对采集的数据进行过滤后得到的信令数据Sigj为:IMSI时间LACCID1358B9C6761733D26D036DF8471E1DE02014120815550016722543372ED01A23525059840612778998103BC2014120815545016721375272ED01A23525059840612778998103BC2014120815550016841401172ED01A23525059840612778998103BC20141208155600167212823F5A4E13AB3A423072490C0D41000158D20141208155600168414011F5A4E13AB3A423072490C0D41000158D20141208155500167225433S206,高铁用户特征抽取。使用预先设置的高铁用户特征提取模板(可以包括以下参数:移动终端切换位置、移动终端切换频率、移动终端切换基站序列、移动终端运动速度、同一基站的覆盖范围中发生的切换事件及所述切换事件的次数),抽取用户的特征:其中,表示移动终端切换位置Ci、移动终端切换频率Ti,其中,Ti通过计算该用户在时间窗口T内切换次数,表示用户在时间窗口T内发生切换的基站(CellID)序列,表示用户在时间窗口T内发生切换基站时的运行速度,其中,表示时间窗口T内某一基站Ci发生切换的事件Ei的次数Tei。例如,根据上述信令数据,72ED01A23525059840612778998103BC用户在20141208155600时刻的位置C600={0,0,1,0},时间T=30min内的频率T600={2,1,2,1},时间T=30min的基站切换序列为切换速度为:切换终端数为:这样组成用户特征向量(用户特征信息):Fi={2,1,2,1,2,3,4,1,2,1,2,1}。S208,将用户特征向量输入高铁用户识别模型进行识别。高铁用户分离属于二元分类预测问题,对于二元分类预测问题,可以选用决策树、神经网络、逻辑回归、判别分析等数据挖掘算法进行分析建模。本发明实施例中,选用了逻辑回归(Logistic回归模型是一种概率分类模型),其是以用户是高铁用户的概率为因变量,以用户特征信息为自变量建立的回归模型。以p表示用户是高铁用户的概率,函数p对Fi的变化在p=0或p=1的附近是不敏感的、缓慢的,且非线性的程度较高。按照Logistic变换(或称为p的Logit变换),即:θ(p)对Fi就可以是线性的关系了,即可以表示为:以下对预先建立高铁用户识别的建模流程进行简要介绍:1)预先选取一些运营商已经掌握的高铁用户特征信息作为建模样本,首先进行样本切分:按高铁用户标志随机分层抽样,将80%作为建模需要的训练集,将另外20%作为测试集。2)用训练集进行分步Logistics回归训练,最终拟合出变量Fi的系数(即上述线性系数,也即Logistics回归模型公式中的β)。3)用测试集评估模型的准确率,不断优化模型。当建立测试数据集对模型进行测试时,使用准确率、LIFT值分别对模型进行评估。其中:准确率=准确预测某类的人数/被预测为某类的人数;LIFT值=模型预测准确率/随机抽取准确率;LIFT值代表了选用模型预测名单比随机选取时的提升倍数,当LIFT值大于1时,说明模型有实用价值,且LIFT值越大,其价值越大。模型构建后得到高铁用户概率的计算公式,用于识别高铁用户。S210,判断计算出的高铁用户概率p是否大于预设频率p0;S212A、S212B,如果p大于p0,标示高铁用户为1,即确定用户为高铁用户,标示高铁用户为0,即确定用户为非高铁用户。对应于上述高铁用户分离方法,本发明实施例还提供了一种高铁用户分离装置,该装置可以应用于运营商管理系统,用执行上述高铁用户分离方法。图3是根据本发明实施例的高铁用户分离装置的结构框图,如图3所示,该装置包括:获取模块10,提取模块20,识别模块30以及判定模块40,其中:获取模块10,用于获取高铁沿线基站的覆盖范围内移动终端的信令数据,作为第一信令数据;提取模块20,用于根据预设的高铁用户特征提取模板对所述第一信令数据进行特征提取,得到所述移动终端的用户特征信息;识别模块30,用于将所述用户特征信息输入预设的高铁用户识别模型进行识别,得到识别概率;判定模块40,用于判断所述识别概率是否大于预设概率,得到判断结果,如果所述判断结果为是,确定使用移动终端的用户为高铁用户。在图3所示的高铁用户分离装置的基础上,本发明实施例还提供了一种优选高铁用户分离装置。图4是根据本发明实施例的优选高铁用户分离装置的示意图,如图4所示:所述获取模块10可以进一步包括:采集单元12,用于采集运营商服务范围内所有移动终端的信令数据,作为第二信令数据;过滤单元14,用于根据所述高铁沿线基站的预设配置信息对所述第二信令数据进行过滤,得到所述第一信令数据。在本发明实施例中,所述预设配置信息可以包括:位置区编码(LAC)、小区标识(CID)以及基站到高铁始发站的直线距离。所述第一信令数据和所述第二信令数据均可以包括以下参数:事件开始时间、基站控制器(BSC)信令点编码、移动交换中心(MSC)信令点编码、事件类型、移动台综合业务数字网号码(MSISDN)、国际移动用户识别码(IMSI)、业务发起的位置区编码(LAC)、业务发起的小区标识(CID)、业务终止的LAC、业务终止的CID以及移动设备国际身份码(IMEI)。所述高铁用户特征提取模板可以包括以下参数:移动终端切换位置、移动终端切换频率、移动终端切换基站序列、移动终端运动速度、同一基站的覆盖范围中发生的切换事件及所述切换事件的次数。所述高铁用户识别模型可以为:识别概率与用户特征信息呈线性关系的逻辑回归模型,其中,用于表达所述线性关系的线性参数是通过将预先选取的高铁用户特征信息作为训练样本,进行逻辑回归训练后得到的。本发明实施例,通过预设的高铁用户识别模型对大范围采集手机的信令数据中的用户特征信息进行识别的方式,将高铁用户从普通用户中分离出来,不需要建立高铁沿线的常驻用户数据库,也无需进行路测结合路测数据才能够确定高铁用户,而且进行信令采集时可以利用现有的信令采集设备,这样可以降低分离成本。而且,由于从大量信令数据中提取的用户特征信息包含参数比较全面,相对于传统分离方法只基于用户的运动速度和位置更新次数范围的方式来说,大大提高了分离精度,可以更准确地将高铁起停过程中的用户进行分离。另外,由于大量信令数据采集的实时性比较强,可以根据实际路网和高铁运行情况自适应地将高铁用户进行分离,当路网或基站信息发生变化时,可以快速对模型进行更新。以上所述是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为包含在本发明的保护范围之内。当前第1页1 2 3 
再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1