一种坐标系统的识别方法及装置与流程

文档序号:12364477阅读:472来源:国知局
一种坐标系统的识别方法及装置与流程

本发明涉及互联网技术领域,特别是涉及一种坐标系统的识别方法及装置。



背景技术:

流量数据基于用户对URL的访问而产生,在一些涉及需要定位用户地理位置信息的应用(application)中,当用户访问该应用的URL,所产生的流量数据中携带了用户当前所处的位置信息,这些用户的位置信息可以采用不同类型的坐标系统来表示,例如可以用WGS-84坐标系统、CCJ-02系统或BD-09坐标系统来表示。

一般而言,不同的应用所采用的域名相应不同,而不同域名所采用的坐标系统也有可能不同。用户的位置信息是对用户数据进行分析(例如大数据分析)的重要数据基础,因此,识别流量数据中位置信息所使用的坐标系统很有必要。



技术实现要素:

本发明解决的技术问题是提供一种坐标系统的识别方法及装置,以识别出不同域名所采用的坐标系统。

为解决上述技术问题,本发明实施例提供一种坐标系统的识别方法,包括:

获取流量数据集,所述流量数据集中每条流量数据包括域名信息、位置信息和转发设备的标识,所述位置信息所使用的坐标系统与所述域名信息对应;从所述流量数据集中确定部分流量数据作为参考流量数据,所述参考流量数据以外的流量数据为待识别流量数据,所述参考流量数据的位置信息所使用的坐标系统已知,所述待识别流量数据的位置信息所使用的坐标系统未知;筛选所述流量数据集涉及的转发设备中的稳定设备,并根据包含所述稳定设备的标识的参考URL数据的位置信息,确定该稳定设备的位置,所述稳定设备为位置固定的转发设备;根据所述稳定设备的位置,确定包含所述稳定设备的标识的待识别流量数据的位置信息所使用的坐标系统。

可选地,从所述流量数据集中确定部分流量数据作为参考流量数据,包括:

根据所述域名信息对所述流量数据进行统计,以得到多种域名信息各自对应的流量数据的数量;根据对应的流量数据的数量,确定所述多种域名信息中的一部分作为参考域名信息,并将包含所述参考域名信息的流量数据作为所述参考流量数据。

可选地,所述参考流量数据的位置信息所使用的坐标系统采用如下方式确定:

基于用户在已知位置对所述参考域名信息的访问,得到包含所述参考域名信息的临时流量数据;根据所述已知位置和所述临时流量数据中包含的位置信息,确定所述参考流量数据的位置信息所使用的坐标系统。

可选地,根据包含所述稳定设备的标识的参考URL数据的位置信息,确定该稳定设备的位置,包括:

将所述稳定设备的标识相同的参考流量数据的位置信息统一为预设类型;根据统一为所述预设类型的所述参考流量数据的位置信息,确定该稳定设备的位置信息。

可选地,根据统一为所述预设类型的所述参考流量数据的位置信息,确定该稳定设备的位置信息,包括:

采用以下公式计算所述稳定设备的经度和纬度:

<mrow> <mi>x</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>cos</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>*</mo> <mi>cos</mi> <mi> </mi> <msub> <mi>longtitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> <mi>y</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>cos</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>*</mo> <mi>sin</mi> <mi> </mi> <msub> <mi>longtitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> </mrow>

<mrow> <mi>z</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>sin</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mi>o</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>i</mi> <mi>t</mi> <mi>u</mi> <mi>d</mi> <mi>e</mi> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mfrac> <mi>y</mi> <mi>x</mi> </mfrac> <mo>,</mo> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>t</mi> <mi>u</mi> <mi>d</mi> <mi>e</mi> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mfrac> <mi>z</mi> <mroot> <mrow> <msup> <mi>x</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>y</mi> <mn>2</mn> </msup> </mrow> <mn>2</mn> </mroot> </mfrac> <mo>;</mo> </mrow>

其中,n为参考流量数据的条数,i为大于等于1且小于n的正整数,latitudei为第i条参考流量数据对应的纬度,longtitudei为第i条参考流量数据对应的经度,centrallatitude为所述稳定设备的纬度,centrallongtitude为所述稳定设备的经度。

可选地,根据所述稳定设备的位置,确定包含所述稳定设备的标识的待识别流量数据的位置信息所使用的坐标系统,包括:

假设所述待识别流量数据的位置信息所使用的坐标系统,并采用假设的坐标系统计算所述待识别流量数据的位置信息与所述稳定设备的位置之间的距离;当计算得到的距离小于第一阈值时,确定所述假设的坐标系统为所述待识别流量数据的位置信息所使用的坐标系统。

可选地,筛选所述流量数据集涉及的转发设备中的稳定设备,包括:

计算包含所述转发设备的标识的任意两个参考流量数据的位置信息对应位置间的距离;当所述距离小于第二阈值时,确定所述转发设备为稳定设备。

可选地,所述每条流量数据还包括发起该条流量数据的移动设备的标识,所述第二阈值通过以下方式确定:

以所述转发设备为圆心,根据所述移动设备的标识,计算在不同半径内,所产生的流量经所述转发设备转发的移动设备的数量,占据产生所述流量数据集的移动产生设备的数量的比例;当所述比例在连续单位时间内变化梯度小于梯度阈值时,确定该半径为所述第二阈值。

可选地,筛选所述流量数据集涉及的转发设备中的稳定设备,包括:

在预设时间段的多个连续单位时间内,分别统计每单位时间内所述转发设备标识相同的流量数据对应的移动设备的数量,从而得到所述多个连续单位时间的移动设备的总数量,并记为第一总量;统计所述预设时间段内包含该转发设备标识的流量数据对应的移动产生设备的数量,并记为第二总量;当所述第二总量与所述第一总量的比值小于比例阈值时,判定所述转发设备为稳定设备。

本发明实施例还提供一种坐标系统的识别装置,所述装置包括:

获取单元,适于获取流量数据集,所述流量数据集中每条流量数据包括域名信息、位置信息和转发设备的标识,所述位置信息所使用的坐标系统与所述域名信息对应;参考流量确定单元,适于从所述流量数据集中确定部分流量数据作为参考流量数据,所述参考流量数据以外的流量数据为待识别流量数据,所述参考流量数据的位置信息所使用的坐标系统已知,所述待识别流量数据的位置信息所使用的坐标系统未知;稳定设备确定单元,适于筛选所述流量数据集涉及的转发设备中的稳定设备,并根据包含所述稳定设备的标识的参考URL数据的位置信息,确定该稳定设备的位置,所述稳定设备为位置固定的转发设备;坐标系统识别单元,适于根据所述稳定设备的位置,确定包含所述稳定设备的标识的待识别流量数据的位置信息所使用的坐标系统。

可选地,所述参考流量确定单元包括:

流量统计子单元,适于根据所述域名信息对所述流量数据进行统计,以得到多种域名信息各自对应的流量数据的数量;

参考流量确定子单元,适于根据对应的流量数据的数量,确定所述多种域名信息中的一部分作为参考域名信息,并将包含所述参考域名信息的流量数据作为所述参考流量数据。

可选地,所述参考流量确定单元包括:

临时流量数据确定子单元,适于基于用户在已知位置对所述参考域名信息的访问,得到包含所述参考域名信息的临时流量数据;参考流量坐标系统确定子单元,适于根据所述已知位置和所述临时流量数据中包含的位置信息,确定所述参考流量数据的位置信息所使用的坐标系统。

可选地,所述稳定设备确定单元包括:

统一子单元,适于将所述稳定设备的标识相同的参考流量数据的位置信息统一为预设类型;

稳定设备位置确定子单元,适于根据统一为所述预设类型的所述参考流量数据的位置信息,确定该稳定设备的位置信息。

可选地,所述稳定设备位置确定子单元适于采用以下公式计算所述稳定设备的经度和纬度:

<mrow> <mi>x</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>cos</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>*</mo> <mi>cos</mi> <mi> </mi> <msub> <mi>longtitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> <mi>y</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>cos</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>*</mo> <mi>sin</mi> <mi> </mi> <msub> <mi>longtitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> </mrow>

<mrow> <mi>z</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>sin</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mi>o</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>i</mi> <mi>t</mi> <mi>u</mi> <mi>d</mi> <mi>e</mi> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mfrac> <mi>y</mi> <mi>x</mi> </mfrac> <mo>,</mo> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>t</mi> <mi>u</mi> <mi>d</mi> <mi>e</mi> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mfrac> <mi>z</mi> <mroot> <mrow> <msup> <mi>x</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>y</mi> <mn>2</mn> </msup> </mrow> <mn>2</mn> </mroot> </mfrac> <mo>;</mo> </mrow>

其中,n为参考流量数据的条数,i为大于等于1小于n的正整数,latitudei为第i条参考流量数据对应的纬度,longtitudei为第i条参考流量数据对应的经度,centrallatitude为所述稳定设备的纬度,centrallongtitude为所述稳定设备的经度。

可选地,所述坐标系统识别单元包括:

计算子单元,适于假设所述待识别流量数据的位置信息所使用的坐标系统,并采用假设的坐标系统计算所述待识别流量数据的位置信息与所述稳定设备的位置之间的距离;

识别子单元,适于当计算得到的距离小于第一阈值时,确定所述假设的坐标系统为所述待识别流量数据的位置信息所使用的坐标系统。

可选地,所述稳定设备确定单元包括:

距离计算子单元,适于计算包含所述转发设备的标识的任意两个参考流量数据的位置信息对应位置间的距离;

第一稳定设备确定子单元,适于当所述距离小于第二阈值时,确定所述转发设备为稳定设备。

可选地,所述每条流量数据还包括发起该条流量数据的移动设备的标识,所述第一稳定设备确定子单元包括:

第二阈值确定子模块,适于以所述转发设备为圆心,根据所述移动设备的标识,计算在不同半径内,所产生的流量经所述转发设备转发的移动设备的数量,占据产生所述流量数据集的移动产生设备的数量的比例;当所述比例在连续单位时间内变化梯度小于梯度阈值时,确定该半径为所述第二阈值。

可选地,所述每条流量数据还包括发起该条流量数据的移动设备的标识,所述稳定设备确定单元包括:

第一总量统计子单元,适于在预设时间段的多个连续单位时间内,分别统计每单位时间内所述转发设备标识相同的流量数据对应的移动设备的数量,从而得到所述多个连续单位时间的移动设备的总数量,并记为第一总量;

第二总量统计子单元,适于统计所述预设时间段内包含该转发设备标识的流量数据对应的移动产生设备的数量,并记为第二总量;

第二稳定设备确定子单元,适于当所述第二总量与所述第一总量的比值小于比例阈值时,判定所述转发设备为稳定设备。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

本发明实施例中,通过从流量数据集中确定一部分流量数据的坐标系统,即得到参考流量数据,根据参考流量数据中的位置信息确定稳定设备的位置,由于稳定设备的位置和坐标系统可以确定,进而可以确定包含稳定设备的标识的流量数据的位置信息所使用的坐标系统。

附图说明

图1是本发明实施例中的一种坐标系统的识别方法的流程图;

图2是本发明实施例中的一种确定部分流量数据作为参考流量数据的方法的流程图;

图3是本发明实施例中的一种坐标系统的识别装置的结构示意图;

图4是图3中一种参考流量确定单元的结构示意图。

具体实施方式

如背景技术所言,不同的应用所采用的域名相应不同,而不同域名所采用的坐标系统也有可能不同。用户的位置信息是研究用户的重要数据来源,因此,识别流量数据中位置信息所使用的坐标系统很有必要。

本发明实施例通过从流量数据集中确定一部分流量数据的坐标系统,即得到参考流量数据,根据参考流量数据中已知坐标系统的位置信息确定稳定设备的位置,在稳定设备的位置和坐标系统确定的基础上,可以确定包含稳定设备的标识的流量数据的位置信息所使用的坐标系统,从而实现确定每条流量数据对应域名所使用的坐标系统。

为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例中的一种坐标系统的识别方法的流程图。下面结合图1所示的步骤进行说明。

步骤S101:获取流量数据集,所述流量数据集中每条流量数据包括域名信息、位置信息和转发设备的标识,所述位置信息所使用的坐标系统与所述域名信息对应。

本实施例中所称的流量数据为网络流量数据。在具体实施中,所述流量数据集中包括多条流量数据,每条流量数据包括域名信息、位置信息和转发设备的标识。

进一步而言,所述域名信息和所述位置信息可以包含于每条流量数据的URL中。

例如,一条URL如下所示:

http://dm.toutiao.com/get_domains/v3/?latitude=31.169884583366656&longitude=121.4134301829375&city=%E4%B8%8A%E6%B5%B7%E5%B8%82&iid=4745523913&device_id=20962785348&ac=3g&channel=baidu_dsp4_and73&aid=13&app_name=news_article&version_code=554&version_name=5.5.4&de。

本领域技术人员可以理解的是,该条URL中包含的所述域名信息为“dm.toutiao.com”,所述位置信息为“纬度31.169884583366656,经度121.4134301829375”。然而,该条URL使用何种坐标系统未知,进一步而言,并不确定该经纬度采用WGS-84,CCJ-02或者BD-09中的哪一种坐标系统。通过本发明中以下步骤的实施,可具体识别出位置信息所使用的坐标系统。

可以理解的是,当用户访问某个应用的URL时,发起该访问请求的终端产生一条流量数据,该流量数据中携带了该应用的域名信息以及该终端所在的位置信息。

所述流量数据经该终端发起后,再经过转发设备的转发,所述转发设备可以是基站、路由器等上网设备。当流量数据经转发设备转发,流量数据中将携带转发设备的标识。本发明实施例中所述的流量数据集中,每条流量数据携带了该条流量数据被转发所对应的转发设备的标识。

步骤S102:从所述流量数据集中确定部分流量数据作为参考流量数据,所述参考流量数据以外的流量数据为待识别流量数据,所述参考流量数据的位置信息所使用的坐标系统已知,所述待识别流量数据的位置信息所使用的坐标系统未知。

在本发明实施例中,所述参考流量数据是指其携带的位置信息所使用的坐标系统已知,所述待识别流量数据为所述流量数据集中除所述参考流量数据以外的流量数据,其携带的位置信息所使用的坐标系统未知。本发明基于所述参考流量数据可以识别出所述待识别量数据的位置信息所使用的坐标系统。

在本发明一非限定性的例子中,可以采用图2所示的方法确定参考流量数据。

步骤S201:根据所述域名信息对所述流量数据进行统计,以得到多种域名信息各自对应的流量数据的数量。

在具体实施中,根据所述域名信息对流量数据集中的流量数据进行统计,具体而言,统计包含同一个域名信息的流量数据的数量,从而得到不同的域名信息各自对应的流量数据的数量。

步骤S202:根据对应的流量数据的数量,确定所述多种域名信息中的一部分作为参考域名信息,并将包含所述参考域名信息的流量数据作为所述参考流量数据。

在具体实施中,可以对不同域名对应的流量数据的数量进行排序,将流量数据的数量在预设数量之前的域名作为参考域名信息,并将包含所述参考域名信息的流量数据作为参考流量数据。所述预设数量可以进行不同的设定。

例如,流量数据集中有100条流量数据,统计不同的域名信息对应的流量数据的数量,对应的流量数据的数量较多的前5个域名依次为A、B、C和D,则将包含域名A、B、C或D的流量数据作为所述参考流量数据。

在具体实施中,每个域名信息对应一种坐标系统,实施本发明的步骤之前,所述参考域名信息对应的坐标系统可以是已经明确的,那么包含该参考域名信息的流量数据中的位置信息所使用的坐标系统已知。

在本发明的其他实施例中,如果参考域名信息对应的坐标系统未知,则可以通过以下方式进行确定:

基于用户在已知位置对所述参考域名信息的访问,得到包含所述参考域名信息的临时流量数据;

根据所述已知位置和所述临时流量数据中包含的位置信息,确定所述参考流量数据的位置信息所使用的坐标系统。

在上述实现方式中,所述已知位置是指该位置的坐标系统已知,例如,该位置采用的坐标系统为WGS-84坐标系。当在已知位置处访问所述参考域名信息时,得到的临时流量数据的位置信息应当与所述已知位置的位置信息在同一个坐标系统下一致。因此,可以采用枚举的方式,从有限的坐标系统中,假设所述每个参考域名对应的坐标系统为其中一种,再经过坐标系统的转换得到转换后的位置信息,从而通过与已知位置的位置信息进行比对,即可验证该假设的坐标系统是否正确。

例如,已知位置的位置信息对应使用的坐标系统是WGS-84,参考域名信息有A、B、C、D和E五种,以参考域名信息A为例,假设参考域名信息A所使用的坐标系统为CCJ-02,那么根据坐标系统CCJ-02与坐标系统WGS-84间的转换关系,可以将包含参考域名信息A的参考流量数据中的位置信息进行转换,当转换后的位置信息与已知位置的位置信息间的距离误差小于一个预设的误差阈值时,可以验证出参考域名A对应的坐标系统为CCJ-02。使用同样的方式,其他参考域名信息也可确定出对应的坐标系统,从而可以确定每个参考域名信息对应的参考流量数据中位置信息所使用的坐标系统。

上述实现方式中,各个坐标系统之间的转换方式为本领域中常规的转换方式,在此不赘述。

需要说明的是,本实施例中的坐标系统可以包括WGS-84、CCJ-02和BD-09。但在本发明技术方案的具体实施时可以不限于这三种坐标系统。

由此,通过实施步骤S201和步骤S202,可以确定所述流量数据集中的参考流量数据及其位置信息所使用的坐标系统。

仍然参考图1,步骤S103:筛选所述流量数据集涉及的转发设备中的稳定设备,并根据包含所述稳定设备的标识的参考URL数据的位置信息,确定该稳定设备的位置,所述稳定设备为位置固定的转发设备。

在具体实施中,所述稳定设备可以是基站或者而其他位置相对固定的上网设备,如位置不经常发生移动的路由器等。

在具体实施中,根据包含所述稳定设备的标识的参考URL数据的位置信息,确定该稳定设备的位置,可以采用如下方式:

将所述稳定设备的标识相同的参考流量数据的位置信息统一为预设类型;根据统一为所述预设类型的所述参考流量数据的位置信息,确定该稳定设备的位置信息。

具体而言,在确定所述参考流量数据的位置信息的坐标系统后,可以将所述参考流量数据的位置信息统一为预设类型,例如都统一为WGS-84坐标系统,从而使得计算出的所述稳定设备的位置也为该预设类型。

在本发明一实施例中,根据统一为所述预设类型的所述参考流量数据的位置信息,确定该稳定设备的位置信息,具体而言,可以采用以下公式计算所述稳定设备的经度和纬度:

<mrow> <mi>x</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>cos</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>*</mo> <mi>cos</mi> <mi> </mi> <msub> <mi>longtitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> <mi>y</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>cos</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>*</mo> <mi>sin</mi> <mi> </mi> <msub> <mi>longtitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> </mrow>

<mrow> <mi>z</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>sin</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mi>o</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>i</mi> <mi>t</mi> <mi>u</mi> <mi>d</mi> <mi>e</mi> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mfrac> <mi>y</mi> <mi>x</mi> </mfrac> <mo>,</mo> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>t</mi> <mi>u</mi> <mi>d</mi> <mi>e</mi> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mfrac> <mi>z</mi> <mroot> <mrow> <msup> <mi>x</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>y</mi> <mn>2</mn> </msup> </mrow> <mn>2</mn> </mroot> </mfrac> <mo>;</mo> </mrow>

其中,n为参考流量数据的条数,i为大于等于1且小于n的正整数,latitudei为第i条参考流量数据对应的纬度,longtitudei为第i条参考流量数据对应的经度,centrallatitude为所述稳定设备的纬度,centrallongtitude为所述稳定设备的经度。

可以理解的是,所述参考流量数据的数量越多,计算得到的稳定设备的位置越准确。

步骤S104:根据所述稳定设备的位置,确定包含所述稳定设备的标识的待识别流量数据的位置信息所使用的坐标系统。

在具体实施中,根据所述稳定设备的位置,确定包含所述稳定设备的标识的待识别流量数据的位置信息所使用的坐标系统,可以采用如下实施方式:

假设所述待识别流量数据的位置信息所使用的坐标系统,并采用假设的坐标系统计算所述待识别流量数据的位置信息与所述稳定设备的位置之间的距离;

当计算得到的距离小于第一阈值时,确定所述假设的坐标系统为所述待识别流量数据的位置信息所使用的坐标系统。

在具体实施中,由于所述稳定设备的位置已经确定,具体而言,其坐标系统为统一后的预设类型的坐标系统,该坐标系统下的位置信息也已确定。因此,可以假设待识别流量数据的位置信息所使用的坐标系统,并根据坐标系统间的转换关系,可以得到待识别流量数据的位置信息在预设类型下的位置数据,从而通过转换后的位置数据与稳定设备的位置的比较来验证假设的坐标系统是否正确。

具体地,采用假设的坐标系统计算所述待识别流量数据的位置信息与所述稳定设备的位置之间的距离,当计算得到的距离小于第一阈值时,确定所述假设的坐标系统为所述待识别流量数据的位置信息所使用的坐标系统。

理想情况下,当假设的坐标系统与稳定设备的位置信息的坐标系统一致时,采用假设的坐标系统计算得到的待识别流量数据的位置信息与稳定设备的位置信息一致,考虑到实际计算中的误差因素,可以在计算得到的距离小于第一阈值时,确定所述假设的坐标系统为所述待识别流量数据的位置信息所使用的坐标系统。当计算得到的距离越小,所确定的待识别量数据的位置信息的坐标系统越准确。其中,所述第一阈值可进行预设。

在具体实施中,筛选所述流量数据集涉及的转发设备中的稳定设备有两种实现方式,其中一种实现方式为:

计算包含所述转发设备的标识的任意两个参考流量数据的位置信息对应位置间的距离;当所述距离小于第二阈值时,确定所述转发设备为稳定设备。

具体地,所述每条流量数据还包括发起该条流量数据的移动设备的标识,所述第二阈值通过以下方式确定:

以所述转发设备为圆心,以所述转发设备为圆心,根据所述移动设备的标识,计算在不同半径内,所产生的流量经所述转发设备转发的移动设备的数量,占据产生所述流量数据集的移动产生设备的数量的比例;当所述比例在连续单位时间内变化梯度小于梯度阈值时,确定该半径为所述第二阈值。

当变化梯度小于梯度阈值时,所述比例较为稳定,则对应的半径内的移动设备较为稳定,从而根据这些移动设备确定的转发设备也较为稳定。

在具体实施中,筛选所述流量数据集涉及的转发设备中的稳定设备的另一种实现方式为:

在预设时间段的多个连续单位时间内,分别统计每单位时间内所述转发设备标识相同的流量数据对应的移动设备的数量,从而得到所述多个连续单位时间的移动设备的总数量,并记为第一总量;

统计所述预设时间段内包含该转发设备标识的流量数据对应的移动产生设备的数量,并记为第二总量;

当所述第二总量与所述第一总量的比值小于比例阈值时,判定所述转发设备为稳定设备。

例如,要判断转发设备Z是否为稳定设备,假设该转发设备标识也为Z,预设时间段为一个月,每个单位时间为一周。一方面,在一个月的连续四周内进行统计得到第一总量。具体而言,在每周内,在转发设备标识为Z的流量数据中,可根据移动设备的标识统计移动设备的数量,从而得到连续四周的移动设备的总量,即第一总量。另一方面,以一个月为统计单位,统计一个月内,在转发设备标识为Z的流量数据中,根据移动设备的标识统计移动设备的数量,即为第二总量。由于在上述的统计中进行去重统计,即相同的移动设备仅统计一次,所以当所述第二比例与所述第一比例的比值越小,则说明该转发设备下的移动设备越稳定,从而该转发设备越稳定。本实施例中通过取第二阈值与所述比值进行比较,从而可判断满足比值小于第二阈值这一条件的转发设备为稳定设备。

综上,本发明实施例通过从流量数据集中确定一部分流量数据的坐标系统,即确定参考流量数据的坐标系统,再根据已知坐标系统的参考流量数据的位置信息可以确定稳定设备的位置,从而可在稳定设备的位置确定的情况下,即坐标系统和该坐标系统下的位置信息确定的情况下,确定该稳定设备的标识的待识别流量数据的位置信息所使用的坐标系统,进而可得到所述流量数据集中除参考域名信息以外的其他域名信息所对应的坐标系统。

在具体实施中,可以通过迭代的方式,不断地将确定坐标系统的流量数据加入参考流量数据,进而可再次实施上述步骤,从而进一步确定所述流量数据集中的其他未知坐标系统的流量数据。

图3是本发明实施例中的一种坐标系统的识别装置的结构示意图。如图3所示的坐标系统的识别装置可以包括:

获取装置31,适于获取流量数据集,所述流量数据集中每条流量数据包括域名信息、位置信息和转发设备的标识,所述位置信息所使用的坐标系统与所述域名信息对应;

参考流量确定单元32,适于从所述流量数据集中确定部分流量数据作为参考流量数据,所述参考流量数据以外的流量数据为待识别流量数据,所述参考流量数据的位置信息所使用的坐标系统已知,所述待识别流量数据的位置信息所使用的坐标系统未知;

稳定设备确定单元33,适于筛选所述流量数据集涉及的转发设备中的稳定设备,并根据包含所述稳定设备的标识的参考URL数据的位置信息,确定该稳定设备的位置,所述稳定设备为位置固定的转发设备;

坐标系统识别单元34,适于根据所述稳定设备的位置,确定包含所述稳定设备的标识的待识别流量数据的位置信息所使用的坐标系统。

在具体实施中,如图4所示,所述参考流量确定单元32可以包括:

流量统计子单元321,适于根据所述域名信息对所述流量数据进行统计,以得到多种域名信息各自对应的流量数据的数量;

参考流量确定子单元322,适于根据对应的流量数据的数量,确定所述多种域名信息中的一部分作为参考域名信息,并将包含所述参考域名信息的流量数据作为所述参考流量数据。

在具体实施中,所述参考流量确定单元32可以通过以下子单元确定所述参考流量数据的位置信息所使用的坐标系统:

临时流量数据确定子单元(图未示),适于基于用户在已知位置对所述参考域名信息的访问,得到包含所述参考域名信息的临时流量数据;参考流量坐标系统确定子单元(图未示),适于根据所述已知位置和所述临时流量数据中包含的位置信息,确定所述参考流量数据的位置信息所使用的坐标系统。

在具体实施中,所述稳定设备确定单元可以包括:

统一子单元,适于将所述稳定设备的标识相同的参考流量数据的位置信息统一为预设类型;

稳定设备位置确定子单元,适于根据统一为所述预设类型的所述参考流量数据的位置信息,确定该稳定设备的所述预设类型对应的位置信息。

在具体实施中,所述稳定设备位置确定子单元适于采用以下公式计算所述稳定设备的经度和纬度:

<mrow> <mi>x</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>cos</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>*</mo> <mi>cos</mi> <mi> </mi> <msub> <mi>longtitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> <mi>y</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>cos</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>*</mo> <mi>sin</mi> <mi> </mi> <msub> <mi>longtitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> </mrow>

<mrow> <mi>z</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>sin</mi> <mi> </mi> <msub> <mi>latitude</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>,</mo> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mi>o</mi> <mi>n</mi> <mi>g</mi> <mi>t</mi> <mi>i</mi> <mi>t</mi> <mi>u</mi> <mi>d</mi> <mi>e</mi> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mfrac> <mi>y</mi> <mi>x</mi> </mfrac> <mo>,</mo> <mi>c</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>t</mi> <mi>u</mi> <mi>d</mi> <mi>e</mi> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mfrac> <mi>z</mi> <mroot> <mrow> <msup> <mi>x</mi> <mn>2</mn> </msup> <mo>+</mo> <msup> <mi>y</mi> <mn>2</mn> </msup> </mrow> <mn>2</mn> </mroot> </mfrac> <mo>;</mo> </mrow>

其中,n为参考流量数据的条数,i为大于等于1且小于n的正整数,latitudei为第i条参考流量数据对应的纬度,longtitudei为第i条参考流量数据对应的经度,centrallatitude为所述稳定设备的纬度,centrallongtitude为所述稳定设备的经度。

在具体实施中,所述坐标系统识别单元可以包括:

计算子单元,适于假设所述待识别流量数据的位置信息所使用的坐标系统,并采用假设的坐标系统计算所述待识别流量数据的位置信息与所述稳定设备的位置之间的距离;

识别子单元,适于当计算得到的距离小于第一阈值时,确定所述假设的坐标系统为所述待识别流量数据的位置信息所使用的坐标系统。

在具体实施中,所述稳定设备确定单元33可以包括:

距离计算子单元,适于计算包含所述转发设备的标识的任意两个参考流量数据的位置信息对应位置间的距离;

第一稳定设备确定子单元,适于当所述距离小于第二阈值时,确定所述转发设备为稳定设备。

在具体实施中,所述第一稳定设备确定子单元可以包括:

第二阈值确定子模块,适于以所述转发设备为圆心,根据所述移动设备的标识,计算在不同半径内,所产生的流量经所述转发设备转发的移动设备的数量,占据产生所述流量数据集的移动产生设备的数量的比例;当所述比例在连续单位时间内变化梯度小于梯度阈值时,确定该半径为所述第二阈值。

在具体实施中,所述稳定设备确定单元33可以包括:

第一总量统计子单元,适于在预设时间段的多个连续单位时间内,分别统计每单位时间内所述转发设备标识相同的流量数据对应的移动设备的数量,从而得到所述多个连续单位时间的移动设备的总数量,并记为第一总量;

第二总量统计子单元,适于统计所述预设时间段内包含该转发设备标识的流量数据对应的移动产生设备的数量,并记为第二总量;

第二稳定设备确定子单元,适于当所述第二总量与所述第一总量的比值小于比例阈值时,判定所述转发设备为稳定设备。

有关坐标系统的识别装置的结构说明和有益效果,可对应参照坐标系统的识别方法的描述,不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1