一种顾及位置重复和密度峰值点的签到位置数据聚类方法与流程

文档序号:12601721阅读:来源:国知局

技术特征:

1.一种顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于,包括以下步骤:

步骤S1:从签到文本中提取出每条签到信息的编号以及经纬度信息构成原始签到对象,对所有的原始签到对象进行预处理后构成集合O;

步骤S2:统计集合O中每个位置上的原始签到对象的数量dFreq,以索引号、该位置坐标和dFreq构建对象FPi,将所有的FPi构成集合F,记F的总量为NF

步骤S3:计算集合F中两两对象间的欧式距离并构成距离矩阵D,并根据D计算出截断距离dc,其中D=[dij],为NF×NF方阵,dij为对象FPi与FPj之间的欧氏距离;

步骤S4:计算每个对象FPi的局部密度ρi和高密度最邻近距离δi

步骤S5:求出阈值ρ0和δ0,选择集合F中ρi0且δi0的对象FPi为密度峰值对象,将所有的密度峰值对象构成集合P,余下的对象构成集合F’;

步骤S6:任取集合P中的某一密度峰值对象Pi,遍历集合F’,寻找在(Eps,ρt)条件下所有与密度峰值对象Pi连通的核心点,构成密度峰值对象Pi的核心点簇{C}i

步骤S7:寻找密度峰值对象Pi和对应核心点周围所有的边界点,然后并入核心点簇{C}i构成密度峰值对象Pi的峰值点密度簇{P}i

步骤S8:重复步骤S6至S7直到集合P中对所有密度峰值对象Pi全部找完峰值点密度簇{P}i,获得最终聚类结果。

2.根据权利要求1所述的考虑位置重复并基于密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S1中的预处理包括:

(1)将原始签到对象的经纬度信息转换成墨卡托平面坐标;

(2)以研究区范围的区划图作为底图,将原始签到对象与底图进行叠置,剔除研究区域以外的对象。

3.根据权利要求1所述的考虑位置重复并基于密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S3中截断距离dc的计算方法如下:

取距离矩阵D中上三角中的元素(不包含对角线元素)进行升序排序,取第[(NF-1)*NF/2]*1%个元素作为截断距离dc

4.根据权利要求1所述的考虑位置重复并基于密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S4中对象FPi的局部密度ρi和高密度最邻近距离δi的计算方法如下:

<mrow> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>d</mi> <mi>F</mi> <mi>r</mi> <mi>e</mi> <mi>q</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </munder> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mfrac> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>d</mi> <mi>c</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msup> </mrow>

其中,dij为对象FPi与FPj之间的欧氏距离。

5.根据权利要求1所述的考虑位置重复并基于密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S5中阈值ρ0和δ0的确定步骤如下:

步骤S51:获取集合F中每个对象FPi的局部密度ρi构成集合L;

步骤S52:核计算集合L中每个局部密度ρi的核密度值kdi

步骤S53:对集合L中所有的局部密度ρi和核密度值kdi分别进行归一化处理,并以局部密度ρi为横轴,核密度值kdi为纵轴绘制归一化后的核密度曲线;

步骤S54:计算每个局部密度ρi处的斜率ki构成集合K;

步骤S55:设置阈值t,在集合K中逆序遍历寻找第一个绝对值大于阈值t的元素ki,取其对应的局部密度为ρ0

步骤S56:筛选集合F中局部密度大于ρ0的对象构成集合Fρ,以Fρ中对象的δ值构成集合Dρ

步骤S57:设集合Dρ中小于δ0的元素为正常部分,其概率的为pt,根据异常检查的方式计算出δ0

6.根据权利要求1所述的考虑位置重复并基于密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S6中的核心点与核心点簇的定义如下:

核心点:对于数据对象p∈F’,若p的局部密度ρp大于等于密度阈值ρt,则称p为核心点;

核心点簇:与密度峰值对象Pi在(Eps,ρt)条件下密度连通的所有核心点构成的点簇,具体获取步骤如下:

步骤S61:遍历集合F’,在(Eps,ρt)条件下搜索与密度峰值对象Pi密度直达的所有核心点构成初级核心点簇{C’}i并从集合F’中去除相应元素;

步骤S62:对于初级核心点簇{C’}i中的任一成员PCi,在F’中以(Eps,ρt)为条件搜索与PCi密度直达、密度连通、密度相连的所有核心点构成核心点簇{C}i并从集合F’去除相应元素,直到对所有PCi找完为止。

7.根据权利要求1所述的考虑位置重复并基于密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S7中的边界点定义如下:

边界点:对于数据对象p∈F’,如果p的局部密度ρp小于密度阈值ρt,但p位于某个核心点或峰值点的Eps邻域内,则称p为边界点。

8.根据权利要求1所述的考虑位置重复并基于密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S8中的最终聚类结果包括峰值点密度簇和噪声集合两大部分,其中每个峰值点与其核心点簇及边界点构成峰值点密度簇,集合F’中不属于任何峰值密度簇的对象划入噪声集合。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1