一种基于时空密度波与同步的大型时空数据聚类算法GRIDWAVE的制作方法

文档序号：13736565阅读：206来源：国知局

本发明涉及时空数据挖掘和大数据分析领域，具体涉及一种基于时空密度波与同步的大型时空数据聚类算法gridwave。

背景技术：

空间数据聚类被广泛的应用于许多信息技术领域，例如数据挖掘、模式识别、机器学习、人工智能、可视分析、地理信息系统等。在大数据时代，它可用来探索与发现数据中潜在的模式及价值，可应用于许多学科领域，例如天文学、生物信息学、文献计量学、社会网络分析、经济网络分析、交通网络分析、气象分析、智慧城市发展等。传统的空间数据聚类方法主要有四种：1)、基于划分的聚类；2)、基于密度的聚类；3)、层次聚类；4)、基于网格的聚类。时空聚类是在空间数据聚类的基础上增加了时序维度的聚类，用来分析空间受限变量的时序规律与模式，以及挖掘数据中隐藏的时空事件。

传统的时空聚类算法主要是引入了时序距离的概念，将时序数据纳入空间距离计算，再基于密度进行聚类，如st-dbscan，因此其聚类效果近似于空间聚类，其特点是其时空聚类一定是空间上连续或者近邻的点的集合。但是在一些领域，例如经济学、社会学、网络媒体等，时空数据不一定是空间连续或者近邻的。同时，由于st-dbscan是基于点与点之间的时空距离计算，其算法的时间复杂度为o(n²)。所以它不能用于处理海量时空数据，当n不断增大时，其运算时间是不可接受的。

同时，我们都处于一个4维时空中，在日常生活工作学习中存在大量的时空事件，这些时空事件被广泛的存储于数据中，因此，设计一款能够进行无监督时空聚类、挖掘时空事件的算法是具有现实意义的。

技术实现要素：

本发明采用了一种新颖的时空聚类理念，设计了一款能够无监督的发现时空类和时空噪声，并且能够挖掘时空事件的大型时空数据聚类算法。

本发明提供如下技术方案：

一种基于时空密度波与同步的大型时空数据聚类算法gridwave，包括以下步骤：

步骤1，根据预设空间边长l、时序间隔i及d维时空数据集p创建d维时空数据网格g；

步骤2，根据d维时空数据集p中的空间受限变量v、最小近邻参数minpts，计算核心空间格子的时空密度波；

步骤3，根据每个核心空间格子的时空密度波及预设时空同步率r计算每一对核心空间格子之间的时空同步率，并根据该所述时空同步率进行无监督的时空网格聚类，并根据数据点所在d维时空格子的聚类结果对整个d维时空数据集p进行分类标注。

优选地，上述基于时空密度波与同步的大型时空数据聚类算法gridwave中，所述构建时空网格的方法具体包括：

时序间隔i是大于1的正整数，且空间边长l大于0，d为正整数；

首先根据所述边长l对所述d维空间数据集p中的每个空间维度的数值范围进行平均切分，创建一个d-1维空间数据网格g’，其次根据所述时序间隔i对所述d-1维空间数据网格g’再进行时序切分，创建d维时空数据网格g；

所述d-1维空间数据网格g’中的每个格子为各边相等的超方格子；

根据所述d维空间数据集p中每个点的d维时空信息将数据点映射到相应的所述d维时空数据网格g中的时空格子，并进行数据点数量累加与记录。

优选地，上述的基于时空密度波与同步的大型时空数据聚类算法gridwave中，所述核心空间格子是所述d-1维空间数据网格g’中的格子中数据点数量大于或等于所述最小近邻参数minpts的格子，并为每个核心空间格子设置一个独立的时空类标。

优选地，上述的基于时空密度波与同步的大型时空数据聚类算法gridwave中，所述核心空间格子的时空密度波的计算方法具体包括：

计算每个核心空间格子中i个时空格子的时空密度值，计算方法为：对所述时空格子中所有数据点所关联的空间受限变量v进行累加与记录；

所述空间受限变量v为关系型数据库中用户指定属性的值。

第一个时空格子的时空密度波值固定为0，之后的i-1个时空格子的时空密度波值的计算方法为：当本时序时空格子的时空密度值大于上一时序时空格子的时空密度值时，其时空密度波值计为1；当本时序时空格子的时空密度值小于上一时序时空格子的时空密度值时，其时空密度波值计为-1；当本时序时空格子的时空密度值等于上一时序时空格子的时空密度值时，其时空密度波值计为0；

所述核心空间格子的时空密度波即为其按时序依次排列的时空格子的时空密度波值的i个数字序列的集合，如{0,1，-1，…，1}。

优选地，上述的基于时空密度波与同步的大型时空数据聚类算法gridwave中，所述无监督的时空聚类的计算方法具体包括：

对每一对所述核心空间格子之间的时空同步性进行计算，计算方法为：

1)比对任意一对核心空间格子在每一个时序中的时空密度波值，当时空密度波值在第in时序中一致时，则认为该2个核心空间格子在第in时序同步；

2)计算任意一对核心空间格子之间的时空相似性，计算方法为：同步时序的数量除以时序总数i；

3)当任意一对所述核心空间格子的时空密度波之间的相似性大于所述时空同步率r，则认为该对核心空间格子为时空同步，将此两个核心空间格子聚到同一个类中；

4)迭代计算上述过程，直到算法收敛；

5)一个时空类即为具有同样类标的时空格子或空间格子的最大集合，它表明同一个时空类中的空间格子相互之间关于所述空间受限变量v的时空密度在时序上具有同步性关系。

可选地，上述的基于时空密度波与同步的大型时空数据聚类算法gridwave中，将所有非空间核心格子均标注为时空噪声格子。

本发明还提供一种执行基于时空密度波与同步的大型时空数据聚类算法gridwave的电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

根据所述的预设空间边长l、时序间隔i及d维时空数据集p创建d维时空数据网格g；

根据所述的d维时空数据集p中的空间受限变量v、最小近邻参数minpts，计算核心空间格子的时空密度波；

根据每个核心空间格子的时空密度波及所述的预设时空同步率r计算任意一对核心空间格子之间的时空同步率，并根据该所述时空同步率进行无监督的时空网格聚类，并根据数据点所在d维时空格子的聚类结果对整个d维时空数据集p进行分类标注。

本发明提供的上述技术方案，与现有技术相比，至少具有以下有益效果：

1.该聚类算法首先构建一种时空网格结构；之后计算每个核心空间格子的时空密度波及同步性关系；最后根据核心空间格子之间的时空同步性关系进行无监督聚类。

2.作为一种基于时空密度波与同步的大型时空数据聚类算法，可以从时空数据中挖掘空间分离的时空类及时空事件；同时由于该算法的聚类机制是基于网格计算，算法运算效率极高，使得该算法可广泛应用于海量的时空数据聚类。所述的时空类即为在关于所述的空间受限变量v的时空密度上具有时序同步性关系的空间格子的最大集合。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所述基于时空密度波与同步的大型时空数据聚类算法gridwave的方法流程图。

图2为本发明一个实施例所述基于时空密度波与同步的大型时空数据聚类算法gridwave详细方法流程图。

图3为本发明一个实施例所述基于时空密度波与同步的大型时空数据聚类算法gridwave的一个三维时空数据实施例的关于三维时空网格与其中格子密度波的示意图；x、y分别为二维空间的两个维度，t为时序维度，v为空间受限变量。

图4为本发明一个实施例所述执行基于时空密度波与同步的大型时空数据聚类算法gridwave的方法的电子设备的硬件结构连接示意图。

具体实施方式

实施例1

本实施例提供一种基于时空密度波与同步的大型时空数据聚类算法gridwave，如图1所示，包括：

s1：根据预设空间边长l、时序间隔i及d维时空数据集p创建d维时空数据网格g。

s2：根据d维时空数据集p中的空间受限变量v、最小近邻参数minpts，计算核心空间格子的时空密度波。

s3：根据每个核心空间格子的时空密度波及预设时空同步率r计算任意一对核心空间格子之间的时空同步率，并根据该所述时空同步率进行无监督的时空网格聚类，并根据数据点所在d维时空格子的聚类结果对整个d维时空数据集p进行分类标注。

上述方案中，首先根据所述预空间边长l、时序间隔i及d维空间数据集p创建一种d维时空数据网格g，其次根据最小近邻参数min_n计算出核心空间格子，再次根据所述d维时空数据集p中的空间受限变量v计算出每个核心空间格子的时空密度波，最后根据核心空间格子之间的时空同步性关系对所述d维空间数据网格g进行无监督的时空网格聚类计算。对比传统的基于密度的时空数据聚类算法，该算法采用了新的聚类思想—时空密度波与时空同步性，因此能够发现空间不连续的时空类；同时该算法是基于网格计算进行设计的，因此消除了聚类过程中点与点之间的距离计算，极大的降低了时空数据聚类计算的时间复杂度，使得该算法可广泛应用于海量时空数据聚类以及其他领域的学科应用。

实施例2

上述步骤s1中，所述创建时空数据网格的方法可以分解为两个步骤。本实施例中提供一种实现方式，包括：

具体地，如图2所示，包括如下步骤：

s11：根据预设空间边长l及d维时空数据集p创建d-1维空间数据网格g’；

s12：根据预设时序间隔i及d-1维空间数据网格g’创建d维时空数据网格g，再根据所述d维空间数据集p中每个点的d维时空信息将数据点映射到相应的所述d维时空数据网格g中的时空格子，并进行数据点数量累加与记录；

上述步骤s2中，所述计算核心空间格子的时空密度波的方法可以分解为两个步骤。本实施例中提供一种实现方式，包括：

具体地，如图2所示，包括如下步骤：

s21：根据预设最小近邻参数minpts计算所述d-1维空间数据网格g’中的格子中的核心空间格子，并给予独立的时空类标；

s22：计算每个核心空间格子关于空间受限变量v的时空密度波；

上述步骤s2中，所述基于时空同步相似性的无监督时空聚类过程可以分解为三个步骤。本实施例中提供一种实现方式，包括：

具体地，如图2所示，包括如下步骤：

s31：迭代遍历计算所述d维时空数据网格g中的任意两个核心空间格子的时空相似性，如相似则将两个空间核心格子合并到一个类中，并判断迭代是否结束，如结束则跳转到s32，否则，重复执行s31；

s32：将所有非核心空间格子标注为时空噪声格子；

s33：根据数据点所在d维时空格子的类标对整个所述d维空间数据集p进行分类标注。

实施例3

图4是本实施例提供的基于时空密度波与同步的大型时空数据聚类算法gridwave的电子设备的硬件结构示意图，如图4所示，该设备包括：

一个或多个处理器701以及存储器702，图4中以一个处理器701为例。

执行基于时空密度波与同步的大型时空数据聚类算法gridwave的设备还可以包括：输入装置703和输出装置704。

处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图4以通过总线连接为例。

存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于时空密度波与同步的大型时空数据聚类算法gridwave对应的程序指令/模块。处理器701通过运行存储在存储器702中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上市方法实施例的基于时空密度波与同步的大型时空数据聚类算法gridwave。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可以存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据执行基于时空密度波与同步的大型时空数据聚类算法gridwave的装置的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，开可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或者其他非易失性固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至执行基于时空密度波与同步的大型时空数据聚类算法gridwave装置。上述网络的实施包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置703可接收输入的数字或字符信息，以及产生与执行基于时空密度波与同步的大型时空数据聚类算法gridwave装置的用户设置以及功能控制有关的信号输入，输出装置704可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器702中，当被所述一个或者多个处理器701执行时，执行上述任意方法实施例中的基于时空密度波与同步的大型时空数据聚类算法gridwave。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框，以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机或其他可编程数据处理设备的处理器执行的指令产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特点方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可以装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓超;陈智斌;郭晓惠;农英雄;杨振宇;孙忱;梁东;陆瑛;钟征燕
技术所有人：广西中烟工业有限责任公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。