用户关键位置数据获取方法及装置与流程

文档序号:12733804阅读:369来源:国知局
用户关键位置数据获取方法及装置与流程

本发明涉及信息技术领域,尤其涉及一种用户关键位置数据获取方法及装置。



背景技术:

随着移动互联网服务的普及,越来越多的用户位置数据被采集和存储,各种线下应用服务对用户位置数据的依赖也越来越高。在用户位置数据中,关键位置数据例如用户的工作和家庭位置等,在众多的线下应用服务中都有广泛的应用,比如地图应用服务中的上下班路线推荐。

目前,在获取用户关键位置数据时,通常是基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度的聚类算法)从用户位置数据中进行提取。然而由于现有DBSCAN算法的输入参数为通过人工的方式进行输入,对于海量用户位置数据来说,现有算法的输入参数较为单一,误差较大,进而导致现有用户关键位置数据的获取精度较低。



技术实现要素:

有鉴于此,本发明实施例提供一种用户关键位置数据获取方法及装置,主要目的是解决用户关键位置数据的获取精度较低的问题。

为达到上述目的,本发明提供如下技术方案:

一方面,本发明实施例提供了一种用户关键位置数据获取方法,该方法包括:

从用户的位置点中获取所述用户的各个位置点分别对应的第K近邻位置点,并且获取所述各个位置点分别与对应的第K近邻位置点之间的距离;

根据各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点;

将所述阈值位置点对应的第K近邻距离和K值作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。

另一方面,本发明实施例提供了一种用户关键位置数据获取装置,该装置包括:

获取单元,用于从用户的位置点中获取所述用户的各个位置点分别对应的第K近邻位置点,并且获取所述各个位置点分别与对应的第K近邻位置点之间的距离;

提取单元,用于根据各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点;

聚类单元,用于将所述阈值位置点对应的第K近邻距离和K值作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明实施例提供的一种用户关键位置数据获取方法及装置,首先从用户的位置点中获取所述用户的各个位置点分别对应的第K近邻位置点,并且获取所述各个位置点分别与对应的第K近邻位置点之间的距离,再根据各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点,最后将所述阈值位置点对应的第K近邻距离和K值作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。与目前在获取用户关键位置数据时,通常是基于DBSCAN从用户位置数据中进行提取相比,本发明通过各个位置点分别对应的第K近邻位置点的距离配置聚类算法DBSCAN的输入参数,可以提高用户关键位置数据的获取精度。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种用户关键位置数据获取方法的流程图;

图2示出了本发明实施例提供的另一种用户关键位置数据获取方法的流程图;

图3示出了本发明实施例提供的一种用户关键位置数据获取装置的结构示意图;

图4示出了本发明实施例提供的另一种用户关键位置数据获取装置的结构示意图;

图5示出了本发明实施例提供的3近邻分布示意图;

图6示出了用户的位置点分布示意图;

图7示出了排序前用户位置的K近邻位置分布图;

图8示出了排序后用户位置的K近邻位置分布图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。

本发明实施例提供了一种用户关键位置数据获取方法,如图1所示,所述方法包括:

101、从用户的位置点中获取所述用户的各个位置点分别对应的第K近邻位置点,并且获取所述各个位置点分别与对应的第K近邻位置点之间的距离。

其中,K近邻指的是用户的全部位置点中与用户的某一个位置点距离最近的其他K个位置点,例如,3近邻为用户的全部位置点中与用户的某一个位置点距离最近的其他3个位置点,第3近邻位置点为与用户的某一个位置点距离最近的其他3个位置点中,距离最远的位置点,具体可以如图5所示,其中距离为d3大于d2和d1,因此距离为d3的位置点为用户的位置点对应的第3近邻位置点。

102、根据各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点。

其中,根据各个位置点分别与对应的第K近邻位置点之间的距离还可以得到用户位置的K近邻分布图,K近邻分布图用于反应各个位置点之间的密度分布特性,例如,如图6所示,其中,第一区域和第二区域的位置点表示为聚集性位置点,第三区域和第四区域的蓝色点为离群点。

103、将所述阈值位置点对应的第K近邻距离和K值作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。

其中,用户的关键位置数据可以为能够反映用户停留频率较高的位置,如用户的工作和家庭位置等。例如,K值为3时,则将阈值位置点对应的第3近邻距离和3作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。对于本发明实施例,根据各个位置点分别与对应的第K近邻位置点之间的距离得到阈值位置点,并将阈值位置点对应的第K近邻距离和K值作为预置聚类算法的输入,可以保证预置聚类算法输入参数的准确性,进而提高聚类后得到的用户关键位置数据的准确性。

本发明实施例提供的一种用户关键位置数据获取方法,首先从用户的位置点中获取所述用户的各个位置点分别对应的第K近邻位置点,并且获取所述各个位置点分别与对应的第K近邻位置点之间的距离,再根据各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点,最后将所述阈值位置点对应的第K近邻距离和K值作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。与目前在获取用户关键位置数据时,通常是基于DBSCAN从用户位置数据中进行提取相比,本发明通过各个位置点分别对应的第K近邻位置点的距离配置聚类算法DBSCAN的输入参数,可以提高用户关键位置数据的获取精度。

本发明实施例提供了另一种用户关键位置数据获取方法,如图2所示,所述方法包括:

201、从用户的位置点中获取所述用户的各个位置点分别对应的第K近邻位置点,并且获取所述各个位置点分别与对应的第K近邻位置点之间的距离。

其中,K近邻指的是用户的全部位置点中与用户的某一个位置点距离最近的其他K个位置点,例如,5近邻为与用户的某一个位置点距离最近的其他5个位置点,第5近邻位置点为与用户的某一个位置点距离最近的其他5个位置点中,距离最远的位置点。

202、将各个位置点分别与对应的第K近邻位置点之间的距离按照由大到小进行排序。

例如,用户的各个位置点分别为位置点1、位置点2、位置点3,位置点1对应的第K近邻位置点的距离为5,位置点2对应的第K近邻位置点的距离为8,位置点3对应的第K近邻位置点的距离为10,则按照距离由大到小的顺序进行排列的顺序为位置点3、位置点2、位置点1。

203、根据排序后的各个位置点以及各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点。

对于本发明实施例,步骤203具体可以包括:按照所述各个位置点的顺序依次获取各个位置点的聚集性因子,所述聚集性因子为位置点与对应的第K近邻位置点之间的距离和与所述位置点相邻的下一个位置点对应的第K近邻位置点之间的距离差值;将聚集性因子最大的位置点相邻的下一个位置点作为所述阈值位置点。

其中,可以根据公式di=kdisti-kdisti+1,i∈[1,n-1]获取用户的各个位置点的聚集性因子。其中,kdisti表示K近邻分布中第i个位置点的第K近邻距离,n表示用户位置点的个数。聚集性因子di反应了第i个位置点的聚集性,di越大表示第i个位置点的聚集性就越低。

进一步地,根据排序后的各个位置点以及各个位置点分别与对应的第K近邻位置点之间的距离,生成用户位置的K近邻位置分布图并进行显示。

对于本发明实施例,通过排序后的各个位置点以及各个位置点分别对应的第K近邻位置点的距离,生成用户位置的K近邻分布图,可以使得生成的K近邻分布图客观反映用户位置密度的分布,同时对该K近邻分布图进行显示,可以使得直观获取到用户位置的分布情况。例如,用户有20个位置点,将各个位置点分别与对应的第K近邻位置点之间的距离按照由大到小进行排序之前,用户位置的K近邻位置分布图可以如图7所示,而排序后用户位置的K近邻位置分布图可以如图8所示,可见,排序后的K近邻位置分布图中可以明显的看到在第6位置点与第7位置点间发生了比较大的波动,从而可以通过排序后的K近邻位置分布图准确快速确定第6位置点及之前的位置点都是离群点,第7位置点及之后的位置点是聚集性位置点。

204、将所述阈值位置点对应的第K近邻距离和K值作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。

对于本发明实施例,步骤205具体可以包括:

根据所述阈值位置点对应的第K近邻距离获取DBSCAN中的邻域半径参数,并根据K值获取所述邻域半径内的核心对象数;将所述邻域半径参数和所述邻域半径内的核心对象数作为所述预置聚类算法的输入对用户位置数据进行聚类,得到所述用户的关键位置数据。。对于本发明实施例,通过与用户位置密度相关联的阈值位置点对应的第K近邻距离和K值配置DBSCAN的两个输入参数,而不是通过人工的方式进行配置,可以提高用户关键位置数据的获取精度。

例如,K值为8时,则将阈值位置点对应的第8近邻距离和8作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据.对于本发明实施例,根据各个位置点分别与对应的第K近邻位置点之间的距离得到阈值位置点,并将阈值位置点对应的第K近邻距离和K值作为预置聚类算法的输入,可以保证预置聚类算法输入参数的准确性,进而提高聚类后得到的用户关键位置数据的准确性。

本发明实施例提供的另一种用户关键位置数据获取方法,首先从用户的位置点中获取所述用户的各个位置点分别对应的第K近邻位置点,并且获取所述各个位置点分别与对应的第K近邻位置点之间的距离,再根据各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点,最后将所述阈值位置点对应的第K近邻距离和K值作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。与目前在获取用户关键位置数据时,通常是基于DBSCAN从用户位置数据中进行提取相比,本发明通过各个位置点分别对应的第K近邻位置点的距离配置聚类算法DBSCAN的输入参数,可以提高用户关键位置数据的获取精度。

进一步地,本发明实施例提供一种用户关键位置数据获取装置,如图3所示,所述装置包括:获取单元31、提取单元32、聚类单元33。

获取单元31,用于从用户的位置点中获取所述用户的各个位置点分别对应的第K近邻位置点,并且获取所述各个位置点分别与对应的第K近邻位置点之间的距离;

提取单元32,用于根据各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点;

聚类单元33,用于将所述阈值位置点对应的第K近邻距离和K值作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。

需要说明的是,本发明实施例提供的一种用户关键位置数据获取装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供的一种用户关键位置数据获取装置,首先从用户的位置点中获取所述用户的各个位置点分别对应的第K近邻位置点,并且获取所述各个位置点分别与对应的第K近邻位置点之间的距离,再根据各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点,最后将所述阈值位置点对应的第K近邻距离和K值作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。与目前在获取用户关键位置数据时,通常是基于DBSCAN从用户位置数据中进行提取相比,本发明通过各个位置点分别对应的第K近邻位置点的距离配置聚类算法DBSCAN的输入参数,可以提高用户关键位置数据的获取精度。

进一步地,本发明实施例提供另一种用户关键位置数据获取装置,如图4所示,所述装置包括:获取单元41、提取单元42、聚类单元43。

获取单元41,用于从用户的位置点中获取所述用户的各个位置点分别对应的第K近邻位置点,并且获取所述各个位置点分别与对应的第K近邻位置点之间的距离;

提取单元42,用于根据各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点;

聚类单元43,用于将所述阈值位置点对应的第K近邻距离和K值作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。

进一步地,

所述获取单元41,还用于根据所述阈值位置点对应的第K近邻距离获取DBSCAN中的邻域半径参数,并根据K值获取所述邻域半径内的核心对象数;

所述聚类单元43,具体用于将所述邻域半径参数和所述邻域半径内的核心对象数作为所述预置聚类算法的输入对用户位置数据进行聚类,得到所述用户的关键位置数据。

进一步地,所述装置还包括:

排序单元44,用于将各个位置点分别与对应的第K近邻位置点之间的距离按照距离由大到小进行排序.

进一步地,

所述提取单元42,还用于根据排序后的各个位置点以及各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点。

进一步地,所述获取单元41,还用于按照所述各个位置点的顺序依次获取各个位置点的聚集性因子,所述聚集性因子为位置点与对应的第K近邻位置点之间的距离和与所述位置点相邻的下一个位置点对应的第K近邻位置点之间的距离差值;

将聚集性因子最大的位置点相邻的下一个位置点作为所述阈值位置点。

进一步地,所述装置还包括:

生成单元45,用于根据排序后的各个位置点以及各个位置点分别与对应的第K近邻位置点之间的距离,生成用户位置的K近邻位置分布图并进行显示。

需要说明的是,本发明实施例提供的另一种用户关键位置数据获取装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供的另一种用户关键位置数据获取装置,首先从用户的位置点中获取所述用户的各个位置点分别对应的第K近邻位置点,并且获取所述各个位置点分别与对应的第K近邻位置点之间的距离,再根据各个位置点分别与对应的第K近邻位置点之间的距离,从所述各个位置点中提取阈值位置点,最后将所述阈值位置点对应的第K近邻距离和K值作为聚类算法DBSCAN的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。与目前在获取用户关键位置数据时,通常是基于DBSCAN从用户位置数据中进行提取相比,本发明通过各个位置点分别对应的第K近邻位置点的距离配置聚类算法DBSCAN的输入参数,可以提高用户关键位置数据的获取精度。

所述用户关键位置数据获取包括处理器和存储器,上述获取单元,生成单元,提取单元、聚类单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决用户关键位置数据获取精度较低的问题。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取用户的各个位置点分别对应的第K近邻位置点的距离,然后根据各个位置点分别对应的第K近邻位置点的距离,生成用户位置的K近邻分布信息并根据K近邻分布信息提取阈值位置点,最后将所述阈值位置点对应的第K近邻距离和K值作为预置聚类算法的输入,对用户位置数据进行聚类,得到所述用户的关键位置数据。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的用户关键位置数据获取方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1