一种基于海量数据的位置信息提取方法和装置与流程

文档序号:15588431发布日期:2018-10-02 18:39阅读:130来源:国知局

本发明涉及网络安全及大数据处理领域,尤其涉及一种基于海量数据的位置信息提取方法和装置。



背景技术:

互联网的高速发展,使数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,伴随而来的是人类可以分析和处理的海量数据。在中型以上的城市如北京、上海,每天在网络行为中产生的各类数据已经超过pb级。lbs(locationbasedservices):又称基于位置的服务,它是通过电信移动运营商的无线电通讯网络(如gsm网、cdma网)或外部dxxw方式(如gps)及其他dxxw手段获取移动终端用户的位置信息(地理坐标,或大地坐标),在gis(geographicinformationsystem,地理信息系统)平台的支持下,为用户提供相应服务的一种增值业务。

基于lbs的服务业务在大数据处理得到了蓬勃地发展,各种开放式api得到了广泛的使用。如google,就为用户提供了开放式的api服务。注册用户可以根据不同的需要来使用对应的服务,如通过ip查寻经纬度、通过wifimac地址查寻、通过手机基站信息查寻地址、通过经纬度查寻地址、通过地址查寻经纬度等服务。同时,各个行业的基于lbs的业务也在蓬勃开展。在进行海量数据处理,尤其是在海量数据中提取位置信息,目前进行全文检索提取相关数据信息的算法一般是采用各种分词技术,然而传统的全文检索方法缓慢、效率低下。



技术实现要素:

本发明提供一种基于海量数据的位置信息提取方法和装置,便于民警对网民、网站行为进行监督和规范。

第一方面,本发明实施例提供了一种基于海量数据的位置信息提取方法,包括:

从全文数据库系统trs中提取原始数据。

从提取的原始数据中提取公共字段和用户代理user-agent内容,并从所述user-agent内容获取需要的应用信息。

根据所述应用信息中的url信息,按照自定义正则表达式,计算出提取规则编号。在预先设定的规则数据库中提取与计算所得编号对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息。

将所述有效数据输出到业务数据库和/或bcp文件。

第二方面,本发明实施例还提供了一种基于海量数据的位置信息提取装置,其特征在于,包括:

原始数据提取模块,用于从全文数据库系统trs中提取原始数据;

应用信息获取模块,用于从提取的原始数据中提取公共字段和用户代理user-agent内容,并从所述user-agent内容获取应用信息;

位置信息提取模块,用于根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;

有效数据合并模块,用于将所述位置信息与所述公共字段合并为有效数据;

有效数据输出模块,用于将所述有效数据输出到业务数据库和/或bcp文件。

与现有技术相比,本发明的积极效果为:

本发明通过从全文数据库系统trs中提取原始数据,并根据从提取的原始数据中提取的应用信息,在预先设定的规则数据库中提取与所述应用信息对应的提取规则,使用所述提取规则从所述原始数据中提取位置信息,解决了现有技术全文检索提取位置信息缓慢、效率低下的问题,实现了在海量数据中高效的、较精确提取位置信息的效果,告别了以往提取位置信息耗时长,且计算得出位置不准确的局面。本发明具有定位效率更高、位置更为精确的特点。

数据处理方面,对由提取得到的位置数据,根据规则计算出编号并选择,在对应的行为数据库中进行匹配。例如,进行计算后得到编号“xxx”,则在对应的行为数据库中查询找到编号为“xxx”的记录,并读取出对应的提取规则字段,字段内容为一个正则表达式“x=a?y”。根据得到的正则表达式,计算出对应的位置信息。如果得到的提取规则为空,则得到的该条记录无效。

附图说明:

图1为本发明实施例一提供的一种基于海量数据的位置信息提取方法的流程图;

图2为本发明实施例二提供的一种基于海量数据的位置信息提取方法的流程图;

图3为本发明实施例二提供的一种基于海量数据的位置信息提取方法的算法流程图;

图4为本发明实施例二提供的根据在预先设定的规则数据库中提取的与应用信息对应的提取规则,从原始数据中提取位置信息的算法流程图;

图5为本发明实施例三提供的数据库管理示意图;

图6为本发明实施例四提供的一种基于海量数据的位置信息提取装置的结构示意图;

图7为本发明实施例四提供的基于海量数据的位置信息提取装置的整体数据流示意图。

具体实现方式:

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种基于海量数据的位置信息提取方法的流程图,该方法可以由基于海量数据的位置信息提取装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于web服务器中,或作为web服务器端的子程序,具体包括如下操作:

110、从全文数据库系统trs中提取原始数据;

其中,trs是一个面向文本数据的数据库管理系统,广泛应用于各种信息数据库、信息门户的建设,能够对异构海量数据统一管理,同时支持结构化数据和非结构化数据,支持多种数据类型(如日期、字符串、短语、文档和二进制多媒体类型)。从全文数据库系统trs中提取原始数据,例如,从trs提取并计算出来所需数据。

120、从提取的原始数据中提取公共字段和用户代理user-agent内容,并从所述user-agent内容获取应用信息进行计算并判断;

其中,原始数据中的公共字段包括:数据id,设备id,目的端口,时间戳等。本发明实施例对原始数据中的公共字段不作处理,仅将其中的公共字段进行提取。user-agent是http协议中的一部分,属于头域的组成部分,能够提供用户所使用的浏览器类型、操作系统、浏览器内核等信息的标识。从所述user-agent内容中提取应用信息,例如比qq、msn等应用等,并根据版本对提取的应用信息进行区分。

130、根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;

其中,预先设定的规则数据库中存储有位置信息的bxxh、jxxd、wxxd等字段,从预先设定的规则数据库提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息。

140、将所述位置信息与所述公共字段合并为有效数据;

有效数据包括两部分:操作120中提取的公共字段和操作130中提取的位置信息。

例如数组a[2][2],a[0][0]={abc,bj1},a[0][1]={abc,bj2}.

150、将所述有效数据输出到业务数据库和/或bcp文件。

将操作140中获取的有效数据输出到业务数据库以供相应业务系统使用。由于不同业务系统之间是相互独立的,不同业务系统的数据库之间不能共享,因此,将有效数据输入bcp文件保存,以供不同业务系统使用。

本实施例的技术方案,通过从全文数据库系统trs中提取原始数据,从提取的原始数据中提取公共字段和应用信息,根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息,与所述公共字段合并为有效数据后,输出到业务数据库和/或bcp文件,解决了现有技术全文检索提取位置信息缓慢、效率低下的问题,实现了在海量数据中高效的提取位置信息的效果。

实施例二

图2为本发明实施例二提供的一种基于海量数据的位置信息提取方法的流程图。本实施例为上述实施例基础上的优化,相应的,本实施例的方法包括如下操作:

210、从全文数据库系统trs中提取原始数据;

220、从提取的原始数据中提取公共字段和用户代理user-agent内容;

230、判断所述user-agent内容是否为空;

当所述user-agent内容为空时,执行操作260;否则,执行操作240。

240、从所述user-agent内容获取应用信息;

250、判断所述预先设定的规则数据库中是否包含与所述应用信息对应的提取规则;

当所述预先设定的规则数据库中不包含与所述应用信息对应的提取规则时,执行操作260;否则执行操作270。

260、使用公知通用规则从所述原始数据中提取位置信息;

270、根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;

举例而言,当原始数据的传参方式为get时,在原始数据请求行中提取参数,并分割提取出来。由于参数以键值对的形式存在,通过“&”形式出现,先以“&”分割出每个参数的键值对。参数名和参数值是以“=”连接的,再以分割“=”提取出来键值对,或者根据“=”的位置截取出来,得到参数名和参数值。本发明实施例中的预先设定的规则数据库中的提取规则,也适用于post等方式传参的原始数据,在此不作详述。

280、将所述位置信息与所述公共字段合并为有效数据;

290、将所述有效数据输出到业务数据库和/或bcp文件。

在上述实施例基础上,优选地,在将所述有效数据输出到业务数据库和/或bcp文件之后,还包括:

接收用户的查询请求,返回查询请求数据。

举例而言,本发明实施例中的执行主体可以是运行在web服务器端的servlet应用程序,能够接收web客户端的用户查询请求,并对web客户端进行响应,返回查询请求数据。servlet在第一次接收web客户端的用户查询请求时被初始化,以后一直在内存中运行,并在web服务器重启时销毁。

本实施例的技术方案,通过从全文数据库系统trs中提取原始数据,从提取的原始数据中提取公共字段和user-agent中的应用信息,当预先设定的规则数据库中包含与所述应用信息对应的提取规则,从预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息,当所述user-agent内容为空,以及所述预先设定的规则数据库中没有与所述应用信息对应的提取规则时,使用通用规则从所述原始数据中提取位置信息。最后将提取的位置信息与公共字段合并为有效数据后,输出到业务数据库和/或bcp文件,解决了现有技术全文检索提取位置信息缓慢、效率低下的问题,实现了在海量数据中高效的提取位置信息的效果。

实施例三

本实施例为上述实施例基础上的优化,优选的,在将所述位置信息与所述公共字段合并为有效数据之后,在将所述有效数据输出到业务数据库和bcp文件之前,还包括:

过滤错误数据以及相同数据。

通过错误数据的过滤以及形同数据的滤除可以保证入库后的有效数据的准确性及可用性。

如图5所示,在上述实施例基础上,本发明实施例提供的方法,还包括:

管理所述trs中的数据源,包括修改数据源,删除数据源,添加数据源,查询数据源;

所述trs中包含多个数据源,该方法能够对接入trs的数据源进行管理,选择系统所需的数据源进行原数据的位置信息的提取。

管理所述应用信息数据库,包括修改应用信息,删除应用信息,添加应用信息,查询应用信息;

管理所述预先设定的规则数据库,包括修改提取规则,删除提取规则,添加提取规则,查询提取规则。

本实施例的技术方案,通过在将所述位置信息与所述公共字段合并为有效数据之后,在将所述有效数据输出到业务数据库和bcp文件之前,过滤错误数据以及相同数据,保证了入库后的有效数据的准确性及可用性。此外,本实施例还可以对trs中的数据源、应用信息、预先设定的规则数据库进行管理,能够满足不同业务系统的位置信息提取需求。

实施例四

图6为本发明实施例四提供的一种基于海量数据的位置信息提取装置的结构示意图,该装置的具体包括:

原始数据提取模块410,用于从全文数据库系统trs中提取原始数据;

应用信息获取模块420,用于从提取的原始数据中提取公共字段和用户代理user-agent内容,并从所述user-agent内容获取应用信息;

位置信息提取模块430,用于根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;

有效数据合并模块440,用于将所述位置信息与所述公共字段合并为有效数据;

有效数据输出模块450,用于将所述有效数据输出到业务数据库和/或bcp文件。

本实施例的技术方案,通过从全文数据库系统trs中提取原始数据,从提取的原始数据中提取公共字段和应用信息,根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息,与所述公共字段合并为有效数据后,输出到业务数据库和/或bcp文件,解决了现有技术全文检索提取位置信息缓慢、效率低下的问题,实现了在海量数据中高效的提取位置信息的效果。

在上述实施例基础上,所述位置信息提取模块,具体还用于:

当所述user-agent内容为空;以及,所述预先设定的规则数据库中没有与所述应用信息对应的提取规则时,使用通用规则从所述原始数据中提取位置信息。

在上述实施例基础上,所述基于海量数据的位置信息提取装置,还包括:

用户查询请求响应模块,用于接收用户的查询请求,返回查询请求数据。

在上述实施例基础上,所述基于海量数据的位置信息提取装置,还包括:

管理模块,包括数据源管理单元、应用信息管理单元、提取规则管理单元;

其中,所述数据源管理单元,用于管理所述trs中的数据源,包括修改数据源,删除数据源,添加数据源,查询数据源;

所述应用信息管理单元,用于管理所述应用信息数据库,包括修改应用信息,删除应用信息,添加应用信息,查询应用信息;

所述提取规则管理单元,用于管理所述预先设定的规则数据库,包括修改提取规则,删除提取规则,添加提取规则,查询提取规则。

在上述实施例基础上,所述基于海量数据的位置信息提取装置,还包括:

过滤模块,用于过滤错误数据以及相同数据。

图7为本发明实施例提供的基于海量数据的位置信息提取装置的整体数据流示意图,如图7所示,web服务端提取trs中的原始数据,提取出位置信息并与公共字段合并成有效数据入库保存;web服务端接收web客户端的请求,对web客户端进行响应,包括对数据源管理,应用信息管理,提取规则管理。

上述装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1