移动大数据解析方法及装置与流程

文档序号:12271500阅读:608来源:国知局
移动大数据解析方法及装置与流程

本发明涉及移动上网数据数据分析领域,具体而言,涉及一种基于移动网络上网数据的移动大数据分析方法及装置。



背景技术:

上网服务运营商是运营商是天然的大数据公司,拥有海量的用户数据,比如上网行为数据、网上交易数据、位置数据、网管数据、信令数据、微博数据、即时通信数据、网页、传感器数据、音频数据、视频文件、图片、日志、实时监控视频等。且运营商的数据在可靠性、完整性、移动性、实时性方面有自己独特的优势。通过对运营商海量数据的挖掘、共享、分析已经成为运营商服务内部运营、服务政府、服务企业、服务百姓的重要资源和实现途径。

传统的上网数据分析方式中,仅能对用户上网数据信息中提取简单的信息,分析不全面,分析形势单一,不能准确地反映用户上网的行为,严重影响了后期数据的统计分析。



技术实现要素:

为了克服现有技术中的上述不足,本发明所要解决的技术问题是提供一种能更加准确分析用户上网数据中包含的上网行为的移动大数据解析方法及装置。

就方法而言,本发明提供的一种移动大数据解析方法,应用于对移动终端用户的上网行为进行大数据分析,所述方法包括:

采集用户的上网原始信令数据。

采用深度包检测技术对所述上网原始信令数据的进行解析,获得移动终端用户上网访问的URL地址。

对所述URL地址进行分类及深度分析,从所述URL地址获得关键字段。

根据所述关键字段进行网页内容分析,结合所述上网原始信令数据中的用户个人信息,获得用户的上网行为,其中,所述上网行为包括上网所用的终端、上网位置、上网所用应用软件、网页操作行为类型、浏览内容类型、联网网络类型或上网用户身份。

进一步地,在上述移动大数据解析方法中,所述根据所述关键字段进行网页内容分析的步骤包括:

根据所述关键字段的内容在预设的网页内容规则库中匹配相应的用户操作或网页内容,对所述网页内容规则库中包括所述用户操作或网页内容与所述关键字的对应关系。

根据所述用户操作或网页内容,结合所述上网原始信令数据中的用户个人信息,获得用户的上网行为。

进一步地,在上述移动大数据解析方法中,所述方法还包括:

建立所述网页内容规则库,其中,所述网页内容规则库存储有URL地址中关键字段与该URL地址对应网页中的所述用户操作或网页内容的匹配关系。

进一步地,在上述移动大数据解析方法中,所述建立所述网页内容规则库的步骤还包括:

对所述URL地址进行采样获得URL地址样本,通过网络爬虫爬取所述获得URL地址样本对应的网页信息,存储用户在该网页上执行的用户操作或网页内容,并建立所述URL地址中关键字段与所述用户操作或网页内容的对应关系,保存所述对应关系至所述网页内容规则库。

进一步地,在上述移动大数据解析方法中,所述建立所述网页内容规则库的步骤还包括:

对所述上网原始信令数据进行采样获得上网原始信令数据样本。

还原上网原始信令数据样本中的用户操作或网页内容,并获得所述上网原始信令数据样本中URL地址的关键字段。

将所述用户操作或网页内容与该关键字段的对应关系保存至所述网页内容规则库。

就装置而言,本发明还提供一种移动大数据解析装置,应用于对移动终端用户的上网行为进行大数据分析,所述装置包括:

原始信令数据采集模块,用于采集用户的上网原始信令数据。

深度包检测模块,用于采用深度包检测技术对所述上网原始信令数据的进行解析,获得移动终端用户上网访问的URL地址。

URL地址深度分析模块,用于对所述URL地址进行分类及深度分析,从所述URL地址获得关键字段。

上网行为分析模块,用于根据所述关键字段进行网页内容分析,结合所述上网原始信令数据中的用户个人信息,获得用户的上网行为,其中,所述上网行为包括上网所用的终端、上网位置、上网所用应用软件、网页操作行为类型、浏览内容类型、联网网络类型或上网用户身份。

进一步地,在上述移动大数据解析装置中,所述上网行为分析模块包括:

网页匹配子模块,用于关键字段根据所述关键字段的内容在预设的网页内容规则库中匹配相应的用户操作或网页内容,对所述网页内容规则库中包括所述用户操作或网页内容与所述关键字的对应关系。

内容分析子模块,用于根据所述用户操作或网页内容,结合所述上网原始信令数据中的用户个人信息,获得用户的上网行为。

进一步地,在上述移动大数据解析装置中,所述装置还包括:

网页内容规则库建立模块,用于建立所述网页内容规则库,其中,所述网页内容规则库存储有URL地址中关键字段与该URL地址对应网页中的所述用户操作或网页内容的匹配关系。

进一步地,在上述移动大数据解析装置中,所述网页内容规则库建立模块还用于:

对所述URL地址进行采样获得URL地址样本,通过网络爬虫爬取所述获得URL地址样本对应的网页信息,存储用户在该网页上执行的用户操作或网页内容,并建立所述URL地址中关键字段与所述用户操作或网页内容的对应关系,保存所述对应关系至所述网页内容规则库。

进一步地,在上述移动大数据解析装置中,所述网页内容规则库建立模还用于:

对所述上网原始信令数据进行采样获得上网原始信令数据样本。还原上网原始信令数据样本中的用户操作或网页内容,并获得所述上网原始信令数据样本中URL地址的关键字段。将所述用户操作或网页内容与该关键字段的对应关系保存至所述网页内容规则库。

相对于现有技术而言,本发明具有以下有益效果:

本发明提供的一种移动大数据解析方法及装置,深度包检测技术对所述上网原始信令数据的进行解析,获得移动终端用户上网访问的URL地址。并通过所述URL地址中的关键字在预设的所述网页内容规则库中匹配网页中的用户操作或网页内容,以此分析得到用户的上网行为。如此,可以更加全面准确的反映用户上网的行为,且计算量更小,为后期的数据统计分析提供支持。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的应用环境示意图;

图2为本发明实施例提供的数据解析设备的结构框图;

图3为本发明实施例提供的大数据解析方法流程示意图;

图4为本发明步骤S140的子流程示意图;

图5为本发明实施例提供的大数据解析装置结构框图。

图标:100-数据分析设备;110-移动大数据解析装置;120-存储器;130-处理器;111-原始信令数据采集模块;112-深度包检测模块;113-URL地址深度分析模块;114-上网行为分析模块;1141-网页匹配子模块;1142-内容分析子模块;115-网页内容规则库建立模块;200-用户终端;300-运营商服务器;400-网络。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中,需要说明的是术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

本实施例提供的一种移动大数据解析方法及装置应用于对移动终端用户的上网行为进行大数据分析的数据分析设备100上。请参照图1,图1为所述数据分析设备100通过网络400与用户终端200及运营商服务器300的交互示意图。

请参照图2,图1所示的数据分析设备100的结构框图。所述数据分析设备100包括移动大数据解析装置110、存储器120、处理器130。

所述存储器120、处理器130及各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述移动大数据解析装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述数据分析设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如所述移动大数据解析装置110所包括的软件功能模块及计算机程序等。

其中,所述存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。

请参考图3,图3位本实施例提供的应用于图2所述数据分析设备100的一种移动大数据解析方法,所述方法包括以下步骤。

步骤S110,采集用户的上网原始信令数据。

具体地,在本实施例中,所述上网原始信令数据包括用户使用的移动上网终端与移动上网服务运营商通信服务器之间交互的原始数据。

步骤S120,采用深度包检测技术对所述上网原始信令数据的进行解析,获得移动终端用户上网访问的URL地址。

具体地,在本实施例中,通过深度包检测(Deep Packet Inspection,DPI)技术对所述上网原始信令数据的进行解析。深度包检测技术是在传统的IP数据包检测技术,即在OSI第二层至第四层之间包含的数据包元素的检测分析的基础上,增加了对应用层数据的协议识别、数据包内容检测及深度解码。

步骤S130,对所述URL地址进行分类及深度分析,从所述URL地址获得关键字段。

URL地址中包含多个字段,其中一些字段包含该URL地址对应网页中的内容。如,用户在网页中执行搜索动作时,链接的URL地址中包含含义为“搜索”的搜索命令关键字段,及用户搜索内容的关键字段。所述数据分析设备100对用户链接的URL地址进行分类及深度分析,提取URL地址中的关键字段,及各关键字段的关联关系。

步骤S140,根据所述关键字段进行网页内容分析,结合所述上网原始信令数据中的用户个人信息,获得用户的上网行为,其中,所述上网行为包括上网所用的终端、上网位置、上网所用应用软件、网页操作行为类型、浏览网页的内容、联网网络类型或上网用户身份。

具体地,请参照图4,在本实施例中步骤S140可以包括以下子步骤。

子步骤S141,根据所述关键字段的内容在预设的网页内容规则库中匹配相应的用户操作或网页内容,对所述网页内容规则库中包括所述用户操作或网页内容与所述关键字的对应关系。

进一步地,在本实施中,所述方法还可以包括:建立所述网页内容规则库。

在本实施例的一种实施方式中,所述建立网页内容规则库的步骤包括:

对所述URL地址进行采样获得URL地址样本,通过网络爬虫爬取所述获得URL地址样本对应的网页信息,存储用户在该网页上执行的用户操作或网页内容,并建立所述URL地址中关键字段与所述用户操作或网页内容的对应关系,保存所述对应关系至所述网页内容规则库。

具体地,抽样选取步骤S120中获得的部分URL地址,获得所述URL地质样本。通过网络爬虫链接到所述URL地址样本对应的网站,自动提取网站中的内容,执行的过程中复制归档和保存网页上执行的用户操作或网页内容。获得的将该网页上的所述用户操作或网页内容与在步骤S130中获得的所述URL地址中的关键字段建立对应关系。如,URL地址中关键字段含义为“搜索”、“X商品的价格”,网络爬虫爬取到搜索网页返归的结果为“Y美元”,则所述数据分析设备100建立这些搜索关键字段搜索动作、X商品价格及Y美元的对应关系。

在本实施例的另一种实施方式中,搜索建立网页内容规则库的步骤包括:

对所述上网原始信令数据进行采样获得上网原始信令数据样本。

抽样选取步骤S110中获得的所述上网原始信令数据,获得所述上网原始信令数据样本。

还原上网原始信令数据样本中的用户操作或网页内容,并获得所述上网原始信令数据样本中URL地址的关键字段。

所述上网原始信令数据包括用户链接的网站内容,通过对所述上网原始信令数据的还原可以得到网页中的用户操作或网页内容。

将所述用户操作或网页内容与该关键字段的对应关系保存至所述网页内容规则库。

在子步骤S141中,所述数据分析设备100根据步骤S130中获得的所述关键字段,在所述网页内容规则匹配相应的所述用户操作或网页内容。

子步骤S142,根据所述用户操作或网页内容,结合所述上网原始信令数据中的用户个人信息,获得用户的上网行为。

所述上网原始信令数据中还包含用户上网所用的终端、上网位置、上网所用应用软件、联网网络类型或上网用户身份等信息,结合上述信息与在网页上的所述用户操作或网页内容,获得所述用户的上网行为。

请参考图5,图5为本实施例提供的一种移动大数据解析装置110,应用于对移动终端用户的上网行为进行大数据分析,所述装置包括:

原始信令数据采集模块111,用于采集用户的上网原始信令数据;

深度包检测模块112,用于采用深度包检测技术对所述上网原始信令数据的进行解析,获得移动终端用户上网访问的URL地址;

URL地址深度分析模块113,用于对所述URL地址进行分类及深度分析,从所述URL地址获得关键字段;

上网行为分析模块114,用于根据所述关键字段进行网页内容分析,获得用户的上网行为,其中,所述上网行为包括上网所用的终端、上网位置、上网所用应用软件、网页操作行为类型、浏览内容类型、联网网络类型或上网用户身份。

具体地,在本实施例中,所述上网行为分析模块114包括:

网页匹配子模块1141,用于关键字段根据所述关键字段的内容在预设的网页内容规则库中匹配相应的用户操作或网页内容,对所述网页内容规则库中包括所述用户操作或网页内容与所述关键字的对应关系;

内容分析子模块1142,用于根据所述用户操作或网页内容获得用户的上网行为。

具体地,在本实施例中,所述装置还包括:

网页内容规则库建立模块115,用于建立所述网页内容规则库,其中,所述网页内容规则库存储有URL地址中关键字段与该URL地址对应网页中的所述用户操作或网页内容的匹配关系。

具体地,在本实施例中,所述网页内容规则库建立模块115还用于:

对所述URL地址进行采样获得URL地址样本,通过网络爬虫爬取所述获得URL地址样本对应的网页信息,存储用户在该网页上执行的用户操作或网页内容,并建立所述URL地址中关键字段与所述用户操作或网页内容的对应关系,保存所述对应关系至所述网页内容规则库。

具体地,在本实施例中,所述网页内容规则库建立模还用于:

对所述上网原始信令数据进行采样获得上网原始信令数据样本;还原上网原始信令数据样本中的用户操作或网页内容,并获得所述上网原始信令数据样本中URL地址的关键字段;将所述用户操作或网页内容与该关键字段的对应关系保存至所述网页内容规则库。

综上所述,本发明提供的一种移动大数据解析方法及装置,深度包检测技术对所述上网原始信令数据的进行解析,获得移动终端用户上网访问的URL地址。并通过所述URL地址中的关键字在预设的所述网页内容规则库中匹配网页中的用户操作或网页内容,以此分析得到用户的上网行为。如此,可以更加全面准确的反映用户上网的行为,且计算量更小,为后期的数据统计分析提供支持。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1