一种基于互联网金融大数据处理方法与流程

文档序号:18030467发布日期:2019-06-28 22:36阅读:942来源:国知局

本发明涉及互联网技术领域,尤其涉及一种基于互联网金融大数据处理方法。



背景技术:

在互联网新兴技术普及应用的过程中,越来越多的用户数据产生、散布在互联网的各个角落,产生了大体量(volume)、多样化(variety)、高速度(velocity)和低价值(value)等大数据概念(bigdata),并渗透到每一个行业和业务职能领域,为下一步商业和金融服务创新浪潮奠定了数据基础。传统的数据挖掘、分析处理方法和工具,在非结构化、高速化的大数据处理要求面前显得过于乏力,需要创新开发适应新型大数据处理需求的数据挖掘和数据处理方法。互联网网页数据是大数据领域的一个重要组成部分,是互联网公司和金融机构获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径,为互联网和金融服务创新提供了丰富的数据基础,因此,对互联网网页的大数据处理流程和技术进行探索具有重要意义。互联网网页数据具有分布广、格式多样、非结构化等大数据的典型特点,需要有针对性地对互联网网页数据进行采集、转换、加工和存储,尤其在网页数据的采集和处理方面,存在亟须突破的若干关键技术,因此需要一种基于互联网金融大数据处理方法对上述问题做出改善。



技术实现要素:

本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于互联网金融大数据处理方法。

为了实现上述目的,本发明采用了如下技术方案:

一种基于互联网金融大数据处理方法,包括以下步骤:

s1:分三大步骤:大数据的采集、大数据的处理、大数据的存储,整体系统包含有以下几个模块:1、从internet上抓取网页内容,并抽取出需要的属性内容的web爬虫模块;2、对爬虫抓取的内容进行处理的数据处理模块;3、为爬虫提供需要抓取数据网站的url的爬虫url队列模块;4、包含需要抓取数据网站的url信息、爬虫从网页中抽取来的数据以及经过数据处理之后的数据的数据模块;

s2:大数据的采集包括以下几个步骤:1、web爬虫模块将需要抓取数据的金融网站的url信息写入爬虫url队列模块;2、从爬虫url队列模块获取该金融网站的网页内容;3、从网页内容中抽取出该金融网站正文页内容的链接地址;4、web爬虫模块从internet抓取与该金融网站网址对应的网页内容,并抽取出网页特定属性的内容值;5、对url信息进行过滤,将当前的url信息和已经抓取过的url信息进行比较;6、如果该网页地址没有被抓取过,则将该地址写入数据模块,如果该地址已经被抓取过,则放弃对这个地址的抓取操作;7、获取该地址的网页内容,并抽取出所需属性的内容值;8、web爬虫模块将从网页中抽取出的数据写入数据模块;

s3,大数据的处理包括以下几个步骤:1、对抓取来的网页内容进行分词;2、将分词处理的结果写入数据模块;3、对抓取来的网页内容进行排除重复项处理:输入为一个n维向量v,比如文本的特征向量,每个特征具有一定权重,输出是一个c位的二进制签名s,①初始化一个c维向量q为0,c位的二进制签名s为0;②对向量v中的每一个特征,使用传统的hash算法计算出一个c位的散列值h,对1<=i<=c,如果h的第i位为1,则q的第i个元素加上该特征的权重,否则,q的第i个元素减去该特征的权重;③如果q的第i个元素大于0,则s的第i位为1,否则为0;④返回签名s;⑤每篇文档算出签名后,再计算两个签名的海明距离(两个二进制异或后1的个数)即可;4、将排除重复项处理后的数据写入数据模块;5、根据之前的处理结果,对数据进行整合;6、将整合后的结果写入数据模块,即可得到该金融网站的互联网大数据。

优选的,所述s1,web爬虫模块包含有四个模块:网站页面、链接抽取、链接过滤、内容抽取。

优选的,所述s2,对url信息进行过滤的步骤为:已经抓取过的每个url,经过k个hash函数的计算,得出k个值,再和一个巨大bit数组的这k个位置的元素对应起来(这些位置数组元素的值被设置为1)。在需要判断某个url是否被抓取过时,先用k个hash函数对该url计算出k个值,然后查询巨大的bit数组内这k个位置上的值,如果全为1,则是已经被抓取过,否则没有被抓取过。

优选的,所述s2,海明距离在3以内的可以认为相似度比较高。

与现有技术相比,本发明的有益效果是:

1、本发明中对数据采集链接过滤的方法复杂度较低、散列函数相互之间没有关联关系,方便由硬件并行实现,不需要存储元素本身,在某些对保密要求非常严格的场合有优势。

2、本发明中排除重复项处理的方法可以容纳更大的数据量,提供更快的进行数据处理,实现大数据的快速处理。

3、本发明中对数据处理过程中的整合步骤使得匹配效率得到了很大的提升,同时准确度也得到了保障。

具体实施方式

下面将结合本发明中的具体实施案例,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于互联网金融大数据处理方法,包括以下步骤:

s1:分三大步骤:大数据的采集、大数据的处理、大数据的存储,整体系统包含有以下几个模块:1、从internet上抓取网页内容,并抽取出需要的属性内容的web爬虫模块;2、对爬虫抓取的内容进行处理的数据处理模块;3、为爬虫提供需要抓取数据网站的url的爬虫url队列模块;4、包含需要抓取数据网站的url信息、爬虫从网页中抽取来的数据以及经过数据处理之后的数据的数据模块;

s2:大数据的采集包括以下几个步骤:1、web爬虫模块将需要抓取数据的金融网站的url信息写入爬虫url队列模块;2、从爬虫url队列模块获取该金融网站的网页内容;3、从网页内容中抽取出该金融网站正文页内容的链接地址;4、web爬虫模块从internet抓取与该金融网站网址对应的网页内容,并抽取出网页特定属性的内容值;5、对url信息进行过滤,将当前的url信息和已经抓取过的url信息进行比较;6、如果该网页地址没有被抓取过,则将该地址写入数据模块,如果该地址已经被抓取过,则放弃对这个地址的抓取操作;7、获取该地址的网页内容,并抽取出所需属性的内容值;8、web爬虫模块将从网页中抽取出的数据写入数据模块;

s3,大数据的处理包括以下几个步骤:1、对抓取来的网页内容进行分词;2、将分词处理的结果写入数据模块;3、对抓取来的网页内容进行排除重复项处理:输入为一个n维向量v,比如文本的特征向量,每个特征具有一定权重,输出是一个c位的二进制签名s,①初始化一个c维向量q为0,c位的二进制签名s为0;②对向量v中的每一个特征,使用传统的hash算法计算出一个c位的散列值h,对1<=i<=c,如果h的第i位为1,则q的第i个元素加上该特征的权重,否则,q的第i个元素减去该特征的权重;③如果q的第i个元素大于0,则s的第i位为1,否则为0;④返回签名s;⑤每篇文档算出签名后,再计算两个签名的海明距离(两个二进制异或后1的个数)即可;4、将排除重复项处理后的数据写入数据模块;5、根据之前的处理结果,对数据进行整合;6、将整合后的结果写入数据模块,即可得到该金融网站的互联网大数据。

所述s1,web爬虫模块包含有四个模块:网站页面、链接抽取、链接过滤、内容抽取。

所述s2,对url信息进行过滤的步骤为:已经抓取过的每个url,经过k个hash函数的计算,得出k个值,再和一个巨大bit数组的这k个位置的元素对应起来(这些位置数组元素的值被设置为1),在需要判断某个url是否被抓取过时,先用k个hash函数对该url计算出k个值,然后查询巨大的bit数组内这k个位置上的值,如果全为1,则是已经被抓取过,否则没有被抓取过。

所述s2,海明距离在3以内的可以认为相似度比较高。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1