应用于实时大数据场景下的数据库系统的制作方法

文档序号:8512571阅读:314来源:国知局
应用于实时大数据场景下的数据库系统的制作方法
【技术领域】
[0001]本发明涉及一种数据库系统,具体涉及一种应用于实时大数据场景下的数据库系统(简称大数据系统),属于计算机数据计算领域。
【背景技术】
[0002]大数据(big data, mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume (大量)、Velocity (高速)、Variety (多样)、Value (价值)。
[0003]大数据广泛应用于信息搜索、广告投放、金融等领域,每种不同应用类型的大数据系统都有不同的特性,应用的响应速度、数据量、数据类型和访问模式决定了大数据系统的架构方式。
[0004]大数据系统的响应速度直接决定了大数据的存储架构,搜索引擎的响应速度是200ms,而广告系统往往是50ms,这就决定这两者对架构的要求完全不同。大数据应用往往数据量很大,通常达到TB甚至PB级别,很多数据存储方式在如此大的数据规模上会变的相当低效甚至无效。
[0005]大数据处理的数据类型多种多样,但无论是非结构性文档还是结构性数据都要经过处理,以结构化的数据结构提供服务,这个过程的时效性需求也决定了大数据架构的不同。
[0006]大数据的访问模式也是决定大数据存储方法的重要因素,对于数据的读写比例、随机或顺序对系统的要求都是完全不同的。
[0007]Hadoop等传统大数据处理设施在应对大规模数据量上做了很多优化,但对于广告等实时访问要求很强的应用则完全无法试用,这在业界是一个普遍的难题。

【发明内容】

[0008]为解决现有技术的不足,本发明的目的在于提供一种应用于实时大数据场景下、能够高速的访问实时数据、有效应对超大规模的数据存储和容灾能力的数据库系统。
[0009]为了实现上述目标,本发明采用如下的技术方案:
[0010]一种应用于实时大数据场景下的数据库系统,其特征在于,包括:数据抓取模块、特征数据库模块、实时数据库模块和广告投放模块,
[0011]前述数据抓取模块用于限定抓取数据源的范围,自动抓取网页数据,并进行内容抽取、排重、上下文分析的工作;
[0012]前述特征数据库模块用于保存Cookie数据、广告位数据和链接数据;
[0013]前述实时数据库模块用于对特征数据库模块中的数据进行索引和分片存储;
[0014]前述广告投放模块用于从实时数据库模块中获得广告特征数据,与特征数据库模块中的数据进行匹配,最终决定是否投放广告给特定用户以及投放哪一条广告给用户。
[0015]前述的应用于实时大数据场景下的数据库系统,其特征在于,前述特征数据库模块包括=Cookie数据库子模块、广告位数据库子模块和链接数据库子模块,
[0016]前述Cookie数据库子模块用于存储识别互联网用户或者某一类浏览行为一致的用户的唯一标识,能够快速识别出一个互联网访问对应的用户属性;
[0017]前述广告位数据库子模块用于保存所有待投放的广告库存数据,前述广告库存数据包括:广告所属行业、分类、物料属性、价格;
[0018]前述链接数据库子模块用于保存各个用于展示广告位的网页的特征数据,以链接作为网页的唯一标识。
[0019]前述的应用于实时大数据场景下的数据库系统,其特征在于,前述数据抓取模块通过爬虫自动收集和解析指定的网站数据信息,确定特定链接的内容特征和上下文关系,并将清洗计算后的网页的特征数据反馈给特征数据库模块中的链接数据库子模块,将网页信息进行结构化存储。
[0020]前述的应用于实时大数据场景下的数据库系统,其特征在于,前述实时数据库模块包括:广告位实时数据库子模块、IP实时数据库子模块、Cookie实时数据库子模块、链接实时数据库子模块和状态数据库子模块,
[0021]前述广告位实时数据库子模块用于保存广告文案规范、图片规范、广告指向链接、商品所属类目,并支持实时查询;
[0022]前述IP实时数据库子模块用于配合Cookie实时数据库子模块对访问用户进行识另U,判断该用户的价值和投放内容;
[0023]前述Cookie实时数据库子模块用于保存Cookie和特征的对应关系、第三方Cookie和平台Cookie的对应关系,配合IP实时数据库子模块对访问用户进行识别,同时判断该用户的价值和投放内容;
[0024]前述链接实时数据库子模块用于保存便于快速查询的链接与内容特征的映射关系;
[0025]前述状态数据库子模块用于跟踪纪录实时状态数据,前述实时状态数据包括:广告竞价结果、投放结果、点击结果。
[0026]前述的应用于实时大数据场景下的数据库系统,其特征在于,前述广告投放模块包括:投放频率数据库子模块、用户频率数据库子模块、广告索引数据库子模块和广告数据库子模块,
[0027]前述投放频率数据库子模块用于存放各广告库存时间和空间维度的投放频次限制;
[0028]前述用户频率数据库子模块用于存放每个用户被展示广告的时间频次和空间频次;
[0029]前述广告索引数据库子模块用于存放所有广告库存数据,并建立倒排索引便于全文检索和分类检索;
[0030]前述广告数据库子模块用于保存广告数据的详细信息,是广告库存的最权威数据。
[0031]前述的应用于实时大数据场景下的数据库系统,其特征在于,数据库内的数据的类型为结构化标签。
[0032]前述的应用于实时大数据场景下的数据库系统,其特征在于,数据库的访问模式为:随机/批量写,随机读。
[0033]本发明的有益之处在于:
[0034](I)由于采用了内存一 SSD —硬盘三级存储结构,有效的降低了整个系统的硬件成本,同时采用Aerospike管理SSD,提供分布式可扩展的Nosql数据管理,兼顾成本的同时有效的提高了存储的速度,同时由于采用了 Spark进行分布式计算管理,较Hadoop等传统MapReduce架构效率提高10倍以上,所以本发明的数据库系统提供了高速的实时数据访问能力;
[0035](2)由于采用内存一 SSD—硬盘三级存储结构,使数据存在多级备份,同时使用Paxos算法进行数据更新决策保证数据操作的原子性、一致性、隔离性、持久性,所以本发明的数据库系统能够有效应对超大规模的数据存储和容灾能力。
【附图说明】
[0036]图1是本发明的数据库系统的架构图。
【具体实施方式】
[0037]为了便于理解本发明的系统的各个方面,以下结合附图和具体实施例对本发明的系统作具体的介绍。
[0038]首先,本发明的系统在投入使用前需要进行基础数据的准备。数据抓取模块设立一个约束范畴,即限定抓取数据源的范围,之后通过爬虫自动收集和解析指定的网站数据信息,并进行
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1