一种大数据系统的制作方法

文档序号:8487775阅读:240来源:国知局
一种大数据系统的制作方法
【技术领域】
[0001]本发明涉及一种计算机领域,特别涉及一种大数据系统。
【背景技术】
[0002]大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯,当前,还没有一种比较完善的大数据系统架构。

【发明内容】

[0003]针对上述技术问题,本发明提供了一种大数据系统,解决了上述技术问题。
[0004]一方面,本发明提供了一种大数据系统,包括:1个以上数据库,数据抽取装置和数据仓库,其中,数据库存储用户的业务数据,数据仓库通过数据抽取装置与所述I个以上数据库相连接,数据抽取装置将I个以上数据库的数据内容,进行抽取,获得符合数据仓库格式的数据,并将抽取整理后的数据发送到数据仓库中,数据仓库将抽取整理后的数据分析和挖掘,获得有价值的数据。
[0005]本发明的有益效果:本发明提供了一种完善的大数据系统。
【附图说明】
[0006]图1是本发明的一种大数据系统结构示意图。
[0007]图中,I,数据库,2,数据抽取装置,3,数据仓库。
【具体实施方式】
[0008]下面结合附图和实施例对本发明作进一步说明,应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
[0009]下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0010]如图1所示,本发明提供了一种大数据系统,包括:数据库1,数据抽取装置2和数据仓库3。
[0011]其中,数据库I存储用户的业务数据,不同的业务可以存放到不同的数据库上,也就是说,数据库I可以有多个,数据仓库3通过数据抽取装置2与多个数据库I相连接,数据抽取装置2将多个数据库I的数据内容,进行抽取,获得符合数据仓库3的数据,并将抽取整理后的数据发送到数据仓库3中,数据仓库3根据分析和挖掘算法,将抽取整理后的数据分析和挖掘,获得有价值的数据。
[0012]下面以具体的例子来介绍该过程。
[0013]数据库I可以包括多个数据库,如债务人数据源,收录所有债务人企业的基本信息、财务信息、供应商信息及其它相关信息,为分析债务人的信用情况提供数据支持。债权人数据源,收录所有债务人企业的基本信息、财务信息及其它相关信息,为分析债权人的信用情况提供数据支持。资金提供方数据源,收录所有资金提供方的基本信息、机构设置情况及其他信息,为分析应收账款债权凭证的信用情况提供数据支持,为预警应收账款债权凭证的流动性风险提供支持。应收账款数据源,收录所有应收账款的基本信息(日期、金额、债权人、债务人)、融资情况(融资比率、综合费率、抵押担保情况)及放款、还款等情况,为预警应收账款债权凭证的信用风险提供支持。放款信息数据库,收录所有应收账款凭证的放款情况,为监管、保证应收账款债权凭证的流动性提供支持。还款信息数据库,收录所有应收账款凭证的还款信息,为监管应收账款债权凭证的信用质量提供支持。供应商名录数据源,收录所有供应商情况,为分析某一供应商的综合违约风险提供数据支持。内部用户数据源,收录所有内部用户情况,为综合分析内部员工的操作性风险提供数据支持。合作银行数据源,收录所有合作银行情况,为银监会监管银行提供数据支持。非银行金融机构数据源,收录所有担保机构情况,为地方金融办监管地方金融机构提供数据支持。保险公司数据源,收录所有保险公司情况,为保监会监管保险公司提供数据支持。交易明细信息数据库,收录所有交易的明细信息,为具体分析交易风险提供数据支持。外部用户数据源,收录所有外部用户操作日志,为分析异常操作、操作风险提供支持。违约情况数据源,收录所有违约应收账款的信息,为分析应收账款债权流转业务的总体风险提供支持。
[0014]数据抽取装置2执行了如下过程:数据抽取:从数据源中抽取数据的过程,第一次抽取对数据库中所有数据进行抽取,之后可只抽取数据库中新增、修改、删除的数据,通过准确地捕获业务系统中的变化数据,减少对业务系统造成的压力,并实现业务的实时监控。转换:将数据按统一格式进行转换,保证数据库构架的合理,及数据存诸形式的统一。清洗:数据清洗指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。装载:数据装载是指将转换好的数据保存到数据仓库中去。一般情况下,数据装载应该在系统完成了更新之后进行。如果是第一次对整个数据仓库进行装载,将在装载工作完成以后建立索引,以减少创建索引时间;对已运行的数据仓库中装载源系统中已变化的数据,采用建设性合并的装载方式(输入的记录主键与已有的记录的主键相匹配,保留已有的记录,增加输入的记录,并标记为旧记录的替代),也可以采用破坏性合并装载方式(如果输入数据记录的主键与一条已经存在的记录的主键相匹配,用新输入数据更新目标记录数据;如果输入记录是一条新的记录,就将这条输入的记录添加到目标表中)。
[0015]数据仓库3进行如下操作:形成分析立方体。具
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1