基于债券交易的数据采集系统及其数据采集方法与流程

文档序号:11408813阅读:305来源:国知局
基于债券交易的数据采集系统及其数据采集方法与流程

本发明涉及数据采集领域,特别是一种基于债券交易的数据采集系统及其数据采集方法。



背景技术:

债券交易系统首先要完成交易全流程的处理,包括报价处理、报价展示、点击请求处理、交易检查等功能,同时提供债券持仓、可用资金、市场行情等交易信息服务。还要对市场的交易过程进行全程记录,为交易管理人员提供查询、监测、应急等市场管控功能,保障交易系统的平稳运转。随着债券交易面临例如百万级的并发用户访问、每秒数以千计的并发事务处理等巨大规模的数据冲击,因此有必要优化数据采集,有效应对当前业务系统中数据量大,数据变化快等技术问题,解决数据采集重复、质量不高的问题,提高数据采集的可靠性和拓展性。

专利文献1公开的一种数据采集与结算分离处理的方法,应用于包含第一管理子系统、第二管理子系统和用户终端的系统,其包括:

a、获取用户终端的历史结算数据;

b、采集用户终端的当前数据;

c、利用所述历史结算数据与用户终端的当前数据进行合并计算,根据所述计算结果接收用户终端的结算请求,根据所述结算请求获得新的历史结算数据;

d、将所述新的历史结算数据同步到所述第一、第二管理子系统。该专利能够实现数据处理过程中的即时数据采集、结算以及系统数据的同步,就可以充分利用网络资源完成系统需求数据处理操作,提高网络资源的利用效率和基于网络的数据处理效率。但该专利无法适用于债券交易处理,不具备在完成交易全流程的处理,包括报价处理、报价展示、点击请求处理、交易检查、提供债券持仓、可用资金、市场行情等基础上,对市场的交易过程进行全程记录,保障交易系统的平稳运转,更无法避免系统中数据量大,数据变化快导致无法在保持债券交易处理的顺畅运行下提高数据采集效率、数据采集质量和数据采集的可靠性,从而提高系统整体运行的可靠性,也无法避免数据采集重复等问题。

专利文献2公开的一种数据采集装置置包括:下载单元,用于获取基础数据和/或业务数据;更新单元,用于更新所述下载单元获取的数据;上传单元,用于上传所述更新单元更新后的数据至中心服务器。该专利避免了重复采集,实现了采集端的数据共享。但该专利无法适用于债券交易处理,不具备在完成交易全流程的处理,包括报价处理、报价展示、点击请求处理、交易检查、提供债券持仓、可用资金、市场行情等基础上,对市场的交易过程进行全程记录,保障交易系统的平稳运转,更无法避免系统中数据量大,数据变化快导致无法在保持债券交易处理的顺畅运行下提高数据采集效率、数据采集质量和数据采集的可靠性,从而提高系统整体运行的可靠性,也无法避免在债券交易的大数据量和高频变化下的数据采集重复问题。

专利文献3公开的一种数据采集的方法包括:获取待关联的各个业务系统的数据结构表;将所述数据结构表中同义字段建立同步映射关系;根据已经录入完毕的字段内容和所述字段的同步映射关系,更新各业务系统中存储的字段内容。该专利实现数据的单次采集、多业务平台共享,提高数据录入效率。但该专利无法适用于债券交易处理,不具备在完成交易全流程的处理,包括报价处理、报价展示、点击请求处理、交易检查、提供债券持仓、可用资金、市场行情等基础上,对市场的交易过程进行全程记录,保障交易系统的平稳运转,更无法避免系统中数据量大,数据变化快导致无法在保持债券交易处理的顺畅运行下提高数据采集效率、数据采集质量和数据采集的可靠性,从而提高系统整体运行的可靠性,也无法避免在债券交易的大数据量和高频变化下的数据采集重复问题。

现有技术文献

专利文献

专利文献1:中国专利公开cn1741059a号

专利文献2:中国专利公开cn101038597a号

专利文献3:中国专利公开cn104657430a号



技术实现要素:

发明要解决的问题

本发明鉴于如上所述适用于债券交易处理,具备在完成交易全流程的处理,包括报价处理、报价展示、点击请求处理、交易检查、提供债券持仓、可用资金、市场行情等基础上,对市场的交易过程进行全程记录,保障交易系统的平稳运转,在系统中数据量大,数据变化快的情况下,保持债券交易处理的顺畅运行提高数据采集效率、数据采集质量和数据采集的可靠性,从而提高系统整体运行的可靠性,且在债券交易的大数据量和高频变化下避免数据采集重复问题。

解决问题的方案

本发明人等为了达成上述目的而进行了深入研究,具体而言,本发明提供一种基于债券交易的数据采集系统及其数据采集方法,根据本发明的一方面,一种基于债券交易的数据采集系统包括客户端、服务端、管理端和数据采集服务器。

客户端包括用于提供报价信息的报价信息模块、用于查询行情信息的行情查询模块、用于点击成交的点击成交处理模块、用于查询余额和成交意向的交易查询模块和用于客户登录注销和修改密码的登录模块。

服务端包括用于报价信息接收、排序、合并和推送的报价处理模块、用于报价间隔监测、生成临时承诺指令以及生成和发送承诺指令的交易处理模块、用于接收成交信息、处理成交结果和生成行情数据的成交处理模块、用于薄记管理的薄记模块、用于行情计算的行情模块、提供对时服务的对时模块、用于处理开盘信号和债券信息的日间处理模块和用于同步投资人债券余额、资金余额和发送投资人增量信息的日终处理模块。

管理端包括用于提供信息的信息查询模块、用于监控报价信息、承诺指令和/或交易申请的交易监测模块、用于维护债券信息和报价商信息的信息维护模块、用于日终监测投资人信息、债券余额信息和资金余额信息的日终监测模块、用于处理投资人信息导入、应急交易意向申请录入和应急成交结果录入的应急信息维护模块和用于设定系统参数的系统维护模块。

数据采集服务器包括数据提取模块、数据处理模块、分布式数据存储管理模块和查询模块,其中,数据提取模块包括用于实时采集客户端、服务端和管理端生成的数据的前置机和etl转换模块,所述数据处理模块包括利用参数特征进行关联的数据关联模块、基于时序分类的分类模块和对数据进行去重的聚类模块,分布式数据存储管理模块包括存储时间序列数据的时序数据存储器和存储非时间序列数据的数据存储器,分布式数据存储管理模块将时序数据存储在时间序列数据存储器以及将非时序数据存储在数据存储器,所述查询模块基于查询命令在所述分布式数据存储管理模块中进行查询。

本发明的所述的基于债券交易的数据采集系统中,所述参数特征包括数据产生的时间、数据产生的模块、数据产生的ip地址、数据格式和/或数据类型,其中,数据产生的模块包括行情查询模块、点击成交处理模块、交易查询模块、报价处理模块和交易处理模块中的一个或多个。

本发明的所述的基于债券交易的数据采集系统中,所述前置机包括交易报文格式处理模块,所述交易报文包括通知类型和请求/响应类型,所述etl转换模块包括数据抽取单元、数据清洗单元、空值处理单元、数据格式处理单元、数据拆分单元和数据替换单元。

本发明的所述的基于债券交易的数据采集系统中,所述etl转换模块为datastageetl,所述聚类模块为kmeans聚类器。

本发明的所述的基于债券交易的数据采集系统中,所述数据关联模块基于参数特征利用apriori算法进行关联。

本发明的所述的基于债券交易的数据采集系统中,所述数据分类模块基于时间序列将所述数据分为时序数据和非时序数据。

根据本发明的另一方面,一种利用所述的基于债券交易的数据采集系统的数据采集方法的步骤包括:

第一步骤中:前置机实时采集客户端、服务端和管理端生成的数据。

第二步骤中:etl转换模块对所述数据抽取、清洗和转换。

第三步骤中:数据关联模块利用参数特征关联所述数据。

第四步骤中:分类模块基于参数特征将所述数据分成时序数据和非时序数据。

第五步骤中:聚类模块对数据进行去重。

第六步骤中:分布式数据存储管理模块将时序数据存储在时间序列数据存储器以及将非时序数据存储在数据存储器。

第七步骤中:查询模块基于查询命令在所述分布式数据存储管理模块中进行查询。

本发明的数据采集方法中,第三步骤中:数据关联模块利用多值属性maqa算法基于参数特征关联所述数据。

本发明的数据采集方法中,第四步骤中:分类模块采用garch算法基于参数特征对将所述数据分类时序数据和非时序数据。

本发明的数据采集方法中,第五步骤中:聚类模块采用clara算法对数据进行去重。

发明的效果

本发明的基于债券交易的数据采集系统中,客户端、服务端和管理端完成交易全流程的处理,包括报价处理、报价展示、点击请求处理、交易检查等功能,同时提供债券持仓、可用资金、市场行情等交易信息服务,本发明的基于债券交易的数据采集系统非常适用于债券交易,对市场的交易过程进行全程记录,保障交易系统的平稳运转,在系统中数据量大,数据变化快的情况下,保持债券交易处理的顺畅运行提高数据采集效率、数据采集质量和数据采集的可靠性,从而提高系统整体运行的可靠性,且在债券交易的大数据量和高频变化下避免数据采集重复问题。

上述说明仅是本发明技术方案的概述,为了能够使得本发明的技术手段更加清楚明白,达到本领域技术人员可依照说明书的内容予以实施的程度,并且为了能够让本发明的上述和其它目的、特征和优点能够更明显易懂,下面以本发明的具体实施方式进行举例说明。

附图说明

[图1]示出了本发明的基于债券交易的数据采集系统的结构示意图。

[图2]示出了本发明的利用基于债券交易的数据采集系统的数据采集方法的步骤示意图。

符号说明

1客户端

2服务端

3管理端

4报价信息模块

5行情查询模块

6点击成交处理模块

7交易查询模块

8登录模块

9报价处理模块

10交易处理模块

11成交处理模块

12薄记模块

13行情模块

14对时模块

15日间处理模块

16日终处理模块

17信息查询模块

18交易监测模块

19信息维护模块

20日终监测模块

21应急信息维护模块

22系统维护模块

23数据采集服务器

24数据提取模块

25数据处理模块

26分布式数据存储管理模块

27查询模块

28前置机

29数据关联模块

30分类模块

31聚类模块

32时序数据存储器

33数据存储器

34etl转换模块

具体实施方式

下面将参照附图更详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

需要说明的是,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解,技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明书的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如java、smalltalk、c++,还包括常规的过程式程序设计语言-诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(lan)或广域网(wan)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品(manufacture)。

也可以把计算机程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个附图并不构成对本发明实施例的限定。

如图1所示的基于债券交易的数据采集系统的结构示意图,具体而言,所述数据采集系统包括客户端1、服务端2、管理端3和日志管理服务器23。

客户端1包括用于提供报价信息的报价信息模块4、用于查询行情信息的行情查询模块5、用于点击成交的点击成交处理模块6、用于查询余额和成交意向的交易查询模块7和用于客户登录注销和修改密码的登录模块8。

进一步地,投资人登录所述登录模块8还可以查看交易员基本信息,报价信息模块4还可以进一步查看报价的详细信息,行情查询模块5还可以对债券信息进行查询,交易查询模块7还可以设置打印成交单的功能。更进一步地,客户端1根据交易需要可以进一步扩展相应的模块以满足交易需要,例如,用于借贷资金的融资模块。

服务端2,包括用于报价信息接收、排序、合并和推送的报价处理模块9、用于报价间隔监测、生成临时承诺指令以及生成和发送承诺指令的交易处理模块10、用于接收成交信息、处理成交结果和生成行情数据的成交处理模块11、用于薄记管理的薄记模块12、用于行情计算的行情模块13、提供对时服务的对时模块14、用于处理开盘信号和债券信息的日间处理模块15和用于同步投资人债券余额、资金余额和发送投资人增量信息的日终处理模块16。

在一个实施例中,报价处理模块9接收来自外汇交易中心的报价商报价信息,按照买卖方向不同拆分到两个队列以接收报价信息,还可以按照价格优先、时间优先的原则进行报价分类排序,对同一债券同一价格的报价量进行合并,并隐藏报价商以及报价时间信息以及实时推送匿名合并的报价信息到客户端和管理端。在一个实施例中,交易处理模块10可接收来自投资人点击成交后拆分配对的成交意向消息,针对接收到的投资人成交意向消息,对报价商与投资人授信检查,足额足券检查和生成临时承诺指令以进行可用额度的检查,确保成交意向消息的额度符合足额或足券的要求。交易处理模块10还可以针对检查满足的成交意向消息,生成对应的承诺指令;同时生成投资人债券台帐或投资人资金台帐,发送承诺指令到外汇交易中心。在一个实施例中,成交处理模块11接收来自外汇交易中心的成交信息,检查成交信息标识:成功或失败,失败有相关原因说明。标记对应的承诺指令成交成功或失败,失败时进行可用额度调整,生成投资人债券台帐或投资人资金台帐,成交处理模块11根据成交信息生成对应的行情基础信息。在一个实施例中,对时模块12具有系统层面的网络对时作用,确保客户端、服务端等所有模块时钟一致,进一步地,该时钟与外接的外汇交易中心一致。

在一个实施例中,日间处理模块15接收来自外汇交易中心的开盘信号。接收后系统作标记,表明开盘信号已经接收到,等待场务人员启动开盘准备信号,日间处理模块15接收来自如上海清算所的实时逐笔债券基本信息。

在一个实施例中,日终处理模块16例如接收来自上海清算所的投资人债券余额信息。日终处理模块16接收后系统作标记,表明当天投资人债券余额已经接收到,接收来自上海清算所的投资人资金余额信息,接收后系统作标记,表明当天投资人资金余额已经接收到。日终处理模块16发送增量的投资人基本信息给外汇交易中心,发送后,系统作标记,表明当天投资人基本信息已经发送。

管理端3包括用于提供信息的信息查询模块17、用于监控报价信息、承诺指令和/或交易申请的交易监测模块18、用于维护债券信息和报价商信息的信息维护模块19、用于日终监测投资人信息、债券余额信息和资金余额信息的日终监测模块20、用于处理投资人信息导入、应急交易意向申请录入和应急成交结果录入的应急信息维护模块21和用于设定系统参数的系统维护模块22。

在一个实施例中,信息查询模块17的基本查询条件包括要约指令、产品类别、产品名称含代码、报价商、交易方向、时间,信息查询模块17展示所有报价信息,默认按时间排序。信息查询模块17通过意向编号、点击成交申请编号、产品类别、产品名称含代码、投资人、报价商、时间、检查状态通过、未通过查询检查前额度、检查后额度、扣减额度等变化情况;信息查询模块17通过承诺指令、要约指令、申请编号、产品类别、产品名称含代码、投资人、报价商、时间、状态已成交、未成交、未反馈查询成交信息,信息查询模块17通过投资人、交易意向编号、时间查询展示投资人从点击成交开始生成的点击成交申请、交易前检查、承诺指令、成交反馈、结算失败相关状态及份额变化情况,进一步地可查询当日及历史情况;信息查询模块17可查询投资人的债券余额、投资人的资金余额和投资人信息。

在一个实施例中,交易监测模块18显示接收到交易中心最近报价信息的时间,其目的作为业务岗位判断报价信息接收异常情况的依据,以及显示所有超过1分钟未收到成交反馈信息的承诺指令记录,并预留备注项,以便业务岗位注明处理情况。信息维护模块19可增、改、查询债券信息和报价商信息。

在一个实施例中,日终监测模块20可以查询到当日投资人增量信息是否已经发送。如有异常,应显示异常信息与原因,这可作为警告日志信息。日终监测模块20可以查询日终处理是否已完成。如果有异常,应提示原因且可作为警告信息。

在一个实施例中,客户端1、服务端2和/或管理端3可以是手机、pad、计算机或服务器。

在一个实施例中,客户端1、服务端2和管理端3的各个模块完成交易全流程的处理,产生包括但不仅限于报价数据、点击请求数据、交易数据、持仓数据、市场行情数据等;客户端1、服务端2和管理端3的各个模块还对交易全流程进行全程记录,产生包括但不仅限于查询数据、监测数据、管理数据以及与如外汇交易中心、清算所等外部平台的交互数据等。

随着债券交易面临例如百万级的并发用户访问、每秒数以千计的并发事务处理等巨大规模的数据冲击,因此有必要优化数据采集,有效应对当前业务系统中数据量大,数据变化快等技术问题,解决数据采集重复、质量不高的问题,提高数据采集的可靠性和拓展性。

数据采集服务器23包括数据提取模块24、数据处理模块25、分布式数据存储管理模块26和查询模块27,其中,数据提取模块24包括用于实时采集客户端1、服务端2和管理端3生成的数据的前置机28和etl转换模块34,所述数据处理模块25包括利用参数特征进行关联的数据关联模块29、基于时序分类的分类模块30和对数据进行去重的聚类模块31,分布式数据存储管理模块26包括存储时间序列数据的时序数据存储器32和存储非时间序列数据的数据存储器33,分布式数据存储管理模块26将时序数据存储在时间序列数据存储器32以及将非时序数据存储在数据存储器33,所述查询模块27基于查询命令在所述分布式数据存储管理模块26中进行查询。

本发明的数据采集服务器23设有实时采集客户端1、服务端2和管理端3生成的数据的前置机28。数据采集服务器23可以使用多台前置机作为客户端1、服务端2和管理端3的中间设备。进一步地,数据采集服务器23采用一台或多台综合前置机以简化系统结构、节约系统投资、降低系统维护劳动强度、减少多前置机对系统资源的消耗。综合前置机的硬件包括pc服务器、以太网卡、多功能卡、语音/数据卡、主机通讯卡以及网控器、路由器等网络连接设备。由于客户端1、服务端2和管理端3间的通信协议差别较大,网络结构复杂,通过综合前置机作为中介,可以很容易地将客户端1、服务端2和管理端3连接起来以数据交换。综合前置机还可方便地对客户端1、服务端2和管理端3中的不同格式进行转换,例如,综合前置机亦可实现主机间的字符编码转换。进一步地,综合前置机对交易报文做认证处理,验证所有收到的报文密押,认证所有发出系统的报文。通过这种机制,可有效地避免假冒交易报文的出现而对系统造成的金融风险。同样,由于网络传输的交易报文可被窃取,综合前置机要对进出主机系统的个人密码进行加/解密处理,这样可保证交易人的资金安全。综合前置机可记录交易流水和显示交易完成情况,这些都有助于分析和解决系统间潜在和已出现的问题。此外,综合前置机的流水记录和数据统计功能还可为系统间的对帐和资金清算提供依据。

本发明的基于债券交易的数据采集系统的实施例优选地是,所述前置机包括交易报文格式处理模块,所述交易报文包括通知类型和请求/响应类型。

在一个实施例中,数据采集服务器23采用一种以报文交换为基础的综合前置机,该综合前置机处理的所有交易都以金融交易报文为基础。利用报文可以很容易将金融交易的各项要求表述清楚。只要将报文格式定义明确,任何金融交易的细节都可以包含在报文之中。交易报文的制定可以参照iso8583国际标准。如果金融交易只涉及系统/网络管理,可简单地采用通知类报文;如果金融交易涉及帐务处理,可采用请求/响应类报文。交易报文的格式可以是,报文的第一部分为报文类型,1字节长。系统交易处理主控进程根据报文类型,指定相应的报文处理程序。报文的第二部分为报文内容,长度不定。它是金融交易的具体内容,它的产生由发送报文的服务端2完成。报文接收进程收到通知类报文后,对报文内容进行整理,然后将报文发送到系统主消息队列,交易处理主控进程收到报文后,根据报文类型,将其指派到相应的通知报文处理程序进行处理,之后将报文转发到报文发送进程,报文发送后,本次交易结束。报文接收进程1收到交易请求报文后,对报文内容进行整理,然后将报文发送到系统主消息队列,交易处理主控进程收到请求报文后,根据报文类型,将其指派到相应的请求报文处理程序进行处理,之后将报文转发到报文发送进程2,报文发送后,交易请求处理结束。系统收到交易请求后,进行处理并发出交易响应到报文接收进程2,该进程对报文内容进行整理后,将响应报文发送到系统主消息队列,交易处理主控进程收到响应报文后,根据报文类型,将其指派到相应的响应报文处理程序进行处理,之后将报文转发到报文发送进程1,报文发送后,本次交易处理结束。综合前置机可对交易请求进行预处理,拒绝不合要求的交易请求。这样,在前置机阶段就对交易请求直接作出拒绝响应,因而在一定程度上减轻了系统负荷。报文接收进程1收到交易请求报文后,对报文内容进行整理,然后将报文发送到系统主消息队列,交易处理主控进程收到报文后,根据报文类型,将其指派到相应的交易请求处理程序进行处理,之后将拒绝响应报文转发到报文发送进程1,报文发送后,本次交易结束。

本发明的基于债券交易的数据采集系统的实施例优选地是,etl转换模块34包括数据抽取单元、数据清洗单元、空值处理单元、数据格式处理单元、数据拆分单元和数据替换单元。

在一个实施例中,数据抽取单元采用全表比对数据抽取,数据抽取单元抽取来自客户端1、服务端2和管理端3的所有数据,并进行相应规则转换,完成后先不插入目标,而对每条数据进行目标表比对。根据主键值进行插入与更新的判定,目标表已存在该主键值的,表示该记录已有,并进行其余字段比对,如有不同,进行更新操作,如目标表没有存在该主键值,表示该记录还没有,即进行插入操作。这种数据抽取单元对已有系统表结构不产生影响,不需要修改业务操作程序,可以实现没有风险的数据递增加载。适用于交易系统的抽取。在一个实施例中,数据抽取单元在联机事务处理中业务表中统一添加时间字段作为时戳,如表中已有相应的时间字段,可以不必添加,每当更新修改业务数据时,必须同时修改时戳字段值。当作etl加载时,通过系统时间与时戳字段的比较来决定进行何种数据抽取。这种数据抽取单元相对清楚简单,速度快。在一个实施例中,数据抽取单元针对交易需求对数据分类抽取。例如在交易模块中分类抽取用户交易流水数额。

在一个实施例中,数据清洗单元采用结构清洗以过滤一些冗余数据。例如使用多重插补或多元回归算法对数据去除无效性、重复性数据,提高数据质量。

在一个实施例中,空值处理单元捕获字段空值,进行加载或替换为其他含义数据。

在一个实施例中,数据格式处理单元实现字段格式约束定义,对于数据源中时间、数值、字符等数据可自定义格式。

在一个实施例中,数据拆分单元依据业务需求对字段进行分解。

在一个实施例中,数据替换单元实现无效数据、缺失数据的替换。

本发明的基于债券交易的数据采集系统的实施例优选地是,所述etl转换模块34为datastageetl。

本发明中,通过数据提取模块24将客户端1、服务端2和管理端3的数据提取并预处理后发送到数据处理模块25中进行处理,所述数据处理模块25包括利用参数特征进行关联的数据关联模块29、基于时序分类的分类模块30和对数据进行去重的聚类模块31。

本发明的基于债券交易的数据采集系统的实施例优选地是,所述参数特征包括数据产生的时间、数据产生的模块、数据产生的ip地址、数据格式和/或数据类型,但不仅限于此。其中,数据产生的模块包括行情查询模块5、点击成交处理模块6、交易查询模块7、报价处理模块9和交易处理模块10中的一个或多个,当然数据产生的模块还可以来自客户端1、服务端2和管理端3中的其他模块。

数据关联模块29利用参数特征将数据中之间的频繁模式、关联、相关性或因果结构进行关联。在一个实施例中,所述数据关联模块基于参数特征利用apriori算法进行关联。apriori算法使用逐层搜索的迭代方法,k—项集用于探索k+1—项集,首先,找出频繁1—项集的集合,记做l1,l1用于找出频繁2—项集的集合l2,再用于找出l3,如此下去,直到不能找到频繁k—项集,找每个lk需要扫描一次数据。所述数据关联模块先把数据从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频繁项集,然后把产生的频繁项集合并,用来生成所有可能的频繁项集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频繁项集至少在某一个分块中是频繁项集保证的。债券交易中的数据通过数据关联模块可以将有因果联系和相关性较高的数据进行关联。例如,数据关联模块关联同一时间段具有交易属性的数据。

分类模块30基于时序分类上述关联的数据,时间序列数据是同一统一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是时期数,也可以时点数。分类模块30将上述关联的数据分为时间序列数据和非时间序列数据。

聚类模块31对数据进行去重。聚类模块31采用随机搜索聚类算法,首先随机选择一个点作为当前点,然后随机检查它周围不超过参数maxneighbor个的一些邻接点,假如找到一个比它更好的邻接点,则把它移入该邻接点,否则把该点作为局部最小量。然后在随机选择一个点来寻找另一个局部最小量,直到找到的局部最小量书目达到用户要求为止。

在一个实施例中,所述聚类模块为kmeans聚类器。kmeans聚类器从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度,分别将它们分配给与其最相似的聚类;然后再计算每个所获新聚类的聚类中心;不断重复这一过程直到标准测度函数开始收敛为止。kmeans聚类器采用均方差作为标准测度函数。

分布式数据存储管理模块26包括存储时间序列数据的时序数据存储器32和存储非时间序列数据的数据存储器33。分布式数据存储管理模块提高海量数据和文件的存储、检索和管理效率,对海量数据和文件进行结构化划分,并将属于结构化数据的数据存储于指定的数据库中,如存储在数据封装存储系统中。分布式数据存储管理模块26将时序数据存储在时间序列数据存储器32以及将非时序数据存储在数据存储器33。时间序列数据存储器32中可设有时间序列数据库,时序数据存储在时间数据库中,同样地,数据存储器33中设有非时间数据库,非时间序列数据存储在非时间数据库中。

在一个实施例中,时间序列数据存储器32用于存储访问频度高、性能要求高的数据集中缓存到时序数据存储器中的内存器。

在一个实施例中,时间序列数据存储器32中涉及的数据库主要有分布式文件系统hdfs,列式数据库hbase、内存数据库redis、关系数据库oracle等。oracle数据库主要用于存储配置数据以及部分业务数据,hdfs作为大数据平台底层的分布式文件系统单元,为上层的hbase提供支撑,也可以直接存储业务数据中的非时序部分,hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,主要用于存储业务数据中的时序部分,redis是一个基于内存的key-value存储系统,在这里主要用于存放缓存数据。

所述查询模块27基于查询命令在所述分布式数据存储管理模块26中进行查询。

在一个实施例中,所述查询命令可基于sql命令。

本发明的基于债券交易的数据采集系统稳定、可靠、高效的开源分布式存储器和并行计算服务的服务器为核心,针对时间序列数据存储和非时间序列数据定向封装,提供了稳定可靠的底层数据支撑;实时和准时的采集数据,时效性高,并且优化设计了数据采集频率,采集效率高,能效低但是效能高,处理时效性更高,并且因为缩短了处理时间使得减少了设备损耗,节约了成本,使用寿命更长,性能更加稳定。

图2示出了本发明的基于债券交易的数据采集系统的数据采集方法的步骤示意图,一种利用所述的基于债券交易的数据采集系统的数据采集方法的步骤包括:

第一步骤s1中:前置机28实时采集客户端1、服务端2和管理端3生成的数据。

第二步骤s2中:etl转换模块34对所述数据抽取、清洗和转换。

第三步骤s3中:数据关联模块利用参数特征关联所述数据。

第四步骤s4中:分类模块基于参数特征将所述数据分成时序数据和非时序数据。

第五步骤s5中:聚类模块对数据进行去重。

第六步骤s6中:分布式数据存储管理模块将时序数据存储在时间序列数据存储器以及将非时序数据存储在数据存储器。

第七步骤s7中:查询模块基于查询命令在所述分布式数据存储管理模块中进行查询。

本发明的基于债券交易的数据采集系统的数据采集方法的实施例优选地是,第三步骤s3中:数据关联模块利用多值属性maqa算法基于参数特征关联所述数据。多值属性maqa算法的多值属性可分为数量属性和类别属性。将多值属性关联规则挖掘转化为布尔型关联规则挖掘,即将多值属性的值划分为多个区间,每个区间作为一个属性,将类别属性的每一个类别当作一个属性。

本发明的基于债券交易的数据采集系统的数据采集方法的实施例优选地是,第四步骤s4中:分类模块采用garch算法基于参数特征对将所述数据分类时序数据和非时序数据。garch算法对误差的方差进行了进一步的建模,特别适用于交易数据的分类。

本发明的基于债券交易的数据采集系统的数据采集方法的实施例优选地是,第五步骤s5中:聚类模块采用clara算法对数据进行去重。在一个实施例中,clara算法从数据集中抽取多个样本集,对每个样本集使用pam,并以最好的聚类作为输出。(1)fori=1tov(选样次数),重复执行下列步骤((2)~(4));(2)随机地从整个数据库中抽取一个n个对象的样本,调用pam方法从样本中找出样本的k个最优的中心点;(3)将这k个中心点应用到整个数据库上,对于每一个非代表对象oj,判断它与从样本中选出的哪个代表对象距离最近;(4)计算上一步中得到的聚类的总代价.若该值小于当前的最小值,用该值替换当前的最小值,保留在这次选样中得到的k个代表对象作为到目前为止得到的最好的代表对象的集合;(5)返回到步骤(1),开始下一个循环.算法结束后,输出最好的聚类结果。

工业实用性

本发明的基于债券交易的数据采集系统及其数据采集方法可以在数据采集领域制造并使用。

尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1