基金业绩数据校验算法的制作方法

文档序号:22313649发布日期:2020-09-23 01:34阅读:397来源:国知局
基金业绩数据校验算法的制作方法

本发明涉及基金业绩数据校验的技术领域,具体涉及算术累计净值算法、复合收益率算法、业绩数据披露频率统计等计算方法。



背景技术:

作为一种金融科技的具体应用,基金数据校验平台将基金数据与大数据技术深度融合,以校验算法为基础,使用大数据引擎,实现定量数据的自动统计和异常提示。通过人机结合的方式,保障基金业绩数据采集的完整、及时、准确。基金业绩数据校验算法,可以降低人工核对的工作量,提高处理效率,优化工作流程,提升数据质量。

为满足对不同类型基金产品业绩数据校对,在数据结构上兼容公、私募各类基金产品的数据特征;算法设计层面做了统一化处理,便于校验系统开发,降低程序实现的难度。

由于数据异常情况的复杂性,对于校验算法发现的异常数据点,仍需人工进行审核和处理。

大数据领域,数据清洗是重要的一个环节,是保障数据质量的关键生产流程。基金业绩数据由于其数据源分散、披露渠道多元化,造成数据采集过程中容易出现错误和缺漏。必须有严格的筛选和校验流程,才能保证数据质量,使其有进一步应用的价值。



技术实现要素:

针对基金业绩数据采集过程中容易出现的各种问题,本发明基金业绩数据校验算法,为实现自动化数据清洗程序的开发提供数学模型和计算方法。校验算法可以通过统计发现数据异常点,为人工审核提供依据。

基金业绩数据校验算法,其特征在于,包括以下步骤:

s1、按基金基础数据的有效性逻辑,判断单条数据是否可用;

s2、对于有多个数据来源的基金产品,可以单独设置数据来源的可用性和优先级;

s3、按基金产品类型,设置数据来源的可用性和优先级;

s4、基于筛选逻辑,使得单个基金产品业绩数据序列,在每个时点都只有唯一来源;

s5、通过校验算法,发现基金业绩数据中的异常点,由人工进行审核。

进一步的,所述步骤s1中,基金基础数据的有效性逻辑具体为:基金产品的单位净值大于0为有效数据,为空或小于等于0为无效数据;货币型基金产品,每万份计划收益大于0为有效数据,为空或小于等于0为无效数据;分红、注资、撤资、拆分比例的数值大于0为有效数据,为空或小于等于0为无效数据;有效数据标注为可用,无效数据标注为不可用。

进一步的,所述步骤s4中,基金基础数据的筛选逻辑具体为:单条数据可用,且数据来源可用;单个基金产品同一时点,如果有多个来源的可用数据,按单独设置的优先级排序,选择优先级最高的来源数据;如果基金产品没有单独设置数据来源优先级,按基金产品类型优先级排序,选择优先级最高的来源数据。

进一步的,所述步骤s5中,校验算法具体为:

s5.1、基金产品的初始单位净值校验:初始单位净值等于1为正确,否则为异常;

s5.2、算术累计净值校验:

算术累计净值=后复权单位净值+后复权累计分红-后复权累计注资+后复权累计撤资

如果算术累计净值的衍生值与披露值之间,偏差绝对值小于0.0005为正确;否则为异常,说明单位净值、分红、注资、撤资或拆分比例等数据存在错漏;

s5.3、复合收益率校验:计算估值日之间的复合收益率,如果复合收益率绝对值小于上限值为正确,否则为异常,说明单位净值、分红、注资、撤资或拆分比例等数据存在错漏;

按单侧90%置信区间,复合收益率绝对值的上限值设为20%;

复合收益率算法:

其中nb代表起始单位净值,ne代表结束单位净值,ni代表i时点单位净值,di代表i时点分红,ii代表i时点注资,dti代表i时点撤资,si代表i时点拆分系数,r代表复合收益率;

s5.4、日均复合收益率校验:计算单个基金产品估值日之间的日均复合收益率,按沪深股市交易日计算;

如果日均复合收益率绝对值小于上限值为正确;否则为异常,说明单位净值、分红、注资、撤资或拆分比例等数据存在错漏;

按单侧90%置信区间,日均复合收益率绝对值的上限值设为2%;

日均复合收益率算法:

其中r代表复合收益率,n代表为起始日和结束日之间的交易日天数,不含起始日,dr代表日均复合收益率;

s5.5、净值披露频率校验:单个基金产品估值日间隔天数小于等于披露频率为正确,否则为异常;

披露频率取值为出现频率最高的估值日间隔天数;

s5.6、净值披露过期校验:单个基金产品最新估值日期到当前日期的间隔天数小于等于披露频率为正确,否则为异常;

披露频率取值为出现频率最高的估值日间隔天数。

本发明的有益效果体现在:

本发明基金业绩数据校验算法,在对原始采集数据进行清洗时,优选可靠来源数据,并标识出数据异常点。为人工审核提供依据,提高处理效率,优化工作流程,提升数据质量,节省数据清洗成本。

附图说明

为更清晰地说明本发明具体实施方法,下面将对具体实施方法描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。校验算法示例用表格图片予以说明。

图1为步骤流程示意图;

图2为算术累计净值校验示意图;

图3为复合收益率校验示意图;

图4为日均复合收益率校验示意图;

图5为净值披露频率校验示意图;

图6为净值披露过期校验示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者专业术语应当为本发明所属领域专业人员所理解的通常意义。

实施例1

如图1所示,基金业绩数据校验算法,包括以下步骤:

s1、按基金基础数据的有效性逻辑,判断单条数据是否可用;

s2、对于有多个数据来源的基金产品,可以单独设置数据来源的可用性和优先级;

s3、按基金产品类型,设置数据来源的可用性和优先级;

s4、基于筛选逻辑,使得单个基金产品业绩数据序列,在每个时点都只有唯一来源;

s5、通过校验算法,发现基金业绩数据中的异常点,由人工进行审核。

进一步的,所述步骤s1中,基金基础数据的有效性逻辑具体为:基金产品的单位净值大于0为有效数据,为空或小于等于0为无效数据;货币型基金产品,每万份计划收益大于0为有效数据,为空或小于等于0为无效数据;分红、注资、撤资、拆分比例的数值大于0为有效数据,为空或小于等于0为无效数据;有效数据标注为可用,无效数据标注为不可用。

进一步的,所述步骤s4中,基金基础数据的筛选逻辑具体为:单条数据可用,且数据来源可用;单个基金产品同一时点,如果有多个来源的可用数据,按单独设置的优先级排序,选择优先级最高的来源数据;如果基金产品没有单独设置数据来源优先级,按基金产品类型优先级排序,选择优先级最高的来源数据。

进一步的,所述步骤s5中,校验算法具体为:

s5.1、基金产品的初始单位净值校验:初始单位净值等于1为正确,否则为异常;

s5.2、算术累计净值校验:

算术累计净值=后复权单位净值+后复权累计分红-后复权累计注资+后复权累计撤资

如果算术累计净值的衍生值与披露值之间,偏差绝对值小于0.0005为正确;否则为异常,说明单位净值、分红、注资、撤资或拆分比例等数据存在错漏;

s5.3、复合收益率校验:计算估值日之间的复合收益率,如果复合收益率绝对值小于上限值为正确,否则为异常,说明单位净值、分红、注资、撤资或拆分比例等数据存在错漏;

按单侧90%置信区间,复合收益率绝对值的上限值设为20%;

复合收益率算法:

其中nb代表起始单位净值,ne代表结束单位净值,ni代表i时点单位净值,di代表i时点分红,ii代表i时点注资,dti代表i时点撤资,si代表i时点拆分系数,r代表复合收益率;

s5.4、日均复合收益率校验:计算单个基金产品估值日之间的日均复合收益率,按沪深股市交易日计算;

如果日均复合收益率绝对值小于上限值为正确;否则为异常,说明单位净值、分红、注资、撤资或拆分比例等数据存在错漏;

按单侧90%置信区间,日均复合收益率绝对值的上限值设为2%;

日均复合收益率算法:

其中r代表复合收益率,n代表为起始日和结束日之间的交易日天数,不含起始日,dr代表日均复合收益率;

s5.5、净值披露频率校验:单个基金产品估值日间隔天数小于等于披露频率为正确,否则为异常;

披露频率取值为出现频率最高的估值日间隔天数;

s5.6、净值披露过期校验:单个基金产品最新估值日期到当前日期的间隔天数小于等于披露频率为正确,否则为异常;

披露频率取值为出现频率最高的估值日间隔天数。

实施例2

算术累计净值校验:

某基金产品a,2013年7月19日至2013年7月25日之间5个估值日的累计净值披露值,与按照算术累计净值算法得到的衍生值对比,偏差绝对值都大于0.0005,说明该产品在五个估值日之间披露的单位净值,分红、注资、撤资或拆分比例等数据存在错漏。本实施例具体数据如图2所示。

实施例3

复合收益率校验:

某基金产品b,按照复合收益率算法,2013年6月28日至2013年7月5日两个估值日之间的复合收益率为-51.98%,复合收益率绝对值大于上限值(20%)。说明两个估值日之间披露的单位净值,分红、注资、撤资或拆分比例等数据存在错漏。本实施例具体数据如图3所示。

实施例4

日均复合收益率校验:

某基金产品c,按照日均复合收益率算法,2013年7月19日至2013年7月26日两个估值日之间的日均复合收益率为2.56%,日均复合收益率绝对值大于上限值(2%)。说明两个估值日之间披露的单位净值,分红、注资、撤资或拆分比例等数据存在错漏。本实施例具体数据如图4所示。

实施例5

净值披露频率校验:

某基金产品d,2013年4月19日至2013年7月5日之间的11个估值日,出现频率最高的估值日间隔天数是7天,即披露频率为7天。估值日2013年7月5日,相距前一估值日2013年6月21日,间隔14天,大于披露频率。说明这两个估值日之间的披露数据可能存在遗漏。本实施例具体数据如图5所示。

实施例6

净值披露过期校验:

某基金产品e,最新估值日期为2013年7月23日,间隔4天后仍未发布新的业绩数据,根据以往公布的数据统计,披露频率应1天,说明净值披露已过期3天。本实施例具体数据如图6所示。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的专业人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部算法特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1