一种数据预测正确率确定方法及装置与流程

文档序号:11729894阅读:275来源:国知局
一种数据预测正确率确定方法及装置与流程

本发明涉及计算机数据挖掘和处理领域,具体涉及一种数据预测正确率确定方法及装置。



背景技术:

随着计算机和互联网技术的发展,计算机处理数据的智能性得到了显著的提高。目前,计算机可以根据预定的规则或者算法,估计或预测某些数据在未来的变化。

例如某些数据本身会随着时间发生变化,而它们的变化过程是非线性的,甚至是不符合任意规律的。假设存在一台机器或者某个人可以对这些数据的走势进行预测,无论采用由计算机执行的深度学习算法还是依赖人为的经验,其预测结果都必然存在正确和错误两种可能。如果这些数据的变化会对相关产业差生重大影响,则预测方的预测正确率就成为非常重要的参考指标,这些指标可以直接反应出预测方的可信度。由于数据预测方通常会对大量的数据进行预测,所以用户很难验证数据预测方的大量结论的正确率,也即无法评价或确定数据预测方的性能。



技术实现要素:

因此,本发明要解决的技术问题在于数据预测方的性能无法被评估或确定的问题。

有鉴于此,本发明提供一种数据预测正确率确定方法,包括:

获取评估对象对各个目标数据的趋势预测信息和预测时间;

分别获取所述各个目标数据在所述预测时间时的数值以及所述各个目标数据在预定时间时的数值,其中所述预定时间在所述预测时间之后;

分别将所述各个目标数据在预定时间时的数值与所述各个目标数据在所述预测时间时的数值进行比对;

从所有比对结果中确定符合所述趋势预测信息的比对结果;

计算所述符合所述趋势预测信息的比对结果的数量占所有比对结果的数量的比例,作为所述评估对象的第一数据预测正确率。

优选地,在所述分别获取所述各个目标数据在所述预测时间时的数值以及所述各个目标数据在预定时间时的数值之后,还包括:

分别确定所述各个目标数据从所述预测时间到所述预定时间之间的增长率;

分别将所述各个目标数据的增长率与预定增长率进行比对;

计算所述增长率大于预定增长率的目标数据的数量占所述目标数据的总数量的比例,作为所述评估对象的第二数据预测正确率。

优选地,所述评估对象是研报数据发布者、所述目标数据为所述研报数据所涉及股票的市值、所述预测时间为所述研报数据的发布时间;

所述获取评估对象对各个目标数据的趋势预测信息和预测时间,包括:

获取多个研报数据,所述研报数据中包括发布者信息和对股票市值的趋势预测信息和发布时间;

从所述多个研报数据中筛选出所述趋势预测信息指示的趋势为正向增长的研报数据;

根据所述发布者信息从正向增长的研报数据中确定所述评估对象发布的研报数据;

分别从确定的研报数据中确定对股票市值的趋势预测信息和发布时间。

优选地,所述评估对象是研报数据发布者、所述目标数据为所述研报数据所涉及股票的市值、所述预测时间为所述研报数据的发布时间、所述预定增长率是预定股票指数的增长率;

在所述分别将所述各个目标数据的增长率与预定增长率进行比对之前,还包括:

分别确定与所述各个目标数据对应的预定增长率。

优选地,所述分别确定与所述各个目标数据对应的预定增长率,包括:

分别确定所述目标数据的预测时间;

分别计算所述预定股票指数从所述预测时间到所述预定时间之间的增长率。

相应地,本发明还提供一种数据预测正确率确定装置,包括:

获取模块,用于获取评估对象对各个目标数据的趋势预测信息和预测时间;

数值确定模块,用于分别获取所述各个目标数据在所述预测时间时的数值以及所述各个目标数据在预定时间时的数值,其中所述预定时间在所述预测时间之后;

比对模块,用于分别将所述各个目标数据在预定时间时的数值与所述各个目标数据在所述预测时间时的数值进行比对;

筛选模块,用于从所有比对结果中确定符合所述趋势预测信息的比对结果;

第一正确率计算模块,用于计算所述符合所述趋势预测信息的比对结果的数量占所有比对结果的数量的比例,作为所述评估对象的第一数据预测正确率。

优选地,还包括:

增长率确定模块,用于数值确定模块完成处理之后,分别确定所述各个目标数据从所述预测时间到所述预定时间之间的增长率;

增长率比对模块,用于分别将所述各个目标数据的增长率与预定增长率进行比对;

第二正确率计算模块,用于计算所述增长率大于预定增长率的目标数据的数量占所述目标数据的总数量的比例,作为所述评估对象的第二数据预测正确率。

优选地,所述评估对象是研报数据发布者、所述目标数据为所述研报数据所涉及股票的市值、所述预测时间为所述研报数据的发布时间;

所述获取模块包括:

研报数据获取模块,用于获取多个研报数据,所述研报数据中包括发布者信息和对股票市值的趋势预测信息和发布时间;

正向研报数据筛选模块,用于从所述多个研报数据中筛选出所述趋势预测信息指示的趋势为正向增长的研报数据;

发布者筛选模块,用于根据所述发布者信息从正向增长的研报数据中确定所述评估对象发布的研报数据;

预测信息获取模块,用于分别从确定的研报数据中确定对股票市值的趋势预测信息和发布时间。

优选地,所述评估对象是研报数据发布者、所述目标数据为所述研报数据所涉及股票的市值、所述预测时间为所述研报数据的发布时间、所述预定增长率是预定股票指数的增长率;所述装置还包括:

预定增长率确定模块,用于在所述增长率比对模块进行处理之前,分别确定与所述各个目标数据对应的预定增长率。

优选地,所述预定增长率确定模块包括:

预测时间确定模块,用于分别确定所述目标数据的预测时间;

股票指数增长率确定模块,用于分别计算所述预定股票指数从所述预测时间到所述预定时间之间的增长率。

根据本发明提供的数据预测正确率确定方法及装置,首先获取评估对象对各个目标数据的趋势预测信息和预测时间,然后确定各个目标数据在该预测时间时的数值以及在之后一段时间时的数值,根据这两个时刻的数值,可以验证评估对象所给出的趋势预测信息是否正确,通过对同一评估对象给出的大量预测数据进行验证后,可以计算该评估对象的历史预测正确率,这种正确率能够反映出评估对象的可信度,并可以作为用户的重要参考指标,协助用户对数据的变化趋势做出判断,

从而协助用户评估或确定数据预测方的性能,进而协助用户对数据的变化提前做出应对方案。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例中的数据预测正确率确定方法流程图;

图2为本发明的另一个实施例中的数据预测正确率确定方法流程图;

图3为本发明的第三个实施例中的数据预测正确率确定装置结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明的描述中,需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供了一种数据预测正确率确定方法,如图1所示,该方法包括如下步骤:

s01,获取评估对象对各个目标数据的趋势预测信息和预测时间,其中的评估对象可以是计算机也可以是人,目标数据即评估对象的预测对象。本方法可以应用于多种行业和领域,不同的领域中目标数据的内容不相同,但目标数据的值必须是随时间变的,例如是某种随时间消耗的或者增长的参数。趋势预测信息是指评估对象对该目标数据的未来走势做出的预测,预测时间是指评估对象发布这种预测结果的时间。为了更清楚地对本方案进行说明,下面例举一个具体应用场景,例如在电池领域中,计算机可以根据充放电参数预测多个电池单体的电量变化情况,那么电池电量即为目标数据,假设某一电池在t1时刻的电量为a%,计算机在时刻t1根据充放电参数预测该电池的电量到t2时刻是增长、减少或不变,其中计算机即为评估对象,该计算机预测的增长、减少或不变这一结论即为趋势预测信息,时刻t1即为预测时间。

s02,分别获取各个目标数据在预测时间时的数值以及各个目标数据在预定时间时的数值,其中预定时间在预测时间之后。本实施例所指的预定时间t2必须是在上述时刻t1之后,并且本方法至少需要在预定时间t2之后执行,也即本发明需要明确目标数据在t1时刻的数值以及目标数据在t2时刻的数值。其中预定时间可以是根据预测时间确定的,例如是预测时间之后的几分钟、几小时、几天甚至几个月都是可行的,具体需要根据目标数据的性质进行设定。如此,同一评估对象对不同的目标数据的预测时间可以是不相同的,对于同一对象预测的不同目标数据,本发明所选的预定时间也可以是不同的。

s03,分别将各个目标数据在预定时间时的数值与各个目标数据在预测时间时的数值进行比对。仍以上述应用场景为例,假设在t2时刻获取到电量为b%,则将a%与b%进行比对,例如b%大于a%则表示该电池从t1时刻到t2时刻电量增长;

s04,从所有比对结果中确定符合趋势预测信息的比对结果。以上仅仅一个目标数据为例进行了说明,实际情况中需要考虑评估对象发布的大量的预测信息,也即评估对象可以同时对n个目标数据进行预测,如上所述,对n个目标数据的预测时间可以是不相同,本发明对n个目标数据选取的预定时间也可以是不相同的。确定所有比对结果之后则验证这些结果是否符合评估对象在t1时刻发布的预测趋势,例如上述电池的电量b%大于a%,如果评估对象在t1时刻发布该电池的趋势预测为增长,则该结果符合其预测趋势信息,其他情况则不符合预测趋势信息。

s05,计算符合趋势预测信息的比对结果的数量占所有比对结果的数量的比例,作为评估对象的第一数据预测正确率。例如评估对象对n个目标数据进行预测,通过上述步骤确定了其中符合预存趋势信息的结果为m1个,则该评估对象的第一数据预测正确率为m1/n。

根据本发明实施例提供的数据预测正确率确定方法,首先获取评估对象对各个目标数据的趋势预测信息和预测时间,然后确定各个目标数据在该预测时间时的数值以及在之后一段时间时的数值,根据这两个时刻的数值,可以验证评估对象所给出的趋势预测信息是否正确,通过对同一评估对象给出的大量预测数据进行验证后,可以计算该评估对象的历史预测正确率,这种正确率能够反映出评估对象的可信度,

并可以作为用户的重要参考指标,协助用户对数据的变化趋势做出判断,

从而协助用户评估或确定数据预测方的性能,进而协助用户对数据的变化提前做出应对方案。

作为一个优选的实施方式,在上述步骤s02之后,本方法还可以包括如下步骤:

s06,分别确定所述各个目标数据从所述预测时间到所述预定时间之间的增长率,该增长率可以是正数或者负数。仍以上述应用场景为例,电池的电量增长率为(b%-a%)/a%。

s07,分别将所述各个目标数据的增长率与预定增长率进行比对,本发明所指预定增长率应当理解为一个阈值,是一种判断指标,该阈值可以是预先计算的或者人为给定的,该阈值的具体取值方式应当根据应用场景而定。例如在某些领域中,目标数据的值不可能降低,或者不考虑降低的目标数据,则可以确定该阈值为正数,并且可以至少根据所有被预测的目标数据的增长率来确定一个平均增长率作为该阈值。在本步骤中,分别计算每个目标数据的增长率,并分别与预定增长率进行比对,分别判断其是否大于或等于预定增长率;

s08,计算所述增长率大于预定增长率的目标数据的数量占所述目标数据的总数量的比例,作为所述评估对象的第二数据预测正确率。例如评估对象对n个目标数据进行预测,通过上述步骤确定了其中m2个数据的增长率大于预定增长率,则评估对象的第二数据预测正确率为m2/n。

上述优选方案不仅根据目标数据本身的变化来确定目标数据是否增长,还同时将目标数据的增长率与预设的增长率阈值进行比较,筛选出大于预设的增长率阈值的目标数据,并由此计算增长率大于预定增长率的目标数据的数量占所述目标数据的总数量的比例,该比例真实性更强,且参考价值更高。

以上为一个应用于电池领域的实施例,在该实施例中评估对象是计算机或者软件程序、程序模型或程序模块。下面提供另一种应用场景,本发明的另一个实施例还提供了一种数据预测正确率确定方法,在本实施例中,评估对象是研报数据发布者、目标数据为研报数据所涉及股票的市值、预测时间为研报数据的发布时间。具体地,如图2所示,该方法包括如下步骤:

s21,获取多个研报数据,研报数据中包括发布者信息和对股票市值的趋势预测信息和发布时间。获取方式包括多种,例如可以在预定的某些网站、服务器中进行搜索,以尽可能收集所有的研报数据。此步骤暂不考虑数据具体内容,只判断是否为研报数据即可,例如可以通过文件名称、文件类型等属性进行筛选。

s22,从多个研报数据中筛选出趋势预测信息指示的趋势为正向增长的研报数据。为了减少计算量,本实施例首先筛选出趋势为正向增长的研报数据,后续将不再对趋势为逆向下跌的研报数据进行判断。通常对股票市值的预测趋势最多为5种,在本领域中也将此称为对股票的评级,例如某些研报数据使用“买入”、“增持”、“中性”、“减持”、“卖出”这5个用词来表达对股票市值的预测趋势,显然其中“买入”和“增持”表示的是正向增长的趋势。不同机构发布的研报数据的格式可能是不同的,并且其中的用词也可能是不同的,例如某些研报数据还可能使用系数(数值)表示趋势。在此步骤中,即可以采用关键字匹配的方式来确定预测趋势,也可以结合预设阈值匹配的方式来确定预测趋势。研报数据的格式和表达方式是符合一定行业标准的,因此表达方式也是有限的,所以可以针对来自不同机构的研报数据采取相应的识别方式来筛选出趋势为正向增长的研报数据。

s23,根据发布者信息从正向增长的研报数据中确定评估对象发布的研报数据,例如当前的评估对象为a,则从这些正向增长的研报数据中找出作者为a的研报数据;

s24,分别从确定的研报数据中确定对股票市值的趋势预测信息和发布时间,例如a发布过10个正向增长趋势的研报数据,则分别从这10个正向增长趋势的研报数据中确定发布时间。

s25,分别获取各个股票市值在研报发布时间时的数值以及各个股票市值在预定时间时的数值,其中预定时间在研报发布时间之后。

例如预定时间可以研报发布时间的5日、一个月、半年、一年之后。本实施例中的日期可以是自然日也可以是交易日,由此本实施例还可以加入对日期的判断操作,具体地,假设本实施例中的预定时间是研报发布时间的5日之后的交易日,因此在确定预定日期的过程中,可以首先判断判断研报发布时间的5日之后是否为交易日,如果不是交易日可以取该日期附近的交易日,例如取该日期之前的最近的一个交易日。

s26,分别将各个股票市值在预定时间时的数值与各个股票市值在研报发布时间时的数值进行比对,例如股票000001在其研报发布时间的市值为x1,在预定时间再次获取到其市值为y1、股票00002在其研报发布时间的市值为x2,在预定时间再次获取到其市值为y2,在此分别将x1与y1进行比对、将x2与y2进行比对。

s27,从所有比对结果中确定符合趋势预测信息的比对结果,根据比对可以确定该股票市值的变化是否符合其研报中的预测趋势信息,例如y1-x1>0,则表示股票000001的市值增长,符合预测趋势信息。

s28,计算符合趋势预测信息的比对结果的数量占所有比对结果的数量的比例,作为评估对象的第一数据预测正确率,例如分析师a总共对n支股票市值进行了预测,通过上述步骤确定了其中符合正向增长趋势信息的结果为m1个,则该分析师的第一数据预测正确率为m1/n,第一数据预测正确率即为该分析师的历史预测正确率。

根据本发明实施例提供的数据预测正确率确定方法,首先获取分析师对各个股票市值的趋势预测信息和预测时间,然后确定各个股票市值在该预测时间时的数值以及在之后一段时间时的数值,根据这两个时刻的数值,可以验证分析师所给出的趋势预测信息是否正确,通过对同一分析师给出的大量研报数据进行验证后,可以计算该分析师的历史预测正确率,这种正确率能够反映出分析师的可信度,并可以作为投资者的重要参考指标,协助投资者对股票市值的变化趋势做出判断。

作为一个优选的实施方式,在上述步骤s25之后还可以包括如下步骤:

s29,分别确定各个股票市值从研报数据发布时间到预定时间之间的增长率,股票000001在其研报发布时间的市值为x1,在预定时间再次获取到其市值为y1,其增长率即为(y1-x1)/x1;

s30,分别将各个股票市值的增长率与预定增长率进行比对,其中,预定增长率是预定股票指数的增长率,例如上证指数的增长率。由于分析师对各股票的预测时间不同,因此需要根据预测时间分别确定与每支被预测的股票对应的预定增长率,具体地可以按照如下方式确认:分别确定分析师对各股票市值的预测时间;分别计算预定股票指数从预测时间到预定时间之间的增长率。例如分析师对股票000001的预测时间为t1,预定时间为t2,然后确定上证指数在t1时为xa,在t2时为ya,因此股票000001对应的预定增长率为(ya-xa)/xa;分析师对股票000002的预测时间为t3,预定时间为t4,然后确定上证指数在t3时为xb,在t2时为yb,因此股票000002对应的预定增长率为(yb-xb)/xb。由此可见不同的股票对应的预定增长率可能是不同的,是可以根据上证指数确定的。

s31,计算增长率大于预定增长率的股票市值的数量占股票市值的总数量的比例,作为评估对象的第二数据预测正确率。例如分析师对n支股票进行了预测,通过上述步骤确定了其中m2支股票的增长率大于预定增长率,则分析师的第二数据预测正确率为m2/n。

上述方案不仅根据股票市值本身来确定股票是否增长,还将股票市值的增长率与上证指数的增长率进行比较,由此筛选出的股票市值的增长率更高,由此确定的第二数据预测正确率的参考价值更高。

本发明的第三个实施例提供一种数据预测正确率确定装置,如图3所示,该装置包括:

获取模块31,用于获取评估对象对各个目标数据的趋势预测信息和预测时间;

数值确定模块32,用于分别获取所述各个目标数据在所述预测时间时的数值以及所述各个目标数据在预定时间时的数值,其中所述预定时间在所述预测时间之后;

比对模块33,用于分别将所述各个目标数据在预定时间时的数值与所述各个目标数据在所述预测时间时的数值进行比对;

筛选模块34,用于从所有比对结果中确定符合所述趋势预测信息的比对结果;

第一正确率计算模块35,用于计算所述符合所述趋势预测信息的比对结果的数量占所有比对结果的数量的比例,作为所述评估对象的第一数据预测正确率。

根据本发明实施例提供的数据预测正确率确定装置,首先获取评估对象对各个目标数据的趋势预测信息和预测时间,然后确定各个目标数据在该预测时间时的数值以及在之后一段时间时的数值,根据这两个时刻的数值,可以验证评估对象所给出的趋势预测信息是否正确,通过对同一评估对象给出的大量预测数据进行验证后,可以计算该评估对象的历史预测正确率,这种正确率能够反映出评估对象的可信度,

并可以作为用户的重要参考指标,协助用户对数据的变化趋势做出判断,

从而协助用户评估或确定数据预测方的性能,进而协助用户对数据的变化提前做出应对方案。

优选地,该装置还包括:

增长率确定模块36,用于数值确定模块32完成处理之后,分别确定所述各个目标数据从所述预测时间到所述预定时间之间的增长率;

增长率比对模块37,用于分别将所述各个目标数据的增长率与预定增长率进行比对;

第二正确率计算模块38,用于计算所述增长率大于预定增长率的目标数据的数量占所述目标数据的总数量的比例,作为所述评估对象的第二数据预测正确率。

上述优选方案不仅根据目标数据本身的变化来确定目标数据是否增长,还同时将目标数据的增长率与预设的增长率阈值进行比较,筛选出大于预设的增长率阈值的目标数据,并由此计算增长率大于预定增长率的目标数据的数量占所述目标数据的总数量的比例,该比例真实性更强,且参考价值更高。

优选地,所述评估对象是研报数据发布者、所述目标数据为所述研报数据所涉及股票的市值、所述预测时间为所述研报数据的发布时间;

所述获取模块31包括:

研报数据获取模块,用于获取多个研报数据,所述研报数据中包括发布者信息和对股票市值的趋势预测信息和发布时间;

正向研报数据筛选模块,用于从所述多个研报数据中筛选出所述趋势预测信息指示的趋势为正向增长的研报数据;

发布者筛选模块,用于根据所述发布者信息从正向增长的研报数据中确定所述评估对象发布的研报数据;

预测信息获取模块,用于分别从确定的研报数据中确定对股票市值的趋势预测信息和发布时间。

优选地,所述评估对象是研报数据发布者、所述目标数据为所述研报数据所涉及股票的市值、所述预测时间为所述研报数据的发布时间、所述预定增长率是预定股票指数的增长率;所述装置还包括:

预定增长率确定模块,用于在所述增长率比对模块进行处理之前,分别确定与所述各个目标数据对应的预定增长率。

优选地,所述预定增长率确定模块包括:

预测时间确定模块,用于分别确定所述目标数据的预测时间;

股票指数增长率确定模块,用于分别计算所述预定股票指数从所述预测时间到所述预定时间之间的增长率。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1