一种基于高维数据结构关系的预测方法与流程

文档序号:14037076阅读:527来源:国知局
一种基于高维数据结构关系的预测方法与流程

本发明涉及高维数据结构领域,尤其涉及一种基于高维数据结构关系的预测方法。



背景技术:

股市预测长期以来一直是特别活跃的研究领域。有效市场假说(emh)表明,股票市场价格主要受到新闻,股票市场情绪,公司业绩(如资产回报率,杠杆率)等因素的影响,因为股市效率导致现有股价始终纳入并反映所有相关信息。有两个有趣的例子,一个是联合航空公司最近因为“重新安置”事件,损失了3亿美元的市值,另一个是由于浑水机构的看跌报告,辉山乳业的市场价值下滑了90%。在这两个事件中,事件本身的力量和在线讨论的力量都得出最终结果,这些说明了信息的市场价值。近几十年来,社交网络数据更易于访问,比以往更为重要。许多研究试图在各种应用中使用社会情感和社交网络数据,例如,asur和huberman提供了一个示范,如twitter上表达的,与电影相关的公众情绪如何可以预测盒子收据。然后bollen等表明情绪时间序列预示了道琼斯工业平均指数(djia)收盘价值的变化。

传统的方法简单,正确预测的能力就会降低。如果使用稀疏的社会信息,就会有太多的噪音。缺乏复杂数据结构的有效预测模型,如张量。



技术实现要素:

本发明提供了一种基于高维数据结构关系的预测方法,本发明收集数据库,处理高维数据结构中的稀疏性,进行高维数据结构关系的预测,详见下文描述:

一种基于高维数据结构关系的预测方法,所述预测方法包括以下步骤:

1)通过爬虫技术获取新浪股吧和东方财富股吧的帖子和回帖,获得了百度高级搜索的特定新闻;

2)对帖子和新闻进行自然语义处理得到特征,再结合通过公式计算得到技术指标特征;

3)对三个特征进行张量构造,并通过高阶奇异值分解对张量进行重构,达到降噪和加强各因素关系的目的;

4)通过算法重构限制,使升降程度相似或升降方向一直的信息体相似;

5)对新的张量序列进行优化张量岭回归;

6)回归预测,作为辅助交易系统。

本发明提供的技术方案的有益效果是:

1、提出一种新的重建方法来处理高维数据结构中的稀疏性和关系强化,使用张量数据的优化回归方法。

2、收集数据并验证,具有理想的效果。

附图说明

图1为基于高维数据结构关系的预测方法的流程图;

图2为是否包含情绪信息的效果对比图;

图3为本方法与其他方法结果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

本发明实施例收集了不同的信息来源,并探讨了他们的互动效应来预测股票价格,如新闻表达和作者情绪新闻,投资者情绪和特征。本发明实施例使用自然语言过程(nlp)来教会计算机如何阅读和理解文章的信息和情感。本发明实施例的工作性质是机器学习(ml)和财务应用的组合。实际上,机器学习并没有提供可行性或改进执行的简单途径,它并不是一个魔术黑匣子,而是通过数据为交易优化提供了一个强大而有原则的框架。本发明实施例试图做的是,找出最合适的数据结构和有效预测模型,以应用于股票预测问题,而不是最难的。总之,本文的贡献如下:提出一种新的重建方法来处理高维数据结构中的稀疏性和关系强化。应用符合有效张量数据的优化回归方法。收集数据并检查上述想法和问题,具有理想的效果。

主要过程是:收集数据库,处理高维数据结构中的稀疏性,进行股价预测,参见图1,详见下文描述:

1)通过爬虫技术获取新浪股吧和东方财富股吧的帖子和回帖,又获得了百度高级搜索的特定新闻。

2)对帖子和新闻进行自然语义处理得到特征,再结合通过公式计算得到技术指标特征。

3)对三个特征进行张量构造,并通过高阶奇异值分解对张量进行重构,达到降噪和加强各因素关系的目的。

4)每一天获取以上步骤的张量信息体,通过与升降信息的对应关系,进行oaa重构,得到新的张量序列。这里面通过重构限制,使升降程度相似或升降方向一直的信息体相似。

5)对新的张量序列进行优化张量岭回归。

6)回归预测,作为辅助交易系统。

为此,最大限度地发挥以下目标函数:

其中:α是调整类内和类间散射矩阵之间的权重的参数,β是调整判别性信息和局域相关性信息之间权重的参数,v为变换矩阵,wu为类间矩阵,du为类内矩阵,ρ为特征向量。

其中,是新的信息张量,ci为核张量,v1为第一个变换矩阵,u1为原始因子矩阵1,v2为第二个变换矩阵,u2为原始因子矩阵2,v3为第三个变换矩阵,u3为原始因子矩阵3。特别地,sw是类内分散矩阵,sb是类间散布矩阵。定义三个类,并计算散射矩阵如下,

其中,c是分类数,yi为标签(即价格涨跌幅度),是总样本均值矩阵,ni是第i类样本数,是第i类的平均矩阵,ui是第i个样本在第i类。为了计算wu和du,得到加权矩阵w,其捕获几何结构如下:

di是w的列数之和,du和wu被定义如下:

也就是说,每个模式中矩阵的方差应该最大化。为了优化j(v),构造拉格朗日函数l,并且求l相对于v的偏导数:

l(v)=trace(vt(β(sb-αsw)+(1-β)(wu-du))v)-λ(trace(vtduv)-1)

最大化目标函数的投影矩阵a由以下方法给出:

(β(sb-αsw)+(1-β)(wu-du))v=λduv

下面具体介绍求解过程,采用高阶张量岭回归的优化方法:

y=f(x;w,b)=<x,w>+b

其中x是作为输入数据的向量,w是参数向量,b是偏差,y是该回归的输出标量。将此方法扩展到张量空间如下,

其中是作为张量的输入数据,w是与x相同尺寸的权重张量,标量b是偏置。但如果输入空间高度维度,就会有两个问题:过拟合和计算复杂度高。将权重张量约束为r秩一张量的和。那是,

其中代入方程,得到:

从等式可以看出,对于每个模式k,输入特征x沿r方向投影。这样的投影可以被认为是监督的尺寸减小或特征选择方案。

给定一系列有标签训练集其中是信息张量,yi是响应标量标签,我们的目的是获得参数θ={u(1),u(2),…,u(m)}通过下式最小化经验风险:

其中l(·)是一个损失函数,ψ(·)是正则化的,这被引入来控制模型的复杂度并避免过拟合。使用的经验损失函数是平方损失l=(y-f)2/2和正则化类型这需要对张量权重的等级r进行先验选择。那么方程式被重新定义为:

本方法中用到的数据库通过爬虫技术获取新浪股吧和东方财富股吧的帖子和回帖,又获得了百度高级搜索的特定新闻。对帖子和新闻进行自然语义处理得到特征,再结合通过公式计算得到技术指标特征。

评估标准

本方法采取两种评估方法:

方向精度(da):精度是表示观测值与真值的接近程度:

均方误差(rmse):评估预测分数与实际分数间的相关系数便于回归模型比较。r-value取值范围是[-1,1],1代表正相关,-1代表负相关:

其中n是预测的总数,s是预测价格和实际股价具有相同运动方向的预测数,pi第i个预测的预测价格,ri是第i个预测的实际股价。

对比算法

实验中将本方法与以下四种方法进行对比:

支持向量回归(svr),k最近邻回归(knr)和sgdregression是机器学习中的三种经典方法,用它们来检验市场情绪的有用性。使用特征向量(连续不同的信息向量)作为特征输入,然后可以知道没有市场情感的信息功能比具有市场情绪的信息特征具有更少的预测能力。结果如表1所示,无论rmse还是da都有更好的情感特征。

实验结果

图2表明具有市场情绪的信息特征具有更好的预测能力,无论rmse还是da都的打扫了较好的实验结果。

图3通过判别性信息和局域关系信息这两种方法构建了张量序列,并提出了oaa算法,然后分别对这三个不同的张量序列应用优化的高阶tensorridge回归,可以显示oaa算法的优势。

参考文献:

[1]anshulmittal,stockpredictionusingtwittersentimentanalysis

[2]robertp.schumaker,evaluatingsentimentinnancialnewsarticles

[3]aquantitativestockpredictionsystembasedonfinancialnews

[4]technicalanalysis,thetrader'sglossaryoftechnicaltermsandtopicsretrievedmar.15,2005,2005,from,http://www.traders.com2005.

[5]z.jelveh,howacomputerknowswhatmanymanagersdon't,thenewyorktimes,2006.

[6]g.gidofalvi,usingnewsarticlestopredictstockpricemovements

[7]v.lavrenko,m.schmill,etal.,languagemodelsforfinancialnewsrecommendation,internationalconferenceoninformationandknowledgemanagement

[8]m.mittermayer,forecastingintradaystockpricetrendswithtextminingtechniques,hawaiiinternationalconferenceonsystemsciences,kailua-kona,hi,2004.

[9]stockpricepredictionusingneuralnetworks:aprojectreport

[10]michaelkearns,machinelearningformarketmicrostructureandhigh-frequencytradings.

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1