一种基于投资者情绪和数值数据的股票价格指数预测方法

文档序号:34077492发布日期:2023-05-06 22:37阅读:78来源:国知局
一种基于投资者情绪和数值数据的股票价格指数预测方法

本发明涉及股票价格预测,提出了一种基于投资者情绪和数值数据的股票价格指数预测方法。


背景技术:

1、近年来,股票价格预测作为金融数据领域的研究热点,大量的研究者采用基于数值数据的方法对股票价格进行预测,忽略了社交媒体上文本数据对股票市场的影响。为了充分利用文本数据的信息,本发明提出了一种基于投资者情绪和数值数据的股票价格指数预测方法。利用基于情感词典的方法对股吧评论文本数据进行情感分析获得投资者情绪指标。该指标衡量了投资者对股票市场的看法。由于基础情感词典是针对所有领域通用的,在金融领域词汇的划分上难免有失偏颇,本发明根据金融领域词典cfsd中文金融情感词典、百度编制的金融专业词库、爬取的股吧评论文本数据以及股票操作常用词汇人工加入和修改了金融领域的情感词,以提高情感分析的准确度。

2、为了更好的利用文本和数值数据信息对股票价格进行预测,本发明利用长短期记忆网络(long short-term memory,lstm)构建了基于投资者情绪和数值数据的股票价格指数预测模型,该模型在输入特征上是多维度的,不仅仅包括沪深300指数收盘价,还融合了基于股吧评论的投资者情绪指标,且该模型是以沪深300指数的收盘价数据为预测输出对象。该模型采用三个lstm网络层,分别为lstm输入层、lstm隐藏层以及lstm输出层。其中输入层有5个神经元,分别用来处理连续5天的收盘价以及投资者情绪指标数据,只有lstm输出层的最后一个神经元进行预测结果的输出。具体来说,就是用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入特征维度,对第6天的收盘价进行预测。

3、本发明技术解决了现有的股票价格预测模型往往只利用数值数据,鲜有研究融合文本情感数据构建股票价格预测模型的问题。虽然数值数据可以在很大程度上反映股票市场的走势,但是随着行为金融学理论的提出,由社交媒体文本数据所折射出的投资者情绪在一定程度上影响着股票市场的波动。结合文本情绪指标和数值数据作为输入特征可以进一步提高股票价格预测模型的准确度。


技术实现思路

1、本发明旨在通过利用沪深300指数股吧评论文本数据和历史收盘价数据对股票价格指数进行预测,设计系统并实现。

2、为达到上述目的,针对文本数据对股票市场的影响,本发明提出了一种基于投资者情绪和数值数据的股票价格指数预测方法,包括以下步骤:

3、s1,数据的获取和预处理过程;选用沪深300指数(000300)数据作为研究对象,爬取了沪深300指数2020年8月31日至2021年9月1日近一整年的收盘价数值和股吧评论文本数据,并对数据进行去噪声处理和数值归一化处理;

4、s2,构建金融领域特定情感词典;本发明构建的金融领域特定情感词典包括两个步骤,一是融合现有的通用情感词典,二是加入金融领域特有情感词;本发明融合多个通用情感词典,在此基础上进行领域适应,根据金融领域特定词典、爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典;

5、s3,构建投资者情绪指标;利用金融领域特定情感词典计算每条股吧评论文本数据的情感倾向值,在此基础上分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标;

6、s4,构建基于投资者情绪和数值数据的股票价格指数预测模型;使用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入特征,模型共包含三个长短期记忆神经网络(long short-term memory,lstm)层。并对沪深300指数最后20天的收盘价数据进行预测,对预测结果进行反归一化,最后对结果进行比较和可视化;

7、s5,构建基于投资者情绪和数值数据的股票价格指数预测系统;包括预测系统设计和预测系统实现。

8、根据本发明实施例提出的基于投资者情绪和数值数据的股票价格指数预测方法,首先爬取沪深300指数相关数据,获得收盘价数值和股吧评论文本数据,对数据进行预处理。并构建金融领域特定情感词典,进而对预处理后的文本数据进行情感分析并做量化处理后获得投资者情绪指标。其次,构建基于投资者情绪和数值数据的股票价格指数预测模型,利用模型对沪深300指数最后20天的收盘价数据进行预测,对预测结果反归一化后进行比较和可视化。最后,设计实现了股票价格指数预测系统。

9、根据本发明的一个实施例,所述步骤s1包括:

10、s11,使用excel软件中的“排序和筛选”以及“查找和选择”等功能对股吧评论根据文本的特征形式进行去除噪声处理;

11、s12,使用归一化函数minmaxscaler对收盘价数据进行了离差标准化,将结果值归一化到[0,1]区间:

12、

13、其中,xnormaliation为标准化后的数据,x为样本数据,xmax和xmin为样本数据中的最大值和最小值。

14、根据本发明的一个实施例,步骤s2还包括:

15、s21,融合了现有的通用情感词典,包括hownet情感词典、清华大学中文褒贬义词典、大连理工大学中文情感词汇本体库、波森情感词典、褒贬词及其近义词、汉语情感词极值表、情感词汇本体、情感词典及其分类;对多个词典文档进行融合,并进行去重处理,同时将词典归结为积极词汇和消极词汇两大类,并对情感词典的权重进行统一调整;

16、s22,本发明根据金融领域特定词典(cfsd中文金融情感词典、百度编制的金融专业词库)、爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典。

17、根据本发明的一个实施例,步骤s3还包括:

18、s31,对每条股吧评论文本数据进行基于金融领域情感词典的情感分析,将得到的分析结果按照本发明的量化公式进行计算,得到情感倾向值:

19、

20、其中,n表示每条评论文本所包含的情感词汇的个数,cj为某股吧评论文本句子si分词后的积极情感词、消极情感词或中性情感词,denyj为情感词cj前出现否定词的数量,wj为情感词前的程度词的权重,wj的默认值为1,wj是根据知网情感词典中的六种程度词赋予不同的程度等级;如果sent(si)>0,则表示投资者对股票市场看好,反之如果sent(si)<0,则表示投资者对股票市场看跌;

21、s32,分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标,并对其进行归一化处理。

22、根据本发明的一个实施例,步骤s4还包括:

23、s41,基于投资者情绪和数值数据的股票价格指数预测模型共有三层,分别为lstm输入层、lstm隐藏层以及lstm输出层;其中输入层有5个神经元,使用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入层;

24、s42,经过模型训练后,使用lstm输出层的最后一个神经元对第6天的收盘价预测结果进行输出,进而对沪深300指数最后20天的收盘价数据进行预测,并对预测结果进行反归一化,最后对结果进行比较和可视化。

25、根据本发明的一个实施例,步骤s5还包括:

26、s51,股票价格指数预测系统采用mvc框架设计,即model、view和controller框架,其中model是模型层,view是视图层,controller是操作层;系统功能实现主要依托python语言,且使用tkinter库对预测系统完成界面设计;

27、s52,股票价格指数预测系统实现了两个模块功能:一是对股票相关文本数据进行情感分析并构建投资者情绪指标;二是实现股票价格指数预测并对结果可视化展示,同时对预测模型的性能进行评估。

28、与现有技术相比,本发明具有以下有益效果:

29、(1)本发明提出了一种基于投资者情绪和数值数据的股票价格指数预测方法,具体利用金融领域特定情感词典对股吧评论文本数据进行情感分析,获得投资者情绪指标,并结合历史收盘价数据对股票价格指数进行预测。

30、(2)构建了金融领域特定情感词典和投资者情绪指标,其中特定情感词典融合了多个通用情感词典和金融领域特定情感词,投资者情绪指标的加入进一步提高了股票价格指数预测的准确性。

31、(3)在沪深300指数2020年8月31日至2021年9月1日近一整年的收盘价数据上验证了本发明提出的股票价格指数预测方法,实验结果验证了在lstm模型中融合基于股吧评论文本数据的投资者情绪指标后,模型的准确度又得到了进一步的提升,基于股吧评论文本数据的投资者情绪指标对股票市场的波动有着一定的影响,将其和数值数据融合作为模型的输入特征可以有效地提高预测准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1