一种股票情感指数构建方法及系统与流程

文档序号:14911145发布日期:2018-07-10 23:26阅读:340来源:国知局

本发明属于数据分析技术领域,更具体地,涉及一种股票情感指数构建方法及系统。



背景技术:

对股市具有深刻了解的证券分析人员根据股票行情的发展对未来股市发展方向以及涨跌程度进行预测。投资者可以参考对股市的预测结果进行风险规避和投资决策。因此,预测结果的精确程度对投资的成败具有重要影响。

在股票市场中,股票价格的变化与国家的宏观经济发展,法律法规的制定、公司的运营、投资心理和交易技术等都有关联,很难准确预测。证券分析师的预测行为只是基于假定因素为既定前提条件进行预测,其预测只能作为投资者的参考意见。目前通用的股票预测方法一般基于股票开盘价格、收盘价格和交易量等标准化金融数据。近年来,金融学界大量学术研究发现非标准化金融数据,例如投资者关于市场的情感极性波动指数、关于监管层面政策不确定性的相关指数,以及投资者在网络上发表的关于投资的正负言论等,对于解释和分析股票市场的波动起到关键性作用。

目前构建非标准化金融数据的方法很少且不精确,因此,亟需构建新的非标准化金融数据用于股票预测。



技术实现要素:

为克服上述目前构建非标准化金融数据的方法很少且不精确的问题或者至少部分地解决上述问题,本发明提供了一种股票情感指数构建方法及系统。

根据本发明的第一方面,提供一种股票情感指数构建方法,包括:

S1,根据当前时间段发布的与目标股票相关的各文档中的标点符号,将各所述文档划分为语句;

S2,根据各所述语句中各词语的情感极性确定各所述语句的情感极性,根据各所述文档中各语句的情感极性确定各所述文档的情感极性;

S3,根据各所述文档的情感极性,构建所述目标股票当前时间段的情感指数。

具体地,所述步骤S2中根据各所述语句中各词语的情感极性确定各所述语句的情感极性具体包括:

对于任一所述语句,若该语句中积极情感的词语的个数大于该语句中消极情感的词语的个数,则该语句的情感极性为积极情感;

对于任一所述语句,若该语句中积极情感的词语的个数等于该语句中消极情感的词语的个数,则该语句的情感极性为中性情感;

对于任一所述语句,若该语句中积极情感的词语的个数小于该语句中消极情感的词语的个数,则该语句的情感极性为消极情感。

具体地,所述步骤S2中根据各所述文档中各语句的情感极性确定各所述文档的情感极性具体包括:

对于任一所述文档,若该文档中积极情感的语句的个数大于该文档中消极情感的语句的个数,则该文档的情感极性为积极情感;

对于任一所述文档,若该文档中积极情感的语句的个数等于该文档中消极情感的语句的个数,则该文档的情感极性为中性情感;

对于任一所述文档,若该文档中积极情感的语句的个数小于该文档中消极情感的语句的个数,则该文档的情感极性为消极情感。

具体地,所述步骤S3中通过以下公式构建所述目标股票当前时间段的情感指数:

其中,St为第t个时间段目标股票的情感指数,为第t个时间段发布的积极情感的文档的个数,为第t个时间段发布的消极情感的文档的个数。

具体地,所述步骤S2还包括:

对于任一所述词语,若该词语的情感极性为积极情感且该词语的前一个词语为否定词,则将该词语和所述否定词合成为一个词语,合成的词语的情感极性为消极情感;

对于任一所述词语,若该词语的情感极性为消极情感且该词语的前一个词语为否定词,则将该词语和所述否定词合成为一个词语,合成的词语的情感极性为积极情感。

具体地,所述步骤S3之后还包括当所述当前时间段为周一时,通过以下公式对所述目标股票当前时间段的情感指数进行调整:

其中,St'为所述目标股票第t个时间段调整后的情感指数,St为所述目标股票第t个时间段调整前的情感指数,St-1为所述目标股票第t-1个时间段调整前的情感指数,St-2为所述目标股票第t-2个时间段调整前的情感指数,a1、a2和a3为常数,a1>a2>a3,λ为预设参数。

具体地,所述步骤S3之后还包括当所述目标股票连续k天休市时,通过以下公式对所述目标股票当前时间段的情感指数进行调整:

Sk+1'=e-kλS1+e-(k-1)λS2+…+eSk+Sk+1;

其中,k表示所述当前时间段的前k个时间段休市,Sk+1'为所述目标股票当前时间段调整后的情感指数,Sk+1为所述目标股票当前时间段调整前的情感指数,S1为所述休市的第一个时间段目标股票的情感指数,S2为所述休市的第二个时间段目标股票的情感指数,Sk为所述休市的第k个时间段目标股票的情感指数,λ为预设参数。

根据本发明的第二方面,提供一种股票情感指数构建系统,包括:

划分模块,用于根据当前时间段发布的与目标股票相关的各文档中的标点符号,将各所述文档划分为语句;

获取模块,用于根据各所述语句中各种情感极性的词语的个数获取各所述语句的情感极性,根据各所述文档中各种情感极性的所述语句的个数获取各所述文档的情感极性;

构建模块,用于根据各种情感极性的所述文档的个数,构建所述目标股票当前时间段的情感指数。

根据本发明的第三方面,提供一种股票情感指数构建设备,包括:

至少一个处理器、至少一个存储器和总线;其中,

所述处理器和存储器通过所述总线完成相互间的通信;

所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如前所述的方法。

根据本发明的第四方面,提供一种非暂态计算机可读存储介质,用于存储如前所述方法的计算机程序。

本发明提供一种股票情感指数构建方法及系统,该方法通过获取与目标股票相关的各文档,根据文档中组成各语句的词语的情感极性确定文档中各语句的情感极性,根据组成文档的各语句的情感极性确定各文档的情感极性,根据各文档的情感极性构建目标股票的情感指数,构建方法简单,更精确反应人们对目标股票所持有的态度,有助于指导投资者进行风险规避和投资决策。

附图说明

图1为本发明实施例提供的股票情感指数构建方法整体流程示意图;

图2为本发明实施例提供的股票情感指数构建系统整体结构示意图;

图3为本发明实施例提供的股票情感指数构建设备整体结构示意图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

在本发明的一个实施例中提供一种股票情感指数构建方法,图1为本发明实施例提供的股票情感指数构建方法整体流程示意图,该方法包括:S1,根据当前时间段发布的与目标股票相关的各文档中的标点符号,将各所述文档划分为语句;S2,根据各所述语句中各种情感极性的词语的个数获取各所述语句的情感极性,根据各所述文档中各种情感极性的语句的个数获取各所述文档的情感极性;S3,根据各种情感极性的所述文档的个数,构建所述目标股票当前时间段的情感指数。

具体地,S1中,所述当前时间段可以为一个月、一天、一周、一小时或一分钟,因此可以对目标股票每个时间段的情感指数进行构建,形成时间序列的情感指数。所述目标股票为需要构建情感指数的股票。所述与目标股票相关的文档包括从网页中获取的用户关于所述目标股票的言论,以及证券分析人员、股票研究人员或投资者发布的关于所述目标股票的文章等。根据各所述文档中的标点符合,将各所述文档划分成一个或多个语句。所述标点符合包括句号、逗号、冒号、分号和感叹号中的一种或多种。

S2中,对各所述语句进行分词,通过语义分析领域通用的情感极性词典确定各所述语句中各词语的情感极性。所述情感极性又称情感倾向性,是指文本的感情色彩,如积极,消极和中立等。本实施例中不限于情感极性的种类。对于任一所述语句,分别统计该语句中各种情感极性的词语的个数,根据该语句中各种情感极性的词语的个数确定该语句的情感极性。对于任一所述文档,分别统计该文档中各种情感极性的语句的个数,根据该文档中各种情感极性的语句的个数确定该文档的情感极性。

S3中,分别统计各种情感极性的所述文档的个数,根据各种情感极性的所述文档的个数构建所述目标股票当前时间段的情感指数。所述情感指数反映人们对所述目标股票所持有的态度。本实施例中构建的情感指数更为合理和直观,可以作为投资者的参考,从而进行风险规避和投资决策。

本实施例通过获取与目标股票相关的各文档,根据文档中组成各语句的词语的情感极性确定文档中各语句的情感极性,根据组成文档的各语句的情感极性确定各文档的情感极性,根据各文档的情感极性构建目标股票的情感指数,构建方法简单,更精确反应人们对目标股票所持有的态度,有助于指导投资者进行风险规避和投资决策。

在上述实施例的基础上,本实施例中所述步骤S2中根据各所述语句中各词语的情感极性确定各所述语句的情感极性具体包括:对于任一所述语句,若该语句中积极情感的词语的个数大于该语句中消极情感的词语的个数,则该语句的情感极性为积极情感;对于任一所述语句,若该语句中积极情感的词语的个数等于该语句中消极情感的词语的个数,则该语句的情感极性为中性情感;对于任一所述语句,若该语句中积极情感的词语的个数小于该语句中消极情感的词语的个数,则该语句的情感极性为消极情感。

具体地,由于语句相比于词语更能表达完整的态度和观点,故以语句为单位可以更好地确定文档所表达的情绪。为了确定文档中各语句的情感极性,首先根据各所述文档中的标点符号将各文档划分为语句,分别统计各语句中包含积极情感的词语和消极情感的词语的个数。对于任一语句i,假设语句i包含积极情感的词语的个数为pi,包含消极情感的词语的个数为ni。若pi>ni,则确定语句i的情感极性为积极情感;若pi=ni,则确定语句i的情感极性为中性情感;若pi<ni,则确定语句i的情感极性为消极情感。

在上述实施例的基础上,本实施例中所述步骤S2中根据各所述文档中各语句的情感极性确定各所述文档的情感极性具体包括:对于任一所述文档,若该文档中积极情感的语句的个数大于该文档中消极情感的语句的个数,则该文档的情感极性为积极情感;对于任一所述文档,若该文档中积极情感的语句的个数等于该文档中消极情感的语句的个数,则该文档的情感极性为中性情感;对于任一所述文档,若该文档中积极情感的语句的个数小于该文档中消极情感的语句的个数,则该文档的情感极性为消极情感。

具体地,本实施例根据各文档中各语句的情感极性,确定各文档的情感极性。对于任一文档j,,假设文档j包含积极情感的语句的个数为pj,包含消极情感的语句的个数为nj。若pj>nj,则确定文档j的情感极性为积极情感;若pj=nj,则确定文档j的情感极性为中性情感;若pj<nj,则确定文档j的情感极性为消极情感。

在上述实施例的基础上,本实施例中所述步骤S3中通过以下公式构建所述目标股票当前时间段的情感指数:

其中,St为第t个时间段目标股票的情感指数,为第t个时间段发布的积极情感的文档的个数,为第t个时间段发布的积极情感的文档个数。

具体地,一个时间段会发布多篇关于所述目标股票的文档,假设第t个时间段发布的积极情感的文档个数为发布的消极情感的文档个数为则所述目标股票时间序列的情感指数为:

由上述公式可知,情感指数St的值在[-1,1]区间变换。若St>0,则说明人们对所述目标股票持有积极态度;若St=0,则说明人们对股票市场持有中立态度;若St<0,则说明人们对股票市场持有消极态度。将所述当前时间段作为所述第t个时间段,使用上述公式计算当前时间段的情感指数。

在上述各实施例的基础上,本实施例中所述步骤S2还包括:对于任一所述词语,若该词语的情感极性为积极情感且该词语的前一个词语为否定词,则将该词语和所述否定词合成为一个词语,合成的词语的情感极性为消极情感;对于任一所述词语,若该词语的情感极性为消极情感且该词语的前一个词语为否定词,则将该词语和所述否定词合成为一个词语,合成的词语的情感极性为积极情感。

具体地,对于任一语句中的任一词语,若该词语的前一个词语为否定词,所述否定词为表示否定意义的词语,则将否定词语和该词语视为同一个词语,表达与该词语相反的情感。

在上述各实施例的基础上,本实施例中所述步骤S3之后还包括当所述当前时间段为周一时,通过以下公式对所述目标股票当前时间段的情感指数进行调整:

其中,St'为所述目标股票第t个时间段调整后的情感指数,St为所述目标股票第t个时间段调整前的情感指数,St-1为所述目标股票第t-1个时间段调整前的情感指数,St-2为所述目标股票第t-2个时间段调整前的情感指数,a1、a2和a3为常数,a1>a2>a3,λ为预设参数。

具体地,本实施例考虑到日历效应对股票情绪指数构建的影响。所述日历效应是金融市场异象的典型表现,是指周一的平均收益率显著低于一周内其他交易日的收益率。其原包括周五闭市后,市场上堆积了大量的新闻,这些新闻对人们的投资决策产生了显著影响。因此,当所述当前时间段为周一时,将周一的情绪指数St调整为:

其中,等号右侧St为周一调整前的情绪指数,St-1为周日调整前的情感指数,St-2为周六调整前的情感指数。a1、a2和a3为常数,可以设置为a1=2,a2=1,a3=0。调整后周一的情感指数St'是调整前周五、周六和周日的情感指数的加权值,权重表示为指数函数的形式。随着时间距离周一逐渐变远,权重以指数量级递减,因此a1>a2>a3。本实施例通过考虑到日历效应,对目标股票周一的情感指数进行调整,从而使构建的情感指数更精确。

在上述各实施例的基础上,本实施例中所述步骤S3之后还包括当所述当前时间段的前一个或多个时间段休市时,通过以下公式对所述目标股票当前时间段的情感指数进行调整:

Sk+1'=e-kλS1+e-(k-1)λS2+…+eSk+Sk+1;

其中,k表示所述当前时间段的前k个时间段休市,Sk+1'为所述目标股票当前时间段调整后的情感指数,Sk+1为所述目标股票当前时间段调整前的情感指数,S1为所述休市的第一个时间段目标股票的情感指数,S2为所述休市的第二个时间段目标股票的情感指数,Sk为所述休市的第k个时间段目标股票的情感指数,λ为预设参数。

具体地,本实施例考虑到假期情形的日历效应的推广。股票市场在国家法定节假日和一下特殊的日期会休市。当连续休市k个时间段时,第k+1个时间段的情感指数,即开市后第一个时间段的情感指数可调整为:

Sk+1'=e-kλS1+e-(k-1)λS2+…+eSk+Sk+1。

本实施例考虑股票市场在国家法定节假日和一些特殊日期休市的情况,对休市后的第一个时间段的情感指数进行调整,从而使构建的情感指数更精确。

在本发明的另一个实施例中提供一种股票情感指数构建系统,图2为本发明实施例提供的股票情感指数构建系统整体结构示意图,该系统包括划分模块1、获取模块2和构建模块3,其中:

所述划分模块1用于根据当前时间段发布的与目标股票相关的各文档中的标点符号,将各所述文档划分为语句;所述获取模块2用于根据各所述语句中各种情感极性的词语的个数获取各所述语句的情感极性,根据各所述文档中各种情感极性的所述语句的个数获取各所述文档的情感极性;所述构建模块3用于根据各种情感极性的所述文档的个数,构建所述目标股票当前时间段的情感指数。

具体地,所述当前时间段可以为一个月、一天、一周、一小时或一分钟,因此可以对目标股票每个时间段的情感指数进行构建,形成时间序列的情感指数。所述目标股票为需要构建情感指数的股票。所述与目标股票相关的文档包括从网页中获取的用户关于所述目标股票的言论,以及证券分析人员、股票研究人员或投资者发布的关于所述目标股票的文章等。所述划分模块1根据各所述文档中的标点符合,将各所述文档划分成一个或多个语句。所述标点符合包括句号、逗号、冒号、分号和感叹号中的一种或多种。

所述获取模块2对各所述语句进行分词,通过语义分析领域通用的情感极性词典确定各所述语句中各词语的情感极性。所述情感极性又称情感倾向性,是指文本的感情色彩,如积极,消极和中立等。本实施例中不限于情感极性的种类。对于任一所述语句,分别统计该语句中各种情感极性的词语的个数,根据该语句中各种情感极性的词语的个数确定该语句的情感极性。对于任一所述文档,分别统计该文档中各种情感极性的语句的个数,根据该文档中各种情感极性的语句的个数确定该文档的情感极性。

所述构建模块3分别统计各种情感极性的所述文档的个数,根据各种情感极性的所述文档的个数构建所述目标股票当前时间段的情感指数。所述情感指数反映人们对所述目标股票所持有的态度。本实施例中构建的情感指数更为合理和直观,可以作为投资者的参考,从而进行风险规避和投资决策。

本实施例通过获取与目标股票相关的各文档,根据文档中组成各语句的词语的情感极性确定文档中各语句的情感极性,根据组成文档的各语句的情感极性确定各文档的情感极性,根据各文档的情感极性构建目标股票的情感指数,构建方法简单,更精确反应人们对目标股票所持有的态度,有助于指导投资者进行风险规避和投资决策。

在上述实施例的基础上,本实施例中所述获取模块具体用于:对于任一所述语句,若该语句中积极情感的词语的个数大于该语句中消极情感的词语的个数,则该语句的情感极性为积极情感;对于任一所述语句,若该语句中积极情感的词语的个数等于该语句中消极情感的词语的个数,则该语句的情感极性为中性情感;对于任一所述语句,若该语句中积极情感的词语的个数小于该语句中消极情感的词语的个数,则该语句的情感极性为消极情感。

在上述实施例的基础上,本实施例中所述获取模块具体用于:对于任一所述文档,若该文档中积极情感的语句的个数大于该文档中消极情感的语句的个数,则该文档的情感极性为积极情感;对于任一所述文档,若该文档中积极情感的语句的个数等于该文档中消极情感的语句的个数,则该文档的情感极性为中性情感;对于任一所述文档,若该文档中积极情感的语句的个数小于该文档中消极情感的语句的个数,则该文档的情感极性为消极情感。

在上述实施例的基础上,本实施例中所述构建单元通过以下公式构建所述目标股票当前时间段的情感指数:

其中,St为第t个时间段目标股票的情感指数,为第t个时间段发布的积极情感的文档的个数,为第t个时间段发布的积极情感的文档个数。

在上述各实施例的基础上,本实施例中所述获取单元还用于:对于任一所述词语,若该词语的情感极性为积极情感且该词语的前一个词语为否定词,则将该词语和所述否定词合成为一个词语,合成的词语的情感极性为消极情感;对于任一所述词语,若该词语的情感极性为消极情感且该词语的前一个词语为否定词,则将该词语和所述否定词合成为一个词语,合成的词语的情感极性为积极情感。

在上述各实施例的基础上,本实施例中还包括第一调整单元,用于当所述当前时间段为周一时,通过以下公式对所述目标股票当前时间段的情感指数进行调整:

其中,St'为所述目标股票第t个时间段调整后的情感指数,St为所述目标股票第t个时间段调整前的情感指数,St-1为所述目标股票第t-1个时间段调整前的情感指数,St-2为所述目标股票第t-2个时间段调整前的情感指数,a1、a2和a3为常数,a1>a2>a3,λ为预设参数。

在上述各实施例的基础上,本实施例中还包括第二调整单元,用于当所述当前时间段的前一个或多个时间段休市时,通过以下公式对所述目标股票当前时间段的情感指数进行调整:

Sk+1'=e-kλS1+e-(k-1)λS2+…+eSk+Sk+1;

其中,k表示所述当前时间段的前k个时间段休市,Sk+1'为所述目标股票当前时间段调整后的情感指数,Sk+1为所述目标股票当前时间段调整前的情感指数,S1为所述休市的第一个时间段目标股票的情感指数,S2为所述休市的第二个时间段目标股票的情感指数,Sk为所述休市的第k个时间段目标股票的情感指数,λ为预设参数。

本实施例提供一种股票情感指数构建设备,图3为本发明实施例提供的股票情感指数构建设备整体结构示意图,该设备包括:至少一个处理器31、至少一个存储器32和总线33;其中,

所述处理器31和存储器32通过所述总线33完成相互间的通信;

所述存储器32存储有可被所述处理器31执行的程序指令,所述处理器调用所述程序指令能够执行上述各方法实施例所提供的方法,例如包括:S1,根据当前时间段发布的与目标股票相关的各文档中的标点符号,将各所述文档划分为语句;S2,根据各所述语句中各种情感极性的词语的个数获取各所述语句的情感极性,根据各所述文档中各种情感极性的语句的个数获取各所述文档的情感极性;S3,根据各种情感极性的所述文档的个数,构建所述目标股票当前时间段的情感指数。

本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:S1,根据当前时间段发布的与目标股票相关的各文档中的标点符号,将各所述文档划分为语句;S2,根据各所述语句中各种情感极性的词语的个数获取各所述语句的情感极性,根据各所述文档中各种情感极性的语句的个数获取各所述文档的情感极性;S3,根据各种情感极性的所述文档的个数,构建所述目标股票当前时间段的情感指数。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的股票情感指数构建设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1