基于机器学习的股票评论的观点极性分类方法和装置与流程

文档序号:16782681发布日期:2019-02-01 19:15阅读:401来源:国知局
本发明涉及人工智能和大数据领域,具体涉及一种基于机器学习的股票评论的观点极性分类方法、装置、电子设备和计算机可读存储介质。
背景技术
::投资者通常会利用搜索引擎寻找相关价值信息帮助其最终决策,而这些决策过程大部分是依靠人的分析判断以及经验。事实上,互联网中的股票评论数据包含了丰富且有价值的语义信息,能够帮助投资者理解市场走势以及股票动态。已有的股票评论分析方法通常仅仅聚焦在捕获股票评论的情感极性,从而理解股票评论对于市场走势的宏观作用。然而,互联网中的股票评论往往包含了大量的噪声,如水军以及个人主观倾向从众心理等,从而严重地影响投资者的判断。因此利用人工智能技术对股票评论信息进行细粒度权威性分析,进而自动地为股民和股票分析师从海量信息中精选优质股票是非常有意义的。技术实现要素:鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于机器学习的股票评论的观点极性分类方法、装置、电子设备和计算机可读存储介质。依据本发明的一个方面,提供了一种基于机器学习的股票评论的观点极性分类方法,该方法包括:获取由股票评论文本组成的训练集和验证集,并为训练集和验证集中的每条股票评论文本标注观点极性;基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对所述学习模型的效果进行评测,得到训练后的机器学习模型;将待预测的股票评论文本的相关信息输入到所述训练后的机器学习模型,得到该机器学习模型输出的该股票评论文本的观点极性分类信息。根据本发明的了另一个方面,提供了一种基于机器学习的股票评论的观点极性分类装置,该装置包括:获取单元,适于获取由股票评论文本组成的训练集和验证集,并为训练集和验证集中的每条股票评论文本标注观点极性;训练单元,适于基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对所述学习模型的效果进行评测,得到训练后的机器学习模型;预测单元,适于将待预测的股票评论文本的相关信息输入到所述训练后的机器学习模型,得到该机器学习模型输出的该股票评论文本的观点极性分类信息。根据本发明的又一个方面,提供了一种电子设备,所述电子设备包括:处理器,以及存储有可在处理器上运行的计算机程序的存储器;其中,所述处理器,用于在执行所述存储器中的计算机程序时执行上述任一项所述的方法。根据本发明的又一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述的方法。根据本发明的技术方案,通过获取由股票评论文本组成的训练集和验证集,并为训练集和验证集中的每条股票评论文本标注观点极性;基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对所述学习模型的效果进行评测,得到训练后的机器学习模型;将待预测的股票评论文本的相关信息输入到所述训练后的机器学习模型,得到该机器学习模型输出的该股票评论文本的观点极性分类信息。本发明对现有的机器学习模型进行特殊处理及训练,对股票评论数据进行观点极性分类预测,使得待预测的股票评论文本的相关信息输入到训练后的机器学习模型后即可得到该机器学习模型输出的该股票评论文本的观点极性分类信息,方便快捷,准确度高,能够帮助投资者更加准确地理解市场走势以及股票动态,供投资者或股市分析员使用。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本发明一个实施例的一种基于机器学习的股票评论的观点极性分类方法流程图;图2为一条股票评论数据信息示意图;图3为一条股票评论数据信息的另一表示方式示意图;图4为原始股票评论数据量和清洗后的股票评论数据量示意图;图5为采用智能选股方法c选择股票后的盈利情况示意图;图6示出了根据本发明一个实施例的一种基于机器学习的股票评论的观点极性分类装置示意图;图7示出了本发明一个实施例的另一种基于机器学习的股票评论的观点极性分类装置示意图;图8是本发明实施例中的电子设备的结构示意图;图9是本发明实施例中的一种计算机可读存储介质的结构示意图。具体实施方式本发明出现的名词解释:fm:factorizationmachine,因子分解机,是一种公知算法,由steffenrendle提出的一种基于矩阵分解的机器学习算法,被广泛的应用于分类及预估模型中。svm:supportvectormachine,支持向量机,是一种公知算法,为一种常见的判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。arma:autoregressivemovingaverage,自回归滑动平均模型,模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法,适用于很大一类实际问题。它比ar模型法与ma模型法有较精确的谱估计及较优良的谱分辨率性能。osratio:opinionshiftratio,观点改变比率,用于表征股票评论员对同一股票改变观点的可能性。tsratio:theratiooftrue-then-shift,改变正确观点比率,用于表征股票评论员对股票评论观点正确前提下改变观点的可能性。fsratio:theratiooffalse-then-shift,改变错误观点比率,用于表针股票评论员对股票评论观点错误前提下改变观点的可能性。tctratio:thereliabilityratiooftrue-then-constant,一致正确观点可靠比率,用于表征股票评论员对股票评论观点正确前提下仍保持该观点的可靠性。tstratio:thereliabilityratiooftrue-then-shift,改变正确观点可靠比率,用于表征股票评论员对股票评论观点正确前提下改变观点的可靠性。fctratio:thereliabilityratiooffalse-then-constant,一致错误观点可靠比率,用于表征股票评论员对股票评论观点错误前提下仍保持该观点的可靠性。fstratio:thereliabilityratiooffalse-then-shift,改变错误观点可靠比率,用于表征股票评论员对股票评论观点错误前提下改变观点的可靠性。bic准则:bayesianinformationcriterion,贝叶斯信息准则。贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本发明一个实施例的一种基于机器学习的股票评论的观点极性分类方法流程图,如图1所示,该方法包括:步骤s11:获取由股票评论文本组成的训练集和验证集,并为训练集和验证集中的每条股票评论文本标注观点极性;步骤s12:基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对学习模型的效果进行评测,得到训练后的机器学习模型;该步骤包括:从训练集的股票评论文本中提取特征,以提取的特征作为机器学习模型的输入,以股票评论文本的观点极性分类信息作为所述机器学习模型的输出;基于机器学习模型的输出的观点极性分类信息和相应股票评论文本标注的观点极性,计算机器学习模型的损失,并基于计算出的损失学习机器学习模型的参数;从验证集的股票评论文本中提取特征,将提取的特征输入到机器学习模型中,得到机器学习模型输出的股票评论文本的观点极性分类信息;基于机器学习模型的输出的观点极性分类信息和相应股票评论文本标注的观点极性,评测机器学习模型的效果;步骤s13:将待预测的股票评论文本的相关信息输入到训练后的机器学习模型,得到该机器学习模型输出的该股票评论文本的观点极性分类信息。其中,从训练集的股票评论文本中提取特征包括:确定词典;基于词典,确定训练集中的每条股票评论文本的词频逆文本频率tf-idf特征;其中,tf-idf特征为词典尺寸大小的向量,其每个维度为相应词基于该股票评论文本的tf-idf值;从验证集的股票评论文本中提取特征包括:基于词典,确定验证集中的每条股票评论文本的词频逆文本频率tf-idf特征;待预测的股票评论文本的相关信息为:该股票评论文本的tf-idf特征。通过获取由股票评论文本组成的训练集和验证集,并为训练集和验证集中的每条股票评论文本标注观点极性;基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对所述学习模型的效果进行评测,得到训练后的机器学习模型;将待预测的股票评论文本的相关信息输入到所述训练后的机器学习模型,得到该机器学习模型输出的该股票评论文本的观点极性分类信息。本发明对现有的机器学习模型进行特殊处理及训练,对股票评论数据进行观点极性分类预测,使得待预测的股票评论文本的相关信息输入到训练后的机器学习模型后即可得到该机器学习模型输出的该股票评论文本的观点极性分类信息,方便快捷,准确度高,能够帮助投资者更加准确地理解市场走势以及股票动态,供投资者或股市分析员使用。在本发明的一个实施例中,图1所示方法进一步包括:将机器学习模型输出的股票评论文本的观点极性分类信息与相应股票在相应时间的实际涨跌情况进行比较,确定该股票评论文本的可靠性指数。在本发明的一个实施例中,图1所示方法进一步包括:为股票评论文本生成相应的结构化数据,该结构化数据包括:股票评论员标识、评论时间、目标股票、观点极性和可靠性指数。在本发明的一个实施例中,图1所示方法进一步包括:获取结构化的股票评论数据;其中,一条股票评论数据是指单个股票评论员对单个股票的单次评论数据;基于所获取的股票评论数据,挖掘股票评论员的观点极性分布信息;具体包括如下中的一种或多种:基于所获取的股票评论数据中的同一股票评论员针对同一股票的所有历史股票评论数据,确定该股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定该股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的同一股票评论员针对不同股票的所有历史股票评论数据,确定该股票评论员发布看涨的股票评论数据的概率,以及确定该股票评论员发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对同一股票的所有历史股票评论数据,确定股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对不同股票的所有历史股票评论数据,确定发布看涨的股票评论数据的概率,以及确定发布看跌的股票评论数据的概率。以及,基于所获取的股票评论数据,挖掘股票评论员的观点可靠性分布信息;具体包括:根据不同股票的价格时序信息,确定所获取的股票评论数据中的同一个股票评论员针对不同股票的所有历史股票评论数据中的每一条股票评论数据的正确与否;根据一个股票评论员的正确的股票评论数据数量和错误的股票评论数据数量,确定该股票评论员的观点的正确概率。在本发明的一个实施例中,图1所示方法进一步包括:基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股票评论数据对;基于提取的股票评论数据对,统计该股票评论员保持观点的概率和改变观点的概率。在本发明的一个实施例中,图1所示方法进一步包括:基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股票评论数据对;基于提取的股票评论数据对,确定该股票评论员在观点正确的前提下改变观点的概率tsratio,以及确定该股票评论员在观点错误的前提下改变观点的概率fsratio;基于提取的股票评论数据对,确定该股票评论员在观点正确的前提下保持观点,且保持的观点正确的概率tctratio,以及确定该股票评论员在观点正确的前提下改变观点,且改变的观点正确的概率tstratio;基于提取的股票评论数据对,确定该股票评论员在观点错误的前提下保持观点,且保持的观点正确的概率fctratio,以及确定该股票评论员在观点错误的前提下改变观点,且改变的观点正确的概率fstratio。本发明提出的对股票评论数据进行可靠性建模的解决方案,该方案为一个统一的框架,融合了多种异构信息源,例如股票价格时序、股票评论文本内容以及发表股票评论的股票评论员的历史行为,可以有效过滤噪声,筛选出有价值、可靠的股票评论信息,供投资者或股市分析员使用;不仅可应用于股票评论信息可靠性分析,还可应用于金融领域其他方面,如经济形势分析、股票精准推荐、投资组合管理和自动交易等。具体实现方案如下:一、股票评论数据清洗处理,通过数据清洗可以初步清洗掉互联网得到的股票评论数据的噪声,包括:(1)删除观点极性为中立的股票评论数据。(2)删除长度小于5的股票评论序列所对应的序列数据及股票评论数据。图2为一条股票评论数据信息示意图,如图2所示,一条股票评论文本包括股评员201(allan)、时间202(8daysago)、观点极性203(buy,bullish)、目标股票204(ibm)、评论内容205(ithinkthereisasupportat173.11)等信息。其中,因观点极性为中立时,很难被自动识别,即删除观点极性为中立的股票评论数据需要人工去筛选。“长度小于5的股票评论序列”是指同一股票评论人对同一股票的评论次数小于5。图3为一条股票评论数据信息的另一表示方式示意图,从图中可以看出,目标股票分类为a股,提问者对是否买进sh60000,股票评论员柳岸林对此进行了回答,评论时间为2016-12-29,观点极性为看涨,包含观点极性的内容为:股价遇到年线支撑,可以考虑买入,观点供参考。图4为原始股票评论数据量和清洗后的股票评论数据量示意图,该数据来源为新浪理财师网站。从图中可以看出,清洗后的数量大大减少,清除掉了大量股票评论数据噪声,进而减小了后续数据处理的计算量。二、股票评论员观点极性及可靠性分布模式挖掘,可以通过股票评论员历史股票评论信息挖掘其股票评论极性倾向及可靠性分布,包括:(1)通过股票评论员历史股票评论信息统计该股票评论员的股票评论极性分布,即发布看涨及看跌概率分布。挖掘股票评论员的观点极性分布信息包括四种模式中一种或多种,简单概括为:一对一、一对多、多对一和多对多,具体为:基于所获取的股票评论数据中的同一股票评论员针对同一股票的所有历史股票评论数据,确定该股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定该股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的同一股票评论员针对不同股票的所有历史股票评论数据,确定该股票评论员发布看涨的股票评论数据的概率,以及确定该股票评论员发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对同一股票的所有历史股票评论数据,确定股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对不同股票的所有历史股票评论数据,确定发布看涨的股票评论数据的概率,以及确定发布看跌的股票评论数据的概率。(2)通过股票评论员历史股票评论信息统计该股票评论员的股票评论可靠性分布,即股票评论可靠及不可靠概率分布。三、股票评论员观点一致性模式挖掘,通过股票评论员历史股票评论序列数据挖掘其观点一致性概率分布,包括:(1)基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股票评论数据对,即2-gram数据对,该数据对为包含观点极性的股票评论数据对;(2)基于提取的股票评论数据对,统计该股票评论员保持观点的概率和改变观点的概率。例如,同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据为:看涨、看跌、看跌、看涨、看涨,基于上述数据,得到观点极性的2-gram数据对,分别为:看涨、看跌;看跌、看跌;看跌、看涨;看涨、看涨。基于上述2-gram数据对,统计出该股票评论员保持观点的概率,即观点一致的概率为0.5,改变观点的概率为0.5。四、股票评论员观点改变模式挖掘,通过股票评论员历史股票评论序列数据挖掘其观点改变模式,包括:(1)基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股票评论数据对,即利用股票评论员对同一股票的评论序列数据,提取观点极性和观点正确与否两种2-gram数据对;(2)基于提取的股票评论数据对,确定该股票评论员在观点正确的前提下改变观点的概率tsratio,以及确定该股票评论员在观点错误的前提下改变观点的概率fsratio,即根据观点极性数据对统计在观点正确前提下改变观点的概率tsratio、观点错误前提下改变观点的概率fsratio;(3)基于提取的股票评论数据对,确定该股票评论员在观点正确的前提下保持观点,且保持的观点正确的概率tctratio,以及确定该股票评论员在观点正确的前提下改变观点,且改变的观点正确的概率tstratio,即根据数据对统计观点正确前提下保持观点的可靠性tctratio(即股票评论员前一时刻观点正确、下一时刻仍然保持该观点且正确)、观点正确前提下改变观点的可靠性tstratio;(4)基于提取的股票评论数据对,确定该股票评论员在观点错误的前提下保持观点,且保持的观点正确的概率fctratio,以及确定该股票评论员在观点错误的前提下改变观点,且改变的观点正确的概率fstratio,即根据数据对统计观点错误前提下保持观点的可靠性fctratio(即股票评论员前一时刻观点错误、下一时刻仍然保持该观点且正确)、观点错误前提下改变观点的可靠性fstratio。例如,同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据为:看涨、看跌、看跌、看涨、看涨,基于上述数据,得到观点极性的2-gram数据对,分别为:看涨、看跌;看跌、看跌;看跌、看涨;看涨、看涨,同时得到观点正确与否的2-gram数据对,对应分别为:正确、正确;错误、正确;正确、错误;正确,正确。根据观点极性数据对统计在观点正确前提下改变观点的概率tsratio为0.5,观点错误前提下改变观点的概率fsratio为0;根据数据对统计观点正确前提下保持观点的可靠性tctratio为0.25,观点正确前提下改变观点的可靠性tstratio为0.25;根据数据对统计观点错误前提下保持观点的可靠性fctratio为0.25,观点错误前提下改变观点的可靠性fstratio为0。五、股票评论观点极性检测(o(ci)),利用收集的历史股票评论文本数据训练fm模型,基于训练好的fm模型对股票评论数据进行观点极性分类预测,其中,fm模型即机器学习模型,为一种现有的算法模型,但本发明对其进行了特殊处理,应用于股票观点极性检测,具体包括:(1)获取由股票评论文本组成的训练集和验证集,并为训练集和验证集中的每条股票评论文本标注观点极性,即确定训练集、开发集和测试集股票评论文本,其中开发集和测试集类似,统称为验证集。其中,开发集用于在训练过程中对模型参数进行优化,得到最优模型,测试集用于训练后对模型的效果进行测试;观点极性的标注为人工标注,即人工标注训练集和测试集中每条股票评论文本的情感极性(看涨或看跌)。(2)对训练集文本进行分词处理,统计得到词典,例如,“我认为明天股票会涨”,可分词为:“我”、“认为”、“明天”、“股票”、“会”、“涨”,类似该分词方法,统计得到词典。(3)基于该词典,确定训练集中的每条股票评论文本的tf-idf特征,该特征为词典尺寸大小的向量,每个维度为相应词基于该文本的tf-idf值。tf-idf(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。tf意思是词频(termfrequency),idf意思是逆文本频率指数(inversedocumentfrequency)。tfidf的主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。tfidf实际上是:tf*idf,tf词频(termfrequency),idf逆向文件频率(inversedocumentfrequency)。tf表示词条在文档d中出现的频率。idf的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t具有很好的类别区分能力。如果某一类文档c中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照idf公式得到的idf的值会小,就说明该词条t类别区分能力不强。简单来说,训练集中出现的一些其他文档中经常出现的常用词,例如“的”、“了”等,这些词的重要性比较低,而在股票评论文本中出现的“看涨”、“看跌”之类的观点极性词,重要性较高。tf-idf就是评价词典中每个词的重要性的特征。关于该tf-idf特征为词典尺寸大小的向量,每个维度为相应词基于该文本的tf-idf值的理解,举例来说,100个句子中一共含有1000个词,那么每个句子的向量为1000维,比如该初始向量为[1,0,0,……1],其中1代表目标词在句子中出现,0代表目标词在句子中没有出现,初始向量中的1和0都要乘以该股票评论文本的tf-idf值,即乘以该词的权重,得到股票评论文本的tf-idf特征。(4)从训练集的股票评论文本中提取特征,以提取的特征作为机器学习模型的输入,以股票评论文本的观点极性分类信息作为机器学习模型的输出;即将训练集股票评论文本的tf-idf特征作为模型输入特征,股票评论情感极性为输出,即输出看涨还是看跌,也即输出1还是0。(5)基于机器学习模型的输出的观点极性分类信息和相应股票评论文本标注的观点极性,计算机器学习模型的损失,并基于计算出的损失学习机器学习模型的参数;即基于训练集,使用自适应正则化的随机梯度下降法学习fm模型参数,利用交叉验证的方式优化调整fm模型中超参数k的值,其中超参数k的值为人工给定的值。(6)基于验证集,评测fm模型效果,具体为:从验证集的股票评论文本中提取特征,将提取的特征输入到机器学习模型中,得到机器学习模型输出的股票评论文本的观点极性分类信息;基于机器学习模型的输出的观点极性分类信息和相应股票评论文本标注的观点极性,评测机器学习模型的效果。(7)重复(5)、(6)和(7),直到fm效果满足要求(如准确率大于95%),则完成fm模型训练。(8)基于训练好的fm模型,对股票评论文本进行观点极性分类,得到o(ci)属性。(9)根据(式1)计算每一条股票评论的可靠性r(ci):其中,代表日期,为的股票价格,为第二天的股票价格,为0或1。(10)为股票评论文本生成相应的结构化数据,该结构化数据包括:股票评论员标识、评论时间、目标股票、观点极性和可靠性指数,即构建股票评论单元数据ci={d(ci),a(ci),s(ci),t(ci),o(ci),r(ci)},其中,d(ci)为评论内容,a(ci)为股票评论员标识,s(ci)为目标股票,t(ci)为评论时间,o(ci),为观点极性,r(ci)为可靠性指数。六、股评信息可靠性打分方法,即对某一个股票评论员的某一条股评信息的可靠性打分。从股评序列、股价序列和股评员历史行为数据中提取关键特征,基于分类模型和时间序列分析模型的集成学习框架对股评信息的可靠性进行打分,具体包括:(1)基于股票评论数据集和股价序列集提取特征向量,首先,基于股票评论数据集中的至少部分股票评论数据中的每一条股票评论数据,提取如下特征中的一种或多种组成一个特征向量:该条股票评论数据的看涨或看跌的观点极性信息;关于如何确定该条股票评论数据的看涨或看跌的观点极性信息,在步骤五中已经作了详细阐述,在此不再赘述。在t当日发布的所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量;从t日起过去的第一预设长度时间内发布的,所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;从t日起过去的第二预设长度时间内的股票s的价格序列;用于预测股价的机器学习模型预测的股票s在下一个交易日的价格以及该模型输出的标准差;从t日起过去的第三预设长度时间内,股票评论员a发布的所有股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;从t日起过去的第四预设长度时间内,股票评论员a发布的针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;基于股票评论员a的从t日起过去的第五预设长度时间内发布的股票评论序列确定的,基于股票评论员a的观点改变概率osratio、观点正确的前提下改变观点的概率tsratio、观点错误的前提下改变观点的概率fsratio、观点正确的前提下保持观点且保持的观点正确的概率tctratio、观点正确的前提下改变观点且改变的观点正确的概率tstratio、观点错误的前提下保持观点且保持的观点正确的概率fctratio以及观点错误的前提下改变观点且改变的观点正确的概率fstratio中的一种或多种;其中,该条股票评论数据的股票评论员为a,评论的是股票s,发布日期为t。关于如何确定股票评论员a的观点极性分布信息,在步骤三中已经作了详细阐述,在此不再赘述。举例来说,从股评序列、股价序列和股评员历史行为数据中提取关键特征,该关键特征包括:观点极性、历史股票状态、价格时序和股票评论员历史行为。其中,观点极性为当前评论的看涨或看跌;历史股票状态包括两种情况:第一为不考虑时间,当日发布的所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量;第二为过去7天内的股票评论中所有针对股票s的股票评论数据中,看涨的股票评论数据数量、看跌的股票评论数据数量、观点正确的股票评论数据数量和观点错误的股票评论数据数量;价格时序包括:过去25天内股票s的的价格序列以及用arma模型预测的第二天的价格和输出的标准差;股评员历史行为包括:某个股评员a在过去7/30/90天内作出的看涨/看跌/正确/错误的股票评论数目;某个股评员对当前股票在过去7/30/90天内作出的看涨/看跌/正确/错误的股票评论数量;基于某个股评员a在过去7/30/90天发布的股票评论序列确定的osratio、tsratio、fsratio、tctratio、tstratio中的一种或多种。(2)利用所提取的特征向量训练基于径向基核函数(式2)的支持向量机svm模型:令径向基核函数为:其中,x1和x2是两个特征向量,也可以成为变量;γ是径向基核函数的参数,一般设置为1除以特征的总数,例如10000个特征,那么r就设置为0.0001;φ(·)将原始特征映射到高维内核空间,以便于进行最优决策超平面(式3)的计算;svm模型为:svm的原理是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。输入是一些特征样本点,模型在学习一个超平面,这个超平面能够确定两个事情:1、所有数据点被完美地分成两类,第一类的输出是1(对应靠谱股评),第二类的输出是0(对应不靠谱股评)2、所有数据点离超平面距离越远越好。如果特征样本点在原来的空间中是线性不可分的(绝大多数情况下都是线性不可分),那么我们希望通过一种映射把他映射到高维空间里使问题变得线性可分,用到的映射就是核函数。(3)通过优化(式4)计算参数ω和b:s.t.yi(ωtφ(ci)+b)≥1-ξi,ξi≥0,i=1,…,n,(式4)其中c是训练样本中噪声与简化超平面分类的权衡参数,yi是股票评论观点是否正确的标签。ω,b,ξ这三个参数都是需要模型训练学习得到的参数,其中ω和b是svm模型在预测时要用到的两个参数;s.t.代表后面的是前面的约束条件,即后两行是第一行目标函数的约束条件。yi是目标函数的边界,这个边界要越大越好。(4)利用股价序列集训练用于预测股价的机器学习模型,如arma模型,包括:a.确定训练集和测试集股票价格序列数据,输入数据为连续若干的股票收盘价,输出为后一天股票收盘价;即确定作为模型训练集和测试集的股票价格序列数据,其中训练集或测试集中的每一条数据包括:用于输入模型的连续若干天的股票收盘价,以及作为标签的后一天的股票收盘价;b.基于训练集训练arma模型,并基于验证集验证模型的预测效果;即基于训练集、使用最大似然估计训练arma模型参数,基于bic准则对参数p和q进行调优,基于训练好的arma模型,利用某股票的历时股价数据预测后一天的股价,基于验证集验证该预测效果。总的来说,基于时间序列分析模型的股价预测,利用股票历史价格序列,训练arma模型,基于训练好的arma模型预测股票后一天的价格。(5)集成svm模型和用于预测股价的机器学习模型,得到用于评价股票评论可靠性的分类模型;即基于股价预测结果构建分类方程,如下式5:其中,是时间的股价,是第二天股价的预测值,是股评观点情感极性,err(ci)是股价序列数据的标准差,即模型当前输出的股价预测值的误差或者说是置信度值。(6)集成svm模型和arma模型,得到最终的分类函数,如下式6:h(ci)为1时,表示股评可靠;h(ci)为-1时,表示股评不可靠。其中计算公式如下式7:式7中u∈[0,1],是svm和arma模型预测结果的加权系数,通过实验确定u=0.59效果最好。股评可靠性分类准确值可根据下式8计算得到:当rυ(ci)越高时,对股评分类结果越可靠。(式8)是(式7)的输出结果的绝对值。七、股票涨或跌的概率计算,通过股评可靠性度量过程中提取的相关特征及度量结果,计算股票涨或跌的概率,包括:(1)根据下式9计算该支股票的涨跌概率cf(sj)::其中,表示股票评论数据集中的股票评论数据数量,即所有股票评论数目的总和,ci表示一条股票评论数据,为该条股票评论数据的观点极性,为该条股票评论数据的可靠性指数,rυ(ci)为对该条股票评论数据进行可靠性分类的准确值。(2)根据下式10预测股票涨跌:(3)根据下式11计算股票涨或跌的概率:w(sj)=|cf(sj)|.(式11)当cf(sj)≥0时,w(sj)的值越大,说明股票涨的概率较大,当cf(sj)<0时,w(sj)的值越大,说明股票跌的概率较大。八、股评可靠性模型完成,当接收关于股票评论员的指定观点信息查询请求,即可输出与该查询请求对应的结果数据。九、基于股评可靠性模型度量的股票投资,基于股评数据可靠性模型筛选可靠股评,并依此进行投资,包括:(1)对股票池中所有股票计算股票涨或跌的概率w(sj),其中sj为单个股票;(2)多种智能选股方法:a.选取涨且涨的概率最高的预设个数的股票进行投资建议,且投资权重选择平均加权的方式;即筛选涨幅指数最高的的k个股票作为投资建议,且投资权重选择平均加权的方式,即每只股票平均投资g/k元,其中g为总投资金额;b.选取涨且涨的概率最高的预设个数的股票进行投资建议,且投资权重选择按照涨的概率加权的方式;即筛选涨幅指数最高的的k个股票作为投资建议,且投资权重选择按照涨幅指数加权的方式,即股票sj投资c.从每个股票板块中选取一支涨且涨的概率最高的股票,且投资权重选择平均加权的方式;即每个版块中选出一只涨幅指数最高的股票作为投资建议,一共m(m=10)个板块(见下表1),且投资权重选择平均加权的方式,即每只股票投资g/m元。table1:sectorsofstocksymbols表1为股票版块信息,category代表版块名,#coveredsymbols代表版块中股票数目。d.从每个股票板块中选取一支涨且涨的概率最高的股票,且投资权重选择按照涨的概率加权的方式;即每个版块中选出一只涨幅指数最高的股票作为投资建议,一共m(m=10)个板块,且投资权重选择平均加权的方式,即每只股票si投资e.从每个股票板块中选取一支或多支涨且涨的概率最高的股票,在各板块之间选择平均加权方式,在选取的每个板块的股票之间择按照涨的概率加权的方式;即上述选股方法的组合,例如首先从每个版块中各选择km个涨幅最高的股票,然后用平均加权或者按照涨幅指数加权的方式,对各个股票进行投资。其中对各个版块的总投资也可以按照平均加权或者按照涨幅指数加权的方式。图5为采用智能选股方法c选择股票后的盈利情况示意图,在2016年1月到2016年12月选择智能选股方法c进行模拟投资,每个交易日选取k个股票投资,一共投资10000元,k=m,每只股票10000/m。图6示出了根据本发明一个实施例的一种基于机器学习的股票评论的观点极性分类装置示意图,该装置60包括:获取单元601,适于获取由股票评论文本组成的训练集和验证集,并为训练集和验证集中的每条股票评论文本标注观点极性;训练单元602,适于基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对所述学习模型的效果进行评测,得到训练后的机器学习模型;预测单元603,适于将待预测的股票评论文本的相关信息输入到所述训练后的机器学习模型,得到该机器学习模型输出的该股票评论文本的观点极性分类信息。在本发明的一个实施例中,训练单元602,适于从训练集的股票评论文本中提取特征,以提取的特征作为机器学习模型的输入,以股票评论文本的观点极性分类信息作为机器学习模型的输出;基于机器学习模型的输出的观点极性分类信息和相应股票评论文本标注的观点极性,计算机器学习模型的损失,并基于计算出的损失学习机器学习模型的参数;从验证集的股票评论文本中提取特征,将提取的特征输入到所述机器学习模型中,得到机器学习模型输出的股票评论文本的观点极性分类信息;基于机器学习模型的输出的观点极性分类信息和相应股票评论文本标注的观点极性,评测机器学习模型的效果;重复上述步骤,直到机器学习模型的效果达到预设条件。在本发明的一个实施例中,训练单元602,适于确定词典;基于词典,确定训练集中的每条股票评论文本的词频逆文本频率tf-idf特征;其中,tf-idf特征为词典尺寸大小的向量,其每个维度为相应词基于该股票评论文本的tf-idf值;基于词典,确定验证集中的每条股票评论文本的词频逆文本频率tf-idf特征;待预测的股票评论文本的相关信息为:该股票评论文本的tf-idf特征。图7示出了本发明一个实施例的另一种基于机器学习的股票评论的观点极性分类装置示意图,该装置70包括:获取单元601;训练单元602;;预测单元603;可靠性确定单元701;数据结构化处理单元702;观点极性分布确定单元703。其中获取单元601、训练单元602和预测单元603在图6所示实施例中已经作了详细阐述,在此不再赘述。可靠性确定单元701,适于将机器学习模型输出的股票评论文本的观点极性分类信息与相应股票在相应时间的实际涨跌情况进行比较,确定该股票评论文本的可靠性指数。数据结构化处理单元702,适于为股票评论文本生成相应的结构化数据,该结构化数据包括:股票评论员标识、评论时间、目标股票、观点极性和可靠性指数。观点极性分布确定单元703,适于获取结构化的股票评论数据;其中,一条股票评论数据是指单个股票评论员对单个股票的单次评论数据;基于所获取的股票评论数据,挖掘股票评论员的观点极性分布信息;以及,基于所获取的股票评论数据,挖掘股票评论员的观点可靠性分布信息。在本发明的一个实施例中,观点极性分布确定单元703,适于执行如下步骤中的一种或多种:基于所获取的股票评论数据中的同一股票评论员针对同一股票的所有历史股票评论数据,确定该股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定该股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的同一股票评论员针对不同股票的所有历史股票评论数据,确定该股票评论员发布看涨的股票评论数据的概率,以及确定该股票评论员发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对同一股票的所有历史股票评论数据,确定股票评论员针对该股票发布看涨的股票评论数据的概率,以及确定股票评论员针对该股票发布看跌的股票评论数据的概率;基于所获取的股票评论数据中的不同股票评论员针对不同股票的所有历史股票评论数据,确定发布看涨的股票评论数据的概率,以及确定发布看跌的股票评论数据的概率。在本发明的一个实施例中,观点极性分布确定单元703,适于根据不同股票的价格时序信息,确定所获取的股票评论数据中的同一个股票评论员针对不同股票的所有历史股票评论数据中的每一条股票评论数据的正确与否;根据一个股票评论员的正确的股票评论数据数量和错误的股票评论数据数量,确定该股票评论员的观点的正确概率。在本发明的一个实施例中,观点极性分布确定单元703,进一步适于基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股票评论数据对;基于提取的股票评论数据对,统计该股票评论员保持观点的概率和改变观点的概率。在本发明的一个实施例中,观点极性分布确定单元703,进一步适于,基于同一股票评论员对同一股票的股票评论序列中的各相邻股票评论数据,提取股票评论数据对;基于提取的股票评论数据对,确定该股票评论员在观点正确的前提下改变观点的概率tsratio,以及确定该股票评论员在观点错误的前提下改变观点的概率fsratio;基于提取的股票评论数据对,确定该股票评论员在观点正确的前提下保持观点,且保持的观点正确的概率tctratio,以及确定该股票评论员在观点正确的前提下改变观点,且改变的观点正确的概率tstratio;基于提取的股票评论数据对,确定该股票评论员在观点错误的前提下保持观点,且保持的观点正确的概率fctratio,以及确定该股票评论员在观点错误的前提下改变观点,且改变的观点正确的概率fstratio。综上所述,通过获取由股票评论文本组成的训练集和验证集,并为训练集和验证集中的每条股票评论文本标注观点极性;基于标注后的训练集,对机器学习模型进行训练,并基于标注后的测试集对所述学习模型的效果进行评测,得到训练后的机器学习模型;将待预测的股票评论文本的相关信息输入到所述训练后的机器学习模型,得到该机器学习模型输出的该股票评论文本的观点极性分类信息。本发明对现有的机器学习模型进行特殊处理及训练,对股票评论数据进行观点极性分类预测,使得待预测的股票评论文本的相关信息输入到训练后的机器学习模型后即可得到该机器学习模型输出的该股票评论文本的观点极性分类信息,方便快捷,准确度高,并且融合了多种异构信息源,例如股票价格时序、股票评论文本内容以及发表股票评论的股票评论员的历史行为,基于该多源异构大数据,借助数据挖掘技术深入分析并提取关键特征,利用这些特征进行股票评论可靠性度量,可以有效过滤噪声,从海量信息中筛选出有价值、可靠的股票评论信息,精选出优质股票,能够帮助投资者更加准确地理解市场走势以及股票动态,供投资者或股市分析员使用。该方法不仅可应用于股票评论信息可靠性分析,还可应用于金融领域其他方面,如经济形势分析、股票精准推荐、投资组合管理和自动交易等。需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的文字内容的拍照录入装置、电子设备和计算机可读存储介质中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。例如,图8是本发明实施例中的电子设备的结构示意图。该电子设备800包括:处理器810,以及存储有可在所述处理器810上运行的计算机程序的存储器820。处理器810,用于在执行所述存储器820中的计算机程序时执行本发明中方法的各步骤。存储器820可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。存储器820具有存储用于执行上述方法中的任何方法步骤的计算机程序531的存储空间830。计算机程序831可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(cd)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图9所述的计算机可读存储介质。图9是本发明实施例中的一种计算机可读存储介质的结构示意图。该计算机可读存储介质900存储有用于执行根据本发明的方法步骤的计算机程序831,可以被电子设备800的处理器810读取,当计算机程序831由电子设备800运行时,导致该电子设备800执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算程序831可以执行上述任一实施例中示出的方法。计算机程序831可以以适当形式进行压缩。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1