舆情指数的预测方法及装置、计算机设备和可读存储介质与流程

文档序号:16393104发布日期:2018-12-25 19:31阅读:195来源:国知局
舆情指数的预测方法及装置、计算机设备和可读存储介质与流程

本申请涉及信息处理技术领域,特别是涉及一种舆情指数的预测方法及装置,计算机设备和计算机可读存储介质。

背景技术

现如今,金融投资已经逐渐成为普通用户理财的一个手段,比如,用户可通过股票交易的方式进行理财。然而,由于大多数用户都是散户,不像金融机构那么专业,并且也没有相关的技术手段可以辅助他们决策,因此很多时候他们买卖股票时,都是依靠自己的主观意愿看k线图涨跌。

在目前市场上存在的金融类产品中,只有关于股票价格的k线图,导致用户在选择股票来投资的分析过程中,只能通过分析以往冰冷的交易数据来对股票未来的价格做出预测。

然而,采用上述方法导致用户预测的准确性较低,使得用户投资存在很大的风险。



技术实现要素:

基于此,有必要针对上述用户预测的准确性较低的问题,提供一种能辅助用户预测,并提高预测准确性的舆情指数的预测方法及装置、计算机设备和计算机可读存储介质。

一种舆情指数的预测方法,所述预测方法包括:

获取股票舆情信息;

对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语;

对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列;

根据所述标注词序列和所述词性特征序列,得到词向量序列;

将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数。

在其中一个实施例中,所述将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数的步骤之后包括:

获取所述股票对应的历史舆情指数;

根据所述股票舆情指数和所述历史舆情指数绘制股票舆情k线图。

在其中一个实施例中,所述对所述股票舆情信息进行分词,得到初始词序列的步骤包括:

获取金融种子词,对所述金融种子词进行近义词扩充,得到金融关键词,其中,所述金融种子词包括与所述股票相关的词语;

根据所述金融种子词和所述金融关键词对所述股票舆情信息进行分类,得到每一所述股票舆情信息对应的股票类别;

根据所述股票类别对所述股票舆情信息进行分词,得到所述初始词序列。

在其中一个实施例中,所述对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列的步骤包括:

对所述初始词序列进行词性标注,得到初始词性特征序列;

获取干扰词及所述干扰词的词性特征,将所述干扰词及所述干扰词的词性特征与所述初始词性特征序列匹配,获取包含所述干扰词的股票舆情信息对应的干扰词序列,以及所述干扰词序列对应的干扰词性特征序列;

去除所述初始词序列中的所述干扰词序列,得到所述标注词序列,以及去除所述初始词性特征序列中的所述干扰词性特征序列,得到所述词性特征序列。

在其中一个实施例中,所述根据所述标注词序列和所述词性特征序列,得到词向量序列的步骤包括:

根据所述词性特征序列抽取所述标注词序列中的关键词,并根据所述关键词对所述标注词序列去重,得到标准词序列;

对所述标准词序列中的分词词语进行向量化,得到词向量序列。

在其中一个实施例中,所述将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数的步骤包括:

对所述词性特征序列进行组合,得到句子层面特征;

对所述句子层面特征进行汇整,得到篇章层面特征;

将所述词向量序列和所述篇章层面特征输入预设的舆情模型,得到股票舆情指数。

在其中一个实施例中,所述对所述股票舆情信息进行分词,得到初始词序列的步骤包括:

对所述股票舆情信息进行分词,得到第一词序列;

对所述第一词序列进行序列标注,得到标注词序列;

对所述标注词序列进行离线处理,得到所述初始词序列。

在其中一个实施例中,所述将所述词向量序列和所述篇章层面特征输入预设的舆情模型,得到股票舆情指数的步骤之前包括:

获取每一只股票对应的舆情信息样本;

对所述舆情信息样本进行分词,得到初始词序列样本,所述初始词序列样本包括至少一个分词词语;

对所述初始词序列样本进行词性标注,得到词性特征序列样本以及与所述词性特征序列样本对应的标注词序列样本;

根据所述词性特征序列样本抽取所述标注词序列样本中的关键词样本,并根据所述关键词样本对所述标注词序列样本去重,得到标准词序列样本;

对所述标准词序列样本中的分词词语进行向量化,得到词向量序列样本;

根据所述词向量序列样本和所述词性特征序列样本得到所述舆情模型。

一种舆情指数的预测装置,所述预测装置包括:

获取模块,用于获取股票舆情信息;

分词模块,用于对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语;

词性标注模块,用于对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列;

向量化模块,用于根据所述标注词序列和所述词性特征序列,得到词向量序列;

打分模块,用于将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

上述舆情指数的预测方法及装置、计算机设备及计算机可读存储介质,通过对股票舆情信息进行分词、词性标注,得到对应的词性特征序列以及标注词序列。进一步对标注词序列进行向量化得到词向量序列,根据词向量序列和词性特征序列得到股票舆情指数。由于考虑到股票舆情信息的重要性,通过对股票舆情信息进行量化并对该股票舆情信息打分,进而根据股票舆情指数的高低来帮助用户分析股票的行情,实现了为用户提供更为可靠的实时参考数据,来辅助用户对未来股票的价格做出预测,提高了用户预测的准确性,同时也可以为专业人士提供参考,节省他们分析相关新闻舆情的时间。

附图说明

图1为一实施例中舆情指数的预测方法的应用场景架构示意图;

图2为一实施例中舆情指数的预测方法的流程示意图;

图3为另一实施例中舆情指数的预测方法的流程示意图;

图4为一实施例中根根据金融种子词获取初始词序列的流程示意图;

图5为一实施例中根据词性特征序列得到股票舆情指数的流程示意图;

图6为一实施例中根据股票舆情信息得到初始词序列的流程示意图;

图7为一实施例中舆情模型的获取方法的流程示意图;

图8为一实施例中舆情指数的预测装置的结构框图;

图9为一实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的舆情指数的预测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。该服务器104可以提供相应的面向用户的网页平台,并且可以将股票舆情指数发送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

请参阅图2,本申请一实施例提供了一种舆情指数的预测方法,本实施例以所述方法应用于图1中的服务器104为例进行说明。该预测方法具体包括以下步骤:

s202,获取股票舆情信息。

其中,股票舆情信息包括与股票相关的舆情信息,比如,股票舆情信息包括金融资讯文章(如收集站内股票资讯文章、爬取站外股票资讯文章)。

具体地,服务器获取股票舆情信息。进一步地,服务器对股票舆情信息(如金融资讯文章)进行出处标注,即标注出股票舆情信息的出处或来源。进而,服务器可以根据出处或来源有效利用或增大权威机构发布的股票舆情信息的权重。

s204,对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语。

其中,分词是将连续的字序按照一定的规范重新组合成词序列的过程。

具体地,服务器对股票舆情信息进行分词操作,得到初始词序列。所述初始词序列的数量可包括一个或多个词序列,每一个所述词序列可包括一个或多个分词词语。比如,对于“公司a将于5月20日完成对公司b的并购”,这样一句话,服务器通过对这句话进行分词,得到的初始词序列可以是“公司a/将/于5月20日/完成/对/公司b/的/并购”。可选地,该分词操作可通过分词模型进行划分。

s206,对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列。

其中,词性标注,又称为词类标注或者简称标注,是指为分词结果中的每个分词词语标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。标注词序列包括初始词序列和词性特征序列,换言之,初始词序列与相应的词性特征序列组合便得到标注词序列。

具体地,服务器获得初始词序列后,采用词性标注的方式来挖掘每个分词词语的词性。通过对分词词语的词性进行分析,有助于服务器更好地得到金融资讯文章的文章特征,并且有助于服务器后续进行文章关键词抽取。

可选地,服务器采用层次双向循环神经网络挖掘每个分词词语的词性,得到标注词序列以及该标注词序列对应的词性特征序列。由于层次双向循环神经网络能够挖掘词性更深层次的特征,保证了词性标注的准确性,并且层次双向循环神经网络能够保证当前分词词语的词性挖掘是基于当前分词词语的上下文词性的约束。

s208,根据所述标注词序列和所述词性特征序列,得到词向量序列。其中,词向量是指词语被映射到实数的向量。词向量序列指由一个或多个词向量组成的序列。

具体地,服务器获取预设的词向量模型,将所述标注词序列和所述词性特征序列输入,得到词向量序列。可选地,也可以使用word2vec、glove等词向量工具对标注词序列和词性特征序列进行处理,得到词向量序列。

s210,将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数。

具体地,服务器一方面将上述词向量序列输入预设的舆情模型,另一方面将词性特征序列也输入预设的舆情模型。服务器将词性特征序列中的词性特征汇总,建立对应的词性特征信息并作为特征集。该特征集包括名词个数、形容词个数等特征数据。本实施例通过对词性特征序列进行分析,有助于对金融资讯文章的文章特征进行建模。

进一步地,为了保证舆情模型的准确性,在服务器中设置奇数个舆情模型来对金融资讯文章的打分结果投票,以决定该金融资讯文章的正、负向的舆情结果。由于每一只股票都有对应的金融资讯文章,通过采用舆情模型进行投票,可以将该股票对应的金融资讯文章进行量化。可选地,量化的具体过程可包括服务器对发表金融资讯文章的信息来源、点赞数、浏览数、评论数等数据进行处理,以此来衡量该金融资讯文章的重要程度。服务器将资讯文章的重要程度与正负向舆情结果发送至舆情模型中,最终得到可量化的股票舆情指数。

上述舆情指数的预测方法,通过对股票舆情信息进行分词、词性标注,得到对应的词性特征序列以及标注词序列。进一步对标注词序列进行向量化得到词向量序列,根据词向量序列和词性特征序列得到股票舆情指数。由于考虑到股票舆情信息的重要性,通过对股票舆情信息进行量化并对该股票舆情信息打分,进而根据股票舆情指数的高低来帮助用户分析股票的行情,实现了为用户提供更为可靠的实时参考数据,来辅助用户对未来股票的价格做出预测,提高了用户预测的准确性,同时也可以为专业人士提供参考,节省他们分析相关新闻舆情的时间。

请参阅图3,在其中一个实施例中,涉及将股票舆情指数与历史舆情指数结合来绘制股票舆情k线图。具体地,s210之后包括以下步骤:

s212,获取所述股票对应的历史舆情指数;

s214,根据所述股票舆情指数和所述历史舆情指数绘制股票舆情k线图。

具体地,服务器可以从股票舆情曲线图上获取股票对应的历史舆情指数,通过对股票历史舆情信息进行分析,并结合上述股票舆情指数,回溯得到当前全网针对当前股票的当前舆情分数,并将该当前舆情分数绘制成股票舆情k线图,供用户们投资参考。

请参阅图4,在其中一个实施例中,涉及对股票舆情信息进行分类的具体过程。在本实施例中,s204具体包括以下步骤:

s2042,获取金融种子词,对所述金融种子词进行近义词扩充,得到金融关键词,其中,所述金融种子词包括与所述股票相关的词语;

s2044,根据所述金融种子词和所述金融关键词对所述股票舆情信息进行分类,得到每一所述股票舆情信息对应的股票类别;以及

s2046,根据所述股票类别对所述股票舆情信息进行分词,得到所述初始词序列。

具体地,在s2042中,金融种子词包括与股票直接相关的词语,可包括股票、散户及股东。服务器可以通过近义词挖掘算法生成更多的金融关键词。比如,通过“股票”获得“炒股、概念股”等金融关键词。

在s2044中,股票类别指按照股票不同的种类而做出的区别。优选地,将股票根据上市地区可分为:a股、b股、h股、s股和n股五大类别。服务器根据金融种子词和金融关键词对相关的股票舆情信息进行语义相似度匹配,从而完成对股票舆情信息的分类,并得到每一股票舆情信息对应的股票类别,实现了从股票到相关股票舆情信息的映射。举例而言,a股类别包括金融关键词“流通股”,那么,服务器根据“流通股”对一篇包含“流通股”的金融资讯文章进行匹配,从而确认该资讯文章属于a股类别的金融资讯文章,由此将该金融资讯文章映射到a股类别中。

在s2046中,由于每一股票具有特定、专用的词汇,比如有人民币普通股票、流通股、国企股、高送转、黑天鹅以及贴现率等词汇。由此,服务器根据股票类别对股票舆情信息进行分词,保证了对股票舆情信息分词的准确性。可选地,服务器会将这些专有词汇预先存储在分词词库中,以便后续的提取使用。

在其中一个实施例中,涉及如何去除干扰信息。其中,s206具体包括以下步骤:

s2062,对所述初始词序列进行词性标注,得到初始词性特征序列;

s2064,获取干扰词及所述干扰词的词性特征,将所述干扰词及所述干扰词的词性特征与所述初始词性特征序列匹配,获取包含所述干扰词的股票舆情信息对应的干扰词序列,以及所述干扰词序列对应的干扰词性特征序列;以及

s2066,去除所述初始词序列中的所述干扰词序列,得到所述标注词序列,以及去除所述初始词性特征序列中的所述干扰词性特征序列,得到所述词性特征序列。

具体地,服务器对股票舆情信息进行分词、词性标注后,可以提取初始词性特征序列中的一些干扰词。比如,由于大多数的谣言文章或虚假文章,包含一些夸张或虚假的形容词来吸引用户的眼球,服务器会认定这些夸张或虚假的形容词便是干扰词,它们对于帮助服务器识别出谣言或虚假股票舆情信息有很大的帮助。

进一步地,服务器也可以采用依存语法分析技术来解析谣言文章或虚假文章的结构,以实现更好地识别出谣言文章或虚假文章。服务器在识别并去除股票舆情信息中的谣言文章或虚假文章后,得到词性特征序列以及与词性特征序列对应的标注词序列。

在其中一个实施例中,涉及通过抽取关键词的方式对股票舆情信息进行去重。其中,s208具体包括以下步骤:

根据所述词性特征序列抽取所述标注词序列中的关键词,并根据所述关键词对所述标注词序列去重,得到标准词序列;以及

对所述标准词序列中的分词词语进行向量化,得到词向量序列。

具体地,很多资讯文章的内容对于理解整篇文章的大意没有用处,而服务器通过一些资讯文章的关键词就可以概括出整篇文章的大意。例如针对一篇报道公司c重组的资讯文章,服务器根据词性特征序列抽取该资讯文章的标注词序列中的关键词如央企混改、xxx公司入局等,便能够很好地概括出文章大意。进一步地,服务器采用资讯文章的关键词进行匹配,若发现与资讯文章关键词的语义一样或者相近的分词词语达到预设阈值(如90%以上),则服务器根据关键词对这篇极度相似的资讯文章的标注词序列进行去重,以得到标准词序列。

优选地,服务器采用序列到序列的生成算法,即将资讯文章作为输入,资讯文章对应的关键词作为输出,并将其输入至序列到序列的生成算法中,通过端到端的深度学习模型训练,最终得到资讯文章到关键词的生成模型。在对关键词进行抽取的过程中,资讯文章输入源需要融合词性特征序列的信息,因为大多数情况下,生成的关键词都是少数几个词性的组合,通过分词词语的词性可以规避一些关键词生成过程中造成的词性前后不搭的情况。

进一步地,分词词语是资讯文章最小的组成单位。服务器对标准词序列中的分词词语进行向量化,得到词向量序列。词向量序列包括至少一个词向量,其中,词向量表示将词表示成一个定长的连续的稠密向量。服务器采用word2vec、glove等词向量工具对分词词语进行预训练,将预训练后的词向量发送至舆情模型中。服务器通过在训练舆情模型的过程中,对预训练的词向量进行再训练,通过多次迭代的方式,将最终得到的词向量覆盖最初的词向量。

请参阅图5,在其中一个实施例中,涉及根据词性特征序列得到股票舆情指数的具体过程。其中,s210具体包括以下步骤:

s2102,对所述词性特征序列进行组合,得到句子层面特征;

s2104,对所述句子层面特征进行汇整,得到篇章层面特征;

s2106,将所述词向量序列和所述篇章层面特征输入预设的舆情模型,得到股票舆情指数。

具体地,服务器可以将上述得到的词性特征序列数据输入预设的特征模型中。服务器通过该特征模型可以对输入的分词词语的词性进行分析,通过对词性特征序列进行组合来得到句子层面的特征,然后对句子层面的特征进行抽象汇整,得到篇章层面的特征。接着,服务器将篇章层面的特征输入至预设的舆情模型中,便可以得到股票舆情指数。

优选地,服务器将分词词语样本输入机器学习的模型(如深层的神经网络)中,来对金融资讯文章进行数据建模,从而得到上述特征模型。

请参阅图6,在其中一个实施例中,涉及分词的具体过程。其中,s204还包括以下步骤:

s2041,对所述股票舆情信息进行分词,得到第一词序列;

s2043,对所述第一词序列进行序列标注,得到标注词序列;

s2045,对所述标注词序列进行离线处理,得到所述初始词序列。

具体地,服务器可以根据预设的分词词库对股票舆情信息进行分词,得到第一词序列。然而,需要清楚,随着时代的发展,由于金融词汇千变万化,经常会有新词出现,比如数字货币、区块链等近期才出现的新词。因此,服务器首先采用在线直接预测的方式对第一词序列进行修正,比如,服务器通过序列标注算法来对一些分开的词语做粘合处理从而组成新词,并得到标注词序列。

举个例子说明,“数字货币”是一个新词,若服务器根据已有的分词词库对“数字货币”进行分词时,由于已有的分词词库中只有“数字”和“货币”两个词语,而没有“数字货币”这一新词,因此服务器得到的第一词序列为“数字/货币”。然而,服务器通过序列标注的方式可以将“数字货币”识别为一个新词,并利用语言模型判断出数字货币与上下文能够更好的保证语义准确性,所以服务器将“数字货币”合并成为一个词,以此来保证文章切词的语义正确性。因此,服务器通过使用序列标注算法对“数字”和“货币”两个词语进行修正,最终得到的标注词序列为“数字货币”,并存储至已有的分词词库中,从而保证了分词的准确性以及分词词库的完整性。

进一步地,由于通过在线直接预测的方式进行分词可能会有一定的误判,会出现一些语言模型识别不准确的词语,且这些词语是通过在线直接预测的方式粘接在一起的新词。服务器会将这些新词再进行拆分,以防止出现语义错误。然后服务器采用离线批量预测的方式判断分词是否准确,即服务器对这些新词通过统计词频、计算信息熵以及互信息来离线计算,并通过人工核验确定这些新词是否分词正确,并将正确的分词词语存储至分词词库中。

请参阅图7,在其中一个实施例中,涉及舆情模型的建立过程。具体地,s210之前包括以下步骤:

s2091,获取每一只股票对应的舆情信息样本;

s2092,对所述舆情信息样本进行分词,得到初始词序列样本,所述初始词序列样本包括至少一个分词词语;

s2093,对所述初始词序列样本进行词性标注,得到词性特征序列样本以及与所述词性特征序列样本对应的标注词序列样本;

s2094,根据所述词性特征序列样本抽取所述标注词序列样本中的关键词样本,并根据所述关键词样本对所述标注词序列样本去重,得到标准词序列样本;

s2095,对所述标准词序列样本中的分词词语进行向量化,得到词向量序列样本;

s2096,根据所述词向量序列样本和所述词性特征序列样本得到所述舆情模型。

具体地,在训练舆情模型的过程中,服务器获取每一只股票对应的舆情信息样本,舆情信息样本包括资讯文章样本。接着,服务器对所述舆情信息样本进行分词,得到初始词序列样本,并对所述初始词序列样本进行词性标注,得到词性特征序列样本以及与所述词性特征序列样本对应的标注词序列样本。再接着,服务器根据所述词性特征序列样本抽取所述标注词序列样本中的关键词样本,并根据所述关键词样本对所述标注词序列样本去重,得到标准词序列样本。

需要清楚的是,大多数的关键词抽取算法依赖于传统的bm25、基于图的算法。然而,在本实施例中,发现一篇资讯文章大多数由几个关键词决定,而这些关键词很多都是资讯文章中的内容。因此,在服务器采用序列到序列的生成算法,即将资讯文章样本作为输入,资讯文章样本对应的关键词样本作为输出,并将其输入至序列到序列的生成算法中,通过端到端的深度学习模型训练,最终得到资讯文章样本到关键词样本的生成模型。在对关键词样本进行生成的过程中,资讯文章样本输入源需要融合词性特征序列样本的信息,因为大多数情况下,生成的关键词样本都是少数几个词性的组合,通过分词词语的词性可以规避一些关键词样本生成过程中造成的词性前后不搭的情况。

接着,服务器对标准词序列样本中的分词词语进行向量化,得到词向量序列样本,并根据词向量序列样本和词性特征序列样本得到舆情模型。

进一步地,服务器根据初始词性特征序列样本和依存语法分析技术去除谣言资讯文章样本或虚假资讯文章样本。由于资讯文章样本的依存语法分析技术强依赖于资讯文章的词性信息来构建句子的语法,此处采用共同训练的方式在服务器中同时训练依存语法分析模型和词性标注模型,即将词性标注的结果作为依存语法分析模型的输入,能够得到更好的依存语法分析模型和词性标注模型。

应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图8所示,提供了一种舆情指数的预测装置800,包括:获取模块802、分词模块804、词性标注模块806、向量化模块808和打分模块810,其中:

获取模块802,用于获取股票舆情信息;

分词模块804,用于对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语;

词性标注模块806,用于对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列;

向量化模块808,用于根据所述标注词序列和所述词性特征序列,得到词向量序列;

打分模块810,用于将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数。

上述舆情指数的预测装置,通过对股票舆情信息进行分词、词性标注,得到对应的词性特征序列以及标注词序列。进一步对标注词序列进行向量化得到词向量序列,根据词向量序列和词性特征序列得到股票舆情指数。由于考虑到股票舆情信息的重要性,通过对股票舆情信息进行量化并对该股票舆情信息打分,进而根据股票舆情指数的高低来帮助用户分析股票的行情,实现了为用户提供更为可靠的实时参考数据,来辅助用户对未来股票的价格做出预测,提高了用户预测的准确性,同时也可以为专业人士提供参考,节省他们分析相关新闻舆情的时间。

在一个实施例中,所述预测装置800还包括:

第一获取模块,用于获取所述股票对应的历史舆情指数;

第二获取模块,用于根据所述股票舆情指数和所述历史舆情指数绘制股票舆情k线图。

在一个实施例中,分词模块804还用于获取金融种子词,对所述金融种子词进行近义词扩充,得到金融关键词,其中,所述金融种子词包括与所述股票相关的词语;根据所述金融种子词和所述金融关键词对所述股票舆情信息进行分类,得到每一所述股票舆情信息对应的股票类别;根据所述股票类别对所述股票舆情信息进行分词,得到所述初始词序列。

在一个实施例中,词性标注模块806还用于对所述初始词序列进行词性标注,得到初始词性特征序列;获取干扰词及所述干扰词的词性特征,将所述干扰词及所述干扰词的词性特征与所述初始词性特征序列匹配,获取包含所述干扰词的股票舆情信息对应的干扰词序列,以及所述干扰词序列对应的干扰词性特征序列;去除所述初始词序列中的所述干扰词序列,得到所述标注词序列,以及去除所述初始词性特征序列中的所述干扰词性特征序列,得到所述词性特征序列。

在一个实施例中,向量化模块808还用于根据所述词性特征序列抽取所述标注词序列中的关键词,并根据所述关键词对所述标注词序列去重,得到标准词序列;对所述标准词序列中的分词词语进行向量化,得到词向量序列。

在一个实施例中,打分模块810还用于对所述词性特征序列进行组合,得到句子层面特征;对所述句子层面特征进行汇整,得到篇章层面特征;将所述词向量序列和所述篇章层面特征输入预设的舆情模型,得到股票舆情指数。

在一个实施例中,分词模块804还用于对所述股票舆情信息进行分词,得到第一词序列;对所述第一词序列进行序列标注,得到标注词序列;对所述标注词序列进行离线处理,得到所述初始词序列。

关于舆情指数的预测装置的具体限定可以参见上文中对于舆情指数的预测方法的限定,在此不再赘述。上述舆情指数的预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预测股票舆情指数产生的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种舆情指数的预测方法。

本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:

获取股票舆情信息;

对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语;

对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列;

根据所述标注词序列和所述词性特征序列,得到词向量序列;

将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数。

上述计算机设备,通过对股票舆情信息进行分词、词性标注,得到对应的词性特征序列以及标注词序列。进一步对标注词序列进行向量化得到词向量序列,根据词向量序列和词性特征序列得到股票舆情指数。由于考虑到股票舆情信息的重要性,通过对股票舆情信息进行量化并对该股票舆情信息打分,进而根据股票舆情指数的高低来帮助用户分析股票的行情,实现了为用户提供更为可靠的实时参考数据,来辅助用户对未来股票的价格做出预测,提高了用户预测的准确性,同时也可以为专业人士提供参考,节省他们分析相关新闻舆情的时间。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取所述股票对应的历史舆情指数;根据所述股票舆情指数和所述历史舆情指数绘制股票舆情k线图。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取金融种子词,对所述金融种子词进行近义词扩充,得到金融关键词,其中,所述金融种子词包括与所述股票相关的词语;根据所述金融种子词和所述金融关键词对所述股票舆情信息进行分类,得到每一所述股票舆情信息对应的股票类别;根据所述股票类别对所述股票舆情信息进行分词,得到所述初始词序列。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:对所述初始词序列进行词性标注,得到初始词性特征序列;获取干扰词及所述干扰词的词性特征,将所述干扰词及所述干扰词的词性特征与所述初始词性特征序列匹配,获取包含所述干扰词的股票舆情信息对应的干扰词序列,以及所述干扰词序列对应的干扰词性特征序列;去除所述初始词序列中的所述干扰词序列,得到所述标注词序列,以及去除所述初始词性特征序列中的所述干扰词性特征序列,得到所述词性特征序列。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据所述词性特征序列抽取所述标注词序列中的关键词,并根据所述关键词对所述标注词序列去重,得到标准词序列;对所述标准词序列中的分词词语进行向量化,得到词向量序列。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:对所述词性特征序列进行组合,得到句子层面特征;对所述句子层面特征进行汇整,得到篇章层面特征;将所述词向量序列和所述篇章层面特征输入预设的舆情模型,得到股票舆情指数。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:对所述股票舆情信息进行分词,得到第一词序列;对所述第一词序列进行序列标注,得到标注词序列;对所述标注词序列进行离线处理,得到所述初始词序列。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取每一只股票对应的舆情信息样本;对所述舆情信息样本进行分词,得到初始词序列样本,所述初始词序列样本包括至少一个分词词语;对所述初始词序列样本进行词性标注,得到词性特征序列样本以及与所述词性特征序列样本对应的标注词序列样本;根据所述词性特征序列样本抽取所述标注词序列样本中的关键词样本,并根据所述关键词样本对所述标注词序列样本去重,得到标准词序列样本;对所述标准词序列样本中的分词词语进行向量化,得到词向量序列样本;根据所述词向量序列样本和所述词性特征序列样本得到所述舆情模型。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取股票舆情信息;

对所述股票舆情信息进行分词,得到初始词序列,所述初始词序列包括至少一个分词词语;

对所述初始词序列进行词性标注,得到标注词序列及所述标注词序列对应的词性特征序列;

根据所述标注词序列和所述词性特征序列,得到词向量序列;

将所述词向量序列和所述词性特征序列输入预设的舆情模型,得到股票舆情指数。

上述计算机可读存储介质,通过对股票舆情信息进行分词、词性标注,得到对应的词性特征序列以及标注词序列。进一步对标注词序列进行向量化得到词向量序列,根据词向量序列和词性特征序列得到股票舆情指数。由于考虑到股票舆情信息的重要性,通过对股票舆情信息进行量化并对该股票舆情信息打分,进而根据股票舆情指数的高低来帮助用户分析股票的行情,实现了为用户提供更为可靠的实时参考数据,来辅助用户对未来股票的价格做出预测,提高了用户预测的准确性,同时也可以为专业人士提供参考,节省他们分析相关新闻舆情的时间。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述股票对应的历史舆情指数;根据所述股票舆情指数和所述历史舆情指数绘制股票舆情k线图。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取金融种子词,对所述金融种子词进行近义词扩充,得到金融关键词,其中,所述金融种子词包括与所述股票相关的词语;根据所述金融种子词和所述金融关键词对所述股票舆情信息进行分类,得到每一所述股票舆情信息对应的股票类别;根据所述股票类别对所述股票舆情信息进行分词,得到所述初始词序列。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对所述初始词序列进行词性标注,得到初始词性特征序列;获取干扰词及所述干扰词的词性特征,将所述干扰词及所述干扰词的词性特征与所述初始词性特征序列匹配,获取包含所述干扰词的股票舆情信息对应的干扰词序列,以及所述干扰词序列对应的干扰词性特征序列;去除所述初始词序列中的所述干扰词序列,得到所述标注词序列,以及去除所述初始词性特征序列中的所述干扰词性特征序列,得到所述词性特征序列。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据所述词性特征序列抽取所述标注词序列中的关键词,并根据所述关键词对所述标注词序列去重,得到标准词序列;对所述标准词序列中的分词词语进行向量化,得到词向量序列。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对所述词性特征序列进行组合,得到句子层面特征;对所述句子层面特征进行汇整,得到篇章层面特征;将所述词向量序列和所述篇章层面特征输入预设的舆情模型,得到股票舆情指数。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对所述股票舆情信息进行分词,得到第一词序列;对所述第一词序列进行序列标注,得到标注词序列;对所述标注词序列进行离线处理,得到所述初始词序列。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取每一只股票对应的舆情信息样本;对所述舆情信息样本进行分词,得到初始词序列样本,所述初始词序列样本包括至少一个分词词语;对所述初始词序列样本进行词性标注,得到词性特征序列样本以及与所述词性特征序列样本对应的标注词序列样本;根据所述词性特征序列样本抽取所述标注词序列样本中的关键词样本,并根据所述关键词样本对所述标注词序列样本去重,得到标准词序列样本;对所述标准词序列样本中的分词词语进行向量化,得到词向量序列样本;根据所述词向量序列样本和所述词性特征序列样本得到所述舆情模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1