一种股票标准新闻库的构建方法及构建系统的制作方法

文档序号:9350072阅读:837来源:国知局
一种股票标准新闻库的构建方法及构建系统的制作方法
【技术领域】
[0001] 本发明涉及文字信息处理技术领域,尤其是一种股票标准新闻库的构建方法。
【背景技术】
[0002] 股市新闻作为市场信息的重要部分,被投资者广泛地分析和运用。随着互联网的 高速发展,新闻传播和信息变更的速度非常大。拥有如此大量的信息,越来越多的金融机构 依靠计算机来分析数据,与此相关的分析预测系统可以帮助投资者过滤干扰信息并做出合 理的选择。
[0003] 股票价格的统计分析和预测方法很多,一些传统技术分析方法包括股价图形分析 (点线图、直线图、K线图等)、趋势分析(趋势线、通道线、黄金分割线等)、指标分析(随机 指标、威廉指标、乖离率、相对强弱指数等)等。这些技术主要集中在运用近期历史价格数 据的数值型方法分析,不能分析文字新闻数据。
[0004] 目前,随着互联网的发展,基于文本分析的股票分析及预测方法也取得了实际的 应用效果。基于文本分类-预测模型可以利用最新的股市新闻,对股价给出一个比较明确 的预测(上升,持平或者下降)。基于文本分析的股票分析及预测方法通过公开新闻信息, 利用改进的评价组对股票情感词进行特征选择,并用归一化后的绝对词频权重对文本中的 情感词进行特征加权选择并对股票新闻进行倾向性分析。但是该方法较为复杂,效率较低, 输出结果的准确性不高。

【发明内容】

[0005] 本发明所要解决的技术问题是提供一种构建简单,输出准确的股票标准新闻库构 建方法及构建系统。
[0006] 本发明解决上述技术问题的技术方案如下:
[0007] -种股票标准新闻库的构建方法,其特征在于,包括如下步骤,
[0008] 步骤S1 :获取股票新闻信息;
[0009] 步骤S2 :根据股票新闻信息构建股票标准库Z。;
[0010] 步骤S3 :对股票标准库中的文本进行预编译;
[0011] 步骤S4 :对已编译文本的特征进行标识,选取特征词;
[0012] 步骤S5 :计算特征词的信息增益,得到特征词的特征值;
[0013] 步骤S6 :利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型;
[0014] 步骤S7 :利用分类模型更新股票标准库;
[0015] 步骤S8 :重复步骤S3至步骤S6,调整股票标准库中的新闻组成,直至分类结果正 确比率大于阈值。
[0016] 本发明的有益效果:通过对抓取的新闻信息进行判断是积极新闻还是消极新闻, 构建分类模型,并通过向量机算法不断更新数据库中的新闻信息,实现新闻库的构建,该数 据库构建方法简单,实现方便,且新闻数据处理效率高,及时更新数据信息,数据信息准确。
[0017] 进一步,获取股票新闻信息的方法为使用互联网工具网络爬虫从互联网中抓取股 票新闻彳目息。
[0018] 采用进一步技术方案的有益效果:从互联网中实时抓取新闻信息,新闻时效性高, 能够实现动态更新新闻库。
[0019] 进一步,所述步骤S2构建股票标准库的方法为根据获取的股票新闻信息,逐条判 断新闻信息对股票是看涨或看跌,如果看涨,则该条新闻信息归类为积极新闻,如果看跌则 该条新闻归类为消极新闻,积极新闻和消极新闻共同构成股票标准库Z。。
[0020] 采用进一步技术方案的有益效果:新闻信息归类为积极新闻和消极新闻,归类简 单直接,积极新闻和消极新闻共同构成股票标准库Z。,便于后续文本处理。
[0021] 进一步,所述步骤S3中对股票标准库中的文本进行预编译,预编译包括对新闻信 息进行分词和去除停用词;
[0022] 分词,采用Jieba分词系统,基于前缀词典实现高效的词图扫描,生成句子中汉字 所有可能成词情况所构成的有向无环图,采用了动态规划查找最大概率路径,找出基于词 频的最大切分组合;
[0023] 去除停用词,定义停用词,利用Jieba分词工具去除停用词。
[0024] 采用进一步技术方案的有益效果:工业界和学术界常用的有The Stanford NLP (中科院NLP组),其为基于Python语言的Jieba开源分词软件的中文分词组件。采用 Jieba分词系统,它基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况 所构成的有向无环图。采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。 另外利用Jieba分词工具本身自带的停用词库(包含语气助词、副词、介词、连接词等)就 可以很好的达到去除停用词的目标。
[0025] 进一步,所述步骤S4对文本特征进行标识,采用TF-IDF加权法;
[0026] TF-IDF的计算方法为词频TF与逆向文档频率IDF的乘积,TF表示词语在文件d 中出现的频率,IDF的含义是:如果包含词语t的文件越少,也就是n越小,IDF越大,则说 明词语t具有很好的类别区分能力;
[0027] 对于在某一特定语料中的词语h来说,TF的计算方法为:
[0029] 上式中Ii1,,是该词语在文档d ,中的显现次数,而分母则是在文档d ,中所有词语的 显现次数之总和;
[0030] IDF由总文档数目除以包含该词语的文档的数目,再将所得到的商取对数得到:
[0032] 其中|D| :股票标准库的文档总数;
[0033] Uht1GdJI :包含词语心的文档数目(即Ii1,卢0的文档数目),如果该词语 在语料库中不存在,就会导致分母为零,因此使用1+I U A1G d ,} I作为特征选择方法;
[0034] TF-IDF加权法的计算方法如下:
[0035] TFIDFlj j= TF !, ^IDFl0
[0036] 采用进一步技术方案的有益效果:采用TF-IDF加权法,TF-IDF(term frequency inverse document frequency)是一种用于资讯检索的常用加权技术。用以评估某个词语 对于一个文档集合(或股票标准库)中的其中一份文件的重要程度。单词的重要性随着 它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评 级,所以TF-IDF加权法倾向于去掉常见的无意义的词语,保留重要的词语,对于经过分词 和去掉停用词处理后新闻文本中的词语。
[0037] 实际中如果特征词选择太多,在训练SVM时耗时长,还不收敛,但特征词太少,标 准新闻库构建效果不好。所以经过实验,选取20个特征词为最优方案。
[0038] 进一步,所述步骤S5中信息增益为某一特征在文档中出现的前后信息熵之差,其 计算公式为:
[0039]
[0040] 式中:P(C1)表示类别(;出现的概率,用类别匕的文档数除以总的文档数;P(t)是 特征t出现的概率,用出现过T的文档数除以总文档数;P (C111)表示出现T的时候,类别C1 出现的概率;
[0041] 对每个词语进行编号,每个编号的词语计算得到的信息增益与之一一对应,并作 为输入数据对支持SVM进行有监督训练,训练的输出数据为1或-1表示特征词的特征值, 其中1表示积极新闻,-1表示消极新闻。
[0042] 采用进一步技术方案的有益效果:计算特征词的特征值,采用1表示积极新闻,-1 表示消极新闻,方法简单,归类迅速。
[0043] 进一步,步骤S6,利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型。
[0044] 采用进一步技术方案的有益效果:SVM(向量机)算法是机器学习中成熟的算法, 其是利用已知的输入输出数据进行训练,得到描述输入输出数据分类的支持向量,算法训 练完毕。接下来,如果没有输出标签的数据输入到该系统中,利用已经训练得到的支持向量 就可以将新输入的数据进行分类。该算法还有很多改进方法,本专利的本步骤可以使用任 何SVM算法。
[0045] 进一步,所述步骤S7中利用分类模型更新股票标准库的具体步骤如下:
[0046] 步骤71 :将将特征词的信息增益作为输入加入到已训练的支持SVM上,选择对股 票新闻积极或消极分类正确的新闻,组成新闻集合Z1;
[0047] 步骤72 :使用爬虫工具在网页上继续获取股票评价新闻,新闻的特征数据作为输 入加入到已训练的支持SVM上,对股票新闻进行分类,得到其为积极或消极分类的结果;
[0048] 步骤73 :将得到的新闻及其分类结果构成新闻集合Z2,利用Z1修改Z。,构建新的股 票新闻标准库,并将Z 2
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1