一种股票标准新闻库的构建方法及构建系统的制作方法_2

文档序号:9350072阅读:来源:国知局
加到标准库中,形成新的标准库Z 3,其中新的标准库中包含的新闻库 为 ZjZ2O
[0049] 采用上述进一步方案的有益效果是:使用该方式可以不断扩大和充实新闻库的内 容。
[0050] 进一步,设Z。= Z 3,重复主步骤3-6,并不断调整Z3中的新闻组成,直到利用训练 后的模型、训练的输入数据的分类结果正确比率大于90%,所得的&即为新构建的标准库。
[0051] 采用上述进一步方案的有益效果是:重复步骤3至步骤6,使得分类结果正确比率 大于90 %,便于准确构建标准库。
[0052] -种股票标准新闻库构建系统,其特征在于,包括新闻获取模块、标准新闻库模 块、预编译模块、标识模块、信息增益模块、分类模块和调整控制模块;
[0053] 所述新闻获取模块,用于获取股票新闻信息;
[0054] 所述标准新闻库模块,用于根据股票新闻信息构建股票标准库Z。;
[0055] 所述预编译模块,用于对股票标准库中的文本进行预编译;
[0056] 所述标识模块,用于对已编译文本的特征进行标识,选取特征词;
[0057] 所述信息增益模块,用于计算特征词的信息增益,得到特征词的特征值;
[0058] 所述分类模块,用于利用特征值训练支持SVM算法,得到抽取新闻特征的分类模 型,并利用分类模型更新股票标准库;
[0059] 所述调整控制模块,用于重复调用预编译模块、标识模块、信息增益模块和分类模 块,调整股票标准库中的新闻组成,直至分类结果正确率大于阈值。
【附图说明】
[0060] 图1为股票标准新闻库的构建方法流程图;
[0061] 图2为股票标准新闻库的构建系统原理框图。
【具体实施方式】
[0062] 以下对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限 定本发明的范围。
[0063] 如图1所示,一种股票标准新闻库的构建方法,其特征在于,包括如下步骤,
[0064] 步骤Sl:使用互联网工具网络爬虫从互联网中抓取股票新闻信息;
[0065] 步骤S2 :构建股票标准库Z。;
[0066] 步骤S3 :对股票标准库中的文本进行预编译;
[0067] 步骤S4 :对文本特征进行标识,选取特征词;
[0068] 步骤S5 :计算特征词的信息增益,得到特征词的特征值;
[0069] 步骤S6 :利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型;
[0070] 步骤S7 :利用分类模型更新股票标准库;
[0071] 步骤S8 :重复步骤3至步骤6,调整股票标准库中的新闻组成。
[0072] 所述步骤2构建股票标准库的方法为根据获取的股票新闻信息,逐条判断新闻信 息对股票是看涨或看跌,如果看涨,则该条新闻信息归类为积极新闻,如果看跌则该条新闻 归类为消极新闻,积极新闻和消极新闻共同构成股票标准库Z。。
[0073]步骤S3中对股票标准库中的文本进行预编译,预编译包括对新闻信息进行分词 和去除停用词;工业界和学术界常用的有The Stanford NLP,中科院NLP组,基于Python语 言的Jieba开源分词软件的中文分词组件。建议采用Jieba分词系统,它基于前缀词典实 现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图。采用了动态 规划查找最大概率路径,找出基于词频的最大切分组合。
[0074] 去除停用词,定义停用词,利用Jieba分词工具去除停用词。比如"房地产板块股 (尤其是)保利地产后期(有望)继续走强","尤其是"和"有望"这两个词就是停用词,没 有什么实际意义,再根据股票新闻的特点人工增加类似上交所,深交所等毫无分类意义的 词汇,以便达到更高的效率。利用Jieba分词工具本身自带的停用词库(包含语气助词、副 词、介词、连接词等)就可以。
[0075] 步骤S4对文本特征进行标识,采用TF-IDF加权法;
[0076] TF-IDF加权法(term frequency inverse document frequency,用于信息检索与 数据挖掘的常用加权技术)在文本处理领域中应用广泛,该方法的基本原理是:如果某个 词语在一篇文件中出现的频率高,但是在其他文件中出现频率低,则认为该词语具有很好 的类别区分能力,能够用于分类操作。
[0077] TF-IDF的计算方法为词频TF与逆向文档频率IDF的乘积,TF表示词语在文件d 中出现的频率,IDF的含义是:如果包含词语t的文件越少,也就是n越小,IDF越大,则说 明词语t具有很好的类别区分能力;
[0078] 对于在某一特定语料中的词语h来说,TF的计算方法为:
[0080] 上式中Ii1,,是该词语在文档d ,中的显现次数,而分母则是在文档d ,中所有词语的 显现次数之总和;
[0081] IDF由总文档数目除以包含该词语的文档的数目,再将所得到的商取对数得到:
[0083] 其中|d| :股票标准库的文档总数;
[0084] Uht1G(I)I :包含词语心的文档数目(即Ii1,卢0的文档数目),如果该词语 在语料库中不存在,就会导致分母为零,因此使用1+I U A1G d ,} I作为特征选择方法;
[0085] TF-IDF加权法的计算方法如下:
[0086] TFIDFlj j= TF !, ^IDFl0
[0087] 采用TF-IDF加权法,当某一特定文档语料中的高频率词语,以及该词语在全部文 本集合中的低文档频率,能够体现出较高权重的值。所以,TF-IDF方法倾向于去掉常见的单 词,保留重要的单词。对经过分词和去除停用词处理后新闻文本中的词语,计算TF-IDF值 之后,选择其中权重最大的20个特征词。
[0088] 步骤S5中信息增益为某一特征在文档中出现的前后信息熵之差,其计算公式为:
[0089]
[0090] 式中:P(C1)表示类别(;出现的概率,用类别匕的文档数除以总的文档数;P(t)是 特征t出现的概率,用出现过T的文档数除以总文档数;P (C111)表示出现T的时候,类别C1 出现的概率;
[0091] 对每个词语进行编号,每个编号的词语计算得到的信息增益与之一一对应,并作 为输入数据对支持SVM进行有监督训练,训练的输出数据为1或-1表示特征词的特征值, 其中1表示积极新闻,-1表示消极新闻。
[0092] 利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型。SVM算法(向量机 算法)是机器学习中很成熟的算法,其功能是利用已知的输入输出数据进行训练,得到描 述输入输出数据分类的支持向量,算法训练完毕。接下来,如果没有数据输入到该系统中, 利用已经训练得到的支持向量就可以将新输入的数据进行分类。该算法还有很多改进方 法,本专利的本步骤可以使用任何SVM方法,基本原理和步骤可以参考如下:
[0093] 步骤S5中将每个特征词进行编号,例如标号为1,2,3......(连续整数)。对于每 个标号的词语计算得到与之相对应的信息增益作为输入数据;根据股票未来实际涨跌,判 断每只股票新闻是积极新闻还是消极新闻,得到新闻类别1 (表示积极新闻)或-1 (表示消 极新闻)作为输出数据,利用已知新闻类别的样本对支持向量机进行有监督训练。通过支 持向量机构建分类器模型将输入数据分为两类,需要找到数据集的最佳分隔超平面,可以 通过最优化目标函数得到:
[0099] 其中<x(1),x(])>表示两个向量内积,常数C用于控制"最大化间隔"和"保证大部 分点的函数间隔在〇到1. 〇"。在优化算法的实现代码中,常数C是一个参数,可以通过调节 该参数的到不同的结果。SVM的主要工作就是求解这些Ci 1,一旦求出了所有的Ci1,那么分 隔超平面就可以通过这些a ,来表达。
[0100] 具体步骤为:
[0101] 步骤61选择径向基函数作为核函数,将训练样本映射到高维特征空间;
[0102] Kc (x,y) =exp(-y| |x-y| |2)
[0103] 在使用RBF核函数的情况下,需要优化的参数有:C和y。C是惩罚系数,C太小, 容易发生过拟合,C太大,拟合的结果和实际结果相差太大;Y是RBF的系数,Y的取值直 接影响到能否找到一个能将多类数据分开的最优超平面。一般取值方法为C= 211,Y= 2n〇
[0104] 步骤62利用SVM在样本特征空间中找出各类别样本的最优分类超平面,得到代表 各样本特征
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1