一种股票标准新闻库的构建方法及构建系统的制作方法_2

文档序号：9350072阅读：来源：国知局

加到标准库中，形成新的标准库Z 3，其中新的标准库中包含的新闻库为 ZjZ2O
[0049] 采用上述进一步方案的有益效果是：使用该方式可以不断扩大和充实新闻库的内容。
[0050] 进一步，设Z。= Z 3，重复主步骤3-6,并不断调整Z3中的新闻组成，直到利用训练后的模型、训练的输入数据的分类结果正确比率大于90%，所得的&即为新构建的标准库。
[0051] 采用上述进一步方案的有益效果是：重复步骤3至步骤6,使得分类结果正确比率大于90 %，便于准确构建标准库。
[0052] -种股票标准新闻库构建系统，其特征在于，包括新闻获取模块、标准新闻库模块、预编译模块、标识模块、信息增益模块、分类模块和调整控制模块；
[0053] 所述新闻获取模块，用于获取股票新闻信息；
[0054] 所述标准新闻库模块，用于根据股票新闻信息构建股票标准库Z。；
[0055] 所述预编译模块，用于对股票标准库中的文本进行预编译；
[0056] 所述标识模块，用于对已编译文本的特征进行标识，选取特征词；
[0057] 所述信息增益模块，用于计算特征词的信息增益，得到特征词的特征值；
[0058] 所述分类模块，用于利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型，并利用分类模型更新股票标准库；
[0059] 所述调整控制模块，用于重复调用预编译模块、标识模块、信息增益模块和分类模块，调整股票标准库中的新闻组成，直至分类结果正确率大于阈值。
【附图说明】
[0060] 图1为股票标准新闻库的构建方法流程图；
[0061] 图2为股票标准新闻库的构建系统原理框图。
【具体实施方式】
[0062] 以下对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。
[0063] 如图1所示，一种股票标准新闻库的构建方法，其特征在于，包括如下步骤，
[0064] 步骤Sl:使用互联网工具网络爬虫从互联网中抓取股票新闻信息；
[0065] 步骤S2 :构建股票标准库Z。；
[0066] 步骤S3 :对股票标准库中的文本进行预编译；
[0067] 步骤S4 :对文本特征进行标识，选取特征词；
[0068] 步骤S5 :计算特征词的信息增益，得到特征词的特征值；
[0069] 步骤S6 :利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型；
[0070] 步骤S7 :利用分类模型更新股票标准库；
[0071] 步骤S8 :重复步骤3至步骤6,调整股票标准库中的新闻组成。
[0072] 所述步骤2构建股票标准库的方法为根据获取的股票新闻信息，逐条判断新闻信息对股票是看涨或看跌，如果看涨，则该条新闻信息归类为积极新闻，如果看跌则该条新闻归类为消极新闻，积极新闻和消极新闻共同构成股票标准库Z。。
[0073]步骤S3中对股票标准库中的文本进行预编译，预编译包括对新闻信息进行分词和去除停用词；工业界和学术界常用的有The Stanford NLP，中科院NLP组，基于Python语言的Jieba开源分词软件的中文分词组件。建议采用Jieba分词系统，它基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图。采用了动态规划查找最大概率路径，找出基于词频的最大切分组合。
[0074] 去除停用词，定义停用词，利用Jieba分词工具去除停用词。比如"房地产板块股 (尤其是）保利地产后期（有望）继续走强"，"尤其是"和"有望"这两个词就是停用词，没有什么实际意义，再根据股票新闻的特点人工增加类似上交所，深交所等毫无分类意义的词汇，以便达到更高的效率。利用Jieba分词工具本身自带的停用词库（包含语气助词、副词、介词、连接词等）就可以。
[0075] 步骤S4对文本特征进行标识，采用TF-IDF加权法；
[0076] TF-IDF加权法（term frequency inverse document frequency，用于信息检索与数据挖掘的常用加权技术）在文本处理领域中应用广泛，该方法的基本原理是：如果某个词语在一篇文件中出现的频率高，但是在其他文件中出现频率低，则认为该词语具有很好的类别区分能力，能够用于分类操作。
[0077] TF-IDF的计算方法为词频TF与逆向文档频率IDF的乘积，TF表示词语在文件d 中出现的频率，IDF的含义是：如果包含词语t的文件越少，也就是n越小，IDF越大，则说明词语t具有很好的类别区分能力；
[0078] 对于在某一特定语料中的词语h来说，TF的计算方法为：
[0080] 上式中Ii1,,是该词语在文档d ,中的显现次数，而分母则是在文档d ,中所有词语的显现次数之总和；
[0081] IDF由总文档数目除以包含该词语的文档的数目，再将所得到的商取对数得到：
[0083] 其中|d| :股票标准库的文档总数；
[0084] Uht1G(I)I :包含词语心的文档数目（即Ii1,卢0的文档数目），如果该词语在语料库中不存在，就会导致分母为零，因此使用1+I U A1G d ,} I作为特征选择方法；
[0085] TF-IDF加权法的计算方法如下：
[0086] TFIDFlj j= TF !, ^IDFl0
[0087] 采用TF-IDF加权法，当某一特定文档语料中的高频率词语，以及该词语在全部文本集合中的低文档频率，能够体现出较高权重的值。所以，TF-IDF方法倾向于去掉常见的单词，保留重要的单词。对经过分词和去除停用词处理后新闻文本中的词语，计算TF-IDF值之后，选择其中权重最大的20个特征词。
[0088] 步骤S5中信息增益为某一特征在文档中出现的前后信息熵之差，其计算公式为：
[0089]
[0090] 式中：P(C1)表示类别(；出现的概率，用类别匕的文档数除以总的文档数；P(t)是特征t出现的概率，用出现过T的文档数除以总文档数；P (C111)表示出现T的时候，类别C1 出现的概率；
[0091] 对每个词语进行编号，每个编号的词语计算得到的信息增益与之一一对应，并作为输入数据对支持SVM进行有监督训练，训练的输出数据为1或-1表示特征词的特征值，其中1表示积极新闻，-1表示消极新闻。
[0092] 利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型。SVM算法（向量机算法）是机器学习中很成熟的算法，其功能是利用已知的输入输出数据进行训练，得到描述输入输出数据分类的支持向量，算法训练完毕。接下来，如果没有数据输入到该系统中，利用已经训练得到的支持向量就可以将新输入的数据进行分类。该算法还有很多改进方法，本专利的本步骤可以使用任何SVM方法，基本原理和步骤可以参考如下：
[0093] 步骤S5中将每个特征词进行编号，例如标号为1，2,3......(连续整数）。对于每个标号的词语计算得到与之相对应的信息增益作为输入数据；根据股票未来实际涨跌，判断每只股票新闻是积极新闻还是消极新闻，得到新闻类别1 (表示积极新闻）或-1 (表示消极新闻）作为输出数据，利用已知新闻类别的样本对支持向量机进行有监督训练。通过支持向量机构建分类器模型将输入数据分为两类，需要找到数据集的最佳分隔超平面，可以通过最优化目标函数得到：
[0099] 其中<x(1)，x(])>表示两个向量内积，常数C用于控制"最大化间隔"和"保证大部分点的函数间隔在〇到1. 〇"。在优化算法的实现代码中，常数C是一个参数，可以通过调节该参数的到不同的结果。SVM的主要工作就是求解这些Ci 1，一旦求出了所有的Ci1，那么分隔超平面就可以通过这些a ,来表达。
[0100] 具体步骤为：
[0101] 步骤61选择径向基函数作为核函数，将训练样本映射到高维特征空间；
[0102] Kc (x,y) =exp(-y| |x-y| |2)
[0103] 在使用RBF核函数的情况下，需要优化的参数有：C和y。C是惩罚系数，C太小，容易发生过拟合，C太大，拟合的结果和实际结果相差太大；Y是RBF的系数，Y的取值直接影响到能否找到一个能将多类数据分开的最优超平面。一般取值方法为C= 211，Y= 2n〇
[0104] 步骤62利用SVM在样本特征空间中找出各类别样本的最优分类超平面，得到代表各样本特征

完整全部详细技术资料下载

当前第2页1 2 3