一种股票标准新闻库的构建方法及构建系统的制作方法_3

文档序号:9350072阅读:来源:国知局
的支持向量。
[0105] 步骤63求出最小化IIw|I,w是垂直于超平面的向量;
[0106] 步骤64只存储非零的ai和相应的支持向量X1;
[0107] 步骤65分类;对于待分类样本X,用支持向量X1和相应的权重ai计算判别函数 式得到输出类别。
[0108] 步骤S7中利用分类模型更新股票标准库的具体步骤如下:
[0109] 步骤71 :将特征词的信息增益作为输入加入到已训练的支持SVM上,选择对股票 新闻积极或消极分类正确的新闻,组成新闻集合Z1;
[0110] 步骤72 :使用爬虫工具在网页上继续获取股票评价新闻,新闻的特征数据作为输 入加入到已训练的支持SVM上,对股票新闻进行分类,得到其为积极或消极分类的结果;
[0111] 步骤73:将得到的新闻及其分类结果构成新闻集合Z2,利用Z1修改Z。,构建新的股 票新闻标准库,并将Z2加到标准库中,形成新的标准库Z3,其中新的标准库中包含的新闻库 为ZjZ2O
[0112] 设Z。=Z3,重复步骤3至步骤6,并不断调整Z3中的新闻组成,直到利用训练后的 模型、训练的输入数据的分类结果正确比率大于90%,所得的&即为新构建的标准库。
[0113] 如图2所示,一种股票标准新闻库构建系统,其特征在于,包括新闻获取模块1、标 准新闻库模块2、预编译模块3、标识模块4、信息增益模块5、分类模块6和调整控制模块7;
[0114] 所述新闻获取模块1,用于获取股票新闻信息;
[0115] 所述标准新闻库模块2,用于根据股票新闻信息构建股票标准库Z。;
[0116] 所述预编译模块3,用于对股票标准库中的文本进行预编译;
[0117] 所述标识模块4,用于对已编译文本的特征进行标识,选取特征词;
[0118] 所述信息增益模块5,用于计算特征词的信息增益,得到特征词的特征值;
[0119] 所述分类模块6,用于利用特征值训练支持SVM算法,得到抽取新闻特征的分类模 型,并利用分类模型更新股票标准库;
[0120] 所述调整控制模块7,用于重复调用预编译模块3、标识模块4、信息增益模块5和 分类模块6,调整股票标准库中的新闻组成,直至分类结果正确率大于阈值。
[0121] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种股票标准新闻库的构建方法,其特征在于,包括如下步骤, 步骤Sl :获取股票新闻信息; 步骤S2 :根据股票新闻信息构建股票标准库Z。; 步骤S3 :对股票标准库中的文本进行预编译; 步骤S4 :对已编译文本的特征进行标识,选取特征词; 步骤S5 :计算特征词的信息增益,得到特征词的特征值; 步骤S6 :利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型; 步骤S7 :利用分类模型更新股票标准库; 步骤S8 :重复步骤S3至步骤S6,调整股票标准库中的新闻组成,直至分类结果正确率 大于阈值。2. 根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,获取股票新闻信 息的方法为使用互联网工具网络爬虫从互联网中获取股票新闻信息。3. 根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,所述步骤S2构建 股票标准库的方法为根据获取的股票新闻信息,逐条判断新闻信息对股票是看涨或看跌, 如果看涨,则该条新闻信息归类为积极新闻,如果看跌则该条新闻归类为消极新闻,积极新 闻和消极新闻共同构成股票标准库Z。。4. 根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,所述步骤S3中对 股票标准库中的文本进行预编译,预编译包括对新闻信息进行分词和去除停用词; 分词,采用Jieba分词系统,基于前缀词典实现词图扫描,生成句子中汉字所有可能成 词情况所构成的有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分 组合; 去除停用词,定义停用词,利用Jieba分词工具去除停用词。5. 根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,采用TF-IDF加权 法对所述步骤S4中文本特征进行标识; TF-IDF加权法为词频TF与逆向文档频率IDF的乘积,TF表示词语在文件d中出现的 频率,IDF是判断词语在其他文档中出现次数的一种度量,用于判断词语的类别区分能力; 对于在某一特定语料中的词语h来说,TF的计算方法为:上式中Il1,,是该词语在文档d ,中的显现次数,而分母则是在文档d ,中所有词语的显现 次数之总和; IDF由总文档数目除以包含该词语的文档的数目,再将所得到的商取对数得到:其中|d| :股票标准库的文档总数; U Ae d J I :包含词语h的文档数目(即n i,卢O的文档数目),如果该词语在语 料库中不存在,就会导致分母为零,因此使用1+1 {j :tie d ,} I作为特征选择方法; TF-IDF加权法的计算方法如下: TFIDFljj= TFljj^IDF1O6. 根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,所述步骤S5中的 信息增益为某一特征在文档中出现的前后信息熵之差;式中=C1描述新闻的类别,即是积极新闻或消极新闻;P(C1)表示类别C1出现的概率,用 类别C1的文档数除以总的文档数;P(t)是特征词t出现的概率,用出现过T的文档数除以 总文档数;P (C1 |t)表示出现T的时候,类别C1出现的概率; 对每个词语进行编号,每个编号的词语计算得到的信息增益与之一一对应,并作为输 入数据对支持SVM进行有监督训练,训练的输出数据为1或-1表示特征词的特征值,其中 1表示积极新闻,-1表示消极新闻。7. 根据权利要求1所述的股票标准新闻库的构建方法,其特征在于,所述步骤S7中利 用分类模型更新股票标准库的具体步骤如下: 步骤71 :将特征词的信息增益作为输入加入到已训练的支持SVM上,选择对股票新闻 积极或消极分类正确的新闻,组成新闻集合Z1; 步骤72 :使用爬虫工具在网页上继续获取股票评价新闻,新闻的特征数据作为输入加 入到已训练的支持SVM上,对股票新闻进行分类,得到其为积极或消极分类的结果; 步骤73 :将得到的新闻及其分类结果构成新闻集合Z2,利用Z1修改Z。,构建新的股票新 闻标准库,并将&加到股票标准新闻库中,形成新的股票标准新闻库Z 3,其中新的标准库中 包含的新闻库SZi+Z2。8. 根据权利要求7所述的股票标准新闻库的构建方法,其特征在于,设Z。= Z 3,重复主 步骤S3-S6,并不断调整Z3中的新闻组成,直到利用训练后的模型、训练的输入数据的分类 结果正确比率大于阈值,阈值为90%,所得的&即为新构建的标准库。9. 一种股票标准新闻库构建系统,其特征在于,包括新闻获取模块(1)、标准新闻库模 块(2)、预编译模块(3)、标识模块(4)、信息增益模块(5)、分类模块(6)和调整控制模块 (7); 所述新闻获取模块(1),用于获取股票新闻信息; 所述标准新闻库模块(2),用于根据股票新闻信息构建股票标准库Z。; 所述预编译模块(3),用于对股票标准库中的文本进行预编译; 所述标识模块(4),用于对已编译文本的特征进行标识,选取特征词; 所述信息增益模块(5),用于计算特征词的信息增益,得到特征词的特征值; 所述分类模块(6),用于利用特征值训练支持SVM算法,得到抽取新闻特征的分类模 型,并利用分类模型更新股票标准库; 所述调整控制模块(7),用于重复调用预编译模块(3)、标识模块(4)、信息增益模块 (5)和分类模块(6),调整股票标准库中的新闻组成,直至分类结果正确率大于阈值。
【专利摘要】本发明涉及股票标准新闻库的构建方法及构建系统,包括获取股票新闻信息;构建股票标准库Z0;对股票标准库中的文本进行预编译;对文本特征进行标识,选取特征词;计算特征词的信息增益,得到特征词的特征值;利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型;利用分类模型更新股票标准库;更新调整股票标准库中的新闻组成;通过对抓取的新闻信息进行判断是积极新闻还是消极新闻,构建分类模型,并通过向量机算法不断更新数据库中的新闻信息,实现新闻库的构建,该数据库构建方法简单,实现方便,且新闻数据处理效率高,及时更新数据信息,数据信息准确。
【IPC分类】G06F17/30
【公开号】CN105069141
【申请号】CN201510511588
【发明人】金学波
【申请人】北京工商大学
【公开日】2015年11月18日
【申请日】2015年8月19日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1