一种股票标准新闻库的构建方法及构建系统的制作方法_3

文档序号：9350072阅读：来源：国知局

的支持向量。
[0105] 步骤63求出最小化IIw|I，w是垂直于超平面的向量；
[0106] 步骤64只存储非零的ai和相应的支持向量X1;
[0107] 步骤65分类；对于待分类样本X，用支持向量X1和相应的权重ai计算判别函数式得到输出类别。
[0108] 步骤S7中利用分类模型更新股票标准库的具体步骤如下：
[0109] 步骤71 :将特征词的信息增益作为输入加入到已训练的支持SVM上，选择对股票新闻积极或消极分类正确的新闻，组成新闻集合Z1;
[0110] 步骤72 :使用爬虫工具在网页上继续获取股票评价新闻，新闻的特征数据作为输入加入到已训练的支持SVM上，对股票新闻进行分类，得到其为积极或消极分类的结果；
[0111] 步骤73:将得到的新闻及其分类结果构成新闻集合Z2，利用Z1修改Z。，构建新的股票新闻标准库，并将Z2加到标准库中，形成新的标准库Z3，其中新的标准库中包含的新闻库为ZjZ2O
[0112] 设Z。=Z3，重复步骤3至步骤6,并不断调整Z3中的新闻组成，直到利用训练后的模型、训练的输入数据的分类结果正确比率大于90%，所得的&即为新构建的标准库。
[0113] 如图2所示，一种股票标准新闻库构建系统，其特征在于，包括新闻获取模块1、标准新闻库模块2、预编译模块3、标识模块4、信息增益模块5、分类模块6和调整控制模块7;
[0114] 所述新闻获取模块1，用于获取股票新闻信息；
[0115] 所述标准新闻库模块2,用于根据股票新闻信息构建股票标准库Z。；
[0116] 所述预编译模块3,用于对股票标准库中的文本进行预编译；
[0117] 所述标识模块4,用于对已编译文本的特征进行标识，选取特征词；
[0118] 所述信息增益模块5,用于计算特征词的信息增益，得到特征词的特征值；
[0119] 所述分类模块6,用于利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型，并利用分类模型更新股票标准库；
[0120] 所述调整控制模块7,用于重复调用预编译模块3、标识模块4、信息增益模块5和分类模块6,调整股票标准库中的新闻组成，直至分类结果正确率大于阈值。
[0121] 以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种股票标准新闻库的构建方法，其特征在于，包括如下步骤，步骤Sl :获取股票新闻信息；步骤S2 :根据股票新闻信息构建股票标准库Z。；步骤S3 :对股票标准库中的文本进行预编译；步骤S4 :对已编译文本的特征进行标识，选取特征词；步骤S5 :计算特征词的信息增益，得到特征词的特征值；步骤S6 :利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型；步骤S7 :利用分类模型更新股票标准库；步骤S8 :重复步骤S3至步骤S6,调整股票标准库中的新闻组成，直至分类结果正确率大于阈值。2. 根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，获取股票新闻信息的方法为使用互联网工具网络爬虫从互联网中获取股票新闻信息。3. 根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，所述步骤S2构建股票标准库的方法为根据获取的股票新闻信息，逐条判断新闻信息对股票是看涨或看跌，如果看涨，则该条新闻信息归类为积极新闻，如果看跌则该条新闻归类为消极新闻，积极新闻和消极新闻共同构成股票标准库Z。。4. 根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，所述步骤S3中对股票标准库中的文本进行预编译，预编译包括对新闻信息进行分词和去除停用词；分词，采用Jieba分词系统，基于前缀词典实现词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图，采用动态规划查找最大概率路径，找出基于词频的最大切分组合；去除停用词，定义停用词，利用Jieba分词工具去除停用词。5. 根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，采用TF-IDF加权法对所述步骤S4中文本特征进行标识； TF-IDF加权法为词频TF与逆向文档频率IDF的乘积，TF表示词语在文件d中出现的频率，IDF是判断词语在其他文档中出现次数的一种度量，用于判断词语的类别区分能力；对于在某一特定语料中的词语h来说，TF的计算方法为：上式中Il1,,是该词语在文档d ,中的显现次数，而分母则是在文档d ,中所有词语的显现次数之总和； IDF由总文档数目除以包含该词语的文档的数目，再将所得到的商取对数得到：其中|d| :股票标准库的文档总数； U Ae d J I :包含词语h的文档数目（即n i,卢O的文档数目），如果该词语在语料库中不存在，就会导致分母为零，因此使用1+1 {j :tie d ,} I作为特征选择方法； TF-IDF加权法的计算方法如下： TFIDFljj= TFljj^IDF1O6. 根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，所述步骤S5中的信息增益为某一特征在文档中出现的前后信息熵之差；式中=C1描述新闻的类别，即是积极新闻或消极新闻；P(C1)表示类别C1出现的概率，用类别C1的文档数除以总的文档数；P(t)是特征词t出现的概率，用出现过T的文档数除以总文档数；P (C1 |t)表示出现T的时候，类别C1出现的概率；对每个词语进行编号，每个编号的词语计算得到的信息增益与之一一对应，并作为输入数据对支持SVM进行有监督训练，训练的输出数据为1或-1表示特征词的特征值，其中 1表示积极新闻，-1表示消极新闻。7. 根据权利要求1所述的股票标准新闻库的构建方法，其特征在于，所述步骤S7中利用分类模型更新股票标准库的具体步骤如下：步骤71 :将特征词的信息增益作为输入加入到已训练的支持SVM上，选择对股票新闻积极或消极分类正确的新闻，组成新闻集合Z1; 步骤72 :使用爬虫工具在网页上继续获取股票评价新闻，新闻的特征数据作为输入加入到已训练的支持SVM上，对股票新闻进行分类，得到其为积极或消极分类的结果；步骤73 :将得到的新闻及其分类结果构成新闻集合Z2，利用Z1修改Z。，构建新的股票新闻标准库，并将&加到股票标准新闻库中，形成新的股票标准新闻库Z 3，其中新的标准库中包含的新闻库SZi+Z2。8. 根据权利要求7所述的股票标准新闻库的构建方法，其特征在于，设Z。= Z 3，重复主步骤S3-S6,并不断调整Z3中的新闻组成，直到利用训练后的模型、训练的输入数据的分类结果正确比率大于阈值，阈值为90%，所得的&即为新构建的标准库。9. 一种股票标准新闻库构建系统，其特征在于，包括新闻获取模块（1)、标准新闻库模块（2)、预编译模块（3)、标识模块（4)、信息增益模块（5)、分类模块（6)和调整控制模块 (7)；所述新闻获取模块（1)，用于获取股票新闻信息；所述标准新闻库模块（2)，用于根据股票新闻信息构建股票标准库Z。；所述预编译模块（3)，用于对股票标准库中的文本进行预编译；所述标识模块（4)，用于对已编译文本的特征进行标识，选取特征词；所述信息增益模块（5)，用于计算特征词的信息增益，得到特征词的特征值；所述分类模块（6)，用于利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型，并利用分类模型更新股票标准库；所述调整控制模块（7)，用于重复调用预编译模块（3)、标识模块（4)、信息增益模块 (5)和分类模块(6)，调整股票标准库中的新闻组成，直至分类结果正确率大于阈值。
【专利摘要】本发明涉及股票标准新闻库的构建方法及构建系统，包括获取股票新闻信息；构建股票标准库Z0；对股票标准库中的文本进行预编译；对文本特征进行标识，选取特征词；计算特征词的信息增益，得到特征词的特征值；利用特征值训练支持SVM算法，得到抽取新闻特征的分类模型；利用分类模型更新股票标准库；更新调整股票标准库中的新闻组成；通过对抓取的新闻信息进行判断是积极新闻还是消极新闻，构建分类模型，并通过向量机算法不断更新数据库中的新闻信息，实现新闻库的构建，该数据库构建方法简单，实现方便，且新闻数据处理效率高，及时更新数据信息，数据信息准确。
【IPC分类】G06F17/30
【公开号】CN105069141
【申请号】CN201510511588
【发明人】金学波
【申请人】北京工商大学
【公开日】2015年11月18日
【申请日】2015年8月19日

完整全部详细技术资料下载

当前第3页1 2 3