一种股市风险预测平台及其文本挖掘方法

文档序号:10594776阅读:351来源:国知局
一种股市风险预测平台及其文本挖掘方法
【专利摘要】本发明公开了一种股市风险预测平台,包括:数据采集模块;数据预处理模块;文本挖掘模块;股市预测模块;风险评估模块;结果输出模块。本发明还提供了一种股市风险预测平台的文本挖掘方法,是一种将非结构化的文本数据转化为结构化数据的方法以分析文档中所蕴含的观点、态度或者情。本发明设计合理,将非结构化的文本数据转化为结构化数据的方法以分析文档中所蕴含的观点、态度或者情绪,并且根据数据分析得到的结果进行股市风险等级的评定,股市风险等级不仅可以服务于投资者决策,还可以为政府制定相关政策、企业实施相应策略等提供依据。
【专利说明】
-种股市风险预测平台及其文本挖掘方法
技术领域
[0001] 本发明属于股市预测与风险识别领域,具体地说,设及一种股市风险预测平台及 其文本挖掘方法。
【背景技术】
[0002] 股票市场是一个国家或地区经济和金融活动的晴雨表,也是企业融资和投资者资 产配置的重要手段,对股市的预测研究不仅可W为政府、企业和投资者制定相关决策提供 依据,还可W规避金融风险,促进股票市场稳定健康发展。
[0003] 现有的股市预测方法包括证券投资分析法、数理统计模型、非线性动力学方法、神 经网络、支持向量机等,运些方法均假设投资者是理性的,能够按照最大效用原则进行交易 活动。而如今股票市场活动更加复杂多变,随着羊群效应、过度反应或者反应不足等金融学 异象的不断发现,传统预测方法的缺陷逐渐突显。
[0004] 此外,随着信息技术的发展,互联网中包含着海量的信息,不仅包含股市交易等消 息,还包括宏观经济新闻、政府相关政策等对股市有重要影响的内容,已经成为投资者获取 信息的不可替代的渠道。另一方面,随着论坛、微博等自媒体和交流平台的出现,股民在互 联网上就市场走势、宏观经济政策、投资意向等发表自己的观点并进行信息交换,互联网成 为挖掘投资者情绪的重要载体。
[0005] 现有的股市预测平台大多是建立在传统的股市预测方法之上,其缺点主要体现在 W下=方面: 第一,忽略了投资者情绪和行为对股票市场的影响,预测结果不能反映真实的市场动 态。
[0006] 第二,专注于研究股市交易等信息,而忽略了对互联网新闻、论坛等数据的研究。
[0007] 第=,缺少风险评估模块,股市预测的目的不仅在于指导投资者决策,获得投资收 益,更在于识别金融市场风险,防止系统性风险的发生,维护金融市场稳定和国家金融市场 安全。

【发明内容】

[000引本发明要解决的技术问题是克服上述缺陷,提供一种股市风险预测平台及其文本 挖掘方法,设计合理,将非结构化的文本数据转化为结构化数据的方法W分析文档中所蕴 含的观点、态度或者情绪,并且根据数据分析得到的结果进行股市风险等级的评定,股市风 险等级不仅可W服务于投资者决策,还可W为政府制定相关政策、企业实施相应策略等提 供依据。
[0009]为解决上述问题,本发明所采用的技术方案是: 一种股市风险预测平台,其特征在于:包括: 数据采集模块,用于自动捜集和获取股票市场交易数据和多源互联网文本数据; 数据预处理模块,对数据采集模块中获取的数据进行预处理,包含数据清洗、数据集 成、数据变换和数据归约,为建立股市预测模型做好数据准备工作; 文本挖掘模块,用于对互联网文本数据进行分析处理W挖掘投资者情绪,构建情绪指 数,包含文本分词、词性标注、情感极性标注、情绪指数计算、情绪指数调整、情绪指数整合 六大步骤; 股市预测模块,综合应用文本挖掘、机器学习、数理统计的方法对股票市场进行预测分 析; 风险评估模块,根据股市预测模块的结果对实时监控的股票和市场整体趋势进行风险 等级划分; 结果输出模块,用于向投资者输出所关注的股票的风险等级,并同时输出整个市场的 风险等级情况并提供实时预警。
[0010] 本发明还提供了一种股市风险预测平台的文本挖掘方法,是一种将非结构化的文 本数据转化为结构化数据的方法W分析文档中所蕴含的观点、态度或者情绪; 文本挖掘方法所采用的互联网文本数据库包含政策新闻、财经新闻、论坛数据=方面, 政策新闻可W挖掘政府的态度和倾向,财经新闻可W 了解社会经济的综合信息,论坛数据 可W较为直接地提取投资者情绪; 股市风险预测平台中的文本挖掘模块是应用文本挖掘方法对互联网中的文本数据进 行分析处理,从而提炼出投资者的观点、态度、情绪,然后将计算出来的情绪指数作为输入 变量应用在股市预测模块。
[0011] 由于采用了上述技术方案,与现有技术相比,本发明设计合理,将非结构化的文本 数据转化为结构化数据的方法W分析文档中所蕴含的观点、态度或者情绪,并且根据数据 分析得到的结果进行股市风险等级的评定,股市风险等级不仅可W服务于投资者决策,还 可W为政府制定相关政策、企业实施相应策略等提供依据。
[0012] 同时下面结合附图和【具体实施方式】对本发明作进一步说明。
【附图说明】
[0013] 图1为本发明一种实施例中股市风险预测平台的结构框图; 图2为本发明一种实施例中股市风险预测平台模块的结构框图; 图3为本发明一种实施例中文本挖掘方法的流程图。
【具体实施方式】
[0014] 实施例: 一种股市风险预测平台,如图1和图2所示,包括: 数据采集模块,应用平台内置爬虫程序自动地获取证监会、银监会、央行、新闻联播、和 讯网、东方财富、新浪财经论坛、网易财经论坛、腾讯财经论坛的文本数据W及股票市场交 易数据。
[0015] 数据预处理模块,对收集的文本数据进行去噪操作,包含数据清洗、数据集成、数 据变换和数据归约等,W满足建模的需求。
[0016] 文本挖掘模块,按照上述文本挖掘步骤得到政策情绪日度指数、财经情绪日度指 数、论坛情绪日度指数和综合情绪日度指数。
[0017] 股市预测模块,应用综合情绪日度指数及其滞后项、上证指数收益率及其滞后项、 交易量、波动率建立向量自回归模型,对上证指数的走势进行预测; 风险评估模块,系统将风险分为五个等级,一级为极低风险,二级为较低风险,=级为 中等风险,四级为中高风险,五级为高风险,提示股票市场的整体风险。
[0018] 结果输出模块,输出股票市场整体风险等级并提示风险,五级高风险适合激进型 投资者,四级中高风险适合积极型投资者,=级中等风险适合平衡型投资者,二级较低风险 适合稳健型投资者,一级较低风险适合保守型投资者。股市风险等级不仅可W服务于投资 者决策,还可W为政府制定相关政策、企业实施相应策略等提供依据。
[0019] 在上述本发明实施例提供了一种文本挖掘方法,如图3所示, 数据来源包含政策新闻、财经新闻、论坛数据=部分,政策新闻的来源包括证监会、银 监会、央行和新闻联播,财经新闻的来源包含和讯网、东方财富,论坛数据的来源是新浪财 经论坛、网易财经论坛和腾讯财经论坛。针对W上新闻来源进行文本分析处理W挖掘市场 情绪和投资者情绪; 1) 、文本分词,应用分词系统对文本数据进行切词处理; 2) 、词性标注,除去停用词、语气词等之后对词语进行词性标注; 3) 、情感极性标注,对词语进行情感极性标注,分为积极的词语、消极的词语和中性词 语,同时分别统计积极词语和消极词语的个数; 4) 、情绪指数计算,根据情绪计算公式(1),可W得到每篇新闻或者论坛评论数据的情 绪指数,从而得到每天的情绪指数,其中,Sdx表示情绪指数,化代表消极词语的个数,化积 极词语的个数,情绪指数大于0代表悲观投资者情绪,情绪指数小于0代表乐观投资者情绪;
化) 5) 、情绪指数调整,104步骤中发现政府网站新闻具有特殊性,政策新闻在一定时间内 都具有影响力且政策新闻稀疏性大,即没有政策新闻并不代表政府没有情绪的表达,而是 政策新闻的出现代表了相关监管部口在一段时间内对股市的态度,因此设置时间衰减因子 来对政策新闻进行调整,调整后的政策新闻指数用表示,计算公式如(2)所示,蔚表示原始 政策新闻指数的第Ki=O, 1,2)期滞后项,其中衣巧 是单调递减的时间衰减函数,计算公式如(3)所示;
..鷄!. 巧 6) 、情绪指数整合,综合104和105的情绪指数,可W得到政策情绪日度指数、财经情绪 日度指数、论坛情绪日度指数和综合情绪日度指数。
[0020] 本发明不局限于上述的优选实施方式,任何人应该得知在本发明的启示下做出的 结构变化,凡是与本发明具有相同或者相近似的技术方案,均属于本发明的保护范围。
【主权项】
1. 一种股市风险预测平台,其特征在于: 包括: 数据采集模块,用于自动搜集和获取股票市场交易数据和多源互联网文本数据; 数据预处理模块,对数据采集模块中获取的数据进行预处理,包含数据清洗、数据集 成、数据变换和数据归约,为建立股市预测模型做好数据准备工作; 文本挖掘模块,用于对互联网文本数据进行分析处理以挖掘投资者情绪,构建情绪指 数,包含文本分词、词性标注、情感极性标注、情绪指数计算、情绪指数调整、情绪指数整合 六大步骤; 股市预测模块,综合应用文本挖掘、机器学习、数理统计的方法对股票市场进行预测分 析; 风险评估模块,根据股市预测模块的结果对实时监控的股票和市场整体趋势进行风险 等级划分; 结果输出模块,用于向投资者输出所关注的股票的风险等级,并同时输出整个市场的 风险等级情况并提供实时预警。2. 根据权利要求1所述的股市风险预测平台的文本挖掘方法,其特征在于: 文本挖掘方法是一种将非结构化的文本数据转化为结构化数据的方法以分析文档中 所蕴含的观点、态度或者情绪; 文本挖掘方法所采用的互联网文本数据库包含政策新闻、财经新闻、论坛数据三方面, 政策新闻可以挖掘政府的态度和倾向,财经新闻可以了解社会经济的综合信息,论坛数据 可以较为直接地提取投资者情绪; 股市风险预测平台中的文本挖掘模块是应用文本挖掘方法对互联网中的文本数据进 行分析处理,从而提炼出投资者的观点、态度、情绪,然后将计算出来的情绪指数作为输入 变量应用在股市预测模块。
【文档编号】G06Q10/06GK105956770SQ201610283046
【公开日】2016年9月21日
【申请日】2016年5月3日
【发明人】吴德胜
【申请人】中国科学院大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1