基于新闻数据的股票自动匹配分类方法和系统的制作方法

文档序号:6577231阅读:680来源:国知局
专利名称:基于新闻数据的股票自动匹配分类方法和系统的制作方法
技术领域
本发明涉及股票信息的匹配分类方法和系统,尤其涉及一种基于新闻数据的股票自动匹配分类方法和系统。
背景技术
传统的互联网搜索引擎技术,使用特定关键词对网站页面进行标注,通过将用户搜索关键词与网页关键词进行匹配给出搜索结果。随着Web技术的发展,每天都有大量的图片、博客、视频发布到网上,信息的极度爆炸使得很难通过简单的关键词来帮助人们找到他们需要的信息。而推荐引擎的出现,使用户获取信息的方式从简单的关键词搜索转换到更高级更符合人们使用习惯的上下文信息更丰富的信息发现。通过挖掘网页和用户数据的相关性,构造网页和用户的关键词序列,在此基础上计算网页、用户之间以及网页和用户之间的相关性,从而获得更加准确的搜索结果,并根据用户行为不断优化搜索结果。传统的股票分类往往是静态的,通常是基于某一特征对股票进行划分,例如基于行业、地域、概念、风格指数等。然而,上市公司的业务一直在发展,主营方向也会有所变化,另外,不同板块的股票对同一新闻事件的反馈并非都不相同,因此,静态的股票分类方法有时不能很好地反映股票的属性。而传统的选股通常是根据个人的经验来判断,一般的股民可以通过阅读相关的新闻研报做出自己的判断;然而,面对不断增加的股票数量以及海量的新闻数据,个人的精力和经验有限,很难对股票市场进行全面准确地观察和分析。

发明内容
本发明提供一种基于新闻数据的股票自动匹配分类方法和系统,从海量新闻数据出发,挖掘能够较全面体现股票属性的关键词序列,通过分析股票关键词序列之间的相关性对股票进行分类,同时通过分析新闻数据的关键词序列和股票关键词序列之间的相关性,给出与新闻数据最佳 匹配的股票。为了达到上述目的,本发明采用如下技术方案:一种基于新闻数据的股票自动匹配分类方法,,其特征在于包括如下步骤:(A)建立一本地数据库;(B)从外界抓取至少一则相关个股的历史新闻数据,储存到本地数据库中,建立相应的个股序号,并对每一则历史新闻数据进行分词、筛选,提取其中与个股相关的关键词序列;(C)统计与上述个股相关的关键词序列中各关键词出现的频次,在此基础上计算相应的关键词相关性系数,构造个股关键词序列相关性序列模型,并进行参数优化;然后根据个股关键词序列相关性序列模型计算个股之间的相关性,并根据个股之间的相关性,结合聚类分析算法,对股票进行分类;以及(D)从外界抓取实时新闻数据,储存到本地数据库中,对该新闻数据进行分词、筛选,提取实时关键词序列,计算实时关键词序列相关性序列,通过将实时新闻数据的实时关键词序列相关性序列和上述步骤C中的个股关键词序列相关性序列模型进行自动匹配,选取相关性最高的个股作为最终的最佳匹配结果。在所述步骤B中,个股序号为股票A,股票B,……,股票N ;关键词序列为关键词1,关键词2,……关键词M ;在所述步骤C中,个股关键词序列相关性序列模型写成矩阵形
式为:
权利要求
1.一种基于新闻数据的股票自动匹配分类方法,其特征在于包括如下步骤: (A)建立一本地数据库; (B)从外界抓取至少一则相关个股的历史新闻数据,储存到本地数据库中,建立相应的个股序号,并对每一则历史新闻数据进行分词、筛选,提取其中与个股相关的关键词序列; (C)统计与上述个股相关的关键词序列中各关键词出现的频次,在此基础上计算相应的关键词相关性系数,构造个股关键词序列相关性序列模型,并进行参数优化;然后根据个股关键词序列相关性序列模型计算个股之间的相关性,并根据个股之间的相关性,结合聚类分析算法,对股票进行分类;以及 (D)从外界抓取实时新闻数据,储存到本地数据库中,对该新闻数据进行分词、筛选,提取实时关键词序列,计算实时关键词序列相关性序列,通过将实时新闻数据的实时关键词序列相关性序列和上述步骤C中的个股关键词序列相关性序列模型进行自动匹配,选取相关性最高的个股作为最终的最佳匹配结果。
2.根据权利要求1所述的基于新闻数据的股票自动匹配分类方法,其特征在于: 在所述步骤B中,个股序号为股票A,股票B,……,股票N ;关键词序列为关键词I,关键词2,……关键词M ;在所述步骤C中,个股关键词序列相关性序列模型写成矩阵形式为:
3.根据权利要求2所述的基于新闻数据的股票自动匹配分类方法,其特征在于:所述个股之间的相关性,即欧氏距离的计算公式为:
4.根据权利要求1所述的基于新闻数据的股票自动匹配分类方法,其特征在于: 在所述步骤D中,实时关键词序列相关性序列的计算方法如下: Vectorevent = Le1 ef eM],其中,eM表示实时新闻数据与关键词M之间的相关性系数。
5.根据权利要求1-4任一项所述的基于新闻数据的股票自动匹配分类方法,其特征在于:在所述步骤D中,实时新闻数据的实时关键词序列相关性序列和个股关键词序列相关性序列模型进行自动匹配的计算方法如下:
6.根据权利要求1所述的基于新闻数据的股票自动匹配分类方法,其特征在于: 在所述步骤C中,所述参数优化是通过比对分类结果与现有成熟的股票分类结果对关键词序列进行优化。
7.一种基于新闻数据的股票自动匹配分类系统,其特征在于,其包括: 一本地数据库,用于储存历史新闻数据和实时新闻数据,并在其内建立相应的个股序号和关键词序列; 一分词筛选模块,对每一则历史新闻数据进行分词、筛选,提取其中与个股相关的关键词序列,以及对实时新闻数据进行分词、筛选,提取实时关键词序列; 一统计分类模块,用于统计关键词序列中各关键词出现的频次,并计算相应的关键词相关性系数,构造个股关键词序列相关性序列模型,并进行参数优化,以及计算个股之间的相关性,并结合聚类分析算法对股票进行分类; 一自动匹配模块,用于计算实时关键词序列相关性序列,通过将实时新闻数据的实时关键词序列相关性序列和个股关键词序列相关性序列模型进行自动匹配,选取相关性最高的个股作为最终的最佳 匹配结果。
全文摘要
本发明涉及股票信息的匹配分类方法和系统,尤其涉及一种基于新闻数据的股票自动匹配分类方法和系统,其特征在于包括如下步骤建立一本地数据库;对历史新闻数据进行分词、筛选,提取关键词序列,构造个股关键词序列相关性序列模型,计算个股之间的相关性,结合聚类分析算法,对股票进行分类;对实时新闻数据进行分词、筛选,提取实时关键词序列,计算实时关键词序列相关性序列,再和个股关键词序列相关性序列模型进行自动匹配。本发明采用基于新闻数据的股票关键词序列挖掘技术,实现对股票的自动分类,该方法全面、准确,并针对突发新闻事件自动给出匹配度较高的股票,方法简便易行,为股民提供了更好的投资依据。
文档编号G06F17/27GK103226554SQ20121054392
公开日2013年7月31日 申请日期2012年12月14日 优先权日2012年12月14日
发明者何波, 蒋永磊, 丁志敏 申请人:西藏同信证券有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1