一种面向股票领域的文本情感分类方法

文档序号:6508336阅读:809来源:国知局
专利名称:一种面向股票领域的文本情感分类方法
技术领域
本发明属于自然语言处理的文本情感分类领域,具体涉及一种面向股票领域的 文本情感分类方法。
背景技术
随着经济的发展和人民生活水平的提高,通过购买股票进行投资理财已逐渐成 为当今社会的大势所趋,如何准确地购买股票成为投资者非常关心的问题。与此同时, 随着网络技术的迅猛发展,网络凭借实时性、丰富性以及覆盖性等特点逐渐取代传统的 新闻媒体成为人们获取信息的主要途径,越来越多的股票新闻出现在网络上,这些新闻 包括宏观经济新闻、个股相关新闻、行业新闻、上市公司新闻等等。有效市场理论(EMH Efficient Markets Hypothesis),又被称为有效市场假说或 有效市场假设,始于美国芝加哥大学著名教授Eugene Fama在1965年发表在《商业学 刊》的一篇名为《股票市场价格走势》的论文,而后Eugene Fama在1970年发表于《金 融》的论文《有效资本市场理论与实践研究回顾》中深化并提出的。有效市场理论假 定所有公开的信息都会反映到市场价格之中,相关的信息如果不受扭曲且在证券价格中 得到充分反映,市场就是有效的。既然证券价格能充分反映一切可获得的信息,那么, 可获得的相关信息就成为价格能否有效的决定因素了。按照可获得的信息分类的不同,有效市场理论在有效率的资本市场分为以下三 种表现形态弱式有效市场,半强式有效市场,强式有效市场。从中国的现实情况来 看,国内多数学者支持中国股市是弱式有效的。在弱有效市场中,信息发布后需要一段时间才能反应到股价中,也就是说信息 发布后,股票会经过一段时间才能调整到合适的价位。因此不能忽视股票新闻对于股市 的影响,新闻的数量以及内容的倾向性在很大程度上也会左右投资者的购买行为。例如 国务院将于2010年4月24号把印花税税率由3%。下调为1%。的消息一出,沪指暴涨304 点,千余个股涨停;又如在2010年年初的“两会”上,政府工作报告提出要发展“低碳 经济”,之后“新能源板块”引来利好,逐渐走强。因此研究股市新闻的倾向性,对辅 助投资者做出投资决策具有一定的实用意义。所谓倾向性分析,就是识别文本是正面还是负面的,这一类型的研究,被称为 情感分类。文本情感分类是一种特殊的文本分类问题,需要通过挖掘和分析文本中的立 场、观点、看法、情绪等主观信息,对文本的情感倾向做出类别判断。文本情感分类是 判断倾向性很好的方法,在个性化推荐、个性化观点检索、用户兴趣挖掘、信息过滤、 邮件过滤、社会舆论分析等方面得到很好的应用。目前国内外有一些提供金融资讯服务的企业,例如国内的大智慧资讯、维赛特 资讯以及国外的路透社等。然而这些公司提供的服务一般都价格高昂,普通投资者是无 法承受的。因此可以考虑利用财经网站上容易获得的新闻等信息,通过文本情感分类的 处理后,给出每条新闻的正负性提示,可以帮助投资者更快速地做出投资决定。

发明内容
本发明的目的在于提供一种面向股票领域的文本情感分类方法,用来提供股票 新闻情感倾向分类的建议。本发明的特征在于,所述文本情感分类是一种倾向性分析,用于识别股票领域 的中文文本是正面还是负面的,所述分类方法是在计算机中依次按以下步骤实现的步骤(1)所述计算机初始化,设定以下软件工具
Add-delta数据平滑算法模块;对股票新闻进行中文分词用的汉语词法分析模块ICTCLAS ;用于文本特征选择的评价模块;分类实验所用的Weka模块,其中包括了 Naifve Bayes和K-NN等分类算法,定义在股票领域中文文本分词用的新词缩略词,包括但不限于中石油、国投和中金;专有名词,包括但不限于股份有限公司和证券投资基金;派生词,包括但不限于黑马股、领涨和利空;复合词,包括但不限于冲高回落和分红派息;步骤(2)把设定的证券新闻中的新闻标题以及包括证券常用词和供情感分类用 的股票名称在内的相关股票信息作为原始语料,即中文文本,输入到所述计算机;步骤(3)中文文本分词,把步骤⑵中所述的中文文本中的汉字序列切分成一个 一个具有独立意义的词,步骤如下步骤(3.1)采用新词发现用的n-gram统计语言模型构建股票领域分词词典,步 骤如下步骤(3丄1)建立n-gram模型,设定一个字符串序列n-gram用W = W1W2...Wn表示,W1表示一个字符,η取2 6的整数,表示该字符串中的字符个数,则按下式计算一个所述字符串序列W在所述中文文本中出现的概率 PMLE(WnIW1W2-Wrl), MLE表示这是一种采用最大似然估计的参数估计方法,称为 n-gram语言模型,如果一个字符串(n-gram)的长度为L,那么由此得到按η切分后的字符串数量 为L-η+Ι个,并统计其中相同字符串的出现频率,其中
权利要求
1. 一种面向股票领域的文本情感分类方法,其特征在于,所述文本情感分类是一种 倾向性分析,用于识别股票领域的中文文本是正面还是负面的,所述分类方法是在计算 机中依次按以下步骤实现的步骤(1)所述计算机初始化,设定以下软件工具 Add-delta数据平滑算法模块;对股票新闻进行中文分词用的汉语词法分析模块ICTCLAS ; 用于文本特征选择的评价模块;分类实验所用的Weka模块,其中包括了 Nai_ve Bayes和K-NN等分类算法, 定义在股票领域中文文本分词用的新词 缩略词,包括但不限于中石油、国投和中金; 专有名词,包括但不限于股份有限公司和证券投资基金; 派生词,包括但不限于黑马股、领涨和利空; 复合词,包括但不限于冲高回落和分红派息;步骤(2)把设定的证券新闻中的新闻标题以及包括证券常用词和供情感分类用的股 票名称在内的相关股票信息作为原始语料,即中文文本,输入到所述计算机;步骤(3)中文文本分词,把步骤(2)中所述的中文文本中的汉字序列切分成一个一个 具有独立意义的词,步骤如下步骤(3.1)采用新词发现用的n-gram统计语言模型构建股票领域分词词典,步骤如下步骤(3.1.1)建立n-gram模型,设定一个字符串序列n-gram用W = W1 w2...Wn表示,W1表示一个字符,η取2 6 的整数,表示该字符串中的字符个数,则按下式计算一个所述字符串序列W在所述中文文本中出现的概率P‘E(Wn|WlW^·· Wrl), MLE表示这是一种采用最大似然估计的参数估计方法,称为n-gram语言模型,如果一个字符串(n-gram)的长度为L,那么由此得到按η切分后的字符串数量为 L-η+Ι个,并统计其中相同字符串的出现频率,其中
全文摘要
一种面向股票领域用的文本情感分类方法,属于股票倾向性分析技术领域,其特征在于通过包括股票新闻在内的公开新闻信息,利用改进了的评价组,对扩大了的股票情感词来进行特征选择,并用归一化后的绝对词频权重对股票中文文本中的情感词进行特征加权选择,最终利用Bayes、K-NN或SVM文本情感分类算法对股票新闻进行倾向性分析。本发明具有简易可行且计算方便的优点。
文档编号G06F17/27GK102023967SQ20101054326
公开日2011年4月20日 申请日期2010年11月11日 优先权日2010年11月11日
发明者周莉, 张勇, 邢春晓, 高旸 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1