一种应用于金融Web领域的文本情感倾向分析方法

文档序号:9304531阅读:650来源:国知局
一种应用于金融Web领域的文本情感倾向分析方法
【技术领域】
[0001] 本发明涉及一种利用金融情感词典和中文语法特征对Web金融文本进行情感倾 向分析的,属于自然语言处理和机器学习技术领域。
【背景技术】
[0002] 随着互联网和信息技术的发展,Web信息量得到了前所未有的增长,越来越多的机 构和个人通过互联网途径以各种方式表达对各种事物观点、态度和立场,如豆瓣影评、新闻 评论、社交网站等。海量的Web观点信息对于电子商务、市场预测等各个方面有重要的意义 以及巨大的商业价值,而金融行业Web信息量是互联网信息增长最快,受影响最大的行业, 对Web金融文本信息进行情感倾向分析以进行更加深入的研究已经成为国内外热门研究 课题。
[0003] 文本情感倾向性分析属于文本情感分析[1]的一部分,如今已是自然语言处理和机 器学习领域的研究热点。通过情感倾向性分析,可以掌握文本的褒贬性倾向。在金融领域, 新闻舆情被认为是反映国家宏观政策的执行情况,体现市场和行业景气程度和投资者的交 易热情的重要指标。而要有效利用Web金融信息来进行各种分析,就必须将文本信息数字 化。文本倾向性分析,计算文本的情感倾向值是分析文本褒贬性和将文本信息数字化的有 效手段之一。
[0004] 通过计算文本的情感倾向值来分析文本的情感倾向,是文本情感倾向性分析的主 要方法。其中具有代表性的工作是,Turney等[2]运用点互信息和潜在语义分析的方法计算 目标词汇和种子词的关联度,进而分析目标词汇的倾向性。香港城市大学的Yuen等[3]在 Turney的工作基础上,对汉语极性词的自动获取进行了研究。复旦大学的朱嫣岚等[4]利用 Hownet提供的语义相似度和语义相关场,计算目标词汇与已标注褒贬性的种子词间的相似 度,提出了词语倾向性的判断方法。从已有的研究成果可以发现,文本倾向性分析已引起了 研究者的普遍关注,但在金融领域应用尚未展开,金融信息文本的倾向性分析对于金融市 场的研究有举足轻重的影响,但却还没有被众多学者所涉足。
[0005] 文本情感分析技术在金融领域应用较少,究其原因主要包括以下几点:(1)国内 文本情感倾向分析研究起步较晚。(2)中文汉语本身的博大精深。(3)各学科交叉导致 研究复杂,研究者需要具备自然语言处理技术、计算机技术、金融专业知识等多方面综合能 力。综合上述因素,本文研究了Web金融信息的情感倾向的计算方法以及其在金融市场预 测中的应用。
[0006] 参考文献:
[0007] [ 1 ]ZhaoYY,QinB,LiuT.Sentimentanalysis[J].Journalof Software, 2010, 21 (8) : 1834-1848.
[0008] [2]Turney P D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[J]. Proc Annual Meeting of the Association for Computational Linguistics, 2002:417-424.
[0009] [3]YuenR,ChanT,LaiTetal.Morpheme-basedDerivationofBipolar SemanticOrientationofChineseWords.In:Proceedingsofthe20thInternational ConferenceonComputationalLinguistics(COLING^ 04).Geneva,Switzerla nd,2004. 1008-1014.
[0010] [4]朱嫣M,闵锦,周雅倩,等?基于HowNet的词汇语义倾向计算[J].中文信 息学报,2006,(1) : 14-20.

【发明内容】

[0011] 发明目的:为了提高Web金融文本情感倾向分类的准确率,本发明提供一种应用 于金融Web领域的文本情感倾向分析方法。采用人工标注和现有词典扩展的方法构建金融 情感词典,即包括极性词典、主观词典、修饰词典和连词词典,通过分析金融情感词汇的不 同使用以及中文语法特征,设计了无关信息清理算法和Web金融文本情感倾向分析方法, 无关信息清理算法剔除主题无关文本信息,保证金融文本情感倾向分类数据的有效性。
[0012] 技术方案:一种应用于金融Web领域的文本情感倾向分析方法,包括以下几个步 骤:
[0013] 步骤A、筛选金融数据来源并设计多线程网络爬虫获取Web金融数据;
[0014] 步骤B、对获取的Web金融文本数据进行文本预处理;
[0015] 步骤C、根据情感分类特征,结合人工标注和现有词典扩展的方法构建金融情感词 典,并采用多人标注取众数的方法确定情感词汇的情感倾向和强度;
[0016] 步骤D、提出无关信息清理算法,依据主题相关和主题无关关键词对Web金融新闻 的无关信息进行识别清理;
[0017] 步骤E、根据金融情感词典的不同使用以及中文语法特征,提出Web金融文本情感 倾向分类算法,对Web金融文本信息进行情感倾向分类,即将Web金融文本情感倾向分为正 面情感、负面情感和中立情感。
[0018] 作为本发明的一个优选方案,设计多线程网络爬虫程序获取Web金融文本数据, 步骤A包括以下步骤:
[0019] 步骤A1、筛选Web金融数据网站来源,分别获取所研究的金融主题新闻版块的URL 链接并初始化种子URL列表;
[0020] 步骤A2、循环从种子URL列表获取URL,下载种子URL新闻主页面源代码,若主页 面有金融新闻更新,则解析该主页面源代码,抽取符合要求的新闻URL并添加到下载队列, 队列管理调度根据线程的空闲情况给下载队列URL分配线程,下载新闻页面源代码;
[0021] 步骤A3、利用页面抽取技术解析新闻页面源代码,抽取需要的字段,包括新闻标 题、新闻正文、发布时间、新闻来源等。Web金融数据存储时,若该新闻URL已存在数据库,则 无需存储该条新闻,否则存入数据库。
[0022] 作为本发明的一个优选方案,分析Web金融文本的特点,构建金融情感词典,步骤 B包括以下步骤:
[0023] 步骤B1、利用中文标点符号将所获取的Web金融文本信息,分解为语义停顿的短 字符串,去乱码符号和web转义符号,利用"。!……;"将文档分割成短字符串,删除"?" 所在的句子,数学符号".% /等"保持不变。
[0024] 步骤B2、将去除杂乱符号的新闻构建成包含title和content的json字符串以方 便后续分别对title和content分别进行处理,中文文档经标点处理后被分解成语义独立 的句子,句子被分解成语义停顿的短字符串,然后利用最大正向匹配法分词技术以及金融 情感词典进行中文分词预处理,情感词典构造如步骤C。
[0025] 作为本发明的一个优选方案,分析Web金融文本的特点,构建金融情感词典,步骤 C包括以下步骤:
[0026] 步骤C1、利用人工标注方式收集金融情感词汇,主要包括两种方式:1)利用现有 的证券领域操作词汇表,人工提取其中具有情感倾向的词语。2)利用网络爬虫从金融网站 抓取大量金融新闻文本信息,经多人标注抽取其中情感词汇。
[0027] 步骤C2、利用HowNet、哈工大《同义词词林》公共情感词典进行补充和扩展,将 HowNet情感词典的中文负
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1