一种应用于金融Web领域的文本情感倾向分析方法_4

文档序号:9304531阅读:来源:国知局
文本数据,利用人工标注和现有词典扩展方法构造金融情感词 典,包括极性词典、修饰词典、主观词典以及连词词典,然后对Web金融文本分析,建立两阶 段的Web金融文本情感分类,即提出无关信息清理分类算法,将金融主题无关的文本信息 剔除,提出Web金融文本情感倾向分类算法,对主题相关的金融文本进行情感感倾向分 类,即分为正面情感、负面情感和中性情感,该算法分类准确率高、分类速度快。根据步骤D 得到的实验数据集,即看涨新闻2259条,看跌新闻2521条,中立新闻2244条,进行金融文 本情感倾向分类算法测试,得到情感倾向分类算法整体准确率为76. 84%,其中看涨情绪的 分类准确率达到80. 68%,召回率为77. 10%,F-measure为78. 85% ;看跌情绪的分类准确 率达到82. 32 %,召回率为73. 18 %,F-measure为77. 48 %。本发明能够有效的提高Web金 融文本情感倾向分类的效率,对于把握整体金融市场情绪以及利用金融趋势预测具有重要 的指导意义。
【主权项】
1. 一种应用于金融Web领域的文本情感倾向分析方法,其特征在于,具体包括以下步 骤: 步骤A、筛选金融数据来源并设计多线程网络爬虫获取Web金融数据; 步骤B、对获取的Web金融文本数据进行文本预处理; 步骤C、根据情感分类特征,结合人工标注和现有词典扩展的方法构建金融情感词典, 并采用多人标注取众数的方法确定情感词汇的情感倾向和强度; 步骤D、提出无关信息清理算法,依据主题相关和主题无关关键词对Web金融新闻的无 关f目息进行识别清理; 步骤E、根据金融情感词典的不同使用以及中文语法特征,提出Web金融文本情感倾向 分类算法,对Web金融文本信息进行情感倾向分类,即将Web金融文本情感倾向分为正面情 感、负面情感和中立情感。2. 如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法,其特征在于,所 述的步骤A具体包括以下几个步骤: 步骤A1、筛选Web金融数据网站来源,分别获取所研究的金融主题新闻版块的URL链接 并初始化种子URL列表; 步骤A2、循环从种子URL列表获取URL,下载种子URL新闻主页面源代码,若主页面有 金融新闻更新,则解析该主页面源代码,抽取符合要求的新闻URL并添加到下载队列,队列 管理调度根据线程的空闲情况给下载队列URL分配线程,下载新闻页面源代码; 步骤A3、利用页面抽取技术解析新闻页面源代码,抽取需要的字段,包括新闻标题、新 闻正文、发布时间、新闻来源。Web金融数据存储时,若该新闻URL已存在数据库,则无需存 储该条新闻,否则存入数据库。3. 如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法,其特征在于,所 述的步骤B具体包括以下几个步骤: 步骤B1、利用中文标点符号将所获取的Web金融文本信息,分解为语义停顿的短字符 串,去除乱码符号和web转义符号,利用"。!……;"将文档分割成短字符串,删除"? "所 在的句子,数学符号".% /等"保持不变。 步骤B2、将去除杂乱符号的新闻构建成包含title和content的json字符串以方便后 续分别对title和content分别进行处理,中文文档经标点处理后被分解成语义独立的句 子,句子被分解成语义停顿的短字符串,然后利用最大正向匹配法分词技术以及金融情感 词典进行中文分词预处理,情感词典构造如步骤C。4. 如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法,其特征在于,所 述的步骤C具体包括以下几个步骤: 步骤C1、利用人工标注方式收集金融情感词汇,主要包括两种方式:1)利用现有的证 券领域操作词汇表,人工提取其中具有情感倾向的词语;2)利用网络爬虫从金融网站抓取 大量金融新闻文本信息,经多人标注抽取其中情感词汇; 步骤C2、利用HowNet、哈工大《同义词词林》公共情感词典进行补充和扩展,将HowNet情感词典的中文负面情感词语、负面评价词语、正面情感词语和正面评价词语汇总并人工 筛选与金融领域相关的极性词对极性词典进行补充,利用HowNet的中文程度级别词语对 修饰词典进行补充,利用HowNet的主张词语扩展主观词典。 步骤C3、对情感词汇进行情感倾向和情感强度标注,情感词汇的属性主要有三个:词 汇本身、倾向、情感强度;词汇的情感倾向和情感强度均没有权威的可参考的标准,主要依 靠人对词汇的认识,故采用多人标注取众数的方法确定各个词汇的情感倾向和情感强度。5. 如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法,其特征在于,所 述的步骤D具体包括以下几个步骤: 步骤D1、收集与所研究主题相关的相关关键词; 步骤D2、收集与所研究主题无关但经常同时出现的无关关键词; 步骤D3、若金融新闻文本中匹配到主题无关关键词,则认为该条新闻与金融主题无关, 标记该条新闻为无关信息,并进行剔除; 步骤D4、对于主题相关新闻,若金融新闻文本中某个句子匹配到主题相关关键词且至 少匹配一个极性词才认为该句为金融主题相关句,否则为无关句。6. 如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法,其特征在于,所 述的步骤E具体包括以下几个步骤: 步骤E1、文本预处理;对于title和content分别(注:以下未经强调均视为对title和content分别作同样处理)利用中文标点符号预处理方法对待测文档进行文本断句,将 文本分解成n个独立的句子; 步骤E2、分句输入。将第i个句子利用最大正向匹配法分词技术进行中文分词作为后 续处理的输入,i=i+1,其中i从1递增值分句总数n。 步骤E3、无关信息清理;利用无关信息清理算法进行判断,若判断为无关新闻,则返回 文档为无关信息;若判断为无关句,则跳过该句并转到步骤E2,否则转入步骤E4。 步骤E4、主观句识别。利用主观词典匹配句中主观词,若匹配失败,则跳过该句并转到 步骤E2,否则转至步骤E5 ; 步骤E5、连词词汇的处理;利用连词词典匹配句子连词,若匹配成功,则转至连词词汇 处理,否则转至步骤E6。 步骤E6、句子情感值计算;分别利用极性词典、修饰词典识别句中的情感极性词和修 饰词,各个极性词为独立情感分析单元; 步骤E7、文档情感值计算;Web文档由新闻标题和新闻正文两部分组成,文档情感倾 向应该以标题为主,正文为辅,即当文档标题的情感值不为零时,以标题情感值为文档情感 值,否则以正文的情感值为文档情感值,计算定义如下:其中,T表示情感强度值,sen;表示文档的第i个句子,title表示文档的标题,content表示文档的正文,doc表示文档; 步骤E8、文档情感倾向分类;将文本的情感倾向分为正面、负面和中立三种类别,则情 感倾向判定规则如下:其中,Trend表示文档的情感倾向其中positive表示正面情感倾向,negative表示负 面情感倾向,neutral表示中立情感倾向。
【专利摘要】本发明公开一种应用于金融Web领域的文本情感倾向分析方法,对Web金融文本信息筛选数据来源并进行数据获取,根据Web金融文本特点构建金融情感词典,设计了无关信息清理算法和Web金融文本情感倾向分类算法进行Web进行文本情感倾向分类,本发明分类准确率高、分类速度快,且本发明能通过对Web金融文本的情感倾向分类有效的分析金融市场整体情绪,对金融趋势预测具有重要的帮助和指导意义。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105022725
【申请号】CN201510406228
【发明人】严勤, 丁聪, 吕勇, 夏阁
【申请人】河海大学
【公开日】2015年11月4日
【申请日】2015年7月10日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1