一种应用于金融Web领域的文本情感倾向分析方法_4

文档序号：9304531阅读：来源：国知局

文本数据，利用人工标注和现有词典扩展方法构造金融情感词典，包括极性词典、修饰词典、主观词典以及连词词典，然后对Web金融文本分析，建立两阶段的Web金融文本情感分类，即提出无关信息清理分类算法，将金融主题无关的文本信息剔除，提出Web金融文本情感倾向分类算法，对主题相关的金融文本进行情感感倾向分类，即分为正面情感、负面情感和中性情感，该算法分类准确率高、分类速度快。根据步骤D 得到的实验数据集，即看涨新闻2259条，看跌新闻2521条，中立新闻2244条，进行金融文本情感倾向分类算法测试，得到情感倾向分类算法整体准确率为76. 84%，其中看涨情绪的分类准确率达到80. 68%，召回率为77. 10%，F-measure为78. 85% ;看跌情绪的分类准确率达到82. 32 %，召回率为73. 18 %，F-measure为77. 48 %。本发明能够有效的提高Web金融文本情感倾向分类的效率，对于把握整体金融市场情绪以及利用金融趋势预测具有重要的指导意义。
【主权项】
1. 一种应用于金融Web领域的文本情感倾向分析方法，其特征在于，具体包括以下步骤：步骤A、筛选金融数据来源并设计多线程网络爬虫获取Web金融数据；步骤B、对获取的Web金融文本数据进行文本预处理；步骤C、根据情感分类特征，结合人工标注和现有词典扩展的方法构建金融情感词典，并采用多人标注取众数的方法确定情感词汇的情感倾向和强度；步骤D、提出无关信息清理算法，依据主题相关和主题无关关键词对Web金融新闻的无关f目息进行识别清理；步骤E、根据金融情感词典的不同使用以及中文语法特征，提出Web金融文本情感倾向分类算法，对Web金融文本信息进行情感倾向分类，即将Web金融文本情感倾向分为正面情感、负面情感和中立情感。2. 如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法，其特征在于，所述的步骤A具体包括以下几个步骤：步骤A1、筛选Web金融数据网站来源，分别获取所研究的金融主题新闻版块的URL链接并初始化种子URL列表；步骤A2、循环从种子URL列表获取URL，下载种子URL新闻主页面源代码，若主页面有金融新闻更新，则解析该主页面源代码，抽取符合要求的新闻URL并添加到下载队列，队列管理调度根据线程的空闲情况给下载队列URL分配线程，下载新闻页面源代码；步骤A3、利用页面抽取技术解析新闻页面源代码，抽取需要的字段，包括新闻标题、新闻正文、发布时间、新闻来源。Web金融数据存储时，若该新闻URL已存在数据库，则无需存储该条新闻，否则存入数据库。3. 如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法，其特征在于，所述的步骤B具体包括以下几个步骤：步骤B1、利用中文标点符号将所获取的Web金融文本信息，分解为语义停顿的短字符串，去除乱码符号和web转义符号，利用"。！……；"将文档分割成短字符串，删除"？ "所在的句子，数学符号".％ /等"保持不变。步骤B2、将去除杂乱符号的新闻构建成包含title和content的json字符串以方便后续分别对title和content分别进行处理，中文文档经标点处理后被分解成语义独立的句子，句子被分解成语义停顿的短字符串，然后利用最大正向匹配法分词技术以及金融情感词典进行中文分词预处理，情感词典构造如步骤C。4. 如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法，其特征在于，所述的步骤C具体包括以下几个步骤：步骤C1、利用人工标注方式收集金融情感词汇，主要包括两种方式：1)利用现有的证券领域操作词汇表，人工提取其中具有情感倾向的词语；2)利用网络爬虫从金融网站抓取大量金融新闻文本信息，经多人标注抽取其中情感词汇；步骤C2、利用HowNet、哈工大《同义词词林》公共情感词典进行补充和扩展，将HowNet情感词典的中文负面情感词语、负面评价词语、正面情感词语和正面评价词语汇总并人工筛选与金融领域相关的极性词对极性词典进行补充，利用HowNet的中文程度级别词语对修饰词典进行补充，利用HowNet的主张词语扩展主观词典。步骤C3、对情感词汇进行情感倾向和情感强度标注，情感词汇的属性主要有三个：词汇本身、倾向、情感强度；词汇的情感倾向和情感强度均没有权威的可参考的标准，主要依靠人对词汇的认识，故采用多人标注取众数的方法确定各个词汇的情感倾向和情感强度。5. 如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法，其特征在于，所述的步骤D具体包括以下几个步骤：步骤D1、收集与所研究主题相关的相关关键词；步骤D2、收集与所研究主题无关但经常同时出现的无关关键词；步骤D3、若金融新闻文本中匹配到主题无关关键词，则认为该条新闻与金融主题无关，标记该条新闻为无关信息，并进行剔除；步骤D4、对于主题相关新闻，若金融新闻文本中某个句子匹配到主题相关关键词且至少匹配一个极性词才认为该句为金融主题相关句，否则为无关句。6. 如权利要求1所述的应用于金融Web领域的文本情感倾向分析方法，其特征在于，所述的步骤E具体包括以下几个步骤：步骤E1、文本预处理；对于title和content分别（注：以下未经强调均视为对title和content分别作同样处理）利用中文标点符号预处理方法对待测文档进行文本断句，将文本分解成n个独立的句子；步骤E2、分句输入。将第i个句子利用最大正向匹配法分词技术进行中文分词作为后续处理的输入，i=i+1，其中i从1递增值分句总数n。步骤E3、无关信息清理；利用无关信息清理算法进行判断，若判断为无关新闻，则返回文档为无关信息；若判断为无关句，则跳过该句并转到步骤E2,否则转入步骤E4。步骤E4、主观句识别。利用主观词典匹配句中主观词，若匹配失败，则跳过该句并转到步骤E2,否则转至步骤E5 ; 步骤E5、连词词汇的处理；利用连词词典匹配句子连词，若匹配成功，则转至连词词汇处理，否则转至步骤E6。步骤E6、句子情感值计算；分别利用极性词典、修饰词典识别句中的情感极性词和修饰词，各个极性词为独立情感分析单元；步骤E7、文档情感值计算；Web文档由新闻标题和新闻正文两部分组成，文档情感倾向应该以标题为主，正文为辅，即当文档标题的情感值不为零时，以标题情感值为文档情感值，否则以正文的情感值为文档情感值，计算定义如下：其中，T表示情感强度值，sen;表示文档的第i个句子，title表示文档的标题，content表示文档的正文，doc表示文档；步骤E8、文档情感倾向分类；将文本的情感倾向分为正面、负面和中立三种类别，则情感倾向判定规则如下：其中，Trend表示文档的情感倾向其中positive表示正面情感倾向，negative表示负面情感倾向，neutral表示中立情感倾向。
【专利摘要】本发明公开一种应用于金融Web领域的文本情感倾向分析方法，对Web金融文本信息筛选数据来源并进行数据获取，根据Web金融文本特点构建金融情感词典，设计了无关信息清理算法和Web金融文本情感倾向分类算法进行Web进行文本情感倾向分类，本发明分类准确率高、分类速度快，且本发明能通过对Web金融文本的情感倾向分类有效的分析金融市场整体情绪，对金融趋势预测具有重要的帮助和指导意义。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105022725
【申请号】CN201510406228
【发明人】严勤, 丁聪, 吕勇, 夏阁
【申请人】河海大学
【公开日】2015年11月4日
【申请日】2015年7月10日

完整全部详细技术资料下载

当前第4页1 2 3 4