基于语义文本的大宗农产品投资者恐慌情绪测度方法与流程

文档序号:16533870发布日期:2019-01-05 11:01阅读:183来源:国知局
基于语义文本的大宗农产品投资者恐慌情绪测度方法与流程
本发明涉及网络
技术领域
,尤其涉及一种基于语义文本的大宗农产品投资者恐慌情绪测度方法。
背景技术
:近年来,大宗农产品在商品农业经济中占的比重越来越大,大宗农产品市场的投资交易发展的越来越好。大宗农产品是指在商品农业经济结构中占有较大权重,生产量、消费量、贸易量、运输量等较大的农产品。如油籽,菜粕,菜籽粕,菜籽,油菜籽,菜油,菜籽油,棉粕,棉籽粕,棉籽,棉油,棉籽油,豆油,豆粕,棕榈油,花生等。与工业产品相比,大宗农产品的主要特点是以土地为基本生产基础,种植面积很大,种植期较长,容易受到包括气候在内的各种灾害影响,并且一旦发生灾害则受害面积相当大,同时损失也较大并且当年难于弥补。对于大宗农产品的投资者,可以说一有风吹草动即会影响和动摇其投资信心和决心。随着移动互联网的普及,社会化网络在人们的生活中扮演着越来越重要的角色,越来越多的投资者选择通过网络来收获取市场信息,借助互联网平台,投资者可以随时发表对市场的看法以及与他人交流投资经验。在这种趋势下,网络媒体逐渐成为投资者进行投资活动的信息来源和做出投资决策的重要参考,投资者在互联网平台上发布自己对农产品市场的看法已司空见惯,可以说,互联网的出现和发展对投资者参与大宗农产品投资和决策过程产生着不可忽视的影响,然而有时被动的信息接受也会对投资者的心理和情绪产生影响。投资者的情绪(比如积极乐观、消极恐慌情绪)恰恰反映了投资者对市场的预期,从而对市场产生影响。投资者的情绪不同,给市场带来的影响也不同。尤其是消极恐慌情绪,会对大宗农产品的市场投资走向造成不可估量的影响。投资者的情绪和观点往往可以通过其在网络媒体上发布的文本所表达出来。投资者在类似于论坛、社区以及各种博客平台上发布了大量有价值的信息,而这些信息都有一个共同的特点——都是非结构化的文本信息。这些文本中可能包含很多有表达投资者的情绪和观点语句,单一地从每个表达投资者情绪情绪的语句,可以判定该语句投资者的情绪,但是要判定整个文本的投资者情绪,单从每个语句的情绪来判定是不准确的。针对以上,本发明提出一个基于语义文本的大宗农产品恐慌情绪测度方法,通过对互联网上投资者发布的一些与大宗农产品市场相关的文本信息进行采集和分析,对获取的文本信息进行预处理,提取情绪关键词并进行情绪值计算,从而得到整个文本情绪值,进而提出一种文本情绪倾向规则,进行文本情绪倾向判定,从而实现投资者恐慌情绪测度的目的。技术实现要素:本发明要解决的技术问题是提供一种基于语义文本的大宗农产品投资者恐慌情绪测度方法。为了解决上述技术问题,本发明采用的技术方案是,基于语义文本的大宗农产品投资者恐慌情绪测度方法,包括以下步骤:(1)投资文本信息采集:通过建立投资文本信息库,采用网络爬虫的形式从互联网各大宗农产品投资论坛、博客中采集相关文本内容;(2)文本信息预处理:投资文本信息库建立后,需要对文本信息进行预处理,预处理包括断句、分词,情绪关键词提取,为后续的语义情绪分析做准备;(3)语义情绪分析:对步骤(2)提取到的情绪关键词进行情绪值计算,进而得到整个文本的情绪值;情绪值由情绪极性和情绪强度构成:情绪极性按情绪倾向分为正负,其中积极乐观情绪和中性情绪的情绪极性为“+”,消极恐慌情绪的情绪极性为“-”;情绪强度由具体的情绪关键词按照表1的赋值规则取值:表1:情绪关键词的赋值规则通过表1的赋值规则获得文本中每个情绪关键词的情绪值,进而将文本中所有情绪关键词的情绪值进行加总求和并算出均值,得到整个文本的情绪值,计算公式如下:其中e(t)表示一个文本篇章的情绪值,si表示文本中第i个情绪关键词,e(si)表示第i个情绪关键词的情绪值,n表示文本中情绪关键词的数量;(4)文本情绪倾向判定:表2:文本情绪倾向判定规则文本情绪值文本情绪倾向正积极乐观或中性负消极恐慌由步骤(3)所得到的文本情绪值与表2的文本情绪倾向判定规则进行对比,判定整个文本是否为消极恐慌情绪。作为优选,在步骤(1)中,投资文本信息采集具体包括以下步骤:(5)确定目标主题和目标采集网页链接;根据用户输入的大宗农产品投资者投资评论关键词作为目标主题,自动搜索获取相关的论坛、博客网址作为目标采集网站;在目标采集网站包含的多个网页链接中,确定目标主题对应的目标网页链接;(6)对确定的目标采集网页链接进行过滤处理;在确定的目标采集网页链接中,可能包含有重复、无效的网页链接,需要进行过滤处理;(7)对过滤处理后的目标网页链接进行网页内容下载,根据网页内容中的html标签,定位需要采集的文章对应的url,根据需要采集的文章对应的url,对文章对应的文本信息进行下载并保存到投资文本信息库。作为优选,在步骤(2)中,文本信息预处理具体包括以下步骤:(8)断句处理:以中文句号或其他标点符号为断句节点,在进行语义情绪分析前需要对采集到的文本信息进行断句处理;(9)分词和词性标注:对断句后的文本进行分词,分词过程中采用的是python3.0分词软件,分词的依据是中文语料词典,采用的是开源的hanlp自然语言处理包,在分词的过程中自动完成词性标注,分词的结果为各个词组;(10)提取情绪关键词构建情绪词典:为方便情绪关键词提取,需要构建情绪词典,通过对步骤(9)中分词和词性标注获取的所有文档情绪词组,统计这些词组,获取在网络数据中出现词频最高的词组作为情绪关键词;将提取的情绪关键词加入情绪词典,并且后续不断扩充。对文本中分词后的词组与情绪词典中的词组进行比对,比对成功的即为情绪关键词,将情绪关键词进行提取。情绪词典构建采用word2vector模型中cbow,包括输入层、投影层、输出层;其中输入层为context(w)中2c个词向量,v(context(w)1)、v(context(w)2)...v(context(w)2c);投影层则是输入层的2c个词向量的累加之和,输出层对应一棵二叉树,它是以文本中出现过的词作为叶子节点,以各词在文本中出现的次数当权值构造出来的huffman树;输入层、投影层和输出层之间使用矩阵向量运算方法,输出层中的叶子节点由于分支都会产生一个概率,这些概率相乘就可以得到相关词组的概率,其中由上下文预测一个词组的概率的计算方法如下:p(wi|context)=p(wi|wi-k,wi-k+1…,wi-1,wi+1,…,wi+k)上式中,p为词组概率,wi表示文本中的某个词。本发明的有益效果是:通过此种基于语义文本的大宗农产品投资者恐慌情绪测度方法的发明,能够对互联网上大宗农产品投资文本信息进行有效快速地采集并可以进行文本的情绪值计算和消极恐慌情绪判定,方便投资市场进行事先调节,避免了恐慌情绪对农产品投资市场带来的不良影响,完善了对大宗农产品投资市场的预测,促进了投资市场健康平稳发展。附图说明下面结合附图和具体实施方式对本发明作进一步详细的说明。图1是本发明实施例的总流程图。图2是本发明实施例的情绪词典构造cbow模型结构图。具体实施方式图1所示,一种基于语义文本的大宗农产品投资者恐慌情绪测度方法,包括投资文本信息采集、文本信息预处理、语义情绪分析、文本情绪倾向判定四个步骤:步骤1:投资文本信息采集,首先建立投资文本信息库,其次从互联网上一些可靠度较高的大宗农产品投资评论文档中(如各大农产品投资论坛、博客)采集相关文本信息,最后将采集的文本信息放入投资文本信息库。采集具体过程如下:步骤1a:确定目标主题和目标采集网页链接。首先根据用户输入的大宗农产品投资者投资评论关键词作为目标主题;然后自动搜索获取相关的论坛、博客网站作为目标采集网站;最后以目标采集网站为靶,筛选出与目标主题相关的一系列链接,作为目标采集网页链接。目标采集网页链接可以有一个或多个,每个目标采集网页链接包含的内容都与目标主题有关。步骤1b:对确定的目标采集网页链接进行过滤处理。在确定目标主题对应的目标网页链接之后,对目标网页链接的正确性进行分析,挑选正确的网页链接,删除重复的网页链接、无效网页链接,以提高采集的效率。步骤1c:对过滤处理后的目标网页链接进行网页内容下载,根据网页内容中的html标签,定位需要采集的文章对应的url,根据需要采集的文章对应的url,对文章对应的文本内容进行下载并保存到投资文本信息库。步骤2:文本信息预处理。由于步骤1采集的信息较为冗余,不能直接用来做分析,需要对文本库中的信息进行预处理,整个预处理过程具体步骤如下:步骤2a:断句处理。首先,将文本导入程序,然后以句子为单位进行细粒度分析,程序会通过档中出现的中文标点符号和空格等自动对文档进行断句处理,遇到标点符号句号时,就将其识别为一句话。步骤2b:分词和词性标注。经断句处理的文档,程序会自动调用ictclas3.0分词器对文档进行分词,分词器首先遍历文档中每个词语,程序调用中文语料词典对句子进行分词并自动完成词性标注;分词结束之后,为了防止分词结果出现错漏现象,最后进行人工复查,将错漏的词语找出,进行手动分词并添加到分词结果中,分词结果为各个词组。步骤2c:提取情绪关键词构建情绪词典:为方便情绪关键词提取,需要构建情绪词典,通过对步骤2b中分词和词性标注获取的所有文档情绪词组,统计这些词组,获取在网络数据中出现词频最高的词组作为情绪关键词;将提取的情绪关键词加入情绪词典,并且后续不断扩充。对文本中分词后的词组与情绪词典中的词组进行比对,比对成功的即为情绪关键词,将情绪关键词进行提取;所述情绪词典构建采用word2vector模型中cbow,包括输入层、投影层、输出层;其中输入层为context(w)中2c个词向量,v(context(w)1)、v(context(w)2)...v(context(w)2c);投影层则是输入层的2c个词向量的累加之和,输出层对应一棵二叉树,它是以文本中出现过的词作为叶子节点,以各词在文本中出现的次数当权值构造出来的huffman树;输入层、投影层和输出层之间使用矩阵向量运算方法,输出层中的叶子节点由于分支都会产生一个概率,这些概率相乘就可以得到相关词组的概率,其中由上下文预测一个词组的概率的计算方法如下:p(wi|context)=p(wi|wi-k,wi-k+1…,wi-1,wi+1,…,wi+k)上式中,p为词组概率,wi表示文本中的某个词。。步骤3:语义情绪分析。对步骤2c提取到的情绪关键词进行情绪值计算,进而得到整个文本的情绪值。具体步骤如下:步骤3a:情绪关键词情绪值计算。对步骤2c中提取到的情绪关键词赋予情绪值,情绪值包括情绪极性和情绪强度,情绪极性分正负,积极乐观情绪和中性情绪极性为“+”,消极恐慌情绪极性为“-”,情绪强度代表相应的数值。情绪强度由具体的情绪关键词按照表1的赋值规则取值:表1:情绪关键词的赋值规则通过表1的赋值规则获得文本中每个情绪关键词的情绪值。步骤3b:文本情绪值计算。将文本中所有情绪关键词的情绪值进行加总求和并算出均值,到文本的情绪值。其具体计算如下:假设整个文本包含n个情绪关键词,s1、s2......sn,则其中e(t)表示一个文本篇章的情绪值,si表示文本中第i个情绪关键词,e(si)表示第i个情绪关键词的情绪值。步骤4:文本情绪倾向判定。由步骤3b所得到的文本情绪值与表2的文本情绪倾向判定规则进行对比,判定整个文本是否为消极恐慌情绪。表2:文本情绪倾向判定规则文本情绪值文本情绪倾向正积极乐观或中性负消极恐慌实施案例本实施例选择和讯博客中的一篇文章“老王观点05/12(增持加仓)”作为实施案例进行投资者恐慌情绪测度。该博客文本如下(其中的情绪关键词为标有下划线的词语):这几天沪深股市的交投略见回暖。本周股指ih和if的主力合约期价分别上涨3.24%和3.00%。本周大连pp,郑州pta的周涨幅都要明显滞后于sy,pvc基本上就没怎么涨。作为中长期配置的多棉花玉米卖基本金属的大宏观套利组合本周的表现平稳,权益变化不大。市场多空关注的重点回到了产业自身的基本面矛盾上,猪价的下行周期养殖效益的持续低迷与豆粕的快速膨胀。此外,郑州苹果的成交与总持仓在交易所市场监管部门的严肃的眼神盯着下迅速放大,伊然成为了本年度农产品期货品种的耀眼的当红品种。至于屡次提及的在上海螺纹钢rb合约间的传统正套,本周的表现中规中矩。由上述文本提取了8个情绪关键词,其分别为:回暖、上涨、滞后、平稳、低迷、膨胀、放大、中规中矩。将上述8个情绪关键词按照情绪词典进行分类,得到如表3所示的情绪值。表3:本文章各情绪关键词根据情绪关键词赋值规则得到的情绪值本文本的情绪值根据公式(1),计算如下:根据公式(1)计算得到本实施例的文本情绪值为0.325,依据文本情绪倾向判断规则,本实施例的情绪极性为“+”,不属于恐慌情绪。本实施例提供了一种基于语义文本的的大宗农产品投资者恐慌情绪测度方法。该方法通过对互联网上投资者发布的一些与大宗农产品市场相关的文本信息进行采集和分析,对获取的文本信息进行预处理,提取情绪关键词并进行情绪值计算,从而得到整个文本情绪值,进而通过文本情绪倾向判断规则,对文本情绪倾向进行判定,从而实现投资者恐慌情绪测度的目的。以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1