一种舆情信息的处理方法及装置与流程

文档序号:23719199发布日期:2021-01-24 06:56阅读:134来源:国知局
一种舆情信息的处理方法及装置与流程

[0001]
本公开涉及信息处理技术领域,尤其涉及一种舆情信息的处理方法及装置。


背景技术:

[0002]
舆情信息被报道时,受舆情信息影响的对象的价值将产生一定程度的改变,常见于受新闻报道的事件的影响,所播报的事件对直接相关的公司的股价等信息造成影响,使得相关的从业人员需要实时关注市场上发生的重大新闻,判断新闻事件所波及的对象,并及时作出响应操作,以降低市场风险。
[0003]
目前存在的一种处理方式是,人工对事件波及对象的价值波动情况进行预测,但这样得到的预测结果与相关处理人员的经验水平密切相关,而且对于同一事件的预测结果也因人而异,使得准确率较低。
[0004]
参阅图1所示,目前应用较多的另一种实现方式是,在收到新闻数据后,对新闻数据进行情感分析,判断该新闻数据表达的情感是正向或是负向,然后确定新闻数据所直接影响的对象,进而向用户推送预测结果,比如,假设新闻中报道了关于a公司的负面新闻,则能够判定出a公司的股价将下跌。但这种实现方式下,仅对新闻数据直接关联对象的价值波动方向进行了预测,而无法预测其具体的价值波动幅值,而且仅对新闻事件的直接相关的对象,使得预测结果过于局限,无法对新闻事件间接影响的对象的价值波动情况进行预测。


技术实现要素:

[0005]
本公开实施例提供一种舆情信息的处理方法及装置,用以解决现有技术中存在的预测舆情信息产生的影响时,仅能对直接关联对象的价值波动方向进行预测的问题。
[0006]
本公开实施例提供的具体技术方案如下:
[0007]
第一方面,提出一种舆情信息的处理方法,包括:
[0008]
扫描舆情信息关联的文本数据,并提取所述文本数据中与保存的对象名称集合匹配的对象名称,以及提取与保存的情感词集合匹配的情感词;
[0009]
按照设置的对象关联图谱,从提取出的对象名称中确定所述文本数据的直接关联对象以及间接关联对象,所述对象关联图谱中至少包括各个对象之间的业务关联关系;以及,从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向;
[0010]
将所述文本数据进行分词处理后,根据出现频次超过设定阈值的各个词语,生成关键词向量,并获取保存的各个历史舆情信息关联的主题词向量,以及获取所述各个历史舆情信息关联的各个价值波动数据,其中,主题词向量中包括历史舆情信息关联的历史文本数据中出现频次超过设定门限值的各个词语;
[0011]
针对各个主题词向量中的任意一个主题词向量,计算该主题词向量中的各个主题词与所述关键词向量中的各个关键词之间的相似度;并在取值大于设定阈值的各个相似度中,筛选出最大相似度对应的目标历史舆情信息,以及基于所述目标历史舆情信息关联的
价值波动数据,预测所述直接关联对象和所述间接关联对象的价值波动幅度,其中,所述价值波动幅度与所述波动参数指标之间的相关性由所述价值波动幅度的波动方向确定。
[0012]
可选的,所述扫描舆情信息关联的文本数据之前,进一步包括:
[0013]
获取舆情信息关联的各个文本数据,筛选出文本数据的发布时间戳与当前时间戳之间的时间间隔,处于有效时长范围内的文本数据;
[0014]
将筛选出的文本数据中,撰写语言为可识别语言的文本数据作为待处理的,所述舆情信息关联的文本数据。
[0015]
可选的,所述按照设置的对象关联图谱,从提取出的对象名称中确定所述文本数据直接关联对象以及间接关联对象之前,进一步包括:
[0016]
采用爬虫技术,爬取各个对象的产品信息,并收集所述各个对象的不同产品的供销信息,以及收集所述各个对象与各个其他对象之间的比例信息,所述比例信息包括业务占比、股份占比,以及资金投入占比中的至少一项;
[0017]
基于各个对象与其他对象之间的业务关联关系,以及与其他对象之间的多维度影响系数,建立对象关联图谱。
[0018]
可选的,所述从提取出的对象名称中确定所述文本数据直接关联对象以及间接关联对象,包括:
[0019]
获取建立的所述对象关联图谱,确定与所述直接关联对象存在业务往来的各个其他对象,并获取所述直接关联对象与所述各个其他对象之间的多维度影响系数;
[0020]
将所述各个其他对象作为间接波及的间接关联对象,以及针对各个其他对象中的任意一个其他对象,分别计算该其他对象与所述直接关联对象之间多维度影响系数均值,作为该其他对象与所述直接关联对象之间的关联系数。
[0021]
可选的,所述从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向之前,进一步包括:
[0022]
针对所述情感词集合中的情感词表征的舆情状态,设置对应的情感值,并确定所述文本数据中包括的各个情感词出现的频次,以及所述各个情感词的情感值,计算所述文本数据的情感得分,所述情感得分与所述各个情感词的情感值正相关,情感值随情感词所表达的,舆情状态的积极程度的降低而逐渐减小;
[0023]
所述从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向,包括:
[0024]
确定所述情感得分大于设定值时,则判定所述各个情感词表征的舆情状态为积极状态,所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向为正向波动;
[0025]
确定所述情感得到小于设定值时,则可判定所述各个情感词表征的舆情状态为消极状态,所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向为负向波动。
[0026]
可选的,所述获取保存的各个历史舆情信息关联的主题词向量之前,进一步包括:
[0027]
采用爬虫技术,抓取不同类型历史舆情信息关联的各个历史文本数据,针对任一种类型历史舆情信息下的各个历史文本数据,分别执行以下操作:
[0028]
对所述各个历史文本数据进行分词处理,根据所述各个历史文本数据中出现总频次超过预设门限值的各个词语生成该类型历史舆情信息的主题词向量,确定所述各个历史文本数据直接波及的各个历史直接关联对象;
[0029]
采用爬虫技术,抓取所述各个历史直接关联对象的价值数据,并针对所述各个历史直接关联对象中任意一个历史直接关联对象,确定该历史直接关联对象对应的历史文本数据的发布时间戳,以及确定不同设定时间段内,该历史直接关联对象的价值数据;
[0030]
针对所述不同设定时间段内的任意一个设定时间段,计算所述各个历史直接关联对象的价值波动数据;
[0031]
将计算得到的对应不同设定时间段的价值波动数据,以及所述主题词向量,作为该类型历史事件的关联数据,存储至历史事件集合。
[0032]
可选的,所述计算该主题词向量中的各个主题词与所述关键词向量中的各个关键词之间的相似度,包括:
[0033]
采用入下公式,计算该主题词向量与所述关键词向量之间的相似度:
[0034][0035]
其中,wi为关键词向量中包括的任意一个关键词,wj

为主题词向量中包括的任意一个主题词,n为关键词向量中的关键词总数,m为主题词向量中的主题词总数,sk为任意一个主题词向量与关键词向量之间的相似度。
[0036]
可选的,进一步包括:
[0037]
确定得到的各个相似度的取值均小于设定阈值时,跟踪并获取不同设定时间段内,所述直接关联对象的价值波动数据;
[0038]
将计算得到的对应不同设定时间段的价值波动数据,以及所述关键词向量,作为一个新类型的历史事件的关联数据,存储至历史事件集合。
[0039]
第二方面,提出一种舆情信息的处理装置,包括:
[0040]
提取单元,用于扫描舆情信息关联的文本数据,并提取所述文本数据中与保存的对象名称集合匹配的对象名称,以及提取与保存的情感词集合匹配的情感词;
[0041]
确定单元,用于按照设置的对象关联图谱,从提取出的对象名称中确定所述文本数据的直接关联对象以及间接关联对象,所述对象关联图谱中至少包括各个对象之间的业务关联关系;以及,从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向;
[0042]
获取单元,用于将所述文本数据进行分词处理后,根据出现频次超过设定阈值的各个词语,生成关键词向量,并获取保存的各个历史舆情信息关联的主题词向量,以及获取所述各个历史舆情信息关联的各个价值波动数据,其中,主题词向量中包括历史舆情信息关联的历史文本数据中出现频次超过设定门限值的各个词语;
[0043]
处理单元,用于针对各个主题词向量中的任意一个主题词向量,计算该主题词向量中的各个主题词与所述关键词向量中的各个关键词之间的相似度;并在取值大于设定阈值的各个相似度中,筛选出最大相似度对应的目标历史舆情信息,以及基于所述目标历史舆情信息关联的价值波动数据,预测所述直接关联对象和所述间接关联对象的价值波动幅度,其中,所述价值波动幅度与所述波动参数指标之间的相关性由所述价值波动幅度的波动方向确定。
[0044]
可选的,所述扫描舆情信息关联的文本数据之前,所述提取单元进一步用于:
[0045]
获取舆情信息关联的各个文本数据,筛选出文本数据的发布时间戳与当前时间戳
之间的时间间隔,处于有效时长范围内的文本数据;
[0046]
将筛选出的文本数据中,撰写语言为可识别语言的文本数据作为待处理的,所述舆情信息关联的文本数据。
[0047]
可选的,所述按照设置的对象关联图谱,从提取出的对象名称中确定所述文本数据直接关联对象以及间接关联对象之前,所述确定单元进一步用于:
[0048]
采用爬虫技术,爬取各个对象的产品信息,并收集所述各个对象的不同产品的供销信息,以及收集所述各个对象与各个其他对象之间的多维度影响系数,所述多维度影响系数包括业务占比、股份占比,以及资金投入占比中的至少一项;
[0049]
基于各个对象与其他对象之间的业务关联关系,以及与其他对象之间的多维度影响系数,建立对象关联图谱。
[0050]
可选的,所述从提取出的对象名称中确定所述文本数据直接关联对象以及间接关联对象时,所述确定单元用于:
[0051]
获取建立的所述对象关联图谱,确定与所述直接关联对象存在业务往来的各个其他对象,并获取所述直接关联对象与所述各个其他对象之间的多维度影响系数;
[0052]
将所述各个其他对象作为间接波及的间接关联对象,以及针对各个其他对象中的任意一个其他对象,分别计算该其他对象与所述直接关联对象之间多维度影响系数均值,作为该其他对象与所述直接关联对象之间的关联系数。
[0053]
可选的,所述从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向之前,所述确定单元进一步用于:
[0054]
针对所述情感词集合中的情感词表征的舆情状态,设置对应的情感值,并确定所述文本数据中包括的各个情感词出现的频次,以及所述各个情感词的情感值,计算所述文本数据的情感得分,所述情感得分与所述各个情感词的情感值正相关,情感值随情感词所表达的,舆情状态的积极程度的降低而逐渐减小;
[0055]
所述从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向时,所述确定单元用于:
[0056]
确定所述情感得分大于设定值时,则判定所述各个情感词表征的舆情状态为积极状态,所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向为正向波动;
[0057]
确定所述情感得到小于设定值时,则可判定所述各个情感词表征的舆情状态为消极状态,所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向为负向波动。
[0058]
可选的,所述获取保存的各个历史舆情信息关联的主题词向量之前,所述获取单元进一步用于,建立历史事件集合,具体用于:
[0059]
采用爬虫技术,抓取不同类型历史舆情信息关联的各个历史文本数据,针对任一种类型历史舆情信息下的各个历史文本数据,分别执行以下操作:
[0060]
对所述各个历史文本数据进行分词处理,根据所述各个历史文本数据中出现总频次超过预设门限值的各个词语生成该类型历史舆情信息的主题词向量,确定所述各个历史文本数据直接波及的各个历史直接关联对象;采用爬虫技术,抓取所述各个历史直接关联对象的价值数据,并针对所述各个历史直接关联对象中任意一个历史直接关联对象,确定该历史直接关联对象对应的历史文本数据的发布时间戳,以及确定不同设定时间段内,该历史直接关联对象的价值数据;
[0061]
针对所述不同设定时间段内的任意一个设定时间段,计算所述各个历史直接关联对象的价值波动数据;
[0062]
将计算得到的对应不同设定时间段的价值波动数据,以及所述主题词向量,作为该类型历史事件的关联数据,存储至历史事件集合。
[0063]
可选的,所述计算该主题词向量中的各个主题词与所述关键词向量中的各个关键词之间的相似度时,所述处理单元用于:
[0064]
采用入下公式,计算该主题词向量与所述关键词向量之间的相似度:
[0065][0066]
其中,wi为关键词向量中包括的任意一个关键词,wj

为主题词向量中包括的任意一个主题词,n为关键词向量中的关键词总数,m为主题词向量中的主题词总数,sk为任意一个主题词向量与关键词向量之间的相似度。
[0067]
可选的,所述处理单元进一步用于:
[0068]
确定得到的各个相似度的取值均小于设定阈值时,跟踪并获取不同设定时间段内,所述直接关联对象的价值波动数据;
[0069]
将计算得到的对应不同设定时间段的价值波动数据,以及所述关键词向量,作为一个新类型的历史事件的关联数据,存储至历史事件集合。
[0070]
第三方面,提出一种电子设备,包括:
[0071]
存储器,用于存储可执行指令;
[0072]
处理器,用于读取并执行存储器中存储的可执行指令,以实现上述任一项所述的舆情信息的处理方法。
[0073]
第四方面,提出一种计算机可读存储介质,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行上述任一项所述的舆情信息的处理方法。
[0074]
本公开有益效果如下:
[0075]
本公开实施例中,扫描舆情信息关联的文本数据,并提取所述文本数据中与保存的对象名称集合匹配的对象名称,以及提取与保存的情感词集合匹配的情感词,再按照设置的对象关联图谱,从提取出的对象名称中确定所述文本数据的直接关联对象以及间接关联对象,所述对象关联图谱中至少包括各个对象之间的业务关联关系;以及,从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向,再将所述文本数据进行分词处理后,根据出现频次超过设定阈值的各个词语,生成关键词向量,并获取保存的各个历史舆情信息关联的主题词向量,以及获取所述各个历史事件关联的各个价值波动幅度指标,其中,主题词向量中包括历史舆情信息关联的历史文本数据中出现频次超过设定门限值的各个词语,然后针对各个主题词向量中的任意一个主题词向量,计算该主题词向量中的各个主题词与所述关键词向量中的各个关键词之间的相似度;并在取值大于设定阈值的各个相似度中,筛选出最大相似度对应的目标历史舆情信息,以及基于所述目标历史舆情信息关联的价值波动数据,预测所述直接关联对象和所述间接关联对象的价值波动幅度,其中,所述价值波动幅度与所述波动参数指标之间的相关性由所述价值波动幅度的波动方向确定。这样,在对舆情信息关联的文本数据进行分析时,不仅能够对直接受到波动的直接关联对象进行分析,还能够对间接受到舆情信息影响的,与直
接关联对象之间存在业务关联的间接关联对象的价值波动情况进行分析,且能够结合记录的,同类舆情信息关联的历史事件的价值波动数据,对当前受波及的对象的价值波动幅度进行预测,使得分析的结果有效性更高,且可用性更强。
附图说明
[0076]
图1为本公开实施例中现有技术下对于新闻数据进行分析的流程示意图;
[0077]
图2为本公开实施例中处理设备获取的数据示意图;
[0078]
图3为本公开实施例中预测价值波动幅度的系统架构示意图;
[0079]
图4为本公开实施例中进行价值波动幅度预测的流程示意图;
[0080]
图5为本公开实施例中预测股价波动幅度的流程示意图;
[0081]
图6为本公开实施例中呈现给用户的操作界面示意图;
[0082]
图7为本公开实施例中舆情信息的处理装置的逻辑结构示意图;
[0083]
图8为本公开实施例中舆情信息的处理装置的实体结构示意图。
具体实施方式
[0084]
为了使本公开的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本公开,并不用于限定本公开。
[0085]
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
[0086]
为了解决现有技术中存在的预测舆情信息产生的影响时,仅能对直接关联对象的价值波动方向进行预测的问题,本申请提供一种舆情信息的处理方法及装置,根据保存的对象名称集合,提取舆情信息关联的文本数据中出现的对象名称,同时根据保存的情感词集合,提取所述文本数据中包括的各个情感词,并按照设置的对象关联图谱,从提取出的对象名称中确定所述文本数据的直接关联对象以及间接关联对象,所述对象关联图谱中至少包括各个对象之间的业务关联关系;以及,从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向,再将所述文本数据进行分词处理后,根据出现频次超过设定阈值的各个词语,生成关键词向量,并获取保存的各个历史舆情信息关联的主题词向量,以及获取所述各个历史事件关联的各个价值波动幅度指标,其中,主题词向量中包括历史舆情信息关联的历史文本数据中出现频次超过设定门限值的各个词语,然后针对各个主题词向量中的任意一个主题词向量,计算该主题词向量中的各个主题词与所述关键词向量中的各个关键词之间的相似度;并在取值大于设定阈值的各个相似度中,筛选出最大相似度对应的目标历史舆情信息,以及基于所述目标历史舆情信息关联的价值波动数据,预测所述直接关联对象和所述间接关联对象的价值波动幅度,其中,所述价值波动幅度与所述波动参数指标之间的相关性由所述价值波动幅度的波动方向确定。
[0087]
本公开针对性提出的舆情信息的处理方法,能够根据同类型历史舆情信息关联的价值波动数据,预测当前舆情信息的直接关联对象的价值波动幅度,同时,根据与直接关联对象之间的业务关联关系,确定舆情信息所间接影响的间接关联对象,一方面弥补了的现
有技术下仅对直接关联对象的波动方向进行预测,使得预测范围过于局限的问题,另一方面,通过对直接关联对象和间接关联对象的价值波动幅值的预测,弥补了无法准确预估舆情信息的影响程度的问题,进而实现对于舆情信息造成的价值波动幅度的准确预测。
[0088]
需要说明的是,本公开实施例中,舆情信息表征通过网络传播的社会事件信息,包括对于一定的社会空间内,与对象存在直接或间接关联的社会事件的发生、发展以及变化情况的报道,民众对发生的社会事件的态度、信念以及价值观的报道,以及社会管理者对于该社会事件产生和持有的社会政治态度、信念以及价值观的报道。
[0089]
本公开实施例中,在一些可能的实现场景下,舆情信息关联的文本数据可以为新闻报道,直接关联对象为新闻报道的直接相关的公司,间接关联对象为与该公司具有业务关联的其他公司,价值波动幅度可以为公司的股价波动幅度、基金波动幅度,市值波动幅度等数据。
[0090]
需要说明的是,本公开实施例中,对于舆情信息进行处理后,得到的对直接关联对象和间接关联对象的价值波动幅度,具体可以表现为价值波动幅值,或者,可以表现为价值波动率。处理舆情信息的装置可以是服务器,或者,具有计算处理能力的终端设备,本公开对此不做过多限定。
[0091]
本公开实施例中,参阅图2所示意的数据来源示意图,本公开进行舆情信息的处理时,处理设备使用的数据包括有舆情信息关联的文本数据,对当前文本数据可能造成的价值波动幅度进行预测的,历史舆情信息关联的历史文本数据,以及确定与文本数据直接波及的直接关联对象,存在业务关联的间接关联对象的产业数据。
[0092]
具体的,处理设备将获取的第三方新闻终端、公众号等其他社交媒体上报道的文本数据,作为进行分析的舆情信息关联的文本数据;针对历史事件,所述处理设备爬取历史舆情信息关联的历史文本数据,以及爬取历史文本数据中的历史直接关联对象的价值波动数据,以获得历史舆情信息关联的历史文本数据,以及获取历史文本数据的直接关联对象的价值波动数据;针对各个对象:对象x而言,所述处理设备采用爬虫工具,爬取对象x的产品信息,并收集对象x的不同产品的供销信息,同时,收集对象x的基本信息,以及与对象x存在业务关联的其他对象之间的比例信息,其中,所述基本信息包括对象x所处理的行业信息,对象x的营收数据信息,主营占比信息等等,所述比例信息可以包括有业务占比、股份占比,以及资金投入占比。
[0093]
进一步的,所述处理设备获得进行处理的数据后,基于获得的各个对象的基本信息、产品信息、不同产品的供销信息,以及与其存在关联关系的其他对象之间的比例信息,建立至少包括有不同对象之间的业务关联关系的对象关联图谱,本公开的一些实施例中,将对象关联图谱上记录的对象之间的业务占比、股份占比,以及资金投入占比信息,作为不同对象之间的多维度影响系数。所述处理设备还基于获得的历史舆情信息关联的价值波动数据,分析不同类型历史事件下的不同设定时间段内的价值波动幅度,并建立历史舆情信息的主题词向量。进而所述处理设备对当前获得的舆情信息关联的文本数据,进行分析,确定所述文本数据表征的舆情方向,并预测所述文本数据所波及的直接关联对象和间接关联对象的价值波动幅度。
[0094]
本公开实施例中,参阅图3所示系统架构图,进行对舆情信息进行处理,实现对直接关联对象和间接关联对象的价值波动幅度的预测时,整体的预测系统中包括有展示层、
服务层,以及数据层,其中,
[0095]
展示层,具体体现为用户终端,可以在用户终端所安装的app上展示对于舆情信息的处理结果,或者,可以在对应配置的网页上展示对于舆情信息的处理结果,也就是展示服务层根据舆情信息关联的文本数据预测得到直接关联对象和间接关联对象的价值波动幅度;
[0096]
服务层,具体体现为对舆情信息进行处理的处理设备,内部包括有:网络服务接口,用于对外提供接口调用服务;对象关联图谱建立模块,具体为建立对象关联图谱的功能模块,能够根据得到的不同对象的产品信息、产品的供销信息、对象的基本信息,以及与存在关联关系的其他对象之间的比例信息,建立对象关联图谱;文本分析模块,用于舆情信息关联的文本数据进行对象名称和情感词提取;关键词提取模块,用于提取舆情信息关联的文本数据中包含的关键词;任务管理模块,用于调度用户发起的请求,并根据用户发起的请求类型,为用户配置实时反馈或非实时反馈,如,确定用户存在订阅操作后,则对舆情信息关联的文本数据完成分析后,向订阅用户统一推送预测结果,再如,用户发起分析特定文本数据的请求时,响应于用户的请求,完成文本数据的分析后,将预测结果实时反馈给对应的用户。
[0097]
数据层,由爬虫工具和指定终端组成,所述爬虫工具可以包括有历史舆情信息爬虫,文本数据爬虫,对象间业务关联关系爬虫等等,所述指定终端可以包括有能够提供不同对象所处的行业信息,营收信息,净利润信息等基本信息的终端。
[0098]
下面结合附图,对本公开实施例优选的实施方式进行进一步详细说明:
[0099]
下面结合附图4,对本公开实施中,处理设备处理舆情信息的过程进行说明。
[0100]
步骤401:扫描舆情信息关联的文本数据,并提取所述文本数据中与保存的对象名称集合匹配的对象名称,以及提取与保存的情感词集合匹配的情感词。
[0101]
处理设备获取第三方新闻终端推送的新闻文本数据,获取公众号平台推送的文本数据等社交媒体上发布的文本数据后,将获得的文本数据作为舆情信息关联的文本数据进行分析。
[0102]
为保证对获得的文本数据进行有效分析,所述处理设备在对文本数据进行处理之前,首先对获得的文本数据进行有效性分析,具体的,获取各个文本数据,筛选出文本数据的发布时间戳与当前时间戳之间的时间间隔,处于有效时长范围内的文本数据,并将筛选出的文本数据中,撰写语言为可识别语言的文本数据作为待处理的文本数据。
[0103]
本公开实施例中,通过对获得的文本数据进行有效性校验,能够保证文本数据的时间有效,考虑到价值波动幅度受时间的影响极大,文本数据发布的时间与当前时间戳之间的时间间隔超过有效时长范围时,也就使得文本数据丧失了可分析性,再者,由于不同文本语言的识别方式和识别所需的数据库完全不同,诸如英文和中文之间,数据配置截然不同,故为保证对文本数据的有效识别,所述处理设备会对得到的文本数据进行语言校验,具体的,在中文识别的场景下,所述可识别语言的校验可包括两方面的内容,一方面校验该文本数据的撰写语言是否为可识别原因,例如,校验是否为中文撰写,另一方面校验该文本数据中是否存在乱码情况。所述处理设备在确定该文本数据时间有效,且可识别时,确定该文本数据为有效数据。
[0104]
进一步的,所述处理设备扫描文本数据,并提取所述文本数据中与保存的对象名
称集合匹配的各个对象名称,以及提取与保存的情感词集合匹配的各个情感词,确定所述各个对象名称和所述各个情感词出现的频次,其中,处理设备扫描所述文本数据时,扫描的内容为文本数据中的全部文字,包括但不限于标题以及正文。
[0105]
具体的,所述处理设备针对对象名称和情感词,保存有对象名称集合和情感词集合,并通过扫描文本数据的方式,提取所述文本数据中,与对象名称集合中的对象名称和情感词集合中的情感词匹配的各个对象名称和各个情感词。进而确定提取出的各个对象名称在所述文本数据中出现的频次,以及确定提出的各个情感词在所述文本数据中出现的频次。
[0106]
需要说明的是,本公开实施例中,对象名称集合中包括有现存的全部对象,所述情感词集合包括有预先建立的包含表达不同情感的词语的集合,且所述对象名称集合和所述情感词集合可以选择性的备配置为实时更新或者定期更新,对于新出现的对象名称,及时添加至对象名称集合中,并将能够表达舆情状态的词语,及时添加至情感词集合中。
[0107]
这样,借助于保存的对象名称集合和情感词集合,扫描并提取文本数据中匹配的对象名称和情感词,使得能够有效确定文本数据中出现的对象名称和情感词,以保证后续对文本数据的有效分析。
[0108]
步骤402:按照设置的对象关联图谱,从提取出的对象名称中确定文本数据的直接关联对象以及间接关联对象,所述对象关联图谱中至少包括各个对象之间的业务关联关系;以及,从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向。
[0109]
处理设备按照设置的对象关联图谱,从提取出的对象名称中确定舆情信息关联的文本数据的直接关联对象以及间接关联对象之前,首先需要创建对象关联图谱,下面对对象关联图谱的创建过程进行说明。
[0110]
所述处理设备采用爬虫技术,爬取各个对象的产品信息,并收集所述各个对象的不同产品的供销信息,以及收集所述各个对象与各个其他对象之间的比例信息,所述比例信息包括业务占比、股份占比,以及资金投入占比中的至少一项,再基于各个对象与其他对象之间的业务关联关系,以及与其他对象之间的比例信息,建立对象关联图谱。
[0111]
具体的,所述处理设备采用爬虫技术,爬取互联网上存在的各个对象的产品信息,并收集所述各个对象的产品信息,及其不同产品的供销信息,并收集存在关联关系的对象之间的比例信息,所述比例信息包括业务占比、股份占比,以及资金投入占比中的至少一项。进而根据获得的对象之间的业务关联关系,以及对象之间的比例信息,建立对象关联图谱,其中,将存在业务往来,或者,彼此存在联动影响的对象关系称为业务关联关系。
[0112]
例如,以一个对象a为例,假设在对象关联图谱上与其具有业务关联的其他对象分别为对象b、对象c和对象d,该对象关联图谱上呈现有对象a与对象b之间的比例信息,具体包括有,对象a的同类业务中,对象b所占比例,称为对象b占对象a的业务占比,对象b持有对象a的股份的情况下,将对象b持有对象a的股份比例,作为对象b对于对象a的股份占比,对象b对于对象a存在资金投入的情况下,将对象b投入的资金占对象a接收到的总投入资金的占比,作为对象b对于对象a的资金投入占比。
[0113]
处理设备按照设置的对象关联图谱,从提取出的对象名称中确定所述文本数据的直接关联对象以及间接关联对象,具体的,所述处理设备确定文本数据中包括的各个对象
名称和各个情感词各自出现的频次后,考虑到文本数据中,对于直接关联的对象,将存在大篇幅陈述该对象的相关内容,故将对象名称出现的频次最高的对象,作为所述文本数据的直接关联对象,以及根据所述对象关联图谱,将与所述直接关联对象存在业务关联关系的其他对象作为间接关联对象。所述处理设备统计各个情感词出现的频次后,根据所述各个情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向。
[0114]
本公开实施例中,处理设备从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向之前,可以针对所述情感词集合中的情感词表征的舆情状态,设置对应的情感值,并确定所述文本数据中包括的各个情感词出现的频次,并根据所述各个情感词的情感值,计算所述文本数据的情感得分,所述情感得分与所述各个情感词的情感值正相关,情感值随情感词所表达的,舆情状态的积极程度的降低而逐渐减小,其中,所述舆情状态包括正向积极的舆论导向以及负向消极的舆论导向。
[0115]
这样,借助于对情感词进行赋值的方式,为保证不同程度的词语赋予不同的情感值,使得能够通过计算文本数据的情感值得分,确定文本数据表征的情感方向,化抽象的舆情状态为具体的情感值得分,能够直观的判断文本数据所表达的舆情状态。
[0116]
进一步的,所述处理设备根据情感得分,对文本数据的舆情状态进行分析,具体的,确定所述情感得分大于设定值时,则判定所述各个情感词表征的舆情状态为积极状态,所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向为正向波动;以及在确定所述情感得分小于设定值时,则可判定所述各个情感词表征的舆情状态为消极状态,所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向为负向波动。
[0117]
需要说明的是,本公开实施例中,对于直接关联对象和间接关联对象而言,由于存在业务关联关系,且对于直接一个直接关联对象来说,其对应的间接关联对象可能由多个,而且不同间接关联对象与该直接关联对象之间的相关度必然存在差异,本公开实施例中,针对不同间接关联对象与直接关联对象之间相关度的差异,提出直接关联对象与间接关联对象之间的相关系数的概念,所述相关系数表征直接关联对象与不同间接关联对象之间关系的密切程度,具体可以将直接关联对象与间接关联对象之间比例信息的均值作为相关系数的取值。
[0118]
例如,继续上述举例进行说明,对象a为文本数据的直接关联对象,对象b为文本数据的间接关联对象,假设对象b占对象a的业务占比为0.32,对象b持有对象a的股份,对象b对于对象a的股份占比为0.14,对象b对于对象a存在资金投入,对象b对于对象a的资金投入占比为0.24,则间接关联对象b与直接关联对象a之间的关联系数为(0.22+0.14+0.24)/3为0.20,故间接关联对象b与直接关联对象a之间的相关系数为0.2。
[0119]
步骤403:将文本数据进行分词处理后,根据出现频次超过设定阈值的各个词语,生成关键词向量,并获取保存的各个历史舆情信息关联的主题词向量,以及获取所述各个历史舆情信息关联的各个价值波动数据。
[0120]
处理设备对文本数据进行分词处理,将所述文本数据处理为各个词语的形式,其中,所述处理设备使用的分词方式包括但不限于正向最大匹配算法、邻近匹配算法逆向最大匹配算法、双向最大匹配法(bi-directction matching method,bm),最短路径匹配算法(shortest path match),以及隐马尔科夫模型(hmm,hiddenmarkov model)等能够实现分
词的方法,本公开对此不做过多限制。
[0121]
例如,以“xx公司中标a工程,获得项目资金1.1亿元”经过分词处理后,能够得到形如xx公司/中标/a工程/获得/项目/资金/1.1亿元。
[0122]
进一步的,所述处理设备筛选出出现频次超过设定阈值的各个词语,作为文本数据的各个关键词,生成所述文本数据的关键词向量,其中,对于不同文本数据来说,其对应的关键词向量中包括的关键词数目各不相同。
[0123]
所述处理设备确定文本数据中包括的关键词向量后,获取保存的各个历史舆情信息关联的主题词向量,以及获取所述各个历史舆情信息关联的各个价值波动数据,下面首先对历史舆情信息关联的主题词向量和价值波动数据的生成过程进行说明。
[0124]
具体的,所述处理设备采用爬虫技术,抓取不同类型历史舆情信息关联的各个历史文本数据,针对任一种类型历史舆情信息下的各个历史文本数据,分别执行以下操作:
[0125]
s1:处理设备对所述各个历史文本数据进行分词处理,筛选出所述各个历史文本数据中出现总频次超过预设门限值的各个词语生成该类型历史舆情信息的主题词向量,确定所述各个历史文本数据直接波及的各个历史直接关联对象。
[0126]
具体的,处理设备对历史文本数据进行分词处理时使用的技术,与上述对文本数据进行分词处理时使用的技术相同,本公开在此不再赘述。
[0127]
本公开的一些实现方式中,处理设备将获取到的同类型舆情信息的各个历史文本数据作为一个处理的整体,所述处理设备在完成对各个历史文本数据的分词处理后,筛选出出现总频次超过设定阈值的各个词语生成该类型历史舆情信息的主题词向量,本公开的另一些实施例中,所述处理设备可以针对该类型的不同类型的历史舆情信息关联的历史文本数据,分别进行分词处理,进而统计各个历史文本数据中各个词语出现的频次,筛选生成历史舆情信息关联的主题词向量。其中,不同历史舆情信息关联的主题词向量中包含的主题词的数目不同。
[0128]
所述处理设备对各个历史文本数据进行分词提取的同时,确定各个历史文本数据中与对象名称集合匹配的对象名称,进而确定所述各个历史文本数据对应的历史直接关联对象。
[0129]
s2:采用爬虫技术,抓取所述各个历史直接关联对象的价值数据,并针对所述各个历史直接关联对象中任意一个历史直接关联对象,确定该历史直接关联对象对应的历史文本数据的发布时间戳,以及确定不同设定时间段内,该历史直接关联对象的价值数据。
[0130]
具体的,处理设备确定各个历史直接关联对象后,按照所述各个历史直接关联对象所对应的历史文本数据发布的时间戳,获取所述时间戳以后的不同时间段内,各个历史直接关联对象的价值数据。
[0131]
需要说明的是,本公开实施例中,在进行股价波动幅度预测的场景中,所述价值数据具体可以是历史舆情信息关联的各个历史直接关联公司的股价k曲线。
[0132]
s3:针对所述不同设定时间段内的任意一个设定时间段,计算所述各个历史直接关联对象的价值波动数据。
[0133]
处理设备根据一种类型的历史舆情信息下,不同历史直接关联对象在同一设定时间段内的价值波动数据,确定设定时间段内该类型的历史舆情信息的价值波动数据。
[0134]
本公开实施例中,一种情况下,在将价值波动幅值作为价值波动幅度的衡量指标
时,所述价值波动数据可以包括价值波动幅值均值,价值波动幅值方差和价值波动幅值极值;另一种情况下,在将价值波动率作为价值波动幅度的衡量指标时,所述价值波动数据可以包括价值波动率均值、价值波动率方差和价值波动率极值。
[0135]
需要说明的是,本公开实施例中,将价值波动幅值均值、价值波动幅值方差和价值波动幅值极值作为价值评估数据,或者,将价值波动率均值、价值波动率方差和价值波动率极值作为价值评估数据的原因在于,借助于价值波动幅度均值,对同类型的舆情信息所关联的公司的价值波动幅度的预测,借助于方差,对预测的价值波动幅度可能的浮动情况进行预测,由于方差表征的是同类型的历史舆情信息下各个历史直接关联对象的价值波动幅度对平均波动情况的偏离情况,故借助于方差能够对价值波动幅度的变化范围进行预测,而价值波动幅度极值,能够直观的确定对同类型的舆情信息所对应的不同历史事件下的价值波动幅度的波动范围,其中,方差、极值的计算方式为现有技术下的成熟技术,本公开在此不再赘述。
[0136]
例如,假设历史文本数据的发布时间与相关历史事件发生的时间为同一天,假设以股价波动率衡量价值波动幅度,且同种类型的历史舆情信息均为:由于公司承建的建筑倒塌造成人员伤亡,此种类型的历史舆情信息下,获取到关于公司1的历史1,公司2的历史文本数据2,以及公司3的历史文本数据3,且在历史文本数据1发布的一天、三天、五天后,公司1的股价相比于历史文本数据1发布的当天的股价波动率分别为-0.24、-0.37、-0.42,;公司2在历史文本数据2发布的一天、三天、五天后,公司2的股价相比于历史文本数据2发布的当天的股价波动率分别为-0.26、-0.38、-0.46;公司3在历史文本数据3发不的一天、三天、五天后,公司3的股价相比于历史文本数据3发布的当天的股价波动率分别为-0.28、-0.35、-0.44,则对于该类型的历史舆情信息,事件发生一天的股价波动率均值为((-0.24)+(-0.26)+(-0.28))/3=-0.26,同理,事件发生三天的股价波动率均值为-0.367,以及事件发生五天后的股价波动率均值为-0.44。同理,对于同种类型历史舆情信息对应的事件发生一天后的股价波动率为公司1:-0.24、公司2:-0.26、公司3:-0.28,则计算得到方式为:[(-0.24-(-0.24))^2+(-0.26-(-0.24))^2+(-0.28-(-0.24))^2]/3为0.00067,同理按照现有的计算极值的方式,计算历史事件发布一天、三天、五天内的,股价波动率的方差和股价波动率极值。
[0137]
s4:将计算得到的对应不同设定时间段的价值波动数据,以及所述主题词向量,作为该类型历史事件的关联数据,存储至历史事件集合。
[0138]
处理设备计算得到对应不同设定时间段的价值波动数据后,将得到的主题词向量以及不同设定时间段内的价值波动数据,作为该类型历史舆情信息的关联数据,存储至历史舆情信息集合。
[0139]
步骤404:针对各个主题词向量中的任意一个主题词向量,计算该主题词向量中的各个主题词与所述关键词向量中的各个关键词之间的相似度;并在取值大于设定阈值的各个相似度中,筛选出最大相似度对应的目标历史舆情信息,以及基于所述目标历史舆情信息关联的价值波动数据,预测所述直接关联对象和所述间接关联对象的价值波动幅度。
[0140]
处理设备获取各种历史舆情信息关联的主题词向量和价值波动数据,针对各个主题词向量中的任意一个主题词向量,计算该主题词向量中的各个主题词与当前舆情信息关联的文本数据中的关键词向量中,各个关键词之间的相似度,具体的,所述处理设备采用如
下公式进行计算:
[0141][0142]
其中,w
i
为关键词向量中包括的任意一个关键词,w
j

为主题词向量中包括的任意一个主题词,n为关键词向量中的关键词总数,m为主题词向量中的主题词总数,s
k
为任意一个主题词向量与关键词向量之间的相似度。
[0143]
本公开实施例中,所述处理设备针对各个主题词向量中包括的主题词,与关键词向量中包括的各个关键词之间的相似度,计算得到对应的各个相似度,进而所述处理设备在取值大于设定阈值的各个相似度中,筛选出最大相似度对应的目标历史舆情信息。其中,所述设定阈值的具体取值根据实际配置需要进行设置,本公开可以适应性的取值为0.9。
[0144]
进一步的,所述处理设备获取所述目标历史舆情信息关联的价值波动数据,并基于所述价值波动数据预测文本数据的直接关联对象和间接关联对象的价值波动幅度,其中,所述价值波动幅度与所述价值波动数据的相关性由所述价值波动幅度的波动方向确定。
[0145]
本公开的一些实施例中,将价值波动数据中的价值波动幅度均值,作为预测文本数据波及对象的价值波动幅度的依据,以下的计算的仅以基于目标历史舆情信息关联的价值波动幅度均值预测价值波动幅度为例进行说明。
[0146]
具体的,本公开的一些实施例中,所述处理设备采用如下公式,计算直接关联对象的价值波动幅度,需要说明的是,在对应不同的设定时间段存在不同的价值波动幅度均值时,可以同样采用如下公式,计算对应的设定时间段下直接关联对象的价值波动幅度,以下仅以计算一天后直接关联对象的价值波动幅度为例进行说明:
[0147]
p
1d
=p
1d

*k*c
[0148]
其中,p
1d

为获取的目标历史舆情信息在一天后的价值波动幅度均值,k为冲击系数,在预测的价值波动幅度以价值波动幅值表征时,k可以固定取值为0.1,,用于限制幅值的波动情况,而在预测的价值波动幅值以价值波动率表征时,k的取值根据实际情况配置,c为情感词得分。p1d为文本数据对应的事件发生的一天后直接关联对象的价值波动幅度。
[0149]
对于情感词得分,本公开实施例中,采用如下公式计算:
[0150][0151]
其中,c表征文本数据的情感词得分,n表示文本数据中与保存的情感词集合匹配的各个情感词的总数,ci表示所述各个情感词中,任意一个情感词对应的情感值,value表示设置的情感值的最大值,在这种情况下,本公开实施例中,针对各个情感词设置有对应的情感值,可选的正向的情感词对应的情感值设置为正值,负向的情感词对应的情感值设置为负值。
[0152]
进一步的,在确定直接关联对象的价值波动幅度后,采用如下公式计算间接关联对象的价值波动幅度:
[0153][0154]
其中,f1d为某一间接关联对象在事件发生一天后的价值波动幅度,p1d为该间接
关联对象对应的直接关联对象在时间发生一天后的价值波动幅度,ri为所述直接关联对象与该间接关联对象之间的比例信息,取值为(0,1],u为间接关联对象与直接关联对象之间存在的比例信息的数目,为比例信息的均值,也可称为间接关联对象与直接关联对象之间的相关系数。
[0155]
需要说明的是,本公开实施例中,处理设备在建立对象关联图谱时,确定各个对象之间的比例信息,或者,直接确定各个对象之间的相关系数,进而在确定直接关联对象价值波动幅度,对间接关联对象的价值波动幅度进行预测时,根据对象关联谱图中包括的直接关联对象与间接关联对象之间的比例信息,或者,根据相关系数,预测间接关联对象的价值波动幅度。
[0156]
需要说明的是,本公开实施例中,目标历史舆情信息是在取值大于设定阈值的各个相似度中,筛选出最大相似度后对应确定的,本公开的一些实施方式中,当与各个历史舆情信息之间的相似度的取值均小于设定阈值时,也就是不存在与当前的文本数据之间相似度达到要求的历史舆情信息,此时,应将所述文本数据视为对应新的舆情信息。
[0157]
所述处理设备确定得到的各个相似度的取值均小于设定阈值时,跟踪并获取不同设定时间段内,所述直接关联对象的价值波动幅度,再将计算得到的对应不同设定时间段的价值波动幅度,以及所述关键词向量,作为一个新类型的历史事件的关联数据,存储至历史事件集合。
[0158]
本公开实施例中,在进行股价波动幅度预测的场景下,以对事件发生一天后、三天后、五天后的股价波动幅度的预测为例,处理设备跟踪记录文本数据直接关联的目标公司在一天后的股价,三天后的股价,以及五天后的股价,并计算一天后、三天后、五天后,等设定时间段内的股价相对于事件发生当天的股价波动幅值或股价波动率,并将得到的股价波动幅度连同基于文本数据确定的关键词向量,作为一个新类型的舆情信息的关联数据。
[0159]
需要说明的是,本公开的一些实施例中,在对舆情信息进行处理时,当价值波动幅度以价值波动率衡量时,可以采用形如pxd=(p
’-
p)/p的公式,计算x天后的价值波动率,其中,p

为x天后的价值,p为文本数据发布当天的价值,进而计算出一天后、三天后、五天后的价值波动率。
[0160]
这样,基于设定阈值,界定文本数据与历史舆情信息之间的相似度,避免出现文本数据与相似度低的历史舆情信息进行匹配的情况发生,保证了对文本数据波及对象的价值波动幅度的准确预测。
[0161]
参阅图5所示,下面以基于获得的舆情信息关联的文本数据,预测该文本数据波及的公司的股价波动率的过程进行说明:
[0162]
步骤501:获取文本数据。
[0163]
处理设备获取舆情信息关联的文本数据,其中,一种情况下,所述文本数据时用户上传请求分析的文本数据,另一种情况下,所述文本数据是处理设备获取到的新闻数据。
[0164]
步骤502:判断文本数据是否能够被有效识别,若是,执行步骤504,否则,执行步骤503。
[0165]
具体的,处理设备对文本数据进行有效性检测,检测的内容包括判断所述文本数据是否能够被识别,在步骤501中提及的第一种情况下,当得到的文本数是用户上传的文本数据时,直接检测该文本数据是否是可识别语言撰写的。在步骤501中提及的第二种情况
下,当得到的文本数据是新闻数据时,首先对获得的新闻数据进行时效性检测,基于新闻数据发布的时间距离当前时间的时长,判定是否处于有效时长范围内,保证新闻数据的时效性,并在判定时效性符合要求后,检测是否是可识别语言撰写的,若不是,直接执行步骤503。
[0166]
步骤503:返回文本数据解析错误的提示信息。
[0167]
具体的,对于步骤501中提及的第一种情况,当确定文本数据由用户上传时,则将分析失败的原因写入日志的同时,向用户反馈文本数据解析错误的提示信息;对于步骤501中提及的第二种情况,当确定文本数据是提取的新闻数据时,则只将分析失败的原因写入日志即可,无需向用户反馈。
[0168]
步骤504:按照保存的公司名称集合和情感词集合,对文本数据进行实体提取。
[0169]
具体的,处理设备按照保存的公司名称集合和情感词集合,扫描舆情信息关联的文本数据,并提取出该文本数据中匹配的公司名称和情感词,具体的提取公司名称和情感词的过程已将在图4的流程中进行详细说明,本公开在此不再赘述。
[0170]
步骤505:判断是否提取到直接关联的公司名称,若是,执行步骤506,否则,执行步骤503。
[0171]
具体的,处理设备判断文本数据中是否提取到公司名称,若未提取到公司名称,则无法针对性的进行估价波动率的预测,故直接执行步骤503的操作,若提取出公司名称,则将公司名称出现频次最高的公司,作为该文本数据直接的关联公司。
[0172]
步骤506:根据保存的产业链图,确定与直接关联的公司存在业务关联的,文本数据间接关联的公司,并确定间接关联的公司与直接关联的公司之间的相关系数。
[0173]
具体的,处理设备确定文本数据直接关联的公司后,按照保存的产业链图谱,确定与直接关联的公司存在业务关联的间接关联的公司,并确定直接关联的公司和间接关联的公司之间的相关系数,其中,产业链图谱对应图4流程中的对象关联图谱,其生成方式已经在图4的流程中进行详细说明,在此不再赘述。
[0174]
步骤507:确定文本数据匹配的目标历史舆情信息,并获取目标历史舆情信息下的股价波动率均值。
[0175]
具体的,处理设备对文本数据进行关键词提取,生成包含有提取出的各个关键词的关键词向量,并计算关键词向量中的各个关键词,与各个历史舆情信息对应的主题词向量中的各个主题词之间的相似度,进而确定该文本数据对应的历史舆情信息,以及该目标历史舆情信息下的股价波动率均值,其中,历史事件的主题词向量的生成过程,以及确定目标历史舆情信息关联的股价波动数据的具体实现过程已经在上述的流程中进行详细说明,在此不再赘述。
[0176]
步骤508:根据股价波动率均值预测直接关联公司和间接关联公司的股价波动率。
[0177]
具体的,处理设备获取历史舆情信息关联下的股价波动率均值后,根据情感词得分确定股价波动率的波动方向,以及借助于设置的冲击参数,计算直接关联的公司的股价波动率,并根据直接关联公司与间接关联公司之间的相关系数,预测间接关联公司的股价波动率。
[0178]
步骤509:向用户推送股价波动情况的预测结果。
[0179]
具体的,处理设备预测得到直接关联公司和间接关联公司的股价波动率后,对于
用户上传的文本数据,则实时向用户反馈预测结果,对于新闻数据的预测结果,则根据设置的推送时间,向关联的客户端或者网页,推送基于新闻数据的预测结果。
[0180]
例如,参阅图6所示意的呈现给用户的界面,在用户上传“xx公司总经理因食品卫生问题被约谈”的相关文件后,处理设备对该文件进行分析后,得到对于xx公司、a公司,以及b公司的股价波动率的预测情况。其中,发生波动的幅度表征历史事件发生后股价连续发生明显波动(连续上涨或下跌且不回调)的幅度,历史平均延后天数表征历史上发生该事件后股价产生显著波动(>2%或<-2%)的时间距离事件发生的时间相差的天数,历史发生次数表征该事件在历史上已经发生过的次数。
[0181]
基于同一发明构思,参阅图7所示,本公开实施例中,提出一种舆情信息的处理装置,包括:
[0182]
提取单元701,用于扫描舆情信息关联的文本数据,并提取所述文本数据中与保存的对象名称集合匹配的对象名称,以及提取与保存的情感词集合匹配的情感词;
[0183]
确定单元702,用于按照设置的对象关联图谱,从提取出的对象名称中确定所述文本数据的直接关联对象以及间接关联对象,所述对象关联图谱中至少包括各个对象之间的业务关联关系;以及,从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向;
[0184]
获取单元703,用于将所述文本数据进行分词处理后,根据出现频次超过设定阈值的各个词语,生成关键词向量,并获取保存的各个历史舆情信息关联的主题词向量,以及获取所述各个历史舆情信息关联的各个价值波动数据,其中,主题词向量中包括历史舆情信息关联的历史文本数据中出现频次超过设定门限值的各个词语;
[0185]
处理单元704,用于针对各个主题词向量中的任意一个主题词向量,计算该主题词向量中的各个主题词与所述关键词向量中的各个关键词之间的相似度;并在取值大于设定阈值的各个相似度中,筛选出最大相似度对应的目标历史舆情信息,以及基于所述目标历史舆情信息关联的价值波动数据,预测所述直接关联对象和所述间接关联对象的价值波动幅度,其中,所述价值波动幅度与所述波动参数指标之间的相关性由所述价值波动幅度的波动方向确定。
[0186]
可选的,所述扫描舆情信息关联的文本数据之前,所述提取单元701进一步用于:
[0187]
获取舆情信息关联的各个文本数据,筛选出文本数据的发布时间戳与当前时间戳之间的时间间隔,处于有效时长范围内的文本数据;
[0188]
将筛选出的文本数据中,撰写语言为可识别语言的文本数据作为待处理的,所述舆情信息关联的文本数据。
[0189]
可选的,所述按照设置的对象关联图谱,从提取出的对象名称中确定所述文本数据直接关联对象以及间接关联对象之前,所述确定单元702进一步用于:
[0190]
采用爬虫技术,爬取各个对象的产品信息,并收集所述各个对象的不同产品的供销信息,以及收集所述各个对象与各个其他对象之间的多维度影响系数,所述多维度影响系数包括业务占比、股份占比,以及资金投入占比中的至少一项;
[0191]
基于各个对象与其他对象之间的业务关联关系,以及与其他对象之间的多维度影响系数,建立对象关联图谱。
[0192]
可选的,所述从提取出的对象名称中确定所述文本数据直接关联对象以及间接关
联对象时,所述确定单元702用于:
[0193]
获取建立的所述对象关联图谱,确定与所述直接关联对象存在业务往来的各个其他对象,并获取所述直接关联对象与所述各个其他对象之间的多维度影响系数;
[0194]
将所述各个其他对象作为间接波及的间接关联对象,以及针对各个其他对象中的任意一个其他对象,分别计算该其他对象与所述直接关联对象之间多维度影响系数均值,作为该其他对象与所述直接关联对象之间的关联系数。
[0195]
可选的,所述从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向之前,所述确定单元702进一步用于:
[0196]
针对所述情感词集合中的情感词表征的舆情状态,设置对应的情感值,并确定所述文本数据中包括的各个情感词出现的频次,以及所述各个情感词的情感值,计算所述文本数据的情感得分,所述情感得分与所述各个情感词的情感值正相关,情感值随情感词所表达的,舆情状态的积极程度的降低而逐渐减小;
[0197]
所述从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向时,所述确定单元用于:
[0198]
确定所述情感得分大于设定值时,则判定所述各个情感词表征的舆情状态为积极状态,所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向为正向波动;
[0199]
确定所述情感得到小于设定值时,则可判定所述各个情感词表征的舆情状态为消极状态,所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向为负向波动。
[0200]
可选的,所述获取保存的各个历史舆情信息关联的主题词向量之前,所述获取单元703进一步用于,建立历史事件集合,具体用于:
[0201]
采用爬虫技术,抓取不同类型历史舆情信息关联的各个历史文本数据,针对任一种类型历史舆情信息下的各个历史文本数据,分别执行以下操作:
[0202]
对所述各个历史文本数据进行分词处理,根据所述各个历史文本数据中出现总频次超过预设门限值的各个词语生成该类型历史舆情信息的主题词向量,确定所述各个历史文本数据直接波及的各个历史直接关联对象;
[0203]
采用爬虫技术,抓取所述各个历史直接关联对象的价值数据,并针对所述各个历史直接关联对象中任意一个历史直接关联对象,确定该历史直接关联对象对应的历史文本数据的发布时间戳,以及确定不同设定时间段内,该历史直接关联对象的价值数据;
[0204]
针对所述不同设定时间段内的任意一个设定时间段,计算所述各个历史直接关联对象的价值波动数据;
[0205]
将计算得到的对应不同设定时间段的价值波动数据,以及所述主题词向量,作为该类型历史事件的关联数据,存储至历史事件集合。
[0206]
可选的,所述计算该主题词向量中的各个主题词与所述关键词向量中的各个关键词之间的相似度时,所述处理单元704用于:
[0207]
采用入下公式,计算该主题词向量与所述关键词向量之间的相似度:
[0208][0209]
其中,wi为关键词向量中包括的任意一个关键词,wj

为主题词向量中包括的任意一个主题词,n为关键词向量中的关键词总数,m为主题词向量中的主题词总数,sk为任意一
个主题词向量与关键词向量之间的相似度。
[0210]
可选的,所述处理单元704进一步用于:
[0211]
确定得到的各个相似度的取值均小于设定阈值时,跟踪并获取不同设定时间段内,所述直接关联对象的价值波动数据;
[0212]
将计算得到的对应不同设定时间段的价值波动数据,以及所述关键词向量,作为一个新类型的历史事件的关联数据,存储至历史事件集合。
[0213]
基于同一发明构思,参阅图8所示,舆情信息处理装置800可以为服务器或具有处理功能的终端设备。参照图8,装置800包括处理组件822,其进一步包括一个或多个处理器,以及由存储器832所代表的存储器资源,用于存储可由处理组件822的执行的指令,例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件822被配置为执行指令,以执行上述方法。
[0214]
装置800还可以包括一个电源组件826被配置为执行装置800的电源管理,一个有线或无线网络接口850被配置为将装置800连接到网络,和一个输入输出(i/o)接口858。装置800可以操作基于存储在存储器832的操作系统,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm或类似系统。
[0215]
基于同一发明构思,本公开实施例中基于舆情信息处理的实施例中提供一种存储介质,当所述存储介质中的指令由电子设备执行时,使得所述电子设备能够执行上述任一种方法。
[0216]
综上所述,本公开实施例中,扫描舆情信息关联的文本数据,并提取所述文本数据中与保存的对象名称集合匹配的对象名称,以及提取与保存的情感词集合匹配的情感词,再按照设置的对象关联图谱,从提取出的对象名称中确定所述文本数据的直接关联对象以及间接关联对象,所述对象关联图谱中至少包括各个对象之间的业务关联关系;以及,从提取的情感词表征的舆情状态,确定所述直接关联对象和所述间接关联对象的价值波动幅度的波动方向,再将所述文本数据进行分词处理后,根据出现频次超过设定阈值的各个词语,生成关键词向量,并获取保存的各个历史舆情信息关联的主题词向量,以及获取所述各个历史事件关联的各个价值波动幅度指标,其中,主题词向量中包括历史舆情信息关联的历史文本数据中出现频次超过设定门限值的各个词语,然后针对各个主题词向量中的任意一个主题词向量,计算该主题词向量中的各个主题词与所述关键词向量中的各个关键词之间的相似度;并在取值大于设定阈值的各个相似度中,筛选出最大相似度对应的目标历史舆情信息,以及基于所述目标历史舆情信息关联的价值波动数据,预测所述直接关联对象和所述间接关联对象的价值波动幅度,其中,所述价值波动幅度与所述波动参数指标之间的相关性由所述价值波动幅度的波动方向确定。这样,在对舆情信息关联的文本数据进行分析时,不仅能够对直接受到波动的直接关联对象进行分析,还能够对间接受到舆情信息影响的,与直接关联对象之间存在业务关联的间接关联对象的价值波动情况进行分析,且能够结合记录的,同类舆情信息关联的历史事件的价值波动数据,对当前受波及的对象的价值波动幅度进行预测,使得分析的结果有效性更高,且可用性更强。
[0217]
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0218]
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0219]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0220]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0221]
尽管已描述了本公开的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。
[0222]
显然,本领域的技术人员可以对本公开实施例进行各种改动和变型而不脱离本公开实施例的精神和范围。这样,倘若本公开实施例的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1