一种基于情感分析的预警方法及装置与流程

文档序号:17092583发布日期:2019-03-13 23:36阅读:196来源:国知局
一种基于情感分析的预警方法及装置与流程

本发明涉及自然语言处理技术领域,具体而言,涉及一种基于情感分析的预警方法及装置。



背景技术:

目前,当需要对企业经营状况进行分析时,一般借助债券评级机构对公司进行评级,分析公司的生产经营状况和财务状况等。传统的债券评级机构使用人工方法采集信息,这种方式存在以下问题:

滞后性:滞后性体现在两点:1)在企业出现了实质性违约后,才进行评级的下调,实时性较差。2)定期统计数据,会导致无法实时掌握企业的最新经营情况变化,市场反应速度慢。

效率低:信息由人工采集和录入,难以在第一时间发现违约的预警信号;且由于导致违约的信号可能有多个,并有不同的信息源,人工难以一一发现。



技术实现要素:

为解决上述问题,本发明实施例的目的在于提供一种基于情感分析的预警方法及装置。

第一方面,本发明实施例提供了一种基于情感分析的预警方法,包括:

实时流式确定待监测的目标实体信息,所述目标实体信息包括公司、行业、资产、证券、人物实体中的一项或多项;

从预先获取的可处理文本中提取与所述目标实体信息相关的监测信息,并对所述监测信息进行结构化处理;

对结构化处理后的所述监测信息进行情感分析,根据情感分析结果确定所述监测信息对应的违约程度;

根据所有监测信息的违约程度以及相应的权重确定所述目标实体的违约程度,在所述目标实体的违约程度达到预警值时生成预警消息。

第二方面,本发明实施例还提供了一种基于情感分析的预警装置,包括:

目标实体确定模块,用于实时流式确定待监测的目标实体信息,所述目标实体信息包括公司、行业、资产、证券、人物实体中的一项或多项;

监测信息处理模块,用于从预先获取的可处理文本中提取与所述目标实体信息相关的监测信息,并对所述监测信息进行结构化处理;

情感分析模块,用于对结构化处理后的所述监测信息进行情感分析,根据情感分析结果确定所述监测信息对应的违约程度;

预警模块,用于根据所有监测信息的违约程度以及相应的权重确定所述目标实体的违约程度,在所述目标实体的违约程度达到预警值时生成预警消息。

本发明实施例上述第一方面提供的方案中,基于目标实体信息可以从大量的目标信息源中多维度地获取可处理文本,能在全网范围对指定实体进行定向监测,监测的信息更加全面,后续预测结果更加准确;采用流式的方式实时获取目标实体信息,可以更加快速地获取目标实体信息;对监测信息进行结构化处理方便后续快速处理数据,对结构化处理后的监测信息进行情感分析可以全面确定目标实体的违约程度,从而可以有效地预测目标实体存在的风险,及时生成预警消息提醒用户。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种基于情感分析的预警方法的流程图;

图2示出了本发明实施例所提供的一种基于情感分析的预警装置的结构示意图;

图3示出了本发明实施例所提供的执行基于情感分析的预警方法的电子设备的结构示意图。

具体实施方式

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供的一种基于情感分析的预警方法,用于对用户关注的内容进行预警,参见图1所示,该方法包括:

步骤101:实时流式确定待监测的目标实体信息,目标实体信息包括公司、行业、资产、证券、人物实体中的一项或多项。

本发明实施例中,可以预设监测实体名单,该监测实体名单可以由用户自行指定生成,也可以是系统自动生成;该监测实体名单可基于需要实时维护,以使得监测实体名单中的目标实体符合用户需求。目标实体为待监测的实体,与目标实体相关的信息具体包括公司、行业、资产、证券、人物实体等。例如某公司a为目标实体时,相应的目标实体信息可以包括公司a的名称、公司a所属行业、公司a的资产信息、公司a的证券信息、公司a相关的人物实体(比如法人、股东等),通过多方面监控目标实体的相关信息,可以获取更加全面的数据,使得后续预测结果更加准确。同时,本发明实施例中采用流式的方式实时获取目标实体信息,在网站发生更新时实时爬取该网站,相比现有的批量处理方式具有更高的实时性,可以更加快速地获取目标实体信息。

步骤102:从预先获取的可处理文本中提取与目标实体信息相关的监测信息,并对监测信息进行结构化处理。

本发明实施例中,在确定目标实体后,即可定位相关的目标信息源,并从目标信息源获取相应的信息,该目标信息源可以包括官网、行业网站、门户网站、微博、微信等。从目标信息源获取到相应的信息后即可对获取到的信息进行初步处理,生成可处理文本。具体的,由于从目标信息源获取的信息可能是照片、pdf等非文本格式的内容,此时需要对该内容进行初步处理,具体可基于图像识别技术提取文本特征,识别图像中不同尺度、不同宽高比例以及不同倾斜程度的文字,生成文本格式的可处理文本,方便后续快速处理。具体的,可以使用残差神经网络作为骨干网络,结合空间金字塔采样法以及多尺度特征金字塔模型来自动提取图像文本特征,该方式能够识别图像中不同尺度、不用宽高比例以及不同倾斜程度的文字,在icdar端到端场景文本识别/多方向文本识别数据集上均获得优异的效果。

同时,可处理文本中包含大量与目标实体相关的内容,例如重复的内容等,此时需要从中提取出与目标实体相关的、有用的监测信息。同时,为了方便处理,将非结构化的监测信息转换为结构化的数据;例如,提取出的监测信息为对xx公司的新闻事件报道,对该监测信息进行结构化处理后可得到“xx公司,在xx时间,发生xx事件”的结构化数据。

步骤103:对结构化处理后的监测信息进行情感分析,根据情感分析结果确定监测信息对应的违约程度。

本发明实施例中,情感分析是指分析监测信息中的情感倾向和情感强度,根据监测信息的情感分析结果即可确定该监测信息所表示的违约程度;其中,监测信息的违约程度表示的是该监测信息所体现出的目标实体的违约可能性,监测信息的情感倾向越消极,则违约程度越高。

具体的,可以将监测信息的情感倾向可以包括:积极、消极、中性,或者包含:喜、怒、哀、乐等;情感强度表示该情感倾向所对应的强度,具体可用数值表示,比如1~10,数值越高,情感强度越高。

步骤104:根据所有监测信息的违约程度以及相应的权重确定目标实体的违约程度,在目标实体的违约程度达到预警值时生成预警消息。

本发明实施例中,每个监测信息可以设置一个权重,该权重具体可以基于该监测信息本身的参数来确定,比如监测信息的来源、发布时间、内容充实度等;信息来源越权威,监测信息权重越大;发布时间越晚,权重越大;内容越充实,权重越大。每个监测信息的违约程度均可以一定程度上表示目标实体的违约程度,综合所有监测信息即可确定相应目标实体的违约程度。当目标实体的违约程度达到预警值时,说明该目标实体具有较高的违约风险,此时可以生成预警消息以提醒用户。

本发明实施例提供的一种基于情感分析的预警方法,基于目标实体信息可以从大量的目标信息源中多维度地获取可处理文本,能在全网范围对指定实体进行定向监测,监测的信息更加全面,后续预测结果更加准确;采用流式的方式实时获取目标实体信息,可以更加快速地获取目标实体信息;对监测信息进行结构化处理方便后续快速处理数据,对结构化处理后的监测信息进行情感分析可以全面确定目标实体的违约程度,从而可以有效地预测目标实体存在的风险,及时生成预警消息提醒用户。

在上述实施例的基础上,首先通过预设的监测样本信息训练得到事件提取模型,之后基于该事件提取模型确定结构化的监测信息。具体的,步骤102“对监测信息进行结构化处理”包括步骤a1-a3:

步骤a1:预先获取监测样本信息,并确定监测样本信息的事件触发词、事件元素和事件类型。

步骤a2:根据事件触发词和事件元素生成监测样本信息的事件向量,并根据不同事件类型的监测样本信息的事件向量对事件提取模型进行分类训练,确定训练后的事件提取模型。

步骤a3:根据训练后的事件提取模型抽取监测信息中的事件触发词和事件元素,并根据监测信息的事件触发词和事件元素生成结构化的监测信息。

本发明实施例中,通过抽取监测信息中的关键信息实现信息结构化。事件抽取是信息抽取领域的一个重要研究方向。事件抽取主要把人们用自然语言表达的事件,从非结构化自然语言文本中抽取出事件的基本信息。根据定义,事件由事件触发词(trigger)和描述事件结构的元素(argument)构成。因此事件抽取有两大核心子任务:(1)事件的检测和类型识别:一般与触发词识别有关;(2)事件元素的抽取、识别:事件元素分类和打标签,确定角色。其中,事件触发词是指文本中最能体现事件发生的词语,事件元素包含了事件的属性和参与者。例如,对文本“xx公司拖欠员工工资”进行事件抽取,第一步应该将“拖欠”识别成触发词,其触发了一个“拖欠工资”类型的事件;第二步应该将“xx公司”、“员工”和“工资”识别成事件元素。

本发明实施例中,事件提取模型用于提取监测信息中的事件触发词和事件元素。在训练过程中,将监测样本信息分为不同的事件类型(比如违约、欠薪等),之后按照不同的事件类型对事件提取模型进行训练,分类训练可以使得事件提取模型更加精准。同时,本实施例用事件触发词和事件元素抽象描述监测信息,并以监测样本信息的事件触发词和事件元素(以事件向量的形式表示)训练事件提取模型,从而使得训练样本具有较高的概括性,可以解决传统机器学习方法面临的数据稀疏问题。当后续需要新增事件类型时,基于抽象概括的监测样本信息也可以快速对新增的事件类型进行训练,训练效率高。在事件提取模型训练结束后,即可根据该事件提取模型确定当前的监测信息的事件触发词和事件元素,并生成结构化的监测信息。

传统同类的事件抽取模型往往是模式匹配,它基于一定的模式(上下文约束环境),将待抽取的句子和已有的模板进行匹配,其主要缺点是需要大量手工特征模板,而且移植性较差。本发明实施例提供了以机器学习方法为主,模式匹配方法为辅的集成(ensemble)模型,可以解决机器学习方法面临的数据稀疏问题和模式匹配方法的通用性差的问题。

在上述实施例的基础上,步骤103“对结构化处理后的监测信息进行情感分析”包括:

确定监测信息中的评价对象和评价方面,确定评价对象在每个评价方面的情感分类。

以往的情感分析模型通常是简单得对某个句子或者整篇文档得到一个粗略的情感极性,但是无法对句子中情感评价的对象做更细致的分析。本发明实施例中,可以抽取出情感评价的具体方面,并给出每个方面的情感分类,具体可以采用动态注意力机制确定所述监测信息中的评价对象和评价方面。例如对“民警的初衷是好的,但是执法水平有待提高”这个句子,模型可以识别出对“民警”的评价分为“初衷”和“执法水平”两个方面,对“初衷”的情感极性为正,对“执法水平”的情感极性为负。通过确定监测信息中的评价对象和评价方面,可以细化情感分类结果,使得情感分类结果更加准确;同时,当情感分类发生错误时,也可以快速查找分类错误的原因,方便后续调整。

在上述实施例的基础上,步骤103“对结构化处理后的监测信息进行情感分析”包括:基于句法树的递归神经网络模型确定监测信息中每个词语在监测信息中的极性,并根据每个词语的极性确定监测信息的情感极性得分。

以往的情感分析的通常采用基于中文情感词典的关键词匹配技术,其缺点一是不够准确(并非包含负面词汇的语句情感都是负面的),二是粒度较粗,无法比较同样极性的句子间哪个情感强度大。本发明实施例中,采用基于句法树的递归神经网络,可以分析每个短语的极性,并且对整个句子得到一个情感极性的得分。例如对“我完全没有体会到当地政府的做法照顾到了老百姓的幸福感,获得感和参与感”,虽然句中正面词汇较多,但是基于句法树的递归神经网络模型依然能准确地识别出这句话包含了相当负面的情感极性,实现更加准确和细粒度的情感分析。

在上述实施例的基础上,该方法还包括:基于长短期记忆网络和条件随机场算法预测与监测信息对应的事件的生命周期。

趋势预测是指对社会事件的舆论热度走势进行分析和预估,预测出这个事件的生命周期的变化进程。传统方法都是通过对样本用户进行特征抽取,用“词袋模型”对单位时间片的词频变化进行估计。本发明实施例中,将深度学习算法运用到趋势预测任务上,利用lstm(长短期记忆网络)+crf(条件随机场算法)在序列建模上的优势,能够自动筛选出那些最能够体现事件生命周期的特征,在海量的微博社会热点事件的数据集上进行训练,得到的趋势预测准确率比传统的手工构建特征的方法要高。

以上详细介绍了基于情感分析的预警方法流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。

本发明实施例提供的一种基于情感分析的预警装置,参见图2所示,包括:

目标实体确定模块21,用于确定待监测的目标实体信息,所述目标实体信息包括公司、行业、资产、证券、人物实体中的一项或多项;

监测信息处理模块22,用于从预先获取的可处理文本中提取与所述目标实体信息相关的监测信息,并对所述监测信息进行结构化处理;

情感分析模块23,用于对结构化处理后的所述监测信息进行情感分析,根据情感分析结果确定所述监测信息对应的违约程度;

预警模块24,用于根据所有监测信息的违约程度以及相应的权重确定所述目标实体的违约程度,在所述目标实体的违约程度达到预警值时生成预警消息。

在上述实施例的基础上,监测信息处理模块22包括:

样本单元,用于预先获取监测样本信息,并确定监测样本信息的事件触发词、事件元素和事件类型;

训练单元,用于根据事件触发词和事件元素生成监测样本信息的事件向量,并根据不同事件类型的监测样本信息的事件向量对事件提取模型进行分类训练,确定训练后的事件提取模型;

结构化单元,用于根据训练后的事件提取模型抽取监测信息中的事件触发词和事件元素,并根据监测信息的事件触发词和事件元素生成结构化的监测信息。

在上述实施例的基础上,情感分析模块23用于:

确定监测信息中的评价对象和评价方面,并确定评价对象在每个评价方面的情感分类。

在上述实施例的基础上,情感分析模块23用于:

基于句法树的递归神经网络模型确定监测信息中每个词语在监测信息中的极性,并根据每个词语的极性确定监测信息的情感极性得分。

在上述实施例的基础上,该装置还包括:预测模块,用于基于长短期记忆网络和条件随机场算法预测与监测信息对应的事件的生命周期。

本发明实施例提供的一种基于情感分析的预警装置,基于目标实体信息可以从大量的目标信息源中多维度地获取可处理文本,能在全网范围对指定实体进行定向监测,监测的信息更加全面,后续预测结果更加准确;采用流式的方式实时获取目标实体信息,可以更加快速地获取目标实体信息;对监测信息进行结构化处理方便后续快速处理数据,对结构化处理后的监测信息进行情感分析可以全面确定目标实体的违约程度,从而可以有效地预测目标实体存在的风险,及时生成预警消息提醒用户。

本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述基于情感分析的预警方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。

其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nandflash)、固态硬盘(ssd))等。

图3示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机pc、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。

该电子设备1100包括至少一个处理器(processor)1110、通信接口(communicationsinterface)1120、存储器(memoryarray)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。

处理器1110用于执行程序。处理器1110可能是一个中央处理器cpu,或者是专用集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1130用于可执行的指令。存储器1130可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的方法。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1