识别上市企业风险的方法、装置、电子设备及存储介质

文档序号:32162813发布日期:2022-11-12 03:15阅读:64来源:国知局
识别上市企业风险的方法、装置、电子设备及存储介质

1.本技术涉及人工智能技术领域,具体涉及一种识别上市企业风险的方法、装置、电子设备及存储介质。


背景技术:

2.近年来新冠疫情肆虐,全球经济下行压力持续加大,通胀压力持续上升,以能源品为代表的关键物资陷入短缺,国际供应链出现局部瘫痪,全球经济环境面临着诸多挑战。与此同时,国内市场竞争日趋激烈,人才流失日益严重,上市公司存在的信用违约、股价动荡、债券波动等风险因素持续增加,投资者对上市公司进行风险评估的要求也不断提高。2012年,中国证监会发布了《公开发行证券的公司信息披露内容与格式准则第2号》,规定上市公司必须在年报中披露可能会对企业未来发展产生不利影响的风险因素。研究表明,企业年报中披露的风险因素具有前瞻性,反映了公司未来的发展状况,描述了企业在经营过程中可能面对的风险;其中,风险因素文本包含了大量的风险术语,为投资者对企业进行风险评估提供了结构化的知识单元,能够给投资者提供更多的特质信息,缓解投资者与企业之间的信息不对称,帮助投资者进行决策;因此,如何有效地从企业年报中自动抽取风险术语显得尤为重要。
3.术语抽取(term extraction)是自然语言处理(natural language processing,nlp)领域的研究热点,在文本分类、机器翻译、知识图谱等领域发挥着重要的作用。目前,针对术语抽取的研究可分为基于文本统计分布特征的传统方法以及基于深度学习的方法;传统方法通过采集术语的上下文词语共现特征来对术语进行识别,该方法通用性较高,无需标注数据,但准确率较低,需要人工制定大量模板,容易产生噪声词,如:n-gram、互信息与左右熵;然而在深度学习领域,术语抽取通常被认为是命名实体识别(named entity recognition,ner)任务,可以使用序列标注(sequence labelling)的方法来解决,该方法利用现有。的神经网络模型结合分布式特征能够自动地抽取术语,其准确率高,无需复杂的特征工程,是当今的发展趋势。风险术语在实体类别、实体结构、实体长度上与命名实体识别任务通用词库有所不同;在实体类别方面,风险术语囊括该领域内与“风险”相关的实体,如:商誉减值、贸易摩擦、黑客攻击等实体,并且在企业风险领域并未发现有统一的术语库;在实体结构与实体长度方面,风险术语可能由多个字词构成,存在多种表达方式,导致实体边界难以划分,例如:风险术语不仅有着“名词”以及“名词+名词”构成的实体结构,而且更多以“名词+动词”组成的短语形式出现。
4.风险术语抽取方法的研究因其领域性强,缺乏统一标准,需要对文本进行大量分析,富有挑战性。于是,本文一方面对风险术语抽取的研究进行回顾,另一方面对现有使用深度学习方法进行术语抽取的研究进行阐述。
5.1、风险术语抽取方法研究
6.风险信息可以根据企业所处地区的政治、市场等环境因素,并结合自身的财务以及经营状况,对企业未来的生存发展敲响预警。通过回顾已有的文献发现,现有的风险术语
抽取方法可以归纳为基于统计、基于规则以及两者相结合的传统方法。campbell j l等使用基于统计的方法度量风险文本的信息量,利用不同风险类别下的关键词数量等统计量对信息含量进行表征。胡小荣等提出基于多因素拟合的风险短语识别技术,利用互信息与左右熵相结合的方法对环保行业不用风险主题下的风险短语进行抽取。梁娜等提出基于三重维度的方法抽取企业风险信息,以抽取风险文本小标题作为一维信息;把使用改进后的hanlp新词发现算法对风险短语进行识别的结果作为二维信息;利用百科实体词库替换jieba自带的词典来优化分词效果,并把该风险短语抽取结果作为三维信息;该方法对风险短语抽取的准确率达到了80.6%。牛高鸣等提出一种上市公司风险披露量化方法,利用百科词典抽取实体词,在统计实体词及其词频后,通过使用文本向量化的方法把实体词表征为风险向量,利用回归方程计算企业的信息含量,得出不同行业的企业风险信息披露水平。唐晓波等提出基于风险短语挖掘的知识聚合模型,使用n-gram算法挖掘年报中的风险短语,利用基于统计与基于规则的方法来过滤风险短语,使用聚类分析、知识检索和共现分析等技术进行多形式的知识聚合。杨墨等使用本文分析技术,通过正则表达式抽取公司年报风险段落,把风险关键词作为指标度量年报风险的披露程度,以2012年到2018年国内a股上市公司作为样本进行研究,实证检验了股票流动性水平和风险信息披露之间的关系。
7.目前,大多数学者使用传统方法抽取风险术语,该方法需根据文本结构与短语特征人工制定大量规则,容易丢失上下文语义信息,无法自动抽取风险术语。
8.2、深度学习术语抽取方法研究
9.近年来,深度学习发展迅猛,随着有时序特点的循环神经网络(recurrent neural network,rnn)、长短时记忆网络(long short-term memory,lstm)等模型的出现,命名实体识别逐渐成为当今学者们研究的焦点,术语抽取可以使用命名实体识别的研究思路和方法来解决。
10.huang等提出了把bilstm与crf模型进行结合,在connll2003英文语料数据集上进行实验,f1值达到了88.83%,bilstm-crf模型随之成为了深度学习领域的经典模型,被广泛应用于命名实体识别任务。2013年google提出了word2vec词嵌入模型,该模型把文本转化为词级的嵌入向量,能够表征一义多词,有效地提升了nlp领域中“词级”和“句子级”任务的效果,但是仍然存在一词多义问题。肖瑞等构建了基于bilstm-crf的中医医案文本命名实体识别模型,在中医医案文本数据集上标记了疾病、症状和中草药三种类别,基于word2vec构建词向量,通过bilstm-crf输出结果,f1值达到了88.34%,推动了中医药文本挖掘的发展。注意力机制与人类集中注意力观察某项事物相类似,通过权重分配机制来关注重要的信息;注意力机制首先在图像领域得到了广泛的应用,随之融入注意力机制的神经网络在nlp领域也逐渐成为了学者们的研究热点。马建红等为了提升术语抽取在新能源汽车领域的准确率,在新能源汽车专利文本上使用blstm+attention+crf模型进行术语抽取,并使用规则与词典相结合的方法来矫正结果,获得了85.83%的f1值,提供了切实有效地自动抽取新能源汽车领域术语的方法。2018年peters m e等提出了elmo(embeddings from language models)模型,与word2vec获得的静态词级向量相比,elmo把文本表示为动态字符级向量,该模型的提出更好地解决了一词多义问题。在此基础上,2018年10月devlin等提出了一种基于transforme架构的预训练语言模型bert(bidirectional encoder representations from transformers),该模型使用的transformer架构能够更强地捕捉
句子中的上下文语义关系,越来越多的学者使用预训练模型bert把文本表征为字符级嵌入向量,在众多nlp下游任务中的性能得到了大幅度提升。吴俊等为了提高中文专业术语识别的准确率,提出了基于bert嵌入bilstm+crf的中文专业术语抽取模型,在构建的1278条深度学习数据集上进行实验,该模型对术语抽取的f1值达到了92.96%,为广大研究者使用深度神经网络模型进行专业领域术语抽取提供了实践指南。熊欣等针对方志资源的知识价值利用率极其有限的现状,构建了融合迁移学习的bert+bilstm+crf方志知识图谱术语抽取模型,通过远程监督实现源域标注语料到目标域方志文本的知识迁移,实验f1值达到了86.22%,解决了方志知识图谱术语自动抽取的问题和缺乏大规模标注语料的冷启动问题。孙甜等提出了基于bert+bilstm+crf的新能源专利术语抽取模型,以自建的3002条新能源领域专利文本为语料进行实验,获得了92.28%的f1值,能够识别字符较多的长序列新能源专利术语,实现了新能源领域术语库的构建,为提高新能源领域专利文本的翻译质量打下基础。2019年yinhan liu等提出了基于全词掩盖技术的预训练语言模型roberta-wwm,该模型的网络结构与bert一致,使用了更大的参数和更多的数据进行训练得到,在一些nlp下游任务中效果比bert更好。郭瑞等针对bert模型以字为粒度进行切分仅能获取字信息且模型鲁棒性差的问题,提出了一种基于roberta-wwm-bilstm-crf和对抗训练的中文医疗命名实体识别模型,在使用roberta-wwm-ext-large预训练模型生成初始向量表示后添加一些扰动来生成对抗样本,然后依次输入bilstm神经网络和crf模型中得到预测结果,在ccks2019数据集和resume数据集上f1值分别达到了88.96%和97.14%,实验结果证明了模型的有效性。
11.综上所述,基于深度学习的方法在专业领域进行术语抽取逐渐受到学者们的关注,其准确率高,模型泛化能力强,是未来的发展趋势。因此,本文使用基于深度学习的方法来自动抽取风险术语,解决传统方法准确率低、耗费大量人力制定特征模板的问题。
12.以上传统的风险信息抽取方法存在以下技术问题:
13.目前,大多数学者使用传统方法抽取风险信息,该方法需根据文本结构与短语特征人工制定大量规则,容易产生噪声词,丢失上下文语义信息。大多数学者使用传统方法抽取风险信息准确率低。
14.也即,现有技术中识别上市企业风险的方法准确度比较低。


技术实现要素:

15.本技术旨在提供一种识别上市企业风险的方法、装置、电子设备及存储介质,旨在解决现有技术中识别上市企业风险的方法准确度比较低的问题。
16.一方面,本技术提供一种识别上市企业风险的方法,所述识别上市企业风险的方法包括:
17.获取待识别上市企业句子文本;
18.将待识别上市企业句子文本输入预设风险信息抽取模型中的roberta-wwm模块,得到包含上下文语义信息的字符级向量;
19.将所述字符级向量输入预设风险信息抽取模型中的bilstm模块,得到双向语义特征向量;
20.将字符级向量和双向语义特征向量输入预设风险信息抽取模型的attention模块
中进行特征融合,得到调整权重后的句子文本特征向量;
21.将所述句子文本特征向量输入crf模块,得到预测序列结果。
22.可选地,所述获取待识别上市企业句子文本,之前,包括:
23.获取历史年份的多个第一上市企业年报数据;
24.将多个第一上市企业年报数据中名称包含预设标识的第一上市企业年报数据剔除,得到多个第二上市企业年报数据;
25.根据多个第二上市企业年报数据对所述预设风险信息抽取模型进行训练。
26.可选地,所述根据多个第二上市企业年报数据对所述预设风险信息抽取模型进行训练,包括:
27.将多个第二上市企业年报数据中每个第二上市企业年报数据中的第一章节和第四章节的内容保留,得到多个第三上市企业年报数据;
28.根据多个第三上市企业年报数据对所述预设风险信息抽取模型进行训练。
29.可选地,所述根据多个第三上市企业年报数据对所述预设风险信息抽取模型进行训练,包括:
30.获取多个第三上市企业年报数据中各个章节下的标题文本,得到风险文本数据集;
31.基于预设的风险短语分类规则和bio三元标记法使用yedda轻量级协作文本跨度注释工具对风险文本数据集进行风险短语标注,得到标注文本数据集;
32.基于所述标注文本数据集对所述预设风险信息抽取模型进行训练。
33.可选地,所述基于所述标注文本数据集对所述预设风险信息抽取模型进行训练,包括:
34.按预设比例将标注文本数据集分为训练集、验证集和测试集;
35.根据训练集、验证集和测试集对所述预设风险信息抽取模型进行训练;
36.根据精确率、召回率、f1值对预设风险信息抽取模型进行评估。
37.可选地,对所述预设风险信息抽取模型进行训练的训练参数包括:batch_size设为16,dropout设为0.5,学习率设为3e-5,epochs设为64轮,采用adam优化器。
38.可选地,所述roberta-wwm-ext模型一共12层transformer,bilstm的隐藏层为128维。
39.一方面,本技术提供一种识别上市企业风险的装置,所述识别上市企业风险的装置包括:
40.文本获取单元,用于获取待识别上市企业句子文本;
41.字符级获取单元,用于将待识别上市企业句子文本输入预设风险信息抽取模型中的roberta-wwm模块,得到包含上下文语义信息的字符级向量;
42.双向语义获取单元,用于将所述字符级向量输入预设风险信息抽取模型中的bilstm模块,得到双向语义特征向量;
43.权重调整单元,用于将字符级向量和双向语义特征向量输入预设风险信息抽取模型的attention模块中进行特征融合,得到调整权重后的句子文本特征向量;
44.预测单元,用于将所述句子文本特征向量输入crf模块,得到预测序列结果。
45.可选地,所述文本获取单元,用于:
46.获取历史年份的多个第一上市企业年报数据;
47.将多个第一上市企业年报数据中名称包含预设标识的第一上市企业年报数据剔除,得到多个第二上市企业年报数据;
48.根据多个第二上市企业年报数据对所述预设风险信息抽取模型进行训练。
49.可选地,所述文本获取单元,用于:
50.将多个第二上市企业年报数据中每个第二上市企业年报数据中的第一章节和第四章节的内容保留,得到多个第三上市企业年报数据;
51.根据多个第三上市企业年报数据对所述预设风险信息抽取模型进行训练。
52.可选地,所述文本获取单元,用于:
53.获取多个第三上市企业年报数据中各个章节下的标题文本,得到风险文本数据集;
54.基于预设的风险短语分类规则和bio三元标记法使用yedda轻量级协作文本跨度注释工具对风险文本数据集进行风险短语标注,得到标注文本数据集;
55.基于所述标注文本数据集对所述预设风险信息抽取模型进行训练。
56.可选地,所述文本获取单元,用于:
57.按预设比例将标注文本数据集分为训练集、验证集和测试集;
58.根据训练集、验证集和测试集对所述预设风险信息抽取模型进行训练;
59.根据精确率、召回率、f1值对预设风险信息抽取模型进行评估。
60.可选地,对所述预设风险信息抽取模型进行训练的训练参数包括:batch_size设为16,dropout设为0.5,学习率设为3e-5,epochs设为64轮,采用adam优化器。
61.可选地,所述roberta-wwm-ext模型一共12层transformer,bilstm的隐藏层为128维。
62.一方面,本技术还提供一种电子设备,所述电子设备包括:
63.一个或多个处理器;
64.存储器;以及
65.一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面中任一项所述的识别上市企业风险的方法。
66.一方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行第一方面任一项所述的识别上市企业风险的方法中的步骤。
67.本技术提供一种识别上市企业风险的方法,该识别上市企业风险的方法包括:获取待识别上市企业句子文本;将待识别上市企业句子文本输入预设风险信息抽取模型中的roberta-wwm模块,得到包含上下文语义信息的字符级向量;将字符级向量输入预设风险信息抽取模型中的bilstm模块,得到双向语义特征向量;将字符级向量和双向语义特征向量输入预设风险信息抽取模型的attention模块中进行特征融合,得到调整权重后的句子文本特征向量;将句子文本特征向量输入crf模块,得到预测序列结果。本技术可以提高识别上市企业风险的方法准确度。
68.因此,针对风险术语边界难以划分且传统方法无法自动抽取风险术语的问题,本技术提出一种基于roberta-wwm-bilstm-ff-att-crf特征融合的神经网络模型来抽取风险
术语;首先,通过基于全词遮盖技术的预训练语言模型roberta-wwm把风险文本转化为富含上下文语义信息的字符级嵌入向量;其次,把向量输入到双向长短时记忆网络(bi-directional long-short term memory,bilstm)中获得长距离的双向特征表示;然后,通过注意力机制(attention,att)对roberta层和bilstm层的输出进行特征融合(feature fusion,ff),赋予风险术语更高的权重;最后,使用条件随机场(conditional random field,crf)对注意力机制层的输出进行约束,得到最佳预测序列。本文在自建的2019年a股上市公司信息行业年报中的风险文本数据集上对模型进行验证;结果表明,该模型对风险术语抽取的f1值达到了93.02%,能够有效地抽取风险术语,对构建风险领域术语库发挥了重要作用。
69.本文主要有以下三点贡献:
70.(1)基于风险术语的特点,提出了一种风险术语实体命名方案,并构建了一个细度的风险术语数据集。
71.(2)摒弃了以往简单的传统文本预处理方法,创新性地使用基于bert改进的预训练语言模型roberta-wwm对风险文本进行预处理,该模型能够更加深入地抽取上下文特征,提高风险文本预处理效果。
72.(3)在风险术语抽取任务中,本文提出了基于roberta-wwm-bilstm-ff-att-crf风险术语抽取模型,采用注意力机制对富含不同信息的向量进行特征融合,以赋予风险术语更高的权重,有效地解决了风险术语边界难以划分,传统方法依赖人工制定大量规则费时费力且无法自动抽取风险术语的问题。
附图说明
73.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
74.图1为本技术实施例所提供的识别上市企业风险的系统的场景示意图;
75.图2是本技术实施例提供的识别上市企业风险的方法的一个实施例流程示意图;
76.图3是本技术实施例提供的预设风险信息抽取模型的一个实施例结构示意图;
77.图4是本技术实施例中提供的识别上市企业风险的方法一个实施例中风险短语的分类示意图;
78.图5是风险短语实体的标注示例;
79.图6是划分后的训练集、验证集和测试集;
80.图7是根据训练集、验证集和测试集对预设风险信息抽取模型进行训练的训练参数;
81.图8是对预设风险信息抽取模型进行训练的流程示意图;
82.图9是预设风险信息抽取模型的第一效果对比示意图;
83.图10是预设风险信息抽取模型的第二效果对比示意图;
84.图11是bert模型的输入向量表示;
85.图12是roberta-wwm的全词掩码示例;
86.图13是lstm模块的结构示意图;
87.图14是本技术实施例中提供的识别上市企业风险的装置一个实施例结构示意图;
88.图15是本技术实施例中提供的电子设备的一个实施例结构示意图;
89.图16为风险术语可视化结果。
具体实施方式
90.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
91.在本技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
92.在本技术中,“示例性”一词用来表示“用作例子、例证或说明”。本技术中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本技术,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本技术。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本技术的描述变得晦涩。因此,本技术并非旨在限于所示的实施例,而是与符合本技术所公开的原理和特征的最广范围相一致。
93.需要说明的是,本技术实施例方法由于是在电子设备中执行,各电子设备的处理对象均以数据或信息的形式存在,例如时间,实质为时间信息,可以理解的是,后续实施例中若提及尺寸、数量、位置等,均为对应的数据存在,以便电子设备进行处理,具体此处不作赘述。
94.本技术实施例提供一种识别上市企业风险的方法、装置、电子设备及存储介质,以下分别进行详细说明。
95.请参阅图1,图1为本技术实施例所提供的识别上市企业风险的系统的场景示意图,该识别上市企业风险的系统可以包括电子设备100,电子设备100中集成有识别上市企业风险的装置,如图1中的电子设备。
96.本技术实施例中,该电子设备100可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本技术实施例中所描述的电子设备100,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(cloud computing)的大量计算机或网络服务器构成。
97.本领域技术人员可以理解,图1中示出的应用环境,仅仅是本技术方案的一种应用
场景,并不构成对本技术方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的电子设备,例如图1中仅示出1个电子设备,可以理解的,该识别上市企业风险的系统还可以包括一个或多个其他服务器,具体此处不作限定。
98.另外,如图1所示,该识别上市企业风险的系统还可以包括存储器200,用于存储数据。
99.需要说明的是,图1所示的识别上市企业风险的系统的场景示意图仅仅是一个示例,本技术实施例描述的识别上市企业风险的系统以及场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着识别上市企业风险的系统的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
100.首先,本技术实施例中提供一种识别上市企业风险的方法,该识别上市企业风险的方法的执行主体为识别上市企业风险的装置,该识别上市企业风险的装置应用于电子设备,该识别上市企业风险的方法包括:获取待识别上市企业句子文本;将待识别上市企业句子文本输入预设风险信息抽取模型中的roberta-wwm模块,得到包含上下文语义信息的字符级向量;将字符级向量输入预设风险信息抽取模型中的bilstm模块,得到双向语义特征向量;将字符级向量和双向语义特征向量输入预设风险信息抽取模型的attention模块中进行特征融合,得到调整权重后的句子文本特征向量;将句子文本特征向量输入crf模块,得到预测序列结果。
101.参阅图2,图2是本技术实施例提供的识别上市企业风险的方法的一个实施例流程示意图。结合图2和图3,该识别上市企业风险的方法包括:
102.s201、获取待识别上市企业句子文本。
103.例如,上市企业句子文本为:“人才流失和伴随人才流失带来的技术流失”。
104.参阅图8,在一个具体的实施例中,获取待识别上市企业句子文本,之前,可以包括:
105.(1)获取历史年份的多个第一上市企业年报数据。
106.例如,历史年份为2019年,使用爬虫网络从网上爬取2019年a股上市公司信息行业的多个年度报告,得到多个第一上市企业年报数据。
107.(2)将多个第一上市企业年报数据中名称包含预设标识的第一上市企业年报数据剔除,得到多个第二上市企业年报数据。
108.首先对多个第一上市企业年报数据进行筛选,将多个第一上市企业年报数据中名称包含预设标识的第一上市企业年报数据剔除,得到多个第二上市企业年报数据。其中,预设标识可以为st,某个第一上市企业年报数据中带有st代表该公司有退市风险,经营情况不佳。考虑到实验样本的一致性且名称带有st的年报数量较少,剔除年报名称带有st的年报和无风险文本的上市企业年报数据后,得到共272个第二上市企业年报数据。
109.(3)根据多个第二上市企业年报数据对预设风险信息抽取模型进行训练。
110.在一个具体的实施例中,根据多个第二上市企业年报数据对预设风险信息抽取模型进行训练,可以包括:
111.(1)将多个第二上市企业年报数据中每个第二上市企业年报数据中的第一章节和第四章节的内容保留,得到多个第三上市企业年报数据。
112.接着对年报内容进行仔细阅读,归纳风险文本披露规律:在年报第一章节重要提示、目录和释义下进行披露。在年报第四章节经营情况讨论与分析下的公司未来发展的展望里进行披露。
113.(2)根据多个第三上市企业年报数据对预设风险信息抽取模型进行训练。
114.在一个具体的实施例中,根据多个第三上市企业年报数据对预设风险信息抽取模型进行训练,可以包括:
115.(1)获取多个第三上市企业年报数据中各个章节下的标题文本,得到风险文本数据集。
116.年报文本篇幅逐年递增,本文实验所用年报篇幅均在200页左右,风险文本的抽取工作难度较大,本文根据风险文本披露规律使用逐级抽取的方式进行风险文本的提取。首先,本文根据风险文本披露规律发现,一级标题“重要提示、目录和释义”、“经营情况讨论与分析”和二级标题“公司未来发展的展望”表述较为固定,使用正则表达式对该标题进行定位,提取该标题下的文本,缩小风险文本所在的位置范围;其次,风险文本标题通常以“面临的风险和解决措施”、“风险因素”、“可能面临的风险及应对措施”和“可能面对的风险”等多种形式进行表达,然而风险文本标题编号较为固定,通常以“四”与“(三)”等三级标题的形式出现,因此本文使用正则表达式以及编写规则定位三级标题编号,对三级标题里含有“风险”词语的标题进行匹配,抽取该标题下的风险文本,对少量使用该方法未成功抽取风险文本的样本进行人工提取。风险短语因其领域性强,表达方式存在多样性,实体结构复杂,难以划分实体边界,无统一的命名方法和术语库等特点,需要对实体类别进行合理划分,流程如下:抽取风险文本小标题,风险文本小标题为风险字段的总括。使用jieba中文分词工具对风险小标题进行分词并统计词频。对分词后的结果进行排序,人工进行分类。本技术把风险短语分为九类,反虚假财务报告委员会下属发起组织委员会(coso)于2004年发布了《企业风险管理-综合框架》,该框架指导企业如何管理风险;然而,在发展过程中,风险愈发复杂,新兴风险不断涌出,coso于2017年9月发布《企业风险管理-战略与绩效的整合》更新框架,其中完善了风险评估与排序等内容,本文基于以上文件以及风险小标题的排序结果,根据信息行业的特点把风险术语分为九类,结果如图4所示。
117.(2)基于预设的风险短语分类规则和bio三元标记法使用yedda轻量级协作文本跨度注释工具对风险文本数据集进行风险短语标注,得到标注文本数据集。
118.为了提升标注效率,本文使用yedda1轻量级协作文本跨度注释工具对数据集进行标注,该软件几乎适用于所有语言、符号甚至表情符号等,支持快速注释,包含智能推荐等功能。本文采用bio三元标记法对数据集进行标注,b表示实体的首个字符,i表示实体除首字符外的其他字符,o表示非实体的字符,图5给出了风险短语实体的标注示例。
119.(3)基于标注文本数据集对预设风险信息抽取模型进行训练。
120.在一个具体的实施例中,基于标注文本数据集对预设风险信息抽取模型进行训练,可以包括:
121.(1)按预设比例将标注文本数据集分为训练集、验证集和测试集。
122.在一个具体的实施例中,预设比例为8∶1∶1。对数据集进行标注后,按照8∶1∶1比例划分为训练集、验证集和测试集,图6给出了划分后的训练集、验证集和测试集。
123.(2)根据训练集、验证集和测试集对预设风险信息抽取模型进行训练。
124.本技术实施例中,根据训练集、验证集和测试集对预设风险信息抽取模型进行训练的训练参数如图7所示。
125.根据训练集、验证集和测试集对预设风险信息抽取模型进行训练的训练参数:实验的bert嵌入层采用roberta-wwm-ext模型],transformer有12层,隐藏层为768维。训练时,bilstm隐藏层为128维,最大序列长度设为128,batch_size设为16,dropout设为0.5,学习率设为3e-5,epochs设为64,采用adam优化器最小化模型损失。
126.(3)根据精确率、召回率、f1值对预设风险信息抽取模型进行评估。
127.具体的,采用精确率(p)、召回率(r)、f1值(f1)作为企业风险信息抽取模型的评价指标,精确率表示预测为正的正确样本占所有预测为正的样本的比例,召回率表示预测为正的正确样本占所有样本中实际为正的比例,f1值(f1)为精确度和召回率的调和平均值,计算公式如下:
[0128][0129][0130][0131]
其中,tp为正确标签识别为正确标签的实体数量,fp为错误标签识别为正确标签的实体数量,fn为正确标签识别为错误标签的实体数量。
[0132]
为评估本文提出的基于roberta-wwm-bilstm-ff-att-crf的风险术语抽取模型的有效性,使用bert+bilstm+crf、roberta-wwm+crf、roberta-wwm+bilstm+crf、roberta-wwm+bilstm+att+crf模型进行对比实验,结果如图9和图10所示。
[0133]
bert模型使用字符级嵌入的方法替换了传统word2vec等模型的词级嵌入,增强了向量的位置信息与语义信息,能够表征同一个字词在不同语境的不同含义;bilstm网络能够抽取长距离上下文语义特征,利用基于统计的crf模型能够对结果进行约束,从实体的顺序性和逻辑性上使得“人才流失”和“技术流失”不被拆分成“人才”、“流失”和“技术”、“流失”,从而避免不再需要细分的词被细分;实验结果显示,bert+bilstm+crf模型的f1值达到了91.68%。本文使用roberta-wwm模型代替bert进行预训练,从实验结果可以看出,roberta-wwm+crf和roberta-wwm+bilstm+crf模型的f1值分别为92.15%和92.49%,相比于bert+bilstm+crf模型f1值分别提高了0.47%和0.81%,roberta-wwm+crf模型在没有使用bilstm网络进一步抽取上下文语义特征的情况下,效果依然比bert模型更优,表明roberta-wwm模型能够比bert获得更加丰富的语义信息,roberta-wwm模型更适用于风险术语抽取任务。
[0134]
注意力机制通过给重要的字词赋予更高的权重来提升模型的实体识别效果;例如,句子“人才流失和伴随人才流失带来的技术流失”中“人才流失”和“技术流失”作为风险术语会被赋予更高的权重,提升风险术语的识别效果,roberta-wwm+bilstm+att+crf模型把bilstm的输出输入到注意力机制后f1值提高了0.27%,达到了92.76%,融入注意力机制在一定程度上提高了模型的性能。roberta-wwm+bilstm+ff-att+crf模型把bert层得到的富含语义信息与位置信息的向量和bilstm层获得的更深层次上下文特征向量输入到注意
力机制进行特征融合后,使得bert层以及bilstm层获得的信息被充分利用;实验结果表明,该模型的f1值达到了93.02%,在此次实验中获得了最好的结果。
[0135]
目前在企业风险领域没有一个官方的风险术语库,本文数据标注依然采用的是人工标注的方法,需要进行反复的人工校对降低误差。本文提出的方法可用于风险术语库的构建;一方面,风险术语库能够帮助学者使用词典匹配法进行风险术语的自动标注,减少时间成本,降低人工误差;另一方面,风险术语库能够帮助投资者在大样本中快速掌握企业可能面对的风险,帮助投资者对企业进行风险评估,以应对当今严峻的经济形势。图16为风险术语可视化结果。
[0136]
本文提出了一种端到端的不依赖复杂特征工程,基于roberta-wwm-bilstm-att-crf特征融合的风险术语抽取模型,在命名实体识别领域主流模型bert-bilstm-crf的基础上使用bert的改进模型roberta-wwm进行预训练,以获得更强的上下文特征表示,接着通过bilstm模型进一步捕捉长距离的上下文语义信息,然后通过注意力机制动态融合roberta层以及bilstm层获得的特征,赋予风险术语更高的权重,最后使用crf模型进行解码,得到最佳预测序列。通过在自建的风险文本数据集上进行试验检验,该模型的精确度达到了92.41%,召回率达到了93.64%,f1值达到了93.02%;风险术语抽取结果表明,本文提出的模型对风险术语有较好的识别效果。本文提出的方法有效地解决了风险术语边界难以划分、传统方法无法自动抽取风险术语且需要人工制定大量特征模板的问题,给投资者对企业进行风险评估提供便捷,为构建企业风险领域术语库提供了实践指南。后续的研究可以进一步扩大语料规模,优化风险术语分类和标注方案,引入bigru等其他神经网络模型与roberta-wwm相结合进行性能对比,进一步提升企业风险术语抽取效果。
[0137]
s202、将待识别上市企业句子文本输入预设风险信息抽取模型中的roberta-wwm模块,得到包含上下文语义信息的字符级向量。
[0138]
具体的,roberta-wwm模块为roberta-wwm模型。roberta-wwm模型是以bert为基础进行改进的预训练语言模型模型。bert的输入为多个句子组成的线性序列,其中,首个句子的开头用标识符[cls]进行标识,句子间和最后一个句子的末尾用分隔符[sep]进行标识;线性序列的向量表示由标记嵌入向量(token embeddings)、句子嵌入向量(segment embeddings)以及位置嵌入向量(position embeddings)拼接而成,标记嵌入向量记录了每个单词划分的信息,句子嵌入向量表征句子间的区分,把句子级的特征赋予句中的每个单词,位置嵌入向量通过编码获得位置信息,表征单词在序列中的顺序,如图11所示。图11是bert模型的输入向量表示。此外,bert模型还提出了“掩码语言模型(masked language model)”任务和“下一句预测(next sentence prediction)”任务。掩码语言模型采用了一种类似于“完形填空”的做法,随机对序列中15%的信息进行遮蔽,通过被遮蔽单词周围的上下文信息对遮蔽单词进行预测,使该单词获得全局语境特征。下一句预测任务用来判断序列中随机输入的下个句子与上个句子是否相邻,从而获得句子间的关系,该任务在问答(question answer,qa)等领域作用较大。
[0139]
roberta模型作为bert的改进模型有着以下三点改进:
[0140]
(1)提出全词遮盖技术。bert的遮盖技术采用的是静态遮蔽策略,在预处理过程中从每个序列随机遮蔽一些字符,并在每一轮训练中保持遮蔽字符不变持续到所有训练结束。roberta模型使用了动态遮蔽策略以及全词掩盖技术(whole word mask,wwm),动态遮
蔽策略每次向模型输入一个序列时,会生成一种新的遮蔽方式;与bert基于字符的遮盖技术相比,roberta模型提出的全词遮盖技术会对组成同一个词语的字符全部进行遮蔽。如下图12所示。图12是roberta-wwm的全词掩码示例。
[0141]
(2)提出bert的重新实现。roberta模型使用了更大的模型参数量,增加了batch_size维度,使用了更多的数据进行训练得到。
[0142]
(3)取消了下一句预测(nsp)任务。bert模型在训练前使用了nsp任务,每次只输入2个句子a和b,b有50%的概率为a的下一个句子,以此来判断句子a和b是否连续;roberta模型每次输入多个连续句子,直到token总数达到512。
[0143]
众多实验结果表明,roberta模型在下游任务的性能上能够与bert模型持平甚至略高。
[0144]
s203、将字符级向量输入预设风险信息抽取模型中的bilstm模块,得到双向语义特征向量。
[0145]
lstm网络是循环神经网络rnn(recurrent neural network)的一种变体,与rnn的区别在于它解决了rnn训练阶段由于序列过长导致的梯度爆炸以及梯度消失问题。lstm使用了门控单元和记忆机制来捕捉长距离的历史顺序信息,同时实现信息的管理和控制。门控单元包括输入门、遗忘门、输出门,lstm模型图如图13所示。
[0146]
输入门i
t
决定信息的保留与存储:
[0147]it
=σ(wi·
[h
t-1
,x
t
]+bi)
[0148]
遗忘门f
t
决定了信息的丢弃:
[0149]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
[0150]
输出门o
t
决定信息的输出:
[0151]ot
=σ(wo·
[h
t-1
,x
t
]+bo)
[0152]st
=tanh(ws·
[h
t-1
,x
t
]+bs)
[0153]
其中,σ表示sigmoid激活函数,w和b分别表示对应门控单元的权重矩阵和偏置向量,x
t
是当前单位的输入,s
t
表示在时刻更新的状态,tanh为双曲正切激活函数。
[0154]
记忆机制分为长期记忆与短期记忆,短期记忆h
t
为t时刻的输出,长期记忆c
t
保存当前单元的状态输入到下一单元:
[0155]ct
=f
t
*c
t-1
+i
t
*s
t
[0156]ht
=o
t
*tanh(c
t
)
[0157]
lstm网络无法从后向前编辑文本,忽略了上下文信息。bilstm网络为前向lstm(从前向后递归)与后向lstm(从后向前递归)的结合,不仅充分利用了当前的语义特征,而且可以从双向捕捉上下文信息,有效解决了长期依赖和短期依赖问题;例如,bilstm网络可以使风险短语“人才流失”中的“才”字获得前一个字“人”和后一个字“流”的特征信息。因此,本文使用bilstm模型计算双向的隐层表示并进行拼接,捕捉双向的语义信息,从而提升风险短语抽取性能。
[0158]
s204、将字符级向量和双向语义特征向量输入预设风险信息抽取模型的attention模块中进行特征融合,得到调整权重后的句子文本特征向量。
[0159]
注意力机制来源于人类观察事物时聚焦在所关注点上的状态,忽略关注点以外的其他特征。注意力机制首先被用于图像领域,提高图像分类准确率,改善图像分割性能。注
意力机制本质上是对权重进行分配,计算词与词之间的相似性,得到词语的结构特点。在自然语言处理领域中,注意力机制能够给重要的文字赋予更高的权重,其他文字赋予更低的权重,提高识别特定文字的能力。本文使用缩放点积注意力机制进行实验,通过点积计算相似度来获取句子层面的信息:
[0160][0161]
其中,q为查询向量、k为键向量、v为值向量,dk为输入到注意机制层的词向量维度,除以可以避免由于qk
t
维度太大而导致softmax函数的结果梯度较小的情况发生。当bilstm层的输出直接作为注意力机制层的输入时q=k=v,此时的注意力机制为自注意力机制(self-attention),其被广泛用于命名实体识别任务中。
[0162]
本文利用注意力机制的特点,将注意力机制融入风险术语抽取模型中,把富含语义信息的bert层输出和进一步抽取了上下文特征的bilstm输出联合输入到注意力机制层,赋予“人才流失”与“技术流失”等风险术语更高的权重,在一定程度上提高了风险术语识别能力,提高了模型性能。
[0163]
s205、将句子文本特征向量输入crf模块,得到预测序列结果。
[0164]
bilstm网络在处理文本远距离信息方面表现突出,其输出通过softmax层独立得到每个状态的最大概率标签,无法解决相邻标签之间依赖关系问题。crf模型通过在标签之间添加一些有效约束来减少无效的预测标签序列数量。
[0165]
输入一个句子x=(x1,x2,...,xn)到bilstm网络中,得到其输出为(n
×
k)维的分数矩阵m,其中n为单词数量,k为标签数量,m
ij
表示矩阵中第i个单词的第j个标签的分数。对于预测序列结果y的评分函数如下:
[0166][0167]
其中a为转移分数矩阵,a
ij
为标签i转移到标签j的分数,预测序列结果y出现的概率公式如下:
[0168][0169]
其中,y

为真实的标记序列,y
x
为所有可能的标记序列,生成预测序列结果y的似然函数:
[0170][0171]
通过上式求出使得似然函数最小的参数值,输出的最优解为分数最大的序列:
[0172][0173]
因此,使用crf对bilstm网络的输出进行约束,从实体的顺序性和逻辑性上使得“人才流失”和“技术流失”不被拆分成“人才”、“流失”和“技术”、“流失”,从而避免不再需要细分的词被细分。
[0174]
为了更好实施本技术实施例中识别上市企业风险的方法,在识别上市企业风险的方法基础之上,本技术实施例中还提供一种识别上市企业风险的装置,如图14所示,图14是本技术实施例中提供的识别上市企业风险的装置一个实施例结构示意图,该识别上市企业风险的装置包括:
[0175]
文本获取单元401,用于获取待识别上市企业句子文本;
[0176]
字符级获取单元402,用于将待识别上市企业句子文本输入预设风险信息抽取模型中的roberta-wwm模块,得到包含上下文语义信息的字符级向量;
[0177]
双向语义获取单元403,用于将字符级向量输入预设风险信息抽取模型中的bilstm模块,得到双向语义特征向量;
[0178]
权重调整单元404,用于将字符级向量和双向语义特征向量输入预设风险信息抽取模型的attention模块中进行特征融合,得到调整权重后的句子文本特征向量;
[0179]
预测单元405,用于将句子文本特征向量输入crf模块,得到预测序列结果。
[0180]
可选地,文本获取单元401,用于:
[0181]
获取历史年份的多个第一上市企业年报数据;
[0182]
将多个第一上市企业年报数据中名称包含预设标识的第一上市企业年报数据剔除,得到多个第二上市企业年报数据;
[0183]
根据多个第二上市企业年报数据对预设风险信息抽取模型进行训练。
[0184]
可选地,文本获取单元401,用于:
[0185]
将多个第二上市企业年报数据中每个第二上市企业年报数据中的第一章节和第四章节的内容保留,得到多个第三上市企业年报数据;
[0186]
根据多个第三上市企业年报数据对预设风险信息抽取模型进行训练。
[0187]
可选地,文本获取单元401,用于:
[0188]
获取多个第三上市企业年报数据中各个章节下的标题文本,得到风险文本数据集;
[0189]
基于预设的风险短语分类规则和bio三元标记法使用yedda轻量级协作文本跨度注释工具对风险文本数据集进行风险短语标注,得到标注文本数据集;
[0190]
基于标注文本数据集对预设风险信息抽取模型进行训练。
[0191]
可选地,文本获取单元401,用于:
[0192]
按预设比例将标注文本数据集分为训练集、验证集和测试集;
[0193]
根据训练集、验证集和测试集对预设风险信息抽取模型进行训练;
[0194]
根据精确率、召回率、f1值对预设风险信息抽取模型进行评估。
[0195]
可选地,对预设风险信息抽取模型进行训练的训练参数包括:batch_size设为16,dropout设为0.5,学习率设为3e-5,epochs设为64轮,采用adam优化器。
[0196]
可选地,roberta-wwm-ext模型一共12层transformer,bilstm的隐藏层为128维。
[0197]
本技术实施例还提供一种电子设备,其集成了本技术实施例所提供的任一种识别上市企业风险的装置。如图15所示,其示出了本技术实施例所涉及的电子设备的结构示意图,具体来讲:
[0198]
该电子设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理
解,图中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0199]
处理器501是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
[0200]
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
[0201]
电子设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0202]
该电子设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0203]
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
[0204]
获取待识别上市企业句子文本;将待识别上市企业句子文本输入预设风险信息抽取模型中的roberta-wwm模块,得到包含上下文语义信息的字符级向量;将字符级向量输入预设风险信息抽取模型中的bilstm模块,得到双向语义特征向量;将字符级向量和双向语义特征向量输入预设风险信息抽取模型的attention模块中进行特征融合,得到调整权重后的句子文本特征向量;将句子文本特征向量输入crf模块,得到预测序列结果。
[0205]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0206]
为此,本技术实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本技术实施例所提供的任一种识别上市企业风险的方法中的步骤。例如,计算机程序被处理器进行加载可以执
行如下步骤:
[0207]
获取待识别上市企业句子文本;将待识别上市企业句子文本输入预设风险信息抽取模型中的roberta-wwm模块,得到包含上下文语义信息的字符级向量;将字符级向量输入预设风险信息抽取模型中的bilstm模块,得到双向语义特征向量;将字符级向量和双向语义特征向量输入预设风险信息抽取模型的attention模块中进行特征融合,得到调整权重后的句子文本特征向量;将句子文本特征向量输入crf模块,得到预测序列结果。
[0208]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
[0209]
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
[0210]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0211]
以上对本技术实施例所提供的一种识别上市企业风险的方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1