基于特征增强的金融新闻事件元素抽取方法及系统

文档序号:37468099发布日期:2024-03-28 18:51阅读:12来源:国知局
基于特征增强的金融新闻事件元素抽取方法及系统

本发明属于数据挖掘,涉及一种文档级金融事件元素抽取方法,特别涉及一种基于特征增强的金融新闻事件元素抽取方法及系统。


背景技术:

1、近年来,随着我国金融业不断深化改革,金融治理能力和水平稳步提升,现代金融监管体系日趋成熟,导致相关金融新闻文档增长的速度远远超过了人们的阅读能力,研究者们通常需要花费大量精力寻找自己想得到的金融交易信息,以了解相关企业的最新金融活动。因此,如何从海量的金融新闻文档中以自动化方式挖掘用户所需要的重要事件要素信息具有极其重要的研究意义。金融事件抽取是将非结构化的金融新闻文档转化为相关交易事件的结构化表示,在股票走势分析、企业投资决策、市场体系构建等下游财务任务中具有极其重要的应用价值和实用功能。然而,由于这类事件中的金融实体之间存在复杂的语义歧义性和丰富的上下文信息,一种有效的事件元素抽取方法在金融监管领域仍然亟待开发。

2、金融监管领域的事件抽取方法源自于自然语言处理任务中的事件抽取,事件抽取主要被划分为事件类型监测和事件元素抽取两个子任务,传统的方法主要按照流式处理方法顺序执行该两个子任务。现有方法主要基于规则、基于特征提取、基于深度学习方法三大类别。然而,基于规则的方法仅仅依赖于已知问题和场景,移植性、灵活性较差;基于特征提取的方法主要依赖于非自动化特征提取,复杂的特征工程通常存在既费力又耗时的问题;随着深度学习技术的快速发展,基于深度学习的方法依赖强大的特征学习能力和良好的可移植性被广泛应用于金融事件抽取任务中。然而,这类方法仍然存在以下两大挑战:1、金融新闻文档结构复杂,无法有效捕捉金融事件以及事件元素间存在的跨句子远依赖信息以及句子间上下文语义信息;2、金融文档句子内部的事件及事件元素通常存在嵌套、重叠现象,句子内部语义信息难以学习、聚合。

3、综上所述,如何采取适当的措施与技术,在金融新闻文档中挖掘有用信息,抽取重要的交易事件类型以及事件元素信息已经成为当前数据挖掘领域研究的热点与难点。


技术实现思路

1、针对现有技术的不足,本发明的目的是提出一种基于特征增强的金融新闻事件元素抽取方法及系统。在该方法中,首先在编码层,提出了一种多粒度注意力层和长短期循环神经网络扩展层lstm来获取细粒度的金融语义信息;其次,在解码层中,为避免事件语义混淆问题,构建了条件随机场(crf)层对金融事件元素进行联合标记,进而能够有效抽取特定金融事件类型元素信息,更好的达到应用服务目的。

2、本发明是通过以下技术方案实现的:基于特征增强的金融新闻事件元素抽取方法其步骤为:

3、步骤1:金融数据集准备;

4、对获取原始的金融新闻文档数据集和对数据集进行人工标注,将金融新闻数据进行传送,由crf模块得到结果;

5、步骤2:词嵌入模块;

6、首先,对整个文档进行建模。在词嵌入模块,利用预训练语言模型对文档中每个单词进行编码,并映射成向量,获得每个单词的初始向量表示;

7、将文档d划分为多个句子si,逐步将每个句子都送入至bert预训练语言模型中,输入由[clp]、[sep]、文档单词组成,其中[clp]表示文档的其实标识符向量,[sep]表示每个句子之间的分隔符向量,每种类型的初始向量均经过掩码多头注意力机制,学习文档中的上下文语义信息;

8、在注意力机制中,每个单词向量之间均进行点乘操作,分别利用q,k,v学习参数矩阵学习两个单词之间的关注度,将其他单词对当前单词的关注度乘以当前单词向量相乘,得到当前单词的向量信息;再将得到的单词向量信息通过累加和归一化层,对单词维度进行压缩,得到当前迭代过程的单词表示;最终通过bert中的n层迭代机制,重复对单词向量进行上述操作,获取每个单词的预训练向量表示。

9、步骤3:多粒度注意力机制模块;

10、步骤3-1:局部依赖信息聚合;

11、每个句子内部均含有丰富的语义信息,将每个句子划分为多个基本篇章单元edu,并将其作为一个独立的聚合单元,通过使用多头注意力机制学习文档中的局部语义依赖信息,获得细粒度的局部语义特征向量;

12、首先,利用edu分割技术将每个句子切分为多个子句子单元,每个句子通常由逗号分隔开;

13、将上个步骤中获得的初始单词嵌入向量,根据edu单元分隔开,按照所在的当前句子的edu位置进行组合;

14、以edu为单位分别将其送入多头注意力机制中,学习不同edu单元中不同单词之间的语义关联;在第i个句子si的第一个edu单元中的单词hi与当前句子中的第二个edu单元中的单词进行注意力操作,通过q,k,v参数矩阵学习它们之间的关联,获得单词局部信息语义向量操作如公式(1)所示:

15、

16、

17、其中:w*表示为注意力机制学习权重矩阵,si表示句子向量,q,k,v表示为注意力参数矩阵,dk表示输入句子长度,z表示为注意力的机制的头数。

18、步骤3-2:跨句子依赖信息聚合;

19、每个文档中,句子之间存在密切的上下文语义关联,将金融新闻文档划分为多个句子,采用多头共同注意机制将句子间的语义特征实现关联,并生成跨句子特征向量;

20、在学习两个句子si,sj之间的关联信息时,将两个句子中的单词hi进行拼接,点乘操作,并将操作后的向量进行拼接,通过w,b学习参数获得关联强度,再通过softmax函数对其进行归一化操作,将sj中所有单词的权重分别乘以当前单词的向量信息与单词hi进行融合,得到跨句子向量信息

21、

22、

23、

24、其中:si,sj分别表示句子向量,wsim,bsim表示可学习参数,aij表示两句子之间的关系强度,z表示注意力机制头数。

25、步骤4:lstm扩展模块;

26、将局部语义特征向量和跨句子特征向量通过输入门单元和遗忘门单元学习当前输入特征和上一个记忆单元特征,再利用输出门单元决定记忆单元的哪些历史信息可以传输到隐层节点,通过这三个门单元的协作,有效建模上下文信息,获得融合上下文语义的两种特征向量;

27、将句子内部语义单词向量和跨句子语义表示向量分别传入lstm模块中,分别学习句内和句间的上下文语义信息,lstm模块包括输入门控单元it、输出门控单元ft以及遗忘门控单元ot;输入门单元it和遗忘门单元ft控制记忆当前输入特征vt和上一个记忆单元ct-1,输出门单元ot决定记忆单元ct的哪些历史信息可以传输到隐层节点,通过上述操作,句内和句间的上下文语义信息被学习;

28、

29、

30、其中:分别表示句子级别的单词嵌入表示,文档级别的单词嵌入表示;表示句内和句间的上下文语义信息。

31、步骤5:门操作模块;

32、通过门操作模块,将局部和全局向量进行有效结合,在该模块中,将局部语义特征向量和跨句子特征向量通过逐元素乘法实现两种粒度信息的有效聚合,并获得最终语义特征向量;

33、将两种语义向量进行拼接操作,并利用学习参数w,b获取向量间语义关联,并利用sigmoid函数学习门控操作的系数g,将g和1-g分别与两种向量相乘再相加得到最终的单词向量yi;步骤如公式(4)所示:

34、

35、

36、其中:表示句内和句间的上下文语义信息;w,b表示参数学习矩阵,g为门控系数。

37、步骤6:crf模块;

38、使用softmax激活函数计算预测结果y与训练集真实标注数据ygold的奖励值,评估当前模型采取决策的好坏,将预测结果映射为一个向量,最终通过最大化条件概率,实现事件以及事件元素的结构化输出。

39、具体如公式(5)所示:

40、

41、

42、其中,a表示条件随机场的标签ti和标签ti+1之间的转移矩阵,m表示输入句子的长度。

43、一种实现基于特征增强的金融新闻事件元素抽取方法的系统,包括编码层和解码层;

44、编码层:首先利用词嵌入模块将每个单词转换成表示向量;再通过多粒度注意力机制模块对这些嵌入表示进行编码,以获得跨文档和句子内部的语义信息;并建立lstm扩展模块,以捕获局部和全局上下文语义关联表示;最后,采用门操作融合技术对多粒度语义特征进行融合;

45、解码层:条件随机场crf模块被用来有效地标记这些金融事件元素。

46、模块包括:

47、词嵌入模块:用于将对输入文档数据的每个句子中的每个单词转换成连续的表示向量;

48、多粒度注意力机制模块:以词嵌入层得到的向量作为输入,根据注意力机制特性有效学习每个单词的局部表示,得到句子级别特征向量和文档级别特征向量;

49、lstm扩展模块:设计双向长短时记忆网络bi-lstm编码器,通过输入门控单元、输出门控单元、遗忘门控单元以及激活函数捕获每个单词的上下文语义信息;

50、门操作模块:通过线性激活函数将句子级别特征向量和文档级别特征向量放入前馈线性层中,实现向量聚合,得到最终单词表示向量;

51、crf模块:每个细粒度单词表示向量被标记为预定义的金融事件角色。

52、本发明创造有益效果:

53、本发明通过上述方法及系统,将金融新闻文档抽象化,建立事件抽取模型。首先在编码层,提出了一种多粒度注意力层和长短期循环神经网络扩展层lstm获取细粒度的金融语义信息;其次,在解码层中,为避免事件语义混淆问题,构建了条件随机场crf层对金融事件元素进行联合标记,进而能够有效抽取特定金融事件类型元素信息,更好的达到应用服务目的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1