一种金融领域的事件句抽取方法与流程

文档序号:12824734阅读:403来源:国知局

本发明属于中文信息处理技术领域,具体涉及一种金融领域的事件句抽取方法。



背景技术:

作为信息抽取的一个重要分支,事件抽取是从非结构化的文本中抽取出用户感兴趣的事件信息,并以结构化的形式保存起来以供后续的分析应用。其在自动摘要、自动问答、信息检索等领域有着广泛的应用。

随着国内市场经济不断发展,特别是股市经济,对金融事件越来越敏感。研究面向金融领域的事件抽取对于深入分析金融领域的文本信息、为投资决策提供支持具有重要意义。在当下,面对海量的互联网金融信息,单纯依靠人工的分析很难达到实际的要求。相对于一般的事件抽取,在对金融文本进行事件抽取时,一个比较突出的问题是公司名识别。据统计,在公司名的使用上,仅有7%的是公司全称,而更多的是根据口语习惯使用公司简称。公司简称的使用给金融事件抽取带来了很大的难度。

公司名识别是金融事件句抽取中的一个重点,同时也是一个难点。首先,公司名属于未登录词,现在的主流分词平台在进行公司名识别方面还不成熟。其次,在金融文本中,公司简称比公司全称的使用频率要高的多。对于公司全称,还有些命名规律可以依赖。简称更倾向口语化,加大了公司名识别的难度。针对公司简称的识别研究,现有技术所达到的效果不佳。

事件句抽取属于信息抽取领域,事件由事件触发词(trigger)和描述事件结构的元素(argument)构成。事件抽取的很多相关研究也就是围绕着触发词和事件元素来进行的。相应地,事件抽取的任务可分解为二步进行:第一步是要从一篇文本的句子集中抽取出事件句,进一步再从事件句中抽取出事件元素。因此,事件句抽取是事件抽取的一个关键环节,其抽取效果对后续的事件类型识别、事件元素识别有很大的影响。现有技术的检测事件句的方法主要是基于触发词检测,其缺陷在于对词表严重依赖,影响效果;另外也有基于特征的事件句识别方法,其缺陷是对领域词的利用不直接、不充分。

由于上述原因,现有技术的金融领域的事件句抽取方法的效率不高,效果不好,亟待研发新的方法。



技术实现要素:

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的金融领域的事件句抽取方法。

为了实现上述发明目的,本发明提供的技术方案如下:

一种金融领域的事件句抽取方法,包括以下步骤:

步骤1)利用互联网搜索和上市公司名信息进行公司名识别;

步骤2)综合考虑语句所在位置、公司名信息、领域动词信息、语句与标题相似度四个方面特征,构造权值表达;

步骤3)从句子集中提取金融事件句。

进一步地,所述步骤1)具体包括:

步骤一:首先提取待处理文本句子中的每个n元组形成n元组集体,以此集合作为公司名候选集合。

步骤二:结合公司名库为每个n元组进行初步的权重计算。

步骤三:对每个n元组进行互联网查询,结合返回的搜索信息对n元组进行权重更新计算。

步骤四:在n元组集合中,将得分高于阈值β的n元组作为公司名,否则,作为非公司名。

进一步地,所述步骤二具体为:

针对作为候选公司名的n元组,首先计算n元组与库中每一个公司名的相似度值,然后选择最大的相似度值作为此n元组的权重得分,一个n元组a与一个公司名c的相似度值通过式(1)计算:

sim(a,c)=∑w∈a∩c1+len(a)*(start(a,c)□end(a,c))(1)。

进一步地,所述步骤三具体为:

若此搜索结果包含此n元组,并且在其后的位置出现“公司”、“集团”或“企业”,则此n元组权值得分加1;

若此搜索结果包含此n元组,并且在其后的位置内出现8位字符加数字的字符串,即“sh******”或“sz******”,则此n元组权值得分加2。

进一步地,所述公司名信息的权值通过式(2)计算:

scorecompany(si)=count(si)(2),

其中,count(si)表示句子si包含的公司名数量;

所述领域动词信息的权值通过式(3)计算:

所述语句所在位置的权值通过式(4)计算:

scorelocation(si)=1/i(4);

所述语句与标题相似度的权值通过式(5)计算:

本发明提供的金融领域的事件句抽取方法,提出了基于互联网信息的公司名识别方法,利用的规则少,不受训练语料限制,能充分为事件句的提取及事件元素的识别做好准备,从而解决了进行公司名识别时所面临的简称使用频繁、口语化现象严重带来的问题,同时,本发明从公司名信息、领域动词信息、语句与标题相似度、语句所在位置四个方面对句子进行综合权重计算,最终选出金融事件句,能够高效地识别和提取金融事件句,对金融领域的事件句的抽取效率高、抽取效果好,可以很好地满足实际应用的需要。

附图说明

图1为本发明的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种金融领域的事件句抽取方法,包括以下步骤:

步骤1)利用互联网搜索和上市公司名信息进行公司名识别;

步骤2)综合考虑语句所在位置、公司名信息、领域动词信息、语句与标题相似度四个方面特征,构造权值表达;

步骤3)从句子集中提取金融事件句。

所述步骤1)具体包括:

步骤一:首先提取待处理文本句子中的每个n元组(n-gram)形成n元组集体,以此集合作为公司名候选集合;

步骤二:结合公司名库为每个n元组进行初步的权重计算;

步骤三:对每个n元组进行互联网查询,结合返回的搜索信息对n元组进行权重更新计算;

步骤四:在n元组集合中,将得分高于阈值β的n元组作为公司名,否则,作为非公司名。

本发明构建了公司名库,但与其人工方式构建的做法不同,本发明以国内上市公司名作为库内容,用计算机程序从新浪财经接口通过股票代码可以获得。比如由代码“sh600130”可以获得公司名“波导股份”。此种构建公司名库的方法排除了人工构建过程中主观因素的干扰,通用性更强。

对金融文本进行分析,公司名的简称多是从全称里摘取部分字词,以全称的开关或结尾更为常见。比如“中国石油天然气集团公司”简称“中石油”或“中国石油”,将“神州泰岳软件股份有限公司”简称“神州泰岳”。

根据此特点,进行上述步骤二。所述步骤二具体为:

针对作为候选公司名的n元组,首先计算n元组与库中每一个公司名的相似度值,然后选择最大的相似度值作为此n元组的权重得分,一个n元组a与一个公司名c的相似度值通过式(1)计算:

sim(a,c)=∑w∈a∩c1+len(a)*(start(a,c)□end(a,c))(1)。

百度搜索是全球最大的中文搜索引擎,拥有全球最大的中文网页库,早在2010年收录中文网页已超过200亿,而且还在不断更新。对于每个关键字的搜索,百度搜索引擎将在首页给出10条搜索结果的简介。经过分析,如果一个n元组是公司名全称或者简称,那么利用其作为关键字来进行互联网搜索,在搜索结果中,伴随此n元组经常出现的有“公司”、“企业”、“集团”或者股票代码。例如,表1是搜索词“中石油”的部分搜索返回条目。基于此,本发明主要利用百度搜索结果对步骤二中的候选公司名集合进行权重更新。

表1网络搜索返回条目

所述步骤三具体为:

若此搜索结果包含此n元组,并且在其后的位置出现“公司”、”集团“或”企业“,则此n元组权值得分加1;

若此搜索结果包含此n元组,并且在其后的位置内出现8位字符加数字的字符串,即“sh******″或”sz******“,则此n元组权值得分加2。

在步骤三中,在公司名识别过程中,充分利用了具有一定实时性的互联网语料库。

现有技术的事件句抽取方法存在的缺陷有:基于触发词方法对词表依赖性强,同时没有很好地利用句子位置、与标题相似度等特征信息;基于特征而进行事件句抽取,只是泛泛地利用命名实体,没有充分利用领域词信息。基于此,本发明提出了基于语句权值体系的事件句抽取方法:综合公司名信息、领域动词信息、语句与标题相似度和语句所在位置四个方面特征,兼顾各个因素,同时又有所侧重。

定义1(金融事件句)在金融事件报道中,一个句子包含事件的主体(subject)、谓词(predicate)二个核心要素,并能够代表文章主旨,则称此句子为该篇报道的金融事件句。

定义2(领域动词集)领域动词集是指一组能够代表描述事件核心内容的动词组合。本发明主要是进行金融方面领域动词集的研究与构建。

动词往往包含较多的事件信息,领域动词是事件句的重要特征。本发明采用半监督的方式来构建金融领域动词表:充分考虑一个动词的上下文信息和在句子中的语义角色,利用最大熵模型计算一个词属于金融领域动词的概率。关键步骤如下:

step1:人工从语料集中选出一些金融领域动词;

step2:结合人工选出的领域动词,从训练语料中构建所有动词的特征窗口,特征窗口包含上下文信息和语义角色信息二部分;

step3:在扩展语料集中构建所有动词的特征窗口;

step4:训练阶段,利用最大熵模型对step2中特征窗口进行训练;

step5:概率计算阶段,利用step4训练得到的模型对step3中的特征窗口进行概率运算,得到一个动词属于金融领域动词和非金融领域动词的概率。

其中动词的上下文和语义角色特征窗口如表2所示。

表2特征模板表

根据上述特征模板表,构建训练特征模板。例如训练语料中经过分词后的一个小句子片段″华神/nz集团/n闪电/v停牌/v谋/v重组/v。/wp″,显然这里“停牌”是本次金融事件的关键动词。经依存句法分析后,“停牌“标注角色为”hed“,则此关键词的特征窗口为″集团/n闪电/v停牌/v谋/v重组/vhed1″。

本发明依存句法分析器采用哈尔滨工业大学信息检索研究中心的依存句法分析模块gparser。在1000篇文章中,经过人工标注200个领域动词后,再选择机器标注,最终形成包含679个动词的金融领域动词表。

分析一个句子是否为一篇报道的事件句,主要考虑四个特征:公司名信息、领域动词信息、语句与标题相似度和语句所在位置。

在上述步骤2)中:

通过分析新闻文本,金融事件的重要主体为公司,所以将公司名作为事件句的一个重要特征。所述公司名信息的权值通过式(2)计算:

scorecompany(si)=count(si)(2),

其中,count(si)表示句子si包含的公司名数量;

本发明已经构建了金融领域动词表;动词一般作为一个事件的核心,一个句子中包含金融领域动词,那么这个句子是事件句的可能性更高;所述领域动词信息的权值通过式(3)计算:

语句所在位置信息是跟文本类型相关的;在新闻中,信息含量高的句子通常出现在前几句,所以将语句所在位置作为一个特征;所述语句所在位置的权值通过式(4)计算:

scorelocation(si)=1/i(4);

文本的标题一般含有较多的信息量;计算句子与标题的相似度,可以评估句子作为该篇报道事件句的可能性;所述语句与标题相似度的权值通过式(5)计算:

其中,动词和名词包含更多的信息量,单个词条的权重通过式(6)来计算:

从句子集中提取金融事件句时,设新闻文本中有n个句子,每个句子的得分是四个特征分量的线性组合,如式(7)所示:

score(si)=wkscorek(si)(7),

其中k∈{company,keyverb,location,title},各个特征分量的权重wk在数据集上通过训练之后会得到最优组合。

通过实验验证本发明的有效性:

实验数据是从新浪财经网上下载5000篇财经新闻,从中随机选出1000句进行公司名识别测试。按基本均等原则将1000句分为三组数据。在实验中,调整阈值β,设定β值为16时,在第一组数据上可达到最好的效果。以此阈值在其他二组数据上测试,如表3也达到了同等的识别效果。

表3公司名识别结果

综合三组数据测试结果,本发明的公司名识别方法的正确率、召回率达到82.28%、68.93%。

对于式(7),需要确定wk的值。实验将人工标注的216篇财经新闻文本随机抽取100篇作为参数学习语料,另116篇作为测试。对于wk在满足0<wi<1和∑wi=1条件下,进行遍历,精确到0.1。通过对结果的比较,最后确定wcompany、wkeyverb、wlocation、wtitle分别为0.1、0.2、0.6和0.1。

通过实验结果可以证明本发明抽取事件句的效率较高。

本发明提供的金融领域的事件句抽取方法,提出了基于互联网信息的公司名识别方法,利用的规则少,不受训练语料限制,能充分为事件句的提取及事件元素的识别做好准备,从而解决了进行公司名识别时所面临的简称使用频繁、口语化现象严重带来的问题,同时,本发明充分结合基于特征和基于触发词的二类事件句抽取方法,从公司名信息、领域动词信息、语句与标题相似度、语句所在位置四个方面对句子进行综合权重计算,最终选出金融事件句,从而克服了单独基于特征和单独基于触发词来抽取事件句所存在的缺点并综合了二者的优势,能够高效地识别和提取金融事件句,对金融领域的事件句的抽取效率高、抽取效果好,可以很好地满足实际应用的需要。

以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1