基于二阶段句法剖析的科技文献细粒度关系挖掘方法与流程

文档序号:12464601阅读:232来源:国知局
基于二阶段句法剖析的科技文献细粒度关系挖掘方法与流程

本发明涉及科技文献中的技术挖掘领域,具体地说,是一种基于二阶段句法剖析的科技文献细粒度关系挖掘方法。



背景技术:

普遍意义上的关系是指人与人之间,人与事物之间,事物与事物之间的相互联系。例如科技文献所记录的关于某一疾病研究中,该疾病和哪些基因关联,基因又和哪些药物之间有相互作用等。科技文献中的实体之间的关系表述往往是一些重要的实验结论或者经验积累,对于指导未来有着很大的现实意义。因此科技文献中的关系挖掘也就十分重要。由于目前大多研究文献都是以英文的形式发表在各级各类国际会议和期刊上,所以本发明的所述科技文献主要是英文文献,在涉及实现时以生物医学领域的英文科技文献为例。

生物和信息技术的发展让生命科学的实验研究越来越深入,来自生命科学各个层次的实验数据正在从各个角度越来越全面的揭示生命的奥秘。记载这些生命奥秘的生物医学文献数量也呈现出指数级地增长,加之其媒体形式的多样性和结构上复杂性让这些文献成为当下名副其实的大数据。截至2016年10月,美国国家医学图书馆(即NCBI)数据库就有超过2600万条生物医学文献的引文记录。这些大量的科技文献如果不借助于计算机技术则很难得到很好的利用。科技文献关系挖掘技术就是为了满足这一要求,挖掘大量文献中所描述的重要生物实体之间的直接关系,推导其中生物实体之间隐含的间接关系。

现有的关系挖掘大多采用共现的技术,不能确定关系的具体类型,两个生物实体同时出现在所统计的语料中或者同时出现在同一篇文献中就认为这两个生物实体是有关的,但仅仅能确定它们两者是关联的,如何关联,是什么样的一种关系不能确定,也就是说,如果两种基因,基因A和基因B同时出现在一篇文献中,只能知道基因A和基因B之间存在关联,但是到底是基因A激活了基因B的表达还是参与了基因B的表达,还是正向调控或是抑制关系则不得而知;现有的技术所挖掘的关系是粗粒度的,不能发现重要的间接关系科技文献中往往报道的是两两之间的直接关系,如A->B、B->C的关系,A->C的关系则隐含在科技文献中,需要去挖掘,现有的技术很难找到这种隐含关系,因为基于共现的技术所挖掘的关系是一类粗放的关系。

现有的关系挖掘技术归根结底是一种基于频率的技术,虽然能够找出一些生物实体之间的存在关联关系,但是并不能说明它们之间发生了何种关系;这也导致这种技术的另一个缺陷,所有的生物实体之间的关系都是一种平行关系,不能体现生物实体之间的主动-被动关系,自然也就找不到生物实体之间的间接关系。因为只有知道A->B和B->C才能推导出A->C,而现在A、B、C之间是平行关系,这样的关系是粗放的,很难准确找出A->C这样的间接关系。



技术实现要素:

本发明主要针对现有关系挖掘技术的不足,直接从语句的语法结构出发,找出语句的主谓宾结构,抽取具体的细粒度关系,推导出隐含的间接关系。

本发明采用的具体技术方法如下:采用二阶段句法剖析方法:第一阶段句法剖析,利用剖析所产生的短语结构,更化简科技文献中的复杂长句;第二阶段对化简之后的简单句再次句法剖析,利用剖析产生的语法结构准确提取语句主谓宾结构,具体包括以下步骤:

步骤一、预处理,对输入的原始文献进行分句,分词得到单词序列,也叫token串,利用条件随机域(Conditional Random Fields,CRF)识别生物实体,包括基因、蛋白质;

步骤二、对存在两个以上的生物实体的语句进行句法剖析,可以借助斯坦福大学自然语言研究组开发的Stanford Parser对语句剖析;

步骤三、语句收缩,也叫语句化简,句法剖析得到名词短语都按照先后顺序替换成“NP+索引”的格式来化简长句,收缩语句规模;

步骤四、再次句法剖析,化简之后的语句语法结构清晰,从剖析得到的语法树提取语句的主谓宾结构;

步骤五、还原关系,将主语和宾语中的名词短语还原,得到直接的关系,谓语动词还原成单词原型,存储到关系库;

步骤六、间接关系推导,检索关系库,推导间接关系。

在上述技术方案中,步骤一中的分句和分词都是一般的文本处理所要完成的,语句一般都会以句号或问号分隔,或者是没有以句号结尾的一个段落,所以一篇文献很容易转换成语句的序列。英语单词一般以天然的空格分隔,所以分词的实现也很简单。生物实体识别需要用到条件随机域的工具和生物实体的预料库,经过前期训练得到学习模型,再对单词序列进行生物实体识别,这一步在技术上也是成熟的。

步骤二中先统计语句中生物实体个数,只有语句中存在2个或者2个以上的生物实体才有可能构成关系,对这样的语句进行句法剖析,剖析的工具采用Stanford Parser工具。语句经过剖析能够得到语句的句法成分,包括短语结构和语法结构。科技文献中的语句一般都是复杂的长句,直接提取语句结构比较困难,所以要做步骤3。

步骤三中语句收缩主要是利用第一阶段的剖析得到的短语结构为依据,把比较长的定语修饰或者从句修饰的名词化简成一个简单的单词,替换的规则用“NP+索引”,索引是名词短语在语句中的位置,这样可以方便还原。经过这一步替换之后,很长的语句往往会变得简单。

步骤四中对化简过后的简单句进行再次句法剖析,提取语法结构。主要是提取语句的主谓宾结构。

步骤五中还原关系中原始的名词短语,对于主语和宾语中都含有生物医学实体的关系进一步还原谓语动词为单词原型,去掉谓语动词的第三人称形式、过去式、现在进行时等形式,如果遇到被动语态,还要还原主宾关系;如果遇到连接词“and”连接的并列短语,则分开列示。将标准化的关系按照三元组的形式存储到关系数据库,这里的关系数据库是指数据库表中的记录是关系,不是强调说数据库是关系型。关系三元组为<v,s,o>,v是关系类型,s是关系主体,o是关系客体。

步骤六中推导间接关系,分别检索关系数据库中的主体和客体,新发现的关系主体出现在客体数据库中,则存在隐含的间接关系。形式化表达为:

将推导得到的间接关系存储到关系数据库。

本发明的有益效果:本发明技术方案主要解决科技文献中生物实体关系挖掘问题,既能得到直接的生物实体之间的细粒度关系,也能推导得到隐含在生物实体之间的间接关系;产生的有益效果包括:

(1)、挖掘得到生物实体之间的具体的细粒度关系,包括生物实体之间的关系类型,同时能够推导生物实体之间的隐含关系;

(2)、准确的生物实体之间的关系可以减少科研人员耗费人力财力去重复试验;

(3)、为文献利用者如生物医疗从业人员发现疾病完备的致病因素和新的治疗方案,以及新的药物研究提供实证依据。

附图说明

图1是本发明分两个阶段对语句进行句法剖析示意图。

图2是本发明实施例中利用Stanford Parser剖析得到句法树。

图3是本发明实施例中利用Stanford Parser剖析得到依赖关系图。

图4是本发明实施例中对T1进行第二阶段句法剖析得到依赖关系图。

具体实施方式

为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。

如图1所示,采用二阶段句法剖析方法:第一阶段句法剖析,利用剖析所产生的短语结构,更化简科技文献中的复杂长句;第二阶段对化简之后的简单句再次句法剖析,利用剖析产生的语法结构准确提取语句主谓宾结构,具体包括以下步骤:

步骤一、预处理,对输入的原始文献进行分句,分词得到单词序列,也叫token串,利用条件随机域(Conditional Random Fields,CRF)识别生物实体,包括基因、蛋白质;

步骤二、对存在两个以上的生物实体的语句进行句法剖析,可以借助斯坦福大学自然语言研究组开发的Stanford Parser对语句剖析;

步骤三、语句收缩,也叫语句化简,句法剖析得到名词短语都按照先后顺序替换成“NP+索引”的格式来化简长句,收缩语句规模;

步骤四、再次句法剖析,化简之后的语句语法结构清晰,从剖析得到的语法树提取语句的主谓宾结构;

步骤五、还原关系,将主语和宾语中的名词短语还原,得到直接的关系,谓语动词还原成单词原型,存储到关系库;

步骤六、间接关系推导,检索关系库,推导间接关系。

生物医学文献是一类重要的科技文献,报道和记录的是生物技术与医学相关的实验发现。实施例以这类文献为输入,具体说明如何进行基于二阶段句法剖析的细粒度关系挖掘。

现以生物医学文献为实施例,具体说明本发明披露的技术方案:

生物医学文献研究常用的一个语料库GENIA,是为GENIA项目编写并标注的最初的生物医学文献集合,这个语料库是为了发展和评估分子生物学信息检索及文本挖掘系统而创建的,包含1999条Medline的摘要,这些摘要是由PubMed按照human、blood cells以及transcription factors三个医学主题词(medical subject heading terms)为搜索条件搜索到的。

GENI语料第一句“IL-2 gene expression and NF-kappa B activation through CD28 requires reactive oxygen production by 5-lipoxygenase. ”记为例1,以此句为例说明关系挖掘过程。

步骤一、预处理,设例1是经过分句之后的结果,分词之后得到单词串不加列示,生物实体识别出基因“IL-2 gene”和蛋白质分子“NF-kappa B”、“CD28”、“5-lipoxygenase”。

步骤二、语句中包含1个基因和3个蛋白质分子,其生物实体的个数自然超过了2,所以进行第一阶段的句法剖析,利用Stanford Parser剖析例1得到句法树如图2和依赖关系如图3。简单说明Stanford Parser剖析的输出的句法树和依赖关系的格式。句法树中ROOT代表树根,S代表一条语句,NP代表名词短语,单词前面的标记都是该单词的词性。依赖关系中每一条列示了括号中第二个单词和第一个单词之间的依赖类型,例如compound(expression-3, IL-2-1)表示单词IL-2和单词expression之间是一种compound依赖,单词后面的数字代表该单词在语句中的索引。比较重要的依赖就是主语依赖nsubj和直接宾语依赖dobj。如果直接从依赖关系中找主谓宾结构可以得到“expression requires production”这显然不是我们所需要的结果。这也就是为什么要二阶段句法剖析的原因,由于语句的复杂性使得直接从第一次的剖析结果找语法结构非常困难。

步骤三、语句收缩,将句法树所标记的名词短语替换成“NP+索引”的格式,则例1变换成“NP0 requires NP1 by 5-lipoxygenase.”记为T1。

步骤四、对T1进行第二阶段句法剖析得到依赖关系如图4,根据语依赖nsubj和直接宾语依赖dobj,就能得到“NP0 requires NP1”。

步骤五、还原关系包括还原名词短语和谓语动词的原型得到关系<require, IL-2 gene expression and NF-kappa B activation through CD28,reactive oxygen production >,名词短语中存在连接词“and”连接的并列结构,需要进行拆分,就得到两个关系:

< require, IL-2 gene expression,reactive oxygen production >

< require, NF-kappa B activation through CD28,reactive oxygen production >

如果关系中的主体和客体都不含有生物实体,则舍弃该关系。谓语动词的还原,目前只能还原规则单词的一般形式,对特殊的单词变形如单词“gave”暂时不予考虑。将标准化的关系存入数据库。

步骤六、推导间接关系,对数据库中的关系的主体集合和客体集合进行检索,如果新关系的主体存在于数据库中客体的集合中,或者新关系的客体存在于数据库的主体集合中,则可以推导出隐含的间接关系。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1