从文献中自动获取QTL数据的方法与流程

文档序号:13472882阅读:1627来源:国知局
本发明属于生物信息领域,尤其涉及从文献中自动获取qtl数据的方法。
背景技术
::生物研究者将大量的研究数据发表公布于文献,随着文献的迅速增加,如何快速的获取这些数据成为一项挑战。通过手工阅读这些文献的方式往往很难及时有效地发现其所关心的信息。因此,如何从海量数据中自动获取有效信息成为生物信息学迫切需要解决的问题,利用自然语言处理和机器学习的方法挖掘文献将成为解决这一问题的重要手段。qtl(quantitativetraitlocus)是重要的基因组注释信息。但是目前qtl信息的获取主要通过人工阅读文献的方式,工作量大且速度缓慢,不利于及时更新。技术实现要素:本发明所要解决的技术问题是提供一种快速从文献中自动获取qtl数据的方法。为达到上述目的,本发明方法具体步骤如下:一.从pdf格式的文献中提取出表格的结构和内容采用图像识别的方法对文献中的三线表进行分析处理,通过对页面逐行扫描,快速定位出表格线的位置,进而定位出表格的位置;通过对行分割线与列分隔线的定位,结合ocr技术,提取出表格的结构与内容;最后,在三线表的第一根线的上面,根据关键字提取出表格的caption部分;二、含qtl信息的表格筛选如果表格中出现分子标记信息,就将该表格作为候选qtl表格;三、从筛选的表格中提取信息对于标准表格,直接提取表头字段内容,然后将内容和预定义的数据库字段比较确定对应列的内容类型;对于复杂表格而言,使用如下五条规则,处理多行表头和信息缺失情况,将其转换为简单表格:规则一,如果表格中超过60%的单元格为空,则抛弃该表格;规则二,确定表格中包含qtl信息的基本标准是表格中包含分子标记信息,判定表格中包含分子标记信息的方法是,抽取表格的前四行,利用正则表达式模糊匹配单元格中内容,判断是否包含marker、interval和loci词汇;规则三,对于表格中出现的一个表型、连锁群或者其他信息对应着多个分子标记的情况(1:n),以分子标记作为基准确定表格行数;规则四,对于表格中出现的一组分子标记、表型或连锁群信息对应多行其他信息的情况,用分子标记、表型或者连锁群信息填充其下的连续空白单元格;规则五,对于表格中不包含表型或亲本信息的情况,利用基于依存树的语法分析器从表格标题中提取这些信息补充到结果中;四、从文献文本中获取qtl信息在筛选的表格中,存在表格信息不完整的情况,为了补全表格中缺失的信息,分三步进行处理:第一步,扫描表格的标题和说明,提取与表格相关的描述性语句;第二步,对这些语句使用词库匹配模板来分析提取表格中缺失的信息,比如,我们以f$num:$num来匹配出种群信息;第三,如果第二步结果为空,再利用基于依存关系树的语法分析器挖掘表述语句中存储的表格缺失信息;五、步骤三、步骤四挖掘结果标准化和纠错对于表格和文本挖掘的结果,从三个方面标准化和纠错:(1)缩写比对:第一次出现词汇缩写的地方需要给出全拼;(2)有效性检查:没有性状或者分子标记的记录从最终结果中删除,另外利用先验知识数据库检查结果,如果发生矛盾则从最终结果中删除;(3)重复结果检查:标记、表型、年代、地域、亲本和方法信息完全相同的记录在最终结果中只保留一份。本发明通过文本挖掘的方法自动从相关文献中挖掘分析qtl、基因功能等信息。本发明利用计算机数据挖掘技术从pdf格式文献中自动获取qtl信息,从而解决当下人工阅读文献工作量大、速度缓慢、无法及时对新发表数及时处理的问题。同时,这个方法可以大大减少数据库构建的劳动负担。附图说明图1三线表示意图。图2规则三示意图。图3caption信息挖掘示意图。图4stanfordparser决策树示意图。图5qtl数据挖掘流程图。具体实施方式一.从pdf格式的文献中提取出表格的结构和内容在pdf格式的学术文献中,表格通常以三线表的形式在论文中呈现,如图1所示。由于pdf可以看做为天然无杂点的图像格式,我们采用了图像识别的方法对三线表进行分析处理。通常三线表由三根长度相同的表格线分隔开表格表头部分和表格数据域部分。这三条表格线的长度我们可以看做是连续的黑色像素点的个数,通过对页面逐行扫描,我们可以快速定位出表格线的位置,进而定位出表格的位置,根据表格线的位置我们又可以区分出表头域与数据域。首先,我们确定表格的纵向分割线(图1除assignment下面纵向线以外的所有纵向线),由于每列数据之间的分隔由空白部分分隔,我们根据表格区域的纵向黑色点的数量是否与横线的数量相同来判断该处是否为纵向分割线。然后,我们判断横向分割线(图1数据域横向线)。在数据域中,每行数据之间的分隔部分也是空白部分,由于每行数据之间的分隔全是空白部分,我们根据连续的白色像素点的个数是否与表格长度相同来定位数据域的横向分隔线。最后,我们对跨多列的表头进行识别,类似确定表格线的方法,我们在表头域中确定连续的黑色点的位置,该位置即为表头域的分割线,之后,根据该分隔线与中线黑色点的数量确定纵向的分割线(图1assignment下面纵向线)。经过上面的步骤,通过对横向分割线与纵向分隔线的定位,结合ocr技术,我们就完整的提取出了表格的结构与内容。最后,在三线表的第一根线的上面,我们根据table关键字提取出表格的caption部分。二.含qtl信息的表格筛选一篇科学文献中包含多个表格,程序需要选定包含qtl信息的表格。能够明确表示表格内容与qtl信息的相关字段:分子标记和性状。然而根据文献内容统计结果,性状信息有时不直接作为表格的一列存在,可能出现在表名或表注释中。然而分子标记信息通常都会保存在表格中,所以如果表格中出现分子标记信息,我们就将该表格作为候选qtl表格。三.从筛选的表格中提取信息文献中的表格分为两种。一种是标准表格,即表头在表格的第一行,没有跨越多行或者多列的单元格。另一种是复杂表格,即表头跨越多行,存在跨越多行或多列的单元格。处理标准表格方法简单,直接提取表头字段内容,然后将内容和预定义的数据库字段比较确定对应列的内容类型。对于复杂表格而言,则需要进一步处理,将其转换为简单表格。我们总结了五条转换规则,专门处理多行表头和信息缺失情况。这五条转化规则可以正确处理94%的qtl表格。规则一,如果表格中超过60%的单元格为空,则抛弃该表格。规则二,确定表格中包含qtl信息的基本标准是表格中包含分子标记信息。判定表格中包含分子标记信息的方法是,抽取表格的前四行,利用正则表达式模糊匹配单元格中内容,判断是否包含marker、interval和loci等词汇。规则三,对于表格中出现的一个表型、连锁群或者其他信息对应着多个分子标记的情况(1:n),我们以分子标记作为基准确定表格行数。如图2所示,表格中表型“no.ofpodsperplant”对应多个分子标记,程序扫描表格时会判定该表型名下存在多个空白单元格,再检测对子标记列中内容,如果左右单元格具有内容则满足规则三,将自动在结果中用该表型名填补空白单元格。规则四,对于表格中出现的一组分子标记、表型或连锁群信息对应多行其他信息的情况,我们用分子标记、表型或者连锁群等信息填充其下的连续空白单元格。规则五,对于表格中不包含表型或亲本信息的情况,我们利用基于依存树的语法分析器从表格标题中提取这些信息补充到结果中。四.从文献文本中获取qtl信息在表格统计结果中发现,存在表格信息不完整的情况。在某些表格中,性状、亲本等信息分布在标题、说明或者文献的其他位置。为了补全表格中缺失的信息,本发明分三步进行处理。第一步,扫描表格的标题和说明,提取与表格相关的描述性语句。第二步,首先对这些语句使用简单的词库匹配模板来分析提取表格中缺失的信息,匹配模板如表1所示。第三步,如果第二步结果为空,再利用基于依存关系树的语法分析器挖掘复杂表述语句中存储的表格缺失信息。基于依存关系树的自然语言处理算法是将语句(包括标点符号)分解成为词汇单元,例如名词短语、动词短语、断句符、方位词短语、介词短语、副词短语、形容词短语、限定词短语、量词短语等等,再生成该语句中这些短语之间的依存关系,形成一个树状关系图。根据该依存关系树就可以利用既定的语法规则进一步挖掘文本信息。表1匹配模板样例例如在表1中没有亲本信息,而亲本信息保存在表名中。如图3所示,我们使用standfordparser找到表名中的表型(trigonellinebiosynthesis)及亲本信息(essexwithforrest)并将其加入到最终的解析结果。五.步骤三、步骤四挖掘结果标准化和纠错在格式转换和文本挖掘的过程中不可避免会出现词汇缩写、错误和重复记录。对于表格和文本挖掘的结果,本发明从三个方面标准化和纠错。(1)缩写比对:根据论文撰写规范,第一次出现词汇缩写的地方需要给出全拼。如果表格中出现词汇缩写,我们通过扫描整篇文章,利用全词匹配的方法查找缩写的全拼,并补充到输出结果。(2)有效性检查:没有性状或者分子标记的记录从最终结果中删除。另外,为了保证挖掘结果的正确性,我们利用先验知识数据库(例如已知的连锁群和分子标记之间的配对关系表)检查结果,如果发生矛盾则从最终结果中删除。(3)重复结果检查:标记、表型、年代、地域、亲本和方法信息完全相同的记录在最终结果中只保留一份。六.将步骤五得到的qtl信息数据输出将数据抽取结果使用网页表格形式进行展示,其中包括文献中所有判定的qtl表格、所有非qtl表格;qtl表格中所有抽取到的数据列表包括完整信息和不完整信息。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1