基于句法树和领域特征的生物文本蛋白质指代消解方法与流程

文档序号:12176967阅读:来源:国知局

技术特征:

1.一种基于句法树和领域特征的生物文本蛋白质指代消解方法,其特征在于:包括如下步骤:

(1)对原始文本进行分句、分词、词性标注、词形还原和句法分析,得到每个句子的句法树Ti,i=1,2,...,N,所有句子的句法树构成句法树集其中i表示句子的序号,N表示所有句子的个数;

(2)从句法树Ti中查找关系代词结点和距离该关系代词结点最近的名词短语结点,得到关系代词照应语Mr和关系代词照应语Mr的先行语Ar;

(3)从句法树Ti中查找人称代词结点,得到人称代词照应语Mp;并从该人称代词结点所在句法树的并列短语结构、子句句法树或前一句子的句法树中查找该人称代词照应语Mp的先行语Ap;

(4)从句法树Ti中查找包含特定生物实体类型关键词的限定性名词短语结点,得到限定性名词短语照应语Md;从句法树集T的子集中查找所有包含生物实体或蛋白质实体的名词短语结点,得到候选先行语集X,基于生物领域特征性质从候选先行语集X中得到限定性名词短语照应语Md的先行语Ad;其中Tj为句法树集T中第j个句子的句法树,k为句子窗口的大小;

(5)从步骤(2)至步骤(4)得到的所有指代消解结果中过滤掉先行语不包含蛋白质实体的指代消解,完成基于句法树和领域特征的生物文本蛋白质指代消解。

2.根据权利要求1所述的一种基于句法树和领域特征的生物文本蛋白质指代消解方法,其特征在于:步骤(2)中所述的从句法树Ti中查找关系代词结点和距离该关系代词结点最近的名词短语结点,实现步骤为:

201、从句法树Ti中查找标记为“WDT”或“WP”的结点,得到关系代词结点Nr和关系代词照应语Mr,从句法树Ti中查找标记为“NP”的所有结点,得到候选先行语集Z;其中WDT代表以wh开头的限定语,WP代表以wh开头的代词,NP表示名词短语;

202、从句法树Ti中查找候选先行语集Z的所有候选先行语所在结点,得到候选先行语结点集Nz;

203、提取出候选先行语结点集Nz中每个候选先行语结点与关系代词结点Nr的句法树路径;

204、从步骤203得到的所有句法树路径中挑选出最短的句法树路径,并以该最短句法树路径所在的名词短语结点作为最近的名词短语结点。

3.根据权利要求1所述的一种基于句法树和领域特征的生物文本蛋白质指代消解方法,其特征在于:步骤(3)中先行语Ap的获得具体为:

301、以人称代词照应语Mp所在结点为起点,在句法树Ti中自底向上遍历,查找包含并列短语结构的结点Nc,判断结点Nc是否存在,若是,在句法树Ti中提取以结点Nc为根结点的句法子树STc,并在句法子树STc中查找距离人称代词照应语Mp所在结点最远的名词短语结点,得到人称代词照应语Mp的先行语Ap,否则,执行步骤302;

302、以人称代词照应语Mp所在结点为起点在句法树Ti中自底向上遍历,查找出子句结点Ns;提取出以子句结点Ns为根结点的句法子树STs,并在句法子树STs中查找距离人称代词照应语Mp所在结点最远的名词短语结点,判断该名词短语结点是否存在,若是,得到人称代词照应语Mp的先行语Ap,否则,执行步骤303;

303、从句法树集T中选择出句法树Ti-1,在句法树Ti-1中以最后一个叶结点为起点自底向上遍历,查找出子句结点Nt;提取以子句结点Nt为根结点的句法子树STt,并在该句法子树STt中查找与人称代词照应语Mp单复数相匹配的所有名词短语结点,得到候选先行语集Y;从候选先行语集Y中选择距离人称代词照应语Mp最远的候选先行语,得到人称代词照应语Mp的先行语Ap。

4.根据权利要求1所述的一种基于句法树和领域特征的生物文本蛋白质指代消解方法,其特征在于:步骤(3)中并列短语结构是指并列名词短语、并列动词短语或者并列子句结构。

5.根据权利要求1所述的一种基于句法树和领域特征的生物文本蛋白质指代消解方法,其特征在于:步骤(4)中先行语Ad的获得具体为:

401、判断限定性名词短语照应语Md的头词是否为“proteins”或“genes”,若是,从候选先行语集X中选择所有包含蛋白质实体的候选先行语,得到新的候选先行语集Xs,并从该新的候选先行语集Xs中,按照头词匹配、包含蛋白质实体数量大于1的顺序,挑选距离限定性名词短语照应语Md最近的候选先行语,得到限定性名词短语照应语Md的先行语Ad,否则,执行步骤402;

402、判断限定性名词短语照应语Md是否为复数形式,若是,从候选先行语集X中按照头词匹配、包含生物实体数量大于1、包含蛋白质实体数量大于1的顺序,挑选距离限定性名词短语照应语Md最近的候选先行语,得到限定性名词短语照应语Md的先行语Ad,否则,执行步骤403;

403、判断限定性名词短语照应语Md的头词是否为“protein”或“gene”,若是,从候选先行语集X中选择所有包含蛋白质实体的候选先行语,得到新的候选先行语集Xs,并从该新的候选先行语集Xs中,按照头词匹配、包含蛋白质实体数量等于1的顺序,挑选距离限定性名词短语照应语Md最近的候选先行语,得到限定性名词短语照应语Md的先行语Ad,否则,执行步骤404;

404、从候选先行语集X中按照头词匹配、包含生物实体数量等于1、包含蛋白质实体数量等于1的顺序,挑选距离限定性名词短语照应语Md最近的候选先行语,得到限定性名词短语照应语Md的先行语Ad。

6.根据权利要求1所述的一种基于句法树和领域特征的生物文本蛋白质指代消解方法,其特征在于:步骤(4)中的特定生物实体类型关键词,包括“protein”、“gene”、“factor”、“element”、“receptor”、“complex”和“construct”。

7.根据权利要求1所述的一种基于句法树和领域特征的生物文本蛋白质指代消解方法,其特征在于:步骤(4)的生物实体,其识别方法包括:由数字开头,并包含字母;由小写字母开头,并包含大写字母或数字或特殊符号;由大写字母开头,并包含数字或特殊符号;或者由大写字母开头,包含小写字母,并包含大写字母或特殊符号。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1