一种针对植物领域的非分类关系识别方法_2

文档序号:9887623阅读:来源:国知局
价值的非分 类关系上,如植物的地理分布、适生环境、病虫害、经济价值等;
[0069] 步骤S3:对依存句法分析的结果进行标注,即找出并标明句子中存在非分类关系 的概念,以及非分类关系的名称,记为Ri(Xi,Yi);
[0070] 其中,Ri为非分类关系名称,XuYi分别为该非分类关系名称所对应的实体与属性;
[0071] 步骤S4:统计Xi、Ri、Yi之间的依存关系序列,在其他标注Xj、Rj、Yj (i矣j)中的出现 次数;
[0072] 步骤S5:在人工剔除不符合语法的依存序列后,得到出现多次的依存关系序列,即 为表达非分类关系的词汇-语法模式;
[0073] 步骤S6:人为总结出一些表达非分类关系的词汇-语法模式,作为补充;
[0074] 步骤S7:其中,非分类关系的词汇-语法模式采用:依存关系,即头节点,依存节点, 对应非分类关系名称集,即施事概念,受事概念的形式表示;形式化为公式(1):
[0075]
(1)
[0076]公式中,Di为依存关系,Sl为关节点,U为依存节点,L为非分类关系名称集,A为施 事概念,B为受事概念;
[0077]其中,UAjSsdPt中指定的元素,公式表示:当所有依存关都满足时,L(A, B)关系成立;
[0078]步骤S8:对待提取的文档利用LTP进行预处理,然后将非分类关系的词汇-语法模 式匹配归结为,在依存树中寻找子树的问题,即对句子的依存树进行检测,如果依存树中存 在这些关节点和依存节点,其满足词汇-语法模式前件中的每项约束,则非分类关系的词 汇-语法模式匹配成功,并将这些节点和依存节点,按照非分类关系的词汇-语法模式的后 件,转化为非分类关系名称集L,获得初步抽取模块。
[0079] (4)对获得的初步抽取模块,进行改进,获得改进抽取模块;
[0080]具体步骤包括:
[0081 ]步骤S1:对初步抽取模块进行过滤,非分类关系名称集L的施事概念A与受事概念B 都在词表中出现时,则保留该非分类关系名称集L;
[0082]步骤S2:为手工设定的词汇-语法模式增加限制;所述的限制为单个限制或用约束 组合对象表示多个限制的组合,所述单个限制的数据结构图,如表1所示;
[0083]表1:单个限制的数据结构 [00841
[0085] 步骤S3:首先采用手工设定的词汇-语法模式,如SBV-HED-V0B在标注集上进行初 步抽取;
[0086]步骤S4:对于抽取成功的实例,将施事概念A、非分类关系名称L、受事概念B的词性 和词中的字,用图的方式表示为限制;
[0087] 步骤S5:计算这些限制的所有子集在标注集上的Laplacian值,Laplacian值采用 公式(2)计算:
[0088]
(2)
[0089]公式中,e为抽取的错误数,η为抽取的总数;Laplacian用来估计所添加的限制性 能的好坏,Laplacian值越低,表示该限制组合在标注集上抽取的表现越好。
[0090] (5)对改进抽取模块,基于百度百科半结构化文本的非分类关系抽取,获得非分类 关系抽取模块;
[0091] 具体步骤包括:
[0092] 步骤S1:分别对网页的D0M树进行解析处理,查找出其中表示百科名片中,词条基 本信息栏表格和正文中表示表格的HTML标签,获取表格中"分布区域"等表示非分类关系的 表项;
[0093]步骤S2:对非分类关系的表项进行LTP分词、命名实体识别处理;
[0094]步骤S3:将处理结果转化为对应的非分类关系三元组,其中,非分类关系名称集L 转化为表格中表项的名称,施事概念A转化为为词条名称,受事概念B转化为表项的内容。 [0095]步骤S4:经过总结,发现此步骤抽取的非分类关系均处于表示营养成分的主题列 表中,故非分类名称取为"营养成分"。
[0096] (6)对获得的非分来关系抽取模块,形式化表达,获得形式化表达模块;形式化表 达模块借组Protggg可视化插件OWLPropViz进行抽取结果的显示,表达结果如图2所示。
【主权项】
1. 一种针对植物领域的非分类关系识别方法,其特征在于,所述方法为: (1) 根据对植物领域关系的分类,对分类关系和非分类关系进行定义; 所述分类关系的定义为:分类关系表示概念与概念之间的上下位的关系;非分类关系 的定义为:非分类关系表示除了上下位关系W外的其它关系; 所述的分类关系包括层级关系和is-a关系;非分类关系包括整体部分关系及概念之间 的依赖关系、关联关系、因果关系和相似关系; (2) 获取相关词条的非结构化网页内容,作为语料,对语料进行预处理,获得预处理模 块; (3) 对获得的预处理模块,进行基于词汇-语法的非分类关系的初步抽取,获得初步抽 取模块; (4) 对获得的初步抽取模块,采用基于词表过滤和给模式添加限制的方法进行改进,获 得改进抽取模块;所述的限制为单个限制或用约束组合对象表示多个限制的组合; (5) 对获得的改进抽取模块,基于百度百科半结构化文本的非分类关系抽取,获得非分 类关系抽取模块; (6) 对获得的非分类关系抽取模块,进行形式化表达,获得形式化表达模块,最终获得 可视性结果。2. 根据权利要求1所述的一种针对植物领域的非分类关系识别方法,其特征在于,所述 步骤(2)的具体步骤为: 51、 利用语料采集脚本程序,从百度百科的植物分类下,获取词条作为语料; 所述语料采集脚本程序是根据每一个植物百科的url地址,寻找规律,一次性爬取下 来; 52、 将获取的语料,WGBK编码的文本文件的形式,进行存储; 53、 借助自然语言处理的开源工具LTP,对存储好的语料进行第一阶段的预处理,即分 词,该预处理基于条件随机场模型,进行训练和解码; 54、 借助自然语言处理的开源工具LTP,对存储好的语料进行第二阶段的预处理,即词 性标注,该预处理基于支持向量机模型,进行训练和解码; 55、 借助自然语言处理的开源工具LTP,对存储好的语料进行第S阶段预处理,即依存 句法分析,该预处理基于图模型的方法,获得预处理模块;其中,边权重使用Online Learning算法获得,解码算法使用的是Eisner算法。3. 根据权利要求1所述的一种针对植物领域的非分类关系识别方法,其特征在于,所述 步骤(3)的具体步骤为: 51、 从获得的预处理模块中,选取一小批植物百科中的植物品种词条,找出表达非分类 关系的语句; 52、 对找出的非分类关系语句进行依存句法分析; 53、 对依存句法分析的结果,进行标注,即找出并标明句子中存在的非分类关系的概 念,W及非分类关系的名称,记为RKXi,Yi); 其中,化为非分类关系名称,Xi,Yi分别为该非分类关系名称所对应的实体与属性; 54、 统计Xi、Ri、Yi之间的依存关系序列,在其他标注Xj、Rj、Yj (i辛j)中出现的次数; 55、 人工剔除不符合语法的依存关系序列后,得到出现多次的依存关系序列,即为表达 非分类关系的词汇-语法模式; 56、 手工总结一些表达非分类关系的词汇-语法模式,作为补充; 57、 其中,非分类关系的词汇-语法模式采用:依存关系,即关节点,依存节点,对应非分 类关系名称集,即施事概念,受事概念的形式表示;形式化为公式(1): A 心,公) (1) 公式中,Di为依存关系,Si为关节点,ti为依存节点,L为非分类关系名称集,A为施事概 念,B为受事概念; 其中,L、A、B为Si和ti中指定的元素,公式表示:当所有依存关系Di都满足时,L(A,B)关 系成立; 58、 对待提取的文档利用LTP进行预处理,然后将非分类关系的词汇-语法模式匹配归 结为,在依存树中寻找子树的问题,即对句子的依存树进行检测,如果依存树中存在运些关 节点和依存节点,其满足非分类关系的词汇-语法模式前件中的每项约束,则非分类关系的 词汇-语法模式匹配成功,并将运些关节点和依存节点,按照词汇-语法模式的后件,转化为 非分类关系名称集L,获得初步抽取模块。4. 根据权利要求1所述的一种针对植物领域的非分类关系识别方法,其特征在于,所述 步骤(4)的具体步骤为: 51、 对初步抽取模块进行过滤,当非分类关系名称集L的施事概念A与受事概念B都在词 表中出现时,则保留该非分类关系名称集レ 52、 为手工设定的词汇-语法模式增加限制; 53、 首先采用手工设定的词汇-语法模式,在标注集上进行初步抽取; 54、 对于抽取成功的实例,将其施事概念A、非分类关系名称集L、受事概念B的词性和词 中的字,用图的方式表示为限制; 55、 计算运些限制的所有子集在标注集上的Laplacian值;Laplacian值用公式(2)计 算:公式中,e为抽取的错误数,n为抽取的总数;其中Laplacian值越低,表示该限制组合在 标注集上抽取的表现越好。5. 根据权利要求1所述的一种针对植物领域的非分类关系识别方法,其特征在于,所述 步骤(5)的具体步骤为: 51、 分别对网页的DOM树进行解析处理,查找出其中表示百度百科名片中,词条基本信 息栏表格和正文中表不表格的HTML标签,获取表格中表不非分类关系的表项; 52、 对表示非分类关系的表项进行LTP分词、命名实体识别处理; 53、 将处理结果转化为对应的非分类关系=元组,其中,非分类关系名称集L转化为表 格中表项的名称,施事概念A转化为为词条名称,受事概念B转化为表项的内容。6. 根据权利要求1所述的一种针对植物领域的非分类关系识别方法,其特征在于,所述 的形式化表达模块借助Protggg可视化插件OWLPropViz,进行抽取结果的显示。
【专利摘要】本发明公开了属于计算机中文信息处理领域的一种针对植物领域的非分类关系识别方法。根据对植物领域关系的分类,对分类关系和非分类关系进行定义;获取相关词条的非结构化网页内容,作为语料并进行预处理,获得预处理模块;然后再进行基于词汇-语法的非分类关系的初步抽取,对获得的结果,进行改进,获得改进抽取模块;最后基于百度百科半结构化文本的非分类关系抽取,获得非分类关系抽取模块,对其进行形式化表达,获得可视性结果。该方法在对文本进行自然语言处理的基础上,直接用非分类关系词汇-语法模式进行抽取,准确率在70%左右,取得了较好的结果,为植物领域知识图谱构建奠定了基础,且为农民提供了更专业的植物领域技术和知识。
【IPC分类】G06F17/27
【公开号】CN105653522
【申请号】
【发明人】赵明, 杜会芳, 杜亚茹, 陈瑛, 张家军, 彭珺
【申请人】中国农业大学
【公开日】2016年6月8日
【申请日】2016年1月21日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1