一种农业本体自动扩充方法

文档序号:8361529阅读:310来源:国知局
一种农业本体自动扩充方法
【技术领域】
[0001] 本发明涉及自然语言处理领域,更具体涉及一种农业本体自动扩充方法。
【背景技术】
[0002] 随着我国当前市场经济改革的不断深入,农产品价格受到特定的市场经营和流通 环境的影响因素越来越严重,产品价格的波动加剧,给当地政府的宏观经济调控,合理规划 产业发展带来更多要求。因此,掌握和了解我国各地区农产品价格差异,将有利于正确引导 农业生产和农产品流通,实现农产品供求平衡;有利于政府部门调整农业结构,有效解决三 农问题。
[0003] 其实,中国已经存在很多网络报价平台,但是其存在如下几个问题:没有品种上的 差别。例如,报价平台往往只会给出西瓜的价格,不会具体到各个西瓜品种的价格;没有区 域上的差别,报价平台往往不会给出农产品的产地。这些数据都无法为商业决策提供足够 的信息,所以需要细粒度的农产品价格挖掘研宄。
[0004] 细粒度的农产品价格挖掘首先需要一个细粒度的农产品本体。在农业领域中,联 合国粮农组织2000年实施了农业本体服务研宄计划,其主要目标是构建和集成多种语言 的农业本体集合(即AGROVOC),提供各国的农业信息系统使用,从而为在农业领域开展数 据挖掘、知识表示、自动标引、信息分类、智能检索、多语互译、知识发现等应用创造条件。
[0005] 但是农业本体是一种特定领域的本体,目前大部分现存的农业本体(即使是 AGROVOC)都是通过手工来进行创建和维护的,需要大量的背景知识和大量的人力劳动。随 着本体粒度的深化,创建过程变得极其繁杂,正确率难以得到保证,最终导致本体构建的成 本费用极其高昂。另外,随着互联网的发展,农业领域知识日新月异,这些知识一般都无法 在现存本体中得到,农业本体的更新问题变得极为迫切,因此需要进行农业领域本体自动 扩充方法与装置。
[0006] 目前本体扩展方法主要有两大类:基于规则的本体扩展和基于统计的本体扩展。 基于规则的方法根据具体的领域本体特征人工构建扩展规则,其特点是方法结构简单,但 是需要大量人工来构建规则。基于统计的方法主要采用机器学习方法,其特点是整个方法 基本自动化,但是需要大量的人工标注的数据作为输入。

【发明内容】

[0007] (一)要解决的技术问题
[0008] 本发明要解决的技术问题是提供一种农业本体自动扩充方法,能够进行农业本体 自动搜集与扩充,解决目前本体自动扩充方法中的大量人工问题,实现自动化。
[0009] (二)技术方案
[0010] 为了解决上述技术问题,本发明提供了一种农业本体自动扩充方法,所述方法包 括如下步骤:
[0011] S1、收集农业本体数据信息,并进行预处理;其中,农业本体数据信息包括维基百 科中无结构化文本信息、Infobox文本信息、Category文本信息,现存农业本体信息;
[0012] S2、从维基百科的Infobox文本信息和Category文本信息中,抽取农业领域的词 项作为候选词项集;
[0013] S3、基于所述现存的农业本体信息,对于所述候选词项集中的每一个候选词项,从 维基百科的无结构化文本信息、Infobox文本信息、Category文本信息中抽取可能的上位 词,形成对应的上位词选集;
[0014] S4、对于每一个所述候选词项,将其上位词选集中的词项进行排序,并确定所述候 选词项在现存农业本体中的上位词。
[0015] 优选地,所述步骤Sl中,对所述农业本体数据信息进行预处理具体为:
[0016] 对于维基百科无结构化文本信息,经过单词识别、形态还原以及词性标注后抽取 中心词;
[0017] 对于维基百科中Infobox文本信息和Category文本信息,进行形态还原和中心词 去抽取;
[0018] 对于现存农业本体信息,将现存农业本体中的每个词项进行形态还原和抽取中 心词,并将中心词相同的词项归为一类;其中,所述中心词的列表记为TH= Ithj, j = 1,2, 3...,m}〇
[0019] 优选地,所述步骤S3中,抽取上位词具体为:
[0020] 利用现存农业本体中的中心词,从对应于候选词项的维基百科篇章中的无结构化 文本,抽取出候选词项的上位词,形成第一上位词选集;
[0021] 利用现存农业本体中的中心词,从对应于候选词项的维基百科篇章中的category 文本信息中抽取出候选词项的上位词,形成第二上位词选集;
[0022] 利用现存农业本体中的中心词,从对应于候选词项的维基百科篇章中的infobox 文本信息中抽取出候选词项的上位词,形成第三上位词选集;
[0023] 所述第一上位词选集、第二上位词选集和第三上位词选集合合并形成所述候选词 项对应的上位词选集。
[0024] 优选地,所述步骤S3之后,将所述中心词的列表中的每一个中心词,统计其在维 基百科无结构化文本中出现的次数,记录进频数集合中。
[0025] 优选地,步骤S4具体包括:
[0026] S41、如果候选词项是一个短语,则采用基于短语的排序策略对对应的上位词选集 中的上位词进行排序,并确定所述候选词项在现存农业本体中的上位词;
[0027] S42、如果候选词项是一个词,则采用基于词的排序策略对对应的上位词选集中的 上位词进行排序,并确定所述候选词项在现存农业本体中的上位词。
[0028] 优选地,所述步骤S41具体包括:
[0029](1)初始化候选上位词收集器;
[0030] (2)采用基于修饰图的排序方法对所述第一上位词选集中的上位词进行排序,选 择前k个上位词,形成第四上位词选集;
[0031] (3)对于所述第四上位词选集,第二上位词选集和第三上位词选集中的每个上 位词,用下列公式(1)计算其分值,如果所述上位词出现在所述第四上位词选集中,则将 score (A,TCGR) = 1 ;如果所述候选上位词出现在所述第二上位词选集中,则将score (A, TCCN) =I;如果所述候选上位词出现在所述第第三上位词选集中,则score(A,TCIB) =I
[0032] Score(A) =score(A,TCGR)+score(A,TCCN)+score(A,TCIB) (I)
[0033] (4)候选上位词抽取,对于所述第四上位词选集,第二上位词选集和第三上位词选 集中的每一个上位词,如果其利用公式(1)计算的分值大于1,则将对应的上位词添加到候 选上位词收集器中;如果候选上位词收集器为空的话,那么将所述第四上位词选集中第一 个上位词添加到候选上位词收集器中。
[0034] 优选地,采用修饰图的排序方法对所述第一上位词选集中的上位词进行排序,具 体包括:
[0035] (1)对于所述第二上位词选集中的每一个上位词,根据U(B,n)构建修饰图,其中 U(B,n)是上位词B在现存农业本体的N层范围内所有上位词的集合;
[0036
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1