农业知识图谱构建装置、方法及计算机可读存储介质与流程

文档序号:18619750发布日期:2019-09-06 22:22阅读:192来源:国知局
农业知识图谱构建装置、方法及计算机可读存储介质与流程
本发明涉及数据处理
技术领域
,尤其涉及一种农业知识图谱构建装置、方法及计算机可读存储介质。
背景技术
:知识图谱具有强大的数据描述能力,为智能化信息应用提供了技术基础,其通过推理实现概念检索,同时可以以图形化的方式向用户呈现结构化知识。知识图谱在多个领域均有应用,比如医疗、金融、教育、投资等具有关系存在的行业。但目前还尚未有成熟的农业知识图谱构建方式。技术实现要素:有鉴于此,有必要提供一种农业知识图谱构建装置、方法及计算机可读存储介质,其可实现针对农业领域构建农业知识图谱,提升农业领域数据管理效率及数据使用的便捷性。本发明一实施方式提供一种农业知识图谱构建方法,所述方法包括:获取一目标区域的农业领域数据,并基于获取的农业领域数据构建语料库;对所述语料库中的语料进行分词与词性标注处理,以识别出多个实体概念;根据预设筛选规则对识别出的实体概念进行筛选得到多个农业实体;对所述语料库中的语料进行解析与关系提取,得到多个所述农业实体之间的关联关系;根据每一所述农业实体以及每一所述农业实体之间的关联关系,建立农业知识图谱;从网络上爬取得到每一所述农业实体的百科信息;基于预设提取规则对爬取得到的百科页面内容进行提取,并将提取得到的内容添加至所述语料库和/或所述农业知识图谱;对爬取得到的百科页面内容进行相似度分析,得到每一所述农业实体的分类信息;及将每一所述农业实体的分类信息添加至所述农业知识图谱;其中,所述对爬取得到的百科页面内容进行相似度分析的步骤包括:提取每一所述百科页面内容中的多个指定特征;利用knn算法计算得到任意两个百科页面内容之间的每一特征组的相似度;及对计算得到的多个特征组的相似度进行加权运算得到所述任意两个百科页面内容的综合相似度。优选地,所述农业领域数据包括非结构化的农业领域数据及半结构化的农业领域数据。优选地,所述对所述语料库中的语料进行分词与词性标注处理,以识别出多个实体概念的步骤包括:利用预设词法分析工具对所述语料库中的语料进行分词与词性标注处理;及对词性标注的结果进行命名实体识别,以识别出多个实体概念。优选地,所述对所述语料库中的语料进行解析与关系提取,得到多个所述农业实体之间的关联关系:对所述语料库中的语料进行解析得到词法信息、句法信息及语义信息;及将所述解析得到的词法信息、句法信息及语义信息输入至预先训练的关系提取模型,得到多个所述农业实体之间的关联关系。优选地,所述根据每一所述农业实体以及每一所述农业实体之间的关联关系,建立农业知识图谱的步骤包括:将每一所述农业实体的名称标识以及每一所述农业实体之间的关联关系导入至预设图形数据库,并进行可视化转换得到所述农业知识图谱。本发明一实施方式提供一种农业知识图谱构建装置,所述农业知识图谱构建装置包括处理器及存储器,所述存储器上存储有若干计算机程序,所述处理器用于执行存储器中存储的计算机程序时实现上述的农业知识图谱构建方法的步骤。本发明一实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现上述的农业知识图谱构建方法的步骤。与现有技术相比,上述农业知识图谱构建装置、方法及计算机可读存储介质,可以实现构建一指定区域的农业知识图谱,提升农业领域数据管理效率及数据使用的便捷性,可以辅助农民进行作物生产、企业采购,为大众科普农业知识。附图说明图1是本发明一实施方式的农业知识图谱构建装置的结构示意图。图2是本发明一实施方式的农业知识图谱构建系统的功能模块图。图3是本发明另一实施方式的农业知识图谱构建系统的功能模块图。图4是本发明一实施方式的农业实体为豌豆的百科页面内容的特征划分示意图。图5是本发明一实施方式的农业知识问答的推理示意图。图6是本发明一实施方式的农业知识图谱构建方法的流程图。主要元件符号说明如下具体实施方式将结合上述附图进一步说明本发明。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。请参阅图1,为本发明农业知识图谱构建装置较佳实施例的示意图。所述农业知识图谱构建装置100包括存储器10、处理器20以及存储在所述存储器10中并可在所述处理器20上运行的计算机程序30,例如农业知识图谱构建程序。所述处理器20执行所述计算机程序30时实现农业知识图谱构建方法实施例中的步骤,例如图6所示的步骤s600~s608。或者,所述处理器20执行所述计算机程序30时实现农业知识图谱构建系统实施例中各模块的功能,例如图2中的模块101~105或者图3中的模块101~107。所述计算机程序30可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器10中,并由所述处理器20执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序30在所述农业知识图谱构建装置100中的执行过程。例如,所述计算机程序30可以被分割成图2中的获取模块101、处理模块102、筛选模块103、解析模块104及建立模块105,或者被分割成图3中的获取模块101、处理模块102、筛选模块103、解析模块104、建立模块105、分类模块106及添加模块107。各模块具体功能参见农业知识图谱构建系统实施例中各模块的功能。所述农业知识图谱构建装置100可以是电脑、服务器等计算设备。本领域技术人员可以理解,所述示意图仅是农业知识图谱构建装置100的示例,并不构成对农业知识图谱构建装置100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述农业知识图谱构建装置100还可以包括输入输出设备、网络接入设备、总线等。所称处理器20可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器20也可以是任何常规的处理器等,所述处理器20可以利用各种接口和线路连接农业知识图谱构建装置100的各个部分。所述存储器10可用于存储所述计算机程序30和/或模块,所述处理器20通过运行或执行存储在所述存储器10内的计算机程序和/或模块,以及调用存储在存储器10内的数据,实现所述农业知识图谱构建装置100的各种功能。所述存储器10可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。图2为本发明农业知识图谱构建系统较佳实施例的功能模块图。参阅图2所示,农业知识图谱构建系统40可以包括获取模块101、处理模块102、筛选模块103、解析模块104及建立模块105。在一实施方式中,上述模块可以为存储于所述存储器10中且可被所述处理器20调用执行的可程序化软件指令。可以理解的是,在其他实施方式中,上述模块也可为固化于所述处理器20中的程序指令或固件(firmware)。所述获取模块101用于获取一目标区域的农业领域数据,并基于获取的农业领域数据构建语料库。在一实施方式中,所述目标区域可以根据实际的使用需求进行设定,比如若需要建立一指定市的农业知识图谱,则该目标区域的农业领域数据可以是该指定市的农业领域数据,若需要建立一指定县的农业知识图谱,则该目标区域的农业领域数据可以是该指定县的农业领域数据。所述农业领域数据可以是非结构化数据、半结构化数据,所述非结构化数据比如可以是农产品图片、音频、视频,所述半结构化数据比如可以是包含有农业数据的xml、json,包含有农业数据的农业百科页面。所述农业领域数据包括但不限于蔬菜数据、水果数据、种子数据、畜牧数据、家禽数据、水产数据、化肥数据、饲料数据、天气数据、自然灾害数据等。在一实施方式中,所述获取模块101获取农业领域数据的方式包括但不限于通过网络爬虫技术、访问已购买的农业商用数据库、行业研究报告、使用公开农业数据集、使用搜索引擎等。当所述获取模块101获取得到目标区域的农业领域数据后,对获取得到的农业领域数据进行预处理来构建语料库。所述预处理比如是指对非结构化数据及半结构化数据进行处理来得到语料,再汇集处理得到的语料来构建所述语料库。所述处理模块102用于对所述语料库中的语料进行分词与词性标注处理,以识别出多个实体概念。在一实施方式中,所述处理模块102可以利用预设词法分析工具对所述语料库中的语料进行分词与词性标注处理,再对词性标注的结果进行命名实体识别,以识别出多个实体概念。举例而言,所述处理模块102利用thulac中文词法分析工具包对所述语料库中的语料进行分词与词性标注处理,当识别为命名实体的,通过预设标注标注出来,当识别为非命名实体的,不进行标注。所述筛选模块103用于根据预设筛选规则对识别出的实体概念进行筛选得到多个农业实体。在一实施方式中,所述农业实体可以是属于农业领域的实体,比如,所述农业实体可以是蔬菜实体、水果实体、种子实体、畜牧实体、家禽实体、水产实体等。由于多个实体概念中可能包含有非农业实体,所述筛选模块103还根据预设筛选规则对识别出的实体概念进行筛选得到多个农业实体。所述预设筛选规则可以根据实际使用需求进行设定,比如,所述预设筛选规则可以是关键字筛选,或者采用预设词组合和词性规则来扫描所得到的实体概念,进而来过滤掉不是农业实体的部分。所述词性规则比如是:若为动词,则认定不是农业实体。所述解析模块104用于对所述语料库中的语料进行解析与关系提取,得到多个所述农业实体之间的关联关系。在一实施方式中,所述解析模块104可以对所述语料库中的语料进行语句解析得到词法信息、句法信息及语义信息,再利用预先训练的关系提取模型对解析到的词法信息、句法信息及语义信息进行分析,以得到多个所述农业实体之间的关联关系。在一实施方式中,当对一语料进行解析时,所述解析模块104可以通过生成该语料的句法分析树来获得该语料的词法信息和句法信息,可以通过对语料的结构进行分析得到该语料的语义信息。在一实施方式中,可以采用远程监督的方式来获取用于训练所述关系提取模型的训练样本数据,比如可以将已有的知识对应到非结构化语料中,从而生成大量的训练样本数据,然后基于训练样本数据及机器学习算法来训练得到所述关系提取模型,所述机器学习算法可以是神经网络算法、归纳算法。该些知识的来源可以是人工标注、现有的知识库或特定的语句结构。举例而言,对于特定的语句结构可以认为是指定,如指定“a是一种b”结构为子类关系,则a-子类关系-b。比如“香蕉是一种热带水果”,通过特定语句结构解析得到:香蕉-子类关系-热带水果。所述建立模块105用于根据每一所述农业实体以及每一所述农业实体之间的关联关系,建立农业知识图谱。在一实施方式中,当每一所述农业实体之间的关联关系被建立后,所述建立模块105可以根据每一所述农业实体以及每一所述农业实体之间的关联关系建立得到所述农业知识图谱。在一实施方式中,以所述农业实体包括蔬菜实体、水果实体、畜牧实体、水产实体及化肥实体为例,所述建立模块105可以通过以下方式来实现构建所述农业知识图谱:所述建立模块105获取蔬菜实体、水果实体、畜牧实体、水产实体及化肥实体的名称标识,并基于获取的蔬菜实体、水果实体、畜牧实体、水产实体及化肥实体的名称标识构建农业知识图谱框架,再将每一农业实体之间的关联关系填充至所述农业知识图谱框架,得到所述农业知识图谱。在一实施方式中,所述建立模块105还可以将每一所述农业实体的名称标识以及每一所述农业实体之间的关联关系导入至预设图形数据库,并通过所述预设图形数据的可视化转换得到所述农业知识图谱。比如,所述预设图形数据库可以是noe4j图形数据库,所述建立模块105将每一所述农业实体的名称标识以及每一所述农业实体之间的关联关系导入至noe4j图形数据库并进行可视化,可以生成所述农业知识图谱。请同时参阅图3,与图2相比,所述农业知识图谱构建系统40还包括分类模块106及添加模块107。所述分类模块106用于从网络上爬取得到每一所述农业实体的百科信息,并对爬取得到的百科页面内容进行相似度分析,得到每一所述农业实体的分类信息。在一实施方式中,对于被认定为农业实体的词条,所述分类模块106可以在互动百科/百度百科等公开的百科网站中进行爬取得到每一所述农业实体的百科信息,抛弃不存在的页面或者错误的页面,再对爬取得到的百科页面内容进行相似度分析,得到每一所述农业实体的分类信息。在一实施方式中,所述分类模块106可以根据百科页面内容提取得到每一百科页面内容的多个指定特征,再利用临近算法(knn算法)计算得到任意两个百科页面内容之间的每一特征组的相似度,并对计算得到的多个特征组的相似度进行加权运算得到所述任意两个百科页面内容的综合相似度,即得到与该两个百科页面内容对应的两个农业实体的综合相似度,实现由农业实体a的类别推断出农业实体b的类别。举例而言,每一百科页面内容中包括第一至第三指定特征,每一特征组的相似度可以是两个百科页面内容的第一指定特征之间的相似度、第二指定特征之间的相似度、第三指定特征之间的相似度。如图4所示,假设农业实体为豌豆,图4示意出了豌豆的百科页面内容。该豌豆的百科页面内容包括四个指定特征,其中第一指定特征为标题,第二指定特征为开放分类,第三指定特征为内容简介、第四指定特征为基本信息。所述分类模块106通过knn算法计算两个百科页面内容之间的相似度的方式可以是:a).计算两组“标题”之间的词向量的余弦相似度;b).计算两组“开放分类”之间的词向量的余弦相似度;c).计算两组“基本信息”中重复项的个数,以得到一相似度;d).计算两组“内容简介”的重合率;e).将上述a-d的运算结果进行加权运算得到该两个百科页面内容之间的综合相似度。可以理解的是,可以预先为第一至第四指定特征设置对应的权重系数,进而可以根据权重系数与a-d的运算结果进行加权运算得到该两个百科页面内容之间的综合相似度。所述添加模块107用于将每一所述农业实体的分类信息添加至所述农业知识图谱。在一实施方式中,所述添加模块107可以将每一所述农业实体的分类信息添加至所述农业知识图谱,进而可以实现农业知识概览功能与农业实体分类树功能。在一实施方式中,所述添加模块107还可以基于预设提取规则对爬取得到的百科页面内容进行提取,并将提取得到的内容添加至所述语料库。所述预设提取规则可以是针对百科页面的指定区域内容进行提取。在本发明的其他实施方式中,所述添加模块107还可以基于预设提取规则对爬取得到的百科页面内容进行提取,并将提取得到的内容添加至所述农业知识图谱。在一实施方式中,为了确保所述农业知识图谱的准确性,可以设定一预设更新规则来对所述农业知识图谱进行更新。所述预设信息更新规则可以根据实际使用需求进行设定,比如所述预设信息更新规则可以包括每月更新一次所述农业知识图谱。在一实施方式中,可以利用所述建立得到的农业知识图谱实现以下功能:1).农业实体识别功能,可以实现识别出非结构化文本中的农业实体及其农业类型。举例而言,某一非结构化文本内容为:“化学肥料简称化肥。用化学和(或)物理方法制成的含有一种或几种农作物生长需要的营养元素的肥料,也称无机肥料,包括氨肥、磷肥、钾肥、微肥、复合化肥等。通过所述农业知识图谱可以得到的识别结果为:化学肥料简称化肥。用化学和(或)物理方法制成的含有一种或几种农作物生长需要的营养元素的肥料,也称无机肥料,包括氨肥、磷肥、钾肥、微肥、复合化肥等。其中,划线内容为识别的实体。2).农业实体百科功能,可以展示农业实体的基本信息、农业类型等信息。比如查询的农业实体为“豌豆”,所述农业知识图谱可以展示百科词条“https://baike.baidu.com/item/豌豆/822636?fr=aladdin”所显示的部分/全部内容。3).农业知识概览功能,可以实现对农业知识进行归类。举例而言,对水果进行归类。分类专题:水果上级分类:食品农业-可以食用的植物下级分类:水果种类在一实施方式中,还可以以水果名称首字母进行分类显示。比如:4).农业实体分类树功能,实现将农业实体类别组织成树状结构进行展示。举例而言,以农业为根节点进行树状结构展示,可得到:农业5).关联实体查询功能,输入实体可以查询得到与之有关联的实体与关系信息。举例而言,输入的农业实体为香蕉,可得到以下信息:实体1关系实体2香蕉子类关系浆果香蕉子类关系水果香蕉子类关系热带亚热带水果香蕉不同于大蕉香蕉颜色黄色香蕉颜色褐色香蕉颜色红色香蕉颜色绿色香蕉分类单元的自然产物芭蕉属香蕉分类单元的自然产物小果野蕉杂交野蕉………………6).农业知识问答功能,实现对输入的农业知识问题进行解答。举例而言,问题为“阜阳市太和县适合种什么?”根据图5所示的推理依据,可以得到答案是:山毛榉核桃阔叶树蒙古栎藤本槭属。图6为本发明一实施方式中农业知识图谱构建方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。步骤s600,获取一目标区域的农业领域数据,并基于获取的农业领域数据构建语料库。步骤s602,对所述语料库中的语料进行分词与词性标注处理,以识别出多个实体概念。步骤s604,根据预设筛选规则对识别出的实体概念进行筛选得到多个农业实体。步骤s606,对所述语料库中的语料进行解析与关系提取,得到多个所述农业实体之间的关联关系。步骤s608,根据每一所述农业实体以及每一所述农业实体之间的关联关系,建立农业知识图谱。上述农业知识图谱构建装置、方法及计算机可读存储介质,可以实现构建一指定区域的农业知识图谱,提升农业领域数据管理效率及数据使用的便捷性,可以辅助农民进行作物生产、企业采购,为大众科普农业知识。对本领域的技术人员来说,可以根据本发明的发明方案和发明构思结合生产的实际需要做出其他相应的改变或调整,而这些改变和调整都应属于本发明所公开的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1