一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统与流程

文档序号:22833846发布日期:2020-11-06 16:24阅读:152来源:国知局
一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统与流程
本发明涉及食品安全
技术领域
,具体涉及一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统。
背景技术
:在日常生活中,为了达到健康生活的目的,人们就不得不谈及到食品安全,食品安全的重要性不言而喻,好的食物能让人们保持良好的健康状态,而人们良好的营养和健康状态更是人类经济发展的前提,同样也是社会经济发展的前提。没有好的食物,人们健康不仅会受到损害,从宏观来看,社会也得不到发展。质量糟糕的食物往往会让人们有一番“痛苦的经历”,“病从口入”,差的食物不仅让人们饱受身体病痛的折磨,甚至也会引起心理的不舒畅。因此,在如今的社会中,想要让人类社会持续健康发展,食品安全的保障便是重中之重。在科学知识领域,我们也取得了各方各面的长足进步。在大数据时代,如何有效地管理并运用海量的数据,如何构建规模庞大,质量还高的知识库是众多科研人员津津乐道的话题。而知识图谱就完美的解决了这个问题。举个例子,我国的辞海是由上万名专家花了十数载编撰而成,然而辞海所拥有的词条不过仅仅十几万条,再看看现在随便一个互联网上的知识图谱例如dbpedia,轻轻松松就拥有上千万的实体。另一方面,知识图谱作为实现机器认知智能的基础,可以帮助机器实现理解与解释两大过程。使用效率之高,涉及领域之广泛等等优良特点都使得知识图谱在现实如今的学术研究中的地位越来越重要。本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:但在我国国内,虽然针对食品安全的研究数不胜数,结合知识图谱的研究较少,且知识图谱多用于食品安全问题研究趋势的文献研究法或问答系统的构建,少有利用知识图谱来分析食物和健康症状关联的研究。现有技术中的研究方法大多具有复杂定位不精确缺点,因此导致分析效果不佳。技术实现要素:本发明提供了一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统。用以解决现有技术中关联系性分析效果不佳的技术问题。为了解决上述技术问题,本发明第一方面提供了一种基于知识图谱的食物成分和营养健康的关联性分析方法,包括:s1:在模式层对实体-关系-实体的三元组成的知识数据库进行定义,其中三元组用以描述现实世界中的实体和关系;s2:获取待分析的食品数据,并对获取的待分析的食品数据进行后处理;s3:根据模式层对知识数据库的定义,从获取的待分析的食品数据中逐一提取出实体和对应关系;s4:利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。在一种实施方式中,s1中实体包括但不限于食物种类、食物名称、成分和症状。在一种实施方式中,s2具体包括:s2.1:利用爬虫工具,对目标网站进行所需数据的批量爬取,得到待分析的食品数据;s2.2:对待分析的食品数据进行格式转换,转换为知识图谱可处理的格式。在一种实施方式中,s3具体包括:s3.1:利用知识图谱工具创建一个项目;s3.2:将后处理后的数据进行上传,并构建概念体系;s3.3:根据概念体系,确定实体的属性值和实体之间关系的属性值;s3.4:对上传的数据按照模式层定义的三元组进行文档标注,并构建与上传的数据相应的三元组,三元组包括实体和对应关系,根据三元组创建知识图谱。在一种实施方式中,s4中食品的成分和食品的类别既属于食品的属性,又被作为一项单独实体与食品并列分析。在一种实施方式中,最终的分析结果中成分属性与健康症状直接关联。基于同样的发明构思,本发明第二方面提供了一种基于知识图谱的食物成分和营养健康的关联性分析系统,包括:数据结构定义模块,用于在模式层对实体-关系-实体的三元组成的知识数据库进行定义,其中三元组用以描述现实世界中的实体和关系;数据获取模块,用于获取待分析的食品数据,并对获取的待分析的食品数据进行后处理;提取模块,用于根据模式层对知识数据库的定义,从获取的待分析的食品数据中逐一提取出实体和对应关系;融合模块,用于利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:本发明提供了一种基于知识图谱的食物成分和营养健康的关联性分析方法,首先在模式层进行知识数据库的定义,然后获取待分析的数据并进行后处理,接着,提取出实体和对应关系,再利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。利用爬虫对所研究对象的数据进行爬取后,再利用知识图谱进行处理,将二者工具相结合,可做到对研究对象的进准定位,对研究知识的精准度较高,不会有一些无用操作,也不会有过多的一些无用重复数据。进一步地,根据研究对象的性质和研究的需求确定数据层和模式层,利用知识图谱工具进行数据处理后提取出关系和实体,得到的知识图谱,得到的概念属性关系明确,可视化程度高,结果易读,知识图谱的网络结构简单清晰明了的揭示了研究对象间的关联性,对于对象的共性与差异也一目了然。进一步地,由于知识图谱的结构沿用了图论算法,数据的检索和查询沿用了图遍历算法,相比传统检索方式效率大大提高,对于大批量数据的存储和展示更具有优势。进一步地,由于知识图谱的可更新性,利用此方法研究的对象可以进行保存更新,当某些新数据被发现或者旧数据被纠正可以直接进行更新,可以保障此方法研究问题的生存周期,不会因为数据更新而从头开始研究,工作量大大减少。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明提供的一种基于知识图谱探究营养健康与食物成分属性关联性的方法的技术框图;图2为本发明实施例中养生网站食物样例图;图3为本发明实施例中数据爬取定义规则图;图4为本发明实施例中数据爬取后的示意图;图5为本发明实施例中属性的创建以及编辑图;图6为本发明实施例中资源标注主界面示意图;图7为本发明实施例中三元组的建立示意图;图8为本发明实施例中知识融合界面示意图;图9为本发明实施例中知识图谱局部展示图;图10为本发明实施例中知识图谱全体与局部展示图。具体实施方式本发明主要是基于食品领域提出的一种基于知识图谱探究营养健康与食物成分属性关联性的方法,本发明考虑了传统方法准确度不够高、效率较低、可读性不强和过程较为复杂的缺点,提出更清晰明了的研究方法。通过本发明得出的结果更加直白,更加清晰明了。本发明基于知识图谱的基础上对安全领域进行研究,从广泛知识图谱构建例子总结而言,知识图谱的构建一般有两种方法:自顶向下以及自底向上两种方法。自顶向下法是指先确认知识图谱的数据模型,再收集数据。先为知识图谱确定好本体和数据模式,利用各种百科维基等数据源提取出本体信息以及模式信息,然后再加入到数据库中,可将其分为两步,构建知识图谱模式层的本体构建以及将所抽取到的知识实体匹配并填充到构建的模式实体中。对于特定领域,由于其组织结构和关系较为明确,在收集数据之前可以清晰的确定好数据组织结构,因此多采用自顶向下的构建方法。而对于自底向下法,则可将其分为三步:知识抽取,知识加工以及知识融合。简单来说,就是从各种百科维基等数据源中提取出实体属性关系,然后往上归纳组织,最后形成一层,称为模式层。由于在公共领域,构建知识图谱涉及到海量的数据,开始的时候不知道数据的范围和使用方法。这样只有在收集到数据后,根据数据的内容和特点,建立相应的数据模型。本发明采用的是自顶向下的方式构建知识图谱。在知识图谱建立完毕之后,往往会有知识推理和知识更新来进一步完善所制作的知识图谱。知识推理即是由现有的实体和关系推理出知识图谱中没有明确表示的关系或者属性。一般知识推理可以分为两类,基于图的推理以及逻辑推理。而知识更新则更加强调的是知识图谱随着时间流逝发生改变而另外需要的增加或者删除等操作,知识更新实际意义上就是一个知识库的更新迭代的过程。知识更新主要分为两个部分:概念层的更新和数据层的更新。前者增加或者删除新老的概念,更改知识图谱的结构。后者则是实体属性和关系的更新,需考虑到数据源的准确性以及一致性。由于知识更新的存在,此方法的得到的实验结果也可以进行更新,通过更新数据,从而更新实验结果,并不需要从头开始,故实验结果的生命周期长。为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。实施例一本发明提供了一种基于知识图谱的食物成分和营养健康的关联性分析方法,该方法包括:s1:在模式层对实体-关系-实体的三元组成的知识数据库进行定义,其中三元组用以描述现实世界中的实体和关系;s2:获取待分析的食品数据,并对获取的待分析的食品数据进行后处理;s3:根据模式层对知识数据库的定义,从获取的待分析的食品数据中逐一提取出实体和对应关系;s4:利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。具体来说,其主要步骤包括数据模式层的定义(s1)、数据的获取和后处理(s2)以及知识图谱的绘制(s3~s4)。请参见图1,为整体的技术路线图。s1中,在本质上,知识图谱可以看作三元组“实体-属性-实体”组成的结构化知识库,主要就由模式层和数据层组成。具体地说,信息可视化技术、信息科学、图形学等等学科的知识的综合利用并结合计量引文分析、引文分析来对研究事物的核心结构、发展历史等等信息加以表述的工具就可以成为知识图谱。为了对众多的数据进行统一的,标准化的归纳整理,从而得到自己所需要的语义信息,需要对数据模式层进行定义。模式层需要对实体-关系-实体的三元组成的知识数据库进行定义,这个三元组描述了现实世界中的实体和关系。s2是针对数据源提取数据和对数据进行后处理,以便于基于知识图谱对成分属性和营养健康的关联性进行分析,s3和s4是基于爬虫获取并处理好的数据,利用知识图谱工具对成分属性和营养健康的关联性进行分析。在一种实施方式中,s1中实体包括但不限于食物种类、食物名称、成分和症状。举例来说,例如“开心”就是“心情”的一个实例。本文定义了四个重要的概念,分别是:食物种类,食物名称、食物成分、症状。“食物种类”指的是食物的所属种类,例如蔬菜、水果等等,“食物名称”就是泛指人们日常生活中所食用的各类食品称呼,例如鸡蛋、豆腐、韭菜等等,而“食物成分”也可以看成食物所含的物质,可以是“营养物质(元素)”也可以是“有害物质”。而“症状”这里指的有好的症状,比如“健脾养胃”“生津解渴”等等,也包含了不好的症状,比如“血糖升高”“血压升高”等等。在一种实施方式中,s2具体包括:s2.1:利用爬虫工具,对目标网站进行所需数据的批量爬取,得到待分析的食品数据;s2.2:对待分析的食品数据进行格式转换,转换为知识图谱可处理的格式。具体来说,首先确定爬虫工具,然后通过使用爬虫工具,对目标网站进行所需数据的批量爬取,得到所需要的目标数据。再通过爬虫工具自带的数据下载功能,对数据的导入和导出,将爬取数据的数据格式转换为之后知识图谱可处理的格式。在具体的实施过程中,数据源的获取主要来自养生网站,利用爬虫软件例如集搜客对食材养身网页进行数据爬取,所选取的养生网站样例如图2所示。使用爬虫工具定义爬取规则,图3为爬取定义规则,爬取所需要的数据。数据爬取完之后,将数据进行下载后并导入导出,得到最后表格模式的数据源。在本次实验中,数据采取了514项。如图4,为部分数据采集之后导出的表格数据。在一种实施方式中,s3具体包括:s3.1:利用知识图谱工具创建一个项目;s3.2:将后处理后的数据进行上传,并构建概念体系;s3.3:根据概念体系,确定实体的属性值和实体之间关系的属性值;s3.4:对上传的数据按照模式层定义的三元组进行文档标注,并构建与上传的数据相应的三元组,三元组包括实体和对应关系,根据三元组创建知识图谱。下面介绍知识图谱的相关知识,从知识图谱概念问世以来,再经过“大数据时代”的进一步发展,知识图谱技术渐渐得到了越来越多的关注,然而技术资料的稀少使得人们并没有完全了解到知识图谱的内涵和价值。在2006年就有了关于语义网的概念,随着人们对数据搜索的需要以及搜索质量的要求,知识图谱技术成为了人们研究的热潮。近些年来,因为知识图谱能够很好的表明知识的发展进程和结构关系的这一特性,利用知识图谱进行研究已经成为了普遍现象。有对中国能源生物质能源研究的知识图谱,也有对中医知识图谱的构建,用知识图谱去研究大学生课程信息关联分析等等,知识图谱涉及领域极其广泛,其未来的发展与应用也是呈一片欣欣向荣之势。另一方面,科技的发展带动了人民生活质量的提高,其中最为普遍提及的便是食物了,从早期社会的食不果腹走向了如今年年有鱼。“民以食为天”,食物与健康的话题并不会像流行事物一样随着时间流逝而热度消散,相反的,这个自古以来就受到人们关注的话题越来越受到重视并显示出其拥有被研究的价值。仿佛流行事物一般,食物与健康的研究从来没被冷落过:喻兵等人的多维度的饮食健康推荐,为人们阐述了什么是多维度的饮食健康,并系统的推荐了健康饮食。还有赵红艳等人对回族饮食习俗以及健康状况的研究,以宁夏回族为例进行饮食与健康的状况的研究,以发现饮食与健康之间紧密的关系。以及从食物类别上研究的功能性食品与健康等等,并且其研究热度甚至愈演愈烈。其中,步骤s3.1利用知识图谱工具为所进行的研究,创建一个新的项目并为新创建的项目进行命名和保存,作为项目的开始。步骤s3.2将导入导出后的数据即转换格式后的数据进行资源上传,并就研究的对象创建相应的概念体系。具体实施是,在项目创建完毕之后进入创建的项目之中,然后可以进行上传整理后的搜取数据。数据格式可以是多种,如doc,xls等等,上传完毕之后,随后进行概念体系的构建,在本次研究的概念体系中,主要定义了“食物种类”“食物名称”“症状”三个概念,而“食物种类”下又包含四个子概念,分别为“蔬菜”“水果”“水产”“肉类”,在系统中分别进行输入。步骤s3.3根据概念体系针对研究对象即对每一个实体对象进行其属性的创建以及编辑,确认实体的属性值和实体之间关系的属性值。在进行概念体系构建完毕之后就可以进行属性管理了,依次进行属性的创建、属性的编辑,本次实验中创建的属性有三个,分别是“归属”“成分包含”“症状”,对每个属性一一进行创建与编辑,完成之后结果如图5所示。步骤s3.4对上传的文本资源按照三元组对应的主谓宾关系进行文档标注并进行相应三元组的建立,创建实体关系属性三元集,根据三元组可以直接创建知识图谱。实体和关系的对应示意图如下:属性的建立之后,就需要进行最后的文档的标注以及三元组的建立。点击资源的标注按钮,进入标注主界面,标注各个名称或者说明作为主语谓语还是宾语,之后再展开功能面板,即可以进行三元组的建立。如图6和图7所示。s4利用共消指解的方法进行知识融合步骤,将同名的实体概念进行融合,将知识图谱的冗余降到最低,形成并展示最终所需要的知识图谱。知识图谱实施例的示意图如下:食物种类食物名称成分症状蔬菜红薯类雌性激素减缓衰老在一种实施方式中,s4中食品的成分和食品的类别既属于食品的属性,又被作为一项单独实体与食品并列分析。具体来说,成分属性和健康症状是最直接的关联实体,将成分所属的食物和类别同时提取出来进行分析,使得整个分析结构清晰直观。首先对实体类间的关系进行定义,从收集到的数据中逐一提取出实体和对应关系。需要说明的是,本发明的分析方法与其他方法的不同之处在于,食品的成分和类别既属于食品的属性,又被作为一项单独实体与食品并列分析。健康症状本与成分属性直接关联,将成分作为实体并列出来,可以将健康症状与食品相对应,也将症状与食品类别模糊地对应。本发明的分析不仅局限于成分属性与健康症状的分析,而是基于整个食物的大框架,对食物进行分类的条件下,将健康症状与食物各项属性相关联,构成较为健全的网络结构,不仅用于关联性分析,也可以作为智能搜索、推荐的数据基础。在一种实施方式中,最终的分析结果中成分属性与健康症状直接关联。当所有三元组创立完毕之后,再将同名的实体进行知识融合,将重复的食物名称或者概括总称进行同一融合,这样在知识图谱的现实中就不会是零零散散的棍球模型,而是散发状的星型模型。之后在概览界面选择图谱一览的选项便看到所制作的知识图谱。图8、图9以及图10分别是知识融合界面以及知识融合之后的知识图谱展示。从所绘制的知识图谱可以看出,知识图谱和传统的文字数据相比具有很明显的优势,首先,知识图谱沿用了图论中的图遍历算法,在搜索上的效率比传统关系型数据的检索效率高,在数据量大的情况下对比尤为明显。(可视化程度高,小范围的检索更加迅速和简洁。)传统的文字检索,除了繁杂的缺点之外,还容易让人产生疲劳感,而使用知识图谱研究此问题时将过程变得清晰明了化,搜索时的目的性更强。其次,知识图谱的网络图结构,符合人们的认知习惯,可读性强。在知识图谱中我们很明显可以看出食物成分和营养健康关联性,食物的优质成分会对营养健康有积极的影响,如西红柿的多种酸可以帮助消化,而食物中中性成分对营养健康有双面的影响,如猪肉的高蛋白高脂肪对身体虚弱的人来而言可以强身健体,而对于肥胖的人来说有可能导致身体肥胖,高血压高血脂的风险。此外,知识图谱以三元组的结构形式存储,对于知识的更新、增删和修改都不会影响到原有数据,利用知识图谱存储和展示食物成分和营养健康的关联,可以随时实现知识的更新和补充,对于大批量知识的可操作性和实用性较强。从本发明方法得出来的知识图谱结论,可以看出知识图谱在研究过程中可以起到让人“耳聪目明”的作用,实体、属性、关系在知识图谱之中层次分明,不仅仅可以简便研究对象时的操作,还可以作为知识库保存以待之后的查阅以及检索。实施例二基于与实施例一同样的发明构思,本实施例提供了一种基于知识图谱的食物成分和营养健康的关联性分析系统,包括:数据结构定义模块,用于在模式层对实体-关系-实体的三元组成的知识数据库进行定义,其中三元组用以描述现实世界中的实体和关系;数据获取模块,用于获取待分析的食品数据,并对获取的待分析的食品数据进行后处理;提取模块,用于根据模式层对知识数据库的定义,从获取的待分析的食品数据中逐一提取出实体和对应关系;融合模块,用于利用共消指解的方法进行知识融合,将同名的实体概念进行融合,得到最终知识图谱,作为关联性分析结果。在一种实施方式中,数据结构定义模块中实体包括但不限于食物种类、食物名称、成分和症状。在一种实施方式中,数据获取模块具体用于执行下述步骤:s2.1:利用爬虫工具,对目标网站进行所需数据的批量爬取,得到待分析的食品数据;s2.2:对待分析的食品数据进行格式转换,转换为知识图谱可处理的格式。在一种实施方式中,提取模块具体用于执行下述步骤:s3.1:利用知识图谱工具创建一个项目;s3.2:将后处理后的数据进行上传,并构建概念体系;s3.3:根据概念体系,确定实体的属性值和实体之间关系的属性值;s3.4:对上传的数据按照模式层定义的三元组进行文档标注,并构建与上传的数据相应的三元组,三元组包括实体和对应关系,根据三元组创建知识图谱。在一种实施方式中,融合模块中食品的成分和食品的类别既属于食品的属性,又被作为一项单独实体与食品并列分析。在一种实施方式中,最终的分析结果中成分属性与健康症状直接关联。由于本发明实施例二所介绍的系统,为实施本发明实施例一中基于知识图谱的食物成分和营养健康的关联性分析方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。本发明中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属
技术领域
的技术人员可以对所描述的具体实施例做各种的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1