一种基于知识图谱的海洋数据检索平台及检索方法与流程

文档序号:37183563发布日期:2024-03-01 12:44阅读:14来源:国知局
一种基于知识图谱的海洋数据检索平台及检索方法与流程

本发明属于信息处理,特别是涉及一种基于知识图谱的海洋数据检索平台及检索方法。


背景技术:

1、随着信息与数据技术的发展和普及,网络日益成为人们获取各种知识的重要来源。目前,海量、多源异构、多专业的海洋文献、专家机构、百科词条和科学数据等资源分别应用在海洋领域各种业务管理、信息共享、辅助决策等系统/平台上,为用户提供海洋知识服务;但无论是门户还是应用层涉及的信息检索、关联或推荐,大多采用“创建索引+关键词匹配”的方式;当用户或应用向搜索引擎发出查询,搜索引擎接受查询后首先进行简单分词,然后在索引里查找,如果没有匹配则向数据库里进行查找,并向用户返回查找结果,结果排序主要以主题相关度、发布时间等方式为主。同时,农业、医药、电力、金融等行业以及知网、万方等文献综合服务领域分别构建了具有领域特色的知识图谱,利用知识图谱和语义匹配等技术开展了数据资源的智能检索、问答、推荐等知识服务,但领域知识服务的精准性主要取决于领域知识图谱的构建,如何高效利用领域知识图谱组织和管理数据,以及利用数据实体、关系和属性与自然语言处理、机器学习等技术相结合提升理解海量信息的能力,实现海量数据资源的智能检索、推荐和主题聚合等服务,满足用户对知识精准需求,是各行业领域面临的现实问题。

2、针对海洋数据资源具有跨领域、跨学科、多源异构、海量增长等特性,传统的数据检索机制主要基于elasticsearch分布式检索技术,利用检索关键词与已构建的数据资源目录、索引进行语法匹配,并利用二次检索、高级检索、相关度和时间排序等功能实现数据资源的多次筛选,但是步骤繁琐、检索词单一、检索结果缺乏关联,且通常不能满足用户实际需求。


技术实现思路

1、技术目的,本发明通过构建海洋领域的知识图谱,将海洋主题词以及海洋论文、标准、专利、图书、报告、法规、条约、百科、专家、机构、科技成果、科学数据和行政区划13个类别的数据资源聚合和关联,从逻辑角度实现多源海洋知识的统一组织,同时增加信息之间的多种关系,以及消除对信息理解的鸿沟和歧义,并利用自然语言处理与机器学习技术,实现海量海洋数据资源的快速智能语义检索、智能推荐、主题聚合等知识发现与情报决策分析服务,打破过去单一的文献知识资源类型检索发现模式,为海洋管理、业务应用和科学研究提供智能化、精准化的海洋科技成果信息,满足新知识服务时代用户的新需求。

2、本发明的第一目的是提供一种基于知识图谱的海洋数据检索方法,包括基于检索逻辑的海洋检索系统和基于海洋数据构建的知识图谱,所述知识图谱包括:

3、海洋主题词知识图谱,用于对检索词进行扩展,所述海洋主题词知识图谱由海洋主题词以及各主题词之间的上位、下位、同义和关联四种关系构成;所述海洋主题词知识图谱通过《海洋科学主题词表》和《海洋信息化常用术语(hy t131-2010)》确定海洋主题词集,并定期统计海洋相关文献中的高频关键词,当高频关键词频次满足阈值要求时,将高频关键词加入海洋主题词集,将海洋主题词划分为9类,分别为海洋管理、海洋经济、海洋调查、海洋观测、海洋学科、海洋资源开发、海洋工程、海洋环境保护、海上交通运输;并确定各主题词之间的上位、下位、同义和关联四种关系;根据海洋主题词和各主题词之间的上位、下位、同义和关联关系构建海洋主题词知识图谱;

4、海洋工程知识图谱,用于提高海洋领域知识的检索效率,所述海洋工程知识图谱由海洋科技文献、科学数据集实体以及各实体之间的关系构成;所述海洋工程知识图谱通过互联网数据爬取和数据库资源抽取的方式获取13个类别的海洋工程数据资源,所述海洋工程数据资源包括海洋论文、标准、专利、图书、报告、法规、条约、百科、专家、机构、科技成果、行政区划的文献资源和科学数据;针对结构化、半结构化和非结构化的海洋工程数据资源,进行多源数据的实体、关系、属性抽取和融合,构建以海洋工程资源实体、实体数据属性以及和所属专家、机构、行政区划以及分类关系组合的海洋工程知识图谱,采用图数据库和关系型数据库进行存储;

5、所述海洋检索系统首先进行检索语句分词和检索词扩展,然后将获得的多个检索词分别与海洋主题词知识图谱中的海洋主题词进行匹配,若匹配成功,则将该检索词确定为关键检索词,将关键检索词在海洋主题词知识图谱中对应的上位词、下位词、同义词和关联词确定为扩展检索词,若匹配不成功,将未匹配成功的检索词与海洋工程知识图谱中的属性、专家、机构和分类进行匹配,匹配成功后,则将该检索词确定为范围检索词;随后采用范围检索词构建sparql查询语句,在海洋工程知识图谱谱中进行检索,获得海洋工程资源实体,最后分别采用关键检索词和扩展检索词在海洋工程资源实体中进行检索,以获得初步检索结果。

6、优选地:还包括检索结果优化系统,所述检索结果优化系统包括:

7、海洋知识检索特征向量构建模块,通过关键检索词和扩展检索词构建检索语句对应的海洋知识检索特征向量;

8、规范化预处理模块,针对初步检索结果的每个海洋工程资源实体的标题和摘要属性,分别进行标点符号、冗余词串的规范化预处理;

9、海洋工程资源实体的特征向量构建模块,采用正向最大匹配算法对预处理后的语句进行分词处理,获得多个标题词和摘要词,并通过该实体的标题词、摘要词和关键词构建该海洋工程资源实体的特征向量;

10、优化模块,计算海洋知识检索特征向量与海洋工程资源实体的特征向量之间的多要素余弦距离语义关联度,当关联度满足阈值要求时,则将该海洋工程资源实体放入最终检索结果集中;当关联度不满足阈值要求时,则该海洋工程资源实体不放入最终检索结果集中。

11、优选地:多要素余弦距离语义关联度计算方法如下:

12、

13、其中,a代表海洋知识检索特征向量,n代表某个海洋工程资源实体的特征向量,multisim(a,n)代表a和n之间的多要素余弦距离语义关联度,sim(ci,n)代表第i检索关键词与某个实体海洋工程知识特征向量整体相似度,sim(di,n)代表第i检索上位词与某实体海洋工程知识特征向量整体相似度,sim(ei,n)代表第i检索下位词与某个实体海洋工程知识特征向量整体相似度,sim(fi,n)代表第i检索同义词与某个实体海洋工程知识特征向量整体相似度,sim(gi,n)代表第i检索相关词与某个实体海洋工程知识特征向量整体相似度;α,β,γ,δ,ε分别表示关键词、上位词、下位词、同义词、相关词的关联度权重。

14、优选地:还包括海洋领域知识智能服务系统,对检索结果集根据关联度的大小进行降序输出,并以可视化形式展示实体之间的相互关系;当点击某个检索结果实体时,进行主题聚合、关联推荐。

15、本发明的第二目的是提供一种基于知识图谱的海洋数据检索方法,基于所述的基于知识图谱的海洋数据检索平台,完成如下检索步骤:

16、海洋检索系统首先进行检索语句分词和检索词扩展,然后将获得的多个检索词分别与海洋主题词知识图谱中的海洋主题词进行匹配,若匹配成功,则将该检索词确定为关键检索词,将关键检索词在海洋主题词知识图谱中对应的上位词、下位词、同义词和关联词确定为扩展检索词,若匹配不成功,将未匹配成功的检索词与海洋工程知识图谱中的属性、专家、机构和分类进行匹配,匹配成功后,则将该检索词确定为范围检索词;随后采用范围检索词构建sparql查询语句,在海洋工程知识图谱谱中进行检索,获得海洋工程资源实体,最后分别采用关键检索词和扩展检索词在海洋工程资源实体中进行检索,以获得初步检索结果。

17、优选地:还包括对初步检索结果进行如下优化:

18、通过关键检索词和扩展检索词构建检索语句对应的海洋知识检索特征向量;

19、针对初步检索结果的每个海洋工程资源实体的标题和摘要属性,分别进行标点符号、冗余词串的规范化预处理;

20、采用正向最大匹配算法对预处理后的语句进行分词处理,获得多个标题词和摘要词,并通过该实体的标题词、摘要词和关键词构建该海洋工程资源实体的特征向量;

21、计算海洋知识检索特征向量与海洋工程资源实体的特征向量之间的多要素余弦距离语义关联度,当关联度满足阈值要求时,则将该海洋工程资源实体放入最终检索结果集中;当关联度不满足阈值要求时,则该海洋工程资源实体不放入最终检索结果集中。

22、优选地:多要素余弦距离语义关联度计算方法如下:

23、

24、其中,a代表海洋知识检索特征向量,n代表某个海洋工程资源实体的特征向量,multisim(a,n)代表a和n之间的多要素余弦距离语义关联度,sim(ci,n)代表第i检索关键词与某个实体海洋工程知识特征向量整体相似度,sim(di,n)代表第i检索上位词与某实体海洋工程知识特征向量整体相似度,sim(ei,n)代表第i检索下位词与某个实体海洋工程知识特征向量整体相似度,sim(fi,n)代表第i检索同义词与某个实体海洋工程知识特征向量整体相似度,sim(gi,n)代表第i检索相关词与某个实体海洋工程知识特征向量整体相似度;α,β,γ,δ,ε分别表示关键词、上位词、下位词、同义词、相关词的关联度权重。

25、优选地:还包括结果输出,对检索结果集根据关联度的大小进行降序输出,并以可视化形式展示实体之间的相互关系;当点击某个检索结果实体时,进行主题聚合、关联推荐。

26、优选地:检索语句分词过程为:针对输入的检索语句,首先进行标点符号、冗余词串规范化预处理,然后采用正向最大匹配算法对预处理后的检索语句进行分词处理,获得多个检索词。

27、本专利的第三发明目的是提供一种实现上述基于知识图谱的海洋数据检索方法的计算机程序。

28、本专利的第四发明目的是提供一种实现上述基于知识图谱的海洋数据检索方法的信息数据处理终端。

29、本专利的第五发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于知识图谱的海洋数据检索方法。

30、本发明的优点及积极效果为:

31、(1)本发明构建的海洋知识图谱由海洋主题词知识图谱和海洋工程知识图谱构成,分别用于对检索词进行扩展和对海洋领域知识的快速检索,为海洋领域知识智能服务提供数据支撑。

32、(2)本发明基于海洋主题词知识图谱确定关键检索词和扩展检索词,基于海洋工程知识图谱确定范围检索词,构建了关键检索词-扩展检索词-范围检索词模式的检索要素,准确确定用户的潜在检索需求。

33、(3)本发明采用提出了一种多要素余弦距离语义关联度计算方法,通过计算检索语句对应的海洋知识检索特征向量与初步检索结果中每个海洋工程资源实体的特征向量之间的多要素余弦距离语义关联度来确定两者之间的关联性,以实现检索结果的进一步优化。

34、(4)本发明利用自然语言处理与机器学习技术实现海量海洋数据资源的快速智能语义检索、智能推荐、主题聚合的知识发现与情报决策分析服务,打破过去单一的文献知识资源类型检索发现模式,为海洋管理、业务应用和科学研究提供智能化、精准化的海洋科技成果信息,满足新知识服务时代用户的新需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1