一种基于贝叶斯网络的文献元数据储存方法及系统与流程

文档序号:37762241发布日期:2024-04-25 10:48阅读:4来源:国知局
一种基于贝叶斯网络的文献元数据储存方法及系统与流程

本发明涉及文献元数据储存,尤其涉及一种基于贝叶斯网络的文献元数据储存方法及系统。


背景技术:

1、随着信息技术的快速发展,大数据和人工智能已成为许多领域的热点,文献元数据储存需要关注如何有效地组织、存储和检索文献信息,而贝叶斯网络模型是一种概率图模型,用于反映输入量之间的概率依赖关系,在文献元数据储存技术领域中,可以用于分析文献信息之间的关联关系,包括作者之间的合作关系、文献引用关系、主题之间的关联关系等,贝叶斯网络技术的引入为文献信息的管理和利用提供了新的思路和方法,丰富了文献元数据储存领域的研究内容和应用领域。

2、现有的文献数据存储系统通过提取目标专利文献中的多条数据,确定提取的每条数据的类别,对相同类别的数据进行基于深度学习的语义相似度计算,对相同或者相近的数据进行合并,或是对初始文献进行文献识别,并将初始文献进行类分存储,对用户终端的文献操作权限进行分配,将文献合理化的归纳存储在线文献,实现合并后的数据导入至专利文献元数据模板生成的存储表格中。

3、例如公开号为:cn116975068a的发明专利公开的基于元数据的专利文献数据存储方法、装置及存储介质,包括:按照专利文献元数据模板提取目标专利文献中的多条数据;基于文档结构,确定提取的每条数据的类别;遍历提取的每条数据,对相同类别的数据进行基于深度学习的语义相似度计算,确定相同类别的数据之间的关系,对相同或者相近的数据进行合并;将合并后的数据导入至按照专利文献元数据模板生成的存储表格中。

4、例如公告号为:cn113239207b的发明专利公告的一种基于文档数据分析的在线文献归纳和储存系统,包括:文献识别模块、类分存储模块、热度计算模块和权限分配模块,文献识别模块用于对初始文献进行文献识别,文献识别重复文献和最新文献,类分存储模块依据初始文献信息中的文献标识将初始文献进行类分存储,热度计算模块用于对服务器中的在线文献进行热度计算,权限分配模块用于对用户终端的文献操作权限进行分配,将文献合理化的归纳存储在线文献,并对访问者的文献操作权限进行差异化设置。

5、但本技术在实现本技术实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:

6、现有技术中,对初始文献进行文献识别,提取目标文献中的多条数据,确定提取的每条数据的类别,遍历提取的每条数据,对相同类别的数据进行基于深度学习的语义相似度计算,确定相同类别的数据之间的关系,对相同或者相近的数据进行合并,并进行类分存储,同时对访问者的文献操作权限进行差异化设置,存在未能解决当文献元数据缺失时,对缺失元数据进行推断的问题。


技术实现思路

1、本技术实施例通过提供一种基于贝叶斯网络的文献元数据储存方法及系统,解决了现有技术中,未能解决当文献元数据缺失时,对缺失元数据进行推断的问题,实现了当所给文献元数据不全时,对缺失元数据进行推断并赋值。

2、本技术实施例提供了一种基于贝叶斯网络的文献元数据储存方法,包括以下步骤:获取文献信息,建立文献质量评估指数模型,评估文献质量水平,获得高质量文献;获取全部高质量文献元数据,建立文献元数据关系评估指数模型,并结合贝叶斯算法,确定基于贝叶斯网络的文献元数据之间的依赖关系,同时分析文献所属类型,并对同类型文献进行分类存储;若文献元数据不全,则构建文献元数据预估值模型,推断缺失元数据的取值;若文献元数据齐全,则根据存储的高质量文献元数据相似性,构建文献知识图谱。

3、进一步的,所述建立文献质量评估指数模型的具体分析过程为:所述文献信息包括文献被引用次数、出版商信息数据以及文献原创性数据;所述文献元数据包括文献标题数据、文献作者信息数据以及文献关键词数据;从文献数据库中获取各文献的文献被引用次数、出版商信息数据以及文献原创性数据;对各文献的文献被引用次数以及文献原创性数据进行数据处理,对所述文献被引用次数以及文献原创性数据中的重复数据进行剔除,得到第一清洗数据;对所述第一清洗数据进行均值计算,得到第一均值;识别第一清洗数据中的异常数据,并通过所述第一均值替换所述异常数据;获得第二清洗数据,并作为清洗后的文献被引用次数以及文献原创性数据;综合分析各文献的文献被引用次数、出版商信息数据以及文献原创性数据,建立文献质量评估指数模型,所述文献质量评估指数模型用于获得文献质量评估指数。

4、进一步的,所述获得高质量文献的具体分析方法为:基于文献质量评估指数模型,获取各文献的文献质量评估指数,对其进行分析并得到所述文献质量评估指数的预设筛选阈值;如果所述文献质量评估指数不低于预设筛选阈值则表明该文献为高质量文献;如果所述文献质量评估指数低于预设筛选阈值则表明该文献为低质量文献;并对高质量文献以及低质量文献进行分区存储。

5、进一步的,所述确定基于贝叶斯网络的文献元数据之间的依赖关系的具体分析过程为:将文献标题数据作为第一获取文献元数据,文献作者信息数据作为第二获取文献元数据,分析得到第一获取文献元数据与第二获取文献元数据的文献元数据关系评估指数;将文献作者信息数据作为第一获取文献元数据,文献关键词数据作为第二获取文献元数据,分析得到第一获取文献元数据与第二获取文献元数据的文献元数据关系评估指数;结合贝叶斯网络模型,分析文献标题数据、文献作者信息数据以及文献关键词数据之间的概率依赖关系,据此分析文献元数据之间是否相互依赖;若文献元数据之间相互依赖,则说明所述文献标题数据、文献作者信息数据以及文献关键词数据出自同一本文献;若文献元数据之间不相互依赖,则说明所述文献标题数据、文献作者信息数据以及文献关键词数据出自不同文献。

6、进一步的,所述文献元数据关系评估指数的具体分析过程为:获取全部高质量文献的文献标题数据、文献作者信息数据以及文献关键词数据;构建文献元数据关系评估指数模型公式,并据其计算出文献元数据关系评估指数;所述文献元数据关系评估指数模型公式为:,式中,表示为第个第一获取文献元数据与第二获取文献元数据的文献元数据关系评估指数,以及分别表示为第一获取文献元数据以及第二获取文献元数据,为常数,表示为文献元数据之间的概率依赖关系评估指数的编号,,表示为文献元数据之间的概率依赖关系评估指数的总数。

7、进一步的,所述分析文献所属类型的具体分析过程为:从文献数据库中获取待学习文献的文献标题数据、文献作者信息数据以及文献关键词数据;将所述待学习文献的文献标题数据、文献作者信息数据以及文献关键词数据作为文献分类判定模型的输入数据,并进行训练,得到用于判定文献类型的文献分类判定模型;将文献标题数据、文献作者信息数据以及文献关键词数据输入文献分类判定模型,从而获得文献类型,并进行同类型文献的分类存储。

8、进一步的,所述构建文献元数据预估值模型的具体分析过程为:若将所获取的文献元数据输入文献元数据关系评估指数模型公式时,检测出缺失元数据,则构建文献元数据预估值模型;获取已知文献元数据,并将其存入已知元数据数据集中;计算文献元数据预估值,所述文献元数据预估值模型公式为:,式中,表示为文献元数据预估值,以及分别表示为已知元数据集中的第一获取文献元数据以及第二获取文献元数据,表示为所获取的文献元数据的修正因子,表示为圆周率,表示为自然常数。

9、进一步的,所述检测出缺失元数据的具体分析方法为:将所获取的文献元数据输入文献元数据关系评估指数模型公式;若文献元数据关系评估指数模型公式计算结果为0,则说明缺失元数据;若文献元数据关系评估指数模型公式计算结果不为0,则说明不缺失元数据。

10、进一步的,所述构建文献知识图谱的具体分析方法为:从文献信息数据库获取高质量文献存储区域的所有高质量文献的文献元数据,分析得出样本文献元数据平均估量值;进行文献元数据相似性判断,对相似文献元数据进行关联,构建文献知识图谱。

11、本技术实施例提供了一种基于贝叶斯网络的文献元数据储存系统,所述基于贝叶斯网络的文献元数据储存系统包括:文献质量评估模块:用于获取文献信息,建立文献质量评估指数模型,评估文献质量水平,获得高质量文献;文献分类存储模块:用于获取全部高质量文献元数据,建立文献元数据关系评估指数模型,并结合贝叶斯算法,确定贝叶斯网络的节点间的依赖关系,分析文献所属类型,并对同类型文献进行分类存储;文献缺失数据预测模块:用于若文献元数据不全,则构建文献元数据预估值模型,推断缺失元数据的取值;文献知识图谱构建模块:用于若文献元数据齐全,则根据存储的高质量文献元数据相似性,构建文献知识图谱。

12、本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

13、1、通过获取已知文献元数据,并将其存入已知元数据数据集中,计算文献元数据预估值,根据已有数据信息,利用贝叶斯网络等技术进行推断和预测,从而获得文献元数据预估值,进而实现了当所给文献元数据不全时,对缺失元数据进行推断并赋值,有效解决了现有技术中,未能解决当文献元数据缺失时,对缺失元数据进行推断的问题。

14、2、通过将所获取的文献元数据输入文献元数据关系评估指数模型公式,进行判断文献元数据的完整性,若文献元数据关系评估指数模型公式计算结果为0,则说明缺失元数据,若文献元数据关系评估指数模型公式计算结果不为0,则说明不缺失元数据,从而检测出是否缺失元数据,进而实现了判断所给文献元数据是否齐全。

15、3、通过获取全部高质量文献的文献标题数据、文献作者信息数据以及文献关键词数据,构建文献元数据关系评估指数模型公式,将文献标题数据作为第一获取文献元数据,文献作者信息数据作为第二获取文献元数据,分析得到第一获取文献元数据与第二获取文献元数据的文献元数据关系评估指数,从而分析文献标题数据、文献作者信息数据以及文献关键词数据之间的概率依赖关系,进而实现了分析文献元数据之间是否相互依赖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1