基于知识图谱的中华文化元素信息搜索方法与流程

文档序号:16532838发布日期:2019-01-05 10:54阅读:517来源:国知局
基于知识图谱的中华文化元素信息搜索方法与流程

本发明属于图像信息搜索领域,具体涉及一种基于知识图谱的中华文化元素信息搜索方法。



背景技术:

图像信息搜索是对传统文本信息关键词搜索技术的继承与延伸,目前有两种搜索方式,一种是基于文本的关键词图像信息搜索,另一种是基于图片的图像搜索,例如阿里巴巴目前已经实现的,通过“扫一扫”对现有图片进行类似搜索,还有目前很热门的“图图搜”,都是基于图片的图像搜索。现有的基于图像的搜索,大多使用深度学习、数据挖掘等现有的模型去训练数据并搜索数据,虽然是在大数据背景下的图片搜索,但是这些图片搜索方法往往存在着搜索目标过大,搜索结果过于复杂、冗余、不利于用户的直接选择等缺点。



技术实现要素:

针对现有技术中存在的不足,本发明的目的在于,提供一种基于知识图谱的中华文化元素信息搜索方法,解决现有技术无法对含有中华元素的图片进行有效性、针对性搜索的技术问题。

为了解决上述技术问题,本申请采用如下技术方案予以实现:

一种基于知识图谱的中华文化元素信息搜索方法,包括以下步骤:

步骤1,获取包含中华文化元素的多个源数据;

步骤2,对获得的多个源数据进行预处理,得到多个预处理后的数据源,并对多个预处理后的数据源进行本地地址id编号,得到id编号后的源数据;

步骤3,根据id编号后的源数据,构建知识图谱,所述知识图谱包括元素的id编号和元素之间的关系信息;

步骤4,建立用于记录知识图谱中元素id编号的attrbuterelation表单和用于记录知识图中元素之间关系信息的attrlink表单,将知识图谱中元素的id编号导入attrbuterelation表单中,将知识图谱中元素之间的关系信息导入attrlink表单中;

步骤5,构建中华文化元素数据库,将attrbuterelation表单和attrlink表单导入数据库中;

步骤6,使用php语言设计基于中华文化元素数据库的搜索页面。

进一步地,所述步骤3中根据id编号后的源数据,构建知识图谱,包括:

步骤31,将id编号后的源数据加载到prefuse可视化系统框架中;

步骤32,根据加载到prefuse可视化系统框架中的源数据,创建

visualization对象;

步骤33,使用renderers渲染器绘制visualization对象中的visualitems,以创建renderfactory;

步骤34,构造visualabstraction上的数据处理动作,完成初始知识图谱构建;

步骤35,将初始知识图谱中所有超过预设阈值路径的多余枝节减掉,生成知识图谱。

进一步地,所述步骤35中将初始知识图谱中所有超过预设阈值路径的多余枝节减掉,生成知识图谱,包括:

步骤351,设在初始知识图谱中需要搜索的元素为需搜索元素,在初始知识图谱中任选一个元素作为当前元素;

步骤352,若从当前元素开始在初始知识图谱中搜索直至到预设阈值条路径时,没有搜索到需搜索元素,则将初始知识图谱中该路径去除;否则,保留该路径。

步骤353,重复步骤352,直至初始知识图谱中所有的元素均被作为当前元素,得到知识图谱。

本发明与现有技术相比,有益的技术效果是:

(1)本发明在图像特征提取阶段,采用了模式识别的方式提取中华文化元素,细化了元素种类,也提高了元素的文化特性指标;

(2)本发明在元素关系构建阶段,引入知识图谱方法建立元素关系,其中所有的数据源均与中华文化元素相关,并且充分考虑了用户的使用习惯,针对性地建立元素模型,并且在此基础上建立搜索关系模型,并对大于预设阈值的关系路径进行去除,提高了后期搜素呈现的效率,同时也提高了搜索精度。

附图说明

图1为源数据示例图;

图2为知识图谱的构建过程示意图;

图3为对初始知识图谱进行剪枝后的知识图谱;

图4为一种示例下加载源数据到prefuse的示意图

图5为一种示例下创建的renderfactory;

图6为一种示例下attrbuterelation表单的示意图;

图7为一种示例下attrlink表单的示意图;

图8为一种示例下的搜索页面;

图9为本发明的用例图;

以下结合附图和实施例对本发明的具体内容作进一步详细解释说明。

具体实施方式

以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例:

本实施例提供了一种基于知识图谱的中华文化元素信息搜索方法,包括以下步骤:

步骤1,获取包含中华文化元素的多个源数据;

本实施例通过爬虫工具对各网站上含有中华文化元素的图片进行爬取;如图1为通过爬虫工具爬取的图片示意图。

步骤2,对多个源数据进行预处理,得到多个预处理后的数据源,并对多个预处理后的数据源进行本地地址id编号,得到id编号后的源数据;

本实施例中通过模式识别对源数据进行特征提取,所提取特征包括元素种类、名称等;

步骤3,根据id编号后的源数据,构建知识图谱,所述知识图谱包括元素的id编号和元素之间的关系信息;

所述步骤3中根据id编号后的源数据,构建知识图谱,如图2所示,包括:

步骤31,将id编号后的源数据加载到prefuse可视化系统框架中;其相关代码如图3所示,图3中所加载的源数据为“/socialnet.xml”。

步骤32,根据加载到prefuse可视化系统框架中的源数据,创建

visualization对象;

步骤33,使用renderers渲染器绘制visualization对象中的visualitems,以创建renderfactory;

本实施例中默认情况下,visualization类中包含了defaultrendererfactory,其使用edgerenderer(默认绘制直连边)、shaperenderer绘制图形(比如正方形或三角形)。如果想要看到节点上标签值可以创建一个labelrenderers,在创建之后为标签数据域赋相应的值。如图4所示为本实施例创建的

renderfactory。

步骤34,构造visualabstraction上的数据处理动作,完成初始知识图谱构建;

所构造visualabstraction上的数据处理动作可以是任何事情,常用的包括:设置可视化项目的位置、颜色、大小和形状,动作实例可以组成actionlists的形式用于执行各种处理任务,能够直接触发的动作被加入visualization,并且赋予一个唯一的名字用于引用。

步骤35,将初始知识图谱中所有超过预设阈值路径的多余枝节减掉,生成知识图谱。

所述步骤35中将初始知识图谱中所有超过预设阈值路径的多余枝节减掉,生成知识图谱,包括:

步骤351,设在初始知识图谱中需要搜索的元素为需搜索元素,在初始知识图谱中任选一个元素作为当前元素;

步骤352,若从当前元素开始在初始知识图谱中搜索直至到预设阈值条路径时,没有搜索到需搜索元素,则将初始知识图谱中该路径去除;否则,保留该路径。

步骤353,重复步骤352,直至初始知识图谱中所有的元素均被作为当前元素,得到知识图谱。

图3为对初始知识图谱进行剪枝后的知识图谱。

步骤4,建立用于记录知识图谱中元素id编号的attrbuterelation表单和用于记录知识图中元素之间关系信息的attrlink表单,将步骤3所构建的知识图谱中的元素id编号导入attrbuterelation表单中,将步骤3所构建的知识图谱中的元素之间的关系信息导入attrlink表单中;如图6为本实施例建立的attrbuterelation表单,图7为本实施例建立的attrlink表单。

步骤5,构建中华文化元素数据库,将attrbuterelation表单和attrlink表单导入数据库中;

步骤6,使用php语言设计基于中华文化元素数据库的搜索页面。如图8为当需搜索元素为“龙”时的搜索页面。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1