一种基于垂直搜索引擎的图文知识库构建方法与流程

文档序号:12464918阅读:671来源:国知局
一种基于垂直搜索引擎的图文知识库构建方法与流程

本发明涉及图文知识库构建,尤其是一种基于垂直搜索引擎的图文知识库构建方法。

技术背景

随着移动互联网的快速增长,通过智能终端搜索查询百科知识的需求快速增长。目前,百科知识分布于很多相关的专业网站,如维基百科,百度百科,互动百科。可以使用通用搜索引擎来获取到相关的知识。

这些知识库通常体量庞大,图文并茂,同一知识往往分布于不同网站中,很难一次性地获取到该类知识的全面信息。同时,这些百科知识网站仅仅提供分类查询和文本检索功能。因此,利用垂直搜索引擎来构建可以提供图文查询功能的图文知识库,实现图文知识的快速分享。



技术实现要素:

针对现有技术中的不足,本发明提供一种基于垂直搜索引擎的图文知识库构建的方法。在服务器中根据主题的要求定时定向抓取百科类网站的网页,并根据主题关键词来分析网页中的内容,实现图文分离的关联,在此基础上对其中的图像提取其纹理等特征,构建按照关键词名次和图像特征索引的数据库。在后续检索时可以提供文本和图像检索。该方法提高了知识库的专业性,解决知识库不能够提供基于图像检索的问题。

按照本发明所提供的设计方案,一种基于垂直搜索引擎的图文知识库构建的方法,具体包含以下步骤:

步骤1.在服务器后台定时定向抓取百科类网站的网页。

步骤2.分析抓取的网络百科知识内容,图文分离网页内容。

步骤3.提取图像的纹理特征、颜色特征、形状特征等,构建图像加权特征。

步骤4.按照给定关键词名称建立索引,将网页中的文字描述和图像及图像特征进行关联存储。

步骤5,检索时提供基于文本的检索和图像特征匹配检索反馈,反馈信息包含图像和文字描述。

进一步,步骤1中,所述服务器后台定时定向抓取百科类网站的网页,具体为:首先设置包括维基百科中文网、百度百科、互动百科在内的多个百科知识网站作为知识库的信息源头,然后对这些网站的分类结构进行分析,根据所设定的主题,选择该主题类别的网页进行定时抓取,以获得相关主题网页的URL。

进一步,步骤2中,所述的分析抓取的网络百科知识内容,图文分离网页内容,具体是将网页中的文本信息提取存储,将网页中的图片/图像保存。

进一步,在步骤3中,所述的提取图像的纹理特征、颜色特征、形状特征等,构建图像加权特征,具体为:将图像进行尺寸归一化,然后分别提取图像的纹理特征T,颜色特征C和形状特征S,并对这三种特征分别赋予权重w1,w2,w3,且w1+w2+w3=1,图像的加权特征F=w1T+w2C+w3S。

优选的,所述的提取纹理特征,采用Gabor滤波器提取图像的纹理特征;

优选的,所述的图像的颜色特征,采用RGB颜色空间的颜色直方图特征;

优选的,所述的形状特征,采用Fourier描述子来提取形状特征。

进一步,在步骤4中,所述的按照给定关键词名称建立索引,将网页中的文字描述和图像及图像特征进行关联存储,具体为:在数据库中,将关键词作为数据库的主键,图像特征作为辅关键词,将文本描述和图像对象进行存储。

优先地,所述的图像对象进行存储,采用将图像对象单独存储到指定分类目录中,在数据库中存储图像对象的存储路径+图像名称。

进一步,在步骤5中,所述检索时提供基于文本的检索和图像特征匹配检索反馈,反馈信息包含图像和文字描述,具体为:根据查询对象的情况分为三种类型。第一种、在数据库中可以通过输入待检索的文本在数据库中进行查找,反馈检索到的结果,以及该文本对应的图像;第二种、输入待查询的图像,采用步骤3中的方法计算查询图像的特征值,然后和数据库中存储的图像特征值使用欧式距离相比较,按照差值从小到大反馈图像及其对应的文本;第三种、输入的为已经计算得到的图像特征值,则直接将查询的特征值和数据库中存储的图像特征值使用欧式距离相比较,按照差值从小到大反馈图像及其对应的文本。

本发明的有益效果:本发明针对现有的百科知识内容分散,缺乏统一的有效管理,利用垂直搜索引擎来根据指定的知识词库来筛选分析并提取典型百科知识中的相关内容,将这些内容的图文信息进行分析并提取出图像特征和文本描述,进一步来构建图文知识库,构建的知识库提供了基于文本检索、图像检索功能, 提供了一种新的图文知识库的构建和应用方式。

附图说明

图1.本发明的流程示意图。

图2.本发明实施例提供的流程图。

具体实施方式

为了使本发明的目的、技术方案即优点更加清楚明白,以下结合附图及实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

实施例一,参考图1所示,一种基于垂直搜索引擎的图文知识库构建方法,其特征在于,包括:

步骤101.在服务器后台定时定向抓取百科类网站的网页。

步骤102.分析抓取的网络百科知识内容,图文分离网页内容。

步骤103.提取图像的纹理特征、颜色特征、形状特征等,构建图像加权特征。

步骤104.按照构建的知识库名称建立索引,将网页中的文字描述和图像及图像特征进行关联存储。

步骤105.检索时提供基于文本的检索和图像特征匹配检索反馈,反馈信息包含图像和文字描述。

所述服务器后台定时定向抓取百科类网站的网页,具体为:首先设置包括维基百科中文网、百度百科、互动百科在内的多个百科知识网站作为知识库的信息源头,然后对这些网站的分类结构进行分析,根据所设定的主题,选择该主题类别的网页进行定时抓取,以获得相关主题网页的URL。

所述的分析抓取的网络百科知识内容,图文分离网页内容,具体是将网页中的文本信息提取存储,将网页中的图片/图像保存。

所述的提取图像的纹理特征、颜色特征、形状特征等,构建图像加权特征,具体为:将图像进行尺寸归一化,然后分别提取图像的纹理特征T,颜色特征C和形状特征S,并对这三种特征分别赋予权重w1,w2,w3,且w1+w2+w3=1,图像的加权特征F=w1T+w2C+w3S。

所述的按照给定关键词名称建立索引,将网页中的文字描述和图像及图像特征进行关联存储,具体为:在数据库中,将关键词作为数据库的主键,图像特征作为辅关键词,将文本描述和图像对象进行存储。

所述检索时提供基于文本的检索和图像特征匹配检索反馈,反馈信息包含图像和文字描述,具体为:根据查询对象的情况分为三种类型。第一种、在数据库中可以通过输入待检索的文本在数据库中进行查找,反馈检索到的结果,以及该文本对应的图像;第二种、输入待查询的图像,采用步骤103中的方法计算查询图像的特征值,然后和数据库中存储的图像特征值使用欧式距离相比较,按照差值从小到大反馈图像及其对应的文本;第三种、输入的为已经计算得到的图像特征值,则直接将查询的特征值和数据库中存储的图像特征值使用欧式距离相比较,按照差值从小到大反馈图像及其对应的文本。

实施例二:参考图2所示,一种基于垂直搜索引擎的图文知识库构建的方法,其特征在于,包括:

步骤201中,构建植物名称、动物名称名词词库,根据所要构建的知识库,给出知识库的类别及其相应名词词库,例如构建花卉词库,则列出相应的花卉名称。

在步骤202中,构建定向搜索搜索的网站网址数据库,设置包括维基百科中文网、百度百科、互动百科在内的多个百科知识网站作为知识库的信息源头,然后对这些网站的分类结构进行分析,根据所设定的主题,选择该主题类别的网页。

步骤203中,定向信息抓取,通过垂直搜索引擎将设定网页的信息抓取并保存。

在步骤204中,网页分析,将抓取到的网页,首先判断其中的内容是否已经抓取并存储过,如果没有,则将网页中文本信息信息提取出来,将图像提取出来。

在步骤205中,文本分析及索引建立,将分析文本主题信息,并根据知识库名词词库来建立数据库的主关键词。

在步骤206中,图像特征分析提取,采用提取图像的纹理特征、颜色特征、形状特征等,构建图像加权特征,将图像进行尺寸归一化,然后分别提取图像的纹理特征T,颜色特征C和形状特征S,并对这三种特征分别赋予权重w1,w2,w3,且w1+w2+w3=1,图像的加权特征F=w1T+w2C+w3S。

在步骤207中,图文关联存储,将步骤206中计算得到的图像特征作为辅关 键词与步骤205中名词词库进行关联,将名词词库、文本信息和图像信息、图像特征等存储到数据库中。

在步骤208中,用户查询、检索,为用户提供基于文本,图像和图像特征查询的方式,并将对应的文本及图像信息返回给用户。。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1