本发明涉及一种检索系统,具体涉及适用于组合商标的并行检索系统及方法。属于信息搜索技术领域。
背景技术:
商标是公司、产品或服务的标志,与企业的商品质量、服务质量、经营管理融为一体,在工商业社会中起着非常重要的作用,是公司及产品的一个重要属性。为了使得商标受到合法保护,一般需要向商标局正式注册。随着我国经济的发展和全球化进程的加快,商标数量逐年递增。防止重复注册或相似商标注册是商标管理的核心问题。为了保护注册商标的合法权益,打击仿冒盗用注册商标的违法行为,需要对待注册的商标进行检索,与已注册的商标进行比较,确定二者不相同或者不相近似,才具有注册资格。
近年来商标图像需求量不断增加,传统的商标检索通常基于分类码并且以大量人力为代价,检索准确度和效率都极低,越来越不能适应当前大量商标注册的要求。
如果对商标进行人工检索需要耗费大量人力,相对互联网的海量数据,速度是非常慢的。而目前的互联网检索,如百度,google等,还是以关键词为主。即使是已有的一些基于图像的商标检索方法,其应用也主要是在商标库中查找相同相似的商标。商标库中的图像是经过标准化的,只包含商标,没有其他背景。且商标图像清晰、端正。而在互联网查找商标的情况中,商标在图像中重新出现,往往会产生尺度、旋转角度、光照、视角、形状的变化。互联网图像为了便于传输一般压缩较多,图像质量也不高。这是查询商标库所使用的方法无法解决的。
另外,组合商标也是一种常见的商标形式,其是文字和图形的组合,对于此类商标的检索更加困难。
技术实现要素:
本发明的目的是为克服上述现有技术的不足,提供一种适用于组合商标的并行检索系统及方法。
为实现上述目的,本发明采用下述技术方案:
适用于组合商标的并行检索系统,包括:
web服务器,其设有人机交互接口,用于上传待检索组合商标,接收检索结果并显示;
第一运算器,用于将待检索组合商标分割成文字部分和图像部分,并分别发送至文字检索条件分析单元和图像检索条件分析单元;
文字检索条件分析单元,用于待检索文字的若干个关键词提取和它们的分别存储;
图像检索条件分析单元,用于待检索图像预处理,并进行特征提取和若干个图像特征的分别存储;
文字匹配单元,用于将待检索文字的若干个关键词分别与异构数据存储器中文字的关键词一一进行匹配,并将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器;
图像匹配单元,用于将待检索图像提取的若干个图像特征分别与异构数据存储器中图像的图像特征一一进行匹配,并将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器;
异构数据存储器,用于存储文字数据和图像数据。
作为优选的技术方案之一,所述文字检索条件分析单元包括依次连接的执行关键词提取算法的第二运算器以及用于存储第二运算器运算结果的第一存储器;所述的第一存储器分为若干个第一分配单元,分别用于存储第二运算器提取的若干个关键字。
作为优选的技术方案之一,所述图像检索条件分析单元包括依次连接的图像预处理模块、执行特征提取算法的第三运算器以及用于存储第三运算器运算结果的第二存储器;所述的第二存储器分为若干个第二分配单元,分别用于存储第三运算器提取的若干个图像特征。
作为进一步优选的技术方案之一,所述图像预处理模块包括图像几何变换单元、图像去噪单元、图像复原单元、图像增强单元及图像归一化单元;
所述图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
所述图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
所述图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
所述图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
所述图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
作为优选的技术方案之一,所述文字匹配单元包括执行匹配算法的若干个第四运算器,所述的各个第四运算器连接至执行文本相似度算法的第五运算器,第五运算器与用于存储其运算结果的第三存储器连接,第四运算器还分别与第一存储器的各个第一分配单元和异构数据存储器连接。
作为优选的技术方案之一,所述图像匹配单元包括执行匹配算法的若干个第六运算器,所述各个第六运算器连接至执行相似图像识别算法的第七运算器,第七运算器与用于存储其运算结果的第四存储器连接,第六运算器还分别与第二存储器的各个第二分配单元和异构数据存储器连接。
作为进一步优选的技术方案之一,所述第三存储器、第四存储器分别与web服务器连接。
上述系统对应的适用于组合商标的并行检索方法,包括步骤:
s1.向web服务器上传待检索组合商标;
s2.将待检索组合商标分割成文字部分和图像部分,分别进入步骤s3和步骤s4;
s3.对待检索文字进行若干个关键词提取并分别存储,进入步骤s5;
s4.对待检索图像进行预处理、特征提取和若干个图像特征的分别存储,进入步骤s6;
s5.将步骤s3提取的若干个关键词与异构数据存储器中文字的关键词一一进行匹配,将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器并显示;
s6.将步骤s4提取的若干个图像特征与异构数据存储器中图像的图像特征一一进行匹配,将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器并显示。
作为优选的技术方案之一,步骤s2采用连通域投影法、连通域面积法、基于结构的子图抽取法中的任一种进行待检索组合商标的分割。
作为优选的技术方案之一,步骤s3的关键词提取包括中文关键词提取和英文关键词提取。
作为进一步优选的技术方案之一,中文关键词提取采用基于语义的中文文本关键词提取算法或基于朴素贝叶斯模型的中文关键词提取算法实现。
作为进一步优选的技术方案之一,英文关键词提取采用rake算法实现。
作为优选的技术方案之一,步骤s4中预处理的具体方法如下:
图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
作为优选的技术方案之一,步骤s4所提取特征是不受光照、颜色、尺度和旋转变化影响的稳定特征,具体提取方法是:
s4-1.利用抽样和高斯卷积构造图像高斯金字塔,其由多个频段组成,相邻频段尺度相差50%,每个频段中利用高斯卷积构造多个子层;
s4-2.对各层图像使用多种特征检测算子进行处理;
s4-3.在各个频段内,对每一子层中的每一像素点,比较尺度空间上邻域内的特征检测算子的处理结果值,如果该像素点上的结果值在其邻域内是极大值或极小值,就将其作为候选特征点,记录它出现的频段,子层序号,图像中的坐标信息;
s4-4.去除候选特征点中重复的点,然后去除候选特征点中弱对比度和边缘附近的点,得到稳定特征点。
作为优选的技术方案之一,步骤s4中特征提取包括颜色特征和边缘形状特征。
作为进一步优选的技术方案之一,颜色特征用于描述图像或图像区域所对应的景物的表面性质,其提取方法包括颜色直方图、颜色集、颜色矩、颜色聚合向量、颜色相关图等等。
作为进一步优选的技术方案之一,边缘形状特征是指其周围像素灰度急剧变化的那些象素的集合,边缘存在于目标、背景和区域之间,是图像最基本的特征,其提取方法可采用以下边缘检测算法中的任一种实现:sobel算子边缘检测、roberts算子边缘检测、prewitt算子边缘检测、laplacian算子边缘检测、以及canny算子边缘检测。
作为优选的技术方案之一,步骤s3中提取的若干个关键词存储至第一存储器的若干个第一分配单元。
作为优选的技术方案之一,步骤s4中提取的若干个图像特征存储至第二存储器的若干个第二分配单元。
作为优选的技术方案之一,步骤s5中的匹配结果经文本相似算法得到重复数据,将其存储至第三存储器,第三存储器与web服务器连接。
作为进一步优选的技术方案之一,利用字符串编辑距离、向量相似度或simhash算法进行文本相似运算。
作为优选的技术方案之一,步骤s6中的匹配结果经相似图像识别得到重复数据,将其存储至第四存储器,第四存储器与web服务器连接。
作为进一步优选的技术方案之一,利用sift算法、surf算法、harris算法、fast算法、brisk算法中的任一种进行相似图像识别。
本发明的有益效果:
1、本发明的检索系统适用于组合商标,将待检索组合商标分割成文字部分和图像部分,分别利用文字检索条件分析单元和图像检索条件分析单元对文字部分和图像部分分开进行处理,对待检索文字进行若干个关键词提取,对待检索图像进行预处理和若干个图像特征提取,然后与互联网中的海量文字数据和图像数据分别进行匹配,不局限于标准的商标库,检索范围更加全面。由于待检索文字和待检索图像进行了关键词提取、预处理和特征提取,匹配特征点更加精确,并行检索,识别误差小,大大提高了检索的准确度和效率。
2、待检索文字提取关键词另行存储,在进行匹配运算时,可以直接调取关键词与异构数据存储器中文字的关键词一一进行匹配,提高了检索准确度,匹配结果进一步运算重复数据后单独存储,供web服务器调用,避免重复性检索工作,提高检索效率。
3、待检索图像所提取特征另行存储,在进行匹配运算时,可以直接调取特征与异构数据存储器中图像的图像特征一一进行匹配,提高了检索准确度,匹配结果进一步运算重复结果后单独存储,供web服务器调用,避免重复性检索工作,提高检索效率。
4、待检索图像的预处理和特征提取非常关键,本发明的图像预处理模块包括图像几何变换单元、图像去噪单元、图像复原单元、图像增强单元及图像归一化单元,实现了商标图像的去噪和归一化,有利于提高检索的准确度。
5、本发明所提取图像特征是不受光照、颜色、尺度和旋转变化影响的稳定特征,匹配对象不受图像光照、颜色、尺度和旋转变化的影响,检索结果更加全面。
附图说明
图1是本发明的系统结构示意图;
其中,1为web服务器,2为第一运算器,3为文字检索条件分析单元,31为第二运算器,32为第一存储器,321为第一分配单元,4为图像检索条件分析单元,41为图像预处理模块,42为第三运算器,43为第二存储器,431为第二分配单元,5为文字匹配单元,51为第四运算器,52为第五运算器,53为第三存储器,6为图像匹配单元,61为第六运算器,62为第七运算器,63为第四存储器,7为异构数据存储器。
具体实施方式
下面结合附图和实施例对本发明进行进一步的阐述,应该说明的是,下述说明仅是为了解释本发明,并不对其内容进行限定。
实施例1:
如图1所示的适用于组合商标的并行检索系统,包括:
web服务器1,其设有人机交互接口,用于上传待检索组合商标,接收检索结果并显示;
第一运算器2,用于将待检索组合商标分割成文字部分和图像部分,并分别发送至文字检索条件分析单元和图像检索条件分析单元;
文字检索条件分析单元3,用于待检索文字的若干个关键词提取和它们的分别存储;
图像检索条件分析单元4,用于待检索图像预处理,并进行特征提取和若干个图像特征的分别存储;
文字匹配单元5,用于将待检索文字的若干个关键词分别与异构数据存储器7中文字的关键词一一进行匹配,并将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器1;
图像匹配单元6,用于将待检索图像提取的若干个图像特征分别与异构数据存储器7中图像的图像特征一一进行匹配,并将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器1;
异构数据存储器7,用于存储文字数据和图像数据。
其中,文字检索条件分析单元3包括依次连接的执行关键词提取算法的第二运算器31以及用于存储第二运算器31运算结果的第一存储器32;所述的第一存储器32分为若干个第一分配单元321,分别用于存储第二运算器31提取的若干个关键字。
图像检索条件分析单元4包括依次连接的图像预处理模块41、执行特征提取算法的第三运算器42以及用于存储第三运算器42运算结果的第二存储器43;所述的第二存储器43分为若干个第二分配单元431,分别用于存储第三运算器42提取的若干个图像特征。图像预处理模块41包括图像几何变换单元、图像去噪单元、图像复原单元、图像增强单元及图像归一化单元;
图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
文字匹配单元5包括执行匹配算法的若干个第四运算器51,所述的各个第四运算器51连接至执行文本相似度算法的第五运算器52,第五运算器52与用于存储其运算结果的第三存储器53连接,第四运算器51还分别与第一存储器32的各个第一分配单元321和异构数据存储器7连接。
图像匹配单元6包括执行匹配算法的若干个第六运算器61,所述各个第六运算器61连接至执行相似图像识别算法的第七运算器62,第七运算器62与用于存储其运算结果的第四存储器63连接,第六运算器61还分别与第二存储器43的各个第二分配单元431和异构数据存储器7连接。
第三存储器53、第四存储器63分别与web服务器连接。
上述系统对应的适用于组合商标的并行检索方法,包括步骤:
s1.向web服务器1上传待检索组合商标;
s2.将待检索组合商标分割成文字部分和图像部分,分别进入步骤s3和步骤s4;
s3.对待检索文字进行若干个关键词提取并分别存储,进入步骤s5;
s4.对待检索图像进行预处理、特征提取和若干个图像特征的分别存储,进入步骤s6;
s5.将步骤s3提取的若干个关键词与异构数据存储器7中文字的关键词一一进行匹配,将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器1并显示;
s6.将步骤s4提取的若干个图像特征与异构数据存储器7中图像的图像特征一一进行匹配,将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器1并显示。
步骤s2采用连通域投影法进行待检索组合商标的分割。
步骤s3的关键词提取包括中文关键词提取和英文关键词提取。中文关键词提取采用基于语义的中文文本关键词提取算法实现。英文关键词提取采用rake算法实现。
步骤s4中预处理的具体方法如下:
图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
步骤s4所提取特征是不受光照、颜色、尺度和旋转变化影响的稳定特征,具体提取方法是:
s4-1.利用抽样和高斯卷积构造图像高斯金字塔,其由多个频段组成,相邻频段尺度相差50%,每个频段中利用高斯卷积构造多个子层;
s4-2.对各层图像使用多种特征检测算子进行处理;
s4-3.在各个频段内,对每一子层中的每一像素点,比较尺度空间上邻域内的特征检测算子的处理结果值,如果该像素点上的结果值在其邻域内是极大值或极小值,就将其作为候选特征点,记录它出现的频段,子层序号,图像中的坐标信息;
s4-4.去除候选特征点中重复的点,然后去除候选特征点中弱对比度和边缘附近的点,得到稳定特征点。
步骤s4中特征提取包括颜色特征和边缘形状特征。颜色特征用于描述图像或图像区域所对应的景物的表面性质,其提取方法为颜色直方图。边缘形状特征是指其周围像素灰度急剧变化的那些象素的集合,边缘存在于目标、背景和区域之间,是图像最基本的特征,其提取方法采用sobel算子边缘检测。
步骤s3中提取的若干个关键词存储至第一存储器32的若干个第一分配单元321。
步骤s4中提取的若干个图像特征存储至第二存储器43的若干个第二分配单元431。
步骤s5中的匹配结果经文本相似算法得到重复数据,将其存储至第三存储器53,第三存储器53与web服务器1连接。利用字符串编辑距离进行文本相似运算。
步骤s6中的匹配结果经相似图像识别得到重复数据,将其存储至第四存储器63,第四存储器63与web服务器1连接。利用sift算法进行相似图像识别。
实施例2:
如图1所示的适用于组合商标的并行检索系统,包括:
web服务器1,其设有人机交互接口,用于上传待检索组合商标,接收检索结果并显示;
第一运算器2,用于将待检索组合商标分割成文字部分和图像部分,并分别发送至文字检索条件分析单元和图像检索条件分析单元;
文字检索条件分析单元3,用于待检索文字的若干个关键词提取和它们的分别存储;
图像检索条件分析单元4,用于待检索图像预处理,并进行特征提取和若干个图像特征的分别存储;
文字匹配单元5,用于将待检索文字的若干个关键词分别与异构数据存储器7中文字的关键词一一进行匹配,并将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器1;
图像匹配单元6,用于将待检索图像提取的若干个图像特征分别与异构数据存储器7中图像的图像特征一一进行匹配,并将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器1;
异构数据存储器7,用于存储文字数据和图像数据。
其中,文字检索条件分析单元3包括依次连接的执行关键词提取算法的第二运算器31以及用于存储第二运算器31运算结果的第一存储器32;所述的第一存储器32分为若干个第一分配单元321,分别用于存储第二运算器31提取的若干个关键字。
图像检索条件分析单元4包括依次连接的图像预处理模块41、执行特征提取算法的第三运算器42以及用于存储第三运算器42运算结果的第二存储器43;所述的第二存储器43分为若干个第二分配单元431,分别用于存储第三运算器42提取的若干个图像特征。图像预处理模块41包括图像几何变换单元、图像去噪单元、图像复原单元、图像增强单元及图像归一化单元;
图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
文字匹配单元5包括执行匹配算法的若干个第四运算器51,所述的各个第四运算器51连接至执行文本相似度算法的第五运算器52,第五运算器52与用于存储其运算结果的第三存储器53连接,第四运算器51还分别与第一存储器32的各个第一分配单元321和异构数据存储器7连接。
图像匹配单元6包括执行匹配算法的若干个第六运算器61,所述各个第六运算器61连接至执行相似图像识别算法的第七运算器62,第七运算器62与用于存储其运算结果的第四存储器63连接,第六运算器61还分别与第二存储器43的各个第二分配单元431和异构数据存储器7连接。
第三存储器53、第四存储器63分别与web服务器连接。
上述系统对应的适用于组合商标的并行检索方法,包括步骤:
s1.向web服务器1上传待检索组合商标;
s2.将待检索组合商标分割成文字部分和图像部分,分别进入步骤s3和步骤s4;
s3.对待检索文字进行若干个关键词提取并分别存储,进入步骤s5;
s4.对待检索图像进行预处理、特征提取和若干个图像特征的分别存储,进入步骤s6;
s5.将步骤s3提取的若干个关键词与异构数据存储器7中文字的关键词一一进行匹配,将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器1并显示;
s6.将步骤s4提取的若干个图像特征与异构数据存储器7中图像的图像特征一一进行匹配,将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器1并显示。
步骤s2采用连通域面积法进行待检索组合商标的分割。
步骤s3的关键词提取包括中文关键词提取和英文关键词提取。中文关键词提取采用基于朴素贝叶斯模型的中文关键词提取算法实现。英文关键词提取采用rake算法实现。
步骤s4中预处理的具体方法如下:
图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
步骤s4所提取特征是不受光照、颜色、尺度和旋转变化影响的稳定特征,具体提取方法是:
s4-1.利用抽样和高斯卷积构造图像高斯金字塔,其由多个频段组成,相邻频段尺度相差50%,每个频段中利用高斯卷积构造多个子层;
s4-2.对各层图像使用多种特征检测算子进行处理;
s4-3.在各个频段内,对每一子层中的每一像素点,比较尺度空间上邻域内的特征检测算子的处理结果值,如果该像素点上的结果值在其邻域内是极大值或极小值,就将其作为候选特征点,记录它出现的频段,子层序号,图像中的坐标信息;
s4-4.去除候选特征点中重复的点,然后去除候选特征点中弱对比度和边缘附近的点,得到稳定特征点。
步骤s4中特征提取包括颜色特征和边缘形状特征。颜色特征用于描述图像或图像区域所对应的景物的表面性质,其提取方法为颜色集。边缘形状特征是指其周围像素灰度急剧变化的那些象素的集合,边缘存在于目标、背景和区域之间,是图像最基本的特征,其提取方法采用roberts算子边缘检测实现。
步骤s3中提取的若干个关键词存储至第一存储器32的若干个第一分配单元321。
步骤s4中提取的若干个图像特征存储至第二存储器43的若干个第二分配单元431。
步骤s5中的匹配结果经文本相似算法得到重复数据,将其存储至第三存储器53,第三存储器53与web服务器1连接。利用向量相似度进行文本相似运算。
步骤s6中的匹配结果经相似图像识别得到重复数据,将其存储至第四存储器63,第四存储器63与web服务器1连接。利用surf算法进行相似图像识别。
实施例3:
如图1所示的适用于组合商标的并行检索系统,包括:
web服务器1,其设有人机交互接口,用于上传待检索组合商标,接收检索结果并显示;
第一运算器2,用于将待检索组合商标分割成文字部分和图像部分,并分别发送至文字检索条件分析单元和图像检索条件分析单元;
文字检索条件分析单元3,用于待检索文字的若干个关键词提取和它们的分别存储;
图像检索条件分析单元4,用于待检索图像预处理,并进行特征提取和若干个图像特征的分别存储;
文字匹配单元5,用于将待检索文字的若干个关键词分别与异构数据存储器7中文字的关键词一一进行匹配,并将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器1;
图像匹配单元6,用于将待检索图像提取的若干个图像特征分别与异构数据存储器7中图像的图像特征一一进行匹配,并将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器1;
异构数据存储器7,用于存储文字数据和图像数据。
其中,文字检索条件分析单元3包括依次连接的执行关键词提取算法的第二运算器31以及用于存储第二运算器31运算结果的第一存储器32;所述的第一存储器32分为若干个第一分配单元321,分别用于存储第二运算器31提取的若干个关键字。
图像检索条件分析单元4包括依次连接的图像预处理模块41、执行特征提取算法的第三运算器42以及用于存储第三运算器42运算结果的第二存储器43;所述的第二存储器43分为若干个第二分配单元431,分别用于存储第三运算器42提取的若干个图像特征。图像预处理模块41包括图像几何变换单元、图像去噪单元、图像复原单元、图像增强单元及图像归一化单元;
图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
文字匹配单元5包括执行匹配算法的若干个第四运算器51,所述的各个第四运算器51连接至执行文本相似度算法的第五运算器52,第五运算器52与用于存储其运算结果的第三存储器53连接,第四运算器51还分别与第一存储器32的各个第一分配单元321和异构数据存储器7连接。
图像匹配单元6包括执行匹配算法的若干个第六运算器61,所述各个第六运算器61连接至执行相似图像识别算法的第七运算器62,第七运算器62与用于存储其运算结果的第四存储器63连接,第六运算器61还分别与第二存储器43的各个第二分配单元431和异构数据存储器7连接。
第三存储器53、第四存储器63分别与web服务器连接。
上述系统对应的适用于组合商标的并行检索方法,包括步骤:
s1.向web服务器1上传待检索组合商标;
s2.将待检索组合商标分割成文字部分和图像部分,分别进入步骤s3和步骤s4;
s3.对待检索文字进行若干个关键词提取并分别存储,进入步骤s5;
s4.对待检索图像进行预处理、特征提取和若干个图像特征的分别存储,进入步骤s6;
s5.将步骤s3提取的若干个关键词与异构数据存储器7中文字的关键词一一进行匹配,将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器1并显示;
s6.将步骤s4提取的若干个图像特征与异构数据存储器7中图像的图像特征一一进行匹配,将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器1并显示。
步骤s2采用基于结构的子图抽取法进行待检索组合商标的分割。
步骤s3的关键词提取包括中文关键词提取和英文关键词提取。中文关键词提取采用基于语义的中文文本关键词提取算法实现。英文关键词提取采用rake算法实现。
步骤s4中预处理的具体方法如下:
图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
步骤s4所提取特征是不受光照、颜色、尺度和旋转变化影响的稳定特征,具体提取方法是:
s4-1.利用抽样和高斯卷积构造图像高斯金字塔,其由多个频段组成,相邻频段尺度相差50%,每个频段中利用高斯卷积构造多个子层;
s4-2.对各层图像使用多种特征检测算子进行处理;
s4-3.在各个频段内,对每一子层中的每一像素点,比较尺度空间上邻域内的特征检测算子的处理结果值,如果该像素点上的结果值在其邻域内是极大值或极小值,就将其作为候选特征点,记录它出现的频段,子层序号,图像中的坐标信息;
s4-4.去除候选特征点中重复的点,然后去除候选特征点中弱对比度和边缘附近的点,得到稳定特征点。
步骤s4中特征提取包括颜色特征和边缘形状特征。颜色特征用于描述图像或图像区域所对应的景物的表面性质,其提取方法为颜色矩。边缘形状特征是指其周围像素灰度急剧变化的那些象素的集合,边缘存在于目标、背景和区域之间,是图像最基本的特征,其提取方法采用prewitt算子边缘检测实现。
步骤s3中提取的若干个关键词存储至第一存储器32的若干个第一分配单元321。
步骤s4中提取的若干个图像特征存储至第二存储器43的若干个第二分配单元431。
步骤s5中的匹配结果经文本相似算法得到重复数据,将其存储至第三存储器53,第三存储器53与web服务器1连接。利用simhash算法进行文本相似运算。
步骤s6中的匹配结果经相似图像识别得到重复数据,将其存储至第四存储器63,第四存储器63与web服务器1连接。利用harris算法进行相似图像识别。
实施例4:
如图1所示的适用于组合商标的并行检索系统,包括:
web服务器1,其设有人机交互接口,用于上传待检索组合商标,接收检索结果并显示;
第一运算器2,用于将待检索组合商标分割成文字部分和图像部分,并分别发送至文字检索条件分析单元和图像检索条件分析单元;
文字检索条件分析单元3,用于待检索文字的若干个关键词提取和它们的分别存储;
图像检索条件分析单元4,用于待检索图像预处理,并进行特征提取和若干个图像特征的分别存储;
文字匹配单元5,用于将待检索文字的若干个关键词分别与异构数据存储器7中文字的关键词一一进行匹配,并将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器1;
图像匹配单元6,用于将待检索图像提取的若干个图像特征分别与异构数据存储器7中图像的图像特征一一进行匹配,并将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器1;
异构数据存储器7,用于存储文字数据和图像数据。
其中,文字检索条件分析单元3包括依次连接的执行关键词提取算法的第二运算器31以及用于存储第二运算器31运算结果的第一存储器32;所述的第一存储器32分为若干个第一分配单元321,分别用于存储第二运算器31提取的若干个关键字。
图像检索条件分析单元4包括依次连接的图像预处理模块41、执行特征提取算法的第三运算器42以及用于存储第三运算器42运算结果的第二存储器43;所述的第二存储器43分为若干个第二分配单元431,分别用于存储第三运算器42提取的若干个图像特征。图像预处理模块41包括图像几何变换单元、图像去噪单元、图像复原单元、图像增强单元及图像归一化单元;
图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
文字匹配单元5包括执行匹配算法的若干个第四运算器51,所述的各个第四运算器51连接至执行文本相似度算法的第五运算器52,第五运算器52与用于存储其运算结果的第三存储器53连接,第四运算器51还分别与第一存储器32的各个第一分配单元321和异构数据存储器7连接。
图像匹配单元6包括执行匹配算法的若干个第六运算器61,所述各个第六运算器61连接至执行相似图像识别算法的第七运算器62,第七运算器62与用于存储其运算结果的第四存储器63连接,第六运算器61还分别与第二存储器43的各个第二分配单元431和异构数据存储器7连接。
第三存储器53、第四存储器63分别与web服务器连接。
上述系统对应的适用于组合商标的并行检索方法,包括步骤:
s1.向web服务器1上传待检索组合商标;
s2.将待检索组合商标分割成文字部分和图像部分,分别进入步骤s3和步骤s4;
s3.对待检索文字进行若干个关键词提取并分别存储,进入步骤s5;
s4.对待检索图像进行预处理、特征提取和若干个图像特征的分别存储,进入步骤s6;
s5.将步骤s3提取的若干个关键词与异构数据存储器7中文字的关键词一一进行匹配,将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器1并显示;
s6.将步骤s4提取的若干个图像特征与异构数据存储器7中图像的图像特征一一进行匹配,将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器1并显示。
步骤s2采用连通域投影法进行待检索组合商标的分割。
步骤s3的关键词提取包括中文关键词提取和英文关键词提取。中文关键词提取采用基于朴素贝叶斯模型的中文关键词提取算法实现。英文关键词提取采用rake算法实现。
步骤s4中预处理的具体方法如下:
图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
步骤s4所提取特征是不受光照、颜色、尺度和旋转变化影响的稳定特征,具体提取方法是:
s4-1.利用抽样和高斯卷积构造图像高斯金字塔,其由多个频段组成,相邻频段尺度相差50%,每个频段中利用高斯卷积构造多个子层;
s4-2.对各层图像使用多种特征检测算子进行处理;
s4-3.在各个频段内,对每一子层中的每一像素点,比较尺度空间上邻域内的特征检测算子的处理结果值,如果该像素点上的结果值在其邻域内是极大值或极小值,就将其作为候选特征点,记录它出现的频段,子层序号,图像中的坐标信息;
s4-4.去除候选特征点中重复的点,然后去除候选特征点中弱对比度和边缘附近的点,得到稳定特征点。
步骤s4中特征提取包括颜色特征和边缘形状特征。颜色特征用于描述图像或图像区域所对应的景物的表面性质,其提取方法为颜色聚合向量。边缘形状特征是指其周围像素灰度急剧变化的那些象素的集合,边缘存在于目标、背景和区域之间,是图像最基本的特征,其提取方法采用laplacian算子边缘检测实现。
步骤s3中提取的若干个关键词存储至第一存储器32的若干个第一分配单元321。
步骤s4中提取的若干个图像特征存储至第二存储器43的若干个第二分配单元431。
步骤s5中的匹配结果经文本相似算法得到重复数据,将其存储至第三存储器53,第三存储器53与web服务器1连接。利用字符串编辑距离进行文本相似运算。
步骤s6中的匹配结果经相似图像识别得到重复数据,将其存储至第四存储器63,第四存储器63与web服务器1连接。利用fast算法进行相似图像识别。
实施例5:
如图1所示的适用于组合商标的并行检索系统,包括:
web服务器1,其设有人机交互接口,用于上传待检索组合商标,接收检索结果并显示;
第一运算器2,用于将待检索组合商标分割成文字部分和图像部分,并分别发送至文字检索条件分析单元和图像检索条件分析单元;
文字检索条件分析单元3,用于待检索文字的若干个关键词提取和它们的分别存储;
图像检索条件分析单元4,用于待检索图像预处理,并进行特征提取和若干个图像特征的分别存储;
文字匹配单元5,用于将待检索文字的若干个关键词分别与异构数据存储器7中文字的关键词一一进行匹配,并将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器1;
图像匹配单元6,用于将待检索图像提取的若干个图像特征分别与异构数据存储器7中图像的图像特征一一进行匹配,并将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器1;
异构数据存储器7,用于存储文字数据和图像数据。
其中,文字检索条件分析单元3包括依次连接的执行关键词提取算法的第二运算器31以及用于存储第二运算器31运算结果的第一存储器32;所述的第一存储器32分为若干个第一分配单元321,分别用于存储第二运算器31提取的若干个关键字。
图像检索条件分析单元4包括依次连接的图像预处理模块41、执行特征提取算法的第三运算器42以及用于存储第三运算器42运算结果的第二存储器43;所述的第二存储器43分为若干个第二分配单元431,分别用于存储第三运算器42提取的若干个图像特征。图像预处理模块41包括图像几何变换单元、图像去噪单元、图像复原单元、图像增强单元及图像归一化单元;
图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
文字匹配单元5包括执行匹配算法的若干个第四运算器51,所述的各个第四运算器51连接至执行文本相似度算法的第五运算器52,第五运算器52与用于存储其运算结果的第三存储器53连接,第四运算器51还分别与第一存储器32的各个第一分配单元321和异构数据存储器7连接。
图像匹配单元6包括执行匹配算法的若干个第六运算器61,所述各个第六运算器61连接至执行相似图像识别算法的第七运算器62,第七运算器62与用于存储其运算结果的第四存储器63连接,第六运算器61还分别与第二存储器43的各个第二分配单元431和异构数据存储器7连接。
第三存储器53、第四存储器63分别与web服务器连接。
上述系统对应的适用于组合商标的并行检索方法,包括步骤:
s1.向web服务器1上传待检索组合商标;
s2.将待检索组合商标分割成文字部分和图像部分,分别进入步骤s3和步骤s4;
s3.对待检索文字进行若干个关键词提取并分别存储,进入步骤s5;
s4.对待检索图像进行预处理、特征提取和若干个图像特征的分别存储,进入步骤s6;
s5.将步骤s3提取的若干个关键词与异构数据存储器7中文字的关键词一一进行匹配,将若干个关键词相应的匹配结果进一步运算重复数据后反馈回web服务器1并显示;
s6.将步骤s4提取的若干个图像特征与异构数据存储器7中图像的图像特征一一进行匹配,将若干个图像特征相应的匹配结果进一步运算重复数据后反馈回web服务器1并显示。
步骤s2采用基于结构的子图抽取法进行待检索组合商标的分割。
步骤s3的关键词提取包括中文关键词提取和英文关键词提取。中文关键词提取采用基于语义的中文文本关键词提取算法实现。英文关键词提取采用rake算法实现。
步骤s4中预处理的具体方法如下:
图像几何变换单元采用三次内插法确定校正空间各像素的灰度值;
图像去噪单元采用非线性滤波法去除图像背景噪声和减少图像传输过程中掺杂的噪声;
图像复原单元采用维纳滤波复原法校正各种原因所造成的图像退化;
图像增强单元采用gabor滤波增强法对图像中的信息有选择地加强和抑制;
图像归一化单元采用基于图像像素的归一化算法获取具有不变性质的图像。
步骤s4所提取特征是不受光照、颜色、尺度和旋转变化影响的稳定特征,具体提取方法是:
s4-1.利用抽样和高斯卷积构造图像高斯金字塔,其由多个频段组成,相邻频段尺度相差50%,每个频段中利用高斯卷积构造多个子层;
s4-2.对各层图像使用多种特征检测算子进行处理;
s4-3.在各个频段内,对每一子层中的每一像素点,比较尺度空间上邻域内的特征检测算子的处理结果值,如果该像素点上的结果值在其邻域内是极大值或极小值,就将其作为候选特征点,记录它出现的频段,子层序号,图像中的坐标信息;
s4-4.去除候选特征点中重复的点,然后去除候选特征点中弱对比度和边缘附近的点,得到稳定特征点。
步骤s4中特征提取包括颜色特征和边缘形状特征。颜色特征用于描述图像或图像区域所对应的景物的表面性质,其提取方法为颜色相关图。边缘形状特征是指其周围像素灰度急剧变化的那些象素的集合,边缘存在于目标、背景和区域之间,是图像最基本的特征,其提取方法采用canny算子边缘检测实现。
步骤s3中提取的若干个关键词存储至第一存储器32的若干个第一分配单元321。
步骤s4中提取的若干个图像特征存储至第二存储器43的若干个第二分配单元431。
步骤s5中的匹配结果经文本相似算法得到重复数据,将其存储至第三存储器53,第三存储器53与web服务器1连接。利用simhash算法进行文本相似运算。
步骤s6中的匹配结果经相似图像识别得到重复数据,将其存储至第四存储器63,第四存储器63与web服务器1连接。利用brisk算法进行相似图像识别。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。