基于分布形状相似度的图片识别方法及系统与流程

文档序号:32438813发布日期:2022-12-06 20:32阅读:650来源:国知局
基于分布形状相似度的图片识别方法及系统与流程

1.本发明涉及图片识别技术领域,特别涉及基于分布形状相似度的图片识别方法及系统。


背景技术:

2.现如今,大多数研究概率分布相似度问题的,都聚焦于样本分布是否相同的问题,通过计算相应的相似度度量,来确认两个分布是否是相同分布,而很少关注分布形状是否相同这一点。
3.一种基于时频分布相似度分析的兰姆波模态分离方法,通过板结构兰姆波信号采集系统,采集检测信号,对信号进行滤波和幅值归一化处理,并进行时频分析获得检测信号的时频分布,创建不同模态的理论时频分布集,计算检测信号与各模态理论时频分布集的相似度,得到相似度矩阵,寻找最大相似度值,识别与检测信号时频分布相匹配的模态及距离,在识别模态的基础上,构建中心随时间及频率变化的二维高斯时变滤波器,并与检测信号的时频图相乘分离出单模态时频图,由分离出的时频图获取单模态时域信号,实现兰姆波多模态信号的分离。该方法从时频分布相似度分析角度出发,在识别和分离模态的同时,能够较为准确的估计波包的传播距离。(专利号:cn202110514237.1)一种人脸聚类子类合并方法、装置及设备,通过获取目标时间段内、目标区域范围内的多个待聚类人脸图像,并得到各待聚类人脸图像的子类编号;提取各待聚类人脸图像的时空单元;将各待聚类人脸图像的子类编号和时空单元进行关联,得到各待聚类人脸图像的时空轨迹特征;根据各待聚类人脸图像的时空轨迹特征,计算各子类编号的时空轨迹特征概率分布;通过预设相似度公式计算两个子类编号之间的概率分布相似度;若概率分布相似度大于第一预设阈值,则合并两个子类编号。通过人员时空轨迹特征可以补充数据的维度,并且通过一定周期的时空轨迹特征的统计规律,可以保证每个子类中的各个人脸特征是高内聚的,从而提高了人脸聚类的准确度。(专利号:cn202111044370.1)一种测定电力系统风电运行出力上限值的方法,该方法包括提高具有概率分布相似性序列的计算效率的方法,该方法充分利用不同受限情况下风电场有功输出的概率分布具有极大相似性的特点,提出“分离算法”并采用概率变化序列替代原概率性序列进行序列运算,利用概率变化序列的高度稀疏性,大幅降低计算量,提高计算速度。整个计算过程无任何近似,所得计算结果与直接采用概率性序列进行序列运算完全相同。(专利号:cn201310205157.3)
4.而事实上,在工业、经济等领域中,更多的还是希望能得到两个分布的形状相似结论即可,不一定需要如此严格的证明这两个分布是同一分布。
5.一种基于量子算法的图像相似度识别方法,包括:分别将接收到的两个目标图像划分为预设数量的像素块;确定对各像素块的像素位置进行表示的目标计算基矢,并将各像素位置比特制备至目标计算基矢的等权重叠加态;分别获取各像素块的像素值,确定各像素值分别对应的像素值比特;确定两个目标图像分别对应的第一比特串和第二比特串;构造第一比特串和第二比特串的张量积,得到目标比特串;获取目标比特串各项的目标辅
助比特位;根据各目标辅助比特位对目标图像对进行相似度识别。本发明较大地减轻了计算量,较大地提高了相似度计算效率。(专利号:cn202010470833.x)一种基于hsv的图像相似度识别方法,包括:进行图像分块,图像分块采用椭圆方式划分图像方法;设置各个分块权重,对椭圆区域和椭圆外背景区域设置影响因子;对图像进行hsv直方图计算,并将计算结果存储到数据库;使用改进后的卡方距离算法进行相似图像检索。(专利号:cn201611149778.4)
6.以上两种图像相似度识别方法,均涉及到图像分块步骤,则分块的数量及方法会直接影响到相似度识别结果。基于hsv的图像相似度识别方法使用改进后的卡方距离算法,需要结合不同区域的影响因子情况,使得计算过程更为复杂,涉及的超参数数量更多,调参过程更加复杂,以在图片目标物的快速识别中,无现有技术参照根据图像的灰度序列的分布形状,快速有效实现根据目标图像分布形状相似性进行度量识别以快速准确搜索相似手办的方法。


技术实现要素:

7.本发明提供一种基于分布形状相似度的图片识别方法及系统,能够根据图像的灰度序列分布形状,快速有效进行目标图像相似性度量识别,以快速准确搜索相似手办。
8.为了实现上述技术目的,本发明提供了如下技术方案:
9.基于分布形状相似度的图片识别方法,包括:
10.获取候选图像及待辨认图像,基于候选图像及待辨认图像,得到灰度序列,基于灰度序列拟合得到概率密度函数;
11.基于灰度序列进行排序,得到分位数序列,基于分位数序列拟合得到回归系数;基于回归系数及概率密度函数计算得到相似度值,对相似度值进行判断,得到相似识别结果以实现图像相似识别进而识别相似手办。
12.可选的,其中所述灰度序列获取的过程包括:
13.通过边界跟踪法对所述候选图像及待辨认图像进行边界提取,得到所述候选图像及待辨认图像的目标外轮廓位置序列,基于目标外轮廓位置序列,生成图像掩码矩阵;
14.基于图像掩码矩阵对所述候选图像及待辨认图像的背景进行去除,得到目标物体图像,基于目标物体图像中的像素点计算得到灰度序列,其中灰度序列包括候选目标灰度序列及待辨认目标灰度序列。
15.可选的,通过高斯核密度估计方法对灰度序列进行拟合,得到概率密度函数。
16.可选的,拟合得到回归系数的过程包括:
17.对灰度序列中的元素进行升序排列,基于排列后的灰度序列计算得到分位数序列;拟合所述分位数序列的回归模型,通过最小二乘法对回归模型进行分析得到回归系数;其中所述分位数序列包括候选目标分位数序列及待辨认目标分位数序列,所述回归系数包括尺度参数及平移参数。
18.可选的,计算得到相似度值的过程包括:
19.基于回归系数及概率密度函数通过cs-相似度公式计算得到相似度值;其中cs-相似度公式为:
[0020][0021]
其中m是拟合概率密度函数存储的样本点的数量;集合a为尺度参数确定的搜索邻域;集合b为通过平移参数确定的搜索邻域,a为尺度参数,b为位移参数,ti为输入自变量,和分别为候选图像及待辨认图像的对应概率密度函数;λ
t
是概率密度函数拟合结果中的参数带宽。
[0022]
为了更好的实现上述技术目的,本发明提供了基于分布形状相似度的图片识别系统,包括:
[0023]
获取模块及处理模块,
[0024]
其中获取模块用于获取候选图像及待辨认图像,基于候选图像及待辨认图像,得到灰度序列,基于灰度序列拟合得到概率密度函数;
[0025]
所述处理模块用于基于灰度序列进行排序,得到分位数序列,基于分位数序列拟合得到回归系数;基于回归系数及概率密度函数计算得到相似度值,对相似度值进行判断,得到相似识别结果以实现图像相似识别进而识别相似手办。
[0026]
可选的,所述获取模块包括第一获取模块,第一获取模块用于通过边界跟踪法对所述候选图像及待辨认图像进行边界提取,得到所述候选图像及待辨认图像的目标外轮廓位置序列,基于目标外轮廓位置序列,生成图像掩码矩阵;基于图像掩码矩阵对所述候选图像及待辨认图像的背景进行去除,得到目标物体图像,基于目标物体图像中的像素点计算得到灰度序列,其中灰度序列包括候选目标灰度序列及待辨认目标灰度序列。
[0027]
可选的,第一获取模块中,通过高斯核密度估计方法对灰度序列进行拟合,得到概率密度函数。
[0028]
可选的,处理模块包括第一处理模块,其中第一处理模块用于对灰度序列中的元素进行升序排列,基于排列后的灰度序列计算得到分位数序列;拟合所述分位数序列的回归模型,通过最小二乘法对回归模型进行分析得到回归系数;其中所述分位数序列包括候选目标分位数序列及待辨认目标分位数序列,所述回归系数包括尺度参数及平移参数。
[0029]
可选的,处理模块包括第二处理模块,其中第二处理模块用于基于回归系数及概率密度函数通过cs-相似度公式计算得到相似度值;其中cs-相似度公式为:
[0030][0031]
其中m是拟合概率密度函数存储的样本点的数量;集合a为尺度参数确定的搜索邻域;集合b为通过平移参数确定的搜索邻域,a为尺度参数,b为位移参数,ti为输入自变量,和分别为候选图像及待辨认图像的对应概率密度函数;λ
t
是概率密度函数拟合结果中的参数带宽。
[0032]
本发明具有如下技术效果:
[0033]
1.本发明中新定义了连续分布的相似度度量:c-相似度和cs-相似度。2.本发明衡量样本概率分布形状的相似性,相比于衡量样本是否是同一分布,条件更宽松,能够对手办的图像进行相似度评价,有效评价手办相似性,对其搜索过程更加准确,除了对手办玩具进
行识别,同样能,能广泛应用于工业、经济等领域。3.本发明中涉及技术多是统计模型,可解释性强。4.本发明中使用边界跟踪法,通过获取图像中目标物体外轮廓位置信息,去除背景像素点,便于实现,且可解释性强。5.本发明中将彩色图像转为灰度图像,降低了计算成本。6.本发明通过分布形状相似度识别锁定图片目标,方法简单且不受图片分辨率和光线强弱的影响。
附图说明
[0034]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0035]
图1为本发明实施例提供的方法流程示意图;
[0036]
图2为本发明实施例提供的候选图像示意图;
[0037]
图3为本发明实施例提供的待辨认图像示意图;
[0038]
图4为本发明实施例提供的相似度计算结果示意图。
具体实施方式
[0039]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0040]
如图1所述,本发明提供了基于分布形状相似度的图片识别方法,包括:首先需要对手办的的候选图像及待辨认图像进行获取,其候选图像可进行多数选择,通过对以下的具体步骤进行相似度识别。
[0041]
阶段一:图像预处理
[0042]
1-1、边界跟踪法
[0043]
通过边界跟踪法,得到图像中目标物体的外轮廓位置序列。
[0044]
1-2、图像掩码矩阵
[0045]
生成图片的0-1掩码矩阵(外轮廓及其内的点取1,外轮廓以外的点,即背景点取0)。
[0046]
1-3、目标物体彩色图像
[0047]
保留原图像中掩码矩阵标注为1的像素点,将标注为0的像素点,即背景色像素点去除。最终得到去除背景色的目标物体彩色图像。
[0048]
1-4、转为灰度图像
[0049]
根据以下公式,将目标物体像素点的rgb序列转为灰度序列:
[0050]
gray=0.2989r+0.5870g+0.1140b
[0051]
得到图片中目标物体灰度序列x:x1,x2,

,xn。
[0052]
1-5、高斯核密度估计
[0053]
通过目标物体灰度序列,使用非参数估计中的高斯核密度估计方法,拟合目标物
体灰度序列的概率密度函数。其中参数带宽λ
t
可以通过k折交叉验证的方法自动选取最优值。保存目标物体灰度序列以及相应的概率密度函数,拟合的概率密度函数以m个样本点和相应的概率密度的形式保存。
[0054]
阶段二:图像相似度识别
[0055]
2-1、计算分位数序列
[0056]
取一个候选图像灰度图像序列x,将x与待辨认图像灰度序列y分别按从小到大升序排列,并计算分别两组序列的分位数序列q1、q2,其中q1是候选图像分位数序列,q2是待辨认图像分位数序列。
[0057]
2-2、拟合线性回归模型
[0058]
将两组图像的分位数序列q1、q2拟合一元线性回归模型,通过最小二乘法,得到拟合的回归系数和并构建相似尺度、平移关联参数的搜索邻域和
[0059]
2-3、计算cs-相似度
[0060]
因为图片的像素个数不同、光线明暗不同,度量分布形状相似度时需要采用cs-相似度。通过之前计算得出的尺度参数和平移参数β0和β1,以及两组图像的概率密度函数和通过以下cs-相似度公式,计算两组图像的相似度值x
sim

[0061][0062]
其中m是拟合概率密度函数存储的样本点的数量,比如在r语言中默认存储512个样本点和相应的512个概率密度。集合a和b是通过尺度参数和平移参数的估计值和确定的邻域和εa和εb分别是尺度参数和平移参数的邻域宽度值,a为尺度参数,b为位移参数,ti为输入自变量。λ
t
是概率密度函数拟合结果中的参数带宽,ti为输入自变量。
[0063]
2-4、重复步骤2-1到步骤2-3,直至所有候选图像均与待辨认图像完成cs-相似度计算。
[0064]
2-5、结果输出
[0065]
比较所有的cs-相似度值,取其中的最大值,该值对应的候选图像即为识别结果,将结果输出。在针对手办玩具识别的过程中,以图2-3为识别样本,从图4可以看出,第三张图片与待辨认图像有最高的cs-相似度,我们取第三张图片为识别结果,输出其对应的彩色图像与灰度序列。识别结果正确,能够准确找出手办相关的图像,对手办进行准确搜索。
[0066]
对上述方案进行具体说明:
[0067]
一、边界跟踪法
[0068]
本发明通过边界跟踪法,提取目标物体的外轮廓位置序列,生成图片的0-1掩码矩阵(外轮廓及其内的点取1,外轮廓以外的点,即背景点取0),最终得到无背景的目标物体图像。
[0069]
将目标物体图像由彩色图像转为灰度图像,输出的那些灰度值就是之后将要进行图像识别以及拟合高斯核密度函数的灰度图像序列(后续将候选图像灰度图像序列记为x,待辨认图像灰度图像序列记为y)。
[0070]
【边界跟踪法】
[0071]
边界跟踪的定义为从图像中的一个边界点出发,然后根据某种判别准则搜索出下一个边界点,以此跟踪出目标边界。
[0072]
边界跟踪算法原理:
[0073]
1)从左下角开始逐点扫描,当遇到边缘点时,则跟踪,直至跟后续点回到起始点(对于闭合线),或其后续点在没有新的后续点(对于非闭合线)为止。
[0074]
2)如果为非闭合线,则跟踪一侧后,需从起始点开始朝相反方向跟踪到另一尾点。
[0075]
3)如果不止一个后续点,则按上述连接准则选择距离最近的点为后续点,另一次近的后续点作为新的边缘跟踪起点另行跟踪。
[0076]
4)一条线跟踪完后,接着扫描到下一个未跟踪点,直到所有边缘都跟踪完毕。
[0077]
边界跟踪的一般步骤如下:
[0078]
1)确定边界的起始搜索点,起始点的选择很关键,对于某些图像,选择不同的起始点会导致不同的结果
[0079]
2)确定合适边界判别准则和搜索准则,判别准则主要用于判断一个点是不是边界点,搜索准则用于搜索下一个边缘点。
[0080]
3)确定搜索的终止条件。
[0081]
【图片掩码】
[0082]
图像的掩码操作是指通过掩码矩阵重新计算图像中各个像素的值,掩码矩阵刻画矩阵中每一个点的邻域像素点对该点新像素值的影响程度,同时根据掩码算子中权重因子对原像素点进行加权平均。图像掩码操作常常用于图像的平滑,边缘检测和特征分析等不同的领域。
[0083]
二、分位点与样本分布相似
[0084]
【分位点】
[0085]
分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。
[0086]
设连续型随机变量x的概率密度函数为f
x
(x),分布函数是(x),分布函数是若x
τ
满足:
[0087][0088]
则称x
τ
为随机变量x概率分布的τ分位点。如果分布函数是连续的,并且严格单调递增,则:
[0089]
x
τ
=f-1
(τ)
[0090]
记q
x
(τ)=f-1
(τ),称q
x
(τ)为随机变量x的分位点函数。
[0091]
【样本的经验分位点】
[0092]
如果存在一组样本数据x1,x2,

,xn,可以通过以下方法,得到样本的经验分位点。
[0093]
先将数据从小到大排序,得到
[0094]
x
(1)
,x
(2)
,

,x
(n)
[0095]
样本数据的r分位点可以写作
[0096]
xr=x
([rn]+1)
[0097]
其中[.]表示取整函数。
[0098]
【分位点与样本分布相似】
[0099]
设有两组样本x,y:
[0100]
我们可以根据n=min{n1,n2}确定待取的分位点个数k:
[0101][0102]
分别取两组样本的k个分位点,分别记作:
[0103]
q1:q1(τ1),q1(τ2),...,q1(τk)
[0104]
q2:q2(τ1),q2(τ2),...,q2(τk)
[0105]
其中q1、q2分别是样本x,y的分位点序列,q1(τi)、q2(τi)分别为样本x,y的第i个分位点τ,i=1,2,

,k。
[0106]
三、c-相似度
[0107]
由于qq图只能直观的看出两组样本之间分布的相似程度,属于定性判断。要更深入的量化比较,则需要计算c-相似度。
[0108]
【c-相似度】
[0109]
两个连续的随机变量x和y的分布分别记作p和q,概率密度函数分别为f
x
(x)和fy(y),我们通过比较p和q两个概率密度函数曲线的形状来度量两个连续分布的形状相似度,该相似度称为c-相似度。
[0110]
【cs-相似度】
[0111]
设x和y是两个连续的随机变量,分布分别记作p和q,概率密度函数分别为f
x
(x)和fy(y),定义q相对于p的平移和尺度变换共同作用下的c-相似度是
[0112][0113]
或者
[0114][0115]
其中a称为尺度参数,b称为位移参数。我们简称经平移和尺度变换后的c-相似度为cs-相似度。
[0116]
如果x和y的分布的概率密度函数可以通过平移和尺度变换后重合,即存在a0>0,使得
[0117]fx
(x)=a0fy(a0x+b0)
[0118]
则称随机变量y相对于x的概率分布形状是相似的,即q相对于p形状相似。称a0为相似尺度关联,b0为相似平移关联。特别的,如果全等的分布形状对应的相似尺度关联为1。cs-相似度定义的分布全等性等价于以概率密度函数定义的分布全等性。
[0119]
四、线性回归模型拟合
[0120]
我们可以通过拟合线性回归模型,估计回归系数构建相似尺度、平移关联参数的搜索邻域。
[0121]
【线性回归模型拟合】
[0122]
假设x和y是两个连续的随机变量,q1、q2分别是样本x,y的分位点序列,对q1、q2构建一元线性回归模型:
[0123]
q2=β0+q1β1+∈
[0124]
其中β0和β1是回归系数,∈是偏置项。一元线性回归模型假定∈服从正态分布。
[0125]
对于第i个分位点(i=1,2,

,k),
[0126]
q2(τi)=β0+β1q1(τi)+∈i[0127]
通过最小二乘法,可以得到回归系数估计值为:
[0128][0129]
其中
[0130]
我们以和构建尺度参数和平移参数的搜索邻域和
[0131]
五、核密度估计
[0132]
本发明采用非参数估计中的高斯核密度估计方法分别拟合两组样本的概率密度分布函数f
x
(x)和fy(y),所涉及的参数带宽可通过k折交叉验证的方法自动选取最优值。
[0133]
【核密度估计】
[0134]
假设一组数据x1,...,xn,其独立于未知的连续分布p(x)。x0处的核密度估计可定义如下:
[0135][0136]
其中,xi是x0附近的λ邻域内的观测值。λ是参数带宽,限制邻域大小。k
λ
(.)是选择的核函数,本发明中使用的是高斯核函数,它的函数表达式如下所示:
[0137][0138]
【交叉验证】
[0139]
交叉验证(cross validation),有的时候也称作循环估计(rotation estimation),是一种统计学上将数据样本切割成较小子集的实用方法。
[0140]
本发明中,使用k折交叉验证来选取最优参数。k折交叉验证会把样本数据随机的分成k份(一般是均分),每次随机的选择k-1份作为训练集,剩下的1份做测试集。当这一轮完成后,重新随机选择k-1份来训练数据。最后我们来选择最优的模型以及对应参数。
[0141]
本发明优点如下:1.本发明中新定义了连续分布的相似度度量:c-相似度和cs-相似度。2.本发明衡量样本概率分布形状的相似性,相比于衡量样本是否是同一分布,条件更宽松,能够对手办的图像进行相似度评价,有效评价手办相似性,对其搜索过程更加准确,除了对手办进行识别,同样能广泛应用于工业、经济等领域。3.本发明中涉及技术多是统计模型,可解释性强。4.本发明中使用边界跟踪法,通过获取图像中目标物体外轮廓位置信息,去除背景像素点,便于实现,且可解释性强。5.本发明中将彩色图像转为灰度图像,降低了计算成本。6.本发明通过分布形状相似度识别锁定图片目标,方法简单且不受图片分辨率和光线强弱的影响。
[0142]
为了更好的实现上述技术目的,本发明提供了基于分布形状相似度的图片识别系统,包括:
[0143]
获取模块及处理模块,
[0144]
其中获取模块用于获取候选图像及待辨认图像,基于候选图像及待辨认图像,得到灰度序列,基于灰度序列拟合得到概率密度函数;
[0145]
所述处理模块用于基于灰度序列进行排序,得到分位数序列,基于分位数序列拟合得到回归系数;基于回归系数及概率密度函数计算得到相似度值,对相似度值进行判断,得到相似识别结果以实现图像相似识别。该系统与方法相对应,此处不做赘述。
[0146]
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1