散点图相似性度量方法、终端设备及存储介质

文档序号:32809691发布日期:2023-01-04 01:47阅读:59来源:国知局
散点图相似性度量方法、终端设备及存储介质

1.本发明涉及一种散点图相似性度量技术,特别是一种散点图相似性度量方法、终端设备及存储介质。


背景技术:

2.目前散点图相似性度量的基本思想是:对输入的散点图数据进行特征计算,通过特征之间的距离来度量散点图的相似性。根据输入数据的类型和特征计算的原理,现有的度量方法可以分为下面四类:(1)基于散点图图像的传统计算方法;(2)基于散点图点云数据的传统计算方法;(3)基于散点图图像的深度学习方法;(4)基于散点图点云数据的深度学习方法。
3.基于散点图图像数据的方法使用渲染后的散点图图片数据作为输入,但这类基于图片数据的方法的度量结果会受到可视化表示(如点的大小、形状、颜色、坐标轴的选择等)的影响,这会使散点图数据本身的一些特性被忽略;基于散点图点云数据的方法使用原始的散点数据作为输入,即数据中只包含每个点的坐标信息,这样最后的度量结果可以独立于可视化的表示;基于传统计算的方法通过一些手工设计的特征描述符来计算输入数据的特征,但只能度量那些可以手工计算的维度上相似性;基于深度学习的方法利用深度神经网络从输入数据中自动提取特征,这样在那些难以手工计算的维度上也可以进行相似性度量。
4.基于散点图图像的传统计算方法:tatu等人[1]开发了许多图像处理方法来量化关联度和类别分离度,即散点图中(彩色)类别的分离程度。lehmann等人[2]利用一种贪心的方法,让用户可以在大空间中交互地找到大量相关的图。shao等人[3]出了一种基于基序的匹配和排序方案,以便于使用从现有散点图中提取的一组基本图像块来查询特定模式。
[0005]
基于散点图点云数据的传统计算方法:scagnostics(散点图诊断)描述了散点图点云中的某些属性的一系列度量,这个术语和想法是由john tukey和paul tukey创造的,尽管他们并没有发表。后来wilkinson等人[4]基于高维散点数据图论的最新进展,对 scagnostics进行了详细的阐述并给出了具体的计算方法,其中定义了9个人造特征(如数据分布、密度、形状、单调性等)用来描述散点图。sips等人[5]提出了两种质量测量方法,通过重心和空间分布熵来量化类一致性。reshef等人[6]开发了最大信息系数(mic) 评分,以检测变量对之间的线性和非线性关联。
[0006]
基于散点图图像的深度学习方法:ma等人[7]利用人类视觉感知信息来模拟主观相似性。其核心思想是利用人类对散点图相似性的判断作为训练数据,并利用最先进的深度神经网络从散点图图像中自动构建特征。卷积神经网络能够通过调整其内部参数从大规模数据中学习丰富的语义特征。
[0007]
基于散点图点云数据的深度学习方法:[8]等人使用cnn提出了一种新的基于人类感知的视觉质量度量来评价散点图中的相关性,并对散点图的可视化维度的相关性进行评级。
[0008]
以上深度学习的方法也存在着一些问题:(1)需要一个巨大的带标签的数据集来引导网络的学习方向,而人工生成这些标签的成本非常高;(2)每个人主观判断的差异会使结果产生偏差;(3)可拓展性差,只能根据标签信息提取特点维度的特征,当想要度量其他维度时需要重新打标签。


技术实现要素:

[0009]
本发明所要解决的技术问题是,针对现有技术不足,提供一种散点图相似性度量方法、终端设备及存储介质,有效解决现有技术有监督学习中获得标签成本高的问题。
[0010]
为解决上述技术问题,本发明所采用的技术方案是:一种散点图相似性度量方法,包括以下步骤:
[0011]
s1、获取多个散点图的原始点云数据集s;
[0012]
s2、对所述原始点云数据集s中的每个散点图进行采样,获得采样后的数据集p;
[0013]
s3、对所述数据集p中的每个散点图进行数据增强,获得增强数据集p';
[0014]
s4、将所述数据集p和增强数据集p'分别作为pointnet网络的输入,提取数据集p和增强数据集p'的特征,得到第一特征集h和第二特征集h';
[0015]
s5、计算第一特征集h和第二特征集h'的相似度,得到相似度矩阵v;
[0016]
s6、利用所述相似度矩阵v计算pointnet网络的对比损失函数l;
[0017]
s7、最小化所述对比损失函数l,优化所述pointnet网络的参数。
[0018]
本发明基于pointnet和对比学习提出了一种散点图相似性度量模型,可以利用优化参数后的pointnet网络提取散点图的特征,进而计算特征之间的相似度。pointnet可以让网络使用散点图点云数据作为输入。本发明的无监督对比学习有效地解决了现有技术有监督学习中获得标签成本高的问题,确定的数据增强方法保证了最后结果的客观性,不同的数据增强方法的选择能够提取各种不同维度的特征。本发明将采样技术引入相似性度量方法中,在保证相似性度量结果准确性和稳定性的前提下,有效地降低了网络的复杂度。
[0019]
为了进一步优化pointnet网络,提高相似性度量结果的准确性,本发明的方法还包括:
[0020]
s8、重复步骤s4~s7,当达到预设的迭代次数或对比损失函数l收敛时,得到散点图的特征提取网络。
[0021]
本发明中,利用所述散点图的特征提取网络提取散点图的特征,并计算特征之间的距离,获取散点图之间的相似性。
[0022]
本发明上述步骤s1中,所述原始点云数据集s的格式为[n,m,2],其中n为原始点云数据集中散点图的数量,m表示每个散点图中点的个数,2表示每个散点图的坐标是二维的。
[0023]
本发明上述步骤s2中,采样后的数据集p的格式为[n,t,2],t表示采样后每个散点图中点的个数。
[0024]
步骤s5中,所述相似度计算公式为:
[0025][0026]
其中,其中a和b都是k维特征向量,且a∈h,b∈h'。
[0027]
步骤s6中,所述对比损失函数l的表达式为:
[0028][0029]
其中,数据集p中一共有n个散点图,数据集p'为相应的n个增强后的散点图集。x表示p中的一个散点图。对于每个x,都有对应的x+∈p'为其在增强集p'中相应的增强后的散点图。则每个散点图x都有1个正例对(x,x+)。而x-∈p∪p',(x
‑ꢀ
≠x且x-≠x+),则每个散点图x都有2n-2个负例对(x,x-)。公式中函数g()表示散点图特征提取函数,即pointnet;函数sim()表示计算提取的特征之间的相似度。
[0030]
一种终端设备,包括存储器、处理器及存储在存储器上的计算机程序;所述处理器执行所述计算机程序,以实现本发明上述方法的步骤。
[0031]
一种计算机可读存储介质,其上存储有计算机程序/指令;所述计算机程序/指令被处理器执行时实现本发明上述方法的步骤。
[0032]
与现有技术相比,本发明所具有的有益效果为:本发明利用pointnet在二维点云上进行对比学习训练,使用点云数据作为输入能使度量结果独立于散点图的可视化表示,让网络能够学习到散点数据本身的特征;采样操作能使不规则的点云数据更好地配合 pointnet;不同的数据增强操作引导网络的学习方向,以度量散点图不同维度上的相似性。本发明不需要带标签的数据,完美地解决了人工获得标签成本高,以及不同人主观判断的不同而使结果产生偏差的问题。
附图说明
[0033]
图1为本发明实施例1方法流程图;
[0034]
图2(a)~图2(c)为本发明实施例1是三种算法在数据集中找到与一张散点图最相似的四张散点图的结果,每幅图中最左边的一列为要查询的散点图,右边四列为查询的结果,越靠近左边则算法认为越相似;图2(a)scagnostics;图2(b)本发明实施例1,使用感知相关的数据增强;图2(c)hog;
[0035]
图3(a)~图3(c)为本发明实施例1存在不同坐标轴选择生成的散点图时不同算法度量感知相似性的效果图;图3(a)scagnostics;图3(b)本发明实施例1,使用感知相关的数据增强;图3(c)hog;
[0036]
图4为本发明实施例1在训练时损失函数值的变化;
[0037]
图5(a)和图5(b)分别为本发明实施例1在训练时的top1和top5准确率的变化。
具体实施方式
[0038]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0039]
在本文中,术语“第一”、“第二”和其它类似词语并不意在暗示任何顺序、数量和重要性,而是仅仅用于对不同的元件进行区分。在本文中,术语“一”、“一个”和其它类似词语并不意在表示只存在一个所述事物,而是表示有关描述仅仅针对所述事物中2的一个,所述事物可能具有一个或多个。在本文中,术语“包含”、“包括”和其它类似词语意在表示逻辑上
的相互关系,而不能视作表示空间结构上的关系。例如,“a包括b”意在表示在逻辑上b属于a,而不表示在空间上b位于a的内部。另外,术语“包含”、“包括”和其它类似词语的含义应视为开放性的,而非封闭性的。例如,“a包括b”意在表示b属于a,但是b不一定构成a的全部,a还可能包括c、d、e等其它元素。
[0040]
实施例1
[0041]
本发明实施例1提供了一种基于对比学习的散点图相似性度量方法,包括如下步骤:
[0042]
s1.获取多个散点图的原始点云数据集s;
[0043]
s2.对步骤s1获得的数据集s中的每个散点图进行采样获得采样后的数据集p;
[0044]
s3.对步骤s2获得的数据集p中的每个散点图进行数据增强获得增强数据集p';
[0045]
s4.将数据集p和数据集p'分别放入pointnet中进行特征提取,分别得到特征集 h和h';
[0046]
s5.计算步骤s4得到的特征集h和h'之间的相似度sim(h,h

),得到相似度矩阵v;
[0047]
s6.通过步骤s5得到的相似度矩阵v计算对比损失l;
[0048]
s7.通过最小化步骤s6得到对比损失l,优化整个网络的参数;
[0049]
s8.反复迭代s4到s7直到达到预设的迭代次数k或者对比损失l不再下降;
[0050]
s9.从对比学习网络中将能提取散点图特征的部分分离出来,得到一个散点图的特征提取网络n;
[0051]
s10.使用步骤s9得到的网络n提取散点图的特征,通过特征之间的距离计算散点图之间的相似性。
[0052]
步骤s1中所获得的原始数据集中的数据,可以是高维数据的任意两个维度组合的数据,也可以是一个高维数据降到二维后的数据。一个高维数据可以通过不同维度的组合得到多个散点图,也可以通过不同的降维方法和降维参数得到多个散点图。无论是哪种方法获得的数据,数据集中的每个散点图都对应一个二维点云数据。故数据集的格式为[n,m,2],其中n表示有n个散点图,m表示每个散点图中点的个数,2表示每个散点图的坐标是二维的。需要注意的是,对与每个散点图来说m的值可能会不同,如果是同一个高维数据生成的散点图则m的值是相同的,如果是不同的高维数据生成的散点图则 m的值可能会不同。
[0053]
步骤s2到步骤s8为一个完整的对比学习过程。步骤s2的采样可以让散点图中点的数量对齐,这样才能让整个数据集同时进入步骤s4的pointnet;同时降低了数据维度,减少整个网络的复杂度。采样后的数据集格式为[n,t,2],其中n表示有n个散点图, t表示采样后每个散点图中点的个数都为t,2表示每个散点图的坐标是二维的。
[0054]
在采样时还可以根据不同的任务需求选择不同的采样方法。例如,想要度量感知相似性可以使用蓝噪声采样,其可以保证采样后的数据尽可能保持原始数据的整体形状。
[0055]
步骤s3中的数据增强是对比学习网络能够学习到所需要的特征的关键,需要根据任务需求选择合适的数据增强操作以及数据增强的程度。例如,想要度量感知相似性,需要使用旋转、平移、乱序等数据增强操作;并且数据增强操作也是整个网络可拓展性高的关键。又如,想要度量感知相似性的同时也想让不同坐标轴选择的散点图之间具有很高的相似性,则可以将坐标轴变换加入数据增强,而坐标轴变换只需要在解析散点图数据时交换点横纵坐标的解析顺序即可。
[0056]
步骤s4中的pointnet是点云领域常用得到特征提取器,其为了保证在不同视角下采集的多维点云的稳定性,加入了一个特征空间对齐网络。而在二维点云上由于只有一个视角,所以不需要特征空间对齐,并且这个对齐网络还会使对比学习最后的效果不好。所以本实施例对其进行了优化,以更好地支持二维点云。提取后的特征集h和h'的格式为[n,k],其中n表示有n个散点图,k表示特征的维度k。
[0057]
步骤s5中的相似度矩阵是通过如下的余弦相似度计算的:
[0058][0059]
其中,a和b均为k维特征向量,且a∈h,b∈h'。
[0060]
步骤s6中的对比损失为如下的infonce损失:
[0061][0062]
其中,n为数据集p中的散点图数量,x表示p中的一个散点图;对于每个x,都有对应的x
+
∈p'为x在增强集p'中相应的增强后的散点图,每个散点图x都有1个正例对(x,x
+
);x-∈p∪p',x-≠x且x-≠x
+
,每个散点图x都有2n-2个负例对(x,x-);函数g()表示散点图特征提取函数,即pointnet;函数sim()表示计算提取的特征之间的相似度。
[0063]
步骤s7中最小化infonce损失就是为了使正例对之间的距离越来越近,同时使负例对之间的距离越来越远。
[0064]
步骤s9中提取散点图特征的部分就是步骤s2中的采样以及迭代完成之后步骤s4 的pointnet。
[0065]
步骤s10中计算的相似性也是余弦相似性。
[0066]
相比于传统计算的散点图相似性度量方法,本发明实施例能够度量传统方法难以计算的一些维度上的相似性,例如,感知相似性。相比于其他深度学习方法,本发明实施例不需要带标签的数据,完美地解决了人工获得标签成本高,以及不同人主观判断的不同而使结果产生偏差的问题;并且通过采样操作,可以将网络输入数据的维度降到200*2 (200个点的坐标),而其他基于图片数据的网络输入数据的维度一般为256*256(散点图画布的大小),这极大地降低了整个网络的复杂度,加快了网络的训练速度;灵活的数据增强操作可以使本实施例采用的网络具有很强的可拓展性,需要度量相似性时,只需要添加对应的数据增强操作即可。
[0067]
本发明实施例基于对比学习模型框架,使用pointnet作为特征提取器,并将采样操作融入其中,给出了一个新的散点图相似性度量方法。借助pointnet在二维点云上进行对比学习训练,使用点云数据作为输入能使度量结果独立于散点图的可视化表示,让网络能够学习到散点数据本身的特征;采样操作能使不规则的点云数据更好地配合 pointnet;不同的数据增强操作引导网络的学习方向,以度量散点图不同维度上的相似性。
[0068]
图2(a)~图2(c)展示了本实施例方法与两种经典方法的对比效果,两种经典方法分别为基于点云数据的scagnostics和基于图像数据的hog。由于其他深度学习方法的原始数据丢失,使得算法无法复现,所以无法与其他深度学习的方法进行比较。本发明实施例对比其他深度学习的方法还是有很大的优势。从图2(a)~图2(c)可以看出本发明实施例1在感知相似性的度量效果上优于另外两种方法,特别是对于第四行,第七行,第九行的查询,
本实施例方法的结果明显优于另外两种方法。
[0069]
对一个散点数据来说,选择不同的坐标轴绘制将会得到两个看起来不同散点图。但实际上这是同一个散点数据生成的散点图,相似度应该很高。
[0070]
从图3(b)中可以看出本发明在数据增强中额外增加xy轴变换操作后度量的结果可以不受坐标轴的影响。图3(a)显示基于点云数据的scagnostics的部分度量结果不受坐标轴的影响,但其整体感知相似性的度量结果不是很好。如第二行的第四张图、第三行的第二张图和第五行的第三张图等明显和需要查询的图不够相似。图3(c)显示基于图像数据的hog方法无法得到这种不同坐标轴选择之间的相似性,由此可以推出基于图像数据的深度学习方法也不具备这种能力。
[0071]
从图4可以看出本发明实施例1的损失函数值是在稳定下降的。说明正例对之间的距离越来越近,负例对之间的距离越来越远,整个网络在向着期望的方向稳定优化。
[0072]
从图5(a)和图5(b)中可以看出本发明实施例1的准确率随着迭代次数的不断增加而增加。其中topk准确率的定义为,与一个散点图最相似的前k个散点图中有其增强后的散点图,则认为这个散点图数据为一个正确的数据,正确的数据个数占所有数据的比例即为topk准确率。这里k取1和5,即top1准确率和top5准确率。图5(a) 的top1准确率不是很高,说明本发明实施例1并没有过拟合,因为增强后的数据与原数据还是存在着一些差异,且数据集中还可能存在一些与原数据更相似的数据,则增强数据与原数据之间的相似性不一定是最高的,所以top1准确率不能太高。而图5(b) 的top5准确率非常高,说明本发明的相似性度量效果非常好。因为这说明了增强数据与原数据之间的相似性比数据集中大多数数据与原数据的相似性要高。
[0073]
实施例2
[0074]
本发明实施例2提供一种对应上述实施例1的终端设备,终端设备可以是用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述实施例的方法。
[0075]
本实施例的终端设备包括存储器、处理器及存储在存储器上的计算机程序;处理器执行存储器上的计算机程序,以实现上述实施例1方法的步骤。
[0076]
在一些实现中,存储器可以是高速随机存取存储器(ram:random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
[0077]
在另一些实现中,处理器可以为中央处理器(cpu)、数字信号处理器(dsp)等各种类型通用处理器,在此不做限定。
[0078]
实施例3
[0079]
本发明实施例3提供了一种对应上述实施例1的计算机可读存储介质,其上存储有计算机程序/指令。计算机程序/指令被处理器执行时,实现上述实施例1方法的步骤。
[0080]
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
[0081]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
modelforvisualanalysis
[0094]
ofscatterplots[j].ieeetransactionsonvisualizationandcomputergraphics,2018,26(3):1562-1576.
[0095]
[8]l,zouy,m,etal.learningaperceptualqualitymetricforcorrelationinscatterplots[j].vmv2019-vision,modelingandvisualization,2019。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1