一种基于t-SNE算法的样本标注数据优化方法与流程

文档序号:37221468发布日期:2024-03-05 15:18阅读:12来源:国知局
一种基于t-SNE算法的样本标注数据优化方法与流程

本发明涉及计算机,具体地说,是一种基于t-sne算法的样本标注数据优化方法。


背景技术:

1、在机器学习和数据分析领域,样本标注是一项重要的任务,它涉及将输入数据与正确的标签或类别进行关联。样本标注数据的质量对训练模型的性能和可靠性具有重要影响。然而,在实际标注过程中,往往会面临一些挑战,如错误标注、不一致的标注、标注负担等,这些问题限制了模型的效果。因此,优化样本标注数据的方法成为研究的焦点之一。目前,有一些与基于t-sne算法的样本标注数据优化方法相关的技术方案。其中,一种常见的方法是利用聚类算法来改进标注数据的质量和准确性。该方法通常通过在数据空间中寻找相似性较高的数据点进行聚类,进而将同一类别的数据点聚集在一起。然后,标注者可以观察聚类结果并对数据点进行调整和修正。另一种方法是基于主动学习(active learning)的数据标注优化方法。主动学习通过选择最具信息性的样本进行标注,以减少标注的工作量并提高数据标注的效率和准确性。该方法通常利用模型的不确定性和置信度来指导样本选择过程,使标注者可以更有针对性地标注样本。

2、相较而言,基于t-sne算法的样本标注数据优化方法在样本降维和可视化呈现方面具有独特优势。t-sne算法可以将高维数据降维到低维空间,并通过可视化手段帮助观察数据点的分布和聚类情况,从而更好地理解数据结构和标注质量。它有效地展示了数据的潜在模式和结构,提供了一种直观的方式来识别和修正错误标注。


技术实现思路

1、本发明提供了一种基于t-sne算法的样本标注优化方法,利用t-sne算法对样本标注数据进行非线性降维,并提供可视化的方式帮助标注者识别和修正这些错误标注,以提高数据的准确性和质量,同时对标注数据进行质量评估,进一步提高标注者的标注质量。

2、为实现上述目的,本发明采用以下技术方案:

3、一种基于t-sne算法的样本标注数据优化方法,包括以下步骤:

4、s1:收集原始标注训练集,包含各类图像数据及标注信息;

5、s2:使用t-sne算法对标注样本数据集进行非线性降维和可视化;

6、s3:在降维样本空间中根据密度分布标记可能的错误标注样本;

7、s4:人工校验标记的样本标注的正确性,决定删除或保留样本;

8、s5:循环迭代直至密度分布稳定,输出优化后的高质量标注样本集。

9、进一步地,所述步骤s2具体为:对数据集进行预处理,提取图像的特征向量表示,构建初始样本矩阵,将样本数据集输入设计的t-sne算法,得到降维到2d或3d空间后的坐标映射结果。

10、进一步地,所述步骤s3具体为:在降维空间计算每个样本点的局部密度,反映样本与周围点的紧密程度,设定一定的密度阈值,局部密度低于阈值的样本点标记为可能标注错误的样本。

11、进一步地,所述计算每个样本点的局部密度的方法为:基于k近邻的密度估计方法。

12、进一步地,将原样本数据集与优化后的高质量标注样本集进行对比,评估样本数据集质量。

13、本发明的有益效果在于:

14、1、通过该方法,可以对样本标注数据进行优化,消除或减少主观性和不一致性的问题。通过t-sne算法的应用和其他创新的标注方法,可以更好地捕捉样本之间的关系和特征,从而提高标注数据的准确性。

15、2、通过该方法的优化,可以减少噪声的影响,提高标注数据的质量。t-sne算法可以通过在低维空间中对样本进行聚类,有效地降低异常样本对整体结果的影响。

16、3、过检测和纠正标注错误,可以形成反馈机制,指导标注者改进标注质量及方法。不断提升数据质量有助于构建更可靠和可持续的数据集,并为未来的模型训练和应用提供更好的基础。



技术特征:

1.一种基于t-sne算法的样本标注数据优化方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于t-sne算法的样本标注数据优化方法,其特征在于,所述步骤s2具体为:对数据集进行预处理,提取图像的特征向量表示,构建初始样本矩阵,将样本数据集输入设计的t-sne算法,得到降维到2d或3d空间后的坐标映射结果。

3.如权利要求2所述的一种基于t-sne算法的样本标注数据优化方法,其特征在于,所述步骤s3具体为:在降维空间计算每个样本点的局部密度,反映样本与周围点的紧密程度,设定一定的密度阈值,局部密度低于阈值的样本点标记为可能标注错误的样本。

4.如权利要求3所述的一种基于t-sne算法的样本标注数据优化方法,其特征在于,所述计算每个样本点的局部密度的方法为:基于k近邻的密度估计方法。

5.如权利要求1所述的一种基于t-sne算法的样本标注数据优化方法,其特征在于,将原样本数据集与优化后的高质量标注样本集进行对比,评估样本数据集质量。


技术总结
本发明公开了基于t‑SNE算法的样本标注优化方法,包括以下步骤:收集原始标注训练集,包含各类图像数据及标注信息;使用t‑SNE算法对标注样本数据集进行非线性降维和可视化;在降维样本空间中根据密度分布发现可能的错误标注样本;人工校验样本标注的正确性,决定删除或保留样本;循环迭代直至密度分布稳定,输出优化后的高质量标注样本集。利用t‑SNE算法对样本标注数据进行非线性降维,并提供可视化的方式帮助标注者识别和修正这些错误标注,以提高数据的准确性和质量,同时对标注数据进行质量评估,进一步提高标注者的标注质量。

技术研发人员:郑德欣,杨吉利,王庆峰
受保护的技术使用者:上海锡鼎智能科技有限公司
技术研发日:
技术公布日:2024/3/4
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1