数据预处理方法、装置、电子设备及存储介质与流程

文档序号:35811158发布日期:2023-10-22 05:13阅读:29来源:国知局
数据预处理方法、装置、电子设备及存储介质与流程

本申请涉及固态纳米孔数据分析与人工智能领域,尤其涉及一种数据预处理方法、装置、电子设备及存储介质。


背景技术:

1、目前利用过孔事件数据分析生物分子结构尚处在初步阶段,已公开的方法包括:一种基于固态纳米孔传感器的微小核糖核酸(micro rna,mirna)检测方法,通过统计mirna-21和mirna-486两种肿瘤标志物过孔信号的幅值(当前电流值与基线电流值差值)的高斯分布,然后通过人工观察,选择合适的阈值进行区分;一种基于纳米孔过孔电流估计蛋白质构象形貌特征的方法,统计相对阻塞电流这一特征,仍然选择合适的阈值进行区分。

2、但是,幅值的大小取决于纳米孔被堵塞的程度,纳米孔被堵塞的程度是生物分子尺寸与纳米孔尺寸比值,当需要识别生物分子的尺寸接近时,过孔事件的幅值没有显著的区分度,在中间区域存在大量重叠的过孔信号导致无法有效区分尺寸相近的生物分子。


技术实现思路

1、本申请实施例提供一种数据预处理方法、装置、电子设备及存储介质。

2、本申请的技术方案是这样实现的:

3、本申请实施例提供一种数据预处理方法,包括:

4、确定待识别序列的初始长度;所述待识别序列用于表征生物分子结构;

5、基于所述初始长度,对所述待识别序列进行标准化处理,得到目标待识别序列;

6、对所述目标待识别序列中的多个数据进行聚类处理,得到多个聚类集合;所述聚类集合用于识别所述待识别序列的类别。

7、本申请实施例提供一种数据预处理装置,包括:

8、确定单元,用于确定待识别序列的初始长度;所述待识别序列用于表征生物分子结构;

9、第一处理单元,用于基于所述初始长度,对所述待识别序列进行标准化处理,得到目标待识别序列;

10、第二处理单元,用于对所述目标待识别序列中的多个数据进行聚类处理,得到多个聚类集合;所述聚类集合用于识别所述待识别序列的类别。

11、本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,执行上述提供的数据预处理方法。

12、本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序使得计算机执行上述提供的数据预处理方法。

13、在本申请的一些实施例提供的技术方案,采用待识别序列表征生物分子结构,确定待识别序列的初始长度,根据初始长度,对待识别序列进行标准化处理,得到长度统一的目标待识别序列,利用聚类方式对目标待识别序列的多个数据进行划分,得到多个聚类集合,每个聚类集合中的数据具有相似性,如此,通过将相似的数据聚集到同一个聚类集合,能清楚的了解到待识别序列中数据的特征,从而在后续处理中,利用聚类集合能够提高对待识别序列的分类的准确度,避免因生物分子的尺寸接近时,无法用阈值进行有效区分,从而无法判别生物分子的类别。



技术特征:

1.一种数据预处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于所述初始长度,对所述待识别序列进行标准化处理,得到目标待识别序列,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述待识别序列的初始长度填充至与所述第一阈值相等,得到所述目标待识别序列,包括:

4.根据权利要求3所述的方法,其特征在于,所述在所述待识别序列的头部和尾部填充噪音数据的数量相等,或者相差1。

5.根据权利要求3所述的方法,其特征在于,所述待识别序列中的有效数据与所述噪音数据采用不同的类型数据编码。

6.根据权利要求3所述的方法,其特征在于,所述对所述目标待识别序列中的多个数据进行聚类处理,得到多个聚类集合,包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,所述多个聚类集合的最小数量为2,最大数量与所述生物分子结构有关。

8.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:

10.根据权利要求9所述的方法,其特征在于,所述调整所述信噪比小于第二阈值的聚类集合,得到调整后的聚类集合,包括:

11.根据权利要求8所述的方法,其特征在于,所述将所述多个聚类集合,输入至预训练分类模型,得到所述待识别序列的类别,包括:

12.根据权利要求8所述的方法,所述预训练分类模型的验证过程,包括:

13.一种装置,其特征在于,所述装置包括:

14.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至12任一项所述的数据预处理方法。

15.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至12任一项所述的数据预处理方法。


技术总结
本申请实施例提供一种数据预处理方法,包括:确定待识别序列的初始长度;所述待识别序列用于表征生物分子结构;基于所述初始长度,对所述待识别序列进行标准化处理,得到目标待识别序列;对所述目标待识别序列中的多个数据进行聚类处理,得到多个聚类集合;所述聚类集合用于识别所述待识别序列的类别。本申请实施例还提供一种数据预处理方法、装置、电子设备和存储介质。

技术研发人员:刘新龙,孙泽鹏,许利群,乔丰
受保护的技术使用者:中移(成都)信息通信科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1