一种基因检测数据智能压缩处理方法

文档序号:36650620发布日期:2024-01-06 23:35阅读:19来源:国知局
一种基因检测数据智能压缩处理方法

本发明涉及基因检测数据处理,具体涉及一种基因检测数据智能压缩处理方法。


背景技术:

1、基因检测是指对个体基因组的某些部分或全部进行测序、分析和解读,以识别可能存在的基因突变、变异,了解人体的遗传风险、疾病易感性以及其他与基因相关的特征,为临床诊断和治疗提供依据。基因测序得到的fastq文件中的碱基序列承载了生物体的遗传信息,这些信息指导细胞如何合成蛋白质,控制了细胞的发育、功能和行为,同时每个碱基数据在fastq文件中都伴随着一个质量分数值,用于表示所得碱基数据的可靠程度,这些数据对于判断测序结果的可靠性以及后续的基因检测处理非常重要。每次基因检测都将产生海量的碱基数据和对应的质量分数数据,因此对其进行智能压缩处理是很有必要的。

2、基因检测数据与其他待压缩数据有所区别,基因检测数据蕴含着大量生物学信息,需对其进行无损压缩。常见的无损压缩算法,如lz77数据压缩算法实现简单、适用性较强,但是算法窗口大小设置的不合理会对数据压缩效率造成较大影响,使得基因检测数据的压缩效率较低。


技术实现思路

1、为了解决现有方法在对基因检测数据进行压缩时算法窗口设置的不合理会使得基因检测数据的压缩效率较低的问题,本发明的目的在于提供一种基因检测数据智能压缩处理方法,所采用的技术方案具体如下:

2、本发明提供了一种基因检测数据智能压缩处理方法,该方法包括以下步骤:

3、获取待压缩基因的碱基质量分数序列;

4、对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段;基于每个数据段内数据的波动情况,分别对每个数据段进行划分获得每个数据段对应的子段;根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数;根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数;

5、根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数;基于所述一致指数和所述差异指数,确定每个数据段对应的窗口长度校正系数;基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度;

6、基于所述最优窗口长度,采用lz77压缩算法对所有碱基质量分数数据进行压缩。

7、优选的,所述对所述碱基质量分数序列中的数据进行划分获得不少于两个数据段,包括:

8、将所述碱基质量分数序列中所有数据按照前后顺序排序获取每个数据的序号,将所述序号作为横坐标,将对应的数据值作为纵坐标,获得各数据点;

9、采用dbscan聚类算法对所有数据点进行聚类,获得不少于两个聚类簇;将同一聚类簇内的数据点对应的数据作为同一数据段内的数据。

10、优选的,基于每个数据段内数据的波动情况,分别对每个数据段进行划分获得每个数据段对应的子段,包括:

11、对所有数据点进行曲线拟合获得目标曲线;

12、在所述目标曲线上,获取每个数据段内的极值点;将所述极值点作为划分点,对每个数据段内的数据进行划分,获得每个数据段对应的子段。

13、优选的,所述根据每个子段内每种数据值出现的频次以及数据的差异情况,得到每个子段的离散系数,包括:

14、对于第i个数据段对应的第j个子段:

15、将第j个子段内所有种数据值出现的频次的平均值记为第一平均值;将第j个子段内每种数据值出现的频次与所述第一平均值之间的差异的负相关归一化结果,记为第j个子段内每种数据值对应的频次特征值;将第j个子段内所有种数据值对应的频次特征值的均值,确定为第j个子段的数据分布指标;

16、根据第j个子段内相邻数据的差异、第j个子段内所有数据的极差以及第j个子段的数据分布指标,计算第j个子段的离散系数。

17、优选的,采用如下公式计算第i个数据段对应的第j个子段的离散系数:

18、

19、其中,为第i个数据段对应的第j个子段的离散系数,为第i个数据段对应的第j个子段内的第个数据值,为第i个数据段对应的第j个子段内的第个数据值,为第i个数据段对应的第j个子段内的数据的数量,为第i个数据段对应的第j个子段的数据分布指标,为第i个数据段对应的第j个子段的最大数据值,为第i个数据段对应的第j个子段的最小数据值,e为自然常数。

20、优选的,所述根据每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,确定每个数据段对应的一致指数,包括:

21、对于第i个数据段:

22、对于第i个数据段对应的第j个子段:将第j个子段与除第j个子段外其他所有子段的离散系数的差异的均值,作为第j个子段的偏差指数;

23、根据第i个数据段对应的每个子段的偏差指数、第i个数据段对应的每个子段中所有数据的方差和第i个数据段中所有数据的信息熵,计算第i个数据段对应的一致指数。

24、优选的,采用如下公式计算第i个数据段对应的一致指数:

25、

26、其中,为第i个数据段对应的一致指数,为第i个数据段对应的子段的数量,为第i个数据段对应的第j个子段中所有数据的方差,为第i个数据段对应的第j个子段的偏差指数,为第i个数据段对应的所有子段的偏差指数的均值,为第i个数据段中所有数据的信息熵,e为自然常数,为预设第一调整参数,大于0。

27、优选的,根据每个数据段内每种数据值出现的频次、所有数据的差异、相邻极值点之间的相对距离,确定每个数据段对应的差异指数,包括:

28、对于第i个数据段:

29、将第i个数据段内所有种数据值出现的频次的平均值记为第二平均值;将第i个数据段内每种数据值出现的频次与所述第二平均值之间的差异的负相关归一化结果,记为第i个数据段内每种数据值对应的频次特征值;将第i个数据段内所有种数据值对应的频次特征值的均值,确定为第i个数据段的数据特征指标;

30、根据第i个数据段的数据特征指标、第i个数据段内所有数据的极差以及第i个数据段内相邻极值点之间的横坐标的差异,计算第i个数据段对应的差异指数。

31、优选的,采用如下公式计算第i个数据段对应的差异指数:

32、

33、其中,为第i个数据段对应的差异指数,为第i个数据段中的最大数据值,为第i个数据段中的最小数据值,为第i个数据段的数据特征指标,为第i个数据段中第个极值点的横坐标,为第i个数据段中第个极值点的横坐标,为第i个数据段中极值点的个数,为第i个数据段中数据的总个数,为预设第二调整参数,大于0。

34、优选的,所述基于所述一致指数和所述差异指数,确定每个数据段对应的窗口长度校正系数;基于所述窗口长度校正系数获得每个数据段对应的最优窗口长度,包括:

35、对于第i个数据段:

36、计算第i个数据段对应的差异指数与预设第三调整参数的和值,对第i个数据段对应的一致指数与所述和值的比值进行归一化处理,将归一化结果与0.5之和确定为第i个数据段对应的窗口长度校正系数;

37、将第i个数据段对应的窗口长度校正系数与初始窗口长度的乘积的向上取整值,作为第i个数据段对应的最优窗口长度。

38、本发明至少具有如下有益效果:

39、本发明首先对待压缩基因的碱基质量分数序列中的数据进行了划分,获得了每个数据段对应的多个子段,然后基于每个子段内每种数据值出现的频次以及数据的差异情况,确定了每个子段的离散系数,用于反映子段内碱基质量分数数据的离散程度;基于每个数据段对应的所有子段的离散系数的差异以及每个子段内所有数据的差异,分析了每个数据段内不同子段之间的数据关系以及差异,确定了每个数据段对应的一致指数,用于反映每个数据段内不同子段之间数据的一致程度,最后结合数据段内整体数据之间的关系,更准确地反映了数据段内碱基质量分数数据的相似性,以此共同确定窗口长度校正系数,对lz77压缩算法的窗口长度进行自适应调整,当数据段内相同的碱基质量分数数据较多、重复的概率较大时,使lz77压缩算法具有较大的窗口,避免相同数据较多、重复概率较大,窗口却较小,压缩速度较慢的问题,使其可以根据数据段内的碱基质量分数数据分布情况自适应调整窗口的长度,在保证重要数据不丢失的基础上提高了基因检测数据的压缩效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1