用于口腔脱落细胞生物检测的数据匹配方法

文档序号:37238049发布日期:2024-03-06 17:01阅读:14来源:国知局
用于口腔脱落细胞生物检测的数据匹配方法

本发明涉及口腔脱落细胞检测,具体涉及用于口腔脱落细胞生物检测的数据匹配方法。


背景技术:

1、口腔脱落细胞是从口腔黏膜表面脱落的细胞,其中包含了个体的dna序列和其他生物信息,口腔脱落细胞中的dna序列是个体最为独特和稳定的生物特征之一,通过对口腔脱落细胞进行采集和分析,可以获取个体的生物特征信息。口腔脱落细胞检测是一种非侵入性的诊断手段,可用于早期筛查口腔疾病,包括口腔癌、牙龈疾病等。早期发现和诊断口腔疾病有助于提高治疗的成功率。根据患者口腔脱落细胞的特征,可以制定更为个性化的治疗方案,提高治疗的针对性和效果。但随着口腔医学数据的积累,数据的分析和匹配变得愈发复杂。需要一种自动化的数据匹配方法,以提高口腔细胞检测的效率和准确性。实现口腔细胞数据的自动化分析和比对,及时发现潜在问题,为临床决策提供更及时的信息。

2、对采集的口腔脱落细胞进行检测,常用的数据匹配方法smith-waterman(sw)算法的匹配效率易受比较序列长度的影响,而口腔脱落细胞检测中的str数据的片段长度不一致。因此,在医学应用领域,smith-waterman(sw)算法存在匹配稳定性不足的缺陷。


技术实现思路

1、为了解决上述技术问题,本发明提供用于口腔脱落细胞生物检测的数据匹配方法,以解决现有的问题。

2、本发明的用于口腔脱落细胞生物检测的数据匹配方法采用如下技术方案:

3、本发明一个实施例提供了用于口腔脱落细胞生物检测的数据匹配方法,该方法包括以下步骤:

4、采集口腔脱落细胞;并进行str检测获取str图谱数据;

5、以str图谱数据中各峰值为中心设定局部窗口;对str图谱数据中的所有峰值进行序列分解获取各峰值的趋势项及随机项;根据局部窗口内各随机项的分布得到各峰值的标记信号随机系数;根据局部窗口内各趋势项的分布得到各峰值的标记信号趋势系数;结合标记信号随机系数、标记信号趋势系数得到各峰值的等位基因突显变异指数;对局部窗口内所有峰值的等位基因突显变异指数进行经验模态分解获取各模态分量;获取各模态分量中各元素的分割系数;根据各模态分量中各元素的分割系数得到各模态分量的显著系数;根据局部窗口内所有模态分量的显著系数得到各峰值的等位基因突显变异重复性系数;根据各峰值的等位基因突显变异重复性系数得到各峰值的多态性偏移系数;结合各峰值的多态性偏移系数及序列比对算法完成口腔脱落细胞检测数据匹配。

6、优选的,所述根据局部窗口内各随机项的分布得到各峰值的标记信号随机系数,包括:

7、计算局部窗口内各随机项与局部窗口内所有随机项的均值的差值绝对值,将局部窗口内所有随机项的所述差值绝对值的均值作为各峰值的标记信号随机系数。

8、优选的,所述根据局部窗口内各趋势项的分布得到各峰值的标记信号趋势系数,表达式为:

9、;

10、式中,表示以峰值为中心的局部窗口内的标记信号趋势系数,表示以峰值为中心的局部窗口内峰值的个数,表示以2为底数的对数函数,表示以峰值为中心的局部窗口内的第个峰值的趋势项,表示以峰值为中心的局部窗口内的所有峰值趋势项的最大值,表示峰值在str图谱中对应的横坐标值,表示以峰值为中心的局部窗口内趋势项最大值的峰值在str图谱中对应的横坐标值。

11、优选的,所述结合标记信号随机系数、标记信号趋势系数得到各峰值的等位基因突显变异指数,包括:

12、预设第一加权系数、第二加权系数及第三加权系数,计算第一加权系数与各峰值的标记信号趋势系数的乘积,计算第二加权系数与各峰值的标记信号随机系数的乘积,计算局部窗口内所有峰值的信息熵,计算第三加权系数与所述信息熵的乘积,将三个乘积的和值作为各峰值的等位基因突显变异指数。

13、优选的,所述对局部窗口内所有峰值的等位基因突显变异指数进行经验模态分解获取各模态分量,包括:

14、针对各峰值的局部窗口,将局部窗口内包含的所有峰值的等位基因突显变异指数按照在str图谱中出现的先后顺序进行排序得到等位基因突显变异指数序列,利用emd经验模态分解算法对等位基因突显变异指数序列进行分解,得到各模态分量。

15、优选的,所述获取各模态分量中各元素的分割系数,表达式为:

16、;

17、式中,表示以峰值为中心的局部窗口内的第个模态分量以元素为界限的分割系数,表示第个模态分量中以元素为界限的左侧所有元素的数量在整个模态分量总元素个数中的占比,表示第个模态分量中以元素为界限的左侧所有元素的均值,表示第个模态分量,表示第个模态分量中所有元素的均值,表示第个模态分量中以元素为界限的右侧所有元素的数量在整个模态分量总元素个数中的占比,表示第个模态分量中以元素为界限的右侧所有元素的均值。

18、优选的,所述根据各模态分量中各元素的分割系数得到各模态分量的显著系数,包括:

19、针对各模态分量,选取其中所有元素的分割系数的最大值,将最大值对应元素的序号作为各模态分量的显著系数,其中,所述序号为元素在模态分量中的位置排序。

20、优选的,所述根据局部窗口内所有模态分量的显著系数得到各峰值的等位基因突显变异重复性系数,包括:

21、将局部窗口内所有模态分量的显著系数的信息熵作为各峰值的等位基因突显变异重复性系数。

22、优选的,所述根据各峰值的等位基因突显变异重复性系数得到各峰值的多态性偏移系数,包括:

23、将局部窗口内所有峰值的等位基因突显变异重复性系数进行离散信号希尔伯特变换,输出为各频率值,预设频率阈值,将大于频率阈值的各频率值标记为1,以标记为1的频率值为圆心,预设长度为半径的圆内的所有频率值作为一个异变基因序列;

24、各峰值的多态性偏移系数的表达式为:

25、;

26、式中,表示峰值的多态性偏移系数,表示以自然常数为底数的指数函数的指数,表示峰值的等位基因突显变异重复性系数,表示局部窗口内的第个异变基因序列,表示局部窗口内的第个异变基因序列,表示序列与序列的sbd距离,表示局部窗口内异变基因序列的个数。

27、优选的,所述结合各峰值的多态性偏移系数及序列比对算法完成口腔脱落细胞检测数据匹配,包括:

28、预设基准长度,计算各峰值的多态性偏移系数的四舍五入值与基准长度的和值,将所述和值作为各峰值的比较片段长度,将口腔脱落细胞的str图谱数据及atcc数据库作为sw算法的输入,结合各峰值的比较片段长度,sw算法的输出为口腔脱落细胞的str图谱数据与atcc数据库的匹配结果。

29、本发明至少具有如下有益效果:

30、本发明通过分析口腔脱落细胞的str检测数据,根据细胞可能出现的交叉污染或突变,导致基因位点中等位基因的长度表现出不同态势,得到各基因位点上各峰值,计算基因位点上需要进行数据匹配的比较片段长度。弥补了现有sw数据匹配算法的比较序列长度未结合数据特征使得匹配性能不稳定的缺陷。本发明具有口腔脱落细胞生物检测数据匹配准确率高、可靠性强的有益效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1