基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统

文档序号:32946562发布日期:2023-01-14 11:14阅读:81来源:国知局
基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统

1.本发明涉及隐私保护与安全技术领域,尤其涉及一种基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统。


背景技术:

2.随着生物技术的不断发展,基因测序的成本越来越低,个体可以轻易地通过一些生物科技公司提供的测序服务来提取基因组数据上的重要片段,这一过程所产生的大量基因数据被第三方机构收集和存储起来。与此同时,关于基因组数据的研究和应用也越来越广泛,对基因数据的研究有利于提升人类医疗保健质量,促进基因数据的重复利用和二次分析,在生物医药研究和发展中扮演着关键的角色。基于基因数据的相似患者查询是近年来西方国家新兴的一个研究热点。相似患者查询是指医生通过健康交换系统查询出与自己病人有相似基因序列的其他患者的电子医疗记录,参考这些记录来为自己的病人提供更好的诊断。基因组数据包含着个人的大量隐私信息,这些隐私一旦被泄露将会对用户以后的生活造成严重的影响,这就决定了我们对基因数据进行相似患者查询时,必须提供有效的隐私保护,来防止基因数据库中患者敏感信息的泄露。
3.负数据库是一种新型的隐私保护方法,是信息负表示的主要模型之一。一般数据库存储的是原始数据本身,而负数据库存储的是原始数据的补集信息,以此来保护原始数据的安全。对负数据库求逆并恢复出原始数据已经被证明是np难问题,而负数据库的生成算法已经得到了广泛的研究。负数据库由于其具有严格的形式化证明和较好的隐私保护效果,已经被应用到诸多场景中。但是目前为止,基于负数据库上的基因数据隐私保护还未得到有效的推广和应用。
4.在基因数据的相似患者查询场景中,基因序列进行相似性比较的所采用的度量指标一般为编辑距离,目前已有的研究直接将基因序列转化为负数据库,然后将数据集所转化的负数据库信息上传至服务器,最后在服务器上估算两个基因序列之间的编辑距离。当数据集较大或基因序列较长时,这种方式所带来的转化负数据库和计算负数据库上编辑距离的时间开销、服务器端的存储成本都是难以接受的。


技术实现要素:

5.本发明提供了一种基于块状编辑距离的相似患者诊断记录的查询方法、装置及系统,用以解决或者至少部分解决现有技术中的方法存在的计算代价和通信开销较大的技术问题。
6.为了解决上述技术问题,本发明第一方面提供了一种基于块状编辑距离的相似患者诊断记录的查询方法,包括:
7.接收用户提交的查询请求,其中,查询请求中包括预处理后的查询序列和控制参数,预处理后的查询序列通过数据提供方的预处理方法得到对应的块、索引和块负数据库
信息,控制参数用以控制返回与查询序列最相似的基因序列的数量,
8.计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离,并根据计算出的块状编辑距离和控制参数,获取与预处理后的查询序列最相似的k条基因序列的标识符,并发送给数据提供方,将得到对应的诊断记录返回给用户,其中,块状编辑距离为查询序列和服务器中存储的基因序列之间的对应块之间的编辑距离,预先存储在服务器的基因序列通过数据提供方的预处理方法获得后上传至服务器,数据提供方的预处理方法具体包括:将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块,并为分割得到的每个块建立对应的索引,然后将所有的块进行拼接得到预处理后的基因序列,并编码为二进制形式;然后采用k-hidden算法对编码后的基因序列生成负数据库,并进行分割,得到每个索引对应的块负数据库信息,再将索引对应的块负数据库信息以及对应的索引上传至服务器进行存储。
9.在一种实施方式中,数据提供方的预处理方法中,将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块,并为分割得到的每个块建立对应的索引,包括:
10.从数据集d中选取任意一条基因序列作为参考序列r;
11.根据基因序列si与参考序列之间的编辑矩阵(在计算两个序列之间的编辑距离时用于记录动态转移方程的状态,记作ptr)和预设分割参数,对待处理基因序列si进行分割,得到一系列不重复的块,并为每个块建立索引,加入至分割集中。
12.在一种实施方式中,数据提供方的预处理方法中,将所有的块进行拼接得到预处理后的基因序列,并编码为二进制形式,包括:
13.将分割集中每一个基因序列所对应的块进行拼接,得到一个代表整个数据集的基因序列,作为预处理后的基因序列;
14.采用二进制字符对预处理后的基因序列的碱基进行替代,编码为二进制串。
15.在一种实施方式中,数据提供方的预处理方法中,采用k-hidden算法对编码后的基因序列生成负数据库,并进行分割,得到每个索引对应的块负数据库信息,包括:
16.采用k-hidden算法生成编码为二进制形式的基因序列的负数据库ndb
bs

17.根据分割集中索引所对应的原始块的长度信息,对负数据库进行分割,以获取每个索引对应的块负数据库信息,块负数据库信息表示一个块对应的负数据库信息。
18.在一种实施方式中,计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离,通过下式实现:
[0019][0020]
其中,n表示查询序列q通过数据提供方的预处理方法分割得到的总块数, ndbq[block
l
]和分别表示查询序列q和基因序列si的第l块的负数据库信息, ndb_ed为用于估算两条基因序列在负数据库上的编辑距离的函数,为负数据库上的编辑距离估算函数,用于估算查询序列q和基因序列si之间的编辑距离。
[0021]
在一种实施方式中,根据计算出的块状编辑距离和控制参数,获取与预处理后的查询序列最相似的k条基因序列的标识符,并发送给数据提供方,将得到对应的诊断记录返回给用户,包括:
[0022]
将计算出的块状编辑距离进行升序排序,选取前k条基因序列的标识符,发送给数
据提供方,由数据提供方根据基因序列的标识符得到对应的基因序列以及诊断记录,返回给服务器;
[0023]
将得到的诊断记录返回给用户。
[0024]
基于同样的发明构思,本发明第二方面提供了基于块状编辑距离的相似患者诊断记录的查询装置,所述装置为服务器,包括:
[0025]
查询请求接收模块,用于接收用户提交的查询请求,其中,查询请求中包括预处理后的查询序列和控制参数,预处理后的查询序列通过与数据提供方相同的预处理方法得到对应的块、索引和块负数据库信息,控制参数用以控制返回与查询序列最相似的基因序列的数量;
[0026]
查询模块,用于计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离,并根据计算出的块状编辑距离和控制参数,获取与预处理后的查询序列最相似的 k条基因序列的标识符,并发送给数据提供方,将得到对应的诊断记录返回给用户,其中,块状编辑距离为查询序列和服务器中存储的基因序列之间的对应块之间的编辑距离,预先存储在服务器的基因序列通过数据提供方的预处理方法获得后上传至服务器,数据提供方的预处理方法具体包括:将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块,并为分割得到的每个块建立对应的索引,然后将所有的块进行拼接得到预处理后的基因序列,并编码为二进制形式;然后采用k-hidden算法对编码后的基因序列生成负数据库,并进行分割,得到每个索引对应的块负数据库信息,再将索引对应的块负数据库信息以及对应的索引上传至服务器进行存储。
[0027]
基于同样的发明构思,本发明第三方面提供了基于块状编辑距离的相似患者诊断记录的查询系统,包括第二方面所述的基于块状编辑距离的相似患者查询装置、客户端以及数据提供方,其中,客户端用于向服务器发送查询请求,数据提供方用于预先采用预处理方法对数据集中的基因序列进行处理得到对应的块、索引和块负数据库信息,并发送至服务器进行存储。
[0028]
基于同样的发明构思,本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
[0029]
基于同样的发明构思,本发明第四五方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
[0030]
相对于现有技术,本发明的优点和有益的技术效果如下:
[0031]
本发明提出了一种基于块状编辑距离的相似患者诊断记录的查询方法,通过数据提供方预先采用预处理方法对数据集中的基因序列进行处理得到对应的块、索引和块负数据库信息,并发送至服务器进行存储,可以使用一条特殊的“基因序列”(预处理后的基因序列)来表示整个基因数据集,由于这条“基因序列”已经包含了数据集中每条基因序列的所有信息,可以只针对该序列生成负数据库,从而极大地降低了负数据库的生成时间开销和服务器端的存储成本。服务端(服务器)采用基于负数据库的块状编辑距离来估算查询序列和基因序列之间的编辑距离,将计算两条基因序列之间的时间复杂度从o(m*n)进一步降低至o(m+n)(其中m,n分别表示两条基因序列的长度),极大地提高了用户查询的响应速度。因此,本发明提出的基于负数据库的相似患者查询方案在查询效率和存储成本上都具有良好
的性能。
附图说明
[0032]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]
图1是本发明实施例提供的一种基于块状编辑距离的相似患者诊断记录的查询方法的整体流程示意图;
[0034]
图2是本发明实施例提供的基因序列预处理方法的实现流程图;
[0035]
图3是本发明实施例提供的查询阶段的技术方案实现流程图;
[0036]
图4为本发明实施例提供的计算机可读存储介质的结构示意图;
[0037]
图5为本发明实施例提供的计算机设备的结构示意图。
具体实施方式
[0038]
本发明属于隐私保护与安全领域,具体涉及一种基于负数据库的块状编辑距离算法,用于高效解决基因数据应用场景中的相似患者查询的隐私保护问题。
[0039]
具体来说该方案包含两个阶段:预处理阶段和查询阶段。在预处理阶段(离线阶段,预先完成),数据提供方需要先将数据集中的所有基因序列根据参数bk分割成一系列不重复的块,并为每个块建立对应的索引idx,将基因序列的表示形式由碱基转化为一系列索引的形式。再将所有的块进行拼接形成一条代表整个数据集的“基因序列”,并编码为二进制形式,采用k-hidden算法生成该序列的负数据库,连同索引信息一同上传至服务器;在查询阶段 (在线阶段),用户提交一条经过预处理的基因序列至服务器,以查询与该序列最为相似的k 条基因序列的诊断记录。服务器计算查询序列与数据集中每一条基因序列(由一系列索引表示)的块状编辑距离,并进行升序排序,并向数据提供方请求前k条基因序列对应的诊断记录,并将结果返回给用户。
[0040]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0041]
实施例一
[0042]
本发明实施例提供了基于块状编辑距离的相似患者诊断记录的查询方法,包括:
[0043]
接收用户提交的查询请求,其中,查询请求中包括预处理后的查询序列和控制参数,预处理后的查询序列通过与数据提供方相同的预处理方法得到对应的块、索引和块负数据库信息,控制参数用以控制返回与查询序列最相似的基因序列的数量;
[0044]
计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离,并根据计算出的块状编辑距离和控制参数,获取与预处理后的查询序列最相似的k条基因序列的标识符,并发送给数据提供方,将得到对应的诊断记录返回给用户,其中,块状编辑距离为查询序列和服务器中存储的基因序列之间的对应块之间的编辑距离,预先存储在服
务器的基因序列通过数据提供方的预处理方法获得后上传至服务器,数据提供方的预处理方法具体包括:将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块,并为分割得到的每个块建立对应的索引,然后将所有的块进行拼接得到预处理后的基因序列,并编码为二进制形式;然后采用k-hidden算法对编码后的基因序列生成负数据库,并进行分割,得到每个索引对应的块负数据库信息,再将索引对应的块负数据库信息以及对应的索引上传至服务器进行存储。
[0045]
本技术发明人通过大量的研究与实践发现,目前基因数据隐私保护方法在相似患者查询场景下所存在的缺陷,主要包括采用加密方法所带来的巨大的计算和通信开销,以及无法高效快速地响应用户的查询等问题。具体如下:
[0046]
1、采用加密的方法来提供隐私保护,该方法只适用于最终处理的基因序列数据,在不可信第三方存在的情况下,解密后获取的明文会导致数据保护级别不足。此外,基因数据的加密与解密需要付出昂贵的时间开销,并且由于基于安全多方计算和密码学的方法具有计算和通信开销的瓶颈,对于较长的基因序列,将导致无法实时地获取查询结果,这在相似患者查询系统中将极大地增加用户的查询时间,降低用户的友好体验。
[0047]
2、基于负数据库的编辑距离算法在估算编辑距离时,需要将一条基因序列与另一条基因序列进行逐位比较,来获取最终的编辑距离,时间复杂度为o(n
×
m),其中n和m为两条基因序列的长度。当基因序列较长时,估算查询串与数据库中每一条基因序列的编辑距离将导致极大的查询时间开销。此外,该方法还需要将每条基因序列都转化为一个单独的负数据库,最终上传至第三方可信服务器执行相似患者查询,整个处理过程将产生大量的计算代价和通信开销。
[0048]
请参见图1,是本发明实施例公开的一种基于块状编辑距离的相似患者诊断记录的查询方法的整体流程示意图。
[0049]
具体来说,本发明提供的上述方法中,执行主体为服务器,该方法涉及的其他两方包括数据提供方和用户(客户端)。数据提供方采用预处理方法将数据集中的基因序列进行处理,分割为不重复的块,为每个块构建索引,然后对分割的块进行拼接并编码,再生成负数据库信息。用户主要用于向服务器发送查询请求,服务器则根据用户发送的查询请求,对查询序列与存储的数据集的基因序列进行对应的块之间的编辑距离计算,根据计算结果和控制参数返回对应条目的基因序列。
[0050]
采用预处理方法(阶段)的实现方法包括分割数据集中的基因序列,拼接分割集、数据编码,生成负数据库、分割负数据库并上传信息至服务器这几个步骤。
[0051]
在查询阶段,用户将经过预处理的查询序列q以及参数k(控制返回与q最相似的基因序列的数量参数)上传至服务器,以获取与查询序列最为相似的k条基因序列的诊断记录。
[0052]
在一种实施方式中,数据提供方的预处理方法中,将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块,并为分割得到的每个块建立对应的索引,包括:
[0053]
从数据集d中选取任意一条基因序列作为参考序列r;
[0054]
根据基因序列si与参考序列之间的编辑矩阵和预设分割参数,对待处理基因序列si进行分割,得到一系列不重复的块,并为每个块建立索引,加入至分割集中。
[0055]
具体实施过程中,可以采用动态规划算法计算基因序列si(si∈d)与参考序列r之
间的编辑距离,需要开辟一个二维矩阵(记为ptr矩阵)来保存动态转移过程中的状态,其中矩阵中的第raw行第col列的元素ptr[raw][col]表示基因序列si的前raw个元素与参考序列 r的前col个元素之间的编辑距离,故,矩阵的右下角即为基因序列si与参考序列r之间的最终编辑距离。通过从ptr矩阵的右下角向左上角不断移动指针可以得到基因序列si和r之间的最小编辑路径(其记录了将si转化为r的过程中动态规划的状态是如何转移的,即当前状态ptr[i][j]是通过替换ptr[i-1][j-1]、删除ptr[i][j-1]还是插入ptr[i-1][j]转移而来的),在回溯过程中指针每移动bk行(用于控制分割块大小的参数,实验中表明当bk,即块大小取值约为5时具有很好的分块效果)就对基因序列si进行一次分割,当分割的块第一次出现时,对其建立索引idx,并将其加入至分割集mapd中,同时将此基因序列的表示形式转化为一系列索引。采用此方法将数据集中的其余基因序列进行分割,并对分割所产生的所有不重复块建立索引,并添加至分割集mapd中。
[0056]
需要说明的是,移动一行对应基因序列s的一个碱基(a、t、g、c),每移动bk行相当于在基因序列s上扫描过bk个碱基。bk是用来控制分割基因序列s的块大小的参数,由于基因序列中只包含a、t、g、c四种碱基,当bk取值过大时,最终形成重复块的概率越小,拼接串越长,生成负数据库的时间开销越大,本发明通过大量实验结果表明bk取值在5左右效果最好。
[0057]
在一种实施方式中,数据提供方的预处理方法中,将所有的块进行拼接得到预处理后的基因序列,并编码为二进制形式,包括:
[0058]
将分割集中每一个基因序列所对应的块进行拼接,得到一个代表整个数据集的基因序列,作为预处理后的基因序列;
[0059]
采用二进制字符对预处理后的基因序列的碱基进行替代,编码为二进制串。
[0060]
通过数据提供方的预处理方法,将所有的块进行拼接,可以得到一条可以代表整个基因序列数据集的“序列”,采用二进制字符对该序列的碱基进行替代,编码为二进制串bs。
[0061]
具体实施过程中,将碱基

a’、

t’、

g’、

c’分别用

00’、

01’、

10’、

11’进行替代,形成二进制串bs。
[0062]
请参见图2,是本发明实施例公开的基因序列预处理方法的实现流程图。
[0063]
在一种实施方式中,数据提供方的预处理方法中,采用k-hidden算法对编码后的基因序列生成负数据库,并进行分割,得到每个索引对应的块负数据库信息,包括:
[0064]
采用k-hidden算法生成编码为二进制形式的基因序列的负数据库ndb
bs

[0065]
根据分割集中索引所对应的原始块的长度信息,对负数据库进行分割,以获取每个索引对应的块负数据库信息,块负数据库信息表示一个块对应的负数据库信息。
[0066]
具体实施过程中,采用k-hidden算法生成二进制串bs的负数据库ndb
bs
可以通过下述方式来实现,算法的参数k(生成负数据库的确定位个数)取4,变换控制负数据库大小的参数r(分别取值5、10、15、20、25)和概率参数q进行实验,概率参数q参考表1,其中参数p1、p2、p3和(1-p
3-p
2-p3)分别表示生成不同类型负数据库记录的概率,参数p
diff
表示负数据库与原始串在当前位不同的概率,|p
diff-0.5|表示参数pi对于生成负数据库的效用,即|p
diff-0.5|值越大,负数据库的有效性越强)。具体请参见表1。
[0067]
表1 k-hidden算法参数设置
[0068][0069]
根据以上参数生成的负数据库ndb
bs
、分割集中索引所对应的原始块长度信息(包含几个碱基),分割负数据库,以获取每个索引对应的块负数据库信息。最后将索引对应的块负数据信息以及索引集(用于表示每条基因序列)上传至服务器。控制分割块大小的参数不宜取值过大(由于基因序列仅包含四种核苷酸,取值过大反而导致最终的对齐效果不佳),一般取值为5左右较为合理。
[0070]
在一种实施方式中,计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离,通过下式实现:
[0071][0072]
其中,n表示查询序列q通过数据提供方的预处理方法分割得到的总块数, ndbq[block
l
]和分别表示查询序列q和基因序列si的第l块的负数据库信息, ndb_ed为用于估算两条基因序列在负数据库上的编辑距离的函数,为负数据库上的编辑距离估算函数,通过估算查询序列q和基因序列si之间的对应块之间的编辑距离之和来表示两条基因序列之间的编辑距离。
[0073]
请参见图3,是本发明实施例提供的查询阶段的技术方案实现流程图。
[0074]
具体实施过程中,用户发送一条经过预处理的查询基因序列q至服务器,服务器通过估算查询序列q与基因序列si块之间的编辑距离(即块状编辑距离)来近似查询串q与基因序列si之间的编辑距离。
[0075]
在一种实施方式中,根据计算出的块状编辑距离和控制参数,获取与预处理后的查询序列最相似的k条基因序列的标识符,并发送给数据提供方,将得到对应的诊断记录返回给用户,包括:
[0076]
将计算出的块状编辑距离进行升序排序,选取前k条基因序列的标识符,发送给数据提供方,由数据提供方根据基因序列的标识符得到对应的基因序列以及诊断记录,返回给服务器;
[0077]
将得到的诊断记录返回给用户。
[0078]
本方案采用idash-2016数据集来进行性能评估,该数据集包含501条基因序列,包含 500条基因序列和1条查询基因序列,其中每条基因序列包含大约3500个碱基。为了验证本发明提出的隐私保护相似患者查询方案的有效性,使用以下公式作为准确率的计算方法:
[0079][0080]
其中n
tp
、n
fn
分别代表正确识别数和错误否定数。例如,在用户要求返回10条最相似的基因序列的诊断记录时,正确识别了8条基因序列,那么精度则为80%。在实际的实验
中,进行多次重复实验将平均精度作为最终的结果。
[0081]
此外性能评估中还包含时间开销的评估,主要可以分为两部分,即离线的预处理阶段和在线查询阶段。预处理阶段的时间开销主要是由数据集中基因序列的分割、数据编码、生成负数据库和上传相关信息至服务器所造成的。在线查询阶段的时间开销主要包括用户预处理查询序列、上传查询信息和参数至服务器、服务器计算查询序列和基因序列的块状编辑距离、返回与查询序列最为相似的k条基因序列的诊断记录。
[0082]
综上所述,本发明提出了一种基于负数据库的块状编辑距离算法,并构建了一套有效的方案,用于高效解决基因数据中相似患者查询的隐私保护问题。本发明具有以下优点:
[0083]
1、将数据集经过预处理后,可以使用一条特殊的“基因序列”来表示整个基因数据集,由于这条“基因序列”已经包含了数据集中每条基因序列的所有信息,可以只针对该序列生成负数据库,极大地降低了负数据库的生成时间开销和服务器端的存储成本;
[0084]
2、服务端采用基于负数据库的块状编辑距离来估算查询序列和基因序列之间的编辑距离,将计算两条基因序列之间的时间复杂度从o(m*n)进一步降低至o(m+n)(其中m,n分别表示两条基因序列的长度),极大地提高了用户查询的响应速度。
[0085]
3、本发明提出的基于负数据库的相似患者查询方案在查询精度和时间开销上都具有良好的性能。
[0086]
实施例二
[0087]
基于同样的发明构思,本实施例提供了基于块状编辑距离的相似患者诊断记录的查询装置,所述装置为服务器,包括:
[0088]
查询请求接收模块,用于接收用户提交的查询请求,其中,查询请求中包括预处理后的查询序列和控制参数,预处理后的查询序列通过与数据提供方相同的预处理方法得到对应的块、索引和块负数据库信息,控制参数用以控制返回与查询序列最相似的基因序列的数量;
[0089]
查询模块,用于计算预处理后的查询序列与预先存储在服务器的基因序列之间的块状编辑距离,并根据计算出的块状编辑距离和控制参数,获取与预处理后的查询序列最相似的 k条基因序列的标识符,并发送给数据提供方,将得到对应的诊断记录返回给用户,其中,块状编辑距离为查询序列和服务器中存储的基因序列之间的对应块之间的编辑距离,预先存储在服务器的基因序列通过数据提供方的预处理方法获得后上传至服务器,数据提供方的预处理方法具体包括:将数据集中的所有基因序列根据预设分割参数分割成一系列不重复的块,并为分割得到的每个块建立对应的索引,然后将所有的块进行拼接得到预处理后的基因序列,并编码为二进制形式;然后采用k-hidden算法对编码后的基因序列生成负数据库,并进行分割,得到每个索引对应的块负数据库信息,再将索引对应的块负数据库信息以及对应的索引上传至服务器进行存储。
[0090]
由于本发明实施例二所介绍的装置为实施本发明实施例一中基于块状编辑距离的相似患者诊断记录的查询所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。
[0091]
实施例三
[0092]
基于同样的发明构思,本实施例提供了基于块状编辑距离的相似患者诊断记录的查询系统,包括实施例二所述的基于块状编辑距离的相似患者查询装置、客户端以及数据提供方,其中,客户端用于向服务器发送查询请求,数据提供方用于预先采用预处理方法对数据集中的基因序列进行处理得到对应的块、索引和块负数据库信息,并发送至服务器进行存储。
[0093]
由于本发明实施例三所介绍的系统为包含本发明实施例二中基于块状编辑距离的相似患者查询装置的系统,故而基于本发明实施例二所介绍的装置,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是包含本发明实施例二中装置的系统都属于本发明所欲保护的范围。
[0094]
实施例四
[0095]
基于同一发明构思,请参见图4,本发明还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。
[0096]
由于本发明实施例四所介绍的计算机可读存储介质为实施本发明实施例一中基于块状编辑距离的相似患者诊断记录的查询方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
[0097]
实施例五
[0098]
基于同一发明构思,本技术还提供了一种计算机设备,如图5所示,包括存储器401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器执行上述程序时实现实施例一中的方法。
[0099]
由于本发明实施例五所介绍的计算机设备为实施本发明实施例一中基于块状编辑距离的相似患者诊断记录的查询方法采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
[0100]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0101]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和 /或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0102]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优
选实施例以及落入本发明范围的所有变更和修改。
[0103]
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1