一种遗传变异研究数据存储方法及装置与流程

文档序号:11729441阅读:174来源:国知局
一种遗传变异研究数据存储方法及装置与流程
本发明涉及数据分析及基因
技术领域
,具体而言,涉及一种遗传变异研究数据存储方法及装置。
背景技术
:单基因遗传病是指受一对等位基因控制的遗传病,约有6600多种,并且每年在以10-50种的速度递增,较为常见的有红绿色盲、血友病、白化病等,目前,单基因遗传病对人类的健康已经构成了很大的威胁,因此,在某些情况下需要对单基因遗传病进行检测,而在检测单基因遗传病时,需要使用单基因遗传病知识库。现有的单基因遗传病知识库有人类孟德尔遗传(onlinemendelianinheritanceinman,omim)、人类基因突变知识库(thehumangenemutationdatabase,hgmd)等,在这些单基因遗传病知识库中存储有基因变异数据、基因变异对单基因遗传病的致病性的评估依据等数据,但是,这些数据以文本等非结构化的形式存储在单基因遗传病知识库中,使得计算机无法识别知识库中的数据,进而影响对知识库中数据的自动检索与分析等。技术实现要素:有鉴于此,本发明实施例的目的在于提供一种遗传变异研究数据存储方法及装置,以解决现有技术中遗传变异研究数据以非结构化数据的形式存储在遗传变异知识库中,导致计算机无法识别该数据,进而影响对知识库中的数据的自动检索与分析的问题。第一方面,本发明实施例提供了一种遗传变异研究数据存储方法,其中,所述方法包括:创建遗传变异知识库;获取遗传变异研究数据,并确定所述遗传变异研究数据的类别;将所述遗传变异研究数据转换为遗传变异研究元数据;根据所述遗传变异研究数据的类别,将所述遗传变异研究元数据存储到所述遗传变异知识库中。结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中,所述确定所述遗传变异研究数据的类别,包括:确定从预设的分类样本集和预设的分类标准中获取的多个关键词中每个关键词在所述遗传变异研究数据中出现的概率,所述预设的分类样本集中包括多个分类样本;计算每种类别的分类样本在所述预设的分类样本集中的概率;根据每个所述关键词对应的概率和所述每种类别的分类样本对应的概率,确定所述遗传变异研究数据的类别。结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中,所述根据每个所述关键词对应的概率和所述每种类别的分类样本对应的概率,确定所述遗传变异研究数据的类别,包括:计算所有所述关键词对应的概率的第一乘积;计算所述第一乘积和所述每种类别的分类样本对应的概率的第二乘积;将所述第二乘积确定为所述遗传变异研究数据属于所述每种类别的概率;根据所述遗传变异研究数据属于所述每种类别的概率,确定所述遗传变异研究数据的类别。结合第一方面的第二种可能的实现方式,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中,所述根据所述遗传变异研究数据属于所述每种类别的概率,确定所述遗传变异研究数据的类别,包括:比较所述遗传变异研究数据属于所述每种类别的概率;确定所述遗传变异研究数据属于所述每种类别的概率中的最大概率;将所述最大概率对应的类别确定为所述遗传变异研究数据的类别。结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中,所述确定从预设的分类样本集和预设的分类标准中获取的多个关键词中每个关键词在所述遗传变异研究数据中出现的概率,包括:计算每个所述关键词在所述每种类别的似然度;根据每个所述关键词在所述每种类别的似然度,确定每个所述关键词在所述遗传变异研究数据中出现的概率。结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第五种可能的实现方式,其中,根据以下步骤从预设的分类样本集和预设的分类标准中获取多个关键词:根据词语在所述预设的分类样本集和所述预设的分类标准中出现的次数,筛选所述预设的分类样本集和所述预设的分类标准中的候选词语;计算所述候选词语在预设的语料库中的词频和逆文档频率,所述预设的语料库包括所述预设的分类样本集和所述预设的分类标准;根据所述候选词语对应的所述词频和所述逆文档频率,确定所述关键词。结合第一方面至第一方面的第五种可能的实现方式中任意一种,本发明实施例提供了上述第一方面的第六种可能的实现方式,其中,所述将所述遗传变异研究数据转换为遗传变异研究元数据,包括:获取所述遗传变异研究数据的关键词;建立所述遗传变异研究数据的关键词和所述遗传变异研究数据之间的对应关系,得到所述遗传变异研究元数据。结合第一方面至第一方面的第五种可能的实现方式中任意一种,本发明实施例提供了上述第一方面的第七种可能的实现方式,其中,所述根据所述遗传变异研究数据的类别,将所述遗传变异研究元数据存储到所述遗传变异知识库中,包括:根据所述遗传变异研究数据的类别,建立所述遗传变异研究元数据与所述遗传变异研究数据所属类别的对应关系;将所述对应关系存储在所述遗传变异知识库中。结合第一方面至第一方面的第五种可能的实现方式中任意一项,本发明实施例提供了上述第一方面的第八种可能的实现方式,其中,所述遗传变异知识库包括至少一个子知识库;其中,一个所述子知识库存储一种类别的遗传变异研究数据;所述根据所述遗传变异研究数据的类别,将所述遗传变异研究元数据存储到所述遗传变异知识库中,包括:根据所述遗传变异研究数据的类别,确定所述遗传变异研究元数据对应的子知识库;将所述遗传变异研究元数据存储到所述遗传变异研究元数据对应的所述子知识库中。第二方面,本发明实施例提供了一种遗传变异研究数据存储装置,所述装置包括:创建模块,用于创建遗传变异知识库;确定模块,用于获取遗传变异研究数据,并确定所述遗传变异研究数据的类别;转换模块,用于将所述遗传变异研究数据转换为遗传变异研究元数据;存储模块,用于根据所述遗传变异研究数据的类别,将所述遗传变异研究元数据存储到所述遗传变异知识库中。在本发明实施例提供的遗传变异研究数据存储方法及装置中,将遗传变异研究元数据以结构化数据的形式存储在遗传变异知识库中,使得在进行单基因遗传病检测时,计算机能够识别知识库中的数据。为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本发明实施例所提供的遗传变异研究数据存储方法的流程图;图2示出了本发明实施例所提供的遗传变异研究数据存储方法中,确定遗传变异研究数据的类别的流程图;图3示出了本发明实施例所提供的遗传变异研究数据存储方法中,确定遗传变异研究数据的类别的第二种流程图;图4示出了本发明实施例所提供的遗传变异研究数据存储装置的结构示意图;图5示出了本发明实施例所提供的遗传变异研究数据存储装置的第二种结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。考虑到现有的单基因遗传病知识库omim、hgmd等中的数据均是以非结构化的形式进行存储,这些数据以文本等非结构化的形式存储在单基因遗传病知识库中,使得计算机无法识别知识库中的数据,进而影响对知识库中数据的自动检索与分析等。基于此,本发明实施例提供了一种遗传变异研究数据存储方法及装置,下面通过实施例进行描述。参考图1所示,本发明实施例提供了一种遗传变异研究数据存储方法,包括步骤s110-s140,具体如下。s110,创建遗传变异知识库。此处创建的遗传变异知识库为空白知识库,用于存储后续获取的遗传变异研究数据,并且,上述创建的遗传变异知识库中存储的数据为结构化数据。s120,获取遗传变异研究数据,并确定上述遗传变异研究数据的类别。具体的,在获取遗传变异研究数据时,主要从如下几个方面进行获取:已经发表的与遗传变异信息相关的研究文献、生物信息软件预测的结果、人类基因变异数据库中的变异频率、权威数据库对变异的等级及家系研究的基因测序数据等。在本发明实施例中,上述获取的遗传变异研究数据包括单基因遗传病、基因的致病机理、基因变异信息、遗传变异对基因产物功能影响方面的研究和临床研究数据。其中上述基因变异信息包括变异所在的染色体、变异在染色体上的起始物理位置、变异在染色体上的终止物理位置、变异前的碱基序列和变异后的碱基序列。在本发明实施例中,上述遗传变异研究数据的类别主要包括八种类别:人群数据、预测数据、功能数据、分离数据、新发变异数据、等位基因数据、其它知识库中的数据以及其它数据。具体的,上述人群数据指的是基因变异在人群中的变异频率的研究或记录;上述预测数据指的是生物信息分析软件对基因变异的影响的预测结果;上述功能数据指的是对基因变异在活体内或者活体外的分子功能研究;上述分离数据指的是对患有单基因遗传病的家系进行疾病和基因变异是否共分离的研究;上述新发变异数据指的是对未患有基因遗传病的家系中出现单基因遗传病患者、患者携带发现新发变异、并且患者父母不携带该变异的研究;上述等位基因数据指的是对于单基因遗传病在变异位点的顺式或反式基因上发现致病性变异的研究;上述其它数据库数据指的是权威的研究或者数据库(比如说hgmd,clinvar等)对基因变异的致病性分类结果;上述其它数据指的是其它方面的研究。上述权威数据库还可以是遗传变异国际知识库,比如说,外显子组测序项目(exomesequencingproject,esp)、千人基因组计划(1000genomesproject)或者外显子组集合联合(exomeaggregationconsortium,exac)等。在本发明实施例中,采用朴素贝叶斯模型确定上述遗传变异研究数据的类别。参考图2所示,在本发明实施例中,确定上述遗传变异研究数据的类别,包括步骤s210-s230,具体如下:s210,确定从预设的分类样本集和预设的分类标准中获取的多个关键词中每个关键词在上述遗传变异研究数据中出现的概率,上述预设的分类样本集包括多个分类样本;s220,计算每种类别的分类样本在上述预设的分类样本集中的概率;s230,根据上述每个关键词对应的概率和上述每种类别的分类样本对应的概率,确定上述遗传变异研究数据的类别。上述预设的分类样本集是由多个分类样本组成的,并且这些分类样本所属的类别是确定的,具体的,可以选取500个或1000个等数量的分类样本组成预设的分类样本集,预设的分类样本集中分类样本的具体数量可以根据实际应用场景进行选取,本发明实施例并不对预设的分类样本集中的分类样本的个数进行限定。上述预设的分类标准可以是美国医学遗传学与基因组学学会(americancollegemedicalgeneticsgenomics,acmg)推荐的分类标准。上述在步骤s210中,从预设的分类样本集和预设的分类标准中获取多个关键词具体是通过如下过程实现的:根据词语在预设的分类样本集和预设的分类标准中出现的次数,筛选上述预设的分类样本集和预设的分类标准中的候选词语;计算上述候选词语在预设的语料库中的词频和上述候选词语在预设的语料库中的逆文档频率,上述预设的语料库包括预设的分类样本集和预设的分类标准;根据上述候选词语对应的词频和逆文档频率,确定上述关键词。具体的,在本发明实施例中,首先统计预设的分类样本集和预设的分类标准中出现次数较多的词语,可以按照出现次数对预设的分类样本集和预设的分类标准中的词语进行排序,按照出现次数从多到少的顺序截取第一预设数量个词语,该第一预设数量可以是10、20等,第一预设数量的具体数值可以根据实际应用场景进行设置,将该第一预设数量个词语确定为上述候选词语。上述候选词语为多个,当确定出候选词语后,则需要通过公式(1)分别计算上述每个候选词语在预设的语料库中的词频,通过公式(2)计算上述每个候选词语在预设的语料库中的逆文档频率;其中,在上述公式(1)和公式(2)中,tfi为第i个候选词语在预设的语料库中的词频,idfi为第i个候选词语在预设的语料库中的逆文档频率,s1为第i个候选词语在预设的语料库中出现的次数,s2为上述预设的语料库中的总词数,p1为预设的预料库中的文档总数,即上述预设的语料库中预设的分类样本集和预设的分类标准的总数,上述p2为包含上述第i个候选词语的文档的数目,上述i表示的是第i个候选词语,i=1,2,3…。当确定出上述每个候选词语的词频和逆文档频率后,计算每个候选词语的词频和逆文档频率的乘积,即分别计算第一个候选词语的词频和第一个候选词语的逆文档频率的乘积,计算第二个候选词语的词频和第二个候选词语的逆文档频率的乘积,以此类推,计算出所有的候选词语的词频和逆文档频率的乘积,将每个候选词语按照词频和逆文档频率的乘积按照从大到小的顺序进行排序,从大到小截取第二预设数量个候选词语,将截取的第二预设数量个候选词语确定为预设的分类样本集和预设的分类标准中的关键词。其中,上述第二预设数量可以为5个或者10等任意数值,本发明实施例并不对上述第二预设数量的具体数值进行限定,第二预设数量的数值可以根据实际应用场景进行限定。当然,除此之外,在获取的关键词的个数较少的情况下,还可以直接通过人工的方式从上述预设的分类样本集和预设的分类标准中选取关键词。本发明实施例并不对上述获取关键词的具体过程进行限定,只要可以获取关键词即可。当获取到关键词后,再通过步骤s210确定上述关键词中的每个关键词在上述遗传变异研究数据中出现的概率,具体过程包括:计算每个关键词在上述每种类别的似然度;判断每个关键词在上述遗传变异研究数据中是否出现;根据每个关键词在每种类别的似然度,确定每个关键词在上述遗传变异研究数据中出现的概率。其中,上述根据每个关键词在每种类别的似然度,确定每个关键词在上述遗传变异研究数据中出现的概率,具体包括:首先判断上述关键词在遗传变异研究数据中是否出现,如果是,将每个关键词在每种类别中的似然度分别确定为在该种类别情况下每个关键词在上述遗传变异研究数据中出现的概率;否则,将1与每个关键词在每种类别中的似然度的差值确定为在该种类别情况下上述每个关键词在遗传变异研究数据中出现的概率。下列将举例说明计算每个关键词在上述每种类别的似然度的具体过程:比如说,计算关键词1在人群数据这一类别的似然度,首先确定出上述预设的分类样本集中属于人群数据这一类别的分类样本的数量,之后,确定属于人群数据这一类别的分类样本中出现关键词1的样本的数量,将属于人群数据这一类别的分类样本中出现关键词1的样本的数量与属于人群数据这一类别的分类样本的数量的比值确定为关键词1在人群数据这一类别的似然度。之后采用同样的方法分别计算出上述关键词1在预测数据、功能数据、分离数据、新发变异数据、等位基因数据、其它知识库中的数据以及其它数据这些类别的似然度。采用同样的方法计算出其它关键词分别在人群数据、预测数据、功能数据、分离数据、新发变异数据、等位基因数据、其它知识库中的数据以及其它数据这些类别的似然度。之后分别判断上述关键词在需要存储的遗传变异研究数据中是否出现,如果出现了,则将该关键词在每种类别的似然度分别确定为该关键词在该种类别情况下在遗传变异研究数据中出现的概率,如果上述关键词在需要存储的遗传变异研究数据中没有出现,则分别计算1与该关键词在每种类别的似然度的差值,将该差值确定为在该种类别情况下该关键词在遗传变异研究数据中出现的概率。为了详细的介绍关键词在遗传变异研究数据中出现的概率的具体计算过程,下面将距离进行说明。比如说,以关键词1和关键词2为例,关键词1在需要存储的遗传变异研究数据中出现了,而关键词2在需要存储的遗传变异研究数据中没有出现,则关键词1和关键词2在需要存储的遗传变异研究数据中出现的概率如表1所示。在表1中,关键词1在需要存储的遗传变异研究数据中出现了,而关键词2在需要存储的遗传变异研究数据中未出现,f1为关键词1在人群数据这一类别的似然度,f3为关键词2在人群数据这一类别的似然度,f2为关键词1在预测数据这一类别的似然度,f4为关键词2在预测数据这一类别的似然度,因此,根据关键词1和关键词2在人群数据这一类别的似然度,可以确定出关键词1的概率为f1,关键词2的概率为1-f3,根据关键词1和关键词2在预测数据这一类别的似然度,可以确定出关键词1的概率为f2,关键词2的概率为1-f4,如表1所示。表1关键词1关键词2出现未出现f11-f3f21-f4在上述步骤s220中则是计算每种类别的分类样本在预设的分类样本集中的概率,比如说,预设的分类样本集中属于人群数据这一类别的分类样本有n1个,而预设的分类样本集中分类样本的总数量为n,则n1与n的比值则是人群数据这一类别的分类样本在预设的分类样本集中的概率。具体的,参考图3所示,上述步骤s230中根据每个关键词对应的概率和每种类别的分类样本对应的概率,确定上述遗传变异研究数据的类别,包括步骤s310-s340,具体如下:s310,计算所有上述关键词对应的概率的第一乘积;s320,计算上述第一乘积和上述每种类别的分类样本对应的概率的第二乘积;s330,将上述第二乘积确定为上述遗传变异研究数据属于上述每种类别的概率;s340,根据上述遗传变异研究数据属于每种类别的概率,确定上述遗传变异研究数据的类别。比如说,仍然以上述表1为例,根据关键词1和关键词2在人群数据中的似然度,确定出的关键词1的概率为f1,关键词2的概率则为1-f3,则上述第一乘积为f1×(1-f3),而上述预设的分类样本集中属于人群数据这一类别的分类样本的数量与预设的分类样本集的数量的比值为n1/n,因此,上述第二乘积=f1×(1-f3)×(n1/n)。上述第二乘积则为遗传变异研究数据属于人群数据这一类别的概率,采用同样的方法计算出,遗传变异研究数据分别属于预测数据、功能数据、分离数据、新发变异数据、等位基因数据、其它知识库中的数据以及其它数据的概率,根据遗传变异研究数据分别属于每种类别的概率,确定出遗传变异研究数据所属的类别,具体过程包括:比较上述遗传变异研究数据属于每种类别的概率;确定上述遗传变异研究数据属于每种类别的概率中的最大概率;将上述最大概率对应的类别确定为遗传变异研究数据的类别。s130,将上述遗传变异研究数据转换为遗传变异研究元数据。上述遗传变异研究元数据指的是结构化的遗传变异研究数据。具体的,将上述遗传变异研究数据转换为遗传变异研究元数据,包括如下步骤:获取上述遗传变异研究数据的关键词;建立上述遗传变异研究数据的关键词和上述遗传变异研究数据之间的对应关系,得到上述遗传变异研究元数据。在本发明实施例中可以直接将上述从预设的分类样本集和预设的分类标准中获取的关键词确定为上述遗传变异研究数据的关键词;也可以使用上述获取关键词的方法从遗传变异研究数据中提取关键词;当然,还可以采用人工方式从上述遗传变异研究数据中获取关键词,本发明实施例并不对上述获取遗传变异研究数据的关键词的具体过程进行限定。表2上述建立的遗传变异研究数据的关键词和遗传变异研究数据之间的对应关系,如表2所示。当然,表2中只是列出了部分遗传变异研究数据及其关键词的对应关系,本发明实施例中的遗传变异研究数据的具体内容并不局限于此。s140,根据上述遗传变异研究数据的类别,将上述遗传变异研究元数据存储到遗传变异知识库中。具体的,在本发明实施例中,将上述遗传变异研究元数据存储到遗传变异知识库中,包括如下两种情况。第一种情况:根据上述遗传变异研究数据的类别,建立上述遗传变异研究元数据与遗传变异研究数据所属类别的对应关系;将上述对应关系存储到遗传变异知识库中。在上述第一种情况中,确定出遗传变异研究元数据对应的类别,将遗传变异研究元数据与其所属的类别一一对应的存储到遗传变异知识库中。第二种情况:上述遗传变异研究知识库包括至少一个子知识库;其中,一个子知识库存储一种类别的遗传变异研究数据;在第二种情况下,根据上述遗传变异研究数据的类别,将上述遗传变异研究元数据存储到遗传变异研究知识库中,包括如下步骤:根据上述遗传变异研究数据的类别,确定上述遗传变异研究元数据对应的子知识库;将上述遗传变异研究元数据存储到上述遗传变异研究元数据所属的类别对应的子知识库中。在上述两种情况中,第一种情况则是将所有类别的遗传变异研究元数据均存储到该遗传变异知识库中,即所有类别的遗传变异研究元数据均放在一起,但是在存储的时候还需要存储遗传变异研究元数据和所属类别的对应关系;上述第二种情况则是将遗传变异研究知识库分割成多个子知识库,一个子知识库存储一种类别的遗传变异研究元数据,这样,方便遗传变异研究元数据的管理和查找。本发明实施例提供的遗传变异研究数据存储方法,将遗传变异研究元数据以结构化数据的形式存储在遗传变异知识库中,使得在进行单基因遗传病检测时,计算机能够识别知识库中的数据。参考图4所示,本发明实施例提供了一种遗传变异研究数据存储装置,该装置用于执行本发明实施例所提供的遗传变异研究数据存储方法,该装置包括创建模块410、确定模块420、转换模块430和存储模块440;上述创建模块410,用于创建遗传变异知识库;上述确定模块420,用于获取遗传变异研究数据,并确定上述遗传变异研究数据的类别;上述转换模块430,用于将上述遗传变异研究数据转换为遗传变异研究元数据;上述存储模块440,用于根据上述遗传变异研究数据的类别,将上述遗传变异研究元数据存储到遗传变异知识库中。参考图5所示,在本发明实施例中,上述确定模块420,确定遗传变异研究数据的类别是通过第一确定单元421、第一计算单元422和第二确定单元423实现的,具体包括:上述第一确定单元421,用于确定从预设的分类样本集和预设的分类标准中获取的多个关键词中每个关键词在遗传变异研究数据中出现的概率,上述预设的分类样本集包括多个分类样本;上述第一计算单元422,用于计算每种类别的分类样本在预设的分类样本集中的概率;上述第二确定单元423,用于根据每个关键词对应的概率和每种类别的分类样本对应的概率,确定上述遗传变异研究数据的类别。上述第二确定单元确定遗传变异研究数据的类别,是通过第一计算子单元、第二计算子单元、第一确定子单元和第二确定子单元实现的,具体包括:上述第一计算子单元,用于计算所有关键词对应的概率的第一乘积;上述第二计算子单元,用于计算上述第一乘积和每种类别的分类样本对应的概率的第二乘积;上述第一确定子单元,上述将上述第二乘积确定为遗传变异研究数据属于上述每种类别的概率;上述第二确定子单元,用于根据上述遗传变异研究数据属于上述每种类别的概率,确定上述遗传变异研究数据的类别。其中,上述第二确定子单元在确定上述遗传变异研究数据的类别时,具体用于,比较上述遗传变异研究数据属于每种类别的概率;还用于确定遗传变异研究数据属于每种类别的概率中的最大概率;还用于将上述最大概率对应的类别确定为上述遗传变异研究数据的类别。其中,上述第一确定单元确定从预设的分类样本集和预设的分类标准中获取的多个关键词中每个关键词在上述遗传变异研究数据中出现的概率,是通过第三计算子单元和第三确定子单元实现的,具体包括:上述第三计算子单元,用于计算每个关键词在每种类别的似然度;上述第三确定子单元,用于根据每个关键词在每种类别的似然度,确定每个关键词在遗传变异研究数据中出现的概率。其中,为了从预设的分类样本集和预设的分类标准中获取多个关键词,本发明实施例中的确定模块420还包括:筛选单元、第二计算单元和第三确定单元;上述筛选单元,用于根据词语在预设的分类样本集和预设的分类标准中出现的次数,筛选上述预设的分类样本集合预设的分类标准中的候选词语;上述第二计算单元,用于计算上述候选词语在上述预设的分类样本集和预设的分类标准中的词频和上述候选词语在预设的语料库中的逆文档频率,上述预设的语料库包括上述预设的分类样本集和预设的分类标准;上述第三确定单元,用于根据上述候选词语对应的上述词频和上述逆文档频率,确定上述关键词。其中,在本发明实施例中,上述转换模块430将上述遗传变异研究数据转换为遗传变异研究元数据,是通过获取单元和第一建立单元实现的,具体包括:上述获取单元,用于获取上述遗传变异研究数据的关键词;上述第一建立单元,用于建立上述遗传变异研究数据的关键词和上述遗传变异研究数据的对应关系,得到上述遗传变异研究元数据。其中,上述存储模块440根据上述遗传变异研究数据的类别,将上述遗传变异研究元数据存储到遗传变异知识库中,是通过第二建立单元和第一存储单元实现的,具体包括:上述建立单元,用于根据上述遗传变异研究数据的类别,建立上述遗传变异研究元数据与遗传变异研究数据所属类别的对应关系;上述第一存储单元,用于将上述对应关系存储在遗传变异知识库中。在本发明实施例中,上述遗传变异知识库可以至少包括一个子知识库;其中,一个子知识库存储一种类别的遗传变异研究数据;这时,上述存储模块440将上述遗传变异研究元数据存储到遗传变异知识库中,是通过第四确定单元和第二存储单元实现的,具体包括:上述第四确定单元,用于根据上述遗传变异研究数据的类别,确定上述遗传变异研究元数据对应的子知识库;上述第二存储单元,用于将上述遗传变异研究元数据存储到上述遗传变异研究元数据所属的类别对应的子知识库中。本发明实施例提供的遗传变异研究数据存储装置,将遗传变异研究元数据以结构化数据的形式存储在遗传变异知识库中,使得在进行单基因遗传病检测时,计算机能够识别知识库中的数据。本发明实施例所提供的遗传变异研究数据存储装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本
技术领域
的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1