本发明涉及计算机,尤其涉及一种生物序列提取和检索方法、装置和电子设备。
背景技术:
1、生命信息蕴藏在基因序列中,基因序列通过转录和翻译合成特定氨基酸序列的蛋白质,进而控制生物的性状。生物医药领域的研究和开发主要涉及dna、rna和蛋白质等生物分子的结构和功能,因此生物序列信息的有效利用对于生物医药领域的发展至关重要。
2、生物医药领域文档中包含着丰富的生物序列信息,通过分析提取生物医药领域文档中的生物序列信息,并整合生成生物序列数据库,对于推动生物医学和生物学研究的发展非常关键。然而,现有的生物序列识别提取技术存在准确率不高的问题,提取出来的生物序列信息需要依赖人工进行干预校准,不仅增加了工作量,而且效率也十分低下。
技术实现思路
1、本发明提供一种生物序列提取和检索方法、装置和电子设备,用以解决现有技术中生物序列识别提取准确率低和效率低的问题。
2、本发明提供一种生物序列提取方法,包括:
3、获取生物医药领域文件中的初始生物序列,以及与所述初始生物序列相关联的序列属性信息;
4、基于所述序列属性信息,对所述初始生物序列进行序列属性验证,得到属性验证结果;
5、提取所述属性验证结果为验证成功的所述初始生物序列,作为目标生物序列。
6、根据本发明提供的一种生物序列提取方法,所述序列属性信息包括第一序列长度和/或第一序列类型;
7、所述基于所述序列属性信息,对所述初始生物序列进行序列属性验证,得到属性验证结果,包括:
8、统计所述初始生物序列的序列长度,作为第二序列长度,基于所述第二序列长度和所述第一序列长度,对所述初始生物序列进行序列长度验证,得到长度验证结果;和/或,基于所述第一序列类型,对所述初始生物序列进行序列类型验证,得到类型验证结果;
9、基于所述长度验证结果和/或所述类型验证结果,确定所述属性验证结果。
10、根据本发明提供的一种生物序列提取方法,所述基于所述第一序列类型,对所述初始生物序列进行序列类型验证,得到类型验证结果,包括:
11、确定构成所述第一序列类型的生物序列的基本单元的第一单元类型,并确定初始生物序列包含的各基本单元的第二单元类型;
12、基于所述第一单元类型与所述第二单元类型,对所述初始生物序列进行序列类型验证,得到所述类型验证结果。
13、根据本发明提供的一种生物序列提取方法,所述基于所述长度验证结果和/或所述类型验证结果,确定所述属性验证结果,包括:
14、在所述长度验证结果为验证成功、所述类型验证结果为验证失败的情况下,基于所述第一序列类型对应的校正方式,对所述初始生物序列进行序列校正,并基于序列校正后的初始生物序列进行序列属性验证,得到校正后的长度验证结果和类型验证结果;
15、在所述校正后的长度验证结果和类型验证结果均为验证成功的情况下,确定所述属性验证结果为验证成功。
16、根据本发明提供的一种生物序列提取方法,所述获取生物医药领域文件中的初始生物序列,以及与所述初始生物序列相关联的序列属性信息,包括:
17、获取生物医药领域文件;
18、在所述生物医药领域文件包括图像的情况下,对所述生物医药领域文件进行文字识别,得到多行识别文本;
19、对所述多行识别文本分别进行文本分类,得到各行识别文本的文本类型,并基于所述文本类型,从所述多行识别文本中确定出初始生物序列和序列属性信息;
20、基于所述初始生物序列对应的序列标识符,以及所述序列属性信息对应的序列标识符,确定与所述初始生物序列相关联的序列属性信息。
21、根据本发明提供的一种生物序列提取方法,所述获取生物医药领域文件,包括:
22、获取初始领域文件;
23、在所述初始领域文件包括图像的情况下,对所述图像进行序列页分类,得到所述图像的序列页分类结果;
24、基于所述序列页分类结果为属于序列页的图像,以及所述初始领域文件中的可读文本,确定所述生物医药领域文件。
25、本发明还提供一种生物序列检索方法,包括:
26、获取目标检索词;
27、通过生物序列库,确定与所述目标检索词相匹配的目标生物序列,所述生物序列库是基于如上述任一种所述的生物序列提取方法确定的目标生物序列构建得到的;
28、展示与所述目标检索词相匹配的目标生物序列。
29、本发明还提供一种生物序列提取装置,包括:
30、获取单元,用于获取生物医药领域文件中的初始生物序列,以及与所述初始生物序列相关联的序列属性信息;
31、验证单元,用于基于所述序列属性信息,对所述初始生物序列进行序列属性验证,得到属性验证结果;
32、提取单元,用于提取所述属性验证结果为验证成功的所述初始生物序列,作为目标生物序列。
33、本发明还提供一种生物序列检索装置,包括:
34、检索词获取单元,用于获取目标检索词;
35、序列检索单元,用于通过生物序列库,确定与所述目标检索词相匹配的目标生物序列,所述生物序列库是基于如上述任一种所述的生物序列提取方法确定的目标生物序列构建得到的;
36、序列展示单元,用于展示与所述目标检索词相匹配的目标生物序列。
37、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述生物序列提取或检索方法。
38、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述生物序列提取或检索方法。
39、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述生物序列提取或检索方法。
40、本发明提供的一种生物序列提取和检索方法、装置、电子设备和存储介质,通过获取生物医药领域文件中的初始生物序列,以及与初始生物序列相关联的序列属性信息,从而基于序列属性信息对初始生物序列进行序列属性验证,以便提取出验证成功的初始生物序列作为最终所需的目标生物序列,确保了生物序列识别提取的高准确率,而且无需人工进行干预校准,进一步提高了生物序列提取的效率,与现有技术相比,本发明通过基于属性验证结果确定目标生物序列,可使提取到的生物序列准确率更高、可靠性也更高。
1.一种生物序列提取方法,其特征在于,包括:
2.根据权利要求1所述的生物序列提取方法,其特征在于,所述序列属性信息包括第一序列长度和/或第一序列类型;
3.根据权利要求2所述的生物序列提取方法,其特征在于,所述基于所述第一序列类型,对所述初始生物序列进行序列类型验证,得到类型验证结果,包括:
4.根据权利要求2所述的生物序列提取方法,其特征在于,所述基于所述长度验证结果和/或所述类型验证结果,确定所述属性验证结果,包括:
5.根据权利要求1至4中任一项所述的生物序列提取方法,其特征在于,所述获取生物医药领域文件中的初始生物序列,以及与所述初始生物序列相关联的序列属性信息,包括:
6.根据权利要求5所述的生物序列提取方法,其特征在于,所述获取生物医药领域文件,包括:
7.一种生物序列检索方法,其特征在于,包括:
8.一种生物序列提取装置,其特征在于,包括:
9.一种生物序列检索装置,其特征在于,包括:
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述生物序列提取方法或权利要求7所述生物序列检索方法。