一种eCTD文档多序列数据恢复方法、系统和存储介质与流程

文档序号:33507271发布日期:2023-03-18 03:20阅读:73来源:国知局
一种eCTD文档多序列数据恢复方法、系统和存储介质与流程
一种ectd文档多序列数据恢复方法、系统和存储介质
技术领域
1.本发明涉及信息技术领域,尤其涉及一种ectd文档多序列数据恢复方法、系统和存储介质。


背景技术:

2.ectd是用于药品注册申报和审评的电子注册文件。通过可扩展标记语言(extensible markup language,xml)将符合通用技术文档(ctd)规范的药品申报资料以电子化形式进行组织、传输和呈现。其中ectd申报资料由申请、注册行为和序列三个层级来定义。每个层级都包含一系列相关信息,即申请信息、注册行为信息和序列信息。其中序列是指在某一注册行为中单次提交的申报资料的集合。如附图1所示为新药申请的相关序列示例,其中序列号是申请中唯一的4位数字的字符串,是用于区分同一申请中不同提交序列的唯一标识。在药品研发过程中会经历漫长的阶段,往往会造成ectd文件的丢失,部分序列中的某些文件版本会产生遗失,因此急需一种在有缺失文件的情况下,进行逆向联想和恢复达到尽可能的兼容缺失的源文件以便后续序列最大程度的正常申报的方法。


技术实现要素:

3.本发明针对现有技术中的不足,提供了一种ectd文档多序列数据恢复方法,包括如下步骤:
4.s1,对ectd格式电子文档内存在部分缺失的目标序列文件进行文件结构体系分析,识别缺失内容和所述目标序列文件的关联序列文件;
5.s2,如果目标序列文件中缺失第一叶节点,则在关联序列文件中查找是否存在引用所述第一叶节点的第二叶节点,若存在则获取第二叶节点属性中的引用文档的引用路径,创建第一叶节点标签并根据第二叶节点实体文档引用路径恢复第一叶节点实体文档引用路径;
6.s3,如果目标序列文件中缺失第一产品文件夹,则在关联序列文件中查找是否存在相同名称的第二产品文件夹,若存在且所述第二产品文件夹具有完整属性信息,则根据所述第二产品文件在关联序列文件中的目录层级位置在目标序列文件的对应位置创建第一产品文件夹,并使用第二产品文件夹的属性信息对第一产品文件夹进行信息补充。
7.优选的,所述步骤s3还包括:若存在第二产品文件夹但所述第二产品文件夹缺少完整属性信息,则通过解析目录名称和解析第二产品文件夹内实体文档内容去间接联想并补充第二产品文件夹属性信息,根据所述第二产品文件在关联序列文件中的目录层级位置在目标序列文件的对应位置创建第一产品文件夹,并使用补充后的第二产品文件夹属性信息对第一产品文件夹进行信息补充。
8.优选的,所述步骤s3还包括:若不存在第二产品文件夹或存在第二产品文件夹但缺少完整属性信息且无法补充,则搜寻关联序列中是否存在实体文档的引用地址中包含第一产品文件夹的叶节点,若存在实体文档的引用地址中包含第一产品文件夹的叶节点则根
据该引用地址确定第一产品文件夹所在目录层级位置,并在目标序列文件的对应位置创建第一产品文件夹并调整包含的实体文档地址。
9.优选的,该ectd文档多序列数据恢复方法,还包括:获取关联序列文件,提取关联序列文件的信封基础信息,所述信封基础信息包括但不限于注册类型、申请编号、联系人信息,根据所述关联序列文件的信封基础信息对目标序列文件中的区域骨干文件上的信封信息部分进行充和恢复。
10.本发明还公开了一种ectd文档多序列数据恢复系统,包括:识别模块,用于对ectd格式电子文档内存在部分缺失的目标序列文件进行文件结构体系分析,识别缺失内容和所述目标序列文件的关联序列文件;第一恢复模块,用于在目标序列文件中缺失第一叶节点时在关联序列文件中查找是否存在引用所述第一叶节点的第二叶节点,若存在则获取第二叶节点属性中的引用文档的引用路径,创建第一叶节点标签并根据第二叶节点实体文档引用路径恢复第一叶节点实体文档引用路径;第二恢复模块,用于在目标序列文件中缺失第一产品文件夹时在关联序列文件中查找是否存在相同名称的第二产品文件夹,若存在且所述第二产品文件夹具有完整属性信息,则根据所述第二产品文件在关联序列文件中的目录层级位置在目标序列文件的对应位置创建第一产品文件夹,并使用第二产品文件夹的属性信息对第一产品文件夹进行信息补充。
11.优选的,所述第二恢复模块还被配置为用于在存在第二产品文件夹但所述第二产品文件夹缺少完整属性信息时,通过解析目录名称和解析第二产品文件夹内实体文档内容去间接联想并补充第二产品文件夹属性信息,根据所述第二产品文件在关联序列文件中的目录层级位置在目标序列文件的对应位置创建第一产品文件夹,并使用补充后的第二产品文件夹属性信息对第一产品文件夹进行信息补充。
12.优选的,所述第二恢复模块还被配置为用于在不存在第二产品文件夹或存在第二产品文件夹但缺少完整属性信息且无法补充时,搜寻关联序列中是否存在实体文档的引用地址中包含第一产品文件夹的叶节点,若存在实体文档的引用地址中包含第一产品文件夹的叶节点则根据该引用地址确定第一产品文件夹所在目录层级位置,并在目标序列文件的对应位置创建第一产品文件夹并调整包含的实体文档地址。
13.优选的,该ectd文档多序列数据恢复系统还包括信封信息补充模块,用于获取关联序列文件,提取关联序列文件的信封基础信息,所述信封基础信息包括但不限于注册类型、申请编号、联系人信息,根据所述关联序列文件的信封基础信息对目标序列文件中的区域骨干文件上的信封信息部分进行充和恢复。
14.本发明还公开了一种ectd文档多序列数据恢复装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一所述方法的步骤。
15.本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述方法的步骤。
16.本发明公开的ectd文档多序列数据恢复方法、系统和存储介质,通过对ectd格式电子文档内存在部分缺失的目标序列文件进行文件结构体系分析,识别缺失内容和所述目标序列文件的关联序列文件;如果目标序列文件中缺失第一叶节点,则在关联序列文件中查找是否存在引用所述第一叶节点的第二叶节点,若存在则获取第二叶节点属性中的引用
文档的引用路径,创建第一叶节点标签并根据第二叶节点实体文档引用路径恢复第一叶节点实体文档引用路径;如果目标序列文件中缺失第一产品文件夹,则在关联序列文件中查找是否存在相同名称的第二产品文件夹,若存在且所述第二产品文件夹具有完整属性信息,则根据所述第二产品文件在关联序列文件中的目录层级位置在目标序列文件的对应位置创建第一产品文件夹,并使用第二产品文件夹的属性信息对第一产品文件夹进行信息补充。从而实现在有缺失文件的情况下,通过关联序列进行逆向联想和恢复达到尽可能的兼容缺失的源文件以便后续序列最大程度的正常申报的方法。
17.本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
18.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
19.图1为本实施例公开的ectd文档多序列数据恢复方法的流程示意图。
20.图2为本实施例公开的步骤s3的具体流程示意图。
21.图3为本实施例公开的包含多个序列的ectd文档目录示例图。
具体实施方式
22.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
23.除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
24.本实施例公开了一种ectd文档多序列数据恢复方法,如附图1所示,该方法可包括如下步骤。
25.步骤s1,对ectd格式电子文档内存在部分缺失的目标序列文件进行文件结构体系分析,识别缺失内容和所述目标序列文件的关联序列文件。
26.在多个序列之间,往往存在引用关系,如0000,0001,0002等序列,往往会存在向前引用的情况,比如0000是存在部分缺失的序列。0001和0002引用到了0000的序列内容。
27.步骤s2,如果目标序列文件中缺失第一叶节点,则在关联序列文件中查找是否存在引用所述第一叶节点的第二叶节点,若存在则获取第二叶节点属性中的引用文档的引用路径,创建第一叶节点标签并根据第二叶节点实体文档引用路径恢复第一叶节点实体文档引用路径。
28.具体的,如果0000缺失某个leaf节点文件。0001中引用了此leaf节点文件,引用时会通过0001中记录modified-file的格式写明相对路径,如’../../0000/index.xml#idxxxx’的形式,则可以把0001的id编号获取和恢复。
29.步骤s3,如果目标序列文件中缺失第一产品文件夹,则在关联序列文件中查找是否存在相同名称的第二产品文件夹,若存在且所述第二产品文件夹具有完整属性信息,则根据所述第二产品文件在关联序列文件中的目录层级位置在目标序列文件的对应位置创建第一产品文件夹,并使用第二产品文件夹的属性信息对第一产品文件夹进行信息补充。
30.在本实施例中,如附图2所示,所述步骤s3还可以包括如下内容。
31.步骤s31,如果目标序列文件中缺失第一产品文件夹,则在关联序列文件中查找是否存在相同名称的第二产品文件夹;
32.步骤s32,若存在第二产品文件夹但所述第二产品文件夹缺少完整属性信息,则通过解析目录名称和解析第二产品文件夹内实体文档内容去间接联想并补充第二产品文件夹属性信息;
33.步骤s33,根据所述第二产品文件在关联序列文件中的目录层级位置在目标序列文件的对应位置创建第一产品文件夹,并使用补充后的第二产品文件夹属性信息对第一产品文件夹进行信息补充。
34.在具体实施例中,步骤s3还可以包括如下内容。
35.步骤s34,若不存在第二产品文件夹或存在第二产品文件夹但缺少完整属性信息且无法补充,则搜寻关联序列中是否存在实体文档的引用地址中包含第一产品文件夹的叶节点;
36.步骤s35,若存在实体文档的引用地址中包含第一产品文件夹的叶节点则根据该引用地址确定第一产品文件夹所在目录层级位置,并在目标序列文件的对应位置创建第一产品文件夹并调整包含的实体文档地址。
37.具体的,例如0000缺失某个文件夹如产品文件夹、研究文件夹、扩展目录等类似。若0001中有完整的产品文件相应的描述字段,则可以直接使用对应属性,无需通过解析目录名称,解析文件内容等方式去间接联想和恢复。若仍旧无清晰内容,假设0001中引用了此文件夹下某个leaf节点文件如’../../0000/m3/32-body-data/xxx/xx/aaa.pdf’形式,则可以把对应的目录层级关系进行确定。特别的,某些研究文件夹中含有stf.xml骨架文件,直接凭空恢复会有一定难度,但stf.xml的基础信息往往和后续有一定关系,可以参考后续stf.xml的基础内容生成,是可以提高逆向恢复的准确性的。
38.若目标序列文件中缺失骨架文件且不存在已导入的关联序列文件,则识别目标序列文件的第一模块内容文件夹中的目标文件目录结构,所述目标文件目录结构包括父目录和子目录数量,将所述目标文件目录结构与规则数据库中各地区的文件目录结构进行对比,将匹配数量最多的地区的法规版本信息作为目标序列文件的法规版本信息,按照对应规则扫描目标序列中的文件及目录,逆向生成骨架文件。
39.如果仍无法生成骨架文件则读取各数据文件夹中内容,则查找具有国家特征内容的目录和文件,并根据所述国家特征内容确定目标序列文件的法规版本信息,按照对应规则扫描目标序列中的文件及目录,逆向生成骨架文件。
40.具体的,若此阶段无法识别国家和法规版本,则开始逆向生成骨架文件。首先确定当前序列是否有已导入的关联序列,如附图3所示,如当前序列是0001,先前序列是0000,则参考0000的国家和法规为基础。若无兄弟序列,则通过m1的文件夹命名方式与系统内置规则库进行比对,找到最相似的内容。即将父目录及子目录到数据库中与各版本进行比对和
搜索,匹配数量最多的,就是最相似的。若仍旧无法判别对应国家和法规版本,则尝试读取相应文件内容,获取对应的form等有国家特征内容的目录及文件,确定申请指向的地区如美国的form fda 1571等。当识别地区和法规后,则按照规则扫描当前序列中的文件及目录,逆向生成骨架文件内的体系结构,其中也会出现目录或文件无法直接映射当前法规的情况,则通过多次映射方式来识别无法映射的文件。至此缺失内容识别完毕。该多次映射方式包括如下内容。
41.将原版本文件结构体系内各文件夹分别映射到目标法规文件结构体系中,若目标法规文件结构体系中存在与原版本文件结构体系中的原始文件夹名称和路径位置相同的目标文件夹,则该原始文件夹映射成功。如果原版本文件结构体系中存在无法映射的第一文件夹,查询法规历史数据库中记录的第一文件夹在原法规版本至目标法规版本间的结构调整记录。根据所述结构调整记录查找并获取对应的系统文件调整规则,对第一文件夹和/或相关文件夹按对应系统文件调整规则进行修改,对修改后形成的第二文件夹进行再次关系映射。
42.在本实施例中,如果结构调整记录中包含第一文件夹和关联文件夹的合并记录,则获取合并记录中关联文件夹信息和合并后的目标文件夹信息,根据系统文件调整规则中的合并规则对第一文件夹和关联文件夹进行合并后映射到目标文件夹。如果结构调整记录中包含对第一文件夹的拆分记录,则提取目标法规文件结构体系中未实现映射的各文件夹名称的映射关键词,将各映射关键词与第一文件夹名称和/或第一文件夹内各文档名称进行匹配,获取包含在第一文件夹名称或其内部文档名称中的关键词对应的多个目标文件夹,作为所述第一文件夹的映射目标。如果结构调整记录中包含对第一文件夹的取消记录,则识别第一文件夹名称和内部各文档名称并提取对应的匹配关键词,并根据所述匹配关键词在数据库中查询获取联想关键词,将所述匹配关键词和联想关键词分别与目标法规文件体系中未实现映射的各文件夹名称进行匹配,若匹配成功则将其作为所述第一文件夹的映射目标。通过上面的多级映射方式来识别无法映射的文件,识别缺失内容。
43.根据更新后的骨架文件与目标序列文件中各实体文件的对应情况识别缺失内容并进行对应补全。
44.如果骨架文件中存在第一叶节点且所述目标序列文件中无对应第一叶节点的实体文件,则查询骨架文件中第一叶节点的基础信息描述,在第一叶节点的目标资源位置建立第一文件夹并根据文件名在所述第一文件夹内创建空白文件;如果目标序列文件中存在无法对应骨架文件中的各叶节点的第一实体文件,则根据第一实体文件所在文件夹确定所属体系结构的目录层级,创建叶标签文件并引用第一实体文件的位置。
45.如果骨架文件中包含第一产品文件夹但所述第一产品文件夹内无对应实体文件,则获取骨架文件的产品信息,所述产品信息包括但不限于产品名、生产商、或剂型,根据所述产品信息查找在文件名或文件内容具有对应信息的第二实体文件,按照骨架文件描述重新绑定第一产品文件夹与第二实体文件的位置关系;如果目标序列文件中存在无法对应骨架文件中各产品文件夹的第三实体文件,则通过第三实体文件路径或识别第三实体文件内容获取对应产品信息,根据产品信息确定所属体系结构的目录层级,创建对应产品文件夹并导入第三实体文件。
46.在本实施例中,该ectd文档多序列数据恢复方法还可包括如下内容:获取关联序
列文件,提取关联序列文件的信封基础信息,所述信封基础信息包括但不限于注册类型、申请编号、联系人信息,根据所述关联序列文件的信封基础信息对目标序列文件中的区域骨干文件上的信封信息部分进行充和恢复。通过多序列导入后,可以提高信封信息的恢复准确性,如0001和0000是同一类申请,则0000的信封基础信息,如注册类型,申请编号,联系人等信息可以参考0001进行填充和恢复。
47.本实施例公开的ectd文档多序列数据恢复方法,通过对ectd格式电子文档内存在部分缺失的目标序列文件进行文件结构体系分析,识别缺失内容和所述目标序列文件的关联序列文件;如果目标序列文件中缺失第一叶节点,则在关联序列文件中查找是否存在引用所述第一叶节点的第二叶节点,若存在则获取第二叶节点属性中的引用文档的引用路径,创建第一叶节点标签并根据第二叶节点实体文档引用路径恢复第一叶节点实体文档引用路径;如果目标序列文件中缺失第一产品文件夹,则在关联序列文件中查找是否存在相同名称的第二产品文件夹,若存在且所述第二产品文件夹具有完整属性信息,则根据所述第二产品文件在关联序列文件中的目录层级位置在目标序列文件的对应位置创建第一产品文件夹,并使用第二产品文件夹的属性信息对第一产品文件夹进行信息补充。从而实现在有缺失文件的情况下,通过关联序列进行逆向联想和恢复达到尽可能的兼容缺失的源文件以便后续序列最大程度的正常申报的方法。
48.在另一实施例中,还公开了一种ectd文档多序列数据恢复系统,包括识别模块、第一恢复模块和第二恢复模块,其中识别模块,用于对ectd格式电子文档内存在部分缺失的目标序列文件进行文件结构体系分析,识别缺失内容和所述目标序列文件的关联序列文件;第一恢复模块,用于在目标序列文件中缺失第一叶节点时在关联序列文件中查找是否存在引用所述第一叶节点的第二叶节点,若存在则获取第二叶节点属性中的引用文档的引用路径,创建第一叶节点标签并根据第二叶节点实体文档引用路径恢复第一叶节点实体文档引用路径;第二恢复模块,用于在目标序列文件中缺失第一产品文件夹时在关联序列文件中查找是否存在相同名称的第二产品文件夹,若存在且所述第二产品文件夹具有完整属性信息,则根据所述第二产品文件在关联序列文件中的目录层级位置在目标序列文件的对应位置创建第一产品文件夹,并使用第二产品文件夹的属性信息对第一产品文件夹进行信息补充。
49.优选的,所述第二恢复模块还被配置为用于在存在第二产品文件夹但所述第二产品文件夹缺少完整属性信息时,通过解析目录名称和解析第二产品文件夹内实体文档内容去间接联想并补充第二产品文件夹属性信息,根据所述第二产品文件在关联序列文件中的目录层级位置在目标序列文件的对应位置创建第一产品文件夹,并使用补充后的第二产品文件夹属性信息对第一产品文件夹进行信息补充。
50.优选的,所述第二恢复模块还被配置为用于在不存在第二产品文件夹或存在第二产品文件夹但缺少完整属性信息且无法补充时,搜寻关联序列中是否存在实体文档的引用地址中包含第一产品文件夹的叶节点,若存在实体文档的引用地址中包含第一产品文件夹的叶节点则根据该引用地址确定第一产品文件夹所在目录层级位置,并在目标序列文件的对应位置创建第一产品文件夹并调整包含的实体文档地址。
51.优选的,该ectd文档多序列数据恢复系统还包括信封信息补充模块,用于获取关联序列文件,提取关联序列文件的信封基础信息,所述信封基础信息包括但不限于注册类
型、申请编号、联系人信息,根据所述关联序列文件的信封基础信息对目标序列文件中的区域骨干文件上的信封信息部分进行充和恢复。
52.需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的ectd文档多序列数据恢复系统而言,由于其与实施例公开的对ectd文档多序列数据恢复方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
53.在另一些实施例中,还提供了一种ectd文档多序列数据恢复装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述各实施例中描述的ectd文档多序列数据恢复方法的各个步骤。
54.其中ectd文档多序列数据恢复装置可包括但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是ectd文档多序列数据恢复装置的示例,并不构成对ectd文档多序列数据恢复装置设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述ectd文档多序列数据恢复装置设备还可以包括输入输出设备、网络接入设备、总线等。
55.所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述ectd文档多序列数据恢复装置设备的控制中心,利用各种接口和线路连接整个ectd文档多序列数据恢复装置设备的各个部分。
56.所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述ectd文档多序列数据恢复装置设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
57.所述ectd文档多序列数据恢复装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个ectd文档多序列数据恢复方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计
算机可读介质不包括电载波信号和电信信号。
58.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
59.总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1