数据文件批量存储方法及系统的制作方法

文档序号:9616324阅读:528来源:国知局
数据文件批量存储方法及系统的制作方法
【技术领域】
[0001] 本发明涉及计算机应用领域,尤其涉及一种用于管理农业科技成果的数据文件批 量存储方法及系统。
【背景技术】
[0002] 近些年来,国家每年都在关注三农问题,对农业的投入也在稳步加大,科研院所和 大专院校都在对农业进行进一步的探索和研发,每年的科技产出便是数量繁多的科技成果 资料,这些成果资料包括文本、图片、音频和视频等多种形式和格式,如何将这些大量无规 则的成果数据进行有效的存储和管理,如何筛选和导入成为制约成果数据快速保存的关键 因素,因此需要一种更加有效的方式进行数据的导入。

【发明内容】

[0003] 本发明提供一种数据文件批量存储方法及系统,用于解决现有技术中对大批量无 规则冗余数据导入的问题。
[0004] -方面,本发明提供一种数据文件批量存储方法,所述存储方法的步骤包括:
[0005] 采集多条文本数据以及与每条文本数据匹配的多媒体数据;
[0006] 对所有文本数据进行查重以获取多组互为重复的文本数据以及对应匹配的多媒 体数据;
[0007] 将每组互为重复的文本数据中均保留一条文本数据并与初始单一的文本数据进 行标识存储;
[0008] 将每条文本数据匹配的多媒体数据给以相同标识码分类存储。
[0009] 进一步地,对所有文本数据进行查重包括:依据文本数据的多个录入条件对每个 录入条件下的文本内容进行查重。
[0010] 进一步地,对存在多组互为重复的文本数据进行处理的步骤包括:
[0011] 将每组文本数据中最先录入的文本数据以及与该文本数据所匹配的多媒体数据 保留;
[0012] 将其余文本数据以及与其余文本数据匹配的多媒体数据删除。
[0013] 进一步地,所述多媒体数据包括图片数据、音频数据和/或视频数据。
[0014] 进一步地,所述录入条件为科技成果标题、作者、单位、研究起止时间、正文。
[0015] 进一步地,对所述文本数据查重判断存在互为重复的文本数据的条件包括:
[0016] 连续重复字数与字数较少的标题字数之比大于预设比例;
[0017] 和 / 或,
[0018] 作者全部相同或存在一个作者相同;
[0019] 和 / 或,
[0020] 单位全部相同或存在一个单位相同;
[0021] 和 / 或,
[0022] 研究起止时间相同或重叠;
[0023] 和 / 或,
[0024] 正文每段连续重复字数与每段总字数之比大于预设比例。
[0025] 进一步地,还包括数据搜索的步骤,包括:
[0026] 依据多字段检索手段对文本数据库内的文本数据进行搜索,并判断是否存在搜索 文本数据;
[0027] 若存在,则确定搜索文本数据的标识码,并以该标识码在多媒体数据库中搜索出 对应的多媒体数据,再将搜索结果进行显示;
[0028] 反之,不显示搜索结果。
[0029] 另一方面,本发明提供一种数据文件批量存储系统,包括:
[0030] 采集模块,用于采集多条文本数据以及与每条文本数据匹配的多媒体数据;
[0031] 文本数据查重判断模块,用于对所有文本数据进行查重以获取多组互为重复的文 本数据以及对应匹配的多媒体数据;
[0032] 编码存储模块,将每组互为重复的文本数据中均保留一条文本数据并与初始单一 的文本数据进行标识存储,同时将每条文本数据匹配的多媒体数据给以相同标识码分类存 储。
[0033] 进一步地,还包括录入条件存储模块,用于编辑或存储文本数据的录入条件。
[0034] 进一步地,还包括重复文本数据处理模块,用于将每组互为重复的文本数据中保 留最先录入的文本数据,并将其余文本数据删除。
[0035] 由上述技术方案可知,本发明对大量文本数据和多媒体数据进行存储,对文本数 据进行查重删除后对每个文本数据进行标识,并对文本数据相匹配的多媒体数据给以相同 标识码,后分别存储于分类数据库中,完成对数据文件有效的存储。另外,在搜索过程中,对 文本数据进行搜索,确定文本数据,然后以搜索标识码方式获得多媒体数据,完成对数据文 件有效的搜索显示。
【附图说明】
[0036] 图1为本发明实施例1所述存储方法的流程示意图;
[0037] 图2是本发明实施例1所示存储方法的一种具体实施流程图;
[0038] 图3为本发明实施例2所述存储系统的结构框图。
【具体实施方式】
[0039] 下面结合附图和实施例,对本发明的【具体实施方式】作进一步详细描述。以下实施 例用于说明本发明,但不用来限制本发明的范围。
[0040] 图1表示出了本发明实施例1提供的一种数据文件批量存储方法,所述存储方法 的步骤包括:
[0041] 1、采集多条文本数据以及与每条文本数据匹配的多媒体数据;
[0042] 2、对所有文本数据进行查重以获取多组互为重复的文本数据以及对应匹配的多 媒体数据,其中,多媒体数据可包括图片数据、音频数据和视频数据;
[0043] 3、将每组互为重复的文本数据中均保留一条文本数据并与初始单一的文本数据 进行标识存储;
[0044] 4、将每条文本数据匹配的多媒体数据给以相同标识码分类存储。
[0045] 如图2所示为针对上述存储方法做出的具体实施例:
[0046] S1、采集多条文本数据以及与每条文本数据相匹配的图片数据、音频数据和/或 视频数据;
[0047] S2、依据文本数据的多个录入条件对所有文本数据在每个录入条件下的文本内容 进行查重并判断是否存在重复文本数据;
[0048] S21、若存在多组互为重复的文本数据,则将每组文本数据中最先录入的文本数据 以及与该文本数据所匹配的图片数据、音频数据和/或视频数据保留,其余文本数据以及 与该其余文本数据所匹配的图片数据、音频数据和/或视频数据删除;
[0049] S22、反之,保留所有文本数据、图片数据、音频数据和视频数据;
[0050] S3、将每组互为重复的文本数据中均保留一条文本数据并与初始单一的文本数据 均进行标识存入文本数据库中,其中,初始单一的文本数据指没有重复的文本数据,没有重 复便是单一;
[0051] S4、将标识后每条文本数据所匹配的图片数据、音频数据和/或视频数据给以相 同标识码分别存储于图片数据库、音频数据库和视频数据库中。
[0052] 对上述方法作进一步地解释说明,本实施例所述的存储方法在采集数据文件时可 按照系统预设的excel模板将所有农业科技成果文本数据进行录入。在录入文本数据的过 程中,每个文本数据具有唯一的编号。录入完毕后,将存有所有文本数据的模板提交给系 统,系统会对所有文本数据进行查重处理。在查重过程中,需依据文本数据的多个录入条件 对所有文本数据在每个录入条件下的文本内容进行查重。该录入条件是在录入过程中的内 容录入准则。对每个录入条件下的文本内容进行查重,从各个角度对科技成果文本数据进 行查重,对可能出现重复的文本数据一个也不漏掉,提高了查重的准确性。在本实施例中, 录入条件可以是科技成果标题、作者、单位、研究起止时间、正文。查重时依次按照科技成果 标题-作者-单位-研究起止时间-正文顺序进行查重的次序对各自内容的关键字进行比 对,在比对过程中需按照预设判断准则判断是否存在重复文本数据。预设判断准则可以为: 连续重复字数与字数较少的标题字数之比大于预设比例;作者全部相同或存在一个作者相 同;单位全部相同或存在一个单位相同;研究起止时间相同或重叠;正文每段连续重复字 数与每段总字数之比大于预设比例。上述判断准则可以是满足一种或多种准则即可判断文 本数据为互为重复的文本数据,从最小评判点对科技成果文本数据进行查重,对可能出现 重复的文本数据一个也不漏掉,提高了查重的准确性。
[0053] 若判断出存在多组互为重复的文本数据,则将每组互为重复的文本数据(至少有 两篇文本数据)中最先录入的文本数据以及与该文本数据所匹配的图片数据、音频数据和 /或视频数据保留,其余文本数据以及与该其余文本数
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1