数据处理的方法及装置与流程

文档序号:12464566阅读:322来源:国知局
数据处理的方法及装置与流程

本发明涉及非结构化文档的数据处理技术领域,尤其涉及一种能将标准格式的软件工程系统分析与概要设计文档和结构化模型进行双向转换的数据处理的方法及装置。



背景技术:

在软件工程的生命周期中,分析与概要设计的文档对后面的开发、测试、实施、维护工作起到了关键性的影响,设计文档的质量直接影响工程的进度与软件交付的质量。为保证设计质量,目前,IT业界的通常做法是:制定标准的设计文档模板,以统一企业内的所有IT项目的设计过程、设计标准、规范及约束等。但是,文档本身并不具备很好的约束性,它无法固化设计标准与约束,以文档作为交付物的设计成果质量,一定程度商取决于设计者对设计模板的遵从性。而且,对于设计审查人员来说,除了通读文档,并没有其他更好的方式帮助其审查设计内容,而对于一个企业级设计管理者来说,要实现对企业内部所有信息系统设计内容的总体分析与管理,只能依靠手工收集、汇总与整理的方法,这种方法简单、低效、需耗费大量人力物力,而形成的结果具有有限的时效性,且质量无法保证。

为了解决上述问题,我们对传统的软件工程系统分析与概要设计交付文档,进行总结与提炼,形成一套可承载系统分析与概要设计内容,同时固化设计标准与约束,内置本阶段设计要素间内在关系的系统分析与概要设计模型,以结构化的模型作为交付成果。由于在采用模型化分析与设计的过程中,可能存在已设计好的文档,存在设计文档与结构化模型并存的情况,而手工 将已设计好的大量文档,转换成结构化模型需要耗费大量的时间,效率非常低,转换质量也无法保证。因此,我们发明了一种将系统分析与概要设计文档转换为结构化模型的数据处理方法及装置。



技术实现要素:

本发明实施例提供了一种数据处理的方法及装置,可以将标准格式的分析与概要设计交付文档转换成结构化的分析与概要设计模型,提高设计文档内容到结构化模型的转换效率和质量;也可将已设计好的分析与概要设计模型,导出成标准的分析与概要设计交付文档,即省去了设计文档编写的工作量,又能有效保证设计文档与设计模型的一致性。同时,所述装置还可根据用户的管理需求,定制合规性审查报告,自动生成设计内容审查结果,帮助提升设计内容的审查效率和质量。

在第一方面,本发明实施例提供了一种数据处理的方法,所述方法包括:读取导入配置信息,抽取文档数据形成中间文件,所述导入配置信息包括第一格式信息和所述文档数据与模型数据的映射关系;检测所述待转换文档的第二格式信息与所述第一格式信息是否一致;当检测到所述第二格式信息与所述第一格式信息一致时,按照所述模型数据中的模型定义,对所述中间文件进行格式处理和拆分处理,并将处理后的中间文件转换成与所述模型定义对应的CSV文件;将所述CSV文件导入结构化模型数据库。

在第一方面的第一种可能的实现方式中,所述方法还包括:预先设置导出配置表信息,所述导出配置表信息包括:待生成报表适用的取数逻辑,报表的表头,报表各要素对应的模型定义及属性,报表的输入项以及输出项,或者是待生成设计文档的模板;读取并解析导出配置表信息,确定在所述模型数据中的取数范围和取数逻辑;根据所述取数范围和取数逻辑,读取相应的模型定义、图和符号,生成报表或标准的设计文档。

结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中, 所述检测所述待转换文档数据的第二格式信息与所述第一格式信息是否一致,具体包括:根据所述导入配置信息中的关键词对所述待转换文档进行定位,通过是否定位成功判断所述第二格式信息与所述导入配置信息中的所述第一格式信息是否一致。

结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,所述检测所述待转换文档数据的第二格式信息与所述第一格式信息是否一致,具体还包括:检测所述待转换文档数据是否包括不可为空的数据或者所述不可为空的数据是否填写,输入数据是否在规定的范围内,不可重复的内容是否存在重复。

结合第一方面的第一种可能的实现方式,在第四种可能的实现方式中,所述检测所述待转换文档数据的第二格式信息与所述第一格式信息是否一致,具体还包括:当检测到所述第二格式信息与所述第一格式信息不一致时,将所述第二格式信息的错误信息及其在待转换文档中的具体位置写入错误日志,将所述错误日志发送给用户。

在第二方面,本发明实施例提供了一种装置,所述装置包括:抽取单元,用于读取导入配置信息,抽取待转换文档数据,形成中间文件,所述导入配置信息包括第一格式信息和所述待转换文档数据与模型数据的映射关系;检测单元,用于检测所述待转换文档的第二格式信息与所述第一格式信息是否一致;转换单元,用于当检测到所述第二格式信息与所述第一格式信息一致时,按照所述模型数据中的模型定义,将所述中间文件进行格式处理和拆分处理,并转换成与所述模型定义对应的CSV文件;导入单元,用于将所述CSV文件导入结构化模型数据库。

在第一方面的第一种可能的实现方式中,所述装置还包括:配置单元,用于预先设置导出配置表信息,所述导出配置表信息包括:待生成报表适用的取数逻辑,报表的表头,报表各要素对应的模型定义及属性,报表的输入项以及输出项,或者是待生成设计文档的模板;解析单元,用于读取并解析 所述导出配置表信息,确定在所述模型数据中的取数范围和取数逻辑;生成单元,根据所述取数范围和取数逻辑,读取相应的模型定义、图和符号,生成报表或标准的设计文档。

结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述检测单元具体用于:根据所述导入配置信息中的关键词对所述待转换文档数据进行定位,通过是否定位成功判断所述第二格式信息与所述配置信息中的所述第一格式信息是否一致。

结合第二方面的第一种可能的实现方式,在第三种可能的实现方式中,所述检测单元具体还用于:检测所述待转换文档数据是否包括不可为空的数据或者所述不可为空的数据是否填写,输入数据是否在规定的范围内,不可重复的内容是否存在重复等。

结合第二方面的第一种可能的实现方式,在第四种可能的实现方式中,所述检测单元具体还用于:当检测到所述第二格式信息与所述第一格式信息不一致时,将所述第二格式信息的错误信息及其在待转换文档中的具体位置写入错误日志,将所述错误日志发送给用户。

本发明实施例提供的数据处理方法及装置,通过抽象从所述结构化模型中抽取数据的常见取数逻辑,提供给用户报表配置功能,在不需要修改代码的情况下,通过调整配置表生成新的报表,简化了报表的定制过程,提高了定制报表的效率。本装置实现了标准文档到模型化数据的批量导入,避免了文档转换中工作量大,转换效率低,质量难以保证的缺点,节省了人力和物力。

附图说明

图1为本发明实施例提供的数据处理的方法流程图;

图2为本发明实施例提供的结构化模型数据生成报表文件的处理流程图;

图3为本申请另一种实施例提供的装置。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述,实施例并不构成对本发明实施例的限定。

本申请实施例提供的数据处理的方法,适用于处理标准的非结构化设计文档,但并不以此作为限制。

为了更好地理解本申请的优点,下面通过附图和详细的描述来介绍本申请的实施例。

图1为本申请一种实施例提供的数据处理的方法流程图100。该实施例的执行主体可以是服务器,所述数据处理的方法具体包括以下步骤:

步骤101,读取导入配置信息,抽取待转换文档数据,按照所述模型数据中的模型定义,形成中间文件。

所述导入配置信息包括第一格式信息和所述待转换文档数据与模型数据的映射关系。

这里的待转换文档数据可以是word文档数据,文档数据可以包括:标题、章节号、章节下相应的表格等。导入配置信息可以以表格的形式存储,可以包括以关键字的形式记录模板文档数据的标准格式信息即第一格式信息,例如:标题、章节号、章节下相应的表格、表格中的关键字、表格中的行数与列数、章节内包含关键字,章节下嵌入表格文件、表格文件中关键字、表格文件中的行数与列数。

导入配置信息还包括了模板文档数据与模型数据的映射关系,其中,模 型数据还包括模型定义与文档数据中数据的定义的包含关系以及关联关系。例如:word文档标准格式1.1章节下有一个表格,表格包含三列“联机服务ID”、“联机服务名称”、“对应交易服务名称”,其中“联机服务ID”、“联机服务名称”对应模型数据中的模型定义“联机服务”,而“交易服务名称”对应模型数据中的模型定义“交易服务”。

步骤102,检测所述待转换文档的第二格式信息与所述第一格式信息是否一致。

例如:导入配置信息表格中设置word文档标准格式为:1.1章节下有一个表格,表格包含三列“联机服务ID”、“联机服务名称”、“对应交易服务名称”。如果定位在文档数据的第二格式信息:1.1章节下没有找到表格或者表格包含的列数与配置信息要求的标准格式不一致,则文档数据的第二格式信息与所述第一格式信息不一致。反之,如果定位在文档数据的第二格式信息:1.1章节下存在有表格或者表格包含的列数与配置信息要求的标准格式一致,则文档数据的第二格式信息与所述第一格式信息一致。

可选地,根据导入配置信息中的关键词对待转换文档进行定位,通过是否定位成功判断第二格式信息与导入配置信息中的第一格式信息是否一致。

根据导入配置信息中的关键词对待转换文档进行定位,若定位成功,说明待转换文档的格式与导入配置信息中的格式一致,如果定位失败说明待转换文档的格式与配置信息中的标准格式不一致。

具体地,根据配置信息中的关键词对待转换文档进行定位,如果定位成功,则读取定位的文档数据,并判断读取的文档数据格式信息是否与导入配置信息中的第一格式信息一致。

在读取文档数据时,包括读取WORD文档的章节标题信息、标题下正文内容、章节下表格信息、读取WORD文档中嵌入EXCEL文件等信息。

可选地,检测所述待转换文档数据的第二格式信息与所述第一格式信息是否一致具体还包括:检测所述待转换文档是否包括不可为空的数据或者所 述不可为空的数据是否填写,输入数据是否在规定的范围内,不可重复的内容是否存在重复。

具体地,由于结构化的模型对数据有严格的要求,不符合要求的数据源将无法进行转换。内容检测包括不可为空的数据是否已经填写、输入数据是否在规定的取值范围内、不可重复的内容是否存在重复等。例如:结构化的模型中对于用户这个定义,其中“联机服务ID”不可为空、不可重复。检测文档数据的“联机服务ID”是否为空或者是否已被填写,或者是否重复。

步骤103,当检测到所述第二格式信息与所述第一格式信息不一致时,将所述第二格式信息的错误信息及其在待转换文档中的具体位置写入错误日志。

例如:如果文档数据在1.1章节下面的表格中没有填写“联机服务ID”或者填写的内容存在重复,数据将无法转换到结构化的模型中,此时会将这些错误信息以及错误位置信息写入错误日志,用户可根据提示的错误信息修改文档数据直到通过检测。

可选地,当检测到所述第二格式信息与所述第一格式信息不一致时,将所述第二格式信息的错误信息及其在待转换文档中的具体位置写入错误日志,将所述错误日志发送给用户。

步骤104,当检测到所述第二格式信息与所述第一格式信息一致时,对所述中间文件进行格式处理和拆分处理,并转换成与所述模型定义对应的CSV文件。

将中间文件进行格式处理包括对文档数据进行冗余数据删除、排序、合并等将数据格式化处理,将格式化处理后的数据按模型定义为单位拆分,再转换成与所述模型定义对应的CSV(Comma-Separated Values,简称CSV,中文:逗号分隔值)文件。

利用设置文档格式标准,可以将相同格式文档批量进行转换,从而避免手工对每一个文档进行转换的工作量,提高了转换的效率。

步骤105,将所述CSV文件导入结构化模型数据库。

从以标准格式文档作为交付件到以结构化模型作为交付件的转变过程中,建模工具提供了接口从结构化的模型中抽取数据,开发导出工具可以实现批量生成标准格式的文档和用户所需的管理报告。

可选地,图2是本申请实施例提供的结构化模型数据生成报表文件或设计文档的处理流程图200。参见图2,本申请实施例还包括:

步骤201,抽象并定义从所述结构化模型中抽取数据的常见取数逻辑类型。

步骤202,设置导出配置表信息,所述导出配置表信息包括:待生成报表适用的取数逻辑,报表的表头,报表各要素对应的模型定义及属性,报表的输入项以及输出项,或者是待生成设计文档的模板。

步骤203,读取并解析导出配置表信息,确定在所述模型数据中的取数范围和取数逻辑。

步骤204,根据所述取数范围和取数逻辑,读取相应的模型定义、图和符号,生成报表或标准的设计文档。

具体地,对于生成报表,配置表信息采用表格文档的格式保存,根据建模工具提供的接口的取数方式不同,将报表初步分类,分别记入不同取数方式对应的工作簿。例如:报表需要从模型定义“系统用例”中取得包含的模型定义“交易服务”,属于从当前定义取该定义引用的定义,这属于其中一种取数方式。配置表中将所有建模工具提供的取数方式都设置了相应的工作簿。打开建模工具连接结构化模型对应的数据库,若连接失败,如果用户请求生成报表时,建模工具打开失败或数据库连接失败,将提示错误信息,终止当前操作。若连接成功,需要生成报表时,用户发出请求,选择生成报表的范围。读取并解析导出配置表信息,根据读取到的导出配置表信息,确定在模型中取数范围与取数逻辑。利用建模工具中提供读取接口中所包括的类型,例如,取得当前模型定义,取得当前模型定义下所有属性等,收集接口 所提供的类型进行分类编码。根据导出配置表信息记录报表所需信息,判断取数属逻辑属于哪个分支,确定取数的范围和逻辑。根据解析出来的取数范围与取数逻辑,用建模工具提供接口读取模型数据,并将读取的模型数据封装;根据取数范围和取数逻辑,读取模型数据的模型定义、图和符号,并写入指定的报表文件。

通过设置导出配置表,以及对配置表信息的读取与解析,得到报表在结构化模型中的取数逻辑和范围,利用建模工具提供的接口读取报表所需数据,避免了每新增一个报表都需要进行程序开发,大大减少了开发的工作量。

图3为本申请另一种实施例提供的数据处理的方法流程图300。该实施例的执行主体可以是服务器,所述数据处理的方法具体包括以下步骤:

步骤301,读取导入配置信息,抽取待转换文档的数据,形成中间文件,所述导入配置信息包括第一格式信息和所述待转换文档的数据与模型数据的映射关系。

步骤302,检测所述待转换文档的第二格式信息与所述第一格式信息是否一致。

步骤303,检测所述待转换文档是否包括不可为空的数据或者所述不可为空的数据是否填写,输入数据是否在规定的范围内,不可重复的内容是否存在重复。

步骤304,当检测到所述第二格式信息与所述第一格式信息不一致时,将所述第二格式信息的错误信息及其在待转换文档中的具体位置写入错误日志,用以帮助用户修正文档。

步骤305,当检测到所述第二格式信息与所述第一格式信息一致时,对所述中间文件进行格式处理和拆分处理,并转换成与所述模型定义对应的CSV文件。

步骤306,将所述CSV文件导入结构化模型数据库。

步骤307,抽象并定义从所述结构化模型中抽取数据的常见取数逻辑类 型。

步骤308,设置导出配置表信息,所述导出配置表信息包括:待生成报表适用的取数逻辑,报表的表头,报表各要素对应的模型定义及属性,报表的输入项以及输出项,或者是待生成设计文档的模板。

所述导出配置表信息包括:待生成报表适用的取数逻辑,报表的表头,报表各要素对应的模型定义及属性,报表的输入项以及输出项,或者是待生成设计文档的模板;

步骤309,读取并解析导出配置表信息,确定在所述模型数据中的取数范围和取数逻辑。

步骤310,根据所述取数范围和取数逻辑,读取相应的模型定义、图和符号,生成报表或标准的设计文档。

进一步参考图3,作为对上述各图所示方法的实现,与上述提供的数据处理方法相对应,本申请实施例还提供了一种装置。

所述装置包括:抽取单元401,用于抽取待转换文档的数据4011和导入配置信息,形成中间文件,所述导入配置信息包括第一格式信息和所述待转换文档的数据与模型数据的映射关系;检测单元402,用于检测所述待转换文档的第二格式信息与所述第一格式信息是否一致;若不一致,则将所述第二格式信息的错误信息及其在待转换文档中的具体位置写入错误日志,若一致则执行转换单元403;转换单元403,用于将所述中间文件进行格式处理和拆分处理,并转换成与所述模型定义对应的CSV文件;导入单元404,用于将所述CSV文件导入结构化模型数据库。

可选地,该装置是转换装置,所述转换装置包含两个部分:第一部分包括用于将设计文档4011转换为模型所需的抽取单元、检测单元、转换单元和导入单元;第二部分包括用于将模型生成设计文档或管理报表的配置单元、解析单元和生成单元。

可选地,所述装置还包括:

定义单元405,用于抽象并定义从所述结构化模型中抽取数据的常见取数逻辑类型;配置单元406,用于设置导出配置表信息,所述导出配置表信息包括:待生成报表适用的取数逻辑,报表的表头,报表各要素对应的模型定义及属性,报表的输入项以及输出项,或者是待生成设计文档的模板;解析单元407,读取并解析导出配置表信息,确定在所述模型数据中的取数范围和取数逻辑;生成单元408,根据所述取数范围和取数逻辑,读取相应的模型定义、图和符号,生成报表或标准的设计文档。

可选地,所述检测单元402具体用于:

根据所述导入配置信息中的关键词对所述文档数据进行定位,通过是否定位成功判断所述第二格式信息与所述配置信息中的所述第一格式信息是否一致。

可选地,所述检测单元402具体还用于:

检测所述待转换文档是否包括不可为空的数据或者所述不可为空的数据是否填写,输入数据是否在规定的范围内,不可重复的内容是否存在重复。

可选地,所述检测单元402具体还用于:

当检测到所述第二格式信息与所述第一格式信息不一致时,将所述第二格式信息的错误信息及其在待转换文档中的具体位置写入错误日志,将所述错误日志发送给用户。

本发明实施例提供的数据处理方法及装置,通过抽象从所述结构化模型中抽取数据的常见取数逻辑,提供给用户自行配置信息,不需要增加和修改代码的情况下,通过调整配置表生成新的报表,简化了报表的定制过程,提高了定制报表的效率。从标准格式文档到结构化模型数据的转换,实现了标准文档到模型化数据的批量导入。避免了文档转换中工作量大,转换效率低,质量难以保证的缺点,节省了人力和物力。其中,结构化模型数据生成报表的过程,用户可以通过设置配置表的方式实现新报表的定制,而不需要修改代码,提高了新管理报表定制的效率。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明实施例的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明实施例的保护范围,凡在本发明实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1