一种数据规范化处理方法和系统的制作方法

文档序号:9375672阅读:394来源:国知局
一种数据规范化处理方法和系统的制作方法
【技术领域】
[0001] 本发明涉及计算机排版技术领域,尤其涉及一种数据规范化处理方法和系统。
【背景技术】
[0002] 目前,出版社把电子文件印刷成图书或刊物之前需要专业的编辑人员进行排版, 包括对文字、图片以及表格等进行排版。对于文字类的文档进行处理时,对于文档中的汉字 需要使用汉字字模库进行处理,但是对于文档中除了汉字之外的数据还没有规范化的处理 系统或数据库进行处理,特别是教材、教辅、科技图书等教科类图书常会出现大量的数据内 容,往往还会有单位包含特殊符号的内容。
[0003] 编辑人员在处理教辅或者科技类图书时,经常会遇到图书中存在大量的数据内 容,在对汉字进行规范化处理后,还需要对这些数据内容进行规范化。编辑人员往往需要投 入大量的时间和精力对这些数据内容进行逐一处理,其工作量大,周期长。
[0004] 根据上述,采用人工方式对文档中的数据进行规范化处理的过程中存在如下缺 点:人工手动处理数据费时费力,需编辑人员对文档逐行进行肉眼观察,导致处理速度过 慢,导致出版周期过长,直接降低了出版效率。同时编辑人员人工处理的速度慢,对于内容 较多、篇幅较长的文档需要多个编辑人员进行处理,需耗费大量的人力资源,导致企业处理 此类文档的成本升高。最重要的是,采用人工方法对文档中数据内容进行规范化处理还存 在较高的出错率,很有可能会由于编辑人员的疏忽出现漏掉未处理的数据。因此,如何提高 此类出版物的数据处理能力,减少编辑的工作量,快速地对文档数据进行规范化,成为当前 出版行业的重要问题。

【发明内容】

[0005] (一)要解决的技术问题
[0006] 针对上述缺陷,本发明要解决的技术问是如何快速对文档中的数据进行规范化处 理,节省人力。
[0007] (二)技术方案
[0008] 为解决上述问题,本发明提供了本发明提供了一种数据规范化处理方法,包括:
[0009] S1、根据文档类型创建关键词以及关键词类型;
[0010] S2、对文档中的数据内容进行搜索,并对获取的数据内容进行存储;
[0011] S3、对数据内容的位置进行定位,并对文档中与数据内容相关联的上下文进行提 取,得到上下文内容;
[0012] S4、根据关键词类型对上下文内容进行规范化处理。
[0013] 进一步地,步骤Sl根据文档类型创建关键词以及关键词类型之前还包括对文档 进行格式化处理,生成符合W3C标准的XML格式文件。
[0014] 进一步地,所述文档类型的确定具体包括:基于文档的语境对文档进行分类,确定 文档类型。
[0015] 进一步地,所述关键词类型包括单位数据类型和财务数据类型。
[0016] 进一步地,对文档中的数据内容进行搜索具体包括:根据API函数使用正则表达 式获取文档中的所有数据内容。
[0017] 进一步地,所述对文档中与数据内容相关联的上下文进行提取具体包括:
[0018] 根据数据内容的当前位置向前提取前一个分词的位置和内容,向后提取后一个分 词的位置和内容。
[0019] 进一步地,在步骤S3之后、步骤S4之前还包括:建立关键词类型与规范化处理模 块之间的映射关系,单位数据类型的上下文与单位数据处理模块相关联,财务数据类型的 上下文与财务数据处理模块相关联。
[0020] 进一步地,步骤S4进行规范化处理具体包括:
[0021] 根据关键词类型对上下文内容进行识别,并根据识别结果选择相关联的处理模块 进行规范化处理。
[0022] 为解决上述技术问题,本发明还提供了一种数据规范化处理系统,包括:
[0023] 分类模块,用于根据文档类型创建关键词以及关键词类型;
[0024] 数据查询模块,用于对文档中的数据内容进行搜索,并对获取的数据内容进行存 储;
[0025] 上下文提取模块,用于对数据内容的位置进行定位,并对文档中与数据内容相关 联的上下文进行提取,得到上下文内容;
[0026] 处理模块,用于根据关键词类型对上下文内容进行规范化处理。
[0027] 进一步地,还包括映射关系模块,用于建立关键词类型与规范化处理模块之间的 映射关系,单位数据类型的上下文与单位数据处理模块相关联,财务数据类型的上下文与 财务数据处理模块相关联。
[0028] 进一步地,还包括识别模块,用于根据分类模块得到的关键词类型对上下文提取 模块得到的上下文内容进行识别,并根据识别结果选择相关联的处理模块进行处理。
[0029] 进一步地,所述处理模块包括单位数据处理模块和财务数据处理模块,单位数据 处理模块用于对单位数据类型的内容进行处理,财务数据处理模块用于对财务数据类型的 内容进行处理。
[0030] (三)有益效果
[0031] 本发明提供了一种数据规范化处理方法和系统,其中处理方法包括:根据文档类 型创建关键词以及关键词类型;对文档中的数据内容进行搜索,并对获取的数据内容进行 存储;对数据内容的位置进行定位,并对文档中与数据内容相关联的上下文进行提取,得到 上下文内容;根据关键词类型对上下文内容进行规范化处理。采用本发明所述的方法,解决 了现有技术中人为对数据进行规范化处理效率低下的问题,从而大大提高编辑处理文档的 效率,在节约成本的同时保证较高的准确率。
【附图说明】
[0032] 图1为本发明实施例一提供的一种数据规范化处理方法的步骤流程图;
[0033] 图2为本发明实施例一中以处理Word文档为例的最优方案的流程图;
[0034] 图3为本发明实施例二中提供的一种数据规范化处理系统的组成示意图。
【具体实施方式】
[0035] 下面结合附图和实施例,对本发明的【具体实施方式】作进一步详细描述。以下实施 例用于说明本发明,但不用来限制本发明的范围。
[0036] 实施例一
[0037] 本发明实施例一提供了一种数据规范化处理方法,步骤流程图如图1所示,具体 包括以下步骤:
[0038] 步骤S1、根据文档类型创建关键词以及关键词类型。
[0039] 步骤S2、对文档中的数据内容进行搜索,并对获取的数据内容进行存储。
[0040] 步骤S3、对数据内容的位置进行定位,并对文档中与数据内容相关联的上下文进 行提取,得到上下文内容。
[0041] 步骤S4、根据关键词类型对上下文内容进行规范化处理。
[0042] 本实施例提供的数据规范化处理方法,通过对数据内容的上下文进行提取以及对 文档类型进行分类的处理,从而快速实现文档中数据内容的规范化处理,解决现有技术中 人工处理低效率、出错率高的问题。
[0043] 进一步地,步骤Sl中根据文档类型创建关键词以及关键词分类库之前还包括对 文档进行格式化处理,生成符合W3C标准的XML格式文件。
[0044] 进一步地,步骤Sl中文档类型的确定具体包括:基于文档的语境对文档进行分 类,确定文档类型。
[0045] 进一步地,步骤Sl中关键词类型包括单位数据类型和财务数据类型。
[0046] 进一步地,步骤S2中对文档中的数据内容进行搜索具体包括:根据API函数使用 正则表达式获取文档中的所有数据内容。
[0047] 进一步地,步骤S3中对文档中与数据内容相关联的上下文进行提取具体包括:
[0048] 根据数据内容的当前位置向前提取前一个分词的位置和内容,向后提取后一个分 词的位置和内容。
[0049] 进一步地,在步骤S3之后、步骤S4之前还包括:
[0050] 步骤S3'、建立关键词类型与规范化处理模块之间的映射关系,单位数据类型的上 下文与单位数据处理模块相关联,财务数据类型的上下文与财务数据处理模块相关联。
[0051 ] 进一步地,步骤S4进行规范化处理具体包括:
[0052] 根据关键词类型对上下文内容进行识别,并根据识别结果选择相关联的处理模块 进行规范化处理。
[0053] 基于上述,本实施例中以最为常见的Word文档为举例文档对象,具体以单位数据 规范化以及财务数据规范化为具体实施例,上述步骤可细化为下列步骤:
[0054] 步骤101、首先定义关键词并对关键词进行分类确定不同的关键词类型,即通过分 类模块采用XML对文档类型进行区分,对关键词以及关键词类型进行定义,具体定义内容 如下:
[0055]
[0056]
[0057] 上述Type节点:定义了关键词的类型,name属性定义了分类的名称。
[0058] 〈type name = 〃unit〃>定义了规范化的单位数据类型,当检索上下文中含有kg, g等单位时对数据内容进行处理。
[0059] 〈type name = "finance"〉定义了规范化的财务数据类型,当检索上下文中含有 人民币或者美元符号的时候进行处理。
[0060] Key节点:定义了关键词的名称,例如本实施例中定义的单位数据类关键词有kg, g,km,m,cm ;定义的财务数据类型关键词有美元符号$和人民币符号Y。
[0061] 需要说明的是,本实施例中只是以单位数据和财务数据作为数据内容的两种类型 为例,定义的两类关键词也只是举例说明,但是并不表明对本实施例处理方法中数据类型 的限定。
[0062] 步骤201、创建数据查询模块,对文档中的数据内容进行搜索,并对获取的数据内 容进行存储。本实例中处理Word文档时采用Office提供的API函数,即Find函数,使用 正则表达式可以获取文档中的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1