一种数据规范化处理方法和系统的制作方法_2

文档序号：9375672阅读：来源：国知局

所有数据内容，并将获取到的数据内容存储在一个数据容器之中，具体代码函数如下：
[0063] MSfford. Find findDot = rDot. Find ；
[0064] findDot. ClearFormatting ()；
[0065] findDot. Text = "[。、·]";
[0066] findDot. Replacement. ClearFormattingO ；
[0067] find Dot. Replacement. Text = "·〃；
[0068] object replace Type = MSfford. WdReplace. wdReplaceAlI ；
[0069] object objMatchffildcards = true ；
[0070] bool isOk = findDot. Execute (ref missingEx, ref missingEx, ref missingEx, ref objMatchffildcards, ref missingEx, ref missingEx, ref missingEx, ref missingEx,ref missingEx, ref missingEx, ref replaceType, ref missingEx, ref missingEx,ref missingEx, ref missingEx)；
[0071] 步骤301、创建上下文提取模块，用于根据数据查询模块确定的数据内容提取与其关联的上下文。本实例中中，根据数据查询获取到当前数据内容所在文档中的位置，根据该数据内容的位置向前计算出前一个分词的位置及内容，并进行记录，向后计算出后一个分词的位置及内容，并记录。
[0072] 步骤401、根据业务需要创建对应的处理模块。本实施例中，为单位数据和财务数据分别创建一个对应的处理模块，即：
[0073] 单位数据处理模块：如果数据内容后紧跟着的内容为单位，如kg、g、km、m、cm等度量衡单位。针对上述Word文档，核心编码如下：
[00~1
[0075] CN 105095284 A 卩兀 P月卞ι 6/10 页
[00

} }
[0078] 财务数据处理模块：如果数据内容前紧跟着的内容为人民币符号或美元符号，则为此类数据进行处理，每隔千位增加十分之一空格或者逗号等财务分隔符号。针对word文档，核心代码如下：
[00 ^
[0080]
[0081] 通过上述规范化处理可以实现对Word文档中例如Y2999到Y2, 999类似的规范化处理。
[0082] 步骤501、建立处理模块与关键词类型之间的映射关系表，采用XML标准格式进行描述，供识别模块进行访问，选择对应的处理模块，数据定义格式如下：
[0083]
[0084] 其中Module代表一个处理模块，id = 〃modulel〃type = 〃unit〃的模块表不单位数据处理模块同规则中的unit类型规则关联。id = 〃module2〃type = "finance〃的模块表示财务数据处理模块同规则中的finance类型规则关联。
[0085] 步骤601、建立识别模块，根据上下文内容自动选择相对应的处理模块进行数据规范化处理。识别模块通过读取步骤301获取到对应数据的上下文关系，通过匹配步骤501 创建的映射关系表，选择对应处理模块完成数据处理。以上处理流程如图2所示。
[0086] 综上所述，利用本实施例提供的数据规范化处理方法，对数据内容的上下文进行提取，并对文档内容进行分类，同时创建关键词类型以及不同类型的关键词，最后根据关键系类型与处理模块之间的对应关系选择对应的处理模块进行规范化处理，可以快速对数据内容进行规范化处理，解决当前人工处理造成的出错率高以及处理效率较低的问题，降低人工成本。
[0087] 实施例二
[0088] 本发明实施例二还提供了一种数据规范化处理系统，组成示意图如图3所示，包括：
[0089] 分类模块01，用于根据文档类型创建关键词以及关键词类型；
[0090] 数据查询模块02,用于对文档中的数据内容进行搜索，并对获取的数据内容进行存储；
[0091] 上下文提取模块03,用于对数据内容的位置进行定位，并对文档中与数据内容相关联的上下文进行提取，得到上下文内容；
[0092] 处理模块04,用于根据关键词类型对上下文内容进行规范化处理。
[0093] 进一步地，还包括映射关系模块05,用于建立关键词类型与进行规范化处理的处理模块04之间的映射关系，单位数据类型的上下文与单位数据处理模块相关联，财务数据类型的上下文与财务数据处理模块相关联。
[0094] 进一步地，还包括识别模块06,用于根据分类模块01得到的关键词类型对上下文提取模块03得到的上下文内容进行识别，并根据识别结果选择相关联的处理模块05进行处理。
[0095] 进一步地，处理模块04包括单位数据处理模块041和财务数据处理模块042,单位数据处理模块041用于对单位数据类型的内容进行处理，财务数据处理模块042用于对财务数据类型的内容进行处理。
[0096] 本实施例中的数据规范化处理系统能够实现上述实施一相同的技术效果，此处不再赘述。
[0097] 以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。
【主权项】
1. 一种数据规范化处理方法，其特征在于，包括： 51、根据文档类型创建关键词以及关键词类型； 52、对文档中的数据内容进行搜索，并对获取的数据内容进行存储； 53、对数据内容的位置进行定位，并对文档中与数据内容相关联的上下文进行提取，得到上下文内容； 54、根据关键词类型对上下文内容进行规范化处理。2. 如权利要求1所述的数据规范化处理方法，其特征在于，步骤Sl根据文档类型创建关键词以及关键词类型之前还包括对文档进行格式化处理，生成符合W3C标准的XML格式文件。3. 如权利要求2所述的数据规范化处理方法，其特征在于，所述文档类型的确定具体包括：基于文档的语境对文档进行分类，确定文档类型。4. 如权利要求1所述的数据规范化处理方法，其特征在于，所述关键词类型包括单位数据类型和财务数据类型。5. 如权利要求1所述的数据规范化处理方法，其特征在于，步骤S2中对文档中的数据内容进行搜索具体包括：根据API函数使用正则表达式获取文档中的所有数据内容。6. 如权利要求1所述的数据规范化处理方法，其特征在于，步骤S3中对文档中与数据内容相关联的上下文进行提取具体包括：根据数据内容的当前位置向前提取前一个分词的位置和内容，向后提取后一个分词的位置和内容。7. 如权利要求6所述的数据规范化处理方法，其特征在于，在步骤S3之后、步骤S4之前还包括：建立关键词类型与规范化处理模块之间的映射关系，单位数据类型的上下文与单位数据处理模块相关联，财务数据类型的上下文与财务数据处理模块相关联。8. 如权利要求7所述的数据规范化处理方法，其特征在于，步骤S4进行规范化处理具体包括：根据关键词类型对上下文内容进行识别，并根据识别结果选择相关联的处理模块进行规范化处理。9. 一种数据规范化处理系统，其特征在于，包括：分类模块，用于根据文档类型创建关键词以及关键词类型；数据查询模块，用于对文档中的数据内容进行搜索，并对获取的数据内容进行存储；上下文提取模块，用于对数据内容的位置进行定位，并对文档中与数据内容相关联的上下文进行提取，得到上下文内容；处理模块，用于根据关键词类型对上下文内容进行规范化处理。10. 如权利要求9所述的数据规范化处理系统，其特征在于，还包括映射关系模块，用于建立关键词类型与规范化处理模块之间的映射关系，单位数据类型的上下文与单位数据处理模块相关联，财务数据类型的上下文与财务数据处理模块相关联。11. 如权利要求9所述的数据规范化处理系统，其特征在于，还包括识别模块，用于根据分类模块得到的关键词类型对上下文提取模块得到的上下文内容进行识别，并根据识别结果选择相关联的处理模块进行处理。12. 如权利要求11所述的数据规范化处理系统，其特征在于，所述处理模块包括单位
【专利摘要】本发明提供了一种数据规范化处理方法和系统，其中处理方法包括：根据文档类型创建关键词以及关键词类型；对文档中的数据内容进行搜索，并对获取的数据内容进行存储；对数据内容的位置进行定位，并对文档中与数据内容相关联的上下文进行提取，得到上下文内容；根据关键词类型对上下文内容进行规范化处理。该方法利用文档中所有数据内容提取与数据字内容相关的上下文，并结合文档类型创建关键词及关键词类型，通过根据关键词类型对上下文内容进行相应的规范化处理，从而自动完成数据的规范化。采用本发明所述的方法，解决了现有技术中人为对数据进行规范化处理效率低下的问题，从而大大提高编辑处理文档的效率，在节约成本的同时保证较高的准确率。
【IPC分类】G06F17/25, G06F17/30
【公开号】CN105095284
【申请号】CN201410203176
【发明人】杨勇
【申请人】北大方正集团有限公司, 北京北大方正电子有限公司
【公开日】2015年11月25日
【申请日】2014年5月14日

完整全部详细技术资料下载

当前第2页1 2