一种水质基准计算的数据提取方法_2

文档序号：9616254阅读：来源：国知局

分类系数表；用户分类系数表是个动态的数据源，根据用户的被检索情况可由触发器进行更新。
[0031] (6))用户通过用户终端确定计算目的，在水质基准计算时，可使用三种方法进行数据提取：人工检索提取、半自动检索提取、全自动检索提取。
[0032] (7)人工检索提取，是用户根据自身的学术经验、科研目的或其它情况，手工选择参与计算的数据源。系统根据用户的选择确定四个维度：用户常用于计算的数据，用户计算方向的类别，用户选择数据的等级，用户计算结果的使用率，将用户的维度映射到分类体系结构中。系统根据用户维度，进行权重调节并计算，把结果存储至用户数据细节层。
[0033] (8)半自动检索提取，用户手工选择部分参与计算的数据源后；系统根据本次计算目的，对人工选择的记录集，进行自动验证，屏蔽或剔除类型不符合、目的不符合、来源不符合、层次不符合的数据源；系统启用提取方法；提取数据与用户数据汇集后进行计算。
[0034] (9)全自动检索提取，系统根据本次计算目的，系统启用提取方法，提取数据自动进行计算。
[0035] (10)提取算法
[0036] 首先根据水质环境数据中已定义的主外键关联、动态属性关联、级别识别关联，采用SQL传统模式进行查询提取。在传统模式上应用进行优化，支持列剪权、属性合并方法，能减少读取不必要的属性列和数据传输。
[0037] 然后在表关联提取的基础上，增加用户维度比拟，并实时更新用户数据细节层。。
[0038] 维度比拟是针对用户四个维度进行比拟的计算。维度系数R，维度个数n，每项维度值用X表示，c是微调参数，sm是参与计算总次数，sa是当前用户数据计算总次数。
[0039]
[0040] 计算出的维度比拟值R，存储于用户维度表。
[0041] 最后将SQL模式查询出的记录，维度比拟度较高的记录存储于临时表中，分别赋予相同的初始正负系数值，进行两轮计算，一轮正数计算，一轮负数计算，然后正负相减能到F值，根据F判断记录的可信度，记录的初始可信参数是0. 85,然后给每条记录赋维度比拟值R(用户1，用户2，……）组成的组合权重。每条记录都有独立的权重，通过叠加计算，生成新的权重调节，并对每条记录进行更新，然后再进行新一轮大迭代，针对本次计算目的，得到新的可信参数。对可信参数进行排序，采用数量函数提取可信度高的数据集。
[0042] 报取代码如下：
[0043]
[0044] LUU畔3」
[0046_
[0047]
[0048] (11)每当有用户使用新的提取、更新、验证，这些操作就作为新记录进入用户数据细节队列。
[0049] 以上所述的仅是本发明的优选实施方法，本发明不限于以上实施。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。
【主权项】
1. 一种水质基准计算的数据提取方法，包括水质基准计算，其特征在于： (1)水质基准计算的数据提取方法包括如下步骤： (1-1)组建数据提取系统框架，系统框架由数据库服务器、应用服务器、用户终端、路由器、网线组成。数据库服务器作为数据仓库存储数据；应用服务器部署中间件，执行数据提取操作的应用程序；用户终端提供给用户/管理员上传数据、计算数据、下载数据等；路由器和网线用于连接数据库服务器、应用服务器、用户终端； (1-2)数据库服务器的数据来源于用户终端的传递，用户终端可以是管理员或者科研用户等。用户终端把数据提交给应用服务器，应用服务器根据验证逻辑进行数据检验，并将数据提取进入数据筛选单元，应用程序根据数据类别、数据格式、数据范值、数据精度进行对比，加工成符合规范的模式数据； (1-3)应用服务器将经过规范化处理的数据导入数据库服务器； (1-4)应用服务器根据水生生物、沉积物、毒性数据、人体健康等业务关系逻辑，建立关联模型表。并将数据存储转换为列式存储，方便SQL查询与提取； (1-5)水质环境数据应用目前面向与开放的是各高校、科研单位的用户，管理员对邀请、主动申请、主动授权的用户进行检验。系统根据用户分类情况，自动评分，并存储于用户分类系数表； (1-6)用户通过用户终端确定计算目的，在水质基准计算时，可使用三种方法进行数据提取：人工检索提取、半自动检索提取、全自动检索提取； (1-7)人工检索提取，是用户根据自身的学术经验、科研目的或其它情况，手工选择参与计算的数据源。系统根据用户的选择确定四个维度：用户常用于计算的数据，用户计算方向的类别，用户选择数据的等级，用户计算结果的使用率，将用户的维度映射到分类体系结构中。系统根据用户维度，进行权重调节并计算，把结果存储至用户数据细节层； (1-8)半自动检索提取，用户手工选择部分参与计算的数据源后；系统根据本次计算目的，对人工选择的记录集，进行自动验证，屏蔽或剔除类型不符合、目的不符合、来源不符合、层次不符合的数据源；系统启用提取方法；提取数据与用户数据汇集后进行计算； (1-9)全自动检索提取，系统根据本次计算目的，系统启用提取方法，提取数据自动进行计算； (1-10)提取算法首先根据水质环境数据中已定义的主外键关联、动态属性关联、级别识别关联，采用SQL传统模式进行查询提取；然后在表关联提取的基础上，增加用户维度比拟，并实时更新用户数据细节层；最后将SQL模式查询出的记录，维度比拟度较高的记录存储于临时表中，分别赋予相同的初始正负系数值，进行两轮计算，一轮正数计算，一轮负数计算，然后正负相减能到F 值，根据F判断记录的可信度，记录的初始可信参数是0. 85,然后给每条记录赋维度比拟值 R(用户1，用户2,……）组成的组合权重。每条记录都有独立的权重，通过叠加计算，生成新的权重调节，并对每条记录进行更新，然后再进行新一轮大迭代，针对本次计算目的，得到新的可信参数。对可信参数进行排序，采用数量函数提取可信度高的数据集； (1-11)每当有用户使用新的提取、更新、验证，这些操作就作为新记录进入用户数据细节队列。
【专利摘要】本发明公开一种水质基准计算的数据提取方法，包括水质基准计算的数据提取具体步骤。本方法结合传统SQL查询模式形成新的提取方案，可以方便有效的提取目标数据，为应用、标准化提供数据支撑。数据提取方法可进行可视化定制，可用于CS、BS架构，也可用于数据服务接口，为水环境基准研究提供技术支持。
【IPC分类】G06F17/30, G06Q50/06
【公开号】CN105373535
【申请号】CN201410401124
【发明人】李江, 李青香, 罗吴亮, 周浩, 刘征涛, 杨绍贵, 闫振广
【申请人】南京集艾思软件科技有限公司
【公开日】2016年3月2日
【申请日】2014年8月15日

完整全部详细技术资料下载

当前第2页1 2