源处的数据收集和清洗的制作方法

文档序号:9564654阅读:339来源:国知局
源处的数据收集和清洗的制作方法
【专利说明】
[0001] 背景
技术领域
[0002] 本发明的实施方案一般来说涉及数据收集,且明确地说涉及用于动态地定义数据 结构并检测较靠近数据源的错误的数据收集,以及校正错误的数据或限制其进一步使用的 系统和方法。
[0003] 发明背景
[0004] 移动健康("mHealth")是用于由诸如移动电话、病人监测装置、个人数字助理 (PDA)和其它移动或无线装置等通信终端支持的医疗和公共健康实践的术语。mHealth涉 及使用语音和短消息服务(SMS)以及较复杂的技术,诸如移动数据通信系统(例如,3G、4G、 4GLTE等)、全球定位系统(GPS)和蓝牙技术。
[0005] 移动应用程序(或移动app)是被设计成在智能电话、平板计算机和其它移动装置 上运行的软件应用程序。一些移动app用以将敏感的个人信息(诸如保健信息)递送至消 费者,或从消费者搜集健康状态信息并将健康状态信息发送至保健提供者。并非与敏感的 个人信息的交换相关的所有移动app (例如,在保健方面已开发的应用程序)都广泛地对 消费者可用。大多数先进的医疗app中的一些未必设计成针对一般消费者。一些移动app 已为保健医生而设计,其它移动app是针对病人设计但需要处方,且另外的移动app希望仅 用于病人中的一小部分。如本文中所使用,术语"移动app"或"移动应用程序"可包含在 PC(例如,台式计算机、塔式计算机、膝上型计算机、上网本等)或其它通用消费者-计算装 置(不限于移动装置,除非移动性提供所陈述的益处或除非另外受使用环境清楚地限制) 上执行的应用程序。
[0006] 信息系统(诸如,用于保健的系统)可产生和使用在多个源(诸如,移动应用程 序、台式计算机应用程序、网络应用程序等等)处收集的电子数据。电子数据天生容易出现 数据录入错误,不管数据是人工地还是通过传感器读数录入的。举例来说,人工地录入的电 子数据可包含键入错误(例如,错误地键入的数字、互换位置的数字、遗漏的数字、重复键 盘输入、非数字键盘输入、放错位置的小数点等)。电子传感器读数可遭遇传感器故障(例 如,输出所有零或一些其它无效代码)、传感器错位或移位、通信线故障、来自环境的不适当 的影响(例如,温度效应、振动或RF干扰)、时基不准确等。数据录入错误需要校正或移除, 使得仅使用值得信任的数据(即,大体上无错误或具有可忽略的残留误差的电子数据)来 做出分析和决定。数据也应该是有意义的,即,大体上详尽的或全面的,诸如通过按照情形 指定而包含统计上重要的取样,或基本过程的完整循环,或类似物。值得信任和有意义的电 子数据(即,足够可靠和足够完整以被作用于的信息)是可被分析且用以做出和支持决定 的可起作用的信息。
[0007] 用于将数据转换为可起作用的信息的目前已知的过程需要多个步骤,昂贵并耗时 且经常导致不完整或不准确的数据。第一问题在于当(如大多数例子中)数据中的至少一 些在某一方面(诸如,因不完整、不准确或含有垃圾元素)无效时将数据转换为可起作用的 信息是非常昂贵的。将所收集的数据发送至清洗点,例如处理系统,在那里人工的或半自动 系统可用以检测可疑的无效数据,并标记、校正和/或移除可疑的无效数据。当具有这些类 型的缺陷的数据经历清洗过程时,所得信息仍可能含有间隙、不准确性和/或另外无效的 信息。
[0008] 第二问题在于常规数据清洗过程是耗时的且通常使用成批处理完成,且不可获得 数据源来提供校正。举例来说,首先必须收集数据,接着将数据发送至服务器以用于清洗。 使用成批处理使得在计算容量较不可能需要用于诸如用户支持等其它任务时可在切断时 段期间完成清洗过程,或使得可在信息源不进一步注意过程的情况下提交清洗工作。
[0009] 常规技术的第三问题是关于可处理结构化数据和执行其数据源的简单验证的应 用程序。此些应用程序通常使用正规表达式(如在其计算机科学意义上已知的)以防止用 户录入错误的数据,或提供防止用户录入不切实际的信息(例如,高于500mmHg的血压)的 信息限制。关于此常规技术的问题在于较复杂的相关的或从属的数据情形需要其它类型的 验证,这通过正规表达式不易于管理。对于复杂的数据验证,应用程序将需要将所收集的数 据发送至后端服务器以用于质量控制处理和管理,这将是复杂的且耗时的过程。
[0010] 常规技术的第四问题在于应用程序开发者通常在其应用程序中对特定数据结构 或验证规则(也称作数据一致性规则)进行硬编码以用于特定使用状况。之后,如果数据 结构改变或如果数据验证规则改变,那么应用程序源代码必须改变且应用程序的新版本必 须分配至用户库。用户将需要下载和安装应用程序的新版本以得到最近的改变。继续使用 应用程序的较旧版本的用户可能引入错误的数据或不会另外通过大多数最近的数据验证 规则的数据。
[0011] 已知的【背景技术】不能即时地更新其数据结构和质量规则。已知的【背景技术】需要针 对每一更新改变应用程序的源代码,且用户需要下载每一更新版本,这是难使用的且不方 便,且如果用户能够推迟或拒绝应用程序的更新版本的下载和安装可能易于出现关于数据 质量的连续问题。
[0012] 此外,已知的【背景技术】通常在服务器端执行数据质量处理(例如,数据清洗),尤 其是对于复杂的数据。因此,在应用程序处收集终端用户数据且接着将其发送至应用程序 服务器以用于成批处理。这是耗时的、成本高的且其不会良好地适合于交互模型。
[0013] 因此,存在改进较靠近数据源的数据验证的需要,以便提供较值得信任和可起作 用的信息来支持决定做出、源处的数据清洗以及最终提供改进的和客户满意。 发明概要
[0014] 根据本公开的实施方案通过使用以下特征中的一者或多者而实现数据源处的较 高质量的数据的收集:运行时间时的数据结构遵守;运行时间时的数据质量控制遵守;运 行时间时的规则引擎配置;以及适应性规则集。与【背景技术】的已知系统相比,实施方案关于 数据收集提供增加的速度、准确性和减少的成本。
[0015] 根据本公开的实施方案提供并利用实现为应用程序接口(API)模块的一般在线 可配置进程的集合,以便实现可在一般在线可配置进程的初始化期间配置的数据结构和数 据验证规则的管理。实施方案仅验证符合在运行时间进程的初始化期间配置的数据结构和 数据验证规则的文档或数据。
[0016] 根据本公开的实施方案通过实施导致在源处录入的数据的质量控制的数据结构 和用于信息管理的规则来简化数据转换过程。
[0017] 在一个实施方案中,一种清理数据的设备包括:接收器,其用于收集将要清理的电 子数据;处理器,其耦接至所述接收器,所述处理器被配置用来接收由所述接收器收集的所 述数据;存储器,其耦接至所述处理器,所述存储器被配置用来存储应用程序;通向实例化 模块的第一接口,所述实例化模块处理由所述接收器收集的数据;以及通向配置管理器模 块的第二接口,所述配置管理器模块被配置用来控制由所述实例化模块用来处理数据的结 构和规则,其中所述第一接口和所述第二接口可从所述应用程序调用以清理由所述接收器 收集的所述数据。
[0018] 在一个实施方案中,一种清理数据的方法包括:提供包括耦接至存储器的处理器 的设备,所述存储器被配置用来存储应用程序;通过耦接至处理器的接收器收集将要清理 的电子数据;通过使用第一接口以通过所述处理器执行实例化模块来处理由所述接收器收 集的数据;通过使用第二接口以通过所述处理器执行配置管理器模块来控制由所述实例化 模块用来处理数据的结构和规则;其中所述第一接口和所述第二接口可从所述应用程序调 用以清理由所述接收器收集的所述数据。
[0019] 前述内容是本公开的实施方案的简化总结以提供对本公开的一些方面的理解。此 总结既不是本公开和其各种实施方案的广泛的也不是详尽的概述。其既不希望识别本公开 的关键的或至关重要的元素,也不希望描绘本公开的范围,而是以简化的形式呈现本公开 的所选择的概念以作为下文呈现的较详细的描述的介绍。如将了解,本公开的其它实施方 案是可能的,其单独地或组合地利用上文阐述或下文详细描述的特征中的一者或多者。
[0020] 附图简述
[0021] 在考虑本发明的实施方案的以下详细描述后,尤其在结合附图进行时,本发明的 以上和又进一步特征和优点将变得显而易见,在附图中各图中的相似的参考数字用以指代 相似的组件,且其中:
[0022] 图1说明根据本发明的实施方案的示范性配置文件;
[0023] 图2说明根据本公开的实施方案的处于相对高的模块化抽象层的系统;
[0024] 图3A说明根据本公开的实施方案的处于相对高的硬件抽象层的系统;
[0025] 图3B说明根据本公开
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1