源处的数据收集和清洗的制作方法_2

文档序号:9564654阅读:来源:国知局
的另一实施方案的处于相对高的硬件抽象层的系统;
[0026] 图4说明根据本公开的实施方案的通过服务器使用系统的过程;以及
[0027] 图5说明根据本公开的实施方案的通过移动装置使用系统的过程。
[0028] 本文中所使用的标题仅用于组织目的,且不意味着用以限制描述或权利要求的范 围。如本申请案全文中所使用,词语"可"是以准许的意义使用(即,意味着具有可能),而 不是强制意义(即,意味着必须)。类似地,词语"包含"意味着包含但不限于。为了促进理 解,在可能的地方已使用相似的参考数字来指代图中共同的相似元件。除非使用环境另外 指示,否则可使用虚线或点线来说明图中的任选部分。
【具体实施方式】
[0029] 下文将结合示范性通信系统来说明本公开。尽管非常适合与例如使用服务器和/ 或数据库的系统一起使用,但本公开不限于与任何特定类型的通信系统或任何特定配置的 系统元件一起使用。本领域技术人员将认识到,所公开的技术可在任何通信应用中使用,其 中需要提供较可起作用的数据收集。
[0030] 还将相对于软件、模块和相关联的硬件描述本公开的示范性系统和方法。然而,为 了避免不必要地混淆本公开,以下描述省略可以框图形式展示的、众所周知的或另外概括 的众所周知的结构、组件和装置。
[0031 ] 在以下详细描述中,阐述众多特定细节以便提供对本文中描述的实施方案或其它 实施例的透彻理解。在一些例子中,未详细描述众所周知的方法、程序、组件和电路,以防混 淆以下描述。另外,所公开的实施例仅用于示范性目的且可代替或结合所公开的实施例而 使用其它实施例。还应注意,本文中呈现的实施例不应解释为限制本发明的实施方案的范 围,因为其它同样有效的实施例是可能的和合理的。
[0032] 如本文中所使用,术语"模块"一般指步骤、过程或组件的逻辑序列或关联。举例 来说,软件模块可包括计算机程序内的相关联的例程或子例程的集合。或者,模块可包括大 体上独立的硬件装置。模块还可包括过程的逻辑集合,而与任何软件或硬件实现方式无关。
[0033] 如本文中所使用,术语"网关" 一般可包括在装置之间发送和接收数据的任何装 置。举例来说,网关可包括路由器、交换器、网桥、防火墙、其它网络元件和类似物,和其任何 组合。
[0034] 如本文中所使用,术语"传输器"一般可包括能够传输信号的任何装置、电路或设 备。如本文中所使用,术语"接收器"一般可包括能够接收信号的任何装置、电路或设备。如 本文中所使用,术语"收发器"一般可包括能够传输和接收信号的任何装置、电路或设备。如 本文中所使用,术语"信号"可包含电信号、无线电信号、光信号、声信号等等中的一者或多 者。
[0035] 如本文中所使用,术语"应用程序容器"一般可指可托管和支持若干应用程序配置 的使用的移动应用程序。每一配置描述与应用程序相关的GUI外观、应用程序流程、逻辑和 数据。容器可以被识别为第一配置的一个配置启动。第一配置可允许用户选择将要使用的 其它配置。
[0036] 如本文中所使用的术语"计算机可读媒体"指参与存储和/或提供指令至处理器 以供执行的任何有形的非暂时存储和/或传输媒体。此媒体可采用许多形式,包含但不限 于非易失性媒体、易失性媒体和传输媒体。非易失性媒体包含(例如)NVRAM或磁盘或光 盘。易失性媒体包含动态存储器,诸如主存储器。计算机可读媒体的一般形式包含(例如) 软盘、软磁盘、硬盘、磁带,或任何其它磁性媒体、磁性-光学媒体、CD-ROM、任何其它光学媒 体、穿孔卡片、纸带、具有孔图案的任何其它物理媒体、 储卡的固态媒体、任何其它存储芯片或存储盒、如下文描述的载波,或计算机可从其读取的 任何其它媒体。电子邮件的数字文件附件或其它独立的信息档案或档案的集合被视为等效 于有形的存储媒体的分配媒体。当计算机可读媒体被配置为数据库时,应理解数据库可以 是任何类型的数据库,诸如相关的、分级的、面向对象的和/或类似的。因此,本公开被视为 包含有形的存储媒体或分配媒体和现有技术辨识的等效物和后继媒体,其中存储了本公开 的软件实现方式。
[0037] 根据本公开的实施方案提供并利用实现为应用程序接口(API)模块的一般可配 置进程的集合,以在运行时间实现未知数据结构和验证规则的管理。并入实施方案的应用 程序将仅在文档或数据符合初始化进程期间定义的数据结构和验证规则集时接受文档或 数据。
[0038] 根据本公开的实施方案可适合于在多种目标计算平台(例如,智能电话、平板电 脑、膝上型计算机、上网本、其它移动装置、台式计算机等)上执行,这在下文在图3A和3B 的上下文中较详细地进行描述。一般可配置进程(诸如,数据API、规则API、规则引擎等 等)可以用于目标计算平台的本机代码编写。本机代码称作计算机编程代码,其经编译以 借助特定处理器和其指令集(例如,机器代码)直接运行。一般可配置进程可经封装以用 于分配至目标计算平台以作为一般应用程序("app")容器的组件、新的数据结构和规则, 或对现有数据结构和规则的改变。一般可配置进程可实现而无需改变或更新一般app容器 的源代码。
[0039] 根据本公开的实施方案使得不同应用程序能够使用共享的类型的数据结构来收 集源处的结构化信息集。结构化信息集将具有较高质量(例如,较值得信任和有意义)且 组织良好(例如,拥有类似的和一致的结构),同时减少清理所收集的数据以便从所收集的 数据获得可起作用的信息所需的步骤的数目。数据的清理指不受信任的数据的识别和校正 或移除,不受信任的数据例如包含重要错误的数据或当知道未知条件对于规范化、补偿、校 正或类似物的目的将为重要的时在那些未知条件下搜集的数据。可能不重要的错误的实施 例是在传感器或计时器的通常的容限或准确性内变化的测量,或统计取样误差。可能重要 的错误的实施例是包含由来自环境的影响(例如,温度效应、振动或RF干扰)引起的相对 大的变化或系统偏差(相对于通常的容限、准确性或取样误差)的测量。可能难以在应清 理的错误与被监视的基本过程中的真实改变之间进行区分。实施方案通过减少清理数据的 需要而节省资源,同时改进所产生的信息的质量。
[0040] 关于上文论述的【背景技术】的缺点,即当(如在大多数例子中)数据中的至少一些 在某一方面无效时将数据转换为可起作用的信息是非常昂贵的,根据本公开的实施方案可 由多个信息源(例如,智能电话、平板电脑、膝上型计算机、上网本、其它移动装置、台式计 算机等)使用以便在数据源处较有效率地且一致地收集数据。实施方案通过使用数据结 构、规则和质量控制配置以确保所收集的数据符合预期,从而提供强制的一致性来实现此 目标。因为此一致性在录入数据时发生,所以可警示用户遗漏的信息、不准确的信息、不一 致的信息或与预期格式不符的信息。确定一致性可涉及使用历史数据和来自其它源的数 据。用户接着能够在信息被提交至服务器以用于进一步使用和分析之前校正信息。
[0041] 关于上文论述的【背景技术】的另一缺点,即常规数据清洗过程是耗时的且通常使用 成批处理完成,根据本公开的实施方案使得应用程序(例如,与mHealth相关的app)能够 在用户与应用程序的交互期间管理信息的录入。通过此过程,信息收集和管理可以是交互 的、事务性的和快速的。
[0042] 此外,因为应用程序的事务性和交互特性,实施方案准许大体上实时地处理信息。 一旦信息被服务器接收,实施方案促进能够几乎同时地更新和管理统计或报告,因为数据 被认为是可起作用的。这对于其中时间可以是非常重要的许多类型的应用程序(例如,评 估广告活动的效果的应用程序,检测急性身体状况的应用程序等)可以是非常有价值的。
[0043] 关于上文论述的【背景技术】的另一缺点,即较复杂的相关的或从属的数据情形需要 太复杂而不能用正规表达式指定或通过正规表达式不易于管理的类型的验证,实施方案实 现源处的大体上所有类型的数据集(例如,简单的或复杂的数据集)的结构化数据处理和 数据质量控制两者,而无需在那个数据源可能不再可用时在服务器端建构验证。
[0044] 关于上文论述的【背景技术】的另一缺点,即应用程序开发者通常在其应用程序中对 特定数据结构或验证规则进行硬编码以用于特定使用状况,实施方案允许开发者开发软件 app而不必担心数据结构和验证规则的格式,或不必担心数据结构和验证规则的改变,或不 必担心数据质量的管理。通过提供实施方案来管理在信息源处由用户提供的信息,实施方 案帮助确保软件app可符合预定义的标准或主动性(诸如,用于mHealth使用)。将要搜集 的信息的数据结构(例如,字段定义)或录入的信息的质量要求(例如,数值信息的错误检 查和一致性检查的水平或程度;计算数据之间的相互关系)的改变将不需要改变软件app 的源文件。实施方案可通过使用
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1