远程特征咨询系统及方法

文档序号:6482486阅读:157来源:国知局
专利名称:远程特征咨询系统及方法
技术领域
本发明涉及一种远程特征咨询系统及远程咨询方法。
背景技术
当前,致力于快速、准确地提供各种信息并对个人以及企业的活动进行分析指导 的咨询服务业迅速崛起。而且,随着诸如计算机的信息处理设备的性能以及远程计算机系 统的快速发展,基于远程计算机系统的能胜任大规模数据处理的远程咨询系统日益成为咨 询服务业中提供信息咨询服务的重要手段。远程咨询系统的其中一个应用是收集个人或人群的各种特征信息,诸如健康信 息,购物习惯信息等,并进行相应分析的远程特征咨询系统,诸如远程健康咨询系统,远程 购物习惯咨询系统。这些咨询系统所得出的特征分析结果对个人的生活或者企业活动等是 非常有意义的。因此,人们一直在致力于这样的远程特征咨询系统的开发。对于应用于个人/人群健康领域的远程健康咨询系统,自20世纪80年代以来已 有各种远程健康咨询系统陆续问世并投入实际使用,越来越多的用户乐于使用这样的远程 健康咨询系统来获取各种健康信息,而免去了在医院中经常遭受的时间浪费,花费巨大等 麻烦。对于个人/人群的购物习惯进行分析的远程购物习惯咨询系统,这些系统所能提供 的分析信息对于大型超市或卖场的经营活动来说是十分有意义的。但是,现有技术中的远 程健康咨询系统、远程购物习惯咨询系统仍存在诸多不足。从技术角度来考虑,现有的远程 特征,例如健康咨询系统在系统设计、数据处理方面存在诸多不足,例如,缺少进行诸如群 体数据分析和个人分析相结合的高级分析处理的功能、并且缺少特征状况,例如健康状况 预测分析处理的功能等等。

发明内容
考虑到现有技术中的上述不足而作出本发明。本发明的目的在于提供一种远程特 征咨询系统,该远程特征咨询系统能够对所收集的个人特征数据进行包括个体分析处理、 群组分析处理以及个体和群组相结合的综合分析处理,并且能够进行相应的预测分析处 理,从而能够提供具有较高精确度的分析结果。根据本发明的一个方面,提供了一种用于咨询特征状况的远程特征咨询系统,其 特征在于,包括输入装置,收集输入的特征数据,特征数据包括个体标识符项目和个体标 识符项目数据、多项特征项目和与各项特征项目对应的特征项目数据;以及远程服务器,包 括存储装置,根据特征数据中的个体标识符项目数据存储特征数据;个体特征分析装置,根 据存储装置中存储的特定个体历次和当前输入的特征数据生成个体统计分析结果和个体 关联结果,并且基于特定个体历次和当前输入的特征数据、个体统计分析结果和个体关联 结果生成个体特征分析报告,群组特征分析装置,根据存储装置中存储的所有个体历次和 当前输入的特征数据生成第一多个群组、与第一多个群组对应的群组统计分析结果和群组 关联结果,并且基于第一多个群组,群组统计分析结果和群组关联结果生成群组特征分析
9报告,和综合特征分析装置,根据存储装置中存储的特定个体历次和当前输入的特征数据 和群组特征分析装置生成的第一多个群组生成与特定个体历次输入的特征数据对应的第 二多个群组和涉及第二多个群组的优化的预测分析结果,并且基于第二多个群组和优化的 预测分析结果生成综合特征分析报告。根据本发明的另一个方面,提供了一种用于咨询特征状况的远程特征咨询方法, 其特征在于,包括输入处理,收集输入的特征数据,特征数据包括个体标识符项目和个体 标识符项目数据、多项特征项目和与各项特征项目对应的特征项目数据;存储处理,根据特 征数据中的个体标识符项目数据存储特征数据;个体特征分析处理,根据特定个体历次和 当前输入的特征数据生成个体统计分析结果和个体关联结果,并且基于特定个体历次和当 前输入的特征数据、个体统计分析结果和个体关联结果生成个体特征分析报告,群组特征 分析处理,根据所有个体历次和当前输入的特征数据生成第一多个群组、与第一多个群组 对应的群组统计分析结果和群组关联结果,并且基于第一多个群组,群组统计分析结果和 群组关联结果生成群组特征分析报告,和综合特征分析处理,根据特定个体历次和当前输 入的特征数据和群组特征分析处理生成的第一多个群组生成与特定个体历次输入的特征 数据对应的第二多个群组和涉及第二多个群组的优化的预测分析结果,并且基于第二多个 群组和优化的预测分析结果生成综合特征分析报告。


结合在说明书中并构成说明书一部分的附图用于说明本发明的具体实施方式
,并 与上述总体说明和下述实施方式的详细说明一起对本发明的原理进行说明。图1是显示根据本发明的第一实施例的远程健康咨询系统的总体构造的示范性 框图;图2A和图2B是显示根据本发明的实施例的远程健康咨询系统处理的健康数据的 实例的示意图;图3是显示根据本发明的第一实施例的远程健康咨询系统中的个体健康分析装 置的构造的示范性框图;图4是显示根据本发明的第一实施例的远程健康咨询系统的群组健康分析装置 的构造的示范性框图;图5是显示根据本发明的第一实施例的远程健康咨询系统的综合健康分析装置 的构造的示范性框图;图6A是显示用于分析咨询师的高血压症的患病风险的预测器的示范性实例的生 成过程的示意图;图6B是显示用于用于分析咨询师的高血压症的患病风险的预测器的示范性实 例;图6C是用于分析不同群组的高血压症的患病风险的多个预测器的示范性实例;图7是显示根据本发明第一实施例的第一变型例的远程健康咨询系统的总体构 造的示范性框图;图8是显示根据本发明的第一实施例的第二变型例的远程健康咨询系统lb的详 细系统设计10
图9是说明使用根据本发明的第一实施例的第二变型例的远程健康咨询系统lb 的个体与健康咨询服务提供方的连接的示意图;图10是显示根据本发明的第二实施例的远程购物习惯咨询系统的总体构造的示 范性框图;以及图11是显示根据本发明的第二实施例的远程购物习惯咨询系统所处理的购物习 惯数据的实例的示意图。
具体实施例方式下面将参照

本发明的各个实施例。(第一实施例)现在将参照图1具体地说明根据本发明的作为远程特征咨询系统的第一实施例 的远程健康咨询系统1,其中特征是指事物某种特性或活动,“健康”是特征的一种具体表 述。图1是显示根据本发明的第一实施例的远程健康咨询系统1的总体构造的示范性框 图。远程健康咨询系统是对作为特征状况实例的健康状况进行咨询的系统。特征状况,即 作为个体的特征的具体表现。作为特征状况的实例的健康状况是健康的具体表现,包括,疾 病,如高血压症、心脏病、头痛、胃痛等,以及亚健康身体状态,正常身体状态,运动员身体状 态等或健康状态等级等。在根据本发明的作为远程特征咨询系统的第一实施例的远程健康咨询系统1中, 处理的对象是个体(即用户)的健康数据,健康数据是本发明的特征数据的一个实例。本 文中的个体可以是个人,也可以是家庭或单位。下面首先将对作为特征数据实例的健康数 据进行具体说明。根据本发明的第一实施例的远程健康咨询系统1可以应用于对个人的健康状况 进行咨询,也可以应用于对由若干个个人组成的人群的健康状况进行咨询。下面首先对在 远程健康咨询系统1应用于咨询个人的健康状况的情形(即个体就是个人)时所处理的健 康数据进行说明。图2A和图2B显示的是根据本发明的第一实施例的远程健康咨询系统1 所处理的健康数据的实例。健康数据包括各项目和与各项目对应的项目数据。其中项目是 指个体标识符项目和多个作为特征项目实例的健康项目。作为特征项目数据的实例的健康 项目数据是指对应于健康项目的具体数据,其表示为数值或代码。健康数据还可以进一步 包括数据输入日期(健康数据输入时间),健康数据输入时间是特征数据输入时间的一个 实例,表示每次输入健康数据的时间。图2A和图2B分别是输入时间分别为2009-12-1和 2009-12-3的两个不同的健康数据的实例。虽然图中未示出,如果在处理中要考虑时效性的 话,健康数据中也可以包括各个健康项目数据产生的时间,即为各个健康项目数据加上时 间,该时间可以是健康数据输入时间,举例来说,“今日是否饮酒Y<2009-12-1>”。要注意的 是,这里的健康项目“今日是否饮酒”只是作为以“一天”为单位输入一次的健康数据的实 例的说明,当健康数据是以“一周”为单位,或者以“特定时间”为单位时,健康项目的设置 要做相应变化,例如变化为“这周是否饮酒”,“这段时间是否饮酒”。在健康数据中,个体标识符项目是用来区分不同个体的项目。以图2A和2B中所 示为例,与各个体标识符项目对应的个体标识符项目数据包括姓名、身份证号码,移动电话 号码等。
在健康数据中,其中一部分的健康项目数据是能够直接表征健康状况的数据,诸 如身高体重比值、血压值、血氧含量等,还有部分的健康项目数据是可能对健康状况产生影 响的数据,包括年龄、生活状况(诸如职业、熬夜、运动、饮酒等)、家庭状况(婚姻状况,子女 个数)等。在健康数据中,健康项目有多种存在模式,各个健康项目可以以仪器测量项目的 模式存在或以标准问卷项目的模式存在,以仪器测量项目的模式存在的健康项目是其数据 是通过专用仪器从人体测量的项目,以下将以仪器测量项目的模式存在的健康项目简称为 仪器测量健康项目,诸如心跳、血压等项目。与仪器测量健康项目对应的仪器测量健康项目 数据,诸如血压值、血氧含量等。以标准问卷项目的模式存在的健康项目是远程健康咨询系 统1的输入装置12a向个体提供的标准问卷中的项目,以下将以标准问卷项目的模式存在 的健康项目简称为标准问卷健康项目,诸如用户的年龄、生活状况(诸如熬夜、运动、饮酒, 职业等)、家庭状况(子女个数、婚姻状况)等。与标准问卷健康项目对应的标准问卷健康 项目数据,诸如年龄大小,职业代码等等。要注意的是在实施本发明的过程中可以根据需要对各个健康项目的存在模式进 行灵活的设置,例如,从人体测量的健康项目,身高,体重等也可以设置为标准问卷健康项 目。健康项目的类型和数量可以根据使用情况的不同而变化,这些对于本领域技术人员来 说是显而易见的。另外,在本发明的实施例中,为使说明更简洁,假设健康项目中的仪器测量健康项 目数据是直接表征健康状况的数据,标准问卷健康项目的数据是可能对健康状况产生影响 的数据,如图2A和图2B所示。在实际使用中可以健康项目并不必按照此假设进行设置,例 如标准问卷健康项目数据也可以包括直接表征健康状况的数据,诸如身高、体重等,这对本 领域技术人员来说是显而易见的。以上介绍的是将远程健康系统1应用于个人的健康状况的咨询的情形中所处理 的健康数据的介绍。在远程健康咨询系统1应用于人群的健康状况的咨询中时,在远程健 康咨询系统1所处理的健康数据与应用于个人健康状况的咨询的情形中稍有不同。远程健 康咨询系统1所处理的健康数据是情况类似的多人组成的一个人群,如一个家庭或一个单 位(即个体)相关的健康数据。在这里“情况类似”指的是,他们可能是属于相同的职业, 或者是生活习惯类似的同一个家庭中的成员等等。在远程健康咨询系统1应用于人群健 康的咨询的情形中,即个体(即一个人群)的健康数据实际上是若干个人的健康数据的综 合。在这样的健康数据中,同样包括区分不同个体的个体标识符项目,诸如帐号,电话号码 等等,还包括健康项目,其中包括直接表征个体(即人群)的整体健康状况的健康项目,以 及可能对健康状况产生影响的健康项目,即有关个体(即人群)的生活状况的健康项目,其 中,要注意的是,直接表征健康状况的部分健康项目数据应该是经过适当的处理后的能够 直接反映该个体(即人群)中多个人的整体健康状况的数据。接下来返回参照图1说明远程健康咨询系统1的各个组成部分。远程健康咨询系 统1包括远程服务器10、输入装置12a和输出装置12b,在远程服务器10中进一步包括存 储装置140、个体健康分析装置110、群组健康分析装置120和综合分析装置130。输入装置12a的作用是收集输入的健康数据。输入装置将个体的健康数据传输到 远程服务器10进行处理。当远程服务器10完成对健康数据的处理并生成健康分析报告后,输出装置12b接收并以预定格式将健康分析报告向用户输出。其中,上述健康分析报告包 括作为个体特征分析报告的实例的个体健康分析报告、作为群组特征分析报告的实例的群 组健康分析报告和作为综合特征分析报告的实例的综合健康分析报告,这些报告的内容包 括诊断结果、健康状况预测分析、健康等级评价或者改善健康状况的建议等等。根据本发明的第一实施例的远程健康咨询系统1中的输入装置12a和输出装置 12b是能够与远程服务器10进行数据交换的任何硬件、软件或者硬件和软件的结合。例如, 输入装置12a和输出装置12b可以被包括在便携式/台式计算机,移动电话,PDA、或者咨询 服务方提供的指定设备等等中。还应理解的是,输入装置12a和输出装置12b可以存在于 共同的设备中,例如可以通过同一台移动电话、PDA或便携式计算机等,既完成健康数据的 收集又完成健康分析报告的输出,或者,也可以分立地存在于不同的设备中,例如通过便携 式计算机收集健康数据,而依靠移动电话输出健康分析报告。在实施本发明的过程中,可以将输入装置12a和输出装置12b设置为自动(根据 当时的通信连接环境)或手动(用户偏好)来选择不同的传输方式,比如基于FTP、HTTP协 议的文件传输方式或基于GSM、GPRS协议的短信传输方式等。装置12a和12b与远程服务 器10之间进行的数据传输可以根据各种需要采取多种传输规则,比如定时/即时传输规 则、加密/明文传输规则等。远程服务器10中包括的各个装置是远程健康咨询系统1对健康数据的进行处理 的核心部件。下面分别对它们进行详细介绍。1.存储装置140远程服务器10中的存储装置140将从输入装置12a接收的健康数据存储以供远 程服务器10中的其他装置使用。在存储健康数据时,存储装置140会根据健康数据中的 个体标识符项目数据来存储健康数据,以将属于不同的个体的健康数据区分。举例来说, 存储装置140能够基于上述健康数据中的个体标识符项目数据,诸如姓名、身份证号码、移 动电话号码等等中的一个或它们的任意组合,来生成唯一区分个体的个体识别代码,并按 照个体识别代码在存储装置140中划分存储区。属于同一个体的健康数据被存储在存储装 置140中同一存储区中,已达到将不同个体的健康数据区别保存的目的。或者是不同个体 的健康数据被混合地存储在存储区中,各个健康数据都具有唯一的索引,再根据个体识别 代码为各个个体设立一个专用索引表以指向属于该个体的所有健康数据。还可以以本领域 技术人员熟悉的任何适合的方式在存储装置14中存储健康数据以将属于同一个体的健康 数据集合在一起。上述的存储区可以是不同的存储装置(诸如HDD),可以是同一存储装置 (HDD)中的不同分区,也可以是不同的数据库等。在用户曾经多次使用过远程健康咨询系统1的情形中,存储装置140会根据个体 识别代码存储该个体历次使用远程健康咨询系统1时所输入的健康数据。当个体,即用户 当前输入了新的健康数据后,存储装置140根据个体识别代码所确定的位置将当前输入的 健康数据和数据库中原有的该个体历次输入的健康数据集合在一起。当个体当前没有输入 健康数据时,则将当前输入的健康数据当作零值处理。当健康数据在远程服务器10中的存储装置140中保存之后,远程服务器10中的 个体健康分析装置110、群组健康分析装置120和综合健康分析装置130会根据需要从存储 装置140中调用所需要的健康数据进行处理。
13
2.个体健康分析装置110个体健康分析装置110根据存储装置140中存储的特定个体历次和当前输入的健 康数据生成个体统计分析结果和个体关联结果,并且基于特定个体历次和当前输入的健康 数据、个体统计分析结果和个体关联结果生成作为个体特征分析报告的实例的个体健康分 析报告。接下来参照图3详细说明远程服务器10中的作为个体特征分析装置实例的个体 健康分析装置110。图3是显示根据本发明的第一实施例的远程健康咨询系统1中的个体 健康分析装置110的构造的示范性框图。如图3所示,个体健康分析装置110包括个体统 计分析单元111、个体关联分析单元112和个体报告生成单元113。下面对个体健康分析装 置110中的各个单元进行详细介绍。个体统计分析单元111对存储装置140中的特定个体历次和当前输入的健康数据 进行统计分析,生成反映健康状况的变化趋势的个体统计分析结果,其特定个体历次和当 前输入的健康数据包括多个健康数据。。具体来说,个体统计分析单元111统计出特定个体 历次和当前输入的健康数据中的各个健康项目数据的变化趋势,例如健康项目数据随输入 时间变化的变化趋势。在总结出的健康数据中的健康项目数据的变化趋势中,直接表征健 康状况的健康项目数据的变化趋势能够直接反映在个体最初使用系统1至当前的时段内 健康状况的变化趋势,举例来说,在标准范围以上的血压值不断升高,这往往预示高血压症 的日趋严重。所得出的健康状况的变化趋势是对该个体过去的健康状况的总结。个体统计 分析单元111对当前健康数据进行处理而生成的个体统计分析结果被传输至个体报告生 成单元113。在个体统计分析单元111得出的个体统计分析结果中,健康状况的变化趋势是由 直接表征健康状况的那部分健康项目数据的变化趋势反映出的。然而,健康数据中还有部 分健康项目数据是可能对健康状况有影响的数据,诸如生活状况、家庭状况的,从个体统计 分析结果中得不到与这些健康项目数据的变化趋势与健康状况的联系,因此需要后面的关 联分析模快112对特定个体历次和当前输入的健康数据进行进一步的处理。个体关联分析单元112,配置为对存储装置140中的特定个体历次和当前输入的 健康数据并对特定个体历次和当前输入的健康数据中的健康项目数据执行关联算法得出 特定个体历次和当前输入的健康数据中单个健康项目数据、健康项目数据的组合以及健康 项目数据的排列分别与健康状况关联的个体关联结果。个体关联分析单元112中进行的关 联分析能够挖掘出健康数据中的健康项目数据之间的关联。在健康项目数据中,直接表征 健康状况的健康项目数据(如血压值等)或此类健康项目的组合与健康状况(如高血压症 等)的关联是直接和明显的(如,较高的血压值“血压值180/120”表示患有高血压症)。 然而,为了得出可能对健康状况产生影响的,表示生活状况,家庭状况的健康项目数据(如 “今日是否饮酒Y”)与健康状况(高血压症)的关联,则需要挖掘出可能对健康状况产生 影响的健康项目数据和直接表征健康状况的健康项目数据或健康项目组合之间的关联。举 例来说,如果找到了饮酒与较高的血压值之间的关联,则也就能够得出饮酒与高血压症之 间的关联,就能够得出饮酒导致高血压症的结果。以上“今日是否饮酒Y”与“高血压症”的关联是健康数据中单个健康项目数据与 健康状况关联的实例。还存在多个健康项目数据的组合与健康状况的关联,例如,个体关联 分析单元112能够得出“今日是否饮酒Y”和“今日是否熬夜Y”这两个健康项目数据的组合与“血压值180/120”的关联,即得出饮酒,熬夜两项活动的组合与高血压症的关联。还 存在某些健康项目数据的排列与健康状况的关联,例如,个体关联分析单元112得出“运动 时间30minS”、“今日是否饮酒Y”、“今日是否熬夜Y”的排列,即先运动,再饮酒、再熬夜, 或者是先饮酒,再运动,再熬夜等,与“血压值180/120”的关联,即可以得出“运动时间 30mins”、“今日是否饮酒Y”、“今日是否熬夜Y”的排列与高血压症的关联。找出以上这些对象之间关联结果是关联分析单元112的主要功能。在几次发生 相同情况之后,关联分析单元112便认为这样的事件(诸如“饮酒”)或事件的组合/排列 (诸如“饮酒”、“熬夜”)和较高的血压值的关联强,可以肯定,用户在经历上述事件组合后, 会出现相应的健康状况。那么当其下一次经历同样事件组合时,相同的症状就可能再次发 生。个体关联分析单元112所进行的关联分析所基于的是关联算法,它是数据挖掘算 法中的一种,是在由多个事务组成的事务集中找出多个事务中的每一个事务所包含的多个 项集之间的关联的算法。在个体关联分析单元112所进行的关联算法中,使用特定个体历 次和当前输入的健康数据作为一个事务集,特定个体历次和当前输入的健康数据中的每一 个健康数据作为该多个事务中的一个事务,并且使用由该特定个体历次和当前输入的健康 数据中的每一个健康数据中的至少一个健康项目数据组成的集合作为多个项集中的一个 项集。在个体关联分析单元112执行的关联算法中,首先需要设置关联算法的支持度阈值 和置信度,随后通过穷举健康数据中的健康项目数据集合(即包含一个或多个健康项目数 据的集合)并计算各个健康数据中的各个健康项目数据集合(即,项集)之间的支持度和 置信度,将所计算的各个健康项目数据集合之间支持度和置信度分别和支持度阈值和置信 度阈值进行比较,两个或多个健康项目数据集合之间的支持度和置信度大于阈值则认为两 个或多个健康项目数据集合之间有关联,最后将存在关联的两个或多个健康项目数据集合 此为个体关联结果保存。以下对本发明的第一实施例中的个体关联分析单元112进行的关联分析所基于 的关联算法进行详细介绍。首先介绍在关联算法中比较重要的几个参数,其中包括,事务、事务集、项、项的集 合、项集,支持度和置信度。在本发明的第一实施例中,用户的每一次输入,例如同一日期的 输入,的全部或者部分健康数据可以被看成一个事务,例如,图2A和图2B中所示的健康数 据可以作为两个不同的事务、由若干个事务组成的集合被称作事务集。具体而言,图2A所 示的多个健康项目数据的组合(或者所有健康项目数据)是事务T1,图2B所示的多个健康 项目数据的组合(或者所有健康项目数据)是事务T2,事务集D是T1和T2组成的集合,D ={T1,T2}。事务中的每一个健康项目数据被称为项,如“今日是否饮酒Y”;而如果考虑 分析对时间的敏感性的话,项是“今日是否饮酒Y<2009-12-1>”。项集是事务中一个或多 个健康项目数据的集合,举例来说,项集A =( “今日是否饮酒Y<2009-12-1>”),项集B = (“血压值180/120(mmHg) <2009-12-01〉”)。所谓的关联结果是项集之间的关联,举例来说 是项集A和项集B之间的关联,即从项集A可以推出项集B,即X 二 S。支持度指的是即A 和B这两个项集在事务集D中同时出现的概率,在事务集D中包含项集A U B的事务的数 目所占事务集中所有事务数目的百分比,而置信度指的是即在出现项集A的事务集D中,项 集B也同时出现的概率,即事务集D中,即包含项集B的事务的数目与包含项集A的事务的数目的比值。事务之间的关联可能是即时的,也可能具有时间间隔。比如,一次大量的饮酒可能 导致立刻的头疼,同时,也可能导致长期的影响,比如连续两三天的高血压。对于即时的关联,此时健康数据中的健康数据输入时间在处理过程中是不考虑 的。可以利用现有的事务集进行关联分析,假设有事务集D1 {{({({({({(}。在事务集D1的5个事务中,有3个事务包含{( “今日是否饮酒”),(“血压值 180/120 (mmHg))”},即事务1、2、3,所以,此时支持度的结果为60%;在事务集D3的5个事务 中有4个事务包含{(“今日是否饮酒”)},其中3个事务包含{(“血压值180/120(mmHg)”)}, 此时置信度的结果为75%。关联分析单元会为支持度和置信度分别设置一定的阈值,当对 不同项集之间的关联进行计算时,如果计算所得的支持度和置信度均超过相应的阈值,则 关联分析单元认为项集之间是有关联的。举例来说,假如此时设置的支持度和置信度的阈 值都是60%,从上面计算的结果可以得出,项集A与项集B有关联。换句话说,从项集A和 项集B的关联能够得出饮酒能够立即导致较高的血压值,换句话说饮酒导致立即的(在本 次记录的时段内,就产生效果的)高血压症。但有些影响不见得在当天就反映出来,比如此次的饮酒也可能造成之后两天的胃 疼,如果只利用当天记录的事务集,这样的关联就不能被反应出来。为了能体现出这种隐藏 在时间差之中的关联关系,个体关联分析单元112需要对原有的事务集进行重新组合,将 特定时间间隔的事务组合成新的时效性事务,而这些新合成的时效性事务会构成新的时效 性事务集,时效性是指在处理是要考虑健康数据的健康数据输入时间。在这种情形中,从 特定个体历次和当前输入的健康数据中以成对的方式选择健康数据进行组合,并以该健康 数据的组合作为关联算法中的事务,其中,以成对的方式选择出的健康数据的健康数据输 入时间的差值为预定值;事务中包括以成对的方式选择出的健康数据中的全部健康项目数 据;并且成对选择出的健康数据中的至少一个健康项目数据组成的集合作为多个项集中的 一个项集。这里的组合是指将以成对的方式选择出的健康数据的全部健康项目数据合并 在一起,其中对应于同一健康项目但是对应于不同健康数据输入时间的健康项目数据互相 区别,例如“今日是否饮酒Y<2009-12-1>”和“今日是否饮酒Y<2009-12-3>”在作为的事 务健康数据的组合中作为两个不同的项目处理。例如,对于每天记录的原始事务集Ddaily = {Tl,T2,…,Tn},其中Ti表示从记录开始第i天的记录。如果我们感兴趣时效性为两天 的关联,则将时间间隔为两天(即隔天)的事务集合并,生成两天间隔(隔天)事务集D2days ={T1+T3,T2+T4,T3+T5,....,Tn-2+Tn}。所构成的时效性事务中的项目也将表明时间。 比如D2days为{
“今日是否饮酒Y”),( “血压值180/120(mmHg)”)},
“今日是否饮酒Y”),( “血压值180/120 (mmHg)),,},
“今日是否饮酒:Y”),( “血压值180/120(mmHg)”),( “今日是否熬夜Y”)},
“今日是否饮酒Y”),(“今日是否早餐Y”)},
“今日是否熬夜Y”),( “今日是否早餐Y”),( “今日是否饮酒Y”)}
{(“今日是否饮酒:Y<2009-12-1>"),(“血压值180/120 (mmHg) <2009-12-03>")},{(“今日是否饮酒Y<2009-12-2>”),(“血压值180/120 (mmHg) <2009-12_04>”)},{( “今日是否饮酒:Y<2009-12-3>”),(“血压值180/120 (mmHg) <2009-12-05〉,,),“今日是否熬夜Y<2009-12-3>”},{( “今日是否饮酒Y<2009-12-4>”),( “今日是否早餐Y<2009-12_6>”)},{( “今日是否熬夜Y<2009-12-5>”),( “今日是否早餐Y<2009-12_7>”),( “今 日是否饮酒Y<2009-12-5>”)}}。“今日是否饮酒Y<2009-12-1>”来自2009年12月1日的记录,而“血压值 180/120 (mmHg) <2009-12_03>” 来自两天后的记录。在事务集D3的5个事务中,有3个事务包含{ “今日是否饮酒<T>”,“血压值 180/120(讓取)<1+2>”},其中,1为特定日期,T+2为特定日期两天之后,即事务1、2、3,所 以,此时支持度的结果为60% ;在事务集D3的5个事务中有4个事务包含{( “今日是否 饮酒”)},其中3个事务包含{ “血压值180/120(mmHg)”},此时置信度的结果为75%。关 联分析单元会为支持度和置信度分别设置一定的阈值,当对不同项集之间的关联进行计算 时,如果计算所得的支持度和置信度均超过相应的阈值,则关联分析单元认为项集之间是 有关联的。举例来说,假如此时设置的支持度和置信度的阈值都是60%,从上面计算的结果 可以得出,项集A与项集B有关联。换句话说,从项集A和项集B的关联能够得出饮酒能够 导致两天后较高的血压值,换句话说饮酒两天后仍会导致高血压症。在此情形中,有可能即 找出即时的关联又找出时效性的关联,此实施例中只对时效性的关联感兴趣,即具有不同 健康数据输入时间的健康项目数据之间的关联。另外,这里的隔天(相隔一天)只是举例 说明,这样的情形也同样适用于隔多天,隔周等等。个体关联分析装置112会穷举事务集D1中所有的项集,继续寻找其他的有关联的 项集,在以上的实例中,项集A或B中都只有一个项(健康项目数据),关联分析挖掘的是单 个健康项目数据之间的关联,当项集A或B中是多个项的组合或者是多个项的排列时,经过 与上面类似的处理,可以得到健康项目数据的组合/健康项目数据的排列与健康状况之间 的关联。当在事务集D1中不能再找出关联时,关联分析终止。关联分析能够用多种具体的 语言实现,例如Aprior算法,作为本领域技术人员公知技术,本发明将省略对Aprior算法 等的具体执行的介绍。关联分析装置112生成的个体关联结果能够显示出健康数据中有关个人生活状 况、家庭状况等的单个健康项目数据、健康项目数据的组合/排列与直接表征健康状况的 健康项目或健康项目组合之间的关联,从而显示出健康数据中单个健康项目数据、健康项 目数据的组合、健康项目数据的排列分别与健康状况关联的关联结果。个体关联结果被传 输至个体报告生成单元113以供下一步的处理。接下来,个体报告生成单元113会基于从存储装置140中读取的特定用户历次和 当前输入的健康数据、个体统计分析结果和个体关联结果,以预定格式生成个体健康分析 报告。也就是说,个体报告生成单元113生成的个体健康分析报告中包括特定用户历次和 当前输入的健康数据、个体统计分析结果和个体关联结果。3.群组健康分析装置120
接下来参照图4说明远程服务器10中的作为群组特征分析装置实例的群组健康 分析装置120。群组健康分析装置120根据存储装置140中存储的所有个体历次和当前输入 的健康数据生成多个群组、与多个群组对应的群组统计分析结果和群组关联结果,具体而 言,群组健康分析装置120从存储装置140中读取所有个体历次和当前输入的健康数据并 对它们进行聚类生成多个群组,并对多个群组分别进行统计、关联分析等处理以生成群组 统计分析结果和群组关联结果,并且基于所有个体历次和当前输入的健康数据、多个群组、 群组统计分析结果和群组关联结果生成作为群组特征分析报告的实例的群组健康分析报 告。图4是显示根据本发明的第一实施例的远程健康咨询系统1的群组健康分析装置120 的构造的示范性框图。群组健康分析装置120包括聚类单元121,群组统计分析单元122, 群组关联分析单元123和群组报告生成单元124。聚类单元121首先对存储装置140中所有个体历次和当前输入的健康数据执行聚 类算法,目的是分别基于健康数据中的单个健康项目或者项目的组合,将群组健康分析装 置120中的所有用户的健康数据聚类成多个群组(第一多个群组)。在生成的第一多个群组 中,由基于单个健康项目所生成的群组,其中,存在于同一群组中的健康数据的对应于该单 个健康项目的健康项目数据相同或在同一数据范围内;由基于多个健康项目所生成的群组 中,其中,存在于同一群组中的健康数据的对应于该多个健康项目的多个健康项目数据分 别相同或分别在同一数据范围内。下面以一个具体实例说明分别根据单个健康项目或健康 项目的组合对多个健康数据聚类的过程。例如,有四个个体A,B,C,D,他们的所具有的健康 项目和项目数据分别为A (职业=1,身高=160,收入=1000),8:(职业=2,身高=180, 收入=1300),C (职业=1,身高=170,收入=2000), D (职业=2,身高=185,收入= 3000)。如果基于健康项目“职业“,对四个个体进行聚类,相同职业的,即作为的健康项目 数据的表示具体职业的代码相同的个体被放入一个群组中,则A和C被聚在一个群组1中, B,D在群组2中。当基于健康项目“身高“进行聚类,则A在群组1’(身高<165)中,B、C 和D在一个群组2’(身高> 165)中。当基于职业和身高进行聚类时,A在群组1”(职业= 1,身高< 165)中,B,C在群组2”(职业=2,身高大于165)中,D在群组3”(职业=2,身 高> 165)中。在基于身高和收入进行聚类时,A,C在群组1”,(身高< 165,收入< 1000) 中,B, D在群组2”’(身高> 165,收入> 1000)中。根据同一单个健康项目或同一多个健 康项目的组合所生成的群组被称为同一类群组,因此聚类单元121生成第二多个种类的群 组,也就是,举例来说,当健康数据中,聚类算法所根据的单个健康项目的数目和多个健康 项目的组合的数目的总和是N个(第二多个),就会生成N个种类的群组,这N个种类的群 组的总数是M个(第一多个)。在聚类过程中,对于很多显而易见有具有重大意义的标准,系统可以预设聚类标 准,比如上述的职业聚类,还有性别聚类等。然而,对于复杂的标准,人工预设的标准就完 全不能胜任,例如,以上按怎样的收入标准聚类才算科学?年龄、身高层次如何聚类才算合 理?更别说针对两个以上项目的组合的聚类。此时,就需要利用到聚类算法。聚类算法需 要首先从各个用户的健康数据中构造一个数据矩阵以及相异度矩阵,再基于该数据矩阵和 相异度矩阵进行健康数据的聚类。下面详细介绍聚类单元121中对健康数据所执行的聚类算法。聚类算法需要将不 同个体连同其健康数据中所有的健康项目数据用一个数据矩阵表示。例如,有n个用户,每
18个用户具有与P个健康项目数据,如身高值、体重值、职业代码等等。这样的数据结构可以 表示为一个nXp矩阵,如下所示
(1) 聚类算法还需要一个相异度矩阵,它包括所有成对的n个用户的临近度,通常用 nXn相异度矩阵来表示,如下所示 0
(2)其中d(i,j)是个体i和个体j的健康数据之间的测量差或相异度。通常,d(i, j)是一个非负的数值,个体i和j的健康数据越相似或越相近,就越接近0,个体i和j的 健康数据之间差异越大,其值越大。同时,d(i,j) =d(j,j),并且d(i,i) =0。相异度可以用多种类型的数据来计算,包括区间标度变量(如,身高,体重等),对 称与非对称二元变量(如男女,或是否饮酒(Y或者N)),分类变量(如或职业),序数变量 (如职位等)和比例标度变量(非线性的刻度,如指数刻度)等等,或这些变量的组合。d(i,j)的具体计算方法和过程是本领域技术人员公知的,因此这里不再赘 述。执行聚类算法可以采取多种具体的运算方法。例如,本实施例中所使用的划分方法 (partitioning method)中的k均值算法。在划分方法的处理中,首先,从给定n个个体中 随机地选择k个个体,k个个体中每个个体的健康数据(包含p个健康项目)代表一个簇 的初始均值Xl,X2, &。对剩余的每个个体i(i =n-k),根据其与各个簇均值的距离,即 对于k个簇均值,d(i,Xj), j = (1,2, ...k),将它指派到d(i,Xj)最小的簇。之后重新计 算每个簇的均值。如本领域技术人员熟悉的,均值可以按如下方法定义三维数据组,一个 簇中有两个健康数据健康数据X= (Xl,x2, -xp)和健康数据Y= (Yl, y2,…^).均值 Z 是Z= (zi,z2,...zp),其中 zl= (Xl+yi)/2, z2 = (x2+y2)/2,zn= (xn+yn)/2。使用新的 簇均值,将每一个对象再重新分配到簇中,继续重新计算簇均值。重复以上动作直到准则函 数收敛。通常,采用平方误差准则。换句话说,对于簇中的每个对象,求对象到其簇中心距 离的平方和。这个准则试图最小化E以使簇尽可能紧凑和独立。除上述方法外,本领域技术人员公知的层次方法(hierarchical method)、基于密 度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方 法(grid-based method)等等。以上所列出的各种执行聚类算法的方法只是举例说明,作 为本领域技术人员公知常识,这里不再一一详细说明。本发明所使用的执行聚类算法的方 法不限于上述各种,还包括本领域的技术人员了解的其他任何适合的方法。经过聚类单元121聚类后生成的多个群组被传输至后面的装置。接下来,群组统计分析单元122对上述第一多个群组进行进一步分析。群组统计分析单元对第一多个群组中的每一个群组中的健康数据进行统计分析,生成显示聚类单元 121生成的第一多个群组中的每一个群组的健康状况的群组统计分析结果。具体而言,类似 于个体健康分析装置110中的个体统计分析单元111的处理,群组统计分析单元122通过 对第一多个群组中的每一个群组中的各个健康数据中所有的健康项目数据进行统计分析, 尤其是能够直接表征健康状况的健康项目数据进行统计分析,所得到的统计分析结果能够 显示出该群组的典型健康状况。例如,当统计出该群组所包括的健康数据中超过标准值的 血压值(即,较高的血压值)出现频率超过一定阈值,则可以得出该群组中“较高的血压值” 频繁出现,亦即高血压症是该群组的典型健康状况。群组统计分析结果被传输至群组报告 生成装置124。接下来,群组关联分析单元123对第一多个群组进行关联分析处理。群组关联分 析单元对聚类单元121生成的第一多个群组中的每一个群组中的健康数据的健康项目数 据执行与个体健康分析装置110中所执行的相同的关联算法,得出上述第一多个群组中的 每一个群组中的健康数据中的健康项目数据或健康项目数据的组合分别与健康状况关联 的群组关联结果。群组关联分析单元123所进行的关联分析是基于与个体健康分析装置 110中的个体关联分析单元112同样的原理,只不过是在每一个群组的范围内对该群组包 含的健康数据进行关联分析以找出关联结果,具体而言,是将该群组内所有的健康数据作 为事务集,而每一个健康数据作为事务,进行与个体健康分析装置110中的个体关联分析 单元112相同的关联分析以得出关联结果,其中关联算法是在由多个事务组成的事务集中 找出多个事务中每一个事务所包含的多个项集之间的关联的算法。在关联算法中,使用第 一多个群组中的每一个群组所包括的所有健康数据作为一个事务集,第一多个群组中的每 一个群组的每一个健康数据作为多个事务中的一个事务,并且使用由第一多个群组中的每 一个群组中的每一个健康数据中的至少一个健康项目数据组成的集合作为多个项集中的 一个项集。还要注意的是,群组与个分析的差别在于个体事务集中的记录都是一个个体的, 而群组分析中,记录可能来源于不同个体,所以在项集的生成过程中,群组关联分析单元 123需要根据记录的来源进行甄别,保证只有来自于同一个个体的事务和健康项目数据能 组合成分析所用的事务集和项集,以避免不同个体记录之间的混淆。即同属于某群组的 个体A和B,A某次喝酒,只会导致A的头疼,而如果B在同一天碰巧胃疼,和A喝酒应该无 关。在这种情形中,首先所有个体历次和当前输入的健康数据中属于同一个体的健康数据 包括两个以上的健康数据,从所有个体历次和当前输入的健康数据中属于同一个体的健康 数据中以成对的方式选择健康数据进行组合,并以该健康数据的组合作为关联算法中的事 务,其中,以成对的方式选择出的健康数据的健康数据输入时间的差值为预定值;事务中包 括以成对的方式选择出的健康数据中的全部健康项目数据;并且成对选择出的健康数据中 的至少一个健康项目数据组成的集合作为多个项集中的一个项集。这里的组合是指将以成 对的方式选择出的健康数据的全部健康项目数据合并在一起,其中对应于同一健康项目但 是对应于不同健康数据输入时间的健康项目数据互相区别。对于本情形的另外一种处理是只记录事务和项目所属的个体的个体识别代码, 让群组关联分析单元123自己剔除无关的个体A与个体B之间记录的关联,因为其关联的 偶然性,很难达到分析阈值,而不可能构成关联规则。
最后群组关联分析单元123将各个群组的关联分析结果作为群组关联结果传输 至群组报告生成装置124。与个体健康分析装置110中的个体报告生成单元113类似,群组报告生成单元124 基于聚类单元121得到的第一多个群组,在群组统计分析单元122中生成的群组统计分析 结果以及在群组关联分析单元123中生成的群组关联结果以预定格式生成群组健康分析 报告。也就是说,群组关联分析单元123所生成的群组健康分析报告包括第一多个群组、群 组统计分析结果以及群组关联结果。由以上描述可知,个体健康分析装置110中的个体统计分析单元111和个体关联 分析单元112与群组健康分析装置120中的群组统计分析单元122和群组关联分析单元 123可以分别共用一个统计分析单元和关联分析单元。4.综合健康分析装置130接下来参照图5对根据本发明的第一实施例的远程健康咨询系统1的综合健康分 析装置130进行详细说明。在个体健康分析装置110以及群组健康分析装置120的处理完 成之后,远程健康咨询系统1完成了对健康数据的初步分析。为得到更准确,全面的健康咨 询报告,需要对个体的健康数据和群组健康分析装置120得出的多个群组进行进一步的综 合分析。要了解的是,个体的健康数据与群组健康分析装置120所生成的多个群组之间会 有一定的对应性,换句话说,健康数据对应的个体能够根据其自身的情况可以被归入各个 群组中。科学地正确地将个体归类到各个群组中会为个体的健康记录提供良好的健康数据 背景和参照,这样的比对能为个人健康状况的现状的了解、健康状况的未来变化趋势的预 测等提供更多的信息。比如,一个30岁的咨询师,其10年后的健康趋势,就可以以目前40 岁咨询师的总体健康形式作为比对和参考。如果其发现40岁时,其健康可能受到严重的影 响,并能够找到可能的原因,并结合自己的健康关联分析所得出的结果,以及第三方专家等 的指导,可以提前采取预防措施,或改善生活习惯以避免可能的健康风险。根据本发明的第一实施例的作为综合特征分析装置的实例的综合健康分析装置 130,综合健康分析装置130根据存储装置140中存储的特定个体历次和当前输入的健康数 据和群组健康分析装置120生成的多个群组(第一多个群组)生成与特定个体历次输入的 健康数据对应的多个群组(第二多个群组)和涉及第二多个群组的优化的预测分析结果, 具体而言,综合分析装置130对从存储装置140读取的特定个体历次和当前输入的健康数 据和群组健康分析装置120生成的第一多个群组执行归类、预测等处理生成与特定个体历 次输入的健康数据对应的第二多个群组和涉及第二多个群组的优化的预测分析结果,并且 基于第二多个群组和涉及第二多个群组的优化的预测分析结果生成综合健康分析报告。图5是显示根据本发明的第一实施例的远程健康咨询系统1的综合健康分析装置 130的构造的示范性框图。综合健康分析装置130包括相似度计算单元131、归类单元132, 预测算法单元133、综合优化单元134和综合报告输出单元135。相似度计算单元131基于相似度算法对存储装置140中的特定个体历次和当前输 入的健康数据和群组健康分析装置120生成的第一多个群组中的每一个群组之间进行计 算,以得出反映特定个体历次和当前输入的健康数据和每一个群组之间的相似程度的多个 相似度。相似度计算单元131计算相似度的过程与在群组健康分析装置120中介绍的聚类 算法中的相异度d(i,j)计算过程相同,相似度计算单元131计算特定个体历次和当前输入
21的健康数据和每一个群组的中心点,或者是上面介绍过的簇均值之间的相似度。相似度计 算单元131所得到的多个相似度被保存以供接下来的处理使用。作为本领域技术人员公知 技术,将省略对相似度计算的具体过程的说明。接下来,归类单元132根据上述相似度计算单元131计算得到的相似度对特定个 体历次和当前输入的健康数据和多个群组进行归类处理以从多个群组中选择出与特定个 体历次和当前输入的健康数据对应的多个群组,即第二多个群组。这里所称的“对应”相当 于使得该特定个体“归类”进多个群组中,即特定个体的健康数据与其被归入的群组中包括 的绝大多数健康数据非常相似。具体而言,归类处理是,在群组健康分析装置120生成的 N(N<M)个(第二多个种类)的M个(第一多个)群组中,归类单元132分别从N个种类 的群组中的每一个种类的群组中,选择出与特定个体历次和当前输入的健康数据相似度最 高的群组。即,归类单元132从N个种类的M个群组中选择出N个与特定个体历次和当前输 入的健康数据对应的群组,即第二多个群组。举例来说,对特定个体历次和当前输入的健康 数据进行归类后装置后,个体X可以被归入群组健康分析装置120所生成的M个群组(第 一多个群组)中的N个群组中,则M个群组中其余的(M-N)个群组被删除,最后得到N个群 组,即与特定个体历次和当前输入的健康数据对应的多个群组(第二多个群组)。归类单元 132所得到的第二多个群组被保存并以供至下一步的处理使用。接下来,预测算法单元133对特定个体历次和当前输入的健康数据和第二多个群 组执行预测算法以得出与第二多个群组一一对应的预测健康状况变化的多个预测分析结 果,即第二多个群组中每一个群组都有一个相应的关于健康状况的预测分析结果。在预测 分析单元132中进行的用于预测数据对象的连续取值的预测算法的过程中,特定个体历次 和当前输入的健康数据将作为预测路径上的参数和决定节点的一部分,借此可以得到第二 多个群组中的每一个群组的预测分析结果。预测算法需要生成预测器。图6A是显示用于分析咨询师的高血压症的患病风险 的预测器的示范性实例的生成过程的示意图,图6B是显示用于用于分析咨询师的高血压 症的患病风险的预测器的示范性实例,图6C是用于分析不同群组的高血压症的患病风险 的多个预测器的示范性实例,其中的健康项目及健康项目数据设置只是举例说明。预测算 法执行过程中,大部分预测器利用群组中的健康数据,即利用所有的同属于这个职业和这 个职位的群组,例如“咨询业”职业的“咨询师”职位的群组的健康数据,并针对特定健康状 况,例如高血压症,得到预测的结果,如高血压症的风险高、中、低。举例来说,用户X可能被归入不同的群组A、B、C…,如果我们对此用户的特定的健 康状况a (例如,高血压症)感兴趣,我们可以通过构造与每一个群组对应的预测器,如群 组A-a预测器,群组B-a预测器,群组C_ a预测器,等等。每一个预测器都会产生相应的 a的预测结果,如风险预测结果I,风险预测结果II,风险预测结果III。根据使用样本的 不同,预测算法的预测结果会有所不同。构造预测器有多种公知的方法,对于离散数据,包 括决策树分类法、朴素贝叶斯、贝叶斯信念网络、和支持向量机等。而对于连续数据,可使用 线性和非线性回归(regression)方法。在此发明中,各种算法都能较好的完成任务,为了 表达方便,我们在此使用决策树进行说明。决策树归纳是从类标记(特定的健康状况)的训练元组学习决策树。决策树是类 似于流程图的树结构,其中每一个节点表示一个健康项目(比如职业、收入、生活方式等)上的测试,每个分支代表一个测试输出,而每个树叶节点存放一个类标号(特定的健康状 况的预测结果)。树的最顶层节点是根节点。大多数决策树归纳算法都沿用自顶向下的方法,从训练元组及和他们的相关联的 类标号(特定的健康状况的预测结果)开始构造决策树,随着树的构建,训练树递归地划分 成较小的分支。系统会按照特定的顺序选择所有的健康项目生成测试节点,直到此节点下 的分支具有相同的类标号(特定的健康状况的预测结果)。预测分析单元132会首先根据特定的“属性选择度量”作为分裂准则,确定自上而 下的决策树的构造顺序。比如信息增益作为属性选择度量,即优先选择具有最高信息增益 的属性作为节点N的分裂属性,该属性是结果划分中的元组分类所需的信息量最小,并反 映这些划分的最小随机性和“不纯性”。信息增益可以由以下公式得出 其中,Pi是0中任意原则属于预测结果Ci的概率,并用ICul/lDl估计。如果选 择了健康项目A,比如“婚姻”作为选中的健康项目,则决策树按照其所有可能的健康项目数 据的属性值(即健康项目数据所有可能的取值MMpAyAj,或婚姻{ “未婚”,“已婚”,“离 婚” }进行分类,将决策树分成三个分支。如果健康项目数据的所有属性值A为连续值,如收入,则必须先确定A的“最佳”分 裂点,其中分裂点是A上的阈值。首先将A的指按递增需排序,典型的,可以将两点间的平 均值看作可能的分裂点。这样,给定A的v个值,则需要计算v-1个可能的分裂,对于每个 可能的分裂点计算InfoA(D),选择具有最高信息增益的点作为其最佳分裂点,其对应的信 息增益,作为此属性的信息增益。如果此连续属性被选作分裂准则,则决策树根据最佳“分 裂点” (split_point)作为阈值,分为两个分支:A< = split—point, A>split_point。除了信息增益外,还有增益率和Gini指标等指标可以用来决健康项目数据的属 性值选择。当特定的预测器,比如决策树构造完成并净测试和优化。可将其他的数据记录根 据决策树的结果从上至下进行分析,直到找到其所需的预测结果。下面以一个实例说明所得到的预测分析结果。以图2A和2B所示的数据为例,35 岁的外资咨询公司咨询师张某,同时属于35岁群组,咨询师群组,外资企业群组,已婚,有2 个孩子。对于张某所属的每一个群组都会给出一定的关于特定健康状况的预测分析结果。 举例来说,对于张先生的高血压症的预测,首先将其具体的健康数据经过咨询业咨询师的 高血压症的预测算法,得到其高血压症的具体风险,例如是75% ;再将张某的健康数据经过 有孩子的群组的预测算法,其高血压症的风险为50% ;接着,将其数据经过经常运动的群组 的预测算法,其高血压症的风险为25%。经过以上处理所得出的分别与优化的群组健康分 析信息中包含的多个群组一一对应的反映健康状况变化的多个预测分析结果,例如,分别 与咨询师的群组、有孩子的群组、经常运动的群组一一对应的三个高血压症的风险,即预测 分析结果分别是75%、50%和25%,这些预测分析结果被保存并送入下一步的处理。然而, 由此,为了使个体得到更清晰的预测结果,有必要利用综合优化单元134对上述多个预测 分析结果进行优化。
综合优化单元134根据上述相似度计算单元131得到的多个相似度,对多个预测 分析结果进行权重分配以生成优化的预测分析结果。通过参照特定个体历次和当前输入 的健康数据和与特定个体历次和当前输入的健康数据对应的第二多个群组之间的相似度, 可以得出特定个体历次和当前输入的健康数据对于不同的预测算法的倾向性。基于相似 度,将综合优化单元134对多个健康预测分析信息进行进行权重分配,例如对其进行加权 平均,不同的加权根据相似度的大小决定,最后得到优化的预测分析信息。以上面的张某的 例子来说,张某在咨询师聚类的倾向性为中等(假设为0. 3),有孩子家庭的倾向性为低等 (假设为0. 1),而在经常健身的聚类上为高等(假设为0. 6),则其可能的加权平均结果为 0. 3*75%+0. 1*50%+0. 6*25% = 45%。综合上述结论,可以得到张某患高血压症的风险为 45%,是个体分析结果和群组分析相结合所得到的,这个结果相对来说具有更高的精确度, 这是一个对健康状况的预测的准确可信的结果。上面的进行加权平均计算只是一个简单的示范性实例。其基于特定个体历次和当 前输入的健康数据和第二多个群组之间的相似度,将各个群组的预测分析结果进行加权得 出结果。进一步,更复杂的进行权重分配的计算公式可以是,例如 其中E (x)是个体x的预测结果;n是个体,且隶属于n个群组; 是相对于第i个 群组的参数成是个体x相对于群组i的相似度巧是群体i的预测结果;Ci是相对于群体 i相似度的幂参;以及屯是相对于群体i预测结果的幂参数。但是,加权计算只是一个相对简单的初始方法。随着数据的增加,公式会不断地被 优化以便更精确地与实际情况相拟合。比如在公式中增加参数,或对不同的公式项使用不 同的幂次方等等。公式也可以选用中位数、阈值、等数据进行拟合。最后,综合报告输出单元135基于第二多个群组和涉及第二多个群组的优化的预 测分析结果以预定格式生成综合健康分析报告,亦即,综合报告输出单元135所生成的综 合健康分析报告包括第二多个群组和涉及第二多个群组的优化的预测分析结果。至此,远程健康咨询系统1经过上述的个体健康分析装置110、群组健康分析装置 120和综合健康分析装置130对健康数据的处理,分别生成个体健康分析报告,群组健康分 析报告和综合分析报告。最后,输出装置12b接收并以预定格式输出上述个体健康分析报告、群组健康分 析报告和综合健康分析报告。从以上对作为远程特征咨询系统实例的远程健康咨询系统的描述,可以归纳出一 种用于咨询健康状况的作为远程特征咨询方法实例的远程健康咨询方法,该方法包括输入处理,收集输入的健康数据,健康数据包括个体标识符项目和个体标识符项 目数据、多项健康项目和与各项健康项目对应的健康项目数据;存储处理,根据健康数据中的个体标识符项目数据存储健康数据;个体健康分析处理,根据特定个体历次和当前输入的健康数据生成个体统计分析 结果和个体关联结果,并且基于特定个体历次和当前输入的健康数据、个体统计分析结果 和个体关联结果生成个体健康分析报告,个体健康分析处理进一步包括个体统计分析步骤,对特定个体历次和当前输入的健康数据进行统计分析,生成反映健康状况的变化趋势的个体统计分析结果;个体关联分析步骤,对特定个体历次和当前输入的健康数据中的健康项目数据执 行关联算法得出特定个体历次和当前输入的健康数据中单个健康项目数据、健康项目数据 的组合及健康项目数据的排列分别与健康状况关联的个体关联结果,其中的关联算法是在 由多个事务组成的事务集中找出多个事务中每一个事务所包含的多个项集之间的关联的 算法,特定个体历次和当前输入的健康数据作为一个事务集,特定个体历次和当前输入的 健康数据中的每一个健康数据作为多个事务中的一个事务,并且使用由特定个体历次和当 前输入的健康数据中的每一个健康数据中的至少一个健康项目数据组成的集合作为多个 项集中的一个项集,当健康数据具有时效性的情形中,在关联算法中,从特定个体历次和当 前输入的健康数据中成对选择健康数据组合成事务,在成对选择出的健康数据中的两个健 康数据的健康数据输入时间的差是预定值,事务中包括成对选择出的健康数据中的全部健 康项目数据;并且以成对的方式选择出的健康数据中的至少一个健康项目数据组成的集合 作为多个项集中的一个项集;以及个体报告生成步骤,基于特定个体历次和当前输入的健康数据、个体统计分析结 果和个体关联结果生成个体健康分析报告。群组健康分析处理,根据所有个体历次和当前输入的健康数据生成第一多个群 组、与第一多个群组对应的群组统计分析结果和群组关联结果,并且基于第一多个群组,群 组统计分析结果和群组关联结果生成群组健康分析报告,群组健康分析处理进一步包括聚类步骤,分别基于单个健康项目和多个健康项目对存储处理中所有个体历次和 当前输入的健康数据执行聚类算法以生成第一多个群组,在第一多个群组中,由基于单个健康项目所生成的群组,其中,存在于同一群组中的健康数据的对应 于单个健康项目的健康项目数据相同或在同一数据范围内,由基于多个健康项目所生成的群组中,其中,存在于同一群组中的健康数据的对 应于多个健康项目的多个健康项目数据分别相同或分别在同一数据范围内;群组统计分析步骤,对第一多个群组中的每一个群组中的健康数据进行统计分 析,生成显示第一多个群组中的每一个群组的健康状况的群组统计分析结果;群组关联分析步骤,对第一多个群组中的每一个群组中的健康数据的健康项目数 据执行关联算法,得出第一多个群组中的每一个群组中的健康数据的健康项目数据或健康 项目数据的组合分别与健康状况关联的群组关联结果,在关联算法中,使用特定个体历次 和当前输入的健康数据作为一个事务集,特定个体历次和当前输入的健康数据中的每一个 健康数据作为多个事务中的一个事务,并且使用由特定个体历次和当前输入的健康数据中 的每一个健康数据中的至少一个健康项目数据组成的集合作为多个项集中的一个项集;在 健康数据具有时效性的情形中,即健康数据进一步包括健康数据输入时间时,特定个体历 次和当前输入的健康数据包括两个以上的健康数据,从特定个体历次和当前输入的健康数 据中以成对的方式选择健康数据进行组合,并以该健康数据的组合作为关联算法中的事 务,其中,以成对的方式选择出的健康数据的健康数据输入时间的差值为预定值,事务中包 括以成对的方式选择出的健康数据中的全部健康项目数据;以及以成对的方式选择出的特征数据中的至少一个特征项目数据组成的集合作为多个项集中的一个项集;以及群组报告生成步骤,基于第一多个群组,群组统计分析结果和群组关联结果生成 群组健康分析报告。综合健康分析处理,根据特定个体历次和当前输入的健康数据和群组健康分析处 理生成的第一多个群组生成与特定个体历次输入的健康数据对应的第二多个群组和涉及 第二多个群组的优化的预测分析结果,并且基于第二多个群组和优化的预测分析结果生成 综合健康分析报告。综合健康分析处理进一步包括相似度计算步骤,计算出反映特定个体历次和当前输入的健康数据分别与群组健 康分析处理生成的第一多个群组中的每一个群组之间的相似程度的多个相似度;归类步骤,基于多个相似度,对特定个体历次和当前输入的健康数据和第一多个 群组执行归类,以从第一多个群组中选择出与特定个体历次和当前输入的健康数据对应的 第二多个群组;预测算法步骤,对特定个体历次和当前输入的健康数据和第二多个群组执行预测 算法以得出与第二多个群组一一对应的预测健康状况变化的多个预测分析结果;综合优化步骤,根据多个相似度对多个预测分析结果进行权重分配以生成优化的 预测分析结果;综合报告生成步骤,基于第二多个群组和优化的预测分析结果生成综合健康分析报告。输出处理,接收并以预定格式输出个体健康分析报告、群组健康分析报告和综合 健康分析报告。(第一变型例)下面参照图7介绍第一实施例的第一变型例。图7是显示根据本发明的第一实施 例的第一变型例的远程健康咨询系统la的示范性框图。在图7以及下面对第一变型例的 远程健康咨询系统la的描述中,与第一实施例相同的部分将使用同样的标号来表示,并且 省略对它们的说明。此外,为说明的方便,下面以在对个人的健康状况进行咨询的应用为例 对远程健康咨询系统la进行说明。而远程健康咨询系统la在对人群的健康状况进行咨询 的应用中只需进行与第一实施例中相同的变化就可以了。在使用远程健康咨询系统la的过程中,个体能够通过简单输入文字或者语音形 式的信息在输入健康数据中加入自由输入的内容,这包括一些关于该个体所感知的健康状 况,用户的心情、起居习惯、工作状态和各种活动等因人而异而可能难以依靠标准问卷获得 的数据,或者是个体认为对健康状况有影响但是暂时未被标准问卷采纳的内容。在这样的情形下,远程健康咨询系统la必须具有数据识别装置160,使得健康数 据在存储装置140中存储之间经过一定的处理。数据识别装置160从个体自由输入内容识 别出附加的健康项目及相应的健康项目数据,并将附加的健康项目及相应的健康项目数据 加入健康数据中,附加的健康项目在健康数据中以个体自由输入项目的模式存在。数据识别装置160对个体自由输入内容的处理如下。首先,输入的信息需要被数 据识别装置160辨认和捕捉到。一般来说,重要的信息包括时间,用户的感受,健康状况、活 动等。初始阶段,数据识别装置160会列出相关的数据格式,比如时间,频率,关键词和与之
26相关的同义词、反义词等词典,用于捕捉相关信息。随着数据的增加,特殊的信息,如高频率 出现的关键词将会被数据识别装置160记录,并加入词典。随着个人用户的使用量增加,个 人词典会随之丰富,数据识别装置160会在初始词典的基础上生成针对每个用户的词典。 个体自由输入内容的内容有的是可以直接反映健康状况的,有的是可以表示心情,生活状 态,生活习惯的,还有其他的能够对健康状况咨询有帮助的数据。下面是一些关键词类别 的举例,其中健康状况的实例包括,胃疼、胃胀、抑郁、失眠、酸疼、疲劳、精神抖擞、没有食欲 等;心情和感受的实例包括,开心、快乐、不快、好心情、郁闷、不开心、难过、委屈、坐立不安、 忐忑、平静、激动、不舒服…等;生活习惯和状况的实例包括,刚发工资、朋友聚会、狂欢、通 宵、加班等;表示频率的实例包括,x次、x瓶、x遍、每天都、一周x次…等。被识别的关键词将作为有效的健康数据的个体自由输入内容加入事务记录,作为 下一步分析的对象。进一步,根据公知的自然语言处理技术,可以对用户输入的简单语句进 行逻辑和语义分析,已得到更详尽的信息。举例来说,假设个体自由输入内容中包括“今天加班很久,特别疲劳,觉得胃开始 疼了”。对于这一语句,可以提取相应的健康数据。例如,前面的“加班”可被理解为原因,疲 劳是感觉,而胃疼可以认为是结果。而这句话就可以作为一个事务{( “加班很久”),(“疲 劳”),(“胃疼”)}记录下来。数据识别装置160根据所识别的不同数据的内容设立附加的 健康项目,并将识别出的内容作为相应的健康项目数据,如同上例,可以得出自由输入1 = 加班很久,自由输入2 =疲劳,自由输入3 =胃痛,如图2B所示。其中自由输入1表示生活 状况,自由输入2和自由输入3都是表征健康状况。包含了仪器测量项目、标准问卷项目和个体自由输入项目的健康数据随后被个体 健康分析装置110、群组健康分析装置120和综合健康分析装置130以如同第一实施例的方 式进行处理。根据个体自由输入内容所生成的个体自由输入健康项目数据能够丰富健康数 据的中的健康项目数据,使得根据本发明的第一实施例的远程健康咨询系统1的分析结果 更加全面。另外,在健康数据中包括了个体自由输入健康项目数据的情形中,由于个体自由 输入健康项目数据包含大量的符号实体(如关键词和短语)等复杂对象(如文档),因此, 在群组健康分析装置120中执行的聚类算法为了测量复杂对象间的距离,通常要引入非度 量的相似度函数。例如,为了比较两个向量x和y,有几种方法可以定义这样的相似度函数 s(x,y)。其中包括将相似度函数定义为余弦度量
(3)其中,P是向量x的转置,| x |是向量x的欧几里得范数。S从本质上讲,是1和 y之间夹角的余弦值。上述度量可用其一个类似变种替代,即Tanimoto系数,或Tanimoto距离
(4)(第二变型例)为使得远程健康咨询系统进行数据处理的功能更加完备,在第一实施例的基础 上,根据第一实施例的第二变型例的远程健康咨询系统lb中还进一步包括一些其他的装置组件。与第一实施例完全相同的装置和单元将用与第一实施例中相同的标号来表示,因 此省略对它们的说明。下面参照图7和图8说明根据本发明的第一实施例的第二变型例的 远程健康咨询系统lb。图8是显示根据本发明的第一实施例的第二变型例的远程健康咨询 系统lb的详细系统设计图。图9是说明使用根据本发明的第一实施例的第二变型例的远 程健康咨询系统lb的个体与健康咨询服务提供方的连接的示意图。如图9所示,个体,即 用户通过移动设备、桌面设备在住所或者商用监控站通过因特网或无线网络与位于服务提 供方处的远程健康咨询系统的远程服务器交换数据。a.输入装置12a和输出装置12a在输入装置12a和输出装置12b包括多个用于测量健康数据的仪器,为简便计,图 8中只示范性地列出仪器1,仪器2和仪器3。输入装置12a和输出装置12b中还包括仪器 识别器、用户信息/注释输入界面(即,标准问卷项目输入界面)、信息整合格式转化模块、 客户/服务提供商交流平台、客户数据表达模块(即,个体自由输入内容的输入模块)、数 据包暂存部、包括数据封装模块、加密解密模块、数据解封装模块和传输模式选择模块的1/ 0接口。输入/输出装置12a、12b和远程服务器10之间的连接可以采取专用通讯手段和 现有通讯手段的多种通讯模式的组合,如图7中所示通讯模式1,通讯模式2……通讯模式 8的组合。在远程健康咨询系统lb的装置12a和12b中设计有统一数据格式的接口,并根据 可能的不同仪器和数据(检查报告等)设计相应接口,将一切可能的数据、图像和声音等格 式的数据整理成远程服务器10统一接收的数据结构,以此实现模块化、封装化设计,在减 少其它系统的变动的前提下,向尽可能多的仪器兼容。b 远程服务器10上述的个体健康分析装置110、群组健康分析装置120和综合健康分析装置130中 的每一个中都包含分系统I/O模块、数据管理模块、数据储存模块和数据分析模块。除此之 外,远程服务器中还包括用于个人隐私保护的隐私保护装置150、数据管理装置170、功能 扩展接口 180,报警装置、交互装置、健康项目存在模式转换装置以及包括数据封装模块、加 密解密模块、数据解封装模块和传输模式选择模块的I/O接口。(1).隐私保护装置150在群组健康分析装置120的处理过程中,健康数据进入群组健康分析装置120后, 会跟其他个体(即,用户)的健康数据放置在一起处理,并且可能会作为健康状况分析的参 考值呈现给其他个体,这里存在个人/人群的隐私通过系统提供咨询服务过程中被泄露的 风险。因此,有必要过滤健康数据中一些隐私的信息,比如,姓名,移动电话号码等等。可以 使得健康数据在进入群组健康分析装置120之前先通过隐私保护装置,借此过滤掉健康数 据中的有关个人/人群的隐私的数据。过滤后的健康数据再进入群组健康分析装置120后, 则不会有个人/人群的隐私泄露的风险。(2).数据管理装置170根据本发明的第一变型例的远程健康咨询系统进一步包括数据管理装置170,数 据管理装置170对存储装置140中的健康数据的完整性,以及远程健康咨询系统中传输的 个体健康分析装置110、群组健康分析装置120和综合健康分析装置130所生成的结果的数 据流和健康数据的数据流进行管理。
28
数据管理装置170包括对存储装置140中的健康数据的完整性进行管理的数据安 检单元、数据整理单元、数据集成单元、数据变换单元。其中,数据安检单元配置为对收集的 健康数据进行安全检查以防止数据携带病毒进入系统而导致对系统的破坏。数据整理单元的功能是对所收集的健康数据进行整理。因为在健康数据收集完成 之后,所收集的数据有可能缺失。比如,因为遗忘,用户没有测量体重。这样的缺失值会影 响整体的数据质量,为下一步的数据分析和处理带来困难。数据清理单元通过缺省值来填 补可能的缺失值。比如,体重等缺失值,如果最后一次测量时间很近,将使用最近一次测量 的体重值作为缺省值。而如果最后一次测量间隔较长,已达到相应阈值,则将根据之前测量 的体重变化趋势做出判断,作为缺省值。同时,任意缺省值都会被标记,为精确分析作参考。数据集成单元配置为对收集的健康数据中归因于各种原因的数据出现不兼容的 情况进行调整。比如,用户可能漏填信息,或使用不同语言表示相同的意思。数据结构可能 的数据冲突、语义异构问题,需要通过数据集成单元的集成处理进行集成。数据管理装置170还包括对远程健康咨询系统中传输的个体特健康分析装置 110、群组健康分析装置120和综合健康分析装置130所生成的结果的数据流和健康数据的 数据流进行管理以保证数据流的高效传输的数据流管理单元。为了保证数据流的通畅,服 务器端的模块化和封装化,以及系统功能的可扩展性,系统将通过数据管理装置170 (服务 器或软件)将集中管理和调用个体健康分析装置110生成的数据(结果)、群组健康分析装 置120生成的数据以及综合健康分析装置生成的数据,同时,数据管理装置170中的数据流 管理单元还同时负责和外部进行数据交换(健康分析报告的输出)和管理。数据管理单元 应处于远程咨询系统的远程服务器10中与其中的各个装置直接连接的位置。上面介绍的数据管理装置170中集成的各个功能单元只是举例说明,在实际使用 中可以根据需要和分解、组合或删减,只要保证数据管理装置170能够实施对远程健康咨 询系统中所有传输的数据的数据结构和数据流传输进行管理即可。(3).报警装置(未显示)根据本发明的第一实施例的第二变型例的远程健康咨询系统进一步包括报警装 置,配置为基于利用聚类算法检测离群点的方法,检测存储装置140中的特定个体历次和 当前输入的健康数据中的健康项目数据中的健康项目数据离群点,检测群组健康分析装置 生成的第一多个群组中的群组离群点,检测综合健康分析装置生成的第二多个群组中包含 的健康数据离群点,并在发现健康项目数据离群点、群组离群点和/或健康数据离群点时 进行相应的报警。报警装置所检测的离群点就是一些数据归向与数据的一般行为或模型不 一致。这可能意味着数据错误,也可能意味着异常情况。本领域技术人员公知的基于聚类 分析的离群点的检测方法,一般有以下几种,包括基于统计分布的离群点检测,基于距离的 离群点检测,基于密度的离群点检测和基于偏差的离群点检测。这里我们主要介绍基于距 离的离群点检测用来说明这一过程。在基于距离的离群点检测中,如果数据集合D中对象至少有P、C、T部分与对象o 的距离d大于阈值dmin,则称对象o是以P、C、T和dmin为参数的基于距离的离群点。即,只 要在数据集中,某个对象没有足够多的近邻,则被定义为离群点。比如,作为一个以年龄和体重为参数的二维的数据集,假设有一数据点0,在以dmin 为半径的范围内数据点的个数太少,其中dmin是预先设定的判定离群点的阈值,因此,这个数据点就被认为是一个异常数据点。而和这个数据点相关联的相关用户和其他数据也将会 被识别出来,并通知用户和系统作为备案。关于数据之间的距离(1_的计算,可以是基于,举例来说,并领域技术人员熟悉的 欧几里得距离,曼哈顿距离,闵可夫斯基距离来计算每一个数据点之间,或数据点到簇中心 之间,或者簇中心到簇中心之间的距离d。这里所指的报警方式包括发声报警,指示灯报警或弹出窗口报警等等方式。报警 装置可以位于远程服务器10中任何合适的位置,只要能够获取上述的健康数据,多个群组 等数据就可以了。(4) 交互装置(未显示)远程健康咨询系统的远程服务器10中包括交互装置,交互装置使得个体经由远 程特征咨询系统与其他个体和/或与健康咨询服务提供方之间进行互动咨询交流。交互装 置将为所有用户(即个体)、健康提供商和医疗专家提供相应的交流平台,如BBS,聊天窗 口、网站、邮件或电话等方式,根据不同的主题进行交流。例如,相关的专业服务人员和相关 专家通过和系统及用户的交流,配合系统优化的组合和调配,更好的提供服务。例如,社区 医院可以通过与本系统合作来更好的为社区老人做保健服务,个人健康专家可以通过系统 更好的了解其用户的身体状况,作出更客观及时地判断。(5).健康项目存在模式转换装置(未显示)在远程健康咨询系统lb中,进一步包括作为特征项目存在模式转换装置实例的 健康项目存在模式转换装置,配置为基于以仪器测量项目的模式、标准问卷项目的模式和 个体自由输入项目的模式中的一个模式存在的特定健康项目的使用频率与预定频率的比 较结果,确定该特定健康项目的存在模式是否转换为仪器测量项目的模式、标准问卷项目 的模式和个体自由输入项目的模式中另外的一个模式。在健康数据中,按照使用频率等级由高至低排列,健康项目包括以仪器测量项目 的模式存在的健康项目,以标准问卷项目的模式存在的健康项目,以个体自由输入项目的 模式存在的健康项目。对于这三种使用频率等级的健康项目,每一个都具有使用频率阈值, 即预定频率,当以仪器测量项目的模式、标准问卷项目的模式和个体自由输入项目的模式 中的一个模式存在的特定健康项目的使用频率比预定频率更大,则转换成为具有更高一级 的使用频率等级的健康项目,其中位于使用频率等级最高级的仪器测量健康项目在使用频 率大于阈值时,保持不变。例如,出现频率大于阈值的个体自由输入健康项目数据可以通过 被系统纳入标准问卷中作为标准问卷健康项目。当以仪器测量项目的模式、标准问卷项目 的模式和个体自由输入项目的模式中的一个模式存在的特定健康项目的使用频率比预定 频率更小,则转换成为具有更低一级的使用频率等级的健康项目,其中位于使用频率等级 最低级的个体自由输入健康项目在使用频率小于阈值时,保持不变。例如,不合适的、使用 频率低于阈值的仪器测量健康项目则不必使用专用仪器而转换为标准问卷健康项目或进 一步转换为个体自由输入健康项目。当然,当一些健康项目数据并不能被仪器测量时,也不 能将该数据对应的健康项目数据对应的健康项目转换为以仪器测量的模式存在。数据存在 模式转换单元可以根据需要设置在服务器10中任何适于监测健康数据使用频率的位置。装置(6)功能扩展接口 180
远程服务器10中具有功能扩展接口,所有将来的扩展单元都可以通过这个接口 和系统相连,实现即插即用的功能扩展,图7中只示范性地显示功能扩展单元1、2、3、4。例 如,保险公司可以通过增加单元来分析保险成本和设计保险产品。以上在第二变型例中说明的各个部件在使用过程中可以根据不同需要选择它们 中的任意一个或者任意几个的组合。(第二实施例)下文将参照图10和图11具体说明根据本发明的远程特征咨询系统的第二实施例 的远程购物习惯咨询系统2。图10是显示根据本发明的第二实施例的远程购物习惯咨询系 统2的框图,其中“购物习惯”是特征的另一种具体表述。远程购物习惯咨询系统2用于对 购物习惯状况进行咨询。购物习惯包括,对品牌的追求,购物的搭配喜好等。如图10所示, 远程购物习惯咨询系统2包括输入装置22a、输出装置22b、远程服务器20,远程服务器20 中包括存储装置240,作为个体特征分析装置的另一实例的个体购物习惯分析装置210、作 为群组特征分析装置的另一实例的群组购物习惯分析装置220、作为综合特征分析装置的 另一实例的综合购物习惯分析装置230等。与如图1所示的本发明第一实施例中的远程健 康咨询系统1比较,远程购物习惯咨询系统2的系统构造完全与之相同,第二实施例和第一 实施例之间的差异仅在于系统处理的数据不同。远程购物习惯咨询系统2对作为特征数据 另一实例的购物习惯数据进行处理,得出个人购物习惯数据中的作为特征项目数据另一实 例的购物习惯项目数据与购物习惯状况的关系,举例来说,用户的生活状况(例如,饮酒, 运动,职业等)和家庭状况(如婚姻,子女个数),与购物习惯(包括对品牌的追求,购物搭 配喜好等)之间的关系。图11是显示根据本发明的第二实施例的远程购物习惯咨询系统 2所处理的购物习惯数据的另一实例的示意图。这里的远程购物习惯咨询系统既同样既可 以应用于个人购物习惯的咨询,也可以应用于人群购物习惯的咨询。以下对分析个人的购 物习惯数据的远程购物习惯咨询系统进行说明,对于人群的购物习惯进行分析的远程购物 习惯咨询系统只需要将一个人群当作一个“概念上的个人”,对所分析的购物习惯数据进行 与第一实施例中类似的变化,处理的过程与远程个人购物习惯咨询系统完全一致。下面描述根据本发明的第二实施例的购物习惯数据的构成。如图11所示,与前 面描述的健康数据相同,作为特征数据另一实例的购物习惯数据中包括能够唯一地识别个 体的个体标识符项目及相应的个体标识符项目数据、以及多项作为特征项目另一实例的购 物习惯项目以及相应的作为特征项目数据另一实例的购物习惯项目数据。购物习惯项目按 照存在模式划分,包括仪器测量健康项目、标准问卷健康项目等。其中,与上述的第一实施 例类似,仪器测量健康项目是适合的仪器所测量,举例来说,超市收银台的条码扫描仪所识 别的商品条码号。标准问卷健康项目是个人购物习惯咨询系统2提供的。在购物习惯项目 数据中,包括能够直接表征购物习惯状况的包括代码和数值的数据,如条码扫描仪从识别 的条码号反应的商品品牌,商品名称等,还包括能够对购物习惯状况产生影响的数据,如职 业,家庭人数等。下面描述远程个人购物习惯咨询系统2对个人购物习惯数据的处理过程。输入装 置22a收集购物习惯数据,并将个人购物习惯数据传输至远程服务器20。远程服务器20中的存储装置240根据购物习惯数据中的个体标识符项目数据存 储购物习惯数据;
31
个体购物习惯分析装置210根据存储装置中存储的特定个体历次和当前输入的 购物习惯数据生成个体统计分析结果和个体关联结果,并且基于特定个体历次和当前输入 的购物习惯数据、个体统计分析结果和个体关联结果生成作为个体特征分析报告的另一实 例的个体购物习惯分析报告,与第一实施例中的个体健康分析装置110类似,在个体购物 习惯分析装置210也包括个体统计分析单元、个体关联分析单元和个体报告生成单元。统 计分析单元对特定个体历次和当前输入的购物习惯数据进行与第一实施例中的个体统计 分析单元111相同的处理,统计出特定个体历次和当前输入的购物习惯数据中各个购物习 惯项目数据的变化趋势,从而得到反映购物习惯状况的变化趋势的个体统计分析结果。个 体关联分析单元对特定个体历次和当前输入的购物习惯数据进行与第一实施例中的个体 关联分析单元112相同的关联分析,找出个人购物习惯数据中的直接表征购物习惯状况的 购物习惯项目数据或这些购物习惯项目数据的组合和能够影响生活状况的购物习惯项目 数据之间关联的个体关联结果,例如,用户的职业与追求品牌的关联,用户心情与购物量的 关联,其中个体购物习惯分析装置中的个体关联分析装置执行的关联算法是在由多个事务 组成的事务集中找出多个事务中的每一个事务所包含的多个项集之间的关联的算法。在关 联算法中,使用特定个体历次和当前输入的购物习惯数据作为一个事务集,特定个体历次 和当前输入的购物习惯数据中的每一个购物习惯数据作为多个事务中的一个事务,并且使 用由特定个体历次和当前输入的购物习惯数据中的每一个购物习惯数据中的至少一个购 物习惯项目数据组成的集合作为多个项集中的一个项集。在考虑到购物习惯数据的时效性 的情形中,特定个体历次和当前输入的购物习惯数据包括两个以上的购物习惯数据,从特 定个体历次和当前输入的购物习惯数据中以成对的方式选择购物习惯数据进行组合,并以 该购物习惯数据的组合作为关联算法中的事务,其中,以成对的方式选择出的购物习惯数 据的购物习惯数据输入时间的差值为预定值;事务中包括以成对的方式选择出的购物习惯数据中的全部购物习惯项目数据;并 且成对选择出的购物习惯数据中的至少一个购物习惯项目数据组成的集合作为多个项集 中的一个项集。最后,个体报告生成单元接收并根据特定个体历次和当前输入的购物习惯 数据,个体统计分析结果和个体关联结果来生成个体购物习惯分析报告。接下来描述群组购物习惯分析装置220对个人购物习惯数据的处理。购物习惯分 析装置220根据存储装置中存储的所有个体历次和当前输入的购物习惯数据生成多个群 组(第一多个群组)、与第一多个群组对应的群组统计分析结果和群组关联结果,并且基于 所有个体历次和当前输入的购物习惯数据,第一多个群组,与第一多个群组对应的群组统 计分析结果和群组关联结果生成作为群组特征分析报告的另一实例的群组购物习惯分析 报告。与第一实施例的远程健康咨询系统1类似,远程购物习惯咨询系统2的群组购物习 惯分析装置220也包括聚类单元、群组统计分析单元,群组关联分析单元和群组报告生成 单元。群组购物习惯分析装置220的聚类单元基于聚类算法对所有个体历次和当前输 入的购物习惯数据进行处理以分别根据购物习惯数据中的单个购物习惯项目和购物习惯 项目的组合生成第一多个群组,在第一多个群组中,由基于单个购物习惯项目所生成的群 组,其中,存在于同一群组中的购物习惯数据的对应于单个购物习惯项目的购物习惯项目 数据相同或在同一数据范围内,由基于多个购物习惯项目所生成的群组,其中,存在于同一群组中的购物习惯数据的对应于多个购物习惯项目的多个购物习惯项目数据分别相同或 分别在同一数据范围内。群组购物习惯分析装置220中的聚类单元所基于的聚类算法与第 一实施例中描述的完全一致。群组购物习惯分析装置220中的群组统计分析单元对多个群组中的每一个群组 中的购物习惯数据进行统计分析,生成显示多个群组中的每一个群组的购物习惯状况的群 组统计分析结果。接下来群组购物习惯分析装置220中群组关联分析单元对多个群组中的每一个 群组中的购物习惯数据的购物习惯项目数据执行关联算法,得出多个群组中的每一个群组 中的购物习惯数据的购物习惯项目数据或购物习惯项目数据的组合分别与购物习惯状况 关联的群组关联结果,在关联算法中,使用第一多个群组中的每一个群组所包括的所有购 物习惯数据作为一个事务集,第一多个群组中的每一个群组的每一个购物习惯数据作为多 个事务中的一个事务,并且使用由第一多个群组中的每一个群组中的每一个购物习惯数据 中的至少一个购物习惯项目数据组成的集合作为多个项集中的一个项集。在考虑购物习惯 数据的时效性的情形中,其中所有个体历次和当前输入的购物习惯数据中包括的属于同一 个体的购物习惯数据包括两个以上的购物习惯数据,从所有个体历次和当前输入的购物习 惯数据中包括的属于同一个体的购物习惯数据中以成对的方式选择购物习惯数据进行组 合,并以该购物习惯数据的组合作为关联算法中的事务,其中,以成对的方式选择出的购物 习惯数据的购物习惯数据输入时间的差值为预定值;事务中包括以成对的方式选择出的购 物习惯数据中的全部购物习惯项目数据;并且成对选择出的购物习惯数据中的至少一个购 物习惯项目数据组成的集合作为多个项集中的一个项集。。群组统计分析结果和群组关联结果被传输至群组报告生成单元。群组购物习惯分 析装置220中的结果生成单元基于前述的第一多个群组、对应于第一多个群组的群组统计 分析结果和群组关联结果以预定格式生成群组购物习惯分析分析报告。接下来,综合购物习惯分析装置230对存储在存储装置240中的特定个体历次和 当前输入的购物习惯数据和上述群组购物习惯分析装置220中的聚类单元121生成的多个 群组进行归类、预测等处理,生成与特定个体历次输入的健康数据对应的多个群组(第二 多个群组)和涉及第二多个群组的优化的预测分析结果,并且基于第二多个群组和涉及第 二多个群组的优化的预测分析结果生成综合健康分析报告。与第一实施例类似,在综合购 物习惯分析装置230中,综合购物习惯分析装置230中的相似度计算单元先计算特定个体 历次和当前输入的购物习惯数据分别与群组购物习惯分析装置生成的第一多个群组中的 每一个群组之间的相似程度的多个相似度。综合购物习惯分析装置230中的归类单元根据 上面的多个相似度,对特定个体历次和当前输入的购物习惯数据和多个群组进行归类处理 以从多个群组中选择出与特定个体历次和当前输入的购物习惯数据对应的第二多个群组。 接下来,综合购物习惯分析装置230中的预测算法单元基于预测算法对特定个体历次和当 前输入的购物习惯数据和第二多个群组进行预测分析,得出与第二多个群组一一对应的多 个购物习惯预测分析结果。接下来,综合购物习惯分析装置230中的综合优化单元结合相 似度对多个购物习惯预测分析结果进行权重分配,以生成优化的购物习惯预测分析结果。 最后,上述处理所生成的第二多个群组和涉及第二多个群组的优化的购物习惯预测结果进 入综合购物习惯报告生成单元,综合购物习惯报告生成单元基于与特定个体对应的多个群
33组和优化的购物习惯预测结果以预定格式生成作为综合特征分析报告的另一实例的综合 购物习惯分析报告。根据本发明的第二实施例的远程购物习惯咨询系统2也可以做出与第一实施例 的相同的变型,在根据第二实施例的变型例的远程购物习惯咨询系统2中的购物习惯数据 中也可以包括个体自由输入内容,并进一步包括数据识别装置,也可以进一步包括交互装 置、数据管理装置、报警装置以及隐私保护单元,购物习惯项目存在模式转换装置、输入/ 输出装置中的统一数据接口等等中的任意一个或它们的组合。上面描述过的本发明的各个处理装置中分别使用的各种算法,包括聚类算法、 关联算法、预测算法等以及相似度计算、基于聚类算法的离群点检测方法等均是本领域 技术人员所公知的,有关其具体原理和算法流程的内容可以参见Data Mining Concepts andTechniques,Second Edition by [Canada]Jiawei Han,Micheline Kamber。以上的各个实施例描述了根据本发明的作为远程特征咨询系统的实例的远程健 康咨询系统和远程购物习惯咨询系统,对个人或人群的除健康状况。购物习惯状况以外的 其他特征状况进行咨询系统也可以作为远程特征咨询系统的实例。另外,为了说明的简便, 在根据本发明的实施例的远程健康咨询系统和远程购物习惯咨询系统的说明中,只对解决 本发明所针对的技术问题所必需的关键部件作出了详细说明,而省略了对其他非关键部件 的说明,如系统的显示装置、电源装置等等。描述,其他的优点和变型对本领域技术人员来说是容易想到的。因此,本发明就较 宽的方面而言,并不局限于这里显示和描述的具体细节和典型实施例。在不脱离所附的权 利要求及其等同概念所定义的总的发明构思的宗旨和范围的情况下,可进行各种变型。
权利要求
一种用于咨询特征状况的远程特征咨询系统,其特征在于,包括输入装置,收集输入的特征数据,所述特征数据包括个体标识符项目和对应的个体标识符项目数据、多项特征项目和与各项特征项目对应的特征项目数据;以及远程服务器,包括存储装置,根据所述特征数据中的所述个体标识符项目数据存储所述特征数据;个体特征分析装置,根据所述存储装置中存储的特定个体历次和当前输入的特征数据生成个体统计分析结果和个体关联结果,并且基于所述特定个体历次和当前输入的特征数据、所述个体统计分析结果和所述个体关联结果生成个体特征分析报告,群组特征分析装置,根据所述存储装置中存储的所有个体历次和当前输入的特征数据生成第一多个群组、与所述第一多个群组对应的群组统计分析结果和群组关联结果,并且基于所述第一多个群组,所述群组统计分析结果和所述群组关联结果生成群组特征分析报告,和综合特征分析装置,根据所述存储装置中存储的所述特定个体历次和当前输入的特征数据和所述群组特征分析装置生成的所述第一多个群组生成与所述特定个体历次输入的特征数据对应的第二多个群组和涉及所述第二多个群组的优化的预测分析结果,并且基于所述第二多个群组和所述优化的预测分析结果生成综合特征分析报告。
2.如权利要求1所述的远程特征咨询系统,其特征在于,进一步包括输出装置,配置为接收并以预定格式输出所述个体特征分析报告、所述群组特征分析 报告和所述综合特征分析报告。
3.如权利要求1所述的远程特征咨询系统,其特征在于,所述个体特征分析装置包括个体统计分析单元,配置为对所述存储装置中所述特定个体历次和当前输入的特征数据进行统计分析,生成反映特征状况的变化趋势的所述个体统计分析结果;个体关联分析单元,配置为对所述特定个体历次和当前输入的特征数据中的特征项目 数据执行关联算法得出所述特定个体历次和当前输入的特征数据中单个特征项目数据、特 征项目数据的组合及特征项目数据的排列分别与所述特征状况关联的所述个体关联结果; 以及个体报告生成单元,配置为基于所述特定个体历次和当前输入的特征数据、所述个体 统计分析结果和所述个体关联结果生成所述个体特征分析报告。
4.如权利要求3所述的远程特征咨询系统,其特征在于,所述个体特征分析装置中的 个体关联分析单元执行的所述关联算法是在由多个事务组成的事务集中找出所述多个事 务中的每一个事务所包含的多个项集之间的关联的算法。
5.如权利要求4所述的远程特征咨询系统,其特征在于,在所述关联算法中,使用所述 特定个体历次和当前输入的特征数据作为一个事务集,所述特定个体历次和当前输入的特 征数据中的每一个特征数据作为所述多个事务中的一个事务,并且使用由所述特定个体历 次和当前输入的特征数据中的每一个特征数据中的至少一个特征项目数据组成的集合作 为所述多个项集中的一个项集。
6.如权利要求4所述的远程特征咨询系统,其特征在于,所述特征数据进一步包括特 征数据输入时间,所述特定个体历次和当前输入的特征数据包括两个以上的所述特征数 据,从所述特定个体历次和当前输入的特征数据中以成对的方式选择特征数据进行组合, 并以该特征数据的组合作为所述关联算法中的事务,其中,以成对的方式选择出的特征数 据的特征数据输入时间的差值为预定值;所述事务中包括所述以成对的方式选择出的特征数据中的全部特征项目数据;并且成 对选择出的特征数据中的至少一个特征项目数据组成的集合作为所述多个项集中的一个 项集。
7.如权利要求1所述的远程特征咨询系统,其特征在于,所述群组特征分析装置包括聚类单元,配置为分别基于单个特征项目和多个特征项目对所述存储装置中所述所有个体历次和当前输入的特征数据执行聚类算法以生成所述第一多个群组,在所述第一多个 群组中,由基于单个特征项目所生成的群组,其中,存在于同一群组中的特征数据的对应于所 述单个特征项目的特征项目数据相同或在同一数据范围内,由基于多个特征项目所生成的群组中,其中,存在于同一群组中的特征数据的对应于 所述多个特征项目的多个特征项目数据分别相同或分别在同一数据范围内;群组统计分析单元,配置为对所述第一多个群组中的每一个群组中的特征数据进行 统计分析,生成显示所述第一多个群组中的每一个群组的特征状况的所述群组统计分析结 果;群组关联分析单元,配置为对所述第一多个群组中的每一个群组中的特征数据的特征 项目数据执行关联算法,得出所述第一多个群组中的每一个群组中的特征数据的特征项目 数据或特征项目数据的组合分别与特征状况关联的所述群组关联结果;以及群组报告生成单元,配置为基于所述第一多个群组,所述群组统计分析结果和所述群 组关联结果生成所述群组特征分析报告。
8.如权利要求7所述的远程特征咨询系统,其特征在于,所述群组特征分析装置中的 群组关联分析单元执行的所述关联算法是在由多个事务组成的事务集中找出所述多个事 务中每一个事务所包含的多个项集之间的关联的算法。
9.如权利要求8所述的远程特征咨询系统,其特征在于,在所述关联算法中,使用所述 第一多个群组中的每一个群组所包括的所有特征数据作为一个所述事务集,所述第一多个 群组中的每一个群组的每一个特征数据作为所述多个事务中的一个事务,并且使用由所述 第一多个群组中的每一个群组中的每一个特征数据中的至少一个特征项目数据组成的集 合作为所述多个项集中的一个项集。
10.如权利要求8所述的远程特征咨询系统,其特征在于,所述特征数据进一步包括特 征数据输入时间,所述所有个体历次和当前输入的特征数据中包括的属于同一个体的特征 数据包括两个以上的所述特征数据,从所述所有个体历次和当前输入的特征数据中包括的属于同一个体的特征数据中以 成对的方式选择特征数据进行组合,并以该特征数据的组合作为所述关联算法中的事务, 其中,以成对的方式选择出的特征数据的特征数据输入时间的差值为预定值;所述事务中包括所述以成对的方式选择出的特征数据中的全部特征项目数据;并且成 对选择出的特征数据中的至少一个特征项目数据组成的集合作为所述多个项集中的一个 项集。
11.如权利要求1所述的远程特征咨询系统,其特征在于,所述综合特征分析装置包括相似度计算单元,配置为计算出反映所述存储装置中存储的所述特定个体历次和当前 输入的特征数据分别与所述群组特征分析装置生成的所述第一多个群组中的每一个群组 之间的相似程度的多个相似度;归类单元,配置为基于所述多个相似度,对所述所述特定个体历次和当前输入的特征 数据和所述第一多个群组进行归类处理以从所述第一多个群组中选择出与所述特定个体 历次和当前输入的特征数据对应的所述第二多个群组;预测算法单元,配置为对所述特定个体历次和当前输入的特征数据和所述第二多个群 组执行预测算法以得出与所述第二多个群组一一对应的预测特征状况变化的多个预测分 析结果;综合优化单元,配置为根据所述多个相似度对所述多个预测分析结果进行权重分配以 生成所述优化的预测分析结果;以及综合报告生成单元,配置为基于所述第二多个群组和所述优化的预测分析结果生成所 述综合特征分析报告。
12.如权利要求1所述的远程特征咨询系统,其特征在于,进一步包括报警装置,配置为基于利用聚类算法检测离群点的方法,检测所述存储装置中的所述特定个体历 次和当前输入的特征数据中的特征项目数据中的特征项目数据离群点,检测所述群组特征 分析装置生成的所述第一多个群组中的群组离群点,检测所述综合特征分析装置生成的所 述第二多个群组中包含的特征数据离群点,并在发现所述特征项目数据离群点、所述群组 离群点和/或特征数据离群点时进行相应的报警。
13.如权利要求1-12任意一项所述的远程特征咨询系统,其特征在于,所述特征数据 中包括分别以仪器测量项目的模式存在的特征项目和以标准问卷项目的模式存在的特征 项目。
14.如权利要求13所述的远程特征咨询系统,其特征在于,所述远程服务器进一步包括数据识别装置,当所述输入装置收集的所述特征数据中包 括个体自由输入内容时,所述数据识别装置从所述个体自由输入内容识别出附加的特征项 目及相应的特征项目数据,并将所述附加的特征项目及相应的特征项目数据加入所述特征 数据中,所述附加的特征项目在所述特征数据中以个体自由输入项目的模式存在。
15.如权利要求14所述的远程特征咨询系统,其特征在于,进一步包括特征项目存在模式转换装置,配置为基于以所述仪器测量项目的模式、所述标准问卷 项目的模式和所述个体自由输入项目的模式中的一个模式存在的特定特征项目的使用频 率与预定频率的比较结果,确定所述特定特征项目的存在模式是否转换为所述仪器测量项 目的模式、所述标准问卷项目的模式和所述个体自由输入项目的模式中另外的一个模式。
16.如权利要求14所述的远程特征咨询系统,其特征在于,进一步包括交互装置,所述交互装置使得所述个体经由所述远程特征咨询系统与其他个体和/或 与特征咨询服务提供方之间进行互动咨询交流。
17.如权利要求14所述的远程特征咨询系统,其特征在于,进一步包括数据管理装置,所述数据管理装置管理所述存储装置中的特征数据的完整性,以及所述远程特征咨询系统中传输的所述个体特征分析装置、所述群组特征分析装置和所述综合 特征分析装置所生成的结果的数据流和所述特征数据的数据流。
18.如权利要求14所述的远程特征咨询系统,其特征在于,进一步包括隐私保护装置,所述隐私保护装置在所述特征数据进入所述群组特征分析装置之前过 滤所述特征数据中的隐私信息以防止所述隐私信息泄露。
19.如权利要求14所述的远程特征咨询系统,其特征在于,所述输入装置和所述输出 装置具有统一数据格式的接口。
20.一种用于咨询特征状况的远程特征咨询方法,其特征在于,包括输入处理,收集输入的特征数据,所述特征数据包括个体标识符项目和对应的个体标 识符项目数据、多项特征项目和与各项特征项目对应的特征项目数据;存储处理,根据所述特征数据中的所述个体标识符项目数据存储所述特征数据;个体特征分析处理,根据所述存储处理中存储的特定个体历次和当前输入的特征数据 生成个体统计分析结果和个体关联结果,并且基于所述特定个体历次和当前输入的特征数 据、所述个体统计分析结果和所述个体关联结果生成个体特征分析报告,群组特征分析处理,根据所述存储处理中存储的所有个体历次和当前输入的特征数据 生成第一多个群组、与所述第一多个群组对应的群组统计分析结果和群组关联结果,并且 基于所述第一多个群组,所述群组统计分析结果和所述群组关联结果生成群组特征分析报 告,以及综合特征分析处理,根据所述存储处理中存储的所述特定个体历次和当前输入的特征 数据和所述群组特征分析处理生成的所述第一多个群组生成与所述特定个体历次输入的 特征数据对应的第二多个群组和涉及所述第二多个群组的优化的预测分析结果,并且基于 所述第二多个群组和所述优化的预测分析结果生成综合特征分析报告。
21.如权利要求20所述的远程特征咨询方法,其特征在于,进一步包括输出处理,接收并以预定格式输出所述个体特征分析报告、所述群组特征分析报告和 所述综合特征分析报告。
22.如权利要求20所述的远程特征咨询方法,其特征在于,所述个体特征分析处理包括个体统计分析步骤,对所述存储处理中存储的所述特定个体历次和当前输入的特征数 据进行统计分析,生成反映特征状况的变化趋势的所述个体统计分析结果;个体关联分析步骤,对所述特定个体历次和当前输入的特征数据中的特征项目数据执 行关联算法得出所述特定个体历次和当前输入的特征数据中单个特征项目数据、特征项目 数据的组合及特征项目数据的排列分别与所述特征状况关联的所述个体关联结果;以及个体报告生成步骤,基于所述特定个体历次和当前输入的特征数据、所述个体统计分 析结果和所述个体关联结果生成所述个体特征分析报告。
23.如权利要求22所述的远程特征咨询方法,其特征在于,所述个体特征分析处理中 的个体关联分析步骤执行的所述关联算法是在由多个事务组成的事务集中找出所述多个 事务中的每一个事务所包含的多个项集之间的关联的算法。
24.如权利要求23所述的远程特征咨询方法,其特征在于,在所述关联算法中,使用所 述特定个体历次和当前输入的特征数据作为一个事务集,所述特定个体历次和当前输入的特征数据中的每一个特征数据作为所述多个事务中的一个事务,并且使用由所述特定个体 历次和当前输入的特征数据中的每一个特征数据中的至少一个特征项目数据组成的集合 作为所述多个项集中的一个项集。
25.如权利要求23所述的远程特征咨询方法,其特征在于,所述特征数据进一步包括 特征数据输入时间,所述特定个体历次和当前输入的特征数据包括两个以上的所述特征数 据,从所述特定个体历次和当前输入的特征数据中以成对的方式选择特征数据进行组合, 并以该特征数据的组合作为所述关联算法中的所述事务,其中,以成对的方式选择出的特 征数据的特征数据输入时间的差值为预定值,所述事务中包括所述以成对的方式选择出的 特征数据中的全部特征项目数据;以及以成对的方式选择出的特征数据中的至少一个特征项目数据组成的集合作为所述多 个项集中的一个项集。
26.如权利要求20所述的远程特征咨询方法,其特征在于,所述群组特征分析处理包括聚类步骤,分别基于单个特征项目和多个特征项目对所述存储处理中所述所有个体 历次和当前输入的特征数据执行聚类算法以生成所述第一多个群组,在所述第一多个群组 中,由基于单个特征项目所生成的群组,其中,存在于同一群组中的特征数据的对应于所 述单个特征项目的特征项目数据相同或在同一数据范围内,由基于多个特征项目所生成的群组中,其中,存在于同一群组中的特征数据的对应于 所述多个特征项目的多个特征项目数据分别相同或分别在同一数据范围内;群组统计分析步骤,对所述第一多个群组中的每一个群组中的特征数据进行统计分 析,生成显示所述第一多个群组中的每一个群组的特征状况的所述群组统计分析结果;群组关联分析步骤,对所述第一多个群组中的每一个群组中的特征数据的特征项目数 据执行关联算法,得出所述第一多个群组中的每一个群组中的特征数据的特征项目数据或 特征项目数据的组合分别与特征状况关联的所述群组关联结果;以及群组报告生成步骤,基于所述第一多个群组,所述群组统计分析结果和所述群组关联 结果生成所述群组特征分析报告。
27.如权利要求26所述的远程特征咨询方法,其特征在于,所述群组特征分析处理中 的群组关联分析步骤执行的所述关联算法是在由多个事务组成的事务集中找出所述多个 事务中每一个事务所包含的多个项集之间的关联的算法。
28.如权利要求27所述的远程特征咨询方法,其特征在于,在所述关联算法中,使用所 述第一多个群组中的每一个群组所包括的所有特征数据作为一个所述事务集,所述第一多 个群组中的每一个群组的每一个特征数据作为所述多个事务中的一个事务,并且使用由所 述第一多个群组中的每一个群组中的每一个特征数据中的至少一个特征项目数据组成的 集合作为所述多个项集中的一个项集。
29.如权利要求27所述的远程特征咨询方法,其特征在于,所述特征数据进一步包括 特征数据输入时间,所述所有个体历次和当前输入的特征数据中包括的属于同一个体的特 征数据包括两个以上的所述特征数据,从所述所有个体历次和当前输入的特征数据中包括的属于同一个体的特征数据中以 成对的方式选择特征数据进行组合,并以该特征数据的组合作为所述关联算法中的事务, 其中,以成对的方式选择出的特征数据的特征数据输入时间的差值为预定值,所述事务中 包括所述以成对的方式选择出的特征数据中的全部特征项目数据;以及以成对的方式选择出的特征数据中的至少一个特征项目数据组成的集合作为所述多 个项集中的一个项集。
30.如权利要求20所述的远程特征咨询方法,其特征在于,所述综合特征分析处理包括相似度计算步骤,计算出反映所述存储处理中存储的所述特定个体历次和当前输入的 特征数据分别与所述群组特征分析处理生成的所述第一多个群组中的每一个群组之间的 相似程度的多个相似度;归类步骤,基于所述多个相似度,对所述所述特定个体历次和当前输入的特征数据和 所述第一多个群组进行归类以从所述第一多个群组中选择出与所述特定个体历次和当前 输入的特征数据对应的所述第二多个群组;预测算法步骤,对所述特定个体历次和当前输入的特征数据和所述第二多个群组执 行预测算法以得出与所述第二多个群组一一对应的预测特征状况变化的多个预测分析结 果;综合优化步骤,根据所述多个相似度对所述多个预测分析结果进行权重分配以生成所 述优化的预测分析结果;以及综合报告生成步骤,基于所述第二多个群组和所述优化的预测分析结果生成所述综合 特征分析报告。
31.如权利要求20所述的远程特征咨询方法,其特征在于,进一步包括报警处理,基于利用聚类算法检测离群点的方法,检测所述特定个体历次和当前输入的特征数据 中的特征项目数据中的特征项目数据离群点,检测所述群组特征分析处理生成的所述第一 多个群组中的群组离群点,检测所述综合特征分析处理生成的所述第二多个群组中包含的 特征数据离群点,并在发现所述特征项目数据离群点、所述群组离群点和/或特征数据离 群点时进行相应的报警。
32.如权利要求20-31任意一项所述的远程特征咨询方法,其特征在于,所述特征数据 中包括分别以仪器测量项目的模式存在的特征项目和以标准问卷项目的模式存在的特征 项目。
33.如权利要求32所述的远程特征咨询方法,其特征在于,所述远程服务器进一步包括数据识别处理,当所述输入处理收集的所述特征数据中包 括个体自由输入内容时,所述数据识别处理从所述个体自由输入内容识别出附加的特征项 目及相应的特征项目数据,并将所述附加的特征项目及相应的特征项目数据加入所述特征 数据中,所述附加的特征项目在所述特征数据中以个体自由输入项目的模式存在。
34.如权利要求33所述的远程特征咨询方法,其特征在于,进一步包括特征项目存在模式转换处理,基于以所述仪器测量项目的模式、所述标准问卷项目的 模式和所述个体自由输入项目的模式中的一个模式存在的特定特征项目的使用频率与预 定频率的比较结果,确定所述特定特征项目的存在模式是否转换为所述仪器测量项目的模式、所述标准问卷项目的模式和所述个体自由输入项目的模式中另外的一个模式。
全文摘要
本发明提供了一种用于咨询特征状况的远程特征咨询系统,包括收集输入的特征数据的输入装置,其中特征数据包括个体标识符项目和个体标识符项目数据、多项特征项目和与各项特征项目对应的特征项目数据;以及远程服务器,包括根据特征数据中的个体标识符项目数据存储特征数据的存储装置、个体特征分析装置、群组特征分析装置和综合特征分析装置。本发明还提供了一种相应的用于咨询特征状况的远程特征咨询方法。
文档编号G06Q50/00GK101853428SQ200910048809
公开日2010年10月6日 申请日期2009年4月3日 优先权日2009年4月3日
发明者范晓 申请人:范晓
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1