网络用户健康状况的评价方法、系统及设备与流程

文档序号:12034628阅读:166来源:国知局
网络用户健康状况的评价方法、系统及设备与流程

本发明涉及通信领域,尤其涉及一种网络用户健康状况的评价方法、系统及设备。



背景技术:

目前,一些互联网应用充当平台的角色,服务提供者和服务需求者在平台上注册,服务提供者为服务需求者提供相关服务。在某些场景下,服务提供者应该是健康的。所以在对服务提供者和服务需求者进行匹配的时候,需要将服务提供者近期的健康状况作为一个参考指标。

当前的相关技术中,通过医疗检测数据来评价用户的健康状况,该相关技术一般包括以下步骤:

采集医疗检测数据,例如血压、血糖、bmi(bodymassindex,体质指数),骨密度、心血管、动脉硬化、血氧等基础项数据;

对采集的医疗检测数据进行筛选,筛选出最新数据参与健康指数计算;

对血压、血糖、bmi、骨密度、心血管等基础项采用等比法、区间取值法计算单项指标评分;

基于单项指标评分加权平均计算综合健康指数。

上述相关技术存在以下弊端:

一是,用户的医疗检测数据难以获取。用户的医疗检测数据虽然可以反映用户的健康状况,但由于该类数据属于高度隐私数据,用户往往不愿意提供这些数据,这使得基于医疗检测数据检测用户健康状况的方案可行性非常低。

二是,基于医疗检测数据获得的健康状况更新成本高。由于医疗检测数据的收集成本较高,受限于高成本,基于医疗检测数据获得的健康状况更不可能周期性地进行更新。

三是,基于医疗检测数据获得的健康状况对可信度低。对单项指标评分进行加权计算综合健康指数时,权重的选取主观性较强,导致降低了基于医疗检测数据获得的健康状况的可信度。



技术实现要素:

本发明的目的在于提供一种网络用户健康状况的评价方法、系统及设备,开拓一种新的健康状况评价方式。

为实现上述目的,本发明提出了一种网络用户健康状况的评价方法,包括:

获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;

基于所述网络行为数据,评价所述待测用户的健康状况。

进一步地,上述方法还可具有以下特点,所述基于所述网络行为数据,评价所述待测用户的健康状况包括:

根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户;

从所述网络行为数据中提取所述待测用户和所述样本用户的特征数据;

以所述特征数据作为预设的健康指数计算模型的输入,计算获得所述待测用户的健康指数。

进一步地,上述方法还可具有以下特点,所述根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户包括:

根据所述网络行为数据中的第一指定网络行为数据从所述多个用户中选择正样本用户,所述正样本用户不包括所述待测用户;

根据所述网络行为数据中的第二指定网络行为数据从所述多个用户中选择负样本用户,所述负样本用户不包括所述待测用户。

进一步地,上述方法还可具有以下特点,所述根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户还包括:

分别从所述正样本用户和所述负样本用户中清除重叠样本用户,所述重叠样本用户指既是正样本用户又是负样本用户的样本用户;

平衡所述正样本用户和所述负样本用户的数量比例,使所述数量比例 处于设定比例范围内。

进一步地,上述方法还可具有以下特点,所述第一指定网络行为数据为在预设的第一历史时期内在运动类目下的购买行为数据,所述第二指定网络行为数据为在预设的第二历史时期内搜索和浏览医疗挂号网站的行为数据。

进一步地,上述方法还可具有以下特点,所述以所述特征数据作为预设的健康指数计算模型的参数,计算获得所述待测用户的健康指数,包括:

利用所述样本用户的特征数据对所述健康指数计算模型进行训练,以得到所述健康指数计算模型中的参数值;

将所述待测用户的特征数据作为以所述参数值为参数的所述健康指数计算模型的输入,以预测出所述待测用户的健康概率;

对所述待测用户的健康概率进行归一化处理,以获得所述待测用户的健康指数。

进一步地,上述方法还可具有以下特点,所述特征数据包括体质指数bmi、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作之中的任意多种。

本发明实施例的网络用户健康状况的评价方法,基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式。并且,本发明实施例的网络用户健康状况的评价方法,成本低,可行性高,更新快。

为实现上述目的,本发明还提出了一种网络用户健康状况的评价系统,包括:

获取装置,用于获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;

评价装置,用于基于所述获取装置获取的所述网络行为数据,评价所述待测用户的健康状况。

进一步地,上述系统还可具有以下特点,所述评价装置包括:

选择模块,用于根据所述网络行为数据中的指定网络行为数据从所述多个用户中选择样本用户;

提取模块,用于从所述网络行为数据中提取所述待测用户和所述选择模块选择的所述样本用户的特征数据;

计算模块,用于以所述提取模块提取的所述特征数据作为预设的健康指数计算模型的输入,计算获得所述待测用户的健康指数。

进一步地,上述系统还可具有以下特点,所述选择模块包括:

第一选择单元,用于根据所述网络行为数据中的第一指定网络行为数据从所述多个用户中选择正样本用户,所述正样本用户不包括所述待测用户;

第二选择单元,用于根据所述网络行为数据中的第二指定网络行为数据从所述多个用户中选择负样本用户,所述负样本用户不包括所述待测用户。

进一步地,上述系统还可具有以下特点,所述选择模块还包括:

清除单元,用于分别从所述正样本用户和所述负样本用户中清除重叠样本用户,所述重叠样本用户指既是正样本用户又是负样本用户的样本用户。

平衡单元,用于平衡所述正样本用户和所述负样本用户的数量比例,使所述数量比例处于设定比例范围内。

进一步地,上述系统还可具有以下特点,所述第一指定网络行为数据为在预设的第一历史时期内在运动类目下的购买行为数据,所述第二指定网络行为数据为在预设的第二历史时期内搜索和浏览医疗挂号网站的行为数据。

进一步地,上述系统还可具有以下特点,所述计算模块包括:

训练单元,用于利用所述样本用户的特征数据对所述健康指数计算模型进行训练,以得到所述健康指数计算模型中的参数值;

预测单元,用于将所述待测用户的特征数据作为以所述参数值为参数的所述健康指数计算模型的输入,以预测出所述待测用户的健康概率;

归一化单元,用于对所述预测单元预测出的所述待测用户的健康概率进行归一化处理,以获得所述待测用户的健康指数。

进一步地,上述系统还可具有以下特点,所述特征数据包括体质指数bmi、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作之中的任意多种。

本发明实施例的网络用户健康状况的评价系统,基于用户的网络行为 数据评价用户的健康状况,开启了健康状况评价的新方式。并且,本发明实施例的网络用户健康状况的评价系统,成本低,可行性高,更新快。

为实现上述目的,本发明还提出了一种网络用户健康状况的评价设备,包括前述任一项所述的网络用户健康状况的评价系统。

本发明实施例的网络用户健康状况的评价设备,包括网络用户健康状况的评价系统,能够基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式,成本低,可行性高,更新快。

附图说明

图1为本发明实施例一中网络用户健康状况的评价方法的流程图。

图2为本发明实施例二中网络用户健康状况的评价方法的流程图。

图3为本发明实施例三中网络用户健康状况的评价系统的结构框图。

图4为本发明实施例四中网络用户健康状况的评价系统的结构框图。

图5为本发明实施例五中网络用户健康状况的评价设备的结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,根据本发明精神所获得的所有实施例,都属于本发明的保护范围。

图1为本发明实施例一中网络用户健康状况的评价方法的流程图。如图1所示,本实施例中,网络用户健康状况的评价方法可以包括如下步骤:

步骤s101,获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;

其中,从网络行为数据中可以提取出电商行为数据、网页浏览行为数据、体质指数bmi、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作等特征数据。

其中,设定历史时期一般是过去两周、过去一个月、过去一年等等。对于不同种类的网络行为数据,设定历史时期可以不同。例如,当获取的 网络行为数据是电商行为数据时,设定历史时期可以是过去一个月,当获取的网络行为数据为是否经常熬夜时,设定历史时期可以是过去两周。

网络行为数据是由网络服务器自动记录的,可以从网络服务器获取。由于网络行为数据不属于隐私数据,多数都可以公开,并且也不需要由用户本人提供,因此获取非常容易,而且成本很低,这就使得本发明基于网络行为数据评价用户健康状况的方案可行性非常高。

步骤s102,基于获取的网络行为数据,评价待测用户的健康状况。

网络行为数据可以在一定程度上反映用户的健康状况,而且在当今的互联网时代,人们的日常生活与网络密不可分,上网行为几乎无时无处不在,因此本发明开拓性地基于网络行为数据来评价用户的健康状况。这相对于传统的基于医疗检测数据的健康状况评价方式具有革命性的意义。并且,网络行为数据不仅更新快,而且其更新几乎不需要任何成本,因此,基于网络行为数据的更新来更新用户的健康状况不仅更新快,而且更新成本非常低廉。

本发明实施例的网络用户健康状况的评价方法,基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式。并且,本发明实施例的网络用户健康状况的评价方法,成本低,可行性高,更新快。

图2为本发明实施例二中网络用户健康状况的评价方法的流程图。如图2所示,本实施例中,网络用户健康状况的评价方法可以包括如下步骤:

步骤s201,获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;

步骤s202,根据该网络行为数据中的指定网络行为数据从该多个用户中选择样本用户;

在本发明实施例中,根据网络行为数据中的指定网络行为数据从该多个用户中选择样本用户可以包括:

根据网络行为数据中的第一指定网络行为数据从该多个用户中选择正样本用户,其中,正样本用户不包括待测用户;

根据网络行为数据中的第二指定网络行为数据从该多个用户中选择负样本用户,其中,负样本用户不包括待测用户。

在此基础上,在本发明其他实施例中,根据网络行为数据中的指定网 络行为数据从该多个用户中选择样本用户还可以进一步包括:

分别从正样本用户和负样本用户中清除重叠样本用户,其中,重叠样本用户指既是正样本用户又是负样本用户的样本用户;

平衡正样本用户和负样本用户的数量比例,使该数量比例处于设定比例范围内。

其中,第一指定网络行为数据可以为在预设的第一历史时期内在运动类目下的购买行为数据,第二指定网络行可以为数据为在预设的第二历史时期内搜索和浏览医疗挂号网站的行为数据。

其中,正样本用户表示健康用户,负样本用户表示不健康用户。

步骤s203,从该网络行为数据中提取待测用户和样本用户的特征数据;

其中,特征数据可以包括体质指数bmi、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作等,也可以是其中的任意多种。

步骤s204,以特征数据作为预设的健康指数计算模型的参数,计算获得待测用户的健康指数。

上述的步骤s202至步骤s204是前述步骤s102的一种具体实施方式。

在本发明实施例中,以特征数据作为预设的健康指数计算模型的参数,计算获得待测用户的健康指数可以包括如下子步骤:

利用所述样本用户的特征数据对所述健康指数计算模型进行训练,以得到所述健康指数计算模型中的参数值;

将所述待测用户的特征数据作为以所述参数值为参数的所述健康指数计算模型的输入,以预测出所述待测用户的健康概率;

对待测用户的健康概率进行归一化处理,以获得待测用户的健康指数。

通过将待测用户的特征数据与样本用户的相应特征数据进行比较,可以比较客观地反映待测用户的健康状况,使得用户健康状况评价结果可信度更高。

下面通过一个具体应用示例对本发明实施例的网络用户健康状况的评价方法作进一步说明。

在该示例中,网络用户健康状况的评价方法可以包括如下步骤:

步骤a,获取包括待测用户在内的多个用户在设定历史时期的网络行为数据;

步骤b,根据网络行为数据选择正样本用户;

假定爱好运动的人群健康状况比较好。基于该假设,本步骤根据用户过去一个月内在运动类目下的购买行为数据筛选出正样本集。

首先,对用户过去一个月内在运动类目下的购买行为数据进行初步清洗(即排除)。考虑到网购数据受刷单行为的影响,需要对明显异常的数据进行清洗,对用户在过去一年、过去一个月、过去两个星期内在某一叶子类目下的订单数分别设置阈值,将在过去一年或者过去一个月或者过去两个星期内的订单数大于设定阈值的用户排除掉。

然后,对初步清洗后的数据统计每个用户在过去一个月内的总的购买频次x,计算这些用户的平均购买频次μ,方差σ2,利用z-score方法对购买频次x标准化得到

为小概率事件,可认为这部分为异常值,从而在满足的用户中选取正样本用户。另外,还需要选取购买频次相对较高的用户,因此最后将满足的用户标记为正样本用户。

步骤c,根据网络行为数据选择负样本用户;

具体地,根据用户过去一个月搜索和浏览医疗挂号网站的数据,统计用户搜索和浏览的频次,选取总频次大于设定阈值的用户作为负样本用户。

步骤d,将重叠样本用户从正、负样本用户中去除;

正、负样本用户可能会有重合,需要将重合的样本用户从正、负样本用户中去除。其中,重叠样本用户指既是正样本用户又是负样本用户的样本用户。

步骤e,对正、负样本用户的比例进行调控;

调控是为了防止正、负样本用户数量不平衡。

步骤f,从网络行为数据中提取待测用户和正、负样本用户的特征数据;

该示例中,特征数据包括体质指数bmi、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作。

其中,体质指数bmi用来衡量人体胖瘦程度以及是否健康,是用体重除以身高的平方得出的数字,即bmi=体重/身高的平方,体重单位为千克,身高单位为米。在计算bmi时要对异常值进行清洗:(1)对于身高为0的情况,将bmi设为空值;(2)将bmi<12或bmi>40的bmi值认为异常数据,将bmi设为空值。

其中,用户沉溺于游戏和爱好垃圾食品是一个模糊的概念,而不是非0即1的二值概念。根据用户过去一个月在游戏类目和过去两个星期在垃圾食品类目下的购买行为,分别计算用户沉溺于游戏和爱好垃圾食品的程度,计算出的值位于区间[0,1],用户沉溺于游戏和爱好垃圾食品的程度可以采用如下步骤计算:

(1)对用户在过去一年、过去一个月、过去两个星期内在某一叶子类目下的订单数分别设置阈值,将在过去一年或者过去一个月或者过去两个星期内的订单数大于设定阈值的用户排除掉;

(2)根据初步清理后的数据统计用户的总购买频次,计算第一四分位数q1和第三四分位数q3,求分位距iqr;

(3)在异常值检测理论中,位于区间[q3+1.5iqr,+∞)的点被认为异常点,认为购买频次大于q3+1.5iqr的程度比较大,但是考虑到这个结果会受刷单等垃圾数据的影响,选取一个临界值q=q3+2.5iqr,购买频次大于这个临界值q比较多的被认为是垃圾数据,对应的程度值应该比较小,另外购买频次接近临界值的对应的程度应该比较大,所以通过公式如下公式(2)计算用户沉溺于游戏和爱好垃圾食品的程度,

其中,α为可调参数。

其中,对于是否经常熬夜,根据用户在个人电脑端和移动设备端的上网时间偏好判断用户是否经常熬夜,把最常浏览时间段为凌晨0到5点的用户标记为经常熬夜。

其中,关于过去两周购买医药用品的频次。基于用户过去两周在医药 类目下的购买数据,首先按照上述正样本用户选择中相同的方法对数据进行初步清洗,然后統计用户过去两周在该类目下的总频次,设定一个阈值,如果用户的总频次大于该阈值则设为空值。

其中,关于是否从事体力工作。根据用户从事的工作(学生,白领,经商,公务员,制造工人,医务人员,媒体人士,建筑从业者,营业员,服务员),把工作为制造工人和建筑从业者的用户标记为从事体力劳动。

步骤g,根据预设的健康指数计算模型计算健康指数。

考虑到特征数据总存在较多的空数据,这里选择随机森林作为分类模型,根据输入健康指数计算模型的样本和特征,健康指数计算模型先预测用户是否健康,并输出用户健康的概率prb。对输出的概率值prb作归一化处理,设所有用户(正、负样本用户和待测用户)中概率值prb的最大值为max_prb,最小值为min_prb,按照如下的公式(3)计算健康指数:

本发明实施例的网络用户健康状况的评价方法,基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式,成本低,可行性高,更新快。并且,本发明实施例的网络用户健康状况的评价方法,能够比较客观地反映待测用户的健康状况,健康状况评价结果可信度更高。

图3为本发明实施例三中网络用户健康状况的评价系统的结构框图。如图3所示,本实施例中,网络用户健康状况的评价系统300可以包括获取装置310和评价装置320。其中,获取装置310用于获取包括待测用户在内的多个用户在设定历史时期的网络行为数据。评价装置320用于基于获取装置310获取的网络行为数据,评价待测用户的健康状况。

其中,网络行为数据可以包括电商行为数据和/或网页浏览行为数据,例如体质指数bmi、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作等。

其中,设定历史时期一般是过去两周、过去一个月、过去一年等等。对于不同种类的网络行为数据,设定历史时期可以不同。例如,当获取的网络行为数据是电商行为数据时,设定历史时期可以是过去一个月,当获取的网络行为数据为是否经常熬夜时,设定历史时期可以是过去两周。

网络行为数据是由网络服务器自动记录的,可以从网络服务器获取。由于网络行为数据不属于隐私数据,多数都可以公开,并且也不需要由用户本人提供,因此获取非常容易,而且成本很低,这就使得本发明基于网络行为数据评价用户健康状况的方案可行性非常高。

网络行为数据可以在一定程度上反映用户的健康状况,而且在当今的互联网时代,人们的日常生活与网络密不可分,上网行为几乎无时无处不在,因此本发明开拓性地基于网络行为数据来评价用户的健康状况。这相对于传统的基于医疗检测数据的健康状况检测方式具有革命性的意义。并且,网络行为数据不仅更新快,而且其更新几乎不需要任何成本,因此,基于网络行为数据的更新来更新用户的健康状况不仅更新快,而且更新成本非常低廉。

本发明实施例的网络用户健康状况的评价系统,基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式。并且,本发明实施例的网络用户健康状况的评价系统,成本低,可行性高,更新快。

图4为本发明实施例四中网络用户健康状况的评价系统的结构框图。如图4所示,本实施例中,网络用户健康状况的评价系统400可以包括获取装置410和评价装置420。其中,获取装置410用于获取包括待测用户在内的多个用户在设定历史时期的网络行为数据。评价装置420用于基于获取装置410获取的网络行为数据,评价待测用户的健康状况。

参见图4,本实施例中,评价装置420可以包括选择模块421、提取模块422和计算模块423。其中,选择模块421用于根据网络行为数据中的指定网络行为数据从该多个用户中选择样本用户。提取模块422用于从网络行为数据中提取待测用户和选择模块421选择的样本用户的特征数据。计算模块423用于以提取模块422提取的特征数据作为预设的健康指数计算模型的参数,计算获得待测用户的健康指数。

在本发明实施例中,选择模块421可以包括第一选择单元和第二选择单元。其中,第一选择单元用于根据网络行为数据中的第一指定网络行为数据从该多个用户中选择正样本用户,正样本用户不包括所述待测用户。第二选择单元用于根据网络行为数据中的第二指定网络行为数据从多个用户中选择负样本用户,负样本用户不包括所述待测用户。在此基础上, 在本发明其他实施例中,选择模块421还可以进一步包括清除单元和平衡单元。其中,清除单元用于分别从正样本用户和负样本用户中清除重叠样本用户,其中,重叠样本用户指既是正样本用户又是负样本用户的样本用户。平衡单元用于平衡正样本用户和负样本用户的数量比例,使该数量比例处于设定比例范围内。

其中,第一指定网络行为数据可以为在预设的第一历史时期内在运动类目下的购买行为数据,第二指定网络行为数据可以为在预设的第二历史时期内搜索和浏览医疗挂号网站的行为数据。

在本发明实施例中,计算模块423可以包括训练单元、预测单元和归一化单元。其中,训练单元用于利用样本用户的特征数据对所述健康指数计算模型进行训练,以得到健康指数计算模型中的参数值。预测单元用于将待测用户的特征数据作为以训练单元得到的参数值为参数的健康指数计算模型的输入,以预测出待测用户的健康概率。归一化单元用于对预测单元预测出的待测用户的健康概率进行归一化处理,以获得待测用户的健康指数。

其中,特征数据可以包括体质指数bmi、沉溺于游戏程度、爱好垃圾食品程度、年龄、性别、是否经常熬夜、过去两周购买医药用品的频次、是否从事体力工作之中的任意多种。

本发明实施例的网络用户健康状况的评价系统,基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式,成本低,可行性高,更新快。并且,本发明实施例的网络用户健康状况的评价系统,能够比较客观地反映待测用户的健康状况,健康状况评价结果可信度更高。

图5为本发明实施例五中网络用户健康状况的评价设备的结构框图。如图5所示,本实施例中,网络用户健康状况的评价设备500中包括网络用户健康状况的评价系统。其中,网络用户健康状况的评价系统可以是本发明前述实施例中的任一种网络用户健康状况的评价系统。

网络用户健康状况的评价系统用于获取包括待测用户在内的多个用户在设定历史时期的网络行为数据,以及基于获取的网络行为数据,评价待测用户的健康状况。

其中,网络用户健康状况的评价设备可以是计算机、服务器等。

本发明实施例的网络用户健康状况的评价设备,包括网络用户健康状况的评价系统,能够基于用户的网络行为数据评价用户的健康状况,开启了健康状况评价的新方式,成本低,可行性高,更新快。并且,本发明实施例的网络用户健康状况的评价设备,能够比较客观地反映待测用户的健康状况,健康状况评价结果可信度更高。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1