基于聚类的人类行为依赖分析方法与流程

文档序号:18414991发布日期:2019-08-13 19:15阅读:193来源:国知局
基于聚类的人类行为依赖分析方法与流程
本发明涉及人类行为分析领域,尤其涉及采用聚类算法对人类特定行为进行依赖度分析的方法。
背景技术
:传统以主观题调查问卷形式搜集人类行为数据的方式非常古老和低效,原因在于,通过调查问卷形式来统计和搜集人类行为数据,来进行科学分析的这一过程,需要被调查对象主动填写回答,因此不但数据采集过程较为繁琐,更重要的是,调查问卷通常在问题设置上较为主观,如询问被调查者:是否因为网络导致你的工作表现变差?或者是否经常因为不能上网而感到沮丧或者紧张?等诸如此类的预设主观的问题。因此被调查者往往被限制在特定选择中,而无法给出自身所想表达的真实意思表示,从而造成数据误差,同时现有采用此类调查问卷形式搜集人类行为数据的手段的主观性过于直接,因此所获得的调查数据也并不客观,会给相应的研究造成了一定的误差影响。综上,现有技术亟待一种能够根据人类行为客观数据,来对人类特定行为依赖度进行具体而量化的客观分析方法。技术实现要素:本发明的主要目的在于提供一种基于聚类的人类行为依赖分析方法,以实现对人类特定行为依赖度进行具体而量化的客观分析。为了实现上述目的,本发明提供了一种基于聚类的人类行为依赖分析方法,步骤包括:s1归一化处理个体时间t的行为数据,获取各个体时间t的行为向量和特定行为时间;s2将各个体时间t的行为向量进行聚类;s3遍历待分析个体的所有行为向量,计算每个行为向量与其所属类簇中其它行为向量的相似度,从待分析个体的行为向量所在类簇中查所有相似的行为向量;s4遍历待分析个体的所有行为向量,将待分析个体选定时间的相似行为向量对应个体当前特定行为时间的加权平均值,获取正常特定行为时间;s5将待分析个体所有期间内实际特定行为时间,与正常特定行为时间差值之和除以预设时间单位与调节特定行为依赖程度的超参数之和所得的值,获取待分析个体的特定行为依赖程度值。优选地,其中,待分析个体u在时间t的行为向量bu(t)与其所在类簇中其它行为向量bj判定为相似需满足条件为:cos(bu(t),bj)≥r其中,cos(bu(t),bj)表示待分析个体u在时间t的行为向量bu(t)与其所在类簇中其它行为向量bj的余弦相似度。r∈[0,1]为距离半径阈值。优选地,其中,该步骤s5中待分析其中个体u在时间t的正常特定行为时间ru(t)计算公式为:其中,s为待分析个体u在时间t的行为向量bu(t)的相似行为向量集合,yj表示行为向量bj对应个体当天实际上网时间,权重wj的计算公式为:其中,s为与待分析个体u在时间t的行为向量bu(t)相似的行为向量集合,cos(bu(t),bj)为待分析个体u在时间t行为向量bu(t)与其相似行为向量bj的余弦相似度,cos(bu(t),bj′)表示待分析个体u在时间t的行为向量bu(t)与其相似行为向量bj′的余弦相似度。优选地,其中,该步骤s5中个体u的特定行为依赖程度值计算公式为:其中,t是样本集中个体u的行为数据的时间集合,c∈r+为调节特定行为依赖程度权重的一个超参数,yu(t)是个体u在时间t的实际特定行为时间,ru(t)是个体u在时间t的正常特定行为时间。优选地,其中,步骤s1包括对不同类型行为数据分别进行归一化处理,统一所有类型行为数据的值的大小范围。优选地,其中,步骤s2中对所有行为向量采用k-means算法进行聚类,以将相似的行为向量聚到同一个类簇中。优选地,其中,步骤s1中包括:根据选定的粒度处理个体时间t的行为数据。优选地,其中,步骤s3中包括:使用余弦相似度方法计算每个行为向量与其所属类簇中其它行为向量的相似度。通过本发明提供的该基于聚类的人类行为依赖分析方法,能够综合个体的不同行为特点,来分析获得个体可能的特定行为时间的估计值,即使各个体在相同特定场合具有相同的行为,也能获取准确的特定行为依赖程度值,籍此实现具体而量化地计算出当前个体的特定行为依赖程度值,并形成客观的量化分析结果。附图说明构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是本发明的基于聚类的人类行为依赖分析方法的流程图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。为了使本领域的技术人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护范围。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。请参阅图1,为了实现对人类特定行为依赖度进行具体而量化的分析,根据本发明提供的该基于聚类的人类行为依赖分析方法,其主要步骤包括:s1根据选定的粒度处理个体个体时间t的,如:每日的行为数据,并进行归一化处理后,获取各个体每日的行为向量和归一化后的特定行为时间;s2将各个体每日行为向量进行聚类;s3遍历待分析个体的所有行为向量,使用余弦相似度方法计算每个行为向量与其所属类簇中其它行为向量的相似度,从待分析个体的行为向量所在类簇中查所有相似的行为向量;s4遍历待分析个体的所有行为向量,将待分析个体某日的相似行为向量,对应个体当日特定行为时间的加权平均值,作为待分析个体该日正常特定行为时间;s5将待分析个体所有期间内实际特定行为时间,与正常特定行为时间差值之和,除以天数与调节特定行为依赖程度的超参数之和所得的值,作为待分析个体的特定行为依赖程度值。其中需要说明的是,上述实施例中,时间t以每日的行为数据为例进行示例说明,但并未进行限制,在其他优选实施方式中,亦可根据实际情况设置合理的特定期限,如每小时,每周,每月等,而该步骤s4中该个体某日的相似行为向量中,该某日亦可为分析者自行在整个个体数据采集期限内,随机或特定选定时间。具体来说,本发明的基于聚类的人类行为依赖分析方法,根据选定的粒度处理个体每天上网、餐饮、淋浴等行为数据,对数据进行归一化处理后,获得每位个体每一天的行为向量和归一化后的特定行为时间,例如:上网时间;之后将每位个体每一天的行为向量进行聚类;遍历待分析个体的所有行为向量,使用余弦相似度方法计算每个行为向量与其所属类簇中其它行为向量的相似度,从所述待分析个体的行为向量所在类簇中查所有相似的行为向量;遍历待分析个体的所有行为向量,将待分析个体某一天的相似行为向量对应个体这一天的特定行为时间的加权平均值,作为所述待分析个体这一天正常的上网时间。之后再将该待分析个体所有期间内,即所有时间内的实际上网时间与正常上网时间差值之和,除以预设时间单位(如:天数)与调节网络依赖程度的超参数之和所得的值,即可作为所述待分析个体的特定行为依赖程度值,例如:网络依赖程度值。因此可见,本发明的方案可以根据选定的粒度处理个体每天上网、餐饮、淋浴等行为数据,获得每位个体每一天的行为向量,能够灵活地建模个体每天的行为规律性,从而使得后续相似行为的查找更加准确。同时本发明中还对所有类型的行为数据分别进行归一化处理,统一所有类型行为数据的值的大小范围,从而能够有效降低因数据数量级大小不同,而对后续聚类与余弦相似度计算造成的影响,籍此提高后续相似行为查找的准确性。此外需要说明的是,本发明的实施方案中优选采用k-means聚类算法,即:在上述实施例步骤s2中,优选对所有行为向量进行聚类采用k-means算法进行聚类,以将相似的行为向量聚到同一个类簇中,从而在接下来相似行为向量的查找过程中,可以仅需计算待分析行为向量与其所在类簇中的其它行为向量的相似度,从而在保证相似行为查找准确的情况下,减少了计算次数,即:行为向量之间的余弦相似度计算次数,籍此达到降低时间开销的有益效果。进一步的,本发明还采用设置半径阈值的方式查找相似行为向量,籍此有效限定不同行为的相似程度,只有相似程度大于该阈值的行为才会被认为是相似的,进而参与后续计算。采用这一方案可以有效筛选出最相似的行为,提高后续计算个体正常上网时间的准确度,避免因为不够相似的行为参与到后续计算中给个体正常上网时间计算带来误差的情况。值得一提的是,相似的行为向量体现了个体在特定场合下活动的相似性,如:个体在校园内这一特定场合下活动的相似性。因此将相似行为向量对应如上网时间的加权平均值作为正常上网时间,综合了个体的不同行为特点,能够得到待分析个体这一天最可能的正常上网时间估计值。而不同个体具有不同的特定行为依赖程度,如:网络依赖程度,该特征的存在使得即使两位个体在校园内这一特定场合下具有相同的行为,也会有不同的上网时间。因而实际上网时间与正常上网时间的差值反映了该个体对网络的依赖程度,使用一段时间内实际上网时间与正常上网时间差值的平均值作为估计值,即可降低单个差值存在的误差。同时该超参数的设置,调节了网络依赖程度对上网时间影响的权重,提高了网络依赖程度计算的准确性。此外在优选实施方式下,在上述步骤s1中,对个体行为数据进行分割的粒度根据实际情况可以进行调整。例如:根据选定的粒度处理个体每天上网、餐饮、淋浴等行为数据,获得每位个体每一天的行为向量,能够灵活地建模被测个体每天的行为规律性,从而使得后续相似行为的查找更加准确。而在另一优选实施方式下,在上述步骤s1中还需要分别对不同类型数据进行归一化处理,例如:对所有类型行为数据分别进行归一化处理,统一所有类型行为数据的值的大小范围,从而能够降低因数据数量级大小不同对后续聚类与余弦相似度计算造成的影响,提高后续相似行为查找的准确性。进一步的,为了从待分析个体的行为向量所在类簇中查所有相似的行为向量,其中,待分析个体u在时间t的行为向量bu(t)与其所在类簇中其它行为向量bj判定为相似需满足条件为:cos(bu(t),bj)≥r其中,cos(bu(t),bj)表示待分析个体u在时间t的行为向量bu(t)与其所在类簇中其它行为向量bj的余弦相似度。r∈[0,1]为距离半径阈值。采用上述优选实施方案的目的在于,通过设置半径阈值的方式查找相似行为向量,可以有效限定不同行为的相似程度,只有相似程度大于该阈值的行为才会被认为是相似的,进而参与后续计算。采用这一方案可以有效筛选出最相似的行为,提高后续计算个体正常上网时间的准确度,避免因为不够相似的行为参与到后续计算中给个体正常上网时间计算带来误差的情况。其中上述实施例中,该步骤s5中待分析其中个体u在时间t的正常上网时间ru(t)计算公式优选为:其中,s为待分析个体u在时间t的行为向量bu(t)的相似行为向量集合,yj表示行为向量bj对应个体当天实际上网时间,权重wj的计算公式为:其中,s为与待分析个体u在时间t的行为向量bu(t)相似的行为向量集合,cos(bu(t),bj)为待分析个体u在时间t行为向量bu(t)与其相似行为向量bj的余弦相似度,cos(bu(t),bj′)表示待分析个体u在时间t的行为向量bu(t)与其相似行为向量bj′的余弦相似度。具体来说,相似的行为向量体现了个体在特定场合下活动的相似性,如:校园内活动的相似性,因此将相似行为向量对应特定行为时间,如:上网时间的加权平均值作为正常上网时间,综合了个体的不同行为的特点,从而能够得到待分析个体这一天最有可能的正常上网时间估计值。而在上述实施例步骤s5中个体u的特定行为依赖程度值计算公式为:其中,t是样本集中个体u的行为数据的时间集合,c∈r+为调节特定行为依赖程度权重的一个超参数,yu(t)是个体u在时间t的实际特定行为时间,ru(t)是个体u在时间t的正常特定行为时间。采用上述优选实施方案的目的在于,不同个体具有不同的特定行为依赖程度,而该特征的存在使得即使两位个体在特定场合内具有相同的行为,也会有不同的特定行为时间。因而例如在分析个体上网行为及上网时间时,该个体实际上网时间与正常上网时间的差值反映了该个体对网络的依赖程度,使用一段时间内实际上网时间与正常上网时间差值的平均值可以降低单个差值存在的误差。同时超参数的设置,调节了网络依赖程度对上网时间影响的权重,避免了过拟合,同样减少了计算的误差。实施例1为了进一步证实及说明本发明分析方案的可行性,本实施例中将以大学生上网行为的量化分析为例进行说明,原因在于,随着网络的发展,网络成为大学生学习生活中必不可少的组成部分,由于大学学习的灵活性与自主性,大学生在享受网络带来的便利的同时,往往沉迷于网络带来的心理满足,因而越来越多的大学生表现出对网络较高的依赖性。然而,过分的使用网络会给学生的心理、生活带来较多消极影响。因此及时发现学生的网络依赖倾向,并且对其进行正确的指导具有重要意义。此外,对大学生的网络依赖程度分析是心理学领域的一项重要内容。目前,心理学领域分析大学生网络依赖程度主要基于调查问卷的方法。然而,由于调查问卷通常需要被研究对象手动填写,过程较为繁琐。此外,调查问卷的问题较为主观,如:是否因为网络导致你的工作表现变差?或者是否经常因为不能上网而感到沮丧或者紧张?问题的主观性给相应的研究造成了一定的误差。综上,目前在对大学生网络依赖问题进行分析时,存在过程繁琐与由于主观性造成的研究误差的问题。因此为了解决上述问题,运用本发明基于聚类的人类行为依赖分析方法,可以良好的给出客观的量化分析结果。请参阅图1,为进一步说明本发明的基于聚类的人类行为依赖分析方法的实现过程,本实施例下举例,以对大学生在校园内日常上网这一特定行为的依赖程度(网络依赖程度)进行分析来进行示例说明,但本领域技术人员应当理解,本发明的方案亦可针对人类个体多种特定行为进行量化分析,而并未限制可分析的特定行为类型,因此任何适用本发明方案的特定行为,皆可在本方案下被进行量化分析,并皆属于本发明方案的揭露范围。具体来说,为了实现基于聚类算法对学生网络依赖度进行分析,根据上述实施方案,首先需要:s101:获取学生行为数据并且构造行为向量:如根据选定的粒度处理学生每天上网、餐饮、淋浴等行为数据,对数据进行归一化处理后,获得每位学生每一天的行为向量和归一化后的上网时间。本实施例中将粒度设为24h,选取了两位学生2018年11月6日至2018年11月9目的行为数据。表1是两位学生在这四天的24h内行为数据,包括接入校园网的时间、消费频次、消费金额以及当天的上网时间。表1表2是按照24h的粒度构造的每位学生每天的原始行为向量、归一化后的行为向量以及归一化后上网时间。表2s102:对行为向量进行聚类:使用k-means算法对行为向量进行聚类,本实施例中设置k=2,将行为向量分为两个簇。表3是本实施例中行为向量聚类结果簇行为向量编号11,2,4,5,6,823,7表3s103:查找相似行为向量:遍历待分析学生的所有行为向量,使用余弦相似度方法计算每个行为向量与其所属类簇中其它行为向量的相似度。表4是学生u1的行为向量与其所在类簇中其它行为向量的相似度。表4从待分析学生的行为向量所在类簇中查所有相似的行为向量。其中,学生u在时间t的行为向量bu(t)与其所在类簇中其它行为向量bj判定为相似需满足条件:cos(bu(t),bj)≥r其中,cos(bu(t),bj)表示待分析学生u在时间t的行为向量bu(t)与其所在类簇中其它行为向量bj的余弦相似度。r∈[0,1]为距离半径阈值。r=0表示簇中所有除自身以外的行为向量均满足条件,r=1表示只有与待分析行为向量完全一样的行为向量才满足条件。而本实施例中优选设置r=0.3表5是本实施例中学生u1的行为向量的相似行为向量编号集合s。表5s104:计算正常上网时间:遍历所述待分析学生的所有行为向量,将待分析学生某一天的相似行为向量对应学生这一天上网时间的加权平均值作为所述待分析学生这一天正常的上网时间。其中学生u在时间t的正常上网时间ru(t)计算公式为:其中,s为与待分析学生u在时间t的行为向量bu(t)相似的行为向量集合,yj表示行为向量bj对应学生当天实际上网时间,权重wj的计算公式为:其中,s为与待分析学生u在时间t的行为向量bu(t)相似的行为向量集合,cos(bu(t),bj)为待分析学生u在时间t行为向量bu(t)与其相似行为向量bj的余弦相似度,cos(bu(t),bj′)表示待分析学生u在时间t的行为向量bu(t)与其相似行为向量bj′的余弦相似度。表6是本实施例中待分析学生u1所有行为向量的相似行为向量的权重wj,与相似行为向量对应的实际上网时间yj表6表7是本实施例中待分析学生u1所有行为向量对应的实际上网时间yu(t)和正常上网时间ru(t)。行为向量编号实际上网时间yu(t)正常上网时间ru(t)10.090.16303200.15807310.1540.440.09表7s105:计算网络依赖程度:将待分析学生所有时间的实际上网时间与正常上网时间差值之和除以天数与调节网络依赖程度的超参数之和所得的值作为该待分析学生的网络依赖程度值。学生u的网络依赖程度值计算公式为:其中,t是样本集中学生u的行为数据的时间集合,c∈r+为调节网络依赖程度权重的一个超参数,c越大,网络依赖程度对于上网时间影响越小。yu(t)是学生u在时间t实际上网时间,ru(t)是学生u在时间t的正常上网时间。本实施例中优选设置c=0,从而最终得到学生u1的网络依赖程度值为:从而实现不同学生具有不同的网络依赖程度的行为分析客观的量化分析结果,使得即使两位学生在校园内具有相同的行为,也会有不同的上网时间。因而实际上网时间与正常上网时间的差值反映了该同学对网络的依赖程度,使用一段时间内实际上网时间与正常上网时间差值的平均值可以降低单个差值存在的误差。同时超参数的设置调节了网络依赖程度对上网时间影响的权重,避免了过拟合,同样减少了计算的误差。综上所述,本发明提供的该基于聚类的人类行为依赖分析方法,能够综合个体的不同行为特点,来分析获得个体可能的特定行为时间的估计值,即使各个体在相同特定场合具有相同的行为,也能获取准确的特定行为依赖程度值,籍此实现具体而量化地计算出当前个体的特定行为依赖程度值,并形成客观的量化分析结果。以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属
技术领域
技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1