一种网络用户属性的匹配方法及装置与流程

文档序号:11156493阅读:622来源:国知局
一种网络用户属性的匹配方法及装置与制造工艺
本发明涉及网络数据分析领域,尤其涉及一种网络用户属性的匹配方法及装置。
背景技术
:在网络数据分析领域,网络用户的属性数据通常是各网络服务提供商最关心的数据之一。其中,网络用户的属性例如包括性别、年龄、所在区域、职业等用户特征。目前,不同的网络服务提供商在对网络用户的属性数据进行分析时,得出的结果可能有所不同。例如,当同一用户通过同一台终端访问A网站和B网站后,对于该用户的性别分析,A网站和B网站可能给出不同的分析结果。由于对用户的属性数据分析无法达到100%的精准度,而不同数据分析机构又可能提供不同的分析结果,为了保护网络服务提供商及其客户的利益,本着公平公正的原则,网络服务提供商及其客户们通常会选择独立的第三方机构对数据进行监测分析,并以第三方机构出具的数据监测报告为准。例如,在网络广告投放领域,媒体企业与广告主通常基于特定广告对定向人群的投放比例来结算该广告的投放费用。而鉴于媒体企业和广告主之间存在直接利益关系,通常双方会邀请第三方数据监测机构出具广告投放比例监测报告,并以第三方所监测的数据为准进行结算。第三方监测机构通过媒体端收集广告曝光的数据及浏览媒体端的用户的属性数据。通过对数据进行分析,进而推算出在一定时间和特定区域内,访问该广告的定向人群的属性比例。通常情况下,为了实现利益最大化,避免流量浪费及网络活动的精准投放,在不影响用户隐私和公平交易的原则下,第三方监测机构会将宏观监测 结果提供给媒体企业,以便媒体企业适当地调整投放机制,此种做法同时可以保障媒体企业和广告主的利益。通过现有技术中第三方机构出具的数据监测报告,网络服务提供商的某些业务需要可以得到满足。但是,网络服务提供商自身对网络用户属性分析匹配的能力仍未得到提高。技术实现要素:为了解决上述技术问题,本发明提供一种网络用户属性的匹配方法及装置,能够提高网络用户属性的定位精准度。为了达到上述技术目的,本发明提供一种网络用户属性的匹配方法,包括:步骤S1:收集网络用户数据,计算各网络用户的各属性的概率值;步骤S2:针对一组用户,获取该组用户中各属性的用户比例;步骤S3:分别比较各属性在该组用户中的用户比例与各属性在该组用户中的参考比例;当一属性在该组用户中的用户比例与对应的参考比例的差值的绝对值小于或等于第一阈值时,确认该属性在该组用户中所覆盖的用户;当一属性在该组用户中的用户比例与对应的参考比例的差值的绝对值大于该第一阈值时,根据所述参考比例调整该组用户中各用户的该属性的概率值,并返回步骤S2。进一步地,所述针对一组用户,获取该组用户中各属性的用户比例,包括:针对一组用户,根据不同属性对该组用户中的各用户进行分类标记,其中,当一用户对应至少两个互斥属性时,标记该用户对应互斥属性中概率值最大的属性,当一用户对应至少两个概率值相同或非互斥的属性时,标记该用户对应其中概率值大于第二阈值的属性;计算各属性在该组用户中所覆盖的用户数量;计算各属性在该组用户中所覆盖的用户数量与该组用户总数量的比值,得到该组用户中各属性的用户比例。进一步地,所述根据所述参考比例调整该组用户中各用户的该属性的概率值,包括:将该组用户中的各用户按照该属性的概率值由高至低的顺序排序;按照所述由高至低的顺序筛选用户,直至筛选出的用户在该组用户中所占比例与所述参考比例的差值在一预设范围内;将筛选出的用户的该属性的概率值增加第一数值,其余未被筛选出的用户的该属性的概率值减小第二数值。进一步地,所述确认该属性在该组用户中所覆盖的用户之后,该方法还包括:判断是否满足预设条件,若不满足,返回步骤S2,若满足预设条件,确认各网络用户的各属性。进一步地,所述预设条件包括:不同组用户中每个属性的用户比例与对应的参考比例的差值的绝对值连续小于或等于第一阈值的次数为第三数值。本发明还提供一种网络用户属性的匹配装置,包括:数据采集模块,用于收集网络用户数据,并计算各网络用户的各属性的概率值;第一处理模块,用于针对一组用户,获取该组用户中各属性的用户比例;第二处理模块,用于分别比较各属性在该组用户中的用户比例与各属性在该组用户中的参考比例,当一属性在该组用户中的用户比例与对应的参考比例的差值的绝对值小于或等于第一阈值时,确认该属性在该组用户中所覆盖的用户;当一属性在该组用户中的用户比例与对应的参考比例的差值的绝对值大于该第一阈值时,根据所述参考比例调整该组用户中各用户的该属性的概率值,并通知所述第一处理模块针对另一组用户进行处理。进一步地,所述第一处理模块,具体用于:针对一组用户,根据不同属性对该组用户中的各用户进行分类标记,其中,当一用户对应至少两个互斥属性时,标记该用户对应互斥属性中概率值最大的属性,当一用户对应至少两个概率值相同或非互斥的属性时,标记该用户对应其中概率值大于第二阈值的属性;计算各属性在该组用户中所覆盖的用户数量;计算各属性在该组用户中所覆盖的用户数量与该组用户总数量的比值,得到该组用户中各属性的用户比例。进一步地,所述第二处理模块,用于根据所述参考比例调整该组用户中 各用户的该属性的概率值,包括:将该组用户中的各用户按照该属性的概率值由高至低的顺序排序;按照所述由高至低的顺序筛选用户,直至筛选出的用户在该组用户中所占比例与所述参考比例的差值在一预设范围内;将筛选出的用户的该属性的概率值增加第一数值,其余未被筛选出的用户的该属性的概率值减小第二数值。进一步地,该装置还包括:控制模块,用于在所述第二处理模块确认该属性在该组用户中所覆盖的用户之后,判断是否满足预设条件,若不满足预设条件,通知所述第一处理模块及所述第二处理模块针对另一组用户进行处理,若满足预设条件,确认各网络用户的各属性。进一步地,所述预设条件包括:不同组用户中每个属性的用户比例与对应的参考比例的差值的绝对值连续小于或等于第一阈值的次数为第三数值。通过本发明,根据各属性在不同组用户中的参考比例,调整各属性在不同组用户中的用户比例,进而确定不同组用户中各属性所覆盖的用户,从而提高网络用户属性的定位精准度,提高网络活动的效果。于实际应用中,网络服务提供商可以根据自身收集的网络用户数据以第三方监测机构提供的参考数据为准,调整自身收集的网络用户数据,从而提高网络服务提供商定位网络用户属性的精确度,如此,有益于提高网络活动推广及投放的精准度,进而提高网络活动的效果。附图说明图1为本发明实施例提供的网络用户属性的匹配方法的流程图;图2为本发明实施例提供的网络用户属性的匹配装置的示意图。具体实施方式以下结合附图对本发明的实施例进行详细说明,应当理解,以下所说明的实施例仅用于说明和解释本发明,并不用于限定本发明。图1为本发明实施例提供的网络用户属性的匹配方法的流程图。如图1所示,本实施例提供的网络用户属性的匹配方法,包括以下步骤:步骤S1:收集网络用户数据,计算各网络用户的各属性的概率值。其中,网络用户的属性例如包括性别信息、年龄信息、所在区域信息、职业信息等用户特征信息。于实际应用中,网络服务提供商可以根据用户注册信息获取部分用户属性,并利用用户行为作为特征,用支持向量机(SVM,SupportVectorMachine)、决策树等机器学习方法计算出各用户数据中各属性的概率值,并将收集的网络用户数据及各用户的各属性的概率值存储至数据库。步骤S2:针对一组用户,获取该组用户中各属性的用户比例。其中,步骤S2包括:针对一组用户,根据不同属性对该组用户中的各用户进行分类标记,其中,当一用户对应至少两个互斥属性时,标记该用户对应互斥属性中概率值最大的属性,当一用户对应至少两个概率值相同或非互斥的属性时,标记该用户对应其中概率值大于第二阈值的属性;计算各属性在该组用户中所覆盖的用户数量;计算各属性在该组用户中所覆盖的用户数量与该组用户总数量的比值,得到该组用户中各属性的用户比例。举例而言,以用户的性别为例,当一用户的男性属性的概率值大于女性属性的概率值时,标记该用户为男性,反之,标记该用户为女性。当一用户的男性属性的概率值等于女性属性的概率值时(如均为50%),随机选择该用户性别的确定方式,例如在下述两种方式中任意选择一种:若该用户的男性属性的概率值大于第二阈值(如50%),则标记该用户为男性,反之,标记该用户为女性;若该用户的女性属性的概率值大于第二阈值(如50%),则标记该用户为女性,反之,标记该用户为男性。另外,当一用户的男性属性的概率值等于女性属性的概率值时(如均为50%),可固定该用户性别的确定方式,例如:若该用户的男性属性的概率值大于第二阈值(如50%),则标记该用户为男性,反之,标记该用户为女性。另外,以不同年龄段的属性为例,若一用户属于30岁以下年龄段的概率值为40%,属于30岁以上50岁以下年龄段的概率值为50%,属于50岁以上年龄段的概率值为20%,则标记该用户对应30岁以上50岁以下的年龄段。步骤S3:分别比较各属性在该组用户中的用户比例与各属性在该组用户中的参考比例;当一属性在该组用户中的用户比例与对应的参考比例的差值的绝对值小于或等于第一阈值时,确认该属性在该组用户中所覆盖的用户;当一属性在该组用户中的用户比例与对应的参考比例的差值的绝对值大于该第一阈值时,根据所述参考比例调整该组用户中各用户的该属性的概率值,并返回步骤S2。于实际应用中,该属性在该组用户中的参考比例例如由第三方监测机构提供。其中,所述根据所述参考比例调整该组用户中各用户的该属性的概率值,包括:将该组用户中的各用户按照该属性的概率值由高至低的顺序排序;按照所述由高至低的顺序筛选用户,直至筛选出的用户在该组用户中所占比例与所述参考比例的差值在一预设范围内;将筛选出的用户的该属性的概率值增加第一数值,其余未被筛选出的用户的该属性的概率值减小第二数值。其中,所述预设范围例如为-A~A,A为小于第一阈值的正数。于此,第一阈值为10%,第一数值等于第二数值例如为10%,然而,本发明对此并不限定。所述预设范围、第一阈值、第一数值以及第二数值的设置可根据实际需要确定。进一步地,所述确认该属性在该组用户中所覆盖的用户之后,该方法还包括:判断是否满足预设条件,若不满足,返回步骤S2,若满足预设条件,确认各网络用户的各属性。其中,所述预设条件包括:不同组用户中每个属性的用户比例与对应的 参考比例的差值的绝对值连续小于或等于第一阈值的次数为第三数值。其中,第三数值例如为10次。然而,本发明对此并不限定。于实际应用中,可根据需要进行设定。另外,不同组用户中的用户总数量可相同或不同,不同组用户中可包括相同的用户或不同的用户。本发明对此并不限定。以下通过一具体实施例对本发明进行详细说明。于本实施例中,以在网络服务提供商的终端上的实际应用为例进行说明。首先,网络服务提供商与第三方监测机构同时收集网络用户数据,其中,网络服务提供商所计算出的各用户的各属性的概率值例如表1所示:用户男性比率30岁以下北京用户C180%40%10%C240%90%90%C359%10%74%C420%60%10%C565%40%70%C673%80%25%C724%34%75%C836%47%32%C940%63%43%C1015%41%70%表1网络服务提供商从其所收集到的十个用户中,随机选取一组用户(第一组用户),如五个用户:C1、C2、C5、C7、C10,上述五个用户的男性概率值分别是:80%(C1)、40%(C2)、65%(C5)、24%(C7)、15%(C10)。由于男性与女性属于互斥属性,因此,根据用户本身属性的概率值确定用户性别。于此,在所选五个随机用户中,C1为男性,C5为男性,C2为 女性,C7为女性,C10为女性。此时,在上述五个用户中男性占比为:(2/5)*100%=40%。即,男性在第一组用户中的用户比例为40%。同时,网络服务提供商将上述五个用户的标号(ID)发送至第三方监测机构。第三方监测机构根据其本身的分析方法给出该组五个用户中,男性用户的占比为60%。即,男性用户在第一组用户中的参考比例为60%。之后,比较网络服务提供商得到的上述五个用户中男性占比及第三方监测机构的得到的上述五个用户中男性占比,通过比较可知:两者差值的绝对值为20%,大于10%(第一阈值),此时,以第三方监测机构的提供的上述五个用户中男性占比为准,对网络服务器提供商的数据进行调整。具体而言,网络服务提供商对该组五个用户的男性属性的概率值进行如下调整:将所述五个用户按照男性的概率值从高到底的顺序排序,得到如下排序:C1(80%)、C5(65%)、C2(40%)、C7(24%)、C10(15%);根据第三方监测机构的结果判断,在所述五个用户中,其中有三个用户为男性用户,从上述排序中按照由高至低的顺序筛选三个用户,于此,筛选出C1、C5、C2三位用户;将筛选出的用户的男性的概率值各加10%(第一数值),将未筛选出的用户的男性的概率值各减10%(第二数值),则重新获得上述五个用户的男性的概率值为:90%(C1)、50%(C2)、75%(C5)、14%(C7)、5%(C10)。将上述五个用户ID的数据放回表1,更新表1中上述五个用户的属性数据后如表2所示:用户男性比率30岁以下北京用户C190%40%10%C250%90%90%C359%10%74%C420%60%10%C575%40%70%C673%80%25%C714%34%75%C836%47%32%C940%63%43%C105%41%70%表2之后,网络服务提供商从表2中再随机选出一组用户(第二组用户),如五个用户:C2、C4、C6、C8、C9,上述五个用户的男性概率值分别为:50%(C2)、20%(C4)、73%(C6)、36%(C8)、40%(C9)。由于男性与女性属于互斥属性,因此,根据用户本身属性的概率值确定用户性别。于此,C6为男性,C4、C8及C9为女性。其中,C2的男性概率值与女性概率值相同,于此,以随机确定C2的性别为男性为例进行说明。然而,本发明对此并不限定。于此,C2的性别也可能被随机确定为女性。或者,在其他实施例中,根据用户设置,固定设置当男性及女性概率值均为50%时,确定用户的性别为男性。或者,在其他实施例中,根据用户设置,固定设置当男性及女性概率值均为50%时,确定用户的性别为女性。于本实施例中,上述五位用户中C2、C6两位用户为男性,则该组用户中男性用户的占比为40%。即,男性用户在第二组用户中的用户比例为40%。同时,网络服务提供商将上述五个用户的ID发送至第三方监测机构。第三方监测机构根据其本身的分析方法给出该组五个用户中,男性用户的占比为40%。即,男性用户在第二组用户中的参考比例为40%。此时,由于网络服务提供商提供的结果与第三方监测机构的结果的差值为0,小于10%(第一阈值),则第二组中五个用户的男性属性得到确认,即,C2、C6为男性,C4、C8、C9为女性。将该组所有用户数据放回表1,重复上述数据选择、计算、比较过程。直至网络服务提供商提供的男性用户在相应组用户中的占比与第三方监测 机构所提供的男性用户在相应组用户中的参考比例之间的差值的绝对值连续10次(第三阈值)小于10%(第一阈值),则所有样本(如表1中用户)的男性属性匹配完毕,确定各用户为男性或女性。表1中用户的其余属性同样适用上述过程,通过上述过程可以确定表1中各用户的其余属性数据,直至表1中各用户的各属性均确认后,结束本流程。于此,表1中各用户的其余属性数据的匹配过程同男性属性的匹配过程,故于此不再一一赘述。图2为本发明实施例提供的网络用户属性的匹配装置。如图2所示,本实施例提供的网络用户属性的匹配装置,包括:数据采集模块,用于收集网络用户数据,并计算各网络用户的各属性的概率值;第一处理模块,用于针对一组用户,获取该组用户中各属性的用户比例;第二处理模块,用于分别比较各属性在该组用户中的用户比例与各属性在该组用户中的参考比例,当一属性在该组用户中的用户比例与对应的参考比例的差值的绝对值小于或等于第一阈值时,确认该属性在该组用户中所覆盖的用户;当一属性在该组用户中的用户比例与对应的参考比例的差值的绝对值大于该第一阈值时,根据所述参考比例调整该组用户中各用户的该属性的概率值,并通知所述第一处理模块针对另一组用户进行处理。进一步地,所述第一处理模块,具体用于:针对一组用户,根据不同属性对该组用户中的各用户进行分类标记,其中,当一用户对应至少两个互斥属性时,标记该用户对应互斥属性中概率值最大的属性,当一用户对应至少两个概率值相同或非互斥的属性时,标记该用户对应其中概率值大于第二阈值的属性;计算各属性在该组用户中所覆盖的用户数量;计算各属性在该组用户中所覆盖的用户数量与该组用户总数量的比值,得到该组用户中各属性的用户比例。进一步地,所述第二处理模块,用于根据所述参考比例调整该组用户中各用户的该属性的概率值,包括:将该组用户中的各用户按照该属性的概率值由高至低的顺序排序;按照所述由高至低的顺序筛选用户,直至筛选出的用户在该组用户中所 占比例与所述参考比例的差值在一预设范围内;将筛选出的用户的该属性的概率值增加第一数值,其余未被筛选出的用户的该属性的概率值减小第二数值。进一步地,所述装置还包括:控制模块,用于在所述第二处理模块确认该属性在该组用户中所覆盖的用户之后,判断是否满足预设条件,若不满足预设条件,通知所述第一处理模块及所述第二处理模块针对另一组用户进行处理,若满足预设条件,确认各网络用户的各属性。进一步地,所述预设条件包括:不同组用户中每个属性的用户比例与对应的参考比例的差值的绝对值连续小于或等于第一阈值的次数为第三数值。于实际应用中,上述装置例如设置在网络服务提供商的终端上。于实际应用中,上述各模块的功能例如通过处理器执行存储在存储器中的程序/指令实现。然而,本发明对此并不限定。上述模块的功能例如还可以通过固件/逻辑电路/集成电路实现。此外,关于上述装置的具体处理流程同上述方法所述,故于此不再赘述。以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1