一种识别用户人群属性的方法及装置与流程

文档序号:15636674发布日期:2018-10-12 21:33阅读:161来源:国知局

本发明涉及人群定位技术领域,尤其涉及一种识别用户人群属性的方法及装置。



背景技术:

在线下定位人群识别的任务中,我们通过采集用户的位置数据,分析其平时都到访哪些场所,以此来判断该用户是否属于某个指定的人群。在实际生活中,对于不同的人群,每组人群平时会偏向到访不同的场所,而同一组的人群到访的场所会比较接近。比如,装修族,除了到访日常的生活工作涉及到的场所,还会以一定的频率到达建材市场、装修公司等场所。如果一个用户对这些场所的到访频次跟装修族比较匹配,就可以判定其为装修族。

对于判断用户人群属性的方法,现有技术手段通常为人为定义判断的规则,在判断标准属性的概率分布时,现有技术的方案缺少科学的标准以及判断依据,具有较多的人为主观性。



技术实现要素:

为了解决上述问题,本发明提供了一种识别用户人群属性的方法,通过引入大数据算法,使判断用户人群属性工作的结论更加科学合理。

为了实现上述目的,本发明提供了一种识别用户人群属性的方法,其包括:采集标记人群的经纬度数据集;将所述人群的经纬度数据集与所述aoi数据库进行匹配,得到所述标记人群的aoi分布数据集;根据所述标记人群的aoi分布数据集,通过采用lda算法来确定所述标记人群到场景的概率分布以及所述场景到所述aoi的概率分布。

上述技术方案的有益效果为:通过对标记人群进行采样,得到标准属性的场景概率分布,提高人群与场景对应分布概率的准确性。

进一步地,还包括:采集用户的经纬度数据集;

将所述用户的经纬度数据集与所述aoi数据库进行匹配,得到所述用户的aoi分布数据集;

假定所述用户属于所述标记人群,根据所述标记人群的场景分布数据集以及所述场景到所述aoi的概率分布,通过采用贝叶斯公式来确定用户在已知aoi属于标记人群下某个对应场景的概率;

假定所述用户的aoi分布数据集中的a2属于所述标记人群下的多个场景s1、s2,a2属于其中的一个场景类别s1的概率计算公式为:

其中,a2为所述用户的aoi分布数据集中的一个aoi的信息,s1为标记人群下的一个场景类别,s2为标记人群的另一个场景类别;

所述用户的aoi分布数据集中a2属于标记人群下场景分布的另一个场景类别s2的概率计算公式为:

其中,a2为用户的aoi分布数据集中的一个aoi的信息,s1为标记人群下的一个场景类别,s2为标记人群下的另一个场景类别;

根据所述的用户aoi的概率分布,及在已知aoi下分别属于所述标记人群的某个对应场景的概率,计算用户各个对应场景的概率分布。

假定所述用户场景概率分布中的其中一个场景s1具体的到访地址有a1、a2,该用户位于场景s1的概率计算公式为:

p(s1)=p(s1,a1)+p(s1,a2)

=p(a1)p(s1/a1)+p(a2)p(s1/a2),

其中,s1为标记人群下场景的一个场景类别,a2为用户的aoi分布数据集中的一个aoi信息,a1为用户aoi分布数据集中的另一个aoi的信息。

上述进一步技术方案的有益效果为:通过对待评估的用户进行采样,得到用户的场景概率分布,提高用户与场景对应分布概率的准确性。

进一步地,还包括:根据所述用户的场景概率分布、所述标记人群到场景的概率分布,采用极大似然公式来判断所述用户属于所述标准人群的概率值。

上述进一步技术方案的有益效果为:通过建立数据分析算法模型,对采集到的用户的位置数据进行分析,得出该用户的场景概率分布,然后将该用户的场景概率分布与标准属性的场景概率分布进行匹配以及评估,通过大数据算法,来使识别用户人群属性中的各环节的推论更加科学合理,提高用户人群属性结论的准确性。

进一步地,所述判断所述用户属于所述标准人群的概率值的计算公式为:

所述判断所述用户属于所述标准人群的概率值的计算公式为:

其中,θ为标准人群各个场景的概率分布,α'为用户对各个场景到访的次数,p(θ/α')为用户属于标准人群的概率值。

上述进一步技术方案的有益效果为:通过假设用户属于某个人群属性,得到该用户现有的场景分布的概率,以完成用户的实际场景概率分布与标准人群场景概率分布的匹配,通过大数据算法将用户的实际场景概率与标准人群场景概率分布进行匹配,提高评估用户人群属性的准确性。

此外,本发明还提供了一种计算机可读存储介质,其包括指令,当所述指令在计算机上运行时,使所述计算机执行根据前述任一项所述的方法。

另外,本发明还提供了一种识别用户人群属性的装置,其包括:采集模块,用于采集标记人群的经纬度数据集;处理模块,用于将所述人群的经纬度数据集与所述aoi数据库进行匹配,得到所述标记人群的aoi分布数据集;处理模块,用于根据所述标记人群的aoi分布数据集,确定所述标记人群到场景概率分布的概率密度函数以及所述场景到所述aoi的概率分布。

上述技术方案的有益效果为:通过对标记人群进行采样,得到标准属性的场景概率分布,提高人群与场景对应分布概率的准确性。

进一步地,所述采集模块,还用于采集用户的经纬度数据集;

所述处理模块,还用于将所述用户的经纬度数据集与所述aoi数据库进行匹配,得到所述用户的aoi分布数据集;

所述处理模块,还用于假定所述用户属于所述标记人群,根据所述标记人群的场景分布数据集以及所述场景到所述aoi的概率分布,通过采用贝叶斯公式来确定用户在已知aoi属于标记人群下某个对应场景的概率;

假定所述用户的aoi分布数据集中的a2属于所述标记人群下的多个场景s1、s2,a2属于其中的一个场景类别s1的概率计算公式为:

其中,a2为所述用户的aoi分布数据集中的一个aoi的信息,s1为标记人群下的一个场景类别,s2为标记人群的另一个场景类别;

所述用户的aoi分布数据集中a2属于标记人群下场景分布的另一个场景类别s2的概率计算公式为:

其中,a2为用户的aoi分布数据集中的一个aoi的信息,s1为标记人群下的一个场景类别,s2为标记人群下的另一个场景类别;

所述处理模块,还用于根据所述的用户aoi的概率分布,及在已知aoi下分别属于所述标记人群的某个对应场景的概率,计算用户各个对应场景的概率分布;

假定所述用户场景概率分布中的其中一个场景s1具体的到访地址有a1、a2,该用户位于场景s1的概率计算公式为:

p(s1)=p(s1,a1)+p(s1,a2)

=p(a1)p(s1/a1)+p(a2)p(s1/a2),

其中,s1为标记人群下场景的一个场景类别,a2为用户的aoi分布数据集中的一个aoi信息,a1为用户aoi分布数据集中的另一个aoi的信息。

上述进一步技术方案的有益效果为:通过对待评估的用户进行采样,得到用户的场景概率分布,提高用户与场景对应分布概率的准确性。

进一步地,所述处理模块,还用于根据所述用户的场景概率分布、所述标记人群到场景的概率分布,采用极大似然公式来判断所述用户属于所述标准人群的概率值。

上述进一步技术方案的有益效果为:通过建立数据分析算法模型,对采集到的用户的位置数据进行分析,得出该用户的场景概率分布,然后将该用户的场景概率分布与标准属性的场景概率分布进行匹配以及评估,通过大数据算法,来使识别用户人群属性中的各环节的推论更加科学合理,提高用户人群属性结论的准确性。

进一步地,所述处理模块计算所述判断所述用户属于所述标准人群的概率值的公式为:

其中,θ为标准人群各个场景的概率分布,α'为用户对各个场景到访的次数,p(θ/α')为用户属于标准人群的概率值。

上述进一步技术方案的有益效果为:通过假设用户属于某个人群属性,得到该用户现有的场景分布的概率,以完成用户的实际场景概率分布与标准人群场景概率分布的匹配,通过大数据算法将用户的实际场景概率与标准人群场景概率分布进行匹配,提高评估用户人群属性的准确性。

附图说明

图1为本发明实施例的识别用户人群属性的方法的流程示意图之一。

图2为本发明实施例的识别用户人群属性的方法的流程示意图之二。

图3为本发明实施例的识别用户人群属性的方法的流程示意图之三。

图4为本发明实施例的识别用户人群属性的方法的流程示意图之四。

图5为本发明实施例的识别用户人群属性的方法的流程示意图之五。

图6为本发明实施例的识别用户人群属性的方法的流程示意图之六。

图7为本发明实施例的识别用户人群属性的方法的流程示意图之七。

图8为本发明实施例的识别用户人群属性的方法的流程示意图之八。

图9为本发明实施例的识别用户人群属性的方法的流程示意图之九。

图10为本发明实施例的识别用户人群属性的方法的流程示意图之十。

图11为本发明实施例的识别用户人群属性的方法的流程示意图之十一。

图12为本发明实施例的识别用户人群属性的装置的结构示意图之一。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

如图1-9所示,图1为本发明实施例的识别用户人群属性的方法的流程示意图之一;图2为本发明实施例的识别用户人群属性的方法的流程示意图之二;图3为本发明实施例的识别用户人群属性的方法的流程示意图之三;图4为本发明实施例的识别用户人群属性的方法的流程示意图之四;图5为本发明实施例的识别用户人群属性的方法的流程示意图之五;图6为本发明实施例的识别用户人群属性的方法的流程示意图之六;图7为本发明实施例的识别用户人群属性的方法的流程示意图之七;图8为本发明实施例的识别用户人群属性的方法的流程示意图之八;图9为本发明实施例的识别用户人群属性的方法的流程示意图之九;图10为本发明实施例的识别用户人群属性的方法的流程示意图之十;图11为本发明实施例的识别用户人群属性的方法的流程示意图之十一;图12为本发明实施例的识别用户人群属性的装置的结构示意图之一。

1、线下定位人群识别概述

在线下定位人群识别的任务中,通常通过采集用户的位置数据,分析用户平时都到访哪些场所,以此来判断该用户是否属于某个指定的人群。

需要说明的是,这里有个假设,对于不同的人群,平时会偏向到访不同的场所,而同一类人群到访的场所会比较接近。例如:装修族,除了到访日常的生活工作涉及到的场所,还会以一定的频率到达建材市场、装修公司等场所。如果一个用户对这些场所的到访频次跟装修族比较匹配,就可以判定其为装修族。

对用户进行人群属性判断大致可分以下几个步骤:

(1)确定人群日常到访的场景分布

可以将一批有共同功能特性的场所称作场景,比如建材市场、咖啡厅、酒吧、办公楼以及小区等。每个人群中的用户日常到访的场景往往服从某种概率分布,所以对于要识别的人群,需要先确定用户对应场景的概率分布。比如装修族的用户,装修族的用户日常的到访记录中有多少的频次是处于建材市场,多少的频次处在其它的某个场景。

在现有的操作中,采用人为定义规则的方式为人群与场景建立对应的关系。这种方式没有数据支持,相关度如何、有没有遗落某个场景都值得怀疑。

(2)获取场景对应的地址信息

每个场景实际上包含了一批具体的地址。比如建材市场中可能设有具体的恒大建材市场以及萧山建材市场等。可以将这些具体的地址表示称为poi(信息点,经纬度信息)。poi是代表具体地址的一个点,poi不包含具体地址水平方向的信息。

如果要得到一个用户都访问了哪些场景,需要先知道这些场景下面都有哪些对应的poi。在现有的操作中通常通过人为的定义场景与poi之间的对应关系。

(3)通过gps(globalpositioningsystem,全球定位系统)定位获取用户日常位置信息列表

通过gps对用户的位置进行定时采样,比如,每10分钟采样1次用户的位置,以获得用户在某段时间内的位置信息列表。其中,位置信息以经纬度的形式表示。

(4)根据用户的位置信息判断用户到访的地址分布

在得到用户日常所处的经纬度信息之后,如果要得到用户到访的具体地址,必须将用户的经纬度信息跟标准地址的经纬度信息进行匹配。前面所述的每个地址对应的poi有经纬度信息,但是poi只表示一个点,地址往往是一个区域。需要将用户所处的点跟标准地址区域进行匹配,如果用户位置的经纬度坐标在某地址的区域内就说明该用户处于该地址。可以将表示地址区域的信息称为该地址的aoi(地址区域的信息)。每个地址poi都有与之对应的aoi,但是不同的地址poi对应的aoi可能会有重叠,也有可能不同的poi完全对应同一个aoi。比如:xx咖啡厅跟xx餐厅可能处在同一幢楼的上下层,它们的aoi是重叠的,aoi只有水平方向的信息,没有垂直方向的信息。也有一些poi实际的aoi是不重叠的,但是因为标准的aoi信息库没有区分的那么细,一批poi可能会被纳入同一个aoi中。比如:一个小区可能会有路边店铺、各类小吃以及理发店等,也有居民楼,也有草坪。但这些poi只对应1个aoi,即这个小区的范围。

当识别出用户的经纬度坐标在某个aoi内时,就可以判断该用户处在该poi对应的地址中。但是,对于aoi对应多个地址的情形,不能知道该用户实际处在哪个地址中。

(5)推测用户日常到访场景的概率分布

在将用户的位置信息跟地址进行匹配后,可以获得用户在某段时间内的地址分布列表。根据事先设定的场景与地址的对应关系,可以得到用户日常到访场景的概率分布。

(6)判断用户是否属于指定人群

根据事先定义的人群与场景的对应关系。将单个用户获得的场景分布与人群的场景分布进行匹配,以此来判断该用户是否属于该人群。

但是,单个用户的场景分布跟人群的场景分布不可能完全一模一样,相似到怎样的程度才算是匹配,需要一个大数据意义上的衡量标准。

综上所述,现有技术中在没有大数据算法介入的情况下,若想通过用户的线下位置数据来识别用户的人群属性,存在以下问题。

(1)人群跟场景以及场景地址的对应关系无法科学全面的建立。

(2)在用户的位置信息跟具体的aoi进行匹配后,在一个aoi对应多个poi的情况下,无法精确判断位置对应的poi,也不能识别所处场景。

(3)在获得用户位置所处场景的概率分布后,在识别用户是否属于某个人群时,缺少科学的标准来判断该用户的场景分布跟该人群的场景分布具有同质性。

2、lda概述

需要说明的是,lda作为一种主题模型,最早应用于文档生成模型。主题模型认为一篇文章是有多个主题的,而每个主题又对应着不同的词。一篇文章的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某一个词,这样就生成了这篇文章的第一个词。不断重复这个过程,就生成了整片文章。当然这里假定词与词之间是没顺序的。

在实际应用的过程中通常是上述文档生成的逆过程。比如有时候需要给一批文章聚类,或者计算两篇文章的相似度,或者将一篇文章归到已知的类中。已经知道的是构成这些文章的单词,lda模型可以做的是利用可观测的单词分布寻找单词背后隐藏的主题,算出主题对应单词的概率分布,也可以得出文章对应主题的概率分布。可以利用文章对应主题的矩阵分布做文章之间的相似性分析,这样就可以解决直接用文章与词频相关矩阵做相似度分析时的矩阵稀疏问题。

lda模型的实质是利用主题来给单词降维,使一些同义词或者相同意思不同表述方式的词可以归为同一主题。

lda降维的思想与逻辑也可以应用于其它情景,比如对各种杂乱、有着不同表述方式的商品名称进行降维,使其归类到同一规范的类目体系之中。在此基础上可以采用协同过滤算法来对用户进行商品的个性推荐。

本发明采用lda算法对用户的aoi进行降维,将用户的aoi归类到跟人群的属性关系更密切的场景类目中。

3、本发明的目的

在根据采集的用户位置信息来识别用户的人群属性这一任务中,通过引入大数据算法来使各环节的推论更加科学合理。

对于某个已标记的特定人群,采用lda算法,直接建立人群—场景—aoi的对应关系,并算出人群到场景、场景到aoi之间的概率分布系数。

对于一个aoi存在多个场景的情况,本发明采用贝叶斯概率公式,针对每个特定的人群,分别算出某个aoi可能会属于哪个场景的概率;

在将用户到场景的概率分布跟人群场景的概率分布进行同质性匹配时,本发明采用极大似然公式来算出该用户属于该人群的概率。

下面对本发明的具体技术方案进行详细描述。

一、采用lda算法为想要识别的人群建立对应的人群—场景—aoi关系体系

1、lda算法(lineardiscriminantanalysis,降维方法线性判别分析)在人群、aoi(areaofinterest,地址区域的信息)关系建立中的应用:

在线下定位人群识别任务中,很重要的一步是将人群与位置aoi之间建立关联。通过人群—场景关联、场景—地址(poi)关联、地址—aoi关联等中间步骤来建立人群—aoi的联系。对应关系如图2所示。利用lda模型算法可以直接在人群-场景-aoi之间建立关联。通过分析三者的关系可以发现,对于特定人群或者单个用户来说,他们位置数据集合代表了一些场景构成的概率分布,而每个场景又代表了很多aoi构成的概率分布。也就是某个人群或某个用户的位置数据集的生成可以看成是以一定的概率选择了某些场景,场景再以一定的概率选择了一些aoi。

在应用lda模型时,人群或者用户在特定时间内的位置数据集相当于一篇文章;数据集对应的场景分布相当于文章的主题分布;场景对应的aoi分布相当于主题对应的单词分布。

人群-场景-aoi之间的关系如图3所示。其中,人群与场景之间是多对多的关系,场景跟aoi之间也是多对多的关系。g:表示人群的集合,假如有m个人群,g=(g1,g2,…gm)。s:表示场景的集合,假如有k个场景,s=(s1,s2....sk)。a:表示aoi的集合,假如有n个场景,a=(a1,a2,…an)。θmk:表示人群到场景概率分布,是一个m*k的矩阵,例如:θ12表示人群1选择场景2的概率。βkn:表示场景到aoi概率分布,是一个k*n的矩阵,例如:β12表示去过场景1的人会选择去aoi2的概率。

2、人群-场景-aoi概率图模型

人群-场景-aoi的概率图模型如图4所示。前面提到a指的是aoi集合,s指的是场景集合,β是指场景到aoi的概率分布,θ是指人群到场景的概率分布。这里的α是指概率分布θ的概率分布参数,根据贝叶斯学派的思路,人群到场景之间的概率θmk实际上不是固定的值,这些概率的值本身也服从某种概率分布,即θmk是在一定的概率水平下取对应的值。

从概率模型图可以得出这些概率之间的依赖关系:

(1)θ的概率分布由参数α决定,即θ的概率密度是关于自变量α的函数;以下是θ的概率分布函数,表示θ在各个可能的取值下的概率。

其中,θ为人群到场景的概率分布,α为概率分布θ的概率分布参数,p(θ/α)为θ在各个可能的取值下的概率。

(2)s(场景)的最终的频次分布由人群-场景概率分布值θ决定,表示特定的人群以一定的概率分布值选择相应的场景;

(3)a(aoi)最终的频次分布由s(场景)的频次分布、场景—aoi概率分布参数β同时决定;

也就是说,对于某个人群/人,若想生成其日常位置aoi采样的频次分布,需要先确定参数α的值,这样人群—场景的概率分布就确定了,也就知道了该人群/用户日常场景的频次百分比。再如果参数β的值也确定了,那aoi采样的频次分布也就确定了。

而在人群-场景-aoi关系建立这个任务中,已知的条件是:(1)标记号的人群;(2)通过定位采集到的该人群aoi频次分布。需要计算的变量是:(1)人群跟aoi之间的场景及命名;(2)人群到场景之间的概率分布θ;(3)、场景到aoi之间的概率分布β。

具体操作:

1、人群标记

定义要识别的人群,对人群的成员进行标记,得到标记人群。比如:要对装修族进行识别,找一批已知的装修族用户打上人群标签;

标记人群:对一批已知人群属性的用户进行人为标记,称为该属性下的标记人群。比如对一批已知是白领的用户打上“白领一族”的标签,这批被打上“白领一族”标签的用户便是标记人群。

这里可以通过采集模块完成s11采集标记人群的经纬度数据集,可以通过采集模块完成s21采集用户的经纬度数据集。

2、获取aoi数据集

针对要识别的已标记人群,在指定的时间段内,通过gps全球定位系统每隔10分钟采集一次用户的经纬度数据,通过建立的aoi数据库将经纬度数据匹配成aoi数据。这样就获取了标记人群对应的aoi数据集,aoi数据可以用aoi名称来表示。

这里可以通过处理模块完成s12将所述标记人群的经纬度数据集与所述aoi数据库进行匹配,得到所述标记人群的aoi分布数据集;这里可以通过处理模块完成s22将所述用户的经纬度数据集与所述aoi数据库进行匹配,得到所述用户的aoi分布数据集。

3、通过算法求模型潜变量s及参数α、β

采用lda针对标记人群,求出标记人群到场景的概率分布,以及场景到aoi的概率分布。

具体地:

输入:

(1)标记人群对应的用户aoi数据集,一个标记人群的数据集为一行;

(2)场景个数可以为k,这里的取值用户可以根据经验指定,也可以通过反复试验找出最佳值;

(3)参数α、β,即给α、β设置一个初始值,α、β的初始值只要在定义域内均可;

输出:

(1)参数α的值,每个标记人群对应的场景概率分布θ的概率函数,可以采用概率值最大的θ值作为标记人群到场景的概率分布θ;

(2)每个aoi被指定的场景编号,及每个场景下的aoi概率分布β,每个场景下频次按照从高到低排布顺序的topnaoi。

这里可以通过处理模块完成s13根据所述标记人群的aoi分布数据集,通过采用lda算法来确定所述标记人群到场景的概率分布以及所述场景到所述aoi的概率分布。

二、对于一个aoi可能会存在多个场景的情况,本发明采用贝叶斯概率公式分别算出某个aoi可能会属于哪个场景的概率

在采用lda算法对标记人群(比如:装修族)建立了标记人群到场景、场景到aoi的概率分布体系之后。需要判断某个用户是否属于该标记人群。可以通过对该用户的gps定位来获取该用户日常的aoi频次分布。可以将该用户的aoi对应的场景分布跟该标记人群的场景分布进行匹配来判断该用户是否属于该标记人群。

但是,一个aoi可能对应多个场景,当用户处在某一aoi时,无法判断用户实际是处于哪个场景。所以需要针对每个标记人群,算出在特定的aoi下属于哪个场景的概率。比如以图5中的装修族,假如用户处在a2(星光大道)这个aoi中,用户有可能实际是处在s1(比如:服装商城),也有可能处在s2(比如:家电市场)。也就是说,需要在已知条件θmk、βkn的约束下算出a2分别属于s1、s2的概率。对于这个问题可以采用贝叶斯概率公式来计算。

装修族用户处在a2时,实际上属于s1的概率计算公式如下:

其中,a2为所述用户的aoi分布数据集中的一个aoi的信息,s1为标记人群下的一个场景类别,s2为标记人群的另一个场景类别。

装修族用户处在a2时,实际上属于s2的概率计算公式如下:

其中,a2为用户的aoi分布数据集中的一个aoi的信息,s1为标记人群下的一个场景类别,s2为标记人群下的另一个场景类别。

如图6和图7所示,在判断用户是否属于装修族时,可以先将用户的aoi概率分布转化为场景概率分布。这时可以假定用户属于装修族,服从跟装修族一样的θmk、βkn分布。可以通过以上贝叶斯公式算出各个aoi对应的场景概率分布。最后得到用户的场景概率分布。

这里可以通过处理模块完成s24根据所述的用户aoi的概率分布,及在已知aoi下分别属于所述标记人群的某个对应场景的概率,计算用户各个对应场景的概率分布。

假定用户采集到的aoi为a1、a2、a3,其频次分别为p(a1)、p(a2)、p(a2)。其中,a1对应的场景为s1,a2对应的场景为s1、s2,a3对应的场景为s2、s3。可以假设s1、s2、s3的概率分布分别为p(s1)、p(s2)、p(s3)。

从而得到了要识别的用户日常到访场景的概率分布。

在判断用户x是否属于装修族时,我们可以先将用户x的aoi概率分布转化为场景概率分布。这时可以假定用户x属于装修族,服从跟装修族一样的θmk、βkn分布。可以通过以上的贝叶斯公式算数各个aoi对应的场景概率分布。最后得到用户x的场景概率分布。

这里可以通过处理模块完成s23假定所述用户属于所述标记人群,根据所述标记人群的场景分布数据集以及所述场景到所述aoi的概率分布,通过采用贝叶斯公式来确定用户在已知aoi属于标记人群下某个对应场景的概率。

假定用户x采集到的aoi为a1、a2、a3,他们的频次分别为p(a1)、p(a2)、p(a2)。其中a1对应的场景为s1,a2对应的场景为s1、s2,a3对应的场景为s2、s3。设s1、s2、s3的概率分布分别为p(s1)、p(s2)、p(s3)。

p(s1)=p(a1)p(s1/a1)+p(a2)p(s1/a2);

其中,s1为标记人群下场景的一个场景类别,a2为用户的aoi分布数据集中的一个aoi信息,a1为用户aoi分布数据集中的另一个aoi的信息。

p(s2)=p(a2)p(s2/a2)+p(a3)p(s2/a3);

p(s3)以此类推。

这样就得到了要识别用户日常到访场景的概率分布。

三、基于新增用户的各个aoi到访分布数据,采用最大似然法来判断该用户属于某个标记人群的概率

前面已经介绍了通过lda算法得出标记人群到场景的概率分布,也通过贝叶斯概率公式推出了用户的场景概率分布,并且用户的场景分布跟标记人群的场景分布可以在命名上保持一致。

这里需要判断用户是否属于标记人群g。需要将用户的场景概率分布跟标记人群g的场景概率分布进行匹配。要想得到用户跟该标记人群g匹配的概率,可以假设用户属于标记人群g,得到用户现有的场景分布的概率是多少,用户现有的场景分布的概率可以用用户场景分布的最大似然函数来求出。

这里可以通过处理模块完成s31根据所述用户的场景概率分布、所述标记人群到场景的概率分布,采用极大似然公式来判断所述用户属于所述标记人群的概率值。

可以假设标记人群g到场景s1、s2、s3……sk的概率分布分别为θ1、θ2、θ3……θk,用户在各个场景采集到的数据次数分别为α'1、α'2、α'3……α'k,满足该用户场景次数分布的概率的极大似然函数如下所示:

其中,θ为标记人群各个场景的概率分布,α'为用户在各个场景采集到的数据次数,p(θ/α')为标记人群在实际中采集到跟用户同样的场景分布的概率。

上述公式表示标记人群g在实际中采集到跟用户同样的场景分布的概率,可以用上述公式得出的概率值来表示以及评估用户跟标记人群g匹配的程度。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1