分类方法、装置、设备以及存储介质与流程

文档序号:29631625发布日期:2022-04-13 16:05阅读:110来源:国知局
分类方法、装置、设备以及存储介质与流程

1.本公开涉及计算机技术领域,尤其涉及大数据、数据挖掘、机器学习等领域。


背景技术:

2.在对各种平台的使用者等进行标签化过程中,许多类型的标签,需要依赖人工收集标签的样本。因此,收集过程需要花费较长的时间,并且,所需的人力成本较多。


技术实现要素:

3.本公开提供了一种分类方法、装置、设备以及存储介质。
4.根据本公开的一方面,提供了一种分类方法,包括:
5.根据出现在目标区域内的对象的位置信息,得到该对象的特征向量;
6.对该对象的特征向量进行聚类训练,得到该对象所归属的类簇。
7.根据本公开的另一方面,提供了一种分类装置,包括:
8.特征向量模块,用于根据出现在目标区域内的对象的位置信息,得到该对象的特征向量;
9.聚类训练模块,用于对该对象的特征向量进行聚类训练,得到该对象所归属的类簇。
10.根据本公开的另一方面,提供了一种电子设备,包括:
11.至少一个处理器;以及
12.与该至少一个处理器通信连接的存储器;其中,
13.该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例的方法。
14.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行本公开任一实施例的方法。
15.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现本公开任一实施例的方法。
16.本公开实施例,能够对利用出现在目标区域内的对象的位置信息,准确地对该对象进行分类。
17.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
18.附图用于更好地理解本方案,不构成对本公开的限定。其中:
19.图1是根据本公开一实施例的分类方法的流程示意图;
20.图2是根据本公开另一实施例的分类方法的流程示意图;
21.图3是根据本公开另一实施例的分类方法的流程示意图;
22.图4是根据本公开另一实施例的分类方法的流程示意图;
23.图5是根据本公开另一实施例的分类方法的流程示意图;
24.图6是根据本公开一实施例的分类装置的结构示意图;
25.图7是根据本公开另一实施例的分类装置的结构示意图;
26.图8是根据本公开另一实施例的分类装置的结构示意图;
27.图9是根据本公开实施例中特征生成的流程示意图;
28.图10a是根据本公开实施例中生成定位名称向量的示意图;
29.图10b是根据本公开实施例中生成特征向量的示意图;
30.图10c是根据本公开实施例中向量拼接的一种示例的示意图;
31.图10d是根据本公开实施例中向量拼接的另一种示例的示意图;
32.图11是根据本公开实施例中类别划分的流程示意图;
33.图12是根据本公开实施例的聚类训练的流程示意图;
34.图13是用来实现本公开实施例的分类方法的电子设备的框图。
具体实施方式
35.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
36.图1是根据本公开一实施例的分类方法的流程示意图。该方法可以包括:
37.s101、根据出现在目标区域内的对象的位置信息,得到该对象的特征向量;
38.s102、对该对象的特征向量进行聚类训练,得到该对象所归属的类簇。
39.在本公开实施例中,目标区域可以包括需要进行对象分配的区域。该区域的具体范围可以选定,也可以根据区域的特征自动确定。例如,如果目标区域是学校、商场、食堂等,可以利用地图等应用程序自动确定目标区域所包括的位置范围。如果需要对出现在目标区域的各个对象进行分类,可以通过例如地图或通信运营商等的定位服务获取出现在目标区域内的各个对象的位置信息。对象可以包括能够使用定位服务的用户。例如某应用程序或网络平台的能够使用定位服务的用户。一个对象在目标区域内可能包括多个位置信息,例如在不同的时间,该对象出现在目标区域内的不同位置或者该对象在相同位置多次定位。对该对象的每个位置信息进行分词等处理,得到该对象的特征向量。如果有多个对象,可以得到每个对应的特征向量。然后对一个或多个对象的特征向量进行聚类训练,可以得到每个对象所归属的类簇。
40.本公开实施例的分类方法,能够对利用出现在目标区域内的对象的位置信息,准确地对该对象进行分类。
41.图2是根据本公开另一实施例的分类方法的流程示意图。该分类方法可以包括上述方法实施例的一个或多个特征。在一种实施方式中,该对象的位置信息包括该对象的定位名称,s101根据出现在目标区域内的对象的位置信息,得到该对象的特征向量,包括:
42.s201、根据该对象的定位名称,得到该对象的定位名称向量;
43.s202、根据第一时间范围内出现在该目标区域内该对象的定位名称向量,得到该
对象的特征向量。
44.在本公开实施例中,对象的位置信息可以包括对象的定位名称。如果某个对象在目标区域内的兴趣点(point of interest,poi)或者相对固定的位置进行定位,可以将这个poi或者相对固定的位置的名称例如,建筑物、标志物等的名称,作为该对象的定位名称。每个定位名称可以转换为一个定位名称向量。如果在第一时间范围内,一个对象在目标区域内具有多个定位名称,可以基于这多个定位名称转换得到的定位名称向量,得到该对象的特征向量。
45.在本公开实施例中,第一时间范围可以根据实际应用场景的需求灵活选择,例如,一年、半年、1个月、1天等。
46.在本公开实施例中,能够利用第一时间范围内出现在目标区域内的对象的定位名称,得到定位名称向量,进而得到对象的特征向量,有利于后续准确地对该对象进行分类,提高分类效率。
47.图3是根据本公开另一实施例的分类方法的流程示意图。该分类方法可以包括上述方法实施例的一个或多个特征。在一种实施方式中,s201根据该对象的定位名称,得到该对象的定位名称向量,包括:
48.s301、将该对象的定位名称的所有分词的词向量求和平均,得到该对象的定位名称向量。
49.在本公开实施例中,定位名称可能被切分为一个或多个分词,每个分词具有对应的词向量。将某个定位名称的一个或多个分词的词向量求和平均,可以得到该定位名称对应的定位名称向量。
50.例如,某个定位名称“第一食堂”可以被切分为“第一”和“食堂”,其中“第一”对应词向量1,“食堂”对应词向量2,将词向量1与词向量2的求和平均可以得到“第一食堂”的定位名称向量。
51.再如,某个定位名称“xx第二图书馆”可以被切分为“xx”和“第二”和“图书馆”,其中“xx”对应词向量1,“第二”对应词向量2,“图书馆”对应词向量3,将词向量1、词向量2与词向量3求和平均可以得到“xx第二图书馆”的定位名称向量。
52.在本公开实施例中,通过对定位名称进行分词,并对每个分词的词向量求和平均,可以得到更加准确的定位名称向量,有利于后续利用对象准确的定位名称向量得到特征向量,进而可以更加准确地对该对象进行分类,提高分类效率。
53.在一种实施方式中,该第一时间范围包括多个时间段,s202根据第一时间范围内出现在该目标区域内该对象的定位名称向量,得到该对象的特征向量,包括:
54.s302、将每个时间段内包括的该对象的多个定位名称向量求和平均,得到每个时间段对应的该对象的子向量;
55.s303、将该多个时间段对应的对象的子向量进行拼接,得到该对象的特征向量。
56.在本公开实施例中,可以将第一时间范围划分为多个时间段。例如,如果第一时间范围是一天,可以早上、中午、晚上各选1到2个小时作为一个时间段。再如,如果第一时间范围是一周,可以将每天作为一个时间段。本公开实施例具体不限定第一时间范围的具体长度,也不限定将第一时间范围划分为多个时间段的具体方式,可以根据实际应用场景的需求灵活选择。
57.在本公开实施例中,可以获取第一时间范围的每个时间段包括的该对象的多个定位名称向量,将这些定位名称向量求和平均,得到每个时间段对应的该对象的子向量。然后在将第一时间范围的所有时间段对应的对象的子向量进行拼接,得到该对象的特征向量。
58.例如,在一天内的两个时间段分别得到某个对象的多个定位名称向量。在时间段1,该对象的定位名称向量1、定位名称向量2和定位名称向量3求和平均得到子向量1;在时间段2,该对象的定位名称向量3、定位名称向量4和定位名称向量5求和平均得到子向量2,然后利用子向量1和子向量2可以拼接得到该对象的特征向量。
59.在本公开实施例中,通过对每个时间段包括的对象的多个定位名称向量求和平均和拼接,得到的该对象的特征向量更加准确,进而可以更加准确地对该对象进行分类,提高分类效率。
60.图4是根据本公开另一实施例的分类方法的流程示意图。该分类方法可以包括上述方法实施例的一个或多个特征。在一种实施方式中,s201根据该对象的定位名称,得到该对象的定位名称向量,包括:
61.s401、将该对象的定位名称的所有分词的词向量求和平均,得到该对象的定位名称向量。
62.在一种实施方式中,该第一时间范围包括多个时间段,s202根据第一时间范围该对象的多个定位名称向量,得到该对象的特征向量,还包括:
63.s402、将每个时间段内包括的该对象的多个定位名称向量求和平均,得到每个时间段对应的该对象的子向量;
64.s403、将该多个时间段对应的对象的子向量与该对象的年龄特征进行拼接,得到该对象的特征向量。
65.在本实施例中,s401与上一实施例的s301相同,s402与上一实施例的s302相同,可以参见上一实施例的相关描述,在此不赘述。
66.在s403中,可以将该第一时间范围包括的多个时间段对应的对象的子向量与该对象的年龄特征进行拼接,得到考虑对象年龄特征的特征向量。这样,有利于将年龄特征与位置信息结合,按照不同年龄阶段对该对象进行准确地分类。
67.在一种实施方式中,s102对该对象的特征向量进行聚类训练,得到该对象所归属的类簇,包括:s404、采用高斯混合模型对该对象的特征向量进行聚类训练,得到该对象所归属的类簇。
68.在本公开实施例中,高斯混合模型(gaussian mixture model,gmm)是一种聚类算法。高斯混合模型可以使用高斯分布作为参数模型,并使用期望最大(expectation maximization,简称em)算法进行训练。将对象的特征向量输入高斯混合模型,该高斯混合模型可以输出该对象所归属的类簇。具体地,高斯混合模型的输出结果可以包括某个对象的标识及其对应的类簇的标识。对象的标识可以包括用户的标识,例如某个应用程序或网络平台的用户的用户名、昵称、注册号等一种或多种注册信息。例如,对象id1对应类簇a,对象id2对应类簇b。通过高斯混合模型,能够简单快速的得到对象所归属的类簇,能够快速地处理大量数据,提高处理效率。
69.图5是根据本公开另一实施例的分类方法的流程示意图。该分类方法可以包括上述方法实施例的一个或多个特征。在一种实施方式中,该方法还包括:s501、对该对象所归
属的类簇进行抽样分析,得到该对象的标签。在本公开实施例中,确定出每个对象所归属的类簇后,可以对这些类簇进行抽样分析。例如,某个对象(标识可以为对象id1)归属于类簇a。对该类簇a中包括1000个对象(标识可以包括对象id1、对象id2、对象id3等)。从类簇a中1000个对象中抽样100个对象进行分析,可以确定出对象所归属的类簇对应标签。某个类簇对应一个标签,则该标签可以是该类簇中所有对象的标签。通过对某个对象所归属的类簇类簇进行抽样分析,得到该对象的标签,能够支持对该对象进行标签化处理。
70.在一种实施方式中,s501对该对象所归属的类簇进行抽样分析,得到该对象的标签,包括:根据时间特征对该对象所归属的类簇进行抽样分析,确定该对象所归属的类簇对应的标签,作为该对象的标签,该时间特征包括第二时间范围内的定位频次。
71.在本公开实施例中,用于抽样分析的时间特征可以包括某个对象在某个第二时间范围内的定位频次。第二时间范围可以基于想要得到的标签的特点来选择。例如,如果需要得到学生和老师等标签,可以选择寒暑假、正常上课月份等作为第二时间范围。如果某个类簇中包括的较多对象在寒暑假的定位频次比其他月份低很多,可以初步判定该类簇属于学生簇或老师簇。
72.该第二时间范围和上述实施例中用于得到特征向量的第一时间范围及其时间段可以相同,也可以不同。用于得到特征向量的第一时间范围可以在用于抽样分析的第二时间范围内,也可以不在该第二时间范围内。例如,用于得到特征向量的第一时间范围可以是一天,用于抽样分析的第二时间范围可以是一个月。再如,用于得到特征向量的第一时间范围可以是一周,用于抽样分析的第二时间范围可以是一年。
73.在本公开实施例中,可以从定位服务中获取每个对象在目标区域内的定位频次。例如,可以获取每个对象在第二时间范围内且在目标区域内的定位频次。定位频次可以包括定位次数和/或定位频率。具体例如,在一个月(假设这个月是30天)内,某个对象在某个区域的定位次数为n次,定位频率可以为n/30。再如,在一周内,某个对象在某个区域的定位次数为n次,定位频率可以为n/7。
74.在本公开实施例中,通过每个对象在第二时间范围内且在目标区域内的定位频次可以确定该对象所归属的类簇对应的一个或多个标签。如果该对象所归属的类簇对应一个标签,可以为该对象添加该标签。如果该对象所归属的类簇对应多个标签,需要进一步确定该对象所归属的类簇更合适的标签。例如,对象id1对应类簇a,根据时间特征对该类簇a进行抽样分析后,得到类簇a的标签是标签a1。再如,对象id1对应类簇a,根据时间特征对该类簇a进行抽样分析后,得到类簇a可能的两种标签a1和a2,可以进一步确定类簇a的标签是标签a1还是标签a2。
75.在本公开实施例中,根据时间特征中的定位频次,可以确定出对象所归属的类簇对应的一个或多个标签,能够支持对该对象进行标签化处理,提高标签识别效率和准确性。
76.在一种实施方式中,s501对该对象所归属的类簇进行抽样分析,得到该对象的标签,包括:根据年龄特征对该对象所归属的类簇进行抽样分析,确定该对象所归属的类簇对应的标签,作为该对象的标签。
77.在一种示例中,可以根据时间特征和年龄特征,确定该对象所归属的类簇对应的标签,作为该对象的标签。例如,可以先根据时间特征对该对象所归属的类簇进行抽样分析,确定该对象所归属的类簇对应的多个标签;再根据年龄特征,从该对象所归属的类簇对
应的多个标签中确定出该对象所归属的类簇对应的唯一的标签,作为该对象的标签。在本公开实施例中,可以从应用程序或网络平台等的注册用户提供的信息中获取年龄特征。如果未填写,获取的年龄特征可能为空值。不同年龄段的用户可能属于不同的类簇,利用年龄特征可以区分不同的类簇。例如,学生和老师的年龄特征可能不同,30岁以上的老师居多,30岁以下的学生居多。如果某个类簇包括的各对象的年龄中位数大于或等于30岁,该类簇的标签为老师。如果某个类簇包括的各对象的年龄中位数小于30岁,该类簇的标签为学生。该用于抽样分析的年龄特征的取值仅为示例而非限制,也可也取28、32等,具体可以根据实际应用场景的需求灵活选择。通过年龄特征可以更加准确的得到对象的标签。
78.在一种实施方式中,s501对该对象所归属的类簇进行抽样分析,得到该对象的标签,包括:根据定位次数对该对象所归属的类簇进行抽样分析,确定该对象所归属的类簇对应的标签,作为该对象的标签。
79.在一种示例中,可以根据时间特征和定位次数,确定该对象所归属的类簇对应的标签,作为该对象的标签。例如,先根据时间特征对该对象所归属的类簇进行抽样分析,确定该对象所归属的类簇对应的多个标签;再根据定位次数,从该对象所归属的类簇对应的多个标签中确定出该对象所归属的类簇对应的唯一的标签,作为该对象的标签。
80.在一种示例中,也可以根据时间特征、年龄特征和定位次数,确定该对象所归属的类簇对应的标签,作为该对象的标签。其中,时间特征、年龄特征和定位次数的使用顺序,可以根据实际应用场景的需求灵活设置,本公开实施例中不做限制。
81.在本公开实施例中,定位次数也可以称为定位数量。例如,可以从定位服务中获取对象的定位次数。对某个对象所归属的类簇中的各个对象的定位次数进行抽样分析,可以得到该类簇的更准确的标签,进而得到该对象更准确的标签。例如,从类簇b中的2000个对象中抽样300个,对这300个对象的定位次数进行分析,如果定位次数总和较高,可以判定该类簇b为居民簇;如果定位次数总和较低,可以判定该类簇b为访客簇。
82.在一种实施方式中,s501对该对象所归属的类簇进行抽样分析,得到该对象的标签,包括:根据参考向量与该对象的特征向量的相似性,对该对象所归属的类簇进行抽样分析,确定该对象所归属的类簇对应的标签,作为该对象的标签。
83.在一种示例中,可以根据时间特征和相似性,确定该对象所归属的类簇对应的标签,作为该对象的标签。例如,可以先根据时间特征对该对象所归属的类簇进行抽样分析,确定该对象所归属的类簇对应的多个标签;再根据参考向量与该对象的特征向量的相似性,从该对象所归属的类簇对应的多个标签中确定出该对象所归属的类簇对应的唯一的标签,作为该对象的标签。
84.在一种示例中,也可以根据时间特征、年龄特征和相似性,确定该对象所归属的类簇对应的标签,作为该对象的标签。其中,时间特征、年龄特征和相似性的使用顺序,可以根据实际应用的需求灵活设置,本公开实施例中不做限制。
85.在一种示例中,也可以根据时间特征、年龄特征、定位次数和相似性,确定该对象所归属的类簇对应的标签,作为该对象的标签。其中,时间特征、年龄特征、定位次数和相似性的使用顺序,可以根据实际应用的需求灵活设置,本公开实施例中不做限制。
86.在本公开实施例中,可以预先设置各种标签的参考向量,例如,学生参考向量、教师参考向量、居民参考向量等。例如,计算该对象的特征向量与这多个标签的参考向量的相
似性,进而确定该对象更准确的标签。再如,先根据时间特征对该对象所归属的类簇进行抽样分析,得到对象的多个标签后,可以计算该对象的特征向量与这多个标签的参考向量的相似性,进而确定该对象更准确的标签。
87.在一种实施方式中,该方法还可以包括:s502、根据该对象的标识添加该对象的标签。例如,如果某个对象为应用程序或网络平台等的用户,根据本公开实施例的分类方法确定出该用户的标签后,可以根据该用户的标识,为该用户添加标签。在本公开实施例中,可以在确定出对象的标签后,自动为该对象添加标签,提高标签识别效率和准确性。
88.图6是根据本公开一实施例的分类装置的结构示意图。该装置可以包括:
89.特征向量模块601,用于根据出现在目标区域内的对象的位置信息,得到该对象的特征向量;
90.聚类训练模块602,用于对该对象的特征向量进行聚类训练,得到该对象所归属的类簇。
91.图7是根据本公开另一实施例的分类装置的结构示意图。在一种实施方式中,该对象的位置信息包括该对象的定位名称,该特征向量模块601包括:
92.第一向量子模块701,用于根据该对象的定位名称,得到该对象的定位名称向量;
93.第二向量子模块702,用于根据第一时间范围内出现在该目标区域内该对象的定位名称向量,得到该对象的特征向量。
94.在一种实施方式中,该第一向量子模块701,还用于将该对象的定位名称的所有分词的词向量求和平均,得到该对象的定位名称向量。
95.在一种实施方式中,该第一时间范围包括多个时间段,该第二向量子模块702,还用于将每个时间段内包括的该对象的多个定位名称向量求和平均,得到每个时间段对应的该对象的子向量;将该多个时间段对应的该对象的子向量进行拼接,得到该对象的特征向量。
96.在一种实施方式中,该第一时间范围包括多个时间段,该第二向量子模块702,还用于将每个时间段内包括的该对象的多个定位名称向量求和平均,得到每个时间段对应的该对象的子向量;将该多个时间段对应的该对象的子向量与该对象的年龄特征进行拼接,得到该对象的特征向量。
97.在一种实施方式中,该聚类训练模块602,还用于采用高斯混合模型对该对象的特征向量进行聚类训练,得到该对象所归属的类簇。
98.图8是根据本公开另一实施例的分类装置的结构示意图。在一种实施方式中,该装置还包括:
99.抽样分析模块801,用于对该对象所归属的类簇进行抽样分析,得到该对象的标签。
100.在一种实施方式中,该抽样分析模块801包括:
101.时间抽样子模块8011,用于根据时间特征对该对象所归属的类簇进行抽样分析,确定该对象所归属的类簇对应的标签,作为该对象的标签,该时间特征包括第二时间范围内的定位频次。
102.在一种实施方式中,该抽样分析模块801包括:
103.年龄抽样子模块8012,用于根据年龄特征对该对象所归属的类簇进行抽样分析,
确定该对象所归属的类簇对应的标签,作为该对象的标签。
104.在一种实施方式中,该抽样分析模块801包括:
105.数量抽样子模块8013,用于根据定位次数对该对象所归属的类簇进行抽样分析,确定该对象所归属的类簇对应的标签,作为该对象的标签。
106.在一种实施方式中,该抽样分析模块801包括:
107.相似性子模块8014,用于根据参考向量与该对象的特征向量的相似性,对该对象所归属的类簇进行抽样分析,确定该对象所归属的类簇对应的标签,作为该对象的标签。
108.在本公开实施例中,抽样分析模块801可以包括时间抽样子模块8011、年龄抽样子模块8012、数量抽样子模块8013、相似性子模块8014中的一个或多个,可以根据实际应用场景的需求灵活设置,本公开实施例中不做限制。例如,在抽样分析模块801包括时间抽样子模块8011、年龄抽样子模块8012的情况下,时间抽样子模块8011和年龄抽样子模块8012可以配合执行抽样分析的步骤。例如,时间抽样子模块8011先根据时间特征对该对象所归属的类簇进行抽样分析,确定该对象所归属的类簇对应的多个标签;年龄抽样子模块8012再根据年龄特征从该对象所归属的类簇对应的多个标签中,确定出该对象所归属的类簇对应的唯一的标签,作为该对象的标签。抽样分析模块801的其他的多个子模块之间配合执行抽样分析的步骤也是类似的,具体可以参考时间抽样子模块8011和年龄抽样子模块8012配合的示例,或者参考分类方法实施例中对应步骤的相关描述,在此不再赘述。
109.在一种实施方式中,该装置还包括:
110.标签模块802,用于根据该对象的标识添加该对象的标签。
111.本公开的分类装置的各模块的具体功能和示例的描述,可以参见上述分类方法实施例中对应步骤的相关描述,在此不再赘述。
112.在一种示例中,本公开实施例的分类方法可以用于对学生等对象的标签进行分类。学生群体通常活跃在学校,基于用户的定位数据和用户年龄,可以挖掘出学生常活动的轨迹范围,从而得到学生用户的标识。定位数据可以从具有定位服务的平台例如运营商、地图软件等平台获取。
113.采用本公开实施例的分类方法,可以基于对象例如用户定位生成学生标签,具体流程可以包括特征生成和类别划分。
114.一、特征生成的示例性流程如下,参见图9:
115.s901、提取一段时间例如近1年定位在目标区域例如学校内的全部用户的标识和用户的定位名称。其中,提取的时间范围可以选择。学校仅是目标区域的一种示例,也可以是其他区域。例如,最小化获取应用程序或网络平台中包括的用户的标识。定位名称可以包括学校名称和建筑物名称等。例如,某某学校的某某食堂。
116.s902、为每个用户生成一个特征向量。向量构造过程的示例如下:
117.s902a、划分时间段。每天按小时分成3个时间段:8:00~18:00、18:00~23:00、23:00~8:00。这3个时间段的划分方式仅是示例,而非限制。具体时间段的数量和划分范围可以根据应用场景的需求灵活选择。
118.s902b、将每个时间段覆盖的定位名称向量求和平均,得到每个时间段对应的子向量。
119.定位名称向量的生成方法可以包括:定位名称分词,以及词向量求和平均。例如,
如图10a所示,某个定位名称n可以切分为多个分词,分别包括:分词1、分词2
……
分词n,每个分词对应一个词向量,分别包括词向量1、词向量2
……
词向量n。将这多个词向量求和平均得到该定位名称n对应的定位名称向量n。
120.每个时间段的多个定位名称向量再求和平均,可以得到这个时间段对应的子向量。例如,如图10b所示,定位名称1对应定位名称向量1,定位名称2对应定位名称向量2
……
定位名称n对应定位名称向量n。第一时间段8:00~18:00定位中,定位名称向量1、定位名称向量2
……
定位名称向量n求和平均得到第一时间段对应的子向量1。第二时间段18:00~23:00定位中,定位名称向量1、定位名称向量2
……
定位名称向量n求和平均得到第二时间段对应的子向量2。第三时间段23:00~8:00定位中,定位名称向量1、定位名称向量2
……
定位名称向量n求和平均得到第二时间段对应的子向量3。
121.s902c、向量拼接。
122.将多个时间段的向量拼接,可以得到对象的特征向量例如用户的特征向量。例如,参见图10c,假设每个子向量包括128个特征,第一时间段的子向量1包括w1,w2,

,w128,第二时间段的子向量2包括w1,w2,

,w128,第三时间段的子向量2包括w1,w2,

,w128。拼接得到包括384个特征的向量。
123.将多个时间段的向量拼接,再加上年龄特征,可以得到对象的特征向量例如得到用户特征向量。再如,参见图10d,除了子向量1、子向量2和子向量3的特征外,加上1个年龄特征,可以拼接得到包括385个特征的向量。
124.二、类别划分:由于定位在学校的人群除学生外,还包括教师、居民、访客,需要做进一步区分,可以采用无监督聚类加以区分。参见图11,类别划分的流程如下:
125.s1101、用户的特征向量(可以简称用户向量或特征向量)采用高斯混合模型进行聚类训练。例如,参见图12,类簇数量可以设置成4个。其中,将用户的特征向量作为高斯混合模型的输入,高斯混合模型的输出可以包括用户的标识及其对应的类簇的标识。上述的类簇数量仅是示例而非限制,具体可以根据应用场景的需求灵活选择。
126.s1102、利用时间特征对聚出的多个例如4个类簇抽样分析。可以先区分类簇可能对应的多个标签。例如,第一种类簇,例如包括教师或学生;第二种类簇,例如包括居民或访客。
127.例如,如果某个类簇中的对象例如用户在某些月份例如1~2月和7~8月的学校内的定位频次远低于其它月份,则某个类簇为教师簇或学生簇,反之则为居民簇或访客簇。
128.在一种实施方式中,可以从定位数据中统计出定位频次,定位频次可以包括定位次数和/或定位频率。定位频率可以用定位次数除以时间例如除以30天得到。
129.s1103、利用年龄特征进一步区分类簇的标签。对教师簇、学生簇,计算年龄中位数,中位数低于30的类簇为学生簇,中位数高于30的类簇为教师簇。如果没有年龄特征,也可以用参考向量来区分学生簇和老师簇。例如,计算类簇和已知的学生簇的参考向量的相似度,来确定是否是学生簇。老师簇可以类似处理。
130.s1104、利用定位数量特征进一步区分类簇的标签。例如,统计对居民簇、访客簇定位数量特征(例如定位次数),学校定位总和较高的类簇为居民簇,学校定位总和较低的类簇为访客簇。
131.采用示例的方法,可以确定出哪个类簇属于学生,从而识别出哪个用户id应具有
学生标签。进而可以为应用程序或网络平台等自身注册的用户id添加对应的标签。
132.采用本公开实施例的分类方法确定标签,准确性高,无需采集样本。例如,通过位置数据自动识别出用户标签例如学生标签,可以提高标签识别的效率和准确性。
133.本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
134.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
135.图13示出了可以用来实施本公开实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
136.如图13所示,设备1300包括计算单元1301,其可以根据存储在只读存储器(rom)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(ram)1303中的计算机程序,来执行各种适当的动作和处理。在ram 1303中,还可存储设备1300操作所需的各种程序和数据。计算单元1301、rom 1302以及ram 1303通过总线1304彼此相连。输入/输出(i/o)接口1305也连接至总线1304。
137.设备1300中的多个部件连接至i/o接口1305,包括:输入单元1306,例如键盘、鼠标等;输出单元1307,例如各种类型的显示器、扬声器等;存储单元1308,例如磁盘、光盘等;以及通信单元1309,例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
138.计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理,例如上述分类方法。例如,在一些实施例中,分类方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由rom 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到ram 1303并由计算单元1301执行时,可以执行上文描述的分类方法的一个或多个步骤。备选地,在其他实施例中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行分类方法。
139.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至
少一个输出装置。
140.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
141.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
142.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
143.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
144.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
145.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
146.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1