一种用户籍贯的预测方法及装置与流程

文档序号:27503295发布日期:2021-11-22 16:36阅读:131来源:国知局
一种用户籍贯的预测方法及装置与流程

1.本说明书涉及互联网技术领域,尤其涉及一种用户籍贯的预测方法及装置。


背景技术:

2.随着信息技术的快速发展,个人获取信息的成本越来越大,因此,业务平台往往会基于用户的个人基础信息以及行为习惯,预测用户的偏好,进而根据用户的偏好,进行针对性的信息推送,提升用户体验。
3.在一些业务场景下,用户的籍贯所在地往往会对用户的偏好起到一定的影响。例如,餐饮业务中,四川人可能偏好冒菜、串串香,陕西人可能偏好泡馍、肉夹馍等,这样,在预测用户的饮食偏好时,用户的籍贯将是极为重要的参考项。
4.目前,业务平台主要是从用户认证信息中确定用户的籍贯的。而,对于还未认证的用户,业务平台则需要根据春节期间采集到的用户定位数据,来预测用户的籍贯,此时,默认大多数用户在春节期间是会回乡过节的。
5.然而,随着社会的发展,在工作地过年被越来越多的人接受,进而导致异地过年的情况越来越普遍,此时,业务平台仍然根据用户春节期间的定位数据,来预测用户籍贯,将会出现准确度低的问题。


技术实现要素:

6.本说明书提供一种用户籍贯的预测方法及装置,以部分的解决现有技术存在的上述问题。
7.本说明书采用下述技术方案:
8.本说明书提供了一种用户籍贯的预测方法,包括:
9.获取用户在历史上的业务数据;
10.根据所述业务数据,确定所述用户在历史上对应的各历史事件;
11.根据所述各历史事件对应的历史事件信息,生成所述用户在历史上的事件信息时间序列,针对每个历史事件,该历史事件对应的历史事件信息包括该历史事件对应的时间信息,以及该历史事件对应的地理位置信息;
12.根据所述事件信息时间序列,确定所述各历史事件对应的地理位置在时间上的变化特征,以及所述各历史事件对应的地理位置自身的属性特征,并根据所述变化特征以及所述属性特征,预测所述用户的籍贯。
13.可选地,所述历史事件对应的地理位置信息包括该历史事件涉及的地理区域,以及该历史事件对应的地理区域的描述信息;
14.根据所述事件信息时间序列,确定所述各历史事件对应的地理位置在时间上的变化特征,以及所述各历史事件对应的地理位置自身的属性特征,具体包括:
15.根据所述事件信息时间序列以及所述各历史事件涉及的地理区域,确定所述各历史事件对应的地理位置在时间上的变化特征,以及
16.针对每个历史事件,根据该历史事件对应的地理区域的描述信息,确定该历史事件对应的地理位置自身的属性特征。
17.可选地,所述历史事件包括历史购物事件、历史出行事件中的至少一种。
18.可选地,根据所述各历史事件对应的历史事件信息,生成所述用户在历史上的事件信息时间序列之前,还包括:
19.获取在历史上各设定时刻针对所述用户采集到的定位数据,作为针对所述用户的历史定位事件对应的历史定位事件信息;
20.按照各历史定位事件的采集时刻,将所述各历史定位事件插入到所述用户在历史上对应的各历史事件中,以根据所述各历史事件对应的历史事件信息和所述各历史定位事件对应的历史定位事件信息在时间上的先后顺序,生成所述用户在历史上的事件信息时间序列。
21.可选地,根据所述变化特征以及所述属性特征,预测所述用户的籍贯,具体包括:
22.根据所述事件信息时间序列,确定针对所述用户的各候选籍贯;
23.根据所述变化特征以及所述属性特征,确定每个候选籍贯对应的置信度;
24.根据每个候选籍贯对应的置信度,预测所述用户的籍贯。
25.可选地,根据所述事件信息时间序列,确定所述各历史事件对应的地理位置在时间上的变化特征,以及所述各历史事件对应的地理位置自身的属性特征,并根据所述变化特征以及所述属性特征,预测所述用户的籍贯,具体包括:
26.将所述事件信息时间序列输入到预先训练的预测模型中,以使所述预测模型根据所述事件信息时间序列,确定所述各历史事件对应的地理位置在时间上的变化特征,以及所述各历史事件对应的地理位置自身的属性特征,并根据所述变化特征以及所述属性特征,预测所述用户的籍贯。
27.可选地,训练所述预测模型,具体包括:
28.获取训练样本,所述训练样本中包含有已确定出实际籍贯的样本用户在历史上的业务数据;
29.根据所述样本用户在历史上的业务数据,确定所述样本用户在历史上对应的各历史事件;
30.根据所述样本用户在历史上对应的各历史事件的历史事件信息,生成所述样本用户在历史上的事件信息时间序列;
31.将所述样本用户在历史上的事件信息时间序列输入到所述预测模型中,得到针对所述样本用户的预测籍贯;
32.以最小化所述预测籍贯与所述实际籍贯之间的偏差为优化目标,对所述预测模型进行训练。
33.本说明书提供了一种用户籍贯的预测装置,包括:
34.获取模块,用于获取用户在历史上的业务数据;
35.事件确定模块,用于根据所述业务数据,确定所述用户在历史上对应的各历史事件;
36.事件序列生成模块,用于根据所述各历史事件对应的历史事件信息,生成所述用户在历史上的事件信息时间序列,针对每个历史事件,该历史事件对应的历史事件信息包
括该历史事件对应的时间信息,以及该历史事件对应的地理位置信息;
37.籍贯预测模块,用于根据所述事件信息时间序列,确定所述各历史事件对应的地理位置在时间上的变化特征,以及所述各历史事件对应的地理位置自身的属性特征,并根据所述变化特征以及所述属性特征,预测所述用户的籍贯。
38.本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述用户籍贯的预测方法。
39.本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述用户籍贯的预测方法。
40.本说明书采用的上述至少一个技术方案能够达到以下有益效果:
41.在本说明书提供的用户籍贯的预测方法中,获取用户在历史上的业务数据,并根据该业务数据,确定用户在历史上对应的各历史事件。而后,根据各历史事件对应的历史事件信息,生成该用户在历史上的事件信息时间序列,其中,针对每个历史事件,该历史事件对应的历史事件信息包括该历史事件对应的时间信息,以及该历史事件对应的地理位置信息。接着,根据该事件信息时间序列,确定各历史事件对应的地理位置在时间上的变化特征,以及各历史事件对应的地理位置自身的属性特征,并根据所述变化特征以及所述属性特征,预测所述用户的籍贯。
42.从上述方法中可以看出,本方法在预测用户籍贯时,将基于用户历史上执行过的历史事件时间信息以及位置信息,确定出用户在历史上的事件信息时间序列,而后,基于该事件信息时间序列,确定各历史事件对应的地理位置在时间上的变化特征,以及各历史事件对应的地理位置自身的属性特征。这样,由于这些历史事件都是用户执行过的,历史事件的位置信息随时间的变化,尤其是节假日前后历史事件的位置信息随时间的变化,将显著的体现出用户在自由安排的时间内所处或前往的地理位置,此时,结合用户所处或前往地理位置还属于住宅用地性质,或者用户所在的地理位置是没有旅游特色的乡村城镇等多方面因素综合考虑,来预测用户籍贯所在地,将有效地提高预测出的用户籍贯的准确度,提升用户体验。
附图说明
43.此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
44.图1为本说明书中一种用户籍贯的预测方法的流程示意图;
45.图2为本说明书中用于预测用户籍贯的预测模型的训练的流程示意图;
46.图3为本说明书提供的一种用户籍贯的预测装置的示意图;
47.图4为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
48.为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
49.日常生活中,人们执行过的部分业务会保有用户执行业务时,所涉及到的地理位置。在根据这些业务发生的时间,获取这些业务对应的地理位置,并构成关于地理位置的时间序序列后,该时间序列中能够比较显著的反映出用户的位置随时间的变化。此时,若再确定出用户执行各业务时所涉及到的地理位置的属性(如住宅、商业区、旅游景区等),就可以在一定程度上,基于用户执行业务时所涉及到的地理位置的变化,进行合理预测,从这些地理位置中确定出用户的籍贯。这样,可以有效地避免平台由于仅基于用户春节期间的定位数据来预测用户籍贯而出现的预测出的用户籍贯准确度低的情况出现,提高了用户预测出的用户籍贯的准确度。
50.下面将结合实施例详细阐述本说明书中提供的用户籍贯的预测方案。
51.图1为本说明书中一种用户籍贯的预测方法的流程示意图,具体包括以下步骤:
52.步骤s100,获取用户在历史上的业务数据。
53.本说明书中提供的用户籍贯的预测方法的执行主体可以是为平台或是服务器,也可以是诸如台式电脑等终端设备。下面为了方便描述,将仅以平台为执行主体为例进行说明。
54.具体实施中,平台所获取的业务数据可以是用户历史上所有的已执行过的业务的业务数据,也可以是用户历史上设定时间段内(如最近三年)已执行过的业务数据。该业务数据对应的业务,可以是用户已执行过的涉及到位置数据的业务,该业务可以是网上购物业务(包括外卖平台上定外卖、在生鲜平台上购买生鲜、在综合性网络购物平台上购买生活用品等)、网上购票业务(包括购买出行的火车票或飞机票等)等。上述业务每次执行时,都会记录该次业务执行时所涉及到的位置信息。例如,用户每次定外卖时,都至少存在用户下单地址、用户收餐地址这两个位置信息。再例如,用户每次购买出行火车票时,都存在火车票对应上车车站、火车票对应下车车站以及用户出行的目的地城市等位置信息。
55.平台用户在历史上的业务数据时,若该业务为网上购物业务时,平台获取的业务数据,即是用户每次网上购物时生成的业务订单中的业务数据。若上述业务为网上购票业务时,平台获取的业务数据,即是用户每次购票时生成的购票订单中的业务数据。
56.步骤s102,根据所述业务数据,确定所述用户在历史上对应的各历史事件。
57.具体实施中,针对每种业务,平台从该业务所对应的业务数据中,确定出用户历史上已经执行过每一次业务,并将每次业务执行作为一个历史事件,而后,将每种业务下确定出的历史事件组合起来,得到该用户在历史上对应的各历史事件。其中,针对不同的业务,平台将确定出不同的历史事件。即在网络购物业务中确定出的历史事件为历史购物事件,在购票业务中确定出的历史事件为历史出行事件。
58.例如,在网上购物业务中,将用户每次网络购物都可以作为一个历史事件(即用户在外卖平台上每次订外卖都算作是一个历史购物事件,用户在生鲜平台上每次购买生鲜都算作是一个历史购物事件,用户在综合性网络购物平台上每次购买生活用品也算作是一个历史购物事件)。在购票业务中,用户每次购买并使用车票或火车票或飞机票,即可以作为一个历史出行事件。而后,平台所有确定出的历史购物事件和历史出行事件合并起来,共同作为用户在历史上对应的各历史事件。
59.步骤s104,根据所述各历史事件对应的历史事件信息,生成所述用户在历史上的
事件信息时间序列,针对每个历史事件,该历史事件对应的历史事件信息包括该历史事件对应的时间信息,以及该历史事件对应的地理位置信息。
60.具体实施时,平台针对每个历史事件,从该历史事件所属的业务的业务数据中,获取到该历史事件对应的历史事件信息,而后,将按照各历史事件在时间上发生的先后顺序,对各历史事件进行排序,得到排序结果,而后,根据排序结果,和各历史事件对应的历史事件信息,生成该用户在历史上的事件信息时间序列。其中,针对每个历史事件,该历史事件对应的时间信息可以是该历史事件执行的时间,该历史事件对应的地理位置信息包括该历史事件涉及的地理区域,以及该历史事件对应的地理区域的描述信息。
61.例如,用户在历史上对应的各历史事件包括历史事件a、历史事件b、历史事件c,事件a发生的时间早于历史事件b,且晚于历史事件c。则平台生成该用户在历史上的事件信息时间序列是,将分别获取历史事件a、历史事件b、历史事件c对应的历史事件信息,而后,根据各历史事件对应的历史事件信息,生成该用户在历史上的事件信息时间序列:{历史事件c对应的历史事件信息、历史事件a对应的历史事件信息、历史事件b对应的历史事件信息}。
62.另外,对于不同业务中确定出的历史事件,该历史事件对应的历史事件信息不完全相同,需要根据实际需求确定,下面将举例说明。
63.例如,在网上购物业务中,历史事件对应的时间信息可以是业务订单生成的时间,该历史事件对应的地理位置信息可以是业务订单生成时用户所在的位置(可以是用户所在城市,用户所在城区(县城),用户所在街道(乡镇)等,即作为该历史事件涉及的地理区域),业务订单的收货地址(可以作为该历史事件对应的地理区域的描述信息)等。
64.在网上购票业务中,历史事件对应的时间信息可以是用户使用车票或火车票或飞机票乘坐的对应的公共交通工具出发的时间,历史事件对应的地理位置信息可以包括用户此次出行的目的地所在城市(可以作为该历史事件涉及的地理区域),去往该目的地所乘坐的交通工具的类别(可以作为该历史事件对应的地理区域的描述信息)。
65.其中,地理区域的大小可以根据实际需求设定,本说明书中不对此作具体限定。
66.另外,实际应用场景中,用户的历史事件的数量是比较有限的,此时,平台还可以按照预设的时间获取用户的定位数据,来丰富预测用户籍贯时所使用的数据,辅助平台根据历史事件预测用户的籍贯,提高预测出的用户籍贯的准确度。
67.具体的,平台生成用户在历史上的事件信息时间序列之前,还可以将获取在历史上各设定时刻针对用户采集到的定位数据(如每天凌晨3点采集的用户定位数据),作为针对用户的历史定位事件对应的历史定位事件信息,并按照各历史定位事件的采集时刻,将各历史定位事件插入到用户在历史上对应的各历史事件中,最后,根据各历史事件对应的历史事件信息和各历史定位事件对应的历史定位事件信息在时间上的先后顺序,生成用户在历史上的事件信息时间序列。
68.其中,针对每个历史定位事件,可以将该历史定位事件对应的定位数据的采集时刻,作为该历史定位事件对应的时间信息,同时,将该定位数据中的与用户所在地理位置相关的数据,作为该历史定位事件对应的位置信息。具体实施中,该历史定位事件对应的位置信息可以包括用户所在地理位置的经纬度、用户所在地理位置的城市、用户所在地理位置关联的兴趣点(point of interest,poi)名称(如xxx商场、xxx大厦、xxx商务中心、xxx小区等)。
69.此处,历史定位事件对应的地理区域同样可以按照业务需求设定。具体实施中,历史定位事件对应的地理区域设定可以与历史事件对应的地理区域的设定保持一致。
70.步骤s106,根据所述事件信息时间序列,确定所述各历史事件对应的地理位置在时间上到的变化特征,以及所述各历史事件对应的地理位置自身的属性特征,并根据所述变化特征以及所述属性特征,预测所述用户的籍贯。
71.具体实施中,平台在确定上述变化特征以及属性特征时,针对每个历史事件,根据该历史事件对应的地理区域的描述信息,确定该历史事件对应的地理位置自身的属性特征,同时,根据事件信息时间序列以及各历史事件涉及的地理区域,确定各历史事件对应的地理位置在时间上的变化特征。而后,将根据事件信息时间序列,确定针对用户的各候选籍贯,而后,根据确定出的变化特征和属性特征,确定每个候选籍贯对应的置信度,最后,根据每个候选籍贯对应的置信度,预测用户的籍贯。
72.若事件信息时间序列中包含有历史事件对应的历史事件信息和历史定位事件对应的历史定位事件信息,则平台将确定每个事件(包括历史事件和历史定位事件)对应的地理位置自身的属性特征,同时,根据事件信息时间序列、各事件(包括历史事件和历史定位事件)涉及的地理区域,确定各事件对应的地理位置在时间上的变化特征。
73.下面举例说明平台如何基于历史事件预测用户的籍贯。
74.例如,用户的历史事件中包含有历史购物事件,平台针对每个历史购物事件,确定用户所购商品所属的商品类别;判断所述商品类别是否属于预先设定的特定类别;若属于,平台确定该历史购物事件对应的业务订单生成时用户对应的地理位置,以及该历史购物事件对应的业务订单的业务地址;若所述用户对应的地理位置与所述业务地址不一致,平台提高所述业务地址为所述用户的籍贯的置信度,且降低所述用户对应的地理位置为所述用户的籍贯的置信度。
75.其中,该特定类别商品可以是大型家电设备、装修材料等商品,在外工作的用户在工作地没有自己的住房前,轻易不会往租住的地方购买大型家电设备、装修材料。
76.再例如,用户的历史事件中包含有历史出行事件,平台针对每个历史出行事件,确定该历史出行事件所对应的目的地,以及该历史出行事件所对应的出行时间;若确定所述出行时间位于设定时间段内,则提高该历史出行事件所对应的目的地为所述用户的籍贯的置信度,同时,降低其他备选的地址为所述用户的籍贯的置信度。其中,该设定时间段内包含有法定节假日,该设定时间段可以是法定节假日,或者是法定节假日以及法定节假日前后设定时间构成的时间段,实际应用中可以根据业务需求调整,此处不做具体限定。
77.再例如,用户于城市a在4月26~30日之间每天都有一份外卖订单,收货地址均是xxx大厦xxx座504,且购买并使用了4月30日从城市a飞往城市b的飞机票以及5月5日从城市b飞往城市a的飞机票,在5月3日存在一份在城市b下单的外卖订单,收货地址均是xxx省xxx市xxx区xxx小区3栋301,并在5月6日之后恢复成每天一份外卖订单的情况,且收餐地址未发生变化,且城市b为中小型城市(非旅游城市)。
78.这样,平台预测用户籍贯时,确定该用户的候选籍贯为城市a和城市b,并设置城市a对应的初始置信度以及城市b对应的初始置信度。由于5月1~5日为法定节假日,用户在非节假日多期间多是位于城市a,且所定外卖的收餐地址是商业大厦,法定节假日期间前往城市b,平台提高城市b为该用户的籍贯的置信度,且降低城市a为用户的籍贯的置信度。同时,
该城市b为非旅游城市,且所定外卖的收餐地址是居民住宅性质,平台进一步提高城市b为该用户的籍贯的置信度,且降低城市a为用户的籍贯的置信度。这样,城市b是该用户的籍贯相较于城市a是该用户的籍贯来说,具备更高的置信度,此时,平台更倾向于城市b为该用户的籍贯所在地。
79.当然,平台还可以使用预训练的预测模型来预测用户的籍贯。
80.具体的,平台将事件信息时间序列输入到预先训练的预测模型中,以使该预测模型根据事件信息时间序列,确定出各历史事件对应的地理位置在时间上的变化特征,以及各历史事件对应的地理位置自身的属性特征。而后,平台在根据上述事件信息时间序列,确定出针对该用户的各候选籍贯后,根据确定出的变化特征以及属性特征,确定每个候选籍贯对应的置信度,最后,根据每个候选籍贯对应的置信度,预测该用户的籍贯。
81.其中,该预测模型可以采用循环神经网络(recurrent neural network,rnn)rnn神经网络训练得到,所采用的损失函数可以时多分类交叉熵,并使用优化器adam来完成对预测模型的训练。进一步地,为了提高模型的准确度,本说明书中可以采用两层rnn神经网络叠加起来构成预测模型,这样将第一层rnn神经网络的输出作为第二层rnn神经网络的输入,增加模型的深度,提高了预测模型抓取细节特征的能力。
82.另外,针对上述内容所提及的用于预测用户籍贯的预测模型,如图2所示,本说明书中还提供了相应的训练方法,具体步骤如下:
83.步骤200,获取训练样本,所述训练样本中包含有已确定出实际籍贯的样本用户在历史上的业务数据。
84.具体实施中,上述已确定出实际籍贯的样本用户,可以是平台所支持的业务中,已经完成实名认证的用户,这些用户的实际籍贯可以是用户在实名认证过程中主动填写的籍贯信息,也可以是根据这些用户填写的身份证号,确定出的籍贯信息。
85.步骤202,确定所述样本用户在历史上对应的各历史事件。根据所述样本用户在历史上的业务数据。
86.步骤204,根据所述样本用户在历史上对应的各历史事件的历史事件信息,生成所述样本用户在历史上的事件信息时间序列。
87.步骤206,将所述样本用户在历史上的事件信息时间序列输入到所述预测模型中,得到针对所述样本用户的预测籍贯。
88.步骤208,以最小化所述预测籍贯与所述实际籍贯之间的偏差为优化目标,对所述预测模型进行训练。
89.上述训练过程中,预测样本用户的籍贯的过程,与上文描述的实际预测过程相一致,此处就不在一一举例说明了。
90.下面将结合实例详细的说明本说明书中的用户籍贯的预测方法的执行过程,仅以历史外卖事件作为历史购物事件、历史定位事件、历史出行事件为例。
91.首先,平台从用户历史上的外卖数据中,获取用户已完成的外卖订单(即历史外卖事件)的订单数据(即业务数据),从用户历史上的购票数据中获取已使用的票(即历史出行事件)的订票数据(即业务数据),并且,从用户每天的手机定位数据中,随机选取出一个手机定位数据,作为当天的历史定位事件的定位数据(即业务数据)。
92.而后,平台针对每个历史外卖事件,从该历史外卖事件对应的订单数据中,确定该
历史外卖事件对应的历史外卖事件信息(包括下单时间(作为该历史外卖事件的时间信息)、下单城市(作为该历史外卖事件涉及的地理区域)、收餐地址(作为该历史外卖事件对应的地理区域的描述信息)。同时,平台针对每个历史出行事件,从该历史出行事件对应的订票数据中,确定该历史出行事件对应的历史出行事件信息(包括出行时间(作为该历史出行事件的时间信息)、目的城市(作为该历史出行事件涉及的地理区域)、交通类型(如火车/飞机)(作为该历史出行事件对应的地理区域的描述信息)。并且,平台针对每个历史定位事件,从该历史定位事件对应的手机定位数据中,确定该历史定位事件对应的历史定位事件信息(包括定位时间(作为该历史定位事件的时间信息)、定位城市(作为该历史定位事件涉及的地理区域)、定位poi地址(作为该历史定位事件对应的地理区域的描述信息)。
93.接着,平台针对各历史事件的时间信息、各历史事件涉及的地理区域、以及各历史事件对应的地理区域的描述信息进行数据格式统一。如,各历史事件的时间信息统一精确到日,并以年



日的形式标识。各历史事件涉及的地理区域中的城市同一精确到市级,并以全球城市三字码(city code)的形式表示。
94.随后,平台将各事件按照事件发生的时间顺序进行排列,得到排序结果,而后,根据数据格式统一后的各历史外卖事件信息、各历史定位事件信息、各历史出行事件信息,生成用户对应的事件信息时间序列。
95.在此过程中,平台可以针对每个历史事件,对该历史事件的时间信息,按照日期进行one

hot编码作为时间特征,对该历史事件涉及的地理区域按照city code进行one

hot编码作为位置特征,将该历史事件对应的地理区域的描述信息中的词转化为词向量并进行one

hot编码作为描述特征,而后,将该历史事件对应的时间特征、位置特征以及描述特征进行组合,得到该历史事件对应的组合特征(即该历史事件对应的地理位置自身的属性特征)。
96.最后,平台按照发生时间顺序将各事件对应的组合特征拼接(得到各历史事件对应的地理位置在时间上的变化特征,以及各历史事件对应的地理位置自身的属性特征),并输入到预先训练的预测模型中,得到用户对应的籍贯。
97.此外,本说明书中,还可以在预测用户的籍贯时,确定预测出的籍贯对应的置信度。如此,在使用预测出的用户籍贯执行业务时,将可以根据预测出的用户籍贯对应的置信度,以及业务要求,对用户进行筛选,并向满足筛选条件的用户,推送业务信息。
98.例如,在预测用户偏好以向用户推送用户喜欢的商品时,用户是根据用户多个方面的信息来预测的,并不仅依据籍贯预测,因而,可以将预测出的用户籍贯的置信度设定比较低,如,将预测出的用户籍贯的置信度高于0.8的用户籍贯认定为可信数据,可用于预测用户偏好。再例如,当开展a地家乡主题的业务活动时,该业务针对的目标群体十分明确(即籍贯是a地的用户),此时,需要向预测出的用户籍贯为a地的置信度比较高的用户推送该业务,如,向预测出的用户籍贯的置信度高于0.95的用户推送该业务。
99.通过上述步骤,平台在预测用户籍贯时,将基于用户历史上执行过的历史事件时间信息以及位置信息,确定出用户在历史上的事件信息时间序列,而后,基于该事件信息时间序列,确定各历史事件对应的地理位置在时间上的变化特征,以及各历史事件对应的地理位置自身的属性特征。这样,由于这些历史事件都是用户执行过的,历史事件的位置信息随时间的变化,尤其是节假日前后历史事件的位置信息随时间的变化,将显著的体现出用
户在自由安排的时间内所处或前往的地理位置,此时,结合用户所处或前往地理位置还属于住宅用地性质,或者用户所在的地理位置是没有旅游特色的乡村城镇等多方面因素综合考虑,来预测用户籍贯所在地,将有效地提高预测出的用户籍贯的准确度。
100.以上为本说明书的一个或多个实施例提供的用户籍贯的预测方法,基于同样的思路,本说明书还提供了相应的用户籍贯的预测装置,如图3所示。
101.图3为本说明书提供的一种用户籍贯的预测装置示意图,具体包括:
102.获取模块300,用于获取用户在历史上的业务数据;
103.事件确定模块301,用于根据所述业务数据,确定所述用户在历史上对应的各历史事件;
104.时间序列生成模块302,用于根据所述各历史事件对应的历史事件信息,生成所述用户在历史上的事件信息时间序列,针对每个历史事件,该历史事件对应的历史事件信息包括该历史事件对应的时间信息,以及该历史事件对应的地理位置信息;
105.籍贯预测模块303,用于根据所述事件信息时间序列,确定所述各历史事件对应的地理位置在时间上的变化特征,以及所述各历史事件对应的地理位置自身的属性特征,并根据所述变化特征以及所述属性特征,预测所述用户的籍贯。
106.可选地,所述历史事件对应的地理位置信息包括该历史事件涉及的地理区域,以及该历史事件对应的地理区域的描述信息;
107.所述籍贯预测模块303,具体用于根据所述事件信息时间序列以及所述各历史事件涉及的地理区域,确定所述各历史事件对应的地理位置在时间上的变化特征,以及针对每个历史事件,根据该历史事件对应的地理区域的描述信息,确定该历史事件对应的地理位置自身的属性特征。
108.可选地,所述历史事件包括历史购物事件、历史出行事件中的至少一种。
109.可选地,所述事件确定模块301,还用于根据所述各历史事件对应的历史事件信息,生成所述用户在历史上的事件信息时间序列之前,获取在历史上各设定时刻针对所述用户采集到的定位数据,作为针对所述用户的历史定位事件对应的历史定位事件信息;按照各历史定位事件的采集时刻,将所述各历史定位事件插入到所述用户在历史上对应的各历史事件中,以根据所述各历史事件对应的历史事件信息和所述各历史定位事件对应的历史定位事件信息在时间上的先后顺序,生成所述用户在历史上的事件信息时间序列。
110.可选地,所述籍贯预测模块303,具体用于根据所述事件信息时间序列,确定针对所述用户的各候选籍贯;根据所述变化特征以及所述属性特征,确定每个候选籍贯对应的置信度;根据每个候选籍贯对应的置信度,预测所述用户的籍贯。
111.可选地,所述籍贯预测模块303,具体用于将所述事件信息时间序列输入到预先训练的预测模型中,以使所述预测模型根据所述事件信息时间序列,确定所述各历史事件对应的地理位置在时间上的变化特征,以及所述各历史事件对应的地理位置自身的属性特征,并根据所述变化特征以及所述属性特征,预测所述用户的籍贯。
112.可选地,所述装置还包括:
113.训练模块304,用于获取训练样本,所述训练样本中包含有已确定出实际籍贯的样本用户在历史上的业务数据;根据所述样本用户在历史上的业务数据,确定所述样本用户在历史上对应的各历史事件;根据所述样本用户在历史上对应的各历史事件的历史事件信
息,生成所述样本用户在历史上的事件信息时间序列;将所述样本用户在历史上的事件信息时间序列输入到所述预测模型中,得到针对所述样本用户的预测籍贯;以最小化所述预测籍贯与所述实际籍贯之间的偏差为优化目标,对所述预测模型进行训练。
114.本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的用户籍贯的预测方法。
115.本说明书还提供了图4所示的电子设备的示意结构图。如图4所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的用户籍贯的预测方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
116.在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵列(field programmable gate array,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardware description language,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advanced boolean expression language)、ahdl(altera hardware description language)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等,目前最普遍使用的是vhdl(very

high

speed integrated circuit hardware description language)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
117.控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种
功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
118.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
119.为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
120.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
121.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
122.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
123.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
124.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
125.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
126.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备
或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
127.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
128.本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
129.本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
130.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
131.以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1