特征提取及模型获取方法、装置、电子设备、介质及产品与流程

文档序号:35287032发布日期:2023-09-01 08:29阅读:51来源:国知局
特征提取及模型获取方法、装置、电子设备、介质及产品与流程

本公开涉及地理数据处理,具体涉及一种特征提取及模型获取方法、装置、电子设备、介质及产品。


背景技术:

1、在网约车平台以及外卖平台当中,地理位置信息是一类非常重要的信息,例如订单的起终点位置信息会影响司机或骑手的接单意愿、可以反映客户对于价格的敏感度,从而影响补贴下发和订单定价等平台关键行为、地理偏好可以影响司机或骑手完单数量(例如由于车牌限行限制、个人意愿等原因有些司机选择在郊区接单,其完单量就会明显小于在城中接单的司机;选择在商圈、学校附近接单的骑手其完单量就会显著高于在住宅区接单的骑手)等。通常在使用该订单的起终点位置信息之前,都会该订单起终点位置信息进行预处理,以便能够在后续的模型中使用。目前有两种处理方式,第一种方式是将该订单起终点位置信息进行one-hot编码,第二种方式是在深度学习模型中加入embedding层来对订单起终点位置信息做编码后使用。但是,第一种方式会由于大量订单的起终点位置信息的稀疏特性带来特征爆炸影响后续的模型效果,第二种方式虽然解决了特征爆炸的问题但同时引入非深度模型无法使用、embedding层的编码结果不具有通用性等问题。


技术实现思路

1、为了解决相关技术中的问题,本公开实施例提供一种特征提取模型的获取方法、装置、电子设备、介质及产品。

2、第一方面,本公开实施例中提供了一种特征提取模型获取方法。

3、具体地,所述特征提取模型获取方法,包括:

4、基于预设区域内各历史行为起点所在网格区域和终点所在网格区域,确定各网格区域之间的连接关系;

5、基于所述各网格区域内的历史行为数据,确定各网格区域的历史行为特征向量;

6、构建图g(v,a,f),其中,所述图中的节点v表示各网格区域;所述图中的边表示各网格区域之间的连接关系,记为矩阵a;所述图中各节点的特征向量f为各网格区域的历史行为特征向量;

7、基于所述图g(v,a,f)训练编码解码模型得到特征提取模型,所述特征提取模型用于提取所述图中各节点的行为地理位置特征向量。

8、结合第一方面,本公开在第一方面的第一种实现方式中,其中,,所述连接关系包括以下至少一种关系:连接方向、连接权重和连接类型。

9、结合第一方面及其第一种实现方式,本公开在第一方面的第二种实现方式中,其中,所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域,确定各网格区域的连接关系,包括:

10、在所述连接关系包括连接方向时,各网格区域之间的连接方向包括从行为起点所在的网格区域到行为终点所在的网格区域的方向;

11、在所述连接关系包括连接权重时,基于各网格区域之间的历史行为数量确定各网格区域之间的连接权重;

12、在所述连接关系包括连接类型时,基于各网格区域之间的历史行为类型确定各格区域之间的连接类型。

13、结合第一方面及其上述的各种实现方式,本公开在第一方面的第三种实现方式中,其中,在所述连接关系包括连接方向和连接权重时,所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域,确定各网格区域的连接关系,包括:

14、针对第一网格区域,获取行为起点所在区域为第一网格区域的各历史行为中,以第二网格区域为行为终点所在区域的第一历史行为的数量;

15、基于所述第一历史行为的数量,获取从所述第一网格区域指向所述第二网格区域的连接方向对应的连接权重,其中,以所述第一网格区域为起点的各连接方向对应的连接权重之和为1。

16、结合第一方面及其上述的各种实现方式,本公开在第一方面的第四种实现方式中,其中,在所述连接关系还包括连接类型时,所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域,确定各网格区域的连接关系还包括:

17、基于所述第一历史行为的历史行为类型,获取从所述第一网格区域指向所述第二网格区域的连接方向上的各连接类型,以及各连接类型对应的第二历史行为的数量;

18、基于所述各连接类型以及各连接类型对应的第二历史行为的数量,得到从所述第一网格区域指向所述第二网格区域的连接方向上的各连接类型的连接权重。

19、结合第一方面及其上述的各种实现方式,本公开在第一方面的第五种实现方式中,其中,所述基于各历史行为起点所在网格区域和终点所在网格区域,确定各网格区域的连接关系,还包括:

20、在使网格区域之间存在所述连接关系的历史行为的数量小于预设数量时,确定所述网格区域之间不存在所述连接关系。

21、结合第一方面及其上述的各种实现方式,本公开在第一方面的第六种实现方式中,其中,所述基于所述图g(v,a,f)训练编码解码模型得到特征提取模型,包括:

22、采用编码解码模型中的编码器对所述图g(v,a,f)进行特征提取,得到各节点的行为地理位置特征向量;

23、采用所述编码解码模型中的解码器对所述编码器提取的各节点的行为地理位置特征向量进行反向解码,获得重构图;

24、计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数,不断更新所述编码器和所述解码器中的参数,极小化损失函数,得到训练好的编码解码模型中的编码器为特征提取模型。

25、结合第一方面及其上述的各种实现方式,本公开在第一方面的第七种实现方式中,其中,所述编码器包括至少一层图注意力机制gat层;所述解码器包括全连接网络层。

26、结合第一方面及其上述的各种实现方式,本公开在第一方面的第八种实现方式中,其中,所述计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数包括:

27、计算所述图中各节点的连接权重与所述重构图的各节点的连接权重之间的均方差得到所述编码解码模型的损失函数。

28、第二方面,本公开实施例中提供了一种特征提取方法。

29、具体地,所述特征提取方法,包括:

30、基于预设区域内各历史行为起点所在网格区域和终点所在网格区域,确定各网格区域之间的连接关系;

31、基于所述各网格区域内的历史行为数据,确定各网格区域的历史行为特征向量;

32、构建图g(v,a,f),其中,所述图中的节点v表示各网格区域;所述图中的边表示各网格区域之间的连接关系,记为矩阵a;所述图中各节点的特征向量f为各网格区域的历史行为特征向量;

33、采用编码解码模型中的编码器对所述图g(v,a,f)进行特征提取,得到各节点的行为地理位置特征向量;

34、基于所述图g(v,a,f)训练编码解码模型得到特征提取模型,并得到所述特征提取模型提取的所述图中各节点的行为地理位置特征向量。

35、结合第二方面,本公开在第二方面的第一种实现方式中,其中,所述方法还包括:

36、使用所述训练好的编码器,对基于所述预设区域内的新的历史行为相关数据构建的新图g(v,a,f)进行特征提取,得到各节点的行为地理位置特征向量。

37、第三方面,本公开实施例中提供了一种特征提取模型获取装置。

38、具体地,所述特征提取模型获取装置,包括:

39、第一确定模块,被配置为基于预设区域内各历史行为起点所在网格区域和终点所在网格区域,确定各网格区域之间的连接关系;

40、第二确定模块,被配置为基于所述各网格区域内的历史行为数据,确定各网格区域的历史行为特征向量;

41、第一构图模块,被配置为构建图g(v,a,f),其中,所述图中的节点v表示各网格区域;所述图中的边表示各网格区域之间的连接关系,记为矩阵a;所述图中各节点的特征向量f为各网格区域的历史行为特征向量;

42、训练模块,被配置为基于所述图g(v,a,f)训练编码解码模型得到特征提取模型,所述特征提取模块用于提取所述图中各节点的行为地理位置特征向量。

43、结合第三方面,本公开在第三方面的第一种实现方式中,其中,所述连接关系包括以下至少一种关系:连接方向、连接权重和连接类型。

44、结合第三方面及其第一种实现方式,本公开在第三方面的第二种实现方式中,其中,所述第一确定模块被配置为:

45、在所述连接关系包括连接方向时,各网格区域之间的连接方向包括从行为起点所在的网格区域到行为终点所在的网格区域的方向;

46、在所述连接关系包括连接权重时,基于各网格区域之间的历史行为的数量确定各网格区域之间的连接权重;

47、在所述连接关系包括连接类型时,基于各网格区域之间的历史行为类型确定各格区域之间的连接类型。

48、结合第三方面及其上述各种实现方式,本公开在第三方面的第三种实现方式中,其中,在所述连接关系包括连接方向和连接权重时,所述第一确定模块被配置为:

49、针对第一网格区域,获取行为起点所在区域为第一网格区域的各历史行为中,以第二网格区域为行为终点所在区域的第一历史行为的数量;

50、基于所述第一历史行为的数量,获取从所述第一网格区域指向所述第二网格区域的连接方向对应的连接权重,其中,以所述第一网格区域为起点的各连接方向对应的连接权重之和为1。

51、结合第三方面及其上述各种实现方式,本公开在第三方面的四种实现方式中,其中,在所述连接关系还包括连接类型时,所述第一确定模块还可以被配置为:

52、基于所述第一历史行为的历史行为类型,获取从所述第一网格区域指向所述第二网格区域的连接方向上的各连接类型,以及各连接类型对应的第二历史行为的数量;

53、基于所述各连接类型以及各连接类型对应的第二历史行为的数量,得到从所述第一网格区域指向所述第二网格区域的连接方向上的各连接类型的连接权重。

54、结合第三方面及其上述各种实现方式,本公开在第三方面的五种实现方式中,其中,所述第一确定模块可以被配置为:

55、在使网格区域之间存在所述连接关系的历史行为的数量小于预设数量时,确定所述网格区域之间不存在所述连接关系。

56、结合第三方面及其上述各种实现方式,本公开在第三方面的六种实现方式中,其中,所述训练模块被配置为:

57、采用编码解码模型中的编码器对所述图g(v,a,f)进行特征提取,得到各节点的行为地理位置特征向量;

58、采用所述编码解码模型中的解码器对所述编码器提取的各节点的行为地理位置特征向量进行反向解码,获得重构图;

59、计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数,不断更新所述编码器和所述解码器中的参数,极小化损失函数,得到训练好的编码解码模型中的编码器为特征提取模型。

60、结合第三方面及其上述各种实现方式,本公开在第三方面的七种实现方式中,其中,所述编码器包括至少一层图注意力机制gat层;所述解码器包括全连接网络层。

61、结合第三方面及其上述各种实现方式,本公开在第三方面的八种实现方式中,其中,所述训练模块中计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数的部分被配置为:

62、计算所述图中各节点的连接权重与所述重构图的各节点的连接权重之间的均方差得到所述编码解码模型的损失函数。

63、第四方面,本公开实施例中提供了一种特征提取装置。

64、具体地,所述特征提取装置,包括:

65、第三确定模块,被配置为基于预设区域内各历史行为起点所在网格区域和终点所在网格区域,确定各网格区域之间的连接关系;

66、第四确定模块,被配置为基于所述各网格区域内的历史行为数据,确定各网格区域的历史行为特征向量;

67、第二构图模块,被配置为构建图g(v,a,f),其中,所述图中的节点v表示各网格区域;所述图中的边表示各网格区域之间的连接关系,记为矩阵a;所述图中各节点的特征向量f为各网格区域的历史行为特征向量;

68、获取模块,被配置为基于所述图g(v,a,f)训练编码解码模型得到特征提取模型,并得到所述特征提取模型提取的所述图中各节点的行为地理位置特征向量。

69、结合第四方面,本公开在第四方面的第一种实现方式中,其中,所述装置还包括:

70、第三提取模块,被配置为使用所述训练好的特征提取模型,对基于所述预设区域内的新的历史行为相关数据构建的新图g(v,a,f)进行特征提取,得到各节点的行为地理位置特征向量。

71、第五方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如任一方面所述的方法。

72、第六方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如任一方面所述的方法。

73、第七方面,本公开实施例中提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现如任一方面所述的方法步骤。

74、根据本公开实施例提供的技术方案,可以基于预设区域内各历史行为起点所在网格区域和终点所在网格区域,确定各网格区域之间的连接关系;基于所述各网格区域内的历史行为数据,确定各网格区域的历史行为特征向量;构建图g(v,a,f),其中,所述图中的节点v表示各网格区域;所述图中的边表示各网格区域之间的连接关系,记为矩阵a;所述图中各节点的特征向量f为各网格区域的历史行为特征向量;基于所述图g(v,a,f)训练编码解码模型得到特征提取模型,所述特征提取模型用于提取所述图中各节点的行为地理位置特征向量。如此,通过无监督学习的方式来训练编码解码模型中的编码器作为特征提取模型,这样就可以独立地使用训练好的编码器来提取各行为的地理位置信息中的行为地理位置特征,得到各网络区域的行为地理位置特征向量,该训练好的编码器提取的行为地理位置特征向量不存在特征爆炸的问题且由于是独立提取的,可以按照需求适用于各种需要输入行为地理位置特征的深度模型或非深度模型中。

75、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1