特征信息与场景的因果关系获取方法、装置、设备及介质与流程

文档序号:30613574发布日期:2022-07-02 00:19阅读:169来源:国知局
特征信息与场景的因果关系获取方法、装置、设备及介质与流程

1.本技术涉及数据处理技术领域,具体而言,涉及一种特征信息与场景的因果关系获取方法、装置、设备及介质。


背景技术:

2.基于大数据的挖掘处理方法可有效的应用于各种业务分析中,基于大数据分析识别异常场景时,需要获取大量的历史数据,挖掘特征信息,进行异常场景识别模型的构建。
3.现有技术中,是通过获取异常场景所对应的特征数据,从特征数据中人工分析异常特征,并在异常特征准确性验证成功后,基于异常特征和异常场景训练异常场景识别模型,基于异常场景识别模型进行场景识别。
4.但是,现有技术中场景识别过程中,特征与场景之间的关系识别效率低。


技术实现要素:

5.有鉴于此,本技术实施例的目的在于提供一种特征信息与场景的因果关系获取方法、装置、设备及介质,以解决现有技术中存在的特征与场景之间的关系识别效率较低的问题。
6.为实现上述目的,本技术实施例采用的技术方案如下:
7.第一方面,本技术实施例提供了一种特征信息与场景的因果关系获取方法,包括:
8.提取待分析业务数据的特征信息;
9.采用预设算法,获取各所述特征信息与对应场景之间的重要程度信息,所述对应场景包括预设的异常场景;
10.根据所述重要程度信息、所述特征信息以及所述场景,采用预设因果学习网络,学习获取各所述特征信息与所述场景之间的因果关系。
11.可选地,所述学习获取各所述特征信息与所述场景之间的因果关系之后,还包括:
12.获取目标业务数据的特征信息;
13.根据所述目标业务数据的特征信息,基于所述特征信息与所述场景之间的因果关系,确定所述目标业务数据对应的场景是否为异常场景。
14.可选地,所述提取待分析业务数据的特征信息之前,还包括:
15.采集获取历史业务数据;
16.根据预设筛选条件,在所述历史业务数据中筛选获取满足预设筛选条件的所述待分析业务数据。
17.可选地,所述历史业务数据包括下述至少一项:空间数据、时间数据、交易数据、业务类型;
18.所述预设筛选条件包括下述至少一项:业务线条件、业务状态条件、业务地域条件。
19.可选地,所述方法还包括:
20.对所述待分析业务数据进行抽样,获取抽样后的业务数据,其中,所述抽样后的业务数据的数据分布与所述待分析业务数据的业务分布偏差小于预设阈值;
21.在所述抽样后的业务数据中添加场景标签,获取样本数据集,其中,所述场景标签用于指示场景的异常状态、异常类型。
22.可选地,所述采用预设算法,获取各所述特征信息与对应场景之间的重要程度信息,包括:
23.采用所述预设算法,根据所述样本数据集中各业务数据的特征信息和场景标签,计算获取各所述特征信息与对应场景之间的重要程度信息。
24.可选地,所述根据所述重要程度信息、所述特征信息以及所述场景,采用预设因果学习网络,学习获取各所述特征信息与所述场景之间的因果关系,包括:
25.根据所述重要程度信息、所述特征信息以及所述场景,确定各场景对应的目标特征信息,所述目标特征信息为与各场景相关性满足阈值的特征信息;
26.根据各场景对应的目标特征信息、以及各所述场景,采用预设因果学习网络,学习获取各所述场景与所述场景对应的目标特征信息之间的因果关系。
27.可选地,所述根据所述重要程度信息、所述特征信息以及所述场景,确定各场景对应的目标特征信息,包括:
28.根据所述重要程度信息、所述特征信息以及所述场景,确定各场景对应的初始特征信息;
29.根据所述各场景对应的初始特征信息在对应场景下的属性参数,对所述各场景对应的初始特征信息进行特征筛选,确定所述各场景对应的目标特征信息。
30.可选地,所述根据所述重要程度信息、所述特征信息以及所述场景,确定各场景对应的目标特征信息之前,还包括:
31.建立各所述特征信息与对应场景之间的关联关系,获取关联后的所述特征信息与对应场景;
32.根据各所述特征信息的属性参数对各所述特征信息进行筛选,获取满足预设条件的预筛选特征信息;
33.所述根据所述重要程度信息、所述特征信息以及所述场景,确定各场景对应的目标特征信息,包括:
34.根据所述重要程度信息、所述预筛选特征信息以及所述场景,确定各场景对应的目标特征信息。
35.可选地,所述属性参数包括下述至少一项:缺失率、稳定性、值域。
36.第二方面,本技术实施例提供了一种特征信息与场景的因果关系获取装置,包括:提取模块、学习模块;
37.所述提取模块,用于提取待分析业务数据的特征信息;
38.所述学习模块,用于采用预设算法,获取各所述特征信息与对应场景之间的重要程度信息,所述对应场景包括预设的异常场景;
39.所述学习模块,用于根据所述重要程度信息、所述特征信息以及所述场景,采用预设因果学习网络,学习获取各所述特征信息与所述场景之间的因果关系。
40.可选地,所述装置还包括:获取模块、确定模块;
41.所述获取模块,用于获取目标业务数据的特征信息;
42.所述确定模块,用于根据所述目标业务数据的特征信息,基于所述特征信息与所述场景之间的因果关系,确定所述目标业务数据对应的场景是否为异常场景。
43.可选地,所述装置还包括:采集模块、筛选模块;
44.所述采集模块,用于采集获取历史业务数据;
45.所述筛选模块,用于根据预设筛选条件,在所述历史业务数据中筛选获取满足预设筛选条件的所述待分析业务数据。
46.可选地,所述历史业务数据包括下述至少一项:空间数据、时间数据、交易数据、业务类型;
47.所述预设筛选条件包括下述至少一项:业务线条件、业务状态条件、业务地域条件。
48.可选地,所述装置还包括:抽样模块;
49.所述抽样模块,用于对所述待分析业务数据进行抽样,获取抽样后的业务数据,其中,所述抽样后的业务数据的数据分布与所述待分析业务数据的业务分布偏差小于预设阈值;
50.所述学习模块,还用于在所述抽样后的业务数据中添加场景标签,获取样本数据集,其中,所述场景标签用于指示场景的异常状态、异常类型。
51.可选地,所述学习模块,具体用于采用所述预设算法,根据所述样本数据集中各业务数据的特征信息和场景标签,计算获取各所述特征信息与对应场景之间的重要程度信息。
52.可选地,所述学习模块,具体用于根据所述重要程度信息、所述特征信息以及所述场景,确定各场景对应的目标特征信息,所述目标特征信息为与各场景相关性满足阈值的特征信息;根据各场景对应的目标特征信息、以及各所述场景,采用预设因果学习网络,学习获取各所述场景与所述场景对应的目标特征信息之间的因果关系。
53.可选地,所述学习模块,具体用于根据所述重要程度信息、所述特征信息以及所述场景,确定各场景对应的初始特征信息;根据所述各场景对应的初始特征信息在对应场景下的属性参数,对所述各场景对应的初始特征信息进行特征筛选,确定所述各场景对应的目标特征信息。
54.可选地,所述装置还包括:关联模块;
55.所述关联模块,用于建立各所述特征信息与对应场景之间的关联关系,获取关联后的所述特征信息与对应场景;
56.所述学习模块,还用于根据各所述特征信息的属性参数对各所述特征信息进行筛选,获取满足预设条件的预筛选特征信息;
57.所述学习模块,具体用于根据所述重要程度信息、所述预筛选特征信息以及所述场景,确定各场景对应的目标特征信息。
58.可选地,所述属性参数包括下述至少一项:缺失率、稳定性、值域。
59.第三方面,本技术实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如上
述第一方面所述的方法的步骤。
60.第四方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述第一方面所述的方法的步骤。
61.本技术的有益效果:
62.本技术提供一种特征信息与场景的因果关系获取方法、装置、设备及介质,该方法包括:提取待分析业务数据的特征信息;采用预设算法,获取各特征信息与对应场景之间的重要程度信息,对应场景包括预设的异常场景;根据重要程度信息、特征信息以及场景,采用预设因果学习网络,学习获取各特征信息与场景之间的因果关系。本方案中,基于提取的待分析业务数据的特征信息,确定各特征信息与对应场景之间的重要程度信息,从而基于重要程度信息对特征信息进行了筛选,使得确定的特征信息能够用于较准确的识别场景,进而学习得到的特征信息与场景之间的因果关系,可适用于更加高效的场景识别中。
63.另外,通过采用不同的筛选方法,对业务数据以及特征信息分别进行筛选,可以有效的减少数据处理量,更加精确的获取场景对应的目标特征信息。
附图说明
64.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
65.图1为本技术实施例的一种特征信息与场景的因果关系获取系统的框图;
66.图2为本技术实施例提供的一种可以实现本技术思想的电子设备的示例性硬件和软件组件的示意图;
67.图3为本技术实施例提供的一种特征信息与场景的因果关系获取方法的流程示意图;
68.图4为本技术实施例提供的另一种特征信息与场景的因果关系获取方法的流程示意图;
69.图5为本技术实施例提供的另一种特征信息与场景的因果关系获取方法的流程示意图;
70.图6为本技术实施例提供的又一种特征信息与场景的因果关系获取方法的流程示意图;
71.图7为本技术实施例提供的另一种特征信息与场景的因果关系获取方法的流程示意图;
72.图8为本技术实施例提供的又一种特征信息与场景的因果关系获取方法的流程示意图;
73.图9为本技术实施例提供的另一种特征信息与场景的因果关系获取方法的流程示意图;
74.图10为本技术实施例提供的一种特征信息与场景的因果关系获取装置的示意图;
75.图11为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
76.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,应当理解,本技术中附图仅起到说明和描述的目的,并不用于限定本技术的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本技术中使用的流程图示出了根据本技术的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本技术内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
77.另外,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
78.为了使得本领域技术人员能够使用本技术内容,结合特定应用场景“司乘业务”,给出以下实施方式。对于本领域技术人员来说,在不脱离本技术的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本技术主要围绕司乘业务进行描述,但是应该理解,这仅是一个示例性实施例。本技术可以应用于任何其他交通运输类型,例如,本技术可以应用于外卖业务、快递业务等买卖双方交易的业务系统。本技术的系统或方法的应用可以包括网页、浏览器的插件、客户端终端、定制系统、内部分析系统、或人工智能机器人等,或其任意组合。
79.需要说明的是,本技术实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
80.本技术中的术语“乘客”、“客户”、“服务请求方”可以指代可以请求或订购服务的个人、实体或工具。本技术中的术语“司机”、“服务提供方”、“供应商”可以指代可以提供服务的个人、实体或工具。本技术中的术语“订单”、“服务请求”可以指代由乘客、服务请求方、司机、服务提供方、或供应商等、或其任意组合发起的请求。
81.本技术中使用的定位技术可以基于全球定位系统(global positioning system,gps)、全球导航卫星系统(global navigation satellite system,glonass)、北斗系统、罗盘导航系统(compass)、伽利略定位系统、准天顶卫星系统(quasi-zenith satellite system,qzss)、无线保真(wireless fidelity,wifi)定位技术等,或其任意组合。一个或多个上述定位系统可以在本技术中互换使用。
82.图1为本技术实施例的一种特征信息与场景的因果关系获取系统的框图。例如,特征信息与场景的因果关系获取系统100可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、或班车服务之类的运输服务、或其任意具有应用场景的服务平台,例如其他服务、交易等服务平台,本技术在此不作限制。特征信息与场景的因果关系获取系统100可以包括服务器110、网络120和数据库130中的一种或多种,服务器110中可以包括执行指令操作的处理器。
83.在一些实施例中,服务器110可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器110可以是分布式系统)。在一些实施例中,
服务器110相对于终端,可以是本地的、也可以是远程的。例如,服务器110可以经由网络120访问存储在数据库130中的信息和/或数据。作为另一示例,服务器110可以直接连接到数据库130中,以访问存储的信息和/或数据。在一些实施例中,服务器110可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。在一些实施例中,服务器110可以在具有本技术中图2所示的一个或多个组件的电子设备200上实现。
84.在一些实施例中,服务器110可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据,以执行本技术中描述的一个或多个功能。在一些实施例中,处理器可以包括一个或多个处理核(例如,单核处理器(s)或多核处理器(s))。仅作为举例,处理器可以包括中央处理单元(central processing unit,cpu)、专用集成电路(application specific integrated circuit,asic)、专用指令集处理器(application specific instruction-set processor,asip)、图形处理单元(graphics processing unit,gpu)、物理处理单元(physics processing unit,ppu)、数字信号处理器(digital signal processor,dsp)、现场可编程门阵列(field programmable gate array,fpga)、可编程逻辑器件(programmable logic device,pld)、控制器、微控制器单元、简化指令集计算机(reduced instruction set computing,risc)、或微处理器等,或其任意组合。
85.网络120可以用于信息和/或数据的交换。在一些实施例中,特征信息与场景的因果关系获取系统100中的一个或多个组件(例如,服务器110和数据库130)可以向其他组件发送信息和/或数据。在一些实施例中,网络120可以是任何类型的有线或者无线网络,或者是他们的结合。仅作为示例,网络120可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(local area network,lan)、广域网(wide area network,wan)、无线局域网(wireless local area networks,wlan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、公共电话交换网(public switched telephone network,pstn)、蓝牙网络、zigbee网络、或近场通信(near field communication,nfc)网络等,或其任意组合。在一些实施例中,网络120可以包括一个或多个网络接入点。例如,网络120可以包括有线或无线网络接入点,例如基站和/或网络交换节点,特征信息与场景的因果关系获取系统100的一个或多个组件可以通过该接入点连接到网络120以交换数据和/或信息。
86.数据库130可以存储数据和/或指令。在一些实施例中,数据库130可以存储在本技术中描述的示例性方法的数据和/或指令。在一些实施例中,数据库130可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(read-only memory,rom)等,或其任意组合。作为举例,大容量存储器可以包括磁盘、光盘、固态驱动器等;可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等;易失性读写存储器可以包括随机存取存储器(random access memory,ram);ram可以包括动态ram(dynamic random access memory,dram),双倍数据速率同步动态ram(double date-rate synchronousram,ddr sdram);静态ram(static random-access memory,sram),晶闸管ram(thyristor-based random access memory,t-ram)和零电容器ram(zero-ram)等。作为举例,rom可以包括掩模rom(mask read-only memory,mrom)、可编程rom(programmable read-only memory,prom)、可擦除可编程rom(programmable erasable read-only memory,perom)、电可擦除
可编程rom(electrically erasable programmable read only memory,eeprom)、光盘rom(cd-rom)、以及数字通用磁盘rom等。在一些实施例中,数据库130可以在云平台上实现。仅作为示例,云平台可以包括私有云、公有云、混合云、社区云、分布式云、跨云、多云或者其它类似的等,或其任意组合。
87.在一些实施例中,数据库130可以连接到网络120以与特征信息与场景的因果关系获取系统100(例如,服务器110)通信特征信息与场景的因果关系获取系统100中的服务器110可以经由网络120访问存储在数据库130中的数据或指令。在一些实施例中,数据库130可以直接连接到特征信息与场景的因果关系获取系统100中的服务器110;或者,在一些实施例中,数据库130也可以是服务器110的一部分。
88.在一些实施例中,特征信息与场景的因果关系获取系统100中服务器110可以具有访问数据库130的权限。
89.图2为本技术实施例提供的一种可以实现本技术思想的电子设备的示例性硬件和软件组件的示意图。例如,处理器220可以用于电子设备200上,并且用于执行本技术中的功能。
90.电子设备200可以是通用计算机或特殊用途的计算机,两者都可以用于实现本技术的特征信息与场景的因果关系获取方法。本技术尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本技术描述的功能,以均衡处理负载。
91.例如,电子设备200可以包括连接到网络的网络端口210、用于执行程序指令的一个或多个处理器220、通信总线230、和不同形式的存储介质240,例如,磁盘、rom、或ram,或其任意组合。示例性地,计算机平台还可以包括存储在rom、ram、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本技术的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(input/output,i/o)接口250。
92.为了便于说明,在电子设备200中仅描述了一个处理器。然而,应当注意,本技术中的电子设备200还可以包括多个处理器,因此本技术中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备200的处理器执行步骤a和步骤b,则应该理解,步骤a和步骤b也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤a,第二处理器执行步骤b,或者第一处理器和第二处理器共同执行步骤a和b。
93.图3为本技术实施例提供的一种特征信息与场景的因果关系获取方法的流程示意图,该方法的执行主体可以计算机、服务器等设备,如图3所示,该方法可包括:
94.s301、提取待分析业务数据的特征信息。
95.本技术通过提出一种基于机器、数据统计、因果学习的方式来准确挖掘某一业务场景下的重要、可用特征,并产出特征与场景之间的因果关系。进而为场景识别建模和设计合理的业务解决方案提供支持。
96.可选地,待分析业务数据可以为不同业务场景下的业务数据,业务场景可以包括:司乘业务、外卖业务、快递业务、购物业务等。其中,司乘业务的业务数据可以指打车订单数据,外卖业务的业务数据可以指外卖订单数据。本技术下述实施例中以应用于司乘业务为例进行说明。
97.可选地,可从获取的待分析业务数据中提取业务数据的特征信息,例如:从司乘业务的打车订单数据中提取订单特征信息。
98.s302、采用预设算法,获取各特征信息与对应场景之间的重要程度信息,对应场景包括预设的异常场景。
99.可选地,特征信息与场景之间的重要程度信息可以用于指示特征信息对于场景的重要性,重要程度信息可以用特征信息与场景的相关度进行表示,特征信息与场景的相关度越高,特征信息对于场景的识别重要程度越高。
100.场景可以指业务数据所对应的业务场景。例如:乘客殴打司机、乘客逃单等场景。
101.本技术中所涉及的场景以异常场景为例,也即由于一些因素导致业务执行过程中产生一些异常现象。例如:乘客取消订单、乘客频繁骚扰司机等。通过对异常场景下的特征信息的分析,可以有助于对异常场景的识别。
102.当然,实际应用中,对应场景并不限于异常场景,可以为任意场景,包括正常场景,可以根据业务分析需求进行适应性调整。
103.s303、根据重要程度信息、特征信息以及场景,采用预设因果学习网络,学习获取各特征信息与场景之间的因果关系。
104.在一些实施例中,可根据上述所确定的各特征信息与场景之间的重要程度信息、以及特征信息和场景,确定各场景对应的强相关特征信息,其中,强相关特征信息可以指与各场景之间的重要程度信息满足设定阈值的特征信息,也即,对于识别场景具有关键意义的特征信息。
105.可选地,可采用预设因果学习网络,学习各场景与所对应的强相关特征信息之间的因果关系,从而可基于场景与特征信息之间的因果关系,进行场景识别,为业务解决方案提供支持。例如:基于场景与特征信息之间的因果关系,提前采取相关预防措施,防止特征的发生,从而避免场景的发生。
106.一方面,由于是从大量的特征信息中根据特征信息和场景之间的重要程度信息筛选得到部分强相关特征信息,基于场景和特征信息的因果关系可快速进行场景识别。另一方面,由于是根据场景强相关的特征信息进行场景识别,特征信息与场景的相关度较高,可提高场景识别准确性。
107.其中,场景与特征信息之间的因果关系用于指示特征信息是场景的原因,还是场景的结果。对于特征信息是场景的原因的情况,则可以进行适当的预防,以避免场景的发生。例如:特征信息为:乘客未上车,场景为:乘客频繁电话骚扰司机。那么,则平台在订单追踪的过程中发现乘客在约定的上车时间还未上车时,可通过提示信息提示司机尽快抵达乘客位置,使得乘客可以尽快上车。
108.综上,本实施例提供的特征信息与场景的因果关系获取方法,包括:提取待分析业务数据的特征信息;采用预设算法,获取各特征信息与对应场景之间的重要程度信息,对应场景包括预设的异常场景;根据重要程度信息、特征信息以及场景,采用预设因果学习网络,学习获取各特征信息与场景之间的因果关系。本方案中,基于提取的待分析业务数据的特征信息,确定各特征信息与对应场景之间的重要程度信息,从而基于重要程度信息对特征信息进行了筛选,使得确定的特征信息能够用于较准确的识别场景,进而学习得到的特征信息与场景之间的因果关系,可适用于更加高效的场景识别中。
109.图4为本技术实施例提供的另一种特征信息与场景的因果关系获取方法的流程示意图,可选地,如图4所示,步骤s303中,学习获取各特征信息与场景之间的因果关系之后,本技术的方法还可包括:
110.s3011、获取目标业务数据的特征信息。
111.可选地,目标业务数据可以指目标业务场景下执行业务服务的过程中所产生的业务数据,以打车场景为例,目标业务数据可以指服务数据(订单数据),可以从已完成的服务数据中或者是从正在服务的服务数据中获取特征信息,从而基于所获取的特征信息,判断目标业务数据所对应的场景。
112.s3012、根据目标业务数据的特征信息,基于特征信息与场景之间的因果关系,确定目标业务数据对应的场景是否为异常场景。
113.可选地,可根据上述获取的特征信息,基于学习到的各特征信息与场景之间的因果关系,确定目标业务数据对应的场景是否为异常场景,且当为异常场景时,可具体确定异常场景的类型。
114.假设目标业务数据的特征信息中包含特性信息a,而特性信息a和异常场景b之间存在因果关系,则可确定目标业务数据对应的场景为异常场景b。又假设目标特征数据中包含特性信息a和特性信息b,而特性信息a和异常场景b之间存在因果关系,特性信息b和异常场景c之间存在因果关系,则可以确定目标业务数据既对应异常场景b,也对应异常场景c。在一种情况中,目标业务数据的特征信息中所包含的特性信息与各场景均不存在因果关系,则可以确定目标业务数据对应的场景不为异常场景。
115.图5为本技术实施例提供的另一种特征信息与场景的因果关系获取方法的流程示意图,可选地,如图5所示,步骤s301中,提取待分析业务数据的特征信息之前,本技术的方法还可包括:
116.s401、采集获取历史业务数据。
117.可选地,可以从业务平台的数据库中采集获取历史业务数据,其中,可以获取历史预设时间段内的业务数据,也可以采集历史任意时间的业务数据。采集的历史业务数据可以是从数据库中随机抽取的,以保证得到的历史业务数据既可以包括异常场景对应的业务数据,也可以包括正常场景对应的业务数据,提高采集的业务数据的泛化性。
118.s402、根据预设筛选条件,在历史业务数据中筛选获取满足预设筛选条件的待分析业务数据。
119.本实施例中,可通过预设筛选条件对采集的大量历史业务数据进行初步筛选,以减少业务数据量,降低计算机运行负荷,提高方法执行效率。
120.可选地,历史业务数据可包括下述至少一项:空间数据、时间数据、交易数据、业务类型。
121.其中,空间数据可包括定位信息,例如空间坐标信息,具体场景中可以是业务发生的地点,例如:乘客上车点、订单的服务位置。时间数据可以指业务发生的时间,例如:订单的服务时间点。交易数据可以指业务的交易方式、交易时间、交易金额等。业务类型可以指业务所属分类,例如:拼车、快车、代驾等。
122.需要说明的是,对于不同类型的业务数据,其对应的空间数据、时间数据、交易数据、业务类型等可能会存在较小的差异,可以适应性的灵活调整。
123.预设筛选条件包括下述至少一项:业务线条件、业务状态条件、业务地域条件。
124.其中,业务线可以指业务类型,例如:拼车、快车等。业务状态可以指业务的执行状态,例如:订单取消、订单执行中等。业务地域可以指业务的服务地点所属区域,其划分粒度可以根据需要具体限定,例如:业务服务的国家、城市、区等。
125.由于场景可能发生在固定的时间段内且某些特定的业务中,故可根据上述预设筛选条件对历史业务数据进行初步筛选。
126.例如:针对某一国家的司乘业务的场景进行识别时,由于业务平台的数据库中存储的历史业务数据是整个平台的所有业务数据,包括面向任意国家的业务所产生的业务数据,那么,采集的历史业务数据中也可能包括大量的不同国家的业务数据。则可通过业务地域条件对采集的历史业务数据进行初步筛选,以减少业务数据处理量。
127.可选地,可根据不同的需求设定预设筛选条件,对历史业务数据进行初步筛选。
128.图6为本技术实施例提供的又一种特征信息与场景的因果关系获取方法的流程示意图,可选地,本技术的方法还可包括:
129.s501、对待分析业务数据进行抽样,获取抽样后的业务数据,其中,抽样后的业务数据的数据分布与待分析业务数据的业务分布偏差小于预设阈值。
130.由于业务数据的量均是在百万级、千万级以上的,初步筛选仅是进行了粗略的筛选,筛选后所得到的待分析业务数据的数据量还是较大的,在一种可实现的方式中,可通过数据抽样的方式,从待分析业务数据中进行数据抽取,以减小数据处理量。
131.其中,可提供的抽样方式包括但不限于:随机抽样、分层抽样、整体抽样、系统抽样等。值得说明的是,抽样后的业务数据的数据分布与待分析业务数据的业务分布偏差小于预设阈值,也即抽样后的业务数据的数据分布要与待分析业务数据的业务分布接近一致,以保证抽样后的业务数据不会丢失关键信息。
132.数据分布一致可以理解为:抽样后的业务数据所对应的业务场景的占比与待分析业务数据所对应的业务场景的占比接近。例如:10个待分析业务数据中包含2个a业务场景,10个抽样后的业务数据中也包含2个a业务场景(抽样前10个订单中有2单为乘客未上车的场景,抽样后10个订单中同样保证有2单为乘客未上车的场景)。
133.s502、在抽样后的业务数据中添加场景标签,获取样本数据集,其中,场景标签用于指示场景的异常状态、异常类型。
134.可选地,对于一个业务数据而言,其可以对应两种情况,也即:场景发生或者场景未发生。可以对抽样后的每个业务数据均添加场景标签,场景标签用于指示场景的异常状态和异常类型。其中,场景的异常状态可以包括:异常场景或者正常场景,而异常类型可以指是异常场景时对应的具体异常类型。
135.可选地,可以以预设的标识对业务数据添加场景标签,例如一个业务数据的场景标签用(0,0,1,0)表示。其中,每一位数对应表示一种异常类型,第一位表示异常类型a,第一位表示异常类型b,第一位表示异常类型c,第一位表示异常类型d,0代表异常场景未发生,1代表异常场景发生。那么,该业务数据的场景标签可表示该业务数据为异常场景,且异常类型为c。而假设场景标签为(0,0,0,0),则可认为业务数据不存在异常,也即为正常场景。
136.可选地,获取的样本数据集可进一步在下述实施例中用于计算特征信息与场景之
间的重要程度信息。
137.图7为本技术实施例提供的另一种特征信息与场景的因果关系获取方法的流程示意图,如图7所示,步骤s302中,采用预设算法,获取各特征信息与对应场景之间的重要程度信息,可以包括:
138.s601、采用预设算法,根据样本数据集中各业务数据的特征信息和场景标签,计算获取各特征信息与对应场景之间的重要程度信息。
139.本实施中所采用的预设算法包括但不限于:iv(information value,信息量)、woe(weight of evidence,证据权重)、pearson(pearson correlation coefficient皮尔逊相关系数)、l1正则化/lasso(least absolute shrinkage and selection operator,压缩估计)、mi(mutual information,互信息)、mic(maximal information coefficient,最大信息系数)、信噪比等。
140.可选地,可根据每个业务数据所具有的特征信息、以及每个业务数据的场景标签,确定各特征信息与场景的重要程度信息。
141.其中,可根据各特征信息的波动性与场景的波动性,确定各特征信息与场景的重要程度信息。其中,各特征信息也可以用数值表示,其中,0表示不具有某特征信息,1表示具有某特征信息。对于同一特征信息和同一场景,当特征信息为0时,场景标签为0,特征信息变为1时,场景标签也变为1,则可认为该特征信息与场景相关度较高。也即,具有a特征信息时,场景a发生,而不具有a特征信息时,场景a未发生,则可以认为特征信息对于场景a的发生具有关键性作用,特征信息a与场景a之间的重要程度信息较高。
142.而对于有些特征信息,其在场景a中存在,在场景b中也存在,也即,并不是导致某一场景发生的关键特征信息,则该特征信息与场景a之间的重要程度信息则相对较低。
143.可基于上述分析,确定每个特征信息在每个场景中所占的权重,从而确定每个特征信息与各场景的相关度,也即确定每个特征信息与各场景之间的重要程度信息。
144.可选地,步骤s303中,根据重要程度信息、特征信息以及场景,采用预设因果学习网络,学习获取各特征信息与场景之间的因果关系,包括:
145.s602、根据重要程度信息、特征信息以及场景,确定各场景对应的目标特征信息,目标特征信息为与各场景相关性满足阈值的特征信息。
146.可选地,可以设定一评判阈值,将各特征信息与场景之间的重要程度信息与该评判阈值进行比对,将重要程度信息满足该评判阈值的特征信息作为场景的目标特征信息。
147.根据各特征信息与场景之间的重要程度信息,可以从与各场景相关的多个特征信息中,确定出与各场景强相关的特征信息,也即确定出对于识别场景具有意义的特征信息作为目标特征信息。
148.s603、根据各场景对应的目标特征信息、以及各场景,采用预设因果学习网络,学习获取各场景与场景对应的目标特征信息之间的因果关系。
149.可选地,可将各场景、以及与各场景对应的目标特征信息作为预设因果学习网络的输入,通过因果学习网络中所构建的因果关系推理网络,学习各场景以及各场景对应的目标特征信息之间的因果关系,输出场景与目标特征信息之间的因果关系图,因果关系图可以清晰的展示场景与目标特征信息之间的因果关系。
150.图8为本技术实施例提供的又一种特征信息与场景的因果关系获取方法的流程示
意图,可选地,步骤s602中根据重要程度信息、特征信息以及场景,确定各场景对应的目标特征信息,可以包括:
151.s701、根据重要程度信息、特征信息以及场景,确定各场景对应的初始特征信息。
152.在一些可选的实施例中,可先根据各特征信息与场景之间的重要程度信息,将重要程度信息满足阈值的特征信息作为场景对应的初始特征信息。
153.s702、根据各场景对应的初始特征信息在对应场景下的属性参数,对各场景对应的初始特征信息进行特征筛选,确定各场景对应的目标特征信息。
154.本实施例中,还可根据特征信息对应在场景下时的属性参数,对初始特征信息进行进一步筛选,以提高获取的目标特征信息的准确性和稳定性。
155.可选地,对于每种场景对应的初始特征信息,可以根据该初始特征信息在该场景下的属性参数对初始特征信息进行筛选。其中,可在该场景发生、场景未发生和不考虑场景是否发生的情况下,分别根据初始特征信息的属新参数进行筛选。
156.其中,属性参数可以包括下述至少一项:缺失率、稳定性、值域。缺失率用于表示特征信息存在缺失的概率。例如:有些特征信息随着时间的变化不可用,或者是仅在某些业务类型下可用,则相对缺失率较高(特征信息:拼车成功率,仅在拼车业务下可用,在快车业务下存在缺失)。稳定性用于表示特征信息的稳定程度。例如:每天的完单量、订单总量等特征信息基本是稳定的,每天均可以获取到,可以认为其稳定性较高,而某些特征信息如乘客推荐另一乘客乘车,可能在平台做活动期间可获取到该特征信息,而在平台不做活动时,则获取不到该特征信息,则可以认为其稳定性不高。值域同样可以用于刻画特性信息的稳定性。其中,特征信息的值域可以展示特征信息在一定时间段内的波动情况,若值域波动较大,则可以认为特征信息稳定性较差,而若波动较小,基本持平,则可以认为特征信息稳定性较好。
157.对于场景a,可分别在场景a发生、场景a未发生和不考虑场景a是否发生的情况下,确定场景a对应的各初始特征信息的缺失率、稳定性、值域,从而可综合各初始特征信息的缺失率、稳定性、值域,从初始特征信息中筛掉缺失率高、稳定性差的不可用特征信息。其中,可通过设定缺少率阈值和稳定性阈值,将缺失率低于阈值和/稳定性低于阈值的特征信息筛掉。
158.图9为本技术实施例提供的另一种特征信息与场景的因果关系获取方法的流程示意图,可选地,步骤s602中根据重要程度信息、特征信息以及场景,确定各场景对应的目标特征信息之前,本技术的方法还可包括:
159.s801、建立各特征信息与对应场景之间的关联关系,获取关联后的特征信息与对应场景。
160.在一些可实现的方式中,在通过预设筛选条件对采集的历史业务数据进行筛选之后,还可进一步地从筛选后的业务数据中进行特征信息筛选,以筛选掉不可用于场景识别的特征信息。
161.在进行特征信息筛选之前,可先建立各特征信息与场景之间的关联关系,以将特征信息和场景信息存放在相同的数据库中,便于服务器将特征信息和场景信息关联起来。
162.s802、根据各特征信息的属性参数对各特征信息进行筛选,获取满足预设条件的预筛选特征信息。
163.可选地,区别于上述对初始特征信息的筛选,本实施例中,是在不考虑场景的情况下,单纯的根据各特征信息的属性参数,对各特征信息进行筛选。
164.与上述描述类似,可根据各特征信息的缺失率、稳定性、值域等,通过与预设的缺失率阈值、稳定性阈值进行比对,将缺失率大于缺失率阈值且稳定性大于稳定性阈值、值域波动较小的特征信息作为预筛选特征信息。
165.步骤s602中,根据重要程度信息、特征信息以及场景,确定各场景对应的目标特征信息,可以包括:根据重要程度信息、预筛选特征信息以及场景,确定各场景对应的目标特征信息。
166.可选地,则可根据预筛选特征信息与场景之间的重要程度信息,从预筛选特征信息中确定各场景对应的目标特征信息。
167.可选地,本技术方法还可包括:将学习得到的特征信息与场景之间的因果关系发送至对应场景的处置人员。
168.其中,可通过邮件、网页、业务系统等不同输出渠道进行发送。其中,可以将目标场景与特征信息的因果关系发送至目标场景对应的处置人员(可以是目标场景所对应的工作团队或者算法部门),从而使得处置人员可根据场景与特征信息的因果关系,进行场景识别建模,用以识别业务场景,或者是设计业务解决方案等。
169.综上,本实施例提供的特征信息与场景的因果关系获取方法,包括:提取待分析业务数据的特征信息;采用预设算法,获取各特征信息与对应场景之间的重要程度信息,对应场景包括预设的异常场景;根据重要程度信息、特征信息以及场景,采用预设因果学习网络,学习获取各特征信息与场景之间的因果关系。本方案中,基于提取的待分析业务数据的特征信息,确定各特征信息与对应场景之间的重要程度信息,从而基于重要程度信息对特征信息进行了筛选,使得确定的特征信息能够用于较准确的识别场景,进而学习得到的特征信息与场景之间的因果关系,可适用于更加高效的场景识别中。
170.另外,通过采用不同的筛选方法,对业务数据以及特征信息分别进行筛选,可以有效的减少数据处理量,更加精确的获取场景对应的目标特征信息。
171.下述对用以执行本技术所提供的特征信息与场景的因果关系获取方法对应的装置、设备及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
172.图10为本技术实施例提供的一种特征信息与场景的因果关系获取装置的示意图,该特征信息与场景的因果关系获取装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器,或服务器的处理器,也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本技术功能的组件,如图10所示,该装置可包括:提取模块910、学习模块920;
173.提取模块910,用于提取待分析业务数据的特征信息;
174.学习模块920,用于采用预设算法,获取各特征信息与对应场景之间的重要程度信息,对应场景包括预设的异常场景;
175.学习模块920,用于根据重要程度信息、特征信息以及场景,采用预设因果学习网络,学习获取各特征信息与场景之间的因果关系。
176.可选地,该装置还包括:获取模块、确定模块;
177.获取模块,用于获取目标业务数据的特征信息;
178.确定模块,用于根据目标业务数据的特征信息,基于特征信息与场景之间的因果关系,确定目标业务数据对应的场景是否为异常场景。
179.可选地,该装置还包括:采集模块、筛选模块;
180.采集模块,用于采集获取历史业务数据;
181.筛选模块,用于根据预设筛选条件,在历史业务数据中筛选获取满足预设筛选条件的待分析业务数据。
182.可选地,历史业务数据包括下述至少一项:空间数据、时间数据、交易数据、业务类型;
183.预设筛选条件包括下述至少一项:业务线条件、业务状态条件、业务地域条件。
184.可选地,该装置还包括:抽样模块;
185.抽样模块,用于对待分析业务数据进行抽样,获取抽样后的业务数据,其中,抽样后的业务数据的数据分布与待分析业务数据的业务分布偏差小于预设阈值;
186.学习模块920,还用于在抽样后的业务数据中添加场景标签,获取样本数据集,其中,场景标签用于指示场景的异常状态、异常类型。
187.可选地,学习模块920,具体用于采用预设算法,根据样本数据集中各业务数据的特征信息和场景标签,计算获取各特征信息与对应场景之间的重要程度信息。
188.可选地,学习模块920,具体用于根据重要程度信息、特征信息以及场景,确定各场景对应的目标特征信息,目标特征信息为与各场景相关性满足阈值的特征信息;根据各场景对应的目标特征信息、以及各场景,采用预设因果学习网络,学习获取各场景与场景对应的目标特征信息之间的因果关系。
189.可选地,学习模块920,具体用于根据重要程度信息、特征信息以及场景,确定各场景对应的初始特征信息;根据各场景对应的初始特征信息在对应场景下的属性参数,对各场景对应的初始特征信息进行特征筛选,确定各场景对应的目标特征信息。
190.可选地,该装置还包括:关联模块;
191.关联模块,用于建立各特征信息与对应场景之间的关联关系,获取关联后的特征信息与对应场景;
192.学习模块920,还用于根据各特征信息的属性参数对各特征信息进行筛选,获取满足预设条件的预筛选特征信息;
193.学习模块920,具体用于根据重要程度信息、预筛选特征信息以及场景,确定各场景对应的目标特征信息。
194.可选地,属性参数包括下述至少一项:缺失率、稳定性、值域。
195.上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过lan、wan、蓝牙、zigbee、或nfc等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本技术中不再赘述。在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划
分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
196.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
197.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
198.需要说明的是,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,简称asic),或,一个或多个微处理器(digital singnal processor,简称dsp),或,一个或者多个现场可编程门阵列(field programmable gate array,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。
199.图11为本技术实施例提供的一种电子设备的结构示意图。该电子设备可以是上述的服务器或者计算机。如图11所示,该设备可包括:处理器1001和存储器1002,其中:
200.存储器1002用于存储程序,处理器1001调用存储器1002存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
201.可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
202.以上仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1