特征筛选方法、装置、计算机设备和存储介质与流程

文档序号:16068867发布日期:2018-11-24 12:57阅读:156来源:国知局
本发明涉及数据处理
技术领域
,特别是涉及特征筛选方法、装置、计算机设备和存储介质。
背景技术
在对客户进行业务功能的判断时,需从客户的初始特征集合中提取有效特征,进而根据提取的有效特征进行业务功能的判断。例如,对客户做欺诈判断时,需要从该客户的初始特征集合中提取与欺诈相关的特征,进而根据提取的特征,对该客户进行欺诈判断。目前,在对客户进行业务功能的判断而从客户的初始特征集合中提取有效特征时,只是通过启发式选择方法从客户的初始特征集合中进行特征筛选,而从初始特征集合中进行特征筛选时,需从初始特征集合中逐个提取特征加入到备选特征集合中,以对备选特征集合与业务功能之间进行关联度的计算,进而进行特征的筛选。但这种特征筛选方式的计算量太大,大大影响了特征筛选的效率。技术实现要素:基于此,为解决相关技术中特征筛选的效率较低的技术问题,本发明提供了一种特征筛选方法、装置、计算机设备和存储介质。第一方面,提供了一种特征筛选方法,包括:提取目标对象的初始特征集合;从所述初始特征集合中排除与目标业务功能不相关的特征,得到候选特征集合;通过分别计算所述候选特征集合及所述候选特征集合中至少两个互不相同的特征组合与所述目标业务功能之间的关联度,并根据所述关联度从所述候选特征集合中确定与所述目标业务功能相关的有效特征。在其中一个实施例中,所述通过大数据分析从所述初始特征集合中排除与目标业务功能不相关的特征,得到候选特征集合的步骤包括:通过大数据分析计算所述初始特征集合中各特征与所述目标业务功能之间的or值;通过所述or值排除所述初始特征集合中与目标业务功能不相关的特征,得到候选特征集合。在其中一个实施例中,所述通过分别计算所述候选特征集合及所述候选特征集合中不同的特征组合与所述目标业务功能之间的关联度,并根据所述关联度从所述候选特征集合中确定与所述目标业务功能相关的有效特征的步骤包括:从所述候选特征集合中选取至少两个互不相同的特征组合;计算各特征组合与所述目标业务功能之间的关联度;根据至少两个互不相同的特征组合及其对应关联度的比对,确定与所述目标业务功能相关的有效特征。在其中一个实施例中,所述通过分别计算所述候选特征集合及所述候选特征集合中不同的特征组合与所述目标业务功能之间的关联度,并根据所述关联度从所述候选特征集合中确定与所述目标业务功能相关的有效特征的步骤包括:从所述候选特征集合中进行至少两个互不相同的特征剔除得到第一特征组合;通过所述候选特征集合、第一特征组合与所述目标业务功能之间的关联度比对,确定所述目标业务功能相关的核特征,得到核特征集合,并将所述核特征集合中的特征作为有效特征。在其中一个实施例中,所述通过所述候选特征集合、第一特征组合与所述业务功能之间的关联度比对,确定所述目标业务功能相关的核特征,得到核特征集合,并将所述核特征集合中的特征作为有效特征的步骤之后,所述方法还包括:向所述核特征集合中添加特征得到第二特征组合;根据所述核特征集合、第二特征组合与所述业务功能之间的关联度确定备选有效特征,得到备选有效特征集合;将所述备选有效特征集合与所述核特征集合中的特征均确定为所述目标业务功能相关的有效特征。第二方面,提供了一种特征筛选装置,包括:初始特征集合提取模块,用于提取目标对象的初始特征集合;特征排除模块,用于从所述初始特征集合中排除与目标业务功能不相关的特征,得到候选特征集合;有效特征确定模块,用于通过分别计算所述候选特征集合及所述候选特征集合中至少两个互不相同的特征组合与所述目标业务功能之间的关联度,并根据所述关联度从所述候选特征集合中确定与所述目标业务功能相关的有效特征。在其中一个实施例中,所述特征排除模块包括:or值计算子模块,用于通过大数据分析计算所述初始特征集合中各特征与所述目标业务功能之间的or值;特征排除子模块,用于通过所述or值排除所述初始特征集合中与目标业务功能不相关的特征,得到候选特征集合。在其中一个实施例中,所述有效特征确定模块包括:特征组合选取子模块,用于从所述候选特征集合中选取至少两个互不相同的特征组合;关联度计算子模块,用于计算各特征组合与所述目标业务功能之间的关联度;有效特征确定子模块,用于根据至少两个互不相同的特征组合及其对应关联度的比对,确定与所述目标业务功能相关的有效特征。第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述特征筛选方法的步骤。第四方面,提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述特征筛选方法的步骤。本公开的实施例提供的技术方案可以包括以下有益效果:上述特征筛选方法、装置、计算机设备和存储介质,在对目标对象进行目标业务功能的判断时,通过提取目标对象的初始特征集合,在通过大数据分析从初始特征集合中排除与目标业务功能不相关的特征,得到候选特征集合,再分别计算候选特征集合及候选特征集合中至少两个互不相同的特征组合与目标业务功能之间的关联度,并根据关联度从候选特征集合中确定与目标业务功能相关的有效特征,从而无需对初始特征集合中数量巨大的特征一个一个地与目标业务功能之间进行关联判断,极大简化了与目标业务功能之间进行关联判断的计算量,缩减了特征筛选的时间,有效提高了特征筛选效率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。附图说明图1是根据一示例性实施例示出的一种计算机设备100的框图。图2是根据一示例性实施例示出的一种特征筛选方法流程图。图3是根据图2对应实施例示出的特征筛选方法中步骤s120的一种具体实现流程图。图4是根据图2对应实施例示出的特征筛选方法中步骤s130的一种具体实现流程图。图5是根据图2对应实施例示出的特征筛选方法中步骤s130的另一种具体实现流程图。图6是根据图2对应实施例示出的特征筛选方法中步骤s130的另一种具体实现流程图。图7是根据一示例性实施例示出的一种特征筛选装置的框图。图8是图7对应实施例示出的特征筛选装置中特征排除模块120的一种框图。图9是图7对应实施例示出的特征筛选装置中有效特征确定模块130的一种框图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。图1是根据一示例性实施例示出的一种计算机设备100的框图,计算机设备100将用于执行如下示例性实施例示出的特征筛选方法。计算机设备100可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。参考图1,计算机设备100可以包括以下一个或者多个组件:处理组件101,存储器102,电源组件103,多媒体组件104,音频组件105,传感器组件107以及通信组件108。其中,上述组件并不全是必须的,计算机设备100可以根据自身功能需求增加其他组件或减少某些组件,本实施例不作限定。处理组件101通常控制计算机设备100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及日志数据处理相关联的操作等。处理组件101可以包括一个或多个处理器109来执行指令,以完成上述操作的全部或部分步骤。此外,处理组件101可以包括一个或多个模块,便于处理组件101和其他组件之间的交互。例如,处理组件101可以包括多媒体模块,以方便多媒体组件104和处理组件101之间的交互。存储器102被配置为存储各种类型的数据以支持在计算机设备100的操作。这些数据的示例包括用于在计算机设备100上操作的任何应用程序或方法的指令。存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如sram(staticrandomaccessmemory,静态随机存取存储器),eeprom(electricallyerasableprogrammableread-onlymemory,电可擦除可编程只读存储器),eprom(erasableprogrammablereadonlymemory,可擦除可编程只读存储器),prom(programmableread-onlymemory,可编程只读存储器),rom(read-onlymemory,只读存储器),磁存储器,快闪存储器,磁盘或光盘。存储器102中还存储有一个或多个模块,该一个或多个模块被配置成由该一个或多个处理器109执行,以完成以下任一所示方法中的全部或者部分步骤。电源组件103为计算机设备100的各种组件提供电力。电源组件103可以包括电源管理系统,一个或多个电源,及其他与为计算机设备100生成、管理和分配电力相关联的组件。多媒体组件104包括在所述计算机设备100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括lcd(liquidcrystaldisplay,液晶显示器)和tp(touchpanel,触摸面板)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。音频组件105被配置为输出和/或输入音频信号。例如,音频组件105包括一个麦克风,当计算机设备100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件108发送。在一些实施例中,音频组件105还包括一个扬声器,用于输出音频信号。传感器组件107包括一个或多个传感器,用于为计算机设备100提供各个方面的状态评估。例如,传感器组件107可以检测到计算机设备100的打开/关闭状态,组件的相对定位,传感器组件107还可以检测计算机设备100或计算机设备100一个组件的坐标改变以及计算机设备100的温度变化。在一些实施例中,该传感器组件107还可以包括磁传感器,压力传感器或温度传感器。通信组件108被配置为便于计算机设备100和其他设备之间有线或无线方式的通信。计算机设备100可以接入基于通信标准的无线网络,如wifi(wireless-fidelity,无线网络),2g或3g,或它们的组合。在一个示例性实施例中,通信组件108经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件108还包括nfc(nearfieldcommunication,近场通信)模块,以促进短程通信。例如,在nfc模块可基于rfid(radiofrequencyidentification,射频识别)技术,irda(infrareddataassociation,红外数据协会)技术,uwb(ultra-wideband,超宽带)技术,bt(bluetooth,蓝牙)技术和其他技术来实现。在示例性实施例中,计算机设备100可以被一个或多个asic(applicationspecificintegratedcircuit,应用专用集成电路)、dsp(digitalsignalprocessing,数字信号处理器)、pld(programmablelogicdevice,可编程逻辑器件)、fpga(field-programmablegatearray,现场可编程门阵列)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。该实施例中的计算机设备100中处理器执行操作的具体方式将在有关特征筛选方法的实施例中进行详细描述,此处将不做详细阐述说明。如图2所示,在一个实施例中,提出了一种特征筛选方法,该特征筛选方法可以应用于上述图1所示的计算机设备100中,具体可以包括以下步骤:步骤s110,提取目标对象的初始特征集合。目标对象是将进行目标业务功能判断的对象。例如,将进行欺诈判断的客户。可以理解的是,各对象均体现出或多或少的特征。通过提取目标对象所有的特征,组成初始特征集合。步骤s120,从初始特征集合中排除与目标业务功能不相关的特征,得到候选特征集合。初始特征集合是预先获取的某一对象相关的特征的集合。例如,初始特征集合是与某一客户相关的注册信息、该客户进行网页浏览的历史记录信息等各种信息的集合。初始特征集合中的特征可以是通过大数据抓取而获取的,也可以是用客户使用时而保存至计算机设备中的,还可以是通过其他方式获取的。业务功能是与用户相关的行为特征,例如刷单行为、用户信用等级、用户的偿还能力等。而目标业务功能是对目标对象进行检测的业务功能。从初始特征集合中排除与目标业务功能不相关的特征时,可以通过大数据分析获取与目标业务功能无关联或关联度较低的特征,进而从初始特征集合中排除这部分特征;也可以通过各特征与目标业务功能之间的or值(oddsratio,比值比)在初始特征集合中进行特征初选,还可以通过其他方式从初始特征集合中排除与目标业务功能不相关的特征。从初始特征集合中排除与目标业务功能不相关的特征后,将排除后初始特征集合中剩余的特征组成的集合作为候选特征集合。步骤s130,通过分别计算候选特征集合及候选特征集合中至少两个互不相同的特征组合与目标业务功能之间的关联度,并根据关联度从候选特征集合中确定与目标业务功能相关的有效特征。经过步骤120的特征排除后,候选特征集合中特征的数量要比初始特征集合中少得多。通过对候选特征集合中的特征逐个地与业务功能进行关联判断,判断候选特征集合中的各特征与该业务功能是否相关联。根据候选特征集合中的特征组合与目标业务功能之间的关联度,从候选特征集合中确定与目标业务功能相关的有效特征的方式有多种,可以是对候选特征集合中的特征进行任意组合,再计算各特征组合与目标业务功能之间的关联度,进而根据各关联度对各特征与目标业务功能之间进行关联判断;也可以是根据两个特征组合(这两个特征组合之间的差别只是相差某一个特征)与业务功能之间的关联度对该特征与目标业务功能之间进行关联判断;还可以通过其他方式对候选特征集合中的特征与目标业务功能之间进行关联判断。利用如上所述的方法,在对目标对象进行目标业务功能的判断时,通过提取目标对象的初始特征集合,在通过大数据分析从初始特征集合中排除与目标业务功能不相关的特征,得到候选特征集合,再分别计算候选特征集合及候选特征集合中特征组合与目标业务功能之间的关联度,并根据关联度从候选特征集合中确定与目标业务功能相关的有效特征,从而无需对初始特征集合中数量巨大的特征一个一个地与目标业务功能之间进行关联判断,极大简化了与目标业务功能之间进行关联判断的计算量,缩减了特征筛选的时间,有效提高了特征筛选效率。可选的,图3是根据图2对应实施例示出的特征筛选方法中步骤s120的细节描述,该特征筛选方法中,步骤s120可以包括以下步骤:步骤s121,通过大数据分析计算初始特征集合中各特征与目标业务功能之间的or值(优势比)。or值又称比值比,也称优势比,通常出现在病例-对照研究里。or值指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。反映的是疾病和暴露的关联强度。举个具体的例子,研究心梗的病因时选择100名心梗患者作为病例,以100名没有发生过心梗的患者作为对照,比较他们发生心梗的可能病因。假设在发生心梗的人群中,患高血压是40人,而在没发生过心梗的人群中患高血压20人。那么我们可以得到以下的四格表:心梗非心梗患高血压4020未患高血压6080那么or=(40/60)/(20/80)=40*80/20*60=2.67。那么这2.67说明什么呢?其意义基本上可以等同为:患高血压的人发生心梗的风险是未患高血压的人的2.67倍。在得到or值的时候,会把or值和1进行比较,如果某个因素or值大于1,那么这个因素就是患病的危险因素,也就是携带这个因素的人,患病的风险高;如果or值小于1,那么这个因素就是患病的保护因素,有这个因素的人患病的风险低。与病例-对照研究中类似,在对一客户进行某一业务功能的判断过程中,通过or值进行特征排除时,计算该客户的初始特征集合中每一特征与目标业务功能之间的or值,即通过or值判断每一特征与目标业务功能的关联程度。例如,计算特征c1与目标业务功能f1之间的or值时,通过大数据提取各客户的所有特征,进而计算具备目标业务功能f1的客户中,其初始特征集合含有特征c1的客户数a1,与其初始特征集合不含有特征c1的客户数a2,并计算不具备目标业务功能f1的客户中,其初始特征集合含有特征c1的客户数a3,与其初始特征集合不含有特征c1的客户数a4。因此,特征c1与目标业务功能f1之间的or值为(a1/a2)/(a3/a4)。步骤s122,通过or值排除初始特征集合中与目标业务功能不相关的特征,得到候选特征集合。在通过or值从客户的初始特征集合中进行特征初选时,可以根据or值剔除与目标业务功能之间的关联度不高的特征;也可以根据or值选取与目标业务功能之间的关联度较高的特征,进而排除初始特征集合中未选取的特征,在此不对根据or值进行特征初选的具体方式进行限定。例如,客户k1的初始特征集合中包含有特征c1、c2、c3、c4、c5,在通过or值对客户k1进行目标业务功能f1的判断时,计算特征c1、c2、c3、c4、c5各自的or值分别为1.3、1.1、0.2、0.9、3,通过选取or值大于1的特征,即选取特征c1、c2、c5,排除特征c3、c4,也就是说,得到的候选特征集合包括特征c1、c2、c5。又例如,客户k1的初始特征集合中包含有特征c1、c2、c3、c4、c5,在通过or值对客户k1进行目标业务功能f1的判断时,计算特征c1、c2、c3、c4、c5各自的or值分别为1.3、1.1、0.2、0.9、3,通过剔除or值小于0.8的特征,即剔除特征c3,也就是说,得到的候选特征集合包括特征c1、c2、c4、c5。因此,在通过or值进行特征排除时,可以通过调节排除方式及进行特征排除的or阈值,实现对候选特征集合的调节,从而调节特征筛选的有效程度。利用如上所述的方法,预先通过大数据分析计算初始特征集合中各特征与目标业务功能之间的or值,进而采用or值进行特征排除,由于计算各特征的or值的计算量较小,相比对初始特征集合中数量巨大的特征一个一个地与业务功能之间进行关联判断,极大减小了与目标业务功能相关的有效特征的计算量,缩减了特征筛选的时间,有效提高了特征筛选效率。可选的,图4是根据图2对应实施例示出的特征筛选方法中步骤s130的细节描述,该特征筛选方法中,步骤s130可以包括以下步骤:步骤s131,从候选特征集合中选取至少两个互不相同的特征组合。特征组合是从候选特征集合中选取一个或多个特征所形成的集合不同的特征组合所包含的特征是不同的。步骤s132,计算各特征组合与目标业务功能之间的关联度。关联度是通过一定的算法计算特征组合与目标业务功能之间的关联程度。目标业务功能是对目标对象进行某一业务功能判断的业务功能。例如,将对目标对象o进行业务功能f1的判断时,则业务功能f1即为目标业务功能。特征组合与目标业务功能之间的关联程度越高,则其之间的关联度就越大,特征组合具备目标业务功能的可能性就越大。计算各特征组合与目标业务功能之间关联度的算法不作限定,可以是任何可以计算关联度的算法,但是不同特征组合与目标业务功能之间关联度的计算算法是统一的。可选的,可以采用使用apriori算法或fp-growth算法进行关联度的计算,也可以通过kmp(theknuth-morris-prattalgorithm,克努特-莫里斯-普拉特)文本匹配算法进行匹配运算,也可以通过bm(boyer-moore)算法进行匹配运算,还可以通过其他的匹配算法进行关联度的计算,在此不作限定。步骤s133,根据至少两个互不相同的特征组合及其对应关联度的比对,确定与目标业务功能相关的有效特征。由于不同的特征组合所包含的特征是不同的,因而通过至少两个互不相同的特征组合与目标业务功能之间的关联度比对及其各自所包含的特征,即可确定不同特征组合之间的区别特征是否为有效特征。例如,候选特征集合包括特征c1、c2、c3、c4、c5,候选特征集合与目标业务功能k1之间的候选关联度为90%,通过从候选特征集合中选取不同的特征组合,分别得到特征组合x1包括特征c2、c3、c4、c5,特征组合x2包括特征c1、c3、c4、c5,特征组合x3包括特征c1、c2、c4、c5,特征组合x4包括特征c1、c2、c3、c5,特征组合x5包括特征c1、c2、c3、c4,而特征组合x1、特征组合x2、特征组合x3、特征组合x4、特征组合x5与目标业务功能k1之间的关联度分别为30%、10%、95%、20%、85%,可以看出特征组合x1、特征组合x2、特征组合x3、特征组合x4、特征组合x5分别是从候选特征集合中分别剔除特征c1、c2、c3、c4、c5所得的的特征组合。由于相比候选特征集合与目标业务功能k1之间的关联度,特征组合x1、特征组合x2、特征组合x4与目标业务功能k1之间的关联度急剧减小,而特征组合x1、特征组合x2、特征组合x4分别是从候选特征集合中分别剔除特征c1、c2、c4所得的的特征组合,因此,特征c1、c2、c4与目标业务功能k1高度相关。从而通过将特征组合x1、特征组合x2、特征组合x3、特征组合x4、特征组合x5分别与候选特征集合进行关联度比对,则可确定特征c1、c2、c4为目标业务功能k1相关的有效特征。利用如上所述的方法,在根据关联度从候选特征集合中确定与目标业务功能相关的有效特征时,通过至少两个互不相同的特征组合的关联度对比及其各自所包含特征的不同,确定与目标业务功能相关的有效特征,从而保证了确定有效特征的准确性。可选的,图5是根据图2对应实施例示出的特征筛选方法中步骤s130的细节描述,该特征筛选方法中,步骤s130可以包括以下步骤:步骤s135,从候选特征集合中进行特征剔除得到第一特征组合。可以理解的是,客户的初始特征集合中,各特征与目标业务功能的相关程度存在一定的差异,有的特征与该业务功能关联度较高,而有的特征与该业务功能基本没有关联。而步骤110中,只是对根据目标业务功能在初始特征集合中进行特征排除,候选特征集合中仍存在与目标业务功能之间的关联度不大的部分特征。因此,为提高最终得到的有效特征的准确性,需从候选特征集合中进一步进行特征筛选。可以理解的是,当对一个特征组合进行特征剔除得到另一特征组合后,这两个特征组合与目标业务功能之间的关联度却并未改变,则可得知剔除的特征与目标业务功能之间基本无关联,即该剔除的特征不是目标业务功能的有效特征。本实施例中,通过特征剔除从候选特征集合中选取特征组合。第一特征组合是对候选特征集合进行特征剔除后得到的特征组合。步骤s136,通过候选特征集合、第一特征组合与业务功能之间的关联度比对,确定目标业务功能相关的核特征,得到核特征集合,并将核特征集合中的特征作为有效特征。核特征集合是与业务功能高度相关的核心特征的集合。进行特征剔除时,可以从候选特征集合中逐个地剔除特征,再根据特征剔除前后之间的关联度对比,确定与目标业务功能高度相关的核心特征。在一示例性实施例中,通过计算候选特征集合与目标业务功能之间的关联度,该关联度称之为候选关联度,再剔除候选特征集合中的任一特征,得到多个第一特征组合,进而分别计算剔除特征后的第一特征组合与目标业务功能之间的关联度,该关联度称之为第一关联度,最后比较第一关联度与候选关联度之间的大小,若第一关联度小于候选关联度,则表明第一特征组合相对候选特征集合剔除的特征与该业务功能的关联程度较高,因此将剔除的该特征作为核特征;若第一关联度大于或等于候选关联度,则表明剔除的特征与目标业务功能的关联程度较小。在另一示例性实施例中,通过计算候选特征集合与目标业务功能之间的关联度,该关联度称之为候选关联度,再剔除候选特征集合中的任一特征,得到多个第一特征组合,进而分别计算剔除特征后的第一特征组合与目标业务功能之间的关联度,该关联度称之为第一关联度,最后比较第一关联度与候选关联度之间的大小,若第一关联度小于候选关联度的一定比例,则表明第一特征组合相对候选特征集合剔除的特征与该业务功能的关联程度较高,因此将剔除的该特征作为核特征;若第一关联度大于或等于候选关联度的一定比例,则表明剔除的特征与目标业务功能的关联程度较小。例如,候选特征集合包括特征c1、c2、c3、c4、c5,候选特征集合与目标业务功能k1之间的候选关联度为90%,预设选择核特征的阈值是0.9,则要求剔除特征后的备选关联度必须小于0.9*90%=81%,才能将剔除的特征作为核特征。通过分别剔除特征c1、c2、c3、c4、c5,分别得到第一特征组合x1包括特征c2、c3、c4、c5,第一特征组合x2包括特征c1、c3、c4、c5,第一特征组合x3包括特征c1、c2、c4、c5,第一特征组合x4包括特征c1、c2、c3、c5,第一特征组合x5包括特征c1、c2、c3、c4,而第一特征组合x1、第一特征组合x2、第一特征组合x3、第一特征组合x4、第一特征组合x5与目标业务功能k1之间的关联度分别为30%、10%、95%、20%、85%,则得到的核特征为c1、c2、c4,即核特征集合包括特征c1、c2、c4。在一示例性实施例中,将核特征集合中的特征作为目标业务功能相关的有效特征。利用如上所述的方法,从候选特征集合中进行特征剔除得到第一特征组合,再通过候选特征集合、第一特征组合与业务功能之间的关联度比对,即可确定目标业务功能相关的核特征,得到核特征集合,并将核特征集合中的特征作为目标业务功能相关的有效特征,从而保证了确定有效特征的准确性。可选的,图6是根据图5对应实施例示出的另一种特征筛选方法,步骤s136之后,该特征筛选方法还可以包括以下步骤:步骤s137,向核特征集合中添加特征,得到第二特征组合。为避免由于计算失误而将部分与目标业务功能的关联程度较大的特征剔除,通过向核特征集合添加候选特征集合中的其他特征,以进一步进行特征的关联判断,从而进一步提高得到与目标业务功能相关的有效特征的准确性。向核特征集合中添加候选特征集合中的特征时,可以一次添加一个特征,也可以一次添加多个特征。可以理解的是,通过向核特征集合中添加候选特征集合中的特征,每次添加的特征是并不完全相同的。因此,每次添加特征后将得到一个第二特征集合。步骤s138,根据核特征集合、第二特征组合与业务功能之间的关联度确定备选有效特征,得到备选有效特征集合。在一示例性实施例中,通过计算核特征集合与目标业务功能之间的关联度,该关联度称之为核关联度,再向核特征集合中添加候选特征集合中的其他特征,得到多个第二特征组合,进而分别计算向核特征集合中添加特征后的第二特征组合与目标业务功能之间的关联度,该关联度称之为第二关联度,最后比较第二关联度与核关联度之间的大小,若第二关联度小于核关联度,则表明第二特征组合相对核特征集合添加的特征与目标业务功能之间的关联程度较高,因此将添加的该特征作为备选有效特征;若第二关联度大于或等于核关联度,则表明添加的特征与目标业务功能的关联程度较小。在另一示例性实施例中,通过计算核特征集合与目标业务功能之间的关联度,该关联度称之为核关联度,再向核特征集合中添加候选特征集合中的其他特征,得到多个第二特征组合,进而分别计算向核特征集合中添加特征后的第二特征组合与目标业务功能之间的关联度,该关联度称之为第二关联度,最后比较第二关联度与核关联度之间的大小,若第二关联度小于核关联度的一定比例,则表明第二特征组合相对核特征集合添加的特征与目标业务功能之间的关联程度较高,因此将添加的该特征作为备选有效特征;若第二关联度大于或等于核关联度的一定比例,则表明添加的特征与目标业务功能的关联程度较小。例如,核特征集合包括特征c1、c2、c4,核特征集合与目标业务功能k1之间的核关联度r0为90%,通过依次添加候选特征集合中的特征c3、c5,分别得到第二特征组合y1包括特征c1、c2、c3、c4,第二特征组合y2包括特征c1、c2、c4、c5,而第二特征组合y1、第二特征组合y2与目标业务功能k1之间的第二关联度r1、r2分别为90%、95%,第二关联度r2相比核关联度r0具有关联度的提升,因此,将第二特征组合y2中的特征作为有效特征,即得到有效特征为特征c1、c2、c4、c5。在另一示例性实施例中,在向核特征集合中添加候选特征集合中的特征时,每次添加一个特征。因此,得到备选特征集合相比核特征集合只有一个区别特征。通过预先判断是否存在第二特征组合,该第二特征组合与目标业务功能之间的关联度相比核关联度具有关联度提升。若不存在有这样的第二特征组合,则根据核特征集合确定业务功能的有效特征;若存在有这样的第二特征组合,则根据该第二特征组合,对核特征集合进行更新,即将该第二特征组合作为新核特征集合,进而重复执行步骤s127、步骤s128(即重新计算新核特征集合与目标业务功能之间的核关联度,并向新核特征集合中添加候选特征集合中的特征,得到新的第二特征组合,计算新的第二特征组合与目标业务功能之间的新第二关联度,再通过新第二关联度与新核关联度之间的比对,从第二特征组合和核特征集合中确定有效特征),直至更新后不存在有与目标业务功能之间的关联度相比新核关联度具有关联度提升的第二特征组合,并根据最终更新后的新核特征集合确定业务功能的有效特征。例如,在得到有效特征为特征c1、c2、c4、c5时,将该有效特征作为新的核特征,对核特征集合进行更新,即新核特征集合包括特征c1、c2、c4、c5,进而从候选特征集合中添加特征c3,得到新第二特征组合z1包括特征c1、c2、c3、c4、c5,计算新第二特征组合z1与目标业务功能k1之间的第二关联度s1为90%,而90%<95%,可知更新后,新第二特征组合关联度相比新核关联度并无关联度提升的,即新核特征集合中加入其他特征后无效果,则可确定最终的新核特征集合中的特征为有效特征,即最后一次更新前确定的有效特征(特征c1、c2、c4、c5)为最终的有效特征。步骤s139,将备选有效特征集合与核特征集合中的特征均确定为目标业务功能相关的有效特征。利用如上所述的方法,对候选特征集合中的特征与目标业务功能之间进行关联判断的过程中,在先从候选特征集合中进行特征剔除确定目标业务功能的核特征集合时,再通过向核特征集合中添加候选特征集合中的特征得到第二特征组合,并通过第二特征组合与目标业务功能之间的第二关联度,与核关联度之间的比对,从第二特征组合和核特征集合中确定有效特征,进一步提高了确定有效特征的准确性。如图7所示,在一个实施例中,提供了一种特征筛选装置,该特征筛选装置可以集成于上述的计算机设备100中,具体可以包括初始特征集合提取模块110、特征排除模块120以及有效特征确定模块130。初始特征集合提取模块110,用于提取目标对象的初始特征集合;特征排除模块120,用于从所述初始特征集合中排除与目标业务功能不相关的特征,得到候选特征集合;有效特征确定模块130,用于通过分别计算候选特征集合及候选特征集合中至少两个互不相同的特征组合与目标业务功能之间的关联度,并根据关联度从候选特征集合中确定与目标业务功能相关的有效特征。上述装置中各个模块的功能和作用的实现过程具体详见上述特征筛选方法中对应步骤的实现过程,在此不再赘述。可选的,如图8所示,图7对应实施例示出示出的特征筛选装置中,特征排除模块120包括但不限于:or值计算子模块121和特征排除子模块122。or值计算子模块121,用于通过大数据分析计算所述初始特征集合中各特征与所述目标业务功能之间的or值;特征排除子模块122,用于通过所述or值排除所述初始特征集合中与目标业务功能不相关的特征,得到候选特征集合。可选的,如图9所示,图7对应实施例示出示出的特征筛选装置中,有效特征确定模块130包括但不限于:特征组合选取子模块131、关联度计算子模块132和有效特征确定子模块133。特征组合选取子模块131,用于从所述候选特征集合中选取至少两个互不相同的特征组合;关联度计算子模块132,用于计算各特征组合与所述目标业务功能之间的关联度;有效特征确定子模块133,用于根据至少两个互不相同特征组合及其对应关联度的比对,确定与所述目标业务功能相关的有效特征。在一个实施例中,提出了一种计算机设备,执行上述任一所示的特征筛选方法的全部或者部分步骤。该计算机设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一个示例性实施例所示出的特征筛选方法。在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述特征筛选方法实施例中的步骤。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)等非易失性存储介质,或随机存储记忆体(randomaccessmemory,ram)等。以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1