用于精准营销的方法、装置及电子设备与流程

文档序号:16252397发布日期:2018-12-12 00:09阅读:128来源:国知局
用于精准营销的方法、装置及电子设备与流程
本申请涉及计算机应用
技术领域
,具体而言,涉及用于精准营销的方法、装置及电子设备。
背景技术
随着互联网技术的快速发展,营销广告也从传统时代逐步进化到了互联网时代,广告搜索与展示模式从内容与创意层面到技术层面进行了深度更迭。在大数据应用场景下,互联网广告投放已经进入精准化时代,广告的精准投放对广告主、服务平台与潜在用户而言,在提升效率与商业效益方面,有了更迫切的需求。广告精准投放经常需要考虑用户、时间、渠道等多种场景组合,对于数据层面来说,就是多种属性的组合,属性越多组合的方式越多,怎么在这些组合中找到效果最优的组合成为一项基础和重要的任务。目前精准投放有两大类方法,一种采取多轮实验的方式,先普投,统计用户行为在各个属性或属性组合上的分布差异,然后再根据数据差异进行精准投放看反馈,再有针对的调整,形成多轮闭环;另一种采取统计方法,比如线性或非线性判别分析。上述相关技术基于简单数据统计信息,通过多轮投放的方式,一方面多轮投放持续时间较长,会损失较大的营销机会和市场机会,同时整个营销计划需要较高的成本,另一方面简单统计会损失很多细粒度的信息,造成精准度的提升空间较小。对于传统统计方法,过分依赖某些苛刻的统计假设,在实际的复杂场景中,很难找到形式简单、合适的模型,在应用精度等方面存在很大问题。另外这些分类大多数没有考虑到决策类别的优劣次序,比如分类的“优中差”、营销效果投资回报率roi分级产生的实际效果和成本差异是很大的,简单统计方法有时候很难区分出次序。技术实现要素:本申请公开用于精准营销的方法,以能够将数据到决策的输出自动化快速呈现,能够提高营销的精度和效率。本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。根据本发明的第一方面,提供一种用于精准营销的方法,包括:对营销的目标客户的标识信息和属性数据进行聚合计算得到属性宽表,其中所述属性宽表包括决策属性和多个条件属性;基于粗糙集方法根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到至少一个条件属性子集;根据所述至少一个条件属性子集生成至少一个规则得到规则集合;根据所述规则集合中的规则确定营销方案。其中,粗糙集是一种刻画不完整性和不确定性的数学工具,能有效地分析不精确,不一致、不完整等各种不完备的信息。从一系列已有数据中寻找其规律或规则,预测问题的方向是粗糙集理论的基本思想。粗糙集理论是建立在分类机制的基础上的,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来刻画或近似地刻画。根据一些实施例,所述目标客户的标识信息包括所述目标客户的pin、移动设备编号、uuid、和cookies。根据一些实施例,若所述属性宽表中所述多个条件属性字段有空值,则在得到属性宽表之后,以及在进行属性约简之前,对所述属性宽表中所述多个条件属性字段的空值进行处理。根据一些实施例,对所述属性宽表中所述多个条件属性字段的空值进行处理包括:将所述属性宽表中所述多个条件属性字段的空值用对应属性字段的均值或众数填充。根据一些实施例,所述方法还包括:在对所述属性宽表中所述多个条件属性字段的空值进行处理之后,以及在进行属性约简之前,对所述属性宽表中所述多个条件属性的属性值进行离散化处理。根据一些实施例,所述进行离散化处理包括进行等距离散处理、进行等频离散处理、进行自然离散处理、或进行卡方离散处理。根据一些实施例,基于粗糙集方法根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到规则集合包括:基于粗糙集的互信息根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到规则集合,或基于粗糙集的网格穷尽方法根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到规则集合。其中两个事件的互信息定义为:i(x;y)=h(x)+h(y)-h(x,y),也就是用来衡量两个信息的相关性大小的量。互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性,定义式如下:根据一些实施例,基于粗糙集方法根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简包括:计算所述属性宽表中决策属性d与所述决策属性d依赖的条件属性c的依赖度,采用以下公式计算:其中r(c,d)为决策属性d对条件属性c的依赖度;|pos(c,d)|为正域pos(c,d)中元素的个数;|x|为所述属性宽表中元素的个数;依次计算条件属性c中的属性xi的重要度,计算公式为:sgf(xi,c,d)=r(c,d)–r(c-{xi},d)其中r(c-{xi},d)为在条件属性c中缺少属性xi后,条件属性c与决策属性d的依赖程度;sgf(xi,c,d)为条件属性c中缺少属性xi后,导致不能正确分类的对象在系统中所占的比例;如果所述比例为零,则将属性xi约简。根据一些实施例,在根据所述规则集合中的规则确定营销方案之前还包括:对所述多个条件属性分别进行如下操作:对于一个条件属性,如果所述规则集合中有两个规则满足所述条件属性分别为0和1,且所述多个条件属性中除所述条件属性之外其他条件属性和决策属性均相同,则将所述条件属性从所述两个规则中删除。根据一些实施例,对所述多个条件属性进行属性约简还包括分别得到所述多个条件属性的属性权重;根据所述规则集合中的规则确定营销方案包括:根据所述规则集合中的规则以及所述多个条件属性的属性权重确定营销方案。根据一些实施例,根据所述规则集合中的规则确定营销方案包括:对所述属性宽表根据所述规则集合中规则分别得到对应的规则模型,基于粗糙集方法分别计算所述规则模型的精确度;根据所述精确度确定营销方案。根据本发明的第二方面,提供一种用于精准营销的装置,其包括:属性宽表模块,用于对营销的目标客户的标识信息和属性数据进行聚合计算得到属性宽表,其中所述属性宽表包括决策属性和多个条件属性;属性约简模块,用于基于粗糙集装置根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到至少一个条件属性子集;规则生成模块,用于根据所述至少一个条件属性子集生成至少一个规则得到规则集合;营销方案确定模块,用于根据所述规则集合中的规则确定营销方案。根据一些实施例,所述目标客户的标识信息包括所述目标客户的pin、移动设备编号、uuid、和cookies。根据一些实施例,所述装置还包括空值处理模块用于,用于若所述属性宽表中所述多个条件属性字段有空值,在得到属性宽表之后,以及在进行属性约简之前,对所述属性宽表中所述多个条件属性字段的空值进行处理。根据一些实施例,所述空值处理模块用于:将所述属性宽表中所述多个条件属性字段的空值用对应属性字段的均值或众数填充。根据一些实施例,所述装置还包括属性离散化模块,用于在对所述属性宽表中所述多个条件属性字段的空值进行处理之后,以及在进行属性约简之前,对所述属性宽表中所述多个条件属性的属性值进行离散化处理。根据一些实施例,所述属性离散化模块用于进行等距离散处理、进行等频离散处理、进行自然离散处理、或进行卡方离散处理。根据一些实施例,所述属性约简模块用于:基于粗糙集的互信息根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到规则集合,或基于粗糙集的网格穷尽装置根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到规则集合。根据一些实施例,所述属性约简模块用于:计算所述属性宽表中决策属性d与所述决策属性d依赖的条件属性c的依赖度,采用以下公式计算:其中r(c,d)为决策属性d对条件属性c的依赖度;|pos(c,d)|为正域pos(c,d)中元素的个数;|x|为所述属性宽表中元素的个数;依次计算条件属性c中的属性xi的重要度,计算公式为:sgf(xi,c,d)=r(c,d)–r(c-{xi},d)其中r(c-{xi},d)为在条件属性c中缺少属性xi后,条件属性c与决策属性d的依赖程度;sgf(xi,c,d)为条件属性c中缺少属性xi后,导致不能正确分类的对象在系统中所占的比例;如果所述比例为零,则将属性xi约简。根据一些实施例,所述装置还包括规则过滤模块,用于在根据所述规则集合中的规则确定营销方案之前,对所述多个条件属性分别进行如下操作:对于一个条件属性,如果所述规则集合中有两个规则满足所述条件属性分别为0和1,且所述多个条件属性中除所述条件属性之外其他条件属性和决策属性均相同,则将所述条件属性从所述两个规则中删除。根据一些实施例,所述属性约简模块还用于分别得到所述多个条件属性的属性权重;所述营销方案确定模块还用于根据所述规则集合中的规则以及所述多个条件属性的属性权重确定营销方案。根据一些实施例,所述营销方案确定模块用于:对所述属性宽表根据所述规则集合中规则分别得到对应的规则模型,基于粗糙集装置分别计算所述规则模型的精确度;根据所述精确度确定营销方案。根据本发明的第三方面,提供一种电子设备,包括:处理器;存储器,存储用于处理器控制如第一方面任一项所述操作的指令。根据本发明的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面任一项所述方法的步骤。本申请的实施例提供的技术方案可以包括以下有益效果:本申请的实施例提供的技术方案能够将数据到决策的输出自动化快速呈现,能够提高营销的精度和效率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。附图说明通过参照附图详细描述其示例实施例,本发明的上述和其它特征及优点将变得更加明显。图1示出了根据本发明一实施例的用于精准营销的方法;图2示出了根据本发明另一实施例的系统架构图;图3示出了根据本发明另一实施例的用于精准营销的方法;图4示出了根据本发明另一实施例的系统流程图;图5示出了根据本发明一实施例的用于精准营销的装置的框图;图6示出了根据本发明另一实施例的用于精准营销的装置的框图;图7示出了根据本发明一实施例的电子设备。具体实施方式现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。图1示出了根据本发明一实施例的用于精准营销的方法,本实施例可适用于基于目标客户的相关信息针对目标客户进行精准营销的情况,如图1所示,本实施例所述的用于精准营销的方法包括:在步骤s110中,对营销的目标客户的标识信息和属性数据进行聚合计算得到属性宽表,其中所述属性宽表包括决策属性和多个条件属性。其中,所述目标客户的标识信息包括所述目标客户的pin、移动设备编号、uuid、和cookies。在步骤s120中,基于粗糙集方法根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到至少一个条件属性子集。例如可基于粗糙集的互信息根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到至少一个条件属性子集。又如,还可基于粗糙集的网格穷尽方法根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到至少一个条件属性子集。例如,可采用如下方法:计算所述属性宽表中决策属性d与所述决策属性d依赖的条件属性c的依赖度,采用以下公式计算:其中r(c,d)为决策属性d对条件属性c的依赖度;|pos(c,d)|为正域pos(c,d)中元素的个数;|x|为所述属性宽表中元素的个数;依次计算条件属性c中的属性xi的重要度,计算公式为:sgf(xi,c,d)=r(c,d)–r(c-{xi},d)其中r(c-{xi},d)为在条件属性c中缺少属性xi后,条件属性c与决策属性d的依赖程度;sgf(xi,c,d)为条件属性c中缺少属性xi后,导致不能正确分类的对象在系统中所占的比例;如果所述比例为零,则将属性xi约简。在步骤s130中,根据所述至少一个条件属性子集生成至少一个规则得到规则集合。在步骤s140中,根据所述规则集合中的规则确定营销方案。例如,对所述属性宽表根据所述规则集合中规则分别得到对应的规则模型,基于粗糙集方法分别计算所述规则模型的精确度;根据所述精确度确定营销方案。需要说明的是,若所述属性宽表中所述多个条件属性字段有空值,则在得到属性宽表之后,以及在进行属性约简之前,还需要对所述属性宽表中所述多个条件属性字段的空值进行处理。例如,将所述属性宽表中所述多个条件属性字段的空值用对应属性字段的均值或众数填充。本领域普通技术人员需要明确的是,为了提高属性的信息表现,最终提高模型精度,一般来说,在对所述属性宽表中所述多个条件属性字段的空值进行处理之后,以及在进行属性约简之前,需要对上述属性宽表中对所述属性宽表中所述多个条件属性的属性值进行离散化处理,一方面能保证后续模型格式需要,另一方面可以改善属性在模型中的值域分布。具体地,进行离散化处理的具体方法本实施例对此不作限定,例如可进行等距离散处理、进行等频离散处理、进行自然离散处理、或进行卡方离散处理等。需要说明的是,在根据所述规则集合中的规则确定营销方案之前还可对所述规则集合中的规则进行过滤,例如对所述多个条件属性分别进行如下操作:对于一个条件属性,如果所述规则集合中有两个规则满足所述条件属性分别为0和1,且所述多个条件属性中除所述条件属性之外其他条件属性和决策属性均相同,则将所述条件属性从所述两个规则中删除。另外,对所述多个条件属性进行属性约简还可包括分别得到所述多个条件属性的属性权重;相应地,根据所述规则集合中的规则确定营销方案包括:根据所述规则集合中的规则以及所述多个条件属性的属性权重确定营销方案。本实施例通过对营销的目标客户的标识信息和属性数据进行聚合计算得到属性宽表,基于粗糙集方法根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到至少一个条件属性子集;根据所述至少一个条件属性子集生成至少一个规则得到规则集合;根据所述规则集合中的规则确定营销方案,能够将数据到决策的输出自动化快速呈现,能够提高营销的精度和效率。图2示出了根据本发明另一实施例的系统架构图,本实施例解决的问题为,基于粗糙集将误差和噪声作为模糊和不一致信息进行处理,解决了统计学严苛的分布假设以及带来的精度不足问题,建立一套从数据宽表到决策输出的自动化装置,将数据到决策的输出自动化快速呈现。其中,属性宽表,用于负责计算所需进行多属性决策的用户及属性数据进行宽表聚合处理。其中多属性决策是指在考虑多个属性的情况下,选择最优备选方案或进行方案排序的决策问题。多属性决策是多准则决策的重要组成部分,它与多目标决策一起构成了多准则决策体系,是运筹学与管理科学的重要分支。多属性决策着重研究关于离散的、有限个决策方案的决策问题。空值处理,用于负责从将上述步骤得到的宽表中的空值进行处理,以保证后续模型应用需要。属性离散化,用于主要对上述属性宽表中各个属性进行必要的离散化处理,一方面保证后续模型格式需要,另一方面可以改善属性在模型中的值域分布,提高属性的信息表现,最终提高模型精度。属性约简,用于在粗糙集的所有原始属性集合中搜索一个最小子集,这个子集与整个属性集的分类能力相当,以便在海量数据中,不损失精度的前提下快速实现后续规则生成。规则生成与过滤,用于根据上述属性约简操作后得到的属性集进行多属性决策的最优决策规则生成。模型评价与输出,用于根据决策目标对模型进行评价,在满足最优精度下对模型结果进行输出和应用。图3示出了根据本发明一实施例的用于精准营销的方法,图4示出了根据本发明另一实施例的系统流程图,本实施例可适用于基于目标客户的相关信息针对目标客户进行精准营销的情况,如图3所示,本实施例所述的用于精准营销的方法包括:在步骤s310中,进行聚合计算得到属性宽表。根据系统目标比如广告投放目的等建立相关数据集,以宽表的形式存放,本实施例所述的技术方案中,宽表形式主要由“唯一索引+属性字段”组成,每一个唯一索引为一行,多个属性字段以列形式存储,每增加一个属性,在相应的索引行上增加一列,可以逐步扩充,理论上宽表的宽度没有限制,格式举例如表一所示。表一在电商广告用户精准投放系统中,一般使用用户个人标识号(personalidentificationnumber,pin)、移动设备编号、通用唯一识别码(universallyuniqueidentifier,uuid)、或者cookies等不重复字段作为唯一索引,影响广告点击的其他重要因素作为属性值填充进宽表,比如用户性别、年龄、地域、收入、偏好、历史点击、以及历史购买等等,在本技术方案中,宽表长度可以任意扩充,可以由操作人员指定,扩展性和自由度很高。在步骤s320中,对所述属性宽表进行空值处理。对上述多属性宽表计算生成的宽表进行空值处理,本步骤所指的空值是表示属性的未知值,对于这些未知值的处理,本步骤可采取两种方式,具体如图4所示,基于属性值数据类型的不同进行划分:方式一、均值填充。此方式适用于数值型属性的空值,所谓数值型是指用来表示数量、可以进行数值运算的数据类型,比如:收入300元、年龄2岁、考试分数100分、重量3公斤等。此类数据的空值,用该属性的非空值的算术平均值来进行代替。方式二、众数填充。此方式适用于字符型属性的空值,所谓的字符型是指用来表示事物性质、规定事物类别的文字表述型数据,一般用来表示定性描述,不能用来进行数值运算,比如性别男,民族汉,地域北京等。此类数据的空值,用该属性的非空值的众数代替,即非空属性值中发生频率最高的值。在步骤s330中,对所述属性宽表进行属性离散处理。对属性值进行重新划分,改变属性值的粒度,以便有效减少信息表的大小,提高后续模型的准确性。例如可采取以下四种方法之一进行离散化实现,具体如图4所示:方式一、等距离散。是将每一属性的值域划分成距离相等的区间,适用于属性值分布均匀的情形。方式二、等频离散。将每个属性值域划分为区间,使得每个区间包含相同数量的对象。方式三、自然离散。根据需要离散化的某属性值将对象排序,按照对象的顺序,只要对象的决策值改变,就产生一个新的区间,该算法产生保持信息表一致性水平所需的所有分割点。具体实现方式如下:设条件属性a在决策表中的所有值集合为va,对a的属性值排序,得到如下序列:令ca表示属性a的所有自然分割点,定义如下:设,则或集合ca中的点是属于不同类的相邻属性值的中点。方式四、卡方离散。首先定义测度离散化的标准:在一个区间内相对类频率是相当一致的,但两个相邻的区间不应该具有相同的相对类频率。据此标准,利用卡方统计量来决定来自两个相邻区间的类的独立性,如果类是独立的,则将两个区间合并,否则不合并。在步骤s340中,进行属性约简。本步骤目的在于消除对决策目标来说冗余的属性,找到原始数据属性集合的一个最小子集,并且这个子集和整个属性集的分类能力是一样的。粗糙集用上近似集、下近似集这两个集合来逼近任意一个集合,该集合的边界区域被定义为上近似集与下近似集的差,边界区域就是那些无法归属的个体,上下两个近似集和可以通过等价关系给出确定的描述,边界域的元素数目可以被计算出来。本方案中定义粗糙集的等价关系为:在某一个属性之下,集合的取值相等,它是集合间的拓扑关系,不是构成集合的元素间的比较,用定义性的表述为:设a代表某种属性集合,a代表属性中的某一种取值,如果有两个样品xi和xj,如果满足以下关系:对于任何a属于集合a,如果他们的属性值相同,即fa(xi)=fa(xj)成立,则对象xi和xj是对属性a的等价关系。本方案中根据等价关系,定义粗糙集的上近似集和下近似集。还是以知识库x为例,集合x可划分为若干个等价集,与决策集y对应的近似集分为上近似集a-(y)和下近似集a-(y)。其中上近似集a-(y)是那些包含x的知识库中的集合求并得到的,下近似集a-(y)是在那些所有的包含于x的知识库中的集合中求交得到的。举例来说,可以选择“蓝色的大方块或者蓝色的小圆形”这个概念:{x5,x7}作为x的下近似,选择“三角形或者蓝色的”{x1,x2,x5,x7,x8}作为上近似。本方案采取两种方法来实现约简,分别对应数据量的大小进行自动选择:首先定义正域、负域和边界:全集x可以划分为3个不相交的区域,正域(posa)、负域(nega)、边界(bnda),其中:正域即下近似集posa(y)=a-(y)负域:nega(y)=x–a-(y)边界:bnda=a-(y)-a-(y)属性约简的过程为:计算决策属性d及其依赖的条件属性c的依赖度:其中,分子|pos(c,d)|表示正域pos(c,d)中元素的个数,|x|表示整个对象集合的个数。计算对于属性xi计算其重要度。sgf(xi,c,d)=r(c,d)–r(c-{xi},d)其中r(c-{xi},d)表示在c中缺少属性xi后,条件属性与决策属性的依赖程度,sgf(xi,c,d)表示c中缺少属性xi后,导致不能正确分类的对象在系统中所占的比例。如果比例sgf(xi,c,d)=0,则属性xi是可约简的,否则不可约简。本步骤可使用下述两种方法进行实现:方法一、网格穷尽。当数据量较小时,不用考虑较多的时间成本时,可以采取这种方法。所有属性组合进行全排列,然后用网格搜索的方法进行从头到尾的对组合全排列进行完全遍历,每次遍历都检查是否符合既定的约简条件,如果符合则停止,生成最终的规则集合。方法二、互信息约简。这是一种基于互信息的相对约简算法,利用条件熵定义属性的重要性,作为计算约简的启发式信息。先选取少数几个属性作为计算约简的出发点,在其余属性中按照属性的重要程度,从大到小逐个加入初始属性集,同时计算条件熵的互信息是否相等作为终止条件,如果不满足条件则继续添加,否则终止,从而最终得到一个最好的约简或者用户指定的最小属性子集。其中,熵是用来衡量一个系统混论程度的物理量,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。熵就用来衡量整个系统的总体信息量,其计算公式如下:其中p(x)是变量出现的概率。从直观上,信息熵越大,变量包含的信息量越大,变量的不确定性也越大。一个事物内部会存在随机性,也就是不确定性,而从外部消除这个不确定性唯一的办法是引入信息。如果没有信息,任何公式或者数字的游戏都无法排除不确定性,几乎所有的自然语言处理,信息与信号处理的应用都是一个消除不确定性的过程。条件熵:类似条件概率的概念,知道的信息越多,随机事件的不确定性就越小。定义式:例如,得到的属性宽表如表二所示。表二其中会员级别、最近活跃度可以按如下规则进行离散化:1、按会员级别,铁牌<铜牌<金牌<钻石;离散规则为:金牌以上为高级会员2、按浏览天数计算活跃程度:10天(不含)以下为正常,10-15天为高,15天(含)以上为很高。离散化结果如表三所示。表三用户性别是否高级会员最近活跃程度是否适合营销a1男是正常否a2男是高是a3男是很高是a4女是正常否a5女否高否a6女是很高是a7女否高是a8女是很高否其中,粗糙集的思想为:一种类别对应一个概念(类别可以用集合表示,概念可以用规则描述),知识由概念组成;如果某个知识含有不精确概念,则该知识不精确。粗糙集对不精确概念的描述方法是通过下近似和上近似概念来描述。上近似包含了所有使用知识r可确切分类到x的元素。下近似包含了所有那些可能属于x的元素的最小集合。规则约简过程如下:在决策表中设置a={a1,a2,a3,a4,a5,a6,a7,a8},其中c={性别,是否高级会员,最近活跃程度},d={是否适合营销}那么,就可以设置c1=性别,c2=是否高级会员,c3=最近活跃程度,所以:a/c1={{a1,a2,a3},{a4,a5,a6,a7,a8}}(性别分类)a/c2={{a1,a2,a3,a4,a6,a8},{a5,a7}}(是否高级会员分类)a/c3={{a1,a4},{a2,a5,a7},{a3,a6,a8}}(最近活跃程度分类)a/{c1,c2}={{a1,a2,a3},{a4,a6,a8},{a5,a7}}a/{c1,c3}={{a1},{a2},{a3},{a4},{a5,a7},{a6,a8}}a/{c2,c3}={{a1,a4},{a2},{a5,a7},{a3,a6,a8}}a/c={{a1},{a2},{a3},{a4},{a5,a7},{a6,a8}}a/d={{a1,a4,a5,a8},{a2,a3,a6,a7}}pos_c(d)={a1}u{a2}u{a3}u{a4}k=y_c(d)=pos_c(d)/u=4/8=0.5pos_(c-c1){d}={a1,a2,a4}!=pos_c(d)pos_(c-c2){d}={a1,a2,a4}=pos_c(d)pos_(c-c3){d}={a1,a2,a4}!=pos_c(d)pos_(c-{c1,c2}){d}={a1,a2,a4}!=pos_c(d)pos_(c-{c2,c3}){d}={a1,a2,a4}!=pos_c(d)所以c2为冗余属性,即可删除的属性,所以c的d约简为c-{c2}={c1,c3}在步骤s350中,规则生成与过滤。根据上一步进行约简后的数据,并且本步骤包括规则生成子步骤和规则过滤子步骤,其中规则生成子步骤是必选步骤,规则过滤子步骤是可选步骤。对于规则生成子步骤,首先进行等价集计算,用于生成规则:计算约简后的条件属性c的等价集e1~en和决策属性d的等价集y1、y2,对于某一条件属性ei,如果ei∩y1=ei则有规则des(ei)->des(y1);否则如果ei∩y2=ei则有规则des(ei)->des(y2);对每一条件等价集进行规则获取,保留有效规则。规则过滤子步骤,如果生成的有效规则不多,则规则过滤可以不执行,否则选用此步骤进行规则过滤,过滤方法为:对某一条件属性xi,如果有两条规则满足xi分别为0和1却除了xi外其他所有条件属性和决策属性都相同的条件,则该属性可以从这两条规则中舍去,从而实现规则化简。对所有属性进行规则化简和过滤,则可以得到最终规则集合。在步骤s360中,模型评价与输出。针对上述规则生成与过滤操作生成和过滤的规则进行评价,将通过评价的规则输出到其他应用系统,比如应用于线上广告投放等方面。其中模型评价通过精确度来衡量,例如,在本步骤所述的粗糙集中,精确度可定义为:其中|x|与|a-(y)-a-(y)|分别为集合x、上下近似集差的元素总数,可以看到,精确度可以反映集合x的知识完整度,精确度越高,表示最终约简的规则模型知识完整度越高,越能代表模型精度。本技术方案可通过提供一个交互接口,可以由专业人员或业务人员、运营人员等提供一个最低阈值进行限定,将大于此阈值之上的进行输出。本实施例所述的技术方案的输出包括两方面内容,一个是约简后的规则,另一个是通过决策表输出的属性权重。通过约简后的规则可以从海量规则或属性中归纳出比较重要的规则,而属性权重可以知道哪些属性比较重要。在电商广告投放中,可以识别影响精准投放的重要因素属性,可以通过属性及其权重确定几种广告投放方案的最终得分,按得分高低进行排序,输入到其他计算广告、搜索排序、推荐打分等系统中进行精准投放。本实施例所述的技术方案,基于粗糙集提出一种电商广告用户精准投放方法,由于粗糙集方法不需要对数据集的属性分布做任何形式的假设,利用属性约简技术得出的规则形式简单,并且真实反映数据的结构,在某种程度上,与人类的推理过程一致,从而避免了传统统计方法过于严苛的假设带来的对复杂实际情况的估计不足、精度不够的情况;另外提高了规则的透明、可解释与可应用性,同时也便于泛化外推,避免对噪声数据的过拟合。本实施例的技术方案基于粗糙集不局限于严苛假设的强适用性、高精度等特点,在复杂的电商广告实际场景中具有较强的实际应用价值,同时自动实现一整套多属性决策的计算,能极大地节省人效。图5示出了根据本发明一实施例的用于精准营销的装置的框图,如图5所示,本实施例所述的用于精准营销的装置包括属性宽表模块510、属性约简模块520、规则生成模块530、以及营销方案确定模块540。该属性宽表模块510被配置为,用于对营销的目标客户的标识信息和属性数据进行聚合计算得到属性宽表,其中所述属性宽表包括决策属性和多个条件属性;该属性约简模块520被配置为,基于粗糙集方法根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到至少一个条件属性子集;该规则生成模块530被配置为,用于根据所述至少一个条件属性子集生成至少一个规则得到规则集合;该营销方案确定模块540被配置为,用于根据所述规则集合中的规则确定营销方案。根据本发明的一些实施例,所述目标客户的标识信息包括所述目标客户的pin、移动设备编号、uuid、和cookies。根据本发明的一些实施例,所述属性约简模块520用于:基于粗糙集的互信息根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到规则集合,或基于粗糙集的网格穷尽装置根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到规则集合。根据本发明的一些实施例,所述属性约简模块520用于:计算所述属性宽表中决策属性d与所述决策属性d依赖的条件属性c的依赖度,采用以下公式计算:其中r(c,d)为决策属性d对条件属性c的依赖度;|pos(c,d)|为正域pos(c,d)中元素的个数;|x|为所述属性宽表中元素的个数;依次计算条件属性c中的属性xi的重要度,计算公式为:sgf(xi,c,d)=r(c,d)–r(c-{xi},d)其中r(c-{xi},d)为在条件属性c中缺少属性xi后,条件属性c与决策属性d的依赖程度;sgf(xi,c,d)为条件属性c中缺少属性xi后,导致不能正确分类的对象在系统中所占的比例;如果所述比例为零,则将属性xi约简。根据本发明的一些实施例,所述属性约简模块520还用于分别得到所述多个条件属性的属性权重;所述营销方案确定模块还用于根据所述规则集合中的规则以及所述多个条件属性的属性权重确定营销方案。根据本发明的一些实施例,所述营销方案确定模块540用于:对所述属性宽表根据所述规则集合中规则分别得到对应的规则模型,基于粗糙集装置分别计算所述规则模型的精确度;根据所述精确度确定营销方案。关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。本实施例提供的用于精准营销的装置可执行本发明方法实施例所提供的用于精准营销的方法,具备执行方法相应的功能模块和有益效果。图6示出了根据本发明一实施例的用于精准营销的装置的框图,如图5所示,本实施例所述的用于精准营销的装置包括属性宽表模块610、空值处理模块620、属性离散化模块630、属性约简模块640、规则生成模块650、规则过滤模块660、以及营销方案确定模块670。该属性宽表模块610被配置为,用于对营销的目标客户的标识信息和属性数据进行聚合计算得到属性宽表,其中所述属性宽表包括决策属性和多个条件属性;该空值处理模块620被配置为,用于若所述属性宽表中所述多个条件属性字段有空值,在得到属性宽表之后,以及在进行属性约简之前,对所述属性宽表中所述多个条件属性字段的空值进行处理。该属性离散化模块630被配置为,用于在对所述属性宽表中所述多个条件属性字段的空值进行处理之后,以及在进行属性约简之前,对所述属性宽表中所述多个条件属性的属性值进行离散化处理。该属性约简模块640被配置为,用于基于粗糙集装置根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到至少一个条件属性子集;该规则生成模块650被配置为,用于根据所述至少一个条件属性子集生成至少一个规则得到规则集合;该规则过滤模块660被配置为,用于在根据所述规则集合中的规则确定营销方案之前,对所述多个条件属性分别进行如下操作:对于一个条件属性,如果所述规则集合中有两个规则满足所述条件属性分别为0和1,且所述多个条件属性中除所述条件属性之外其他条件属性和决策属性均相同,则将所述条件属性从所述两个规则中删除。该营销方案确定模块670被配置为,用于根据所述规则集合中的规则确定营销方案。根据本发明的一些实施例,所述目标客户的标识信息包括所述目标客户的pin、移动设备编号、uuid、和cookies。根据本发明的一些实施例,所述空值处理模块620用于:将所述属性宽表中所述多个条件属性字段的空值用对应属性字段的均值或众数填充。根据本发明的一些实施例,所述属性离散化模块630用于进行等距离散处理、进行等频离散处理、进行自然离散处理、或进行卡方离散处理。根据本发明的一些实施例,所述属性约简模块640用于:基于粗糙集的互信息根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到规则集合,或基于粗糙集的网格穷尽装置根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到规则集合。根据本发明的一些实施例,所述属性约简模块640用于:计算所述属性宽表中决策属性d与所述决策属性d依赖的条件属性c的依赖度,采用以下公式计算:其中r(c,d)为决策属性d对条件属性c的依赖度;|pos(c,d)|为正域pos(c,d)中元素的个数;|x|为所述属性宽表中元素的个数;依次计算条件属性c中的属性xi的重要度,计算公式为:sgf(xi,c,d)=r(c,d)–r(c-{xi},d)其中r(c-{xi},d)为在条件属性c中缺少属性xi后,条件属性c与决策属性d的依赖程度;sgf(xi,c,d)为条件属性c中缺少属性xi后,导致不能正确分类的对象在系统中所占的比例;如果所述比例为零,则将属性xi约简。根据本发明的一些实施例,所述属性约简模块640还用于分别得到所述多个条件属性的属性权重;营销方案确定模块670还用于根据所述规则集合中的规则以及所述多个条件属性的属性权重确定营销方案。根据本发明的一些实施例,所述营销方案确定模块670用于:对所述属性宽表根据所述规则集合中规则分别得到对应的规则模型,基于粗糙集装置分别计算所述规则模型的精确度;根据所述精确度确定营销方案。关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。本实施例提供的用于精准营销的装置可执行本发明方法实施例所提供的用于精准营销的方法,具备执行方法相应的功能模块和有益效果。图7示出了根据本发明一实施例的电子设备,如图7所示,电子设备700可包括处理器710、存储器720、发射器730及接收器740。存储器720可存储用于处理器710控制操作处理的指令。存储器720可包括易失性或非易失性存储器,如静态随机存取存储器(sram)、电可擦除可编程只读存储器(eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、只读存储器(rom)等,本发明对此没有限制。处理器710可调用存储器720中存储的指令控制相关操作。根据一实施例,存储器720存储用于处理器710控制以下操作的指令:对营销的目标客户的标识信息和属性数据进行聚合计算得到属性宽表,其中所述属性宽表包括决策属性和多个条件属性;基于粗糙集方法根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到至少一个条件属性子集;根据所述至少一个条件属性子集生成至少一个规则得到规则集合;根据所述规则集合中的规则确定营销方案。易于理解,存储器720还可存储用于处理器710控制根据本发明实施例的其他操作的指令,这里不再赘述。处理器710还可控制发射器730和接收器740进行信号收发等。通过以上的详细描述,本领域的技术人员易于理解,根据本发明实施例的系统和方法具有以下优点中的一个或多个。根据一些实施例,本发明还提供一种非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由装置的处理器执行以完成上述方法。例如,非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。当存储介质中的指令由终端的处理器执行时,使得终端能够执行下述方法:对营销的目标客户的标识信息和属性数据进行聚合计算得到属性宽表,其中所述属性宽表包括决策属性和多个条件属性;基于粗糙集方法根据所述属性宽表中所述决策属性的值对所述多个条件属性进行属性约简得到至少一个条件属性子集;根据所述至少一个条件属性子集生成至少一个规则得到规则集合;根据所述规则集合中的规则确定营销方案。。本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的,因此不能用于限制本发明的保护范围。本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。以上具体地示出和描述了本发明的示例性实施例。应该理解,本发明不限于所公开的实施例,相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效布置。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1