一种基于产品销售数据的客户偏好信息量化与挖掘的方法

文档序号：26142129发布日期：2021-08-03 14:26阅读：84来源：国知局

本发明涉及大数据分析
技术领域：
，尤其涉及一种基于产品销售数据的客户偏好信息量化与挖掘的方法。
背景技术：
：产品指标用以描述产品的相关信息，客户对产品的合理需求可以通过产品指标的取值所表达，而客户对产品的偏好包含在其对产品的选择上。因此客户对产品做出的购买选择，实际上可以看作是对产品指标取值的选择，这种选择便包含其对该产品指标的偏好信息。客户对产品认知有限，对产品的了解程度不足，对产品需求无法准确完整的表达，同时客户对自身偏好也可能存在模糊、不确定的情况，在认知与心理因素的推动下直接准确的获取客户偏好较为困难，但客户有意识或无意识的偏好都会影响客户所做出的产品购买决策。因此，可以将产品的购买与否看作是客户根据其自身偏好所做出的最终选择，产品市场中的销量数据则代表了市场中客户做出的偏好选择，随着现如今不断增长的商品成交量和客户需求的变化，产品市场所产生的销量数据所反映的市场偏好规律更加客观全面。获取并了解其中所包含的偏好信息，为设计者提出较为贴合市场偏好特点的设计规律直接导致新产品能否被市场所接受，并获得较高的市场份额。鉴于其重要性，这也应成为产品开发阶段的评价标准。因此需要开发一种基于产品销售数据的客户偏好信息量化与挖掘的方法。技术实现要素：本发明实施例所要解决的技术问题在于，提供一种基于产品销售数据的客户偏好信息量化与挖掘的方法。可通过产品市场销量数据客观分析出客户偏好信息，并尝试根据这部分信息探索满足物理约束的潜在设计，划分出不同的产品市场，针对每个产品市场提出产品设计决策。。为了解决上述技术问题，本发明实施例提供了一种基于产品销售数据的客户偏好信息量化与挖掘的方法，本发明包括以下步骤：s1：销量数据搜集及处理与产品指标数据定义，具体操作如下：利用网络爬虫技术采集电子商务网站的产品指标数据与其对应的销量数据。对采集到的原始数据进行整理，处理原数据中存在的重复、空缺、超定义等情况。不同的指标具有不同值v，指标值的类型分为连续型、离散型、布尔型。假设指标值均可以被离散化，则可以将产品指标组合s看作是n维离散的数据空间，则任意一款产品都可以表示为指标空间中的一个点。在该空间中点与点之间是不连续的，且不同的离散化也会导致点位置的改变，且部分指标值可以有远近之分。连续型指标进行离散划分后是值存在相邻关系，如产品的长度指标按0cm－1cm划分为“短”、2cm－3cm划分为“中”、4cm－5cm划分为“长”则指标值“短”和指标值“中”便属于在相邻值。指出这种相邻关系的意义在于部分相邻取值的指标其在产品设计可能存在共性。本文将这部分指标值称为其彼此存在“距离”。而离散型与布尔型的指标值不存在距离之分，如可拆卸指标仅有“是”与“否”的取值或者如材料指标是钢材、铝材、合金等值，这些类型的指标值彼此没有物理或数学上的关联，故在本文中认为其“不存在距离”或设定为“较远的距离”。不存在距离的指标亦然属于指标空间，但在下文计算指标组合距离中不参与计算。最后本文假定所有的点在指标空间中为均匀分布，即在存在距离指标上相邻点之间的距离相同。如将长度指标值划分为10个等级，同时重量指标值也有10个等级。在本文中规定相同等级差之间的点距离一致。自此本方法便通过构造产品的指标以向量的形式描述一个产品，假设某种产品存在n个可能的指标，其形式如下：s＝[s1,s2,…,sn]向量s的每一项表示一个产品指标，如si代表产品第i指标。个一个产品可以转换为n维向量空间中的一个向量。话句话说，就是使用n个指标描述一个产品。根据收集的所有产品数据，包括描述每个产品的指标数据和对应的月销量n。建立一个n维空间的产品信息库，其形式如下：其中l表示收集的产品个数。根据上文对指标s的定义，sl，n代表第l个产品的第n个指标。s2：拟合产品指标与产品销售的关系模型，使用回归算法，如人工神经网络拟合等将所收集的产品数据中的指标数据作为输入，对应的销量作为输出，训练拟合出两者的关系模型。s3：定义产品指标层面的客户偏好信息。通过指标取值之间的排列组合得到所有可能的取值组合，通过设置指标相关约束，排除物理上不可行的产品指标取值组合，得到组合包括出现在市场上的组合和未出现在市场上的组合。经过约束筛选后，使用拟合出的关系模型预测出未出现的组合的销量值，再计算出各个指标取值对应的概率，其形式如下：。p(vi,x)＝n(vi,x)/nt×100％式中nt为总销量，n(vi,x)是所有在第i个指标上取第x个取值的产品vi,x的数量，p(vi,x)为指标取值vi,x出现的概率。客户对一个产品的选择，即对一个产品指标组合v1,i,v2,i,…,vn,i的选择。其概率p(v1,i,v2,i,…,vn,i)可以表示为：p(v1,x,v2,y,…,vn,z)＝(v1,x,v2,y,…,vn,z)/nt×100％式中的n(v1,x,v2,y,…,vn,z)代表所有满足指标组合v1,x,v2,y,…,vn,z的产品数量。客户对产品做出的购买选择，实际上可以看作是对产品指标取值的选择，这种选择便包含其对该产品指标的偏好信息。本文将一个客户的需求选择看成是整个指标需求空间中的微观状态，而客户群体所做出的选择则表现为该群体的宏观偏好，因此指标空间的信息熵则可以定量的表示对该空间中客户偏好状态的了解程度。将计算出的概率p(vi,x)代入信息熵公式，可以计算出单个指标的信息量和取值组合的信息量，其形式如下：式中代表指标si其第k个取值vik被选择的概率，m表示指标si的取值个数。一个指标的信息量无法完整体现客户产品偏好，客户对指标组合的信息量才能反映对其产品偏好的了解程度。描述产品的组合指标si中的每个指标的取值个数表示为mi，获取对产品需求的信息量可以表示为式中v1,x,v2,y,…,vn,z代表在所有产品指标s1,s2,…,sn中第r个、第s个和第t个产品指标的取值，m1,m2和mn分别代表产品指标s1,s2,…,sn对应的取值个数。p(v1,x,v2,y,…,vn,z)则表示为v1,x,v2,y,…,vn,z出现的概率。s1,s2,…,sn中的取值组合v1,x,v2,y,…,vn,z被客户选择时会产生的信息量，该信息量为自信息可以单独记为s4：基于偏好概率的密度聚类并针对不同结果提出不同设计决策，具体操作如下：对客户偏好聚类的本质是进行市场划分，即将相似的设计且客户偏好程度相近的产品划分为同一类别。相似的产品设计在本文中定义为产品指标取相近，即存在“距离”的指标值距离之差小于范围阈值d，则其在指标层面便定义为相似的设计。客户偏好程度通过信息量差或偏好概率表示，在比较相近的设计之间的信息量差值或偏好概率差值，差值小于阈值r则定义为偏好相近。范围阈值d对应密度聚类中邻域的范围，信息阈值r则对应为密度，d与r的设定根据不同产品及市场情况进行考虑。聚类步骤一：自信息量阈值设定在本文中密度聚类的阈值对应为产品自信息量的大小，划定偏好概率大于阈值k，即指标组合的自信息量低于一定阈值－logk时就将其物理空间上邻近的产品指标组合聚为一类。该聚类阈值的确定便代表了对客户偏好的实现程度。聚类步骤二：确定聚类邻域设定范围阈值可以在产品指标空间中确定相似的产品设计，产品指标值组合在物理空间中的远近由不同指标属性共同决定。根据上文指标空间中值的离散化规定：对于取值离散型的指标如颜色、材料等在该指标维度都定义为不存在“距离”。对于存在量级划分的产品指标如重量、续航、载重等定义为存在“距离”则可以由设计者设定m个量级以内为该指标维度空间中相近，反之则在该维度上是远离。同时由于上文规定所有的点在指标空间中为均匀分布，即在存在距离指标上相邻点之间的距离相同。故范围阈值d使用曼哈顿距离计算公式可以表示为所有存在“距离”指标值轴距总和，假设存在k个有“距离”度量的指标，假设指标空间中任意两个点对于不存在“距离”的指标取相同值时，两点之间的距离可以表示为d，如下式所示式中va,i代表第一个点在指标空间中第i个指标的第a个取值，vb,i代表第二个点在第i个指标的第b个取值，a和b可以相等。聚类结果可以根据出现簇的个数以及簇中出现指标值个数划分为四种偏好情况。第一种现象是该产品市场仅存在一个偏好簇且该簇内仅有一个(不超过三个)指标值组合满足信息阈值。第二种现象是聚类结果出现多个(大于两个)的不同偏好簇，且偏好簇内仅有一个指标值组合满足信息阈值。第三种现象是聚类后市场偏好表现为一个偏好簇，但在该簇内存在超过三个不同的指标值组合，但这几个指标值组合彼此相似。第四种现象是聚类后出现多个偏好簇，且存在偏好簇中出现超过三个指标值组合。如表1所示表1聚类结果划分单一cluster多个cluster每个cluster仅单一组合a现象b现象存在cluster多个组合c现象d现象本方法根据信息熵的性质，假设在偏好系统相同的情况下，因为现象a比现象c的概率分布根更加集中，因此可以得到现象a中的子系统的宏观信息量小于现象c中的子系统。同理，假设在细分市场个数相同的情况下，现象b中的子系统信息量小于现象d中的。基于上文信息量与设计决策的关系，可以针对不同的偏好情况选择不同设计决策。(1)对于聚类后出a现象的偏好系统。即仅存在一组自信息量最低的指标值组合。根据信息最小化公理，该指标值组合为最优的设计。则设计者可以将其作为满足该系统偏好为通用设计。(2)对于聚类后出c现象的偏好系统。对于c现象而言，虽然其与a现象一样仅划分为一类偏好簇。但在同等条件下对比可知，c现象的信息量应明显大于a现象，客户偏好在部分指标上较为模糊、不确定。因此，在以信息量最小化为原则提出最佳设计后，应考虑提升产品的适应性。(3)对于聚类后出b现象和d现象的偏好系统。由于b现象与d现象的出现是由存在细分市场的现象，即该产品市场存在不同划分，市场上存在不同需求群体导致了这种划分。通过信息最小原则定位各细分市场中最佳的产品设计，随后设计者可以采取产品族的设计策略，通过确定平台模块和个性化模块的方式满足多个细分市场偏好。综上所述，依据信息公理选择取值组合作为设计建议，根据对不同偏好情况的信息熵分析设定不同设计策略，从而满足该市场的产品偏好特点。实施本发明实施例，具有如下有益效果：通过对电子商务网站上的产品指标数据和产品销量数据采集及处理，使用产品销量概率代表产品在市场中的表现，建立数据集利用回归算法构建产品指标和销量概率的关系模型，通过该关系模型在满足物理约束的前提下挖掘潜在产品指标组合设计，预测其对应销量概率。再根据信息熵公式量化产品指标空间中所有的客户偏好信息，使用密度聚类的方法附图说明图1是本发明方法的整体流程示意图；图2是产品指标组合与偏好概率的图示；图3是产品指标组合与自信息量的图示。具体实施方式为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。参照图1所示的流程示意图。本发明实施例的一种基于产品销售数据的客户偏好信息量化与挖掘的方法，以电动自行车为应用对象说明，具体包括以下步骤。第一步，产品规格和产品销售数据采集，使用的数据来源于中国电子商务网站(淘宝)上公开的数据，使用关键词“电动自行车”获取符合搜索条件的产品列表，获取目标产品页面的销售信息和产品信息。样本数据如表1所示。表1：产品原始数据原始数据可能存在数据丢失、描述模糊、数据误导等问题。在数据科学领域，利用数据清洗技术对原始数据进行处理。对于缺失项太多的数据，进行舍弃，删除重复定义的数据。将数据进行数值化处理产品规格的数值类型进行划分并做对应处理，对于连续数值(如尺寸)则取其本身数值；对于布尔类型(如组件的存在/不存在)，则其值定义为0和1；对于可选特征，值定义为0/1/2。由于电动自行车产品指标取值类型存在不同，需要将连续性数据进行等距离散化，如售价和续航等。以便于使用信息熵公式量化客户的偏好信息。在本案例中将售价划分为11个区间，将续航划分为5个区间，将刹车方式划分为11种，最大时速划分为4种。经过处理后的样本数据可以转为如下表：表2：电动自行车的产品指标及其取值离散化得到的产品信息以矩阵形式表示，由原始数据为132款产品，以12个指标作为演示，故原始数据集大小为132×12。第二步，建立产品销售与产品指标值组合之间的关系。为了得到这些组合相应的销售量预测，本方法构建了集合数据集中特征组合与销售量的表达式模型。首先，构造每组数据的销售数量。然后使用的是神经网络技术建立回归模型，训练产品指标组合与对应的市场偏好数据之间的模型，本案例的具体做法是通过数学建模软件matlab中的annfit神经网络模型来构建模型。将筛选后的12个指标作为模型的输入，每组取值组合对应的市场销量作为模型的输出。该模型采用30个隐层，激活函数采用贝叶斯模型。在原始数据中随机选择百分之七十设置为训练数据集，在剩余中随机百分之十五为验证数据集，最后剩下的为测试数据集。重复训练直至训练出较优的结果，重复10次中最优的模型误差，在第5步时得到最优的训练结果，最小误差为2.8898。训练数据的相关度为0.34、测试数据的相关度为0.29、验证数据集的相关度为0.59。第三步，量化销量数据中客户偏好信息，具体操作需要先设定产品设计的物理约束，约束：{约束1[价格取值为“0：≥894.719－1327.1”时，续航不能超过45km]约束2[当出现机身重量为“4：≥50kg”时能否横向折叠不能为“1：折叠式”]约束3[当出现机身重量为“0：≥5kg－10kg”时，核载人数不能超过1人]}将满足约束产品指标值代入第二步中训练出的关系模型中，并求出每组的销量概率，部分结果如图2所示。获得销量概率后，通过信息公式可以得到所有指标取值组合的自信息，部分结果如图3所示。第三步，基于偏好概率的密度聚类并针对不同结果提出不同设计决策。根据信息量进行聚类本质上是在相近的产品设计基础上对满足客户偏好程度相近的产品聚为一类本文设定组合指标值之间是否相似取决于不同指标的类型和组合对应市场偏好程度。借鉴密度聚类算法，将满足偏好阈值且在同一相似范围的产品指标组合聚为同一类别。其中需要设定的参数有信息聚类的阈值和划定聚类的相似范围，相似范围的作用在于限定区分产品指标取值组合在何种情况下可以算作相似。设定聚类的阈值：指标取值组合的偏好概率大于阈值0.25。设定聚类中的邻域范围：1、对于非连续型取值的指标，如电池种类、能否横向折叠等。难以量化其距离，故本文设定其离散化后的值之间需完全相同才能该两取值组合认定相似。该条件为判定是否相似的前提条件2、对于连续型取值的指标，如产品续航、机身重量等。其离散化后的值之间差的绝对值为1，则为在该指标方向上相似。3、指标取值之间的差值累计不大于3进行聚类划分，结果如下表所示表3：聚类结果通过上节的聚类分析后，本案例所收集的电动自行车产品数据的聚类结果出现“多个偏好簇且每个偏好簇中有多个指标取值组合”这一偏好现象。在本案例聚类参数的设定下，出现三个偏好市场，根据上文的信息熵公式可以知，三个偏好簇的信息熵小于整体市场信息熵根据信息最小化原则，本方法对该案例提出设计建议是在每个簇中选择信息量最小指标组合作为每个细分市场的设计。以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张健;林培煌
技术所有人：汕头大学
我是此专利的发明人

上一篇：一种具有杀菌防污结构的洗衣机及其杀菌防污方法与流程
上一篇：衣物处理设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。