一种基于组合归一的量化指标评价方法

文档序号:10687405阅读:1258来源:国知局
一种基于组合归一的量化指标评价方法
【专利摘要】本发明涉及一种基于组合归一的量化指标评价方法,具体公开了一种基于组合归一的量化指标评价方法。本发明包括:第一步为输入样本;第二步为预归一化;第三步为对数logistic归一化;第四步为输出归一化后样本。本发明能够克服单一归一化方法带来的缺陷,同时该方法可以按照指标分布自适应的确定对数转换模型。本发明提出的方法可广泛使用于在线商品的量化属性评估,可以根据商品属性特征和分布选择不同的对数logistic转换模型进行归一,本发明是量化商品评价指标的基础。
【专利说明】
一种基于组合归一的量化指标评价方法
技术领域
[0001]本发明涉及一种基于组合归一的量化指标评价方法,属于计算机应用技术领域。
【背景技术】
[0002]互联网商品的种类众多,例如电子商务网站的各种商品、在线阅读网站的书籍等,对于特定的网站的特定商品而言,一般都具备多个维度的不同量级的评价指标,如用户访问量、用户购买量、商品价格、平均用户评价等,这些指标是对商品不同维度的刻画,同时指标间的量级存在不同,访问量数据量级〉购买量〉评价量。由于各量化指标重要程度不同,量级也存在巨大的差异,因此在度量和量化商品时,需要将商品的各量化指标进行归一化。
[0003]数据归一化,或称数据标准化,是数据挖掘的一项基础工作,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。数据归一化方法众多,如极差归一化、Z标准化、对数标准化等等。
[0004]1.极差归一化表不如下:
[0005]新数据=(原数据-最小值)/(最大值-最小值);
[0006]2.Z标准化表示如下:
[0007]新数据=(原数据-均值)/标准差,其中均值、方差为原数据集合的均值和标准差;
[0008]3.对数标准化表示如下:
[0009]新数据=l/(l+h~(-原数据))。
[0010]以上归一化方法中,1、2属于线性变化,3属于非线性变化(logistic变化)。由于各指标数据分布不一,且数量级也不同,当归一化后的标准区间为[0,1]时,各种归一化方法中总是存在不同的缺陷:极差归一化方法对偏离的极大值极小值及其敏感;Z标准化无法将原数据归一化到同一个闭区间;对数标准化要求原数据的取值区间从负无穷到正无穷。

【发明内容】

[0011]为了克服上述的缺陷,本发明提出一种基于组合归一的量化指标评价方法。
[0012]本发明采取方案如下:
[0013]第一步:输入样本;
[0014]第二步:预归一化,
[0015]第三步:对数logistic归一化,对数logistic归一化满足条件为属性值排序列表第q百分位数的归一化后的值为value,表示为第q百分位数的norm = value;对数logistic归一化实现步骤包括,
[0016]①对属性属性fi预归一化后的值列表,设第q百分位数为vq,归一化后的值为value;
[0017]②设对数转换函数为norm(x)= I/(1+1Γ (_x)),且norm(vq) = value;可设value =
0.95或者value = 0.8,即假设第q百分位数归一化的值为0.95或者0.8;
[0018]③数值归一化,即利用②中的q和value计算出对数转换函数的参数h,并进行所有属性值的归一化;利用第三步中的对数logistic归一化公式,对各属性值进行归一化;设物品k输入的特征向量V’ = (V’lk,V’2k,......V’nk),归一化后输出为W= (Wlk,W2k,......Wnk);其中
η表示特征向量的长度;
[0019]第四步:输出归一化后样本。
[0020]所述第二步的预归一化包括,便利属性特征矩阵计算属性fi的均值和方差,i多I,Z-score标准化预归一化后,各属性值表现为减去均值,然后除以该属性的标准差;转换后物品k的特征向量为V=(Vlk,V2k,......Vnk),其中η特征向量长度。
[0021 ]所述第四步输出归一化后样本的过程为;对特征向量V’ = (V’lk,V’2k,......V’nk)中的每个值运用上述所求的归一化函数进行归一,输出为W= (wik,w2k,......,Wnk);即Wik=norm
(V,ik) O
[0022]第三步的③中涉及到的参数h的计算方法如下,
[0023]根据②中的对数归一化函数,由于norm(第q百分位数)=norm(vq)=/(1+h' (-vq)) =value,得h= (value/(1-value))'(1/vq);
[0024]第三步的③中归一化的方法如下,
[0025]对数归一化函数为:norm(x)= I/(1+h' (-χ)),其中h= (value/(1-value)) ~ (I/vq) o
[0026]本发明的有益效果:
[0027]本发明提出了一种基于组合归一的量化指标评价方法,该方法能够克服单一归一化方法带来的种种缺陷,同时该方法可以按照指标分布自适应的确定对数转换模型,对于条件第q百分位数归一化的值为value,可以设定q和value的不同值来确定转换模型。本发明提出的方法可广泛使用于在线商品的量化属性评估,可以根据商品属性特征和分布选择不同的对数I og i s t i c转换模型进行归一,是量化商品评价指标的基础。
【附图说明】
[0028]图1示例性地示出了本发明的流程示意图。
【具体实施方式】
[0029]下面结合附图对本发明做进一步说明,
[0030]假设:物品的个数为n,量化指标数目为m,物品存在量化指标fl,f2,……fm,这些量化指标可以为点击量、购买量、评论量等数值型变量,即存在η个数值类型的属性特征;物品k的量化特征向量为V = ( Vlk,V2k,......Vnk),其中Vik表示物品k在属性i的值。
[0031]如图1所示:本发明包括如下步骤:
[0032]本发明包括如下步骤:
[0033]第一步:输入样本;
[0034]第二步:预归一化;
[0035]第三步:对数logistic归一化;
[0036]第四步:输出归一化后样本。
[0037]所述第一步后的样本k的初始特征向量为:V= (vik,v2k,......Vnk),其中η特征向量长度;
[0038]所述第二步的预归一化包括,便利属性特征矩阵计算属性^的均值和方差,i多I,Z-score标准化预归一化后,各属性值表现为减去均值,然后除以该属性的标准差;转换后物品k的特征向量为V’ =(V,lk,V,2k,......V’nk);
[0039]所述第三步的对数logistic归一化满足条件为属性值排序列表第q百分位数的归一化后的值为value,表示为第q百分位数归一化后的值为value;
[0040 ] 对数logistic归一化实现步骤包括,
[0041]①对属性属性fi预归一化后的值列表,设第q百分位数为vq,归一化后的值为value;
[0042]②设对数转换函数为norm(x)= I/(1+h' (-χ)),且norm(vq) =value;可设value =
0.95或者value = 0.8,即假设第q百分位数归一化的值为0.95或者0.8 ;
[0043]③数值归一化,即利用②中的q和value计算出对数转换函数的参数h,并进行所有属性值的归一化。
[0044]利用第三步中的对数logistic归一化公式,对各属性值进行归一化;设物品k输入的特征向量V’ = (V’lk,V’2k,......v’nk),归一化后输出为W= (Wlk,W2k,......Wnk);其中η表示特征向量的长度。
[0045]③中参数h的计算方法如下,
[0046]根据②中的对数归一化函数,由于norm(第q百分位数)=norm(vq)=/(1+h' (-vq)) =value,得h= (value/(1-value))'(1/vq);
[0047]③中归一化的方法如下,
[0048]对数归一化函数为:norm(x)= I/(1+h' (-χ)),其中h= (value/(1-value)) ~ (I/vq) o
[0049]所述第四步输出归一化后样本的过程为:对特征向量V’ = (V ’ Ik,V ’ 2k,......V ’ nk)中的每个值运用上述所求的归一化函数进行归一,输出为W= (wik,w2k,......,Wnk);即Wik=norm
(V’ ik)。上述所求的对数归一化转换函数为sigmoid函数,sigmoid函数可以确保输出属于(O,I)区间,同时norm(0) = 0.5,由于本发明已经对原始输入进行了预归一化,当特征值输入小于均值,即输入特征值减去均值小于零,输出小于0.5;当特征值输入大于平均值,即输入特征值减去均值大于零,其值大于0.5。
[0050]本发明能够克服单一归一化方法带来的种种缺陷,同时该方法可以按照指标分布自适应的确定对数转换模型,对于条件第q百分位数vq,norm(vq) =¥81116,可以设定9和value的不同值来确定转换模型。本发明提出的方法可广泛使用于在线商品的量化属性评估,可以根据商品属性特征和分布选择不同的对数logistic转换模型进行归一,是量化商品评价指标的基础。
[0051]对于本领域的普通技术人员而言,上述实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。
【主权项】
1.一种基于组合归一的量化指标评价方法,其特征在于:包括如下步骤; 第一步:输入样本; 第二步:预归一化, 第三步:对数logist ic归一化,对数logistic归一化满足条件为属性值排序列表第q百分位数的归一化后的值为value,表示为第q百分位数的norm=value;对数logistic归一化实现步骤包括, ①对属性属性fi预归一化后的值列表,设第q百分位数为vq,归一化后的值为value; ②设对数转换函数为norm(x)= 1/(l+h'(-x)),且norm(vq) = value;可设value = 0.95或者value = 0.8,即假设第q百分位数归一化的值为0.95或者0.8; ③数值归一化,即利用②中的q和value计算出对数转换函数的参数h,并进行所有属性值的归一化;利用第三步中的对数I ο g i s t i c归一化公式,对各属性值进行归一化;设物品k输入的特征向量V’ =(V’lk,V’2k,......V’nk),归一化后输出为W= (Wlk,W2k,......Wnk);其中11表示特征向量的长度; 第四步:输出归一化后样本。2.根据权利要求1所述的基于组合归一的量化指标评价方法,其特征在于:所述第二步的预归一化包括,便利属性特征矩阵计算属性f i的均值和方差,i ^ I,z-score标准化预归一化后,各属性值表现为减去均值,然后除以该属性的标准差;转换后物品k的特征向量为V= (Vlk,V2k,......Vnk),其中η特征向量长度。3.根据权利要求1所述的基于组合归一的量化指标评价方法,其特征在于:所述第四步输出归一化后样本的过程为—特征向量^=^^^……v’nk)中的每个值运用上述所求的归一化函数进行归一,输出为W= (Wlk,W2k,......,Wnk) ; _Pwik = norm(V’ik) O4.根据权利要求1所述的基于组合归一的量化指标评价方法,其特征在于:第三步的③中涉及到的参数h的计算方法如下, 根据②中的对数归一化函数,由于norm(第q百分位数)=norm(vq) = / (I +h ~ (-vq))=value,得h= (value/(l_value))~(l/vq); 第三步的③中归一化的方法如下, 对数归一化函数为:norm(x) = I/(1+h' (-χ)),其中h = (value/(1-value))~ (1/vq) ο
【文档编号】G06F19/00GK106055911SQ201610420573
【公开日】2016年10月26日
【申请日】2016年6月13日
【发明人】文辉
【申请人】达而观信息科技(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1