特征属性的构建方法_2

文档序号:8905606阅读:来源:国知局
个所述候选特征属性的重要性分值。
[0化0] 较佳地,可W按照Ii=a.Wi+e?Zi,来确定每个所述候选特征属性i的重要性 分值li。
[0化1] 其中,Zi为候选特征属性i的语义重要性系数,Wi为候选特征属性i的效用重要 性系数。
[0化2] 所述a为预设的效用重要性权值,P为语义重要性权值。a和P的具体取值可 由本领域技术人员根据实际情况进行设置,只要满足a+0 = 1即可。
[0053] 步骤104、选择所述候选特征属性中重要性分值最大的前M个候选特征属性作为 所述数据对象的重要特征属性。
[0054] 本步骤,用于根据候选特征属性中重要性分值,来选择出重要特征属性,该些重要 特征属性的重要性分值均大于候选特征属性中非重要特征属性的分值。
[0055] 所述M为预设的重要特征属性的数量口限。具体可由本领域技术人员根据实际需 要设置合适取值,较佳地,M〉20。
[0化6] 步骤105、将不同重要特征属性的不同属性值进行组合,得到N组属性值组合,其 中,每组属性值组合包含M个属性值且各自所属的特征属性不同。
[0化7] 本步骤,用于将所有重要特征属性的各个属性值进行组合,每组属性值组合是由 分别从每个重要特征属性中取出的一个属性值组合得到的,该种组合数量为N,N等于每个 重要特征属性所包含的属性值个数的乘积。
[0化引步骤106、确定每组属性值组合的可生产性占比;根据所述可生产性占比和属性 值组合中各属性值的所述整体效用贡献系数,确定出所述数据对象的最优属性值组合。 [0化9] 本步骤中,一属性值组合的可生产性将体现了该组合是否具有可生产性,该里,结 合属性值的整体效用贡献系数和组合的可生产性占比,来确定最优属性值组合,可W确保 最优属性值组合与用户需要的匹配度最市场,且可生产性最高。
[0060] 较佳地,可W采用下述方法来确定每组属性值组合的可生产性占比:
[0061] 对于一组属性值组合,确定其中的每个两两属性值组合是否具有可生产性,按照S =K/1,计算该组属性值组合的可生产性占比S,其中,K为一组所述属性值组合中具有可生 产性的两两属性值组合数量,L为一组所述属性值组合中包含的两两属性值组合总数。
[0062] 较佳地,可W采用下述方法来确定一个两两属性值组合是否具有可生产性:
[0063] 如果所述两两属性值组合已在至少一个所述已有产品的属性值集合中出现,则确 定该两两属性值组合具有可生产性。
[0064] 较佳地,本步骤中可W采用下述方法确定出所述数据对象的最优属性值组合:
[0065] 步骤cl、将所述可生产性占比小于预设的可生产性占比阔值P的属性组合删除。
[0066] 本步骤,用于去除可生产性较低的属性级合。当属性组合的可生产性占比小于预 设的阔值P时,说明该组合方案的可生产性较差,不可W作为可选的方案。在实际应用中, 阔值P可由本领域技术人员根据实际需要进行设置,例如,可W为P= 0. 5。
[0067] 步骤c2、对于当前剩余的每个所述属性值组合,计算该属性值组合中所有属性值 的所述整体效用贡献系数之和,并将该计算结果作为该组属性值组合的贡献系数。
[0068] 步骤c3、选择所述贡献系数最大的属性值组合作为所述数据对象的最优属性值组 合。
[0069] 从上述方案可W看出,本发明可W有效提升数据对象的特征属性的客观性和准确 性,使得数据对象可W满足更多用户的实际需要,在实际应用中,所述数据对象具体可W表 现为某种商品或服务。
[0070] 综上所述,W上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。
【主权项】
1. 一种特征属性的构建方法,其特征在于,包括: a、 根据属性值数量,从数据对象的特征属性集合中,选择出候选特征属性;并根据属性 值对应的产品销量占比,对所述候选特征属性的属性值进行筛选; b、 根据所述数据对象所属类别下已有产品的销量数据,确定所述候选特征属性的每个 属性值的整体效用贡献系数; c、 根据所述整体效用贡献系数和所述数据对象所属类别下已有产品的用户评论数据, 确定每个所述候选特征属性的重要性分值; d、 选择所述候选特征属性中重要性分值最大的前M个候选特征属性作为所述数据对 象的重要特征属性;其中,M为预设的重要特征属性的数量门限; e、 将不同重要特征属性的不同属性值进行组合,得到N组属性值组合,其中,每组属性 值组合包含M个属性值且各自所属的特征属性不同; f、 确定每组属性值组合的可生产性占比,根据所述可生产性占比和属性值组合中各属 性值的所述整体效用贡献系数,确定出所述数据对象的最优属性值组合。2. 根据权利要求1所述的方法,其特征在于,步骤a中所述选择出候选特征属性包括: 删除所述特征属性集合中只有两种属性值的特征属性; 删除所述特征属性集合中属性值数量超过预设的数量阈值a的特征属性,a>9 ; 将当前得到的所述特征属性集合中的特征属性作为所述候选特征属性。3. 根据权利要求1所述的方法,其特征在于,步骤a中所述对所述候选特征属性的属性 值进行筛选包括: 对于所述候选特征属性的每个属性值,如果该属性值对应的产品销量占比小于预设的 占比阈值b,则删除该属性值。4. 根据权利要求1所述的方法,其特征在于,步骤b中通过求解方程组角定所述候选特征属性的每个属性值的整体效用贡献系数,其中,Y j 为所述数据对象所属类别下第j个产品的销量,j = 1,一,J,J为所述数据对象所属类别 下已有产品的总数;\h为第i个所述候选特征属性的第h个属性值的整体效用贡献系数, Xuh为第j个产品是否具有第i个所述候选特征属性的第h个属性值的标识参数,其中,如 果具有,则X^ h= 1,否则,X ^h= 0, I为所述候选特征属性的总数;H i为第i个候选特征 属性的属性值总数。5. 根据权利要求1所述的方法,其特征在于,步骤c中所述确定每个所述候选特征属性 的重要性分值包括: 对于每个所述候选特征属性,根据属性值的所述整体效用贡献系数,确定该候选特征 属性的效用重要性系数; 根据所述用户评论数据,确定每个所述候选特征属性的语义重要性系数; 根据每个所述候选特征属性的效用重要性系数和语义重要性系数,确定每个所述候选 特征属性的重要性分值。6. 根据权利要求5所述的方法,其特征在于,所述步骤c中所述确定每个所述候选特征 属性的效用重要性系数包括: 对于每个所述候选特征属性i,根据该属性的每个属性值的所述整体效用贡献系数,计 算该属性的整体效用贡献系数标准差Stdi; 按照。确定每个所述候选特征属性i的效用重要性系数Wi,其中, Σ Stdi为所有所述候选特征属性的整体效用贡献系数标准差总和。7. 根据权利要求5所述的方法,其特征在于,所述步骤c中按照I定每个 所述候选特征属性i的语义重要性系数Zi,其中,&为所述用户评论数据中用户对候选特征 属性i的评论次数,Σ &为所述用户评论数据中用户对所有所述候选特征属性评论的总次 数。8. 根据权利要求5所述的方法,其特征在于,所述步骤c中按照I i= α · W dβ · Zi, 确定每个所述候选特征属性i的重要性分值Ii,其中,ZiS候选特征属性i的语义重要性系 数,W iS候选特征属性i的效用重要性系数,α为预设的效用重要性权值,β为语义重要 性权值,α+β = 1。9. 根据权利要求1所述的方法,其特征在于,Μ>20。10. 根据权利要求1所述的方法,其特征在于,步骤f中所述确定每组属性值组合的可 生产性占比包括: 对于一组属性值组合,确定其中的每个两两属性值组合是否具有可生产性,按照S = K/L,计算该组属性值组合的可生产性占比S,其中,K为一组所述属性值组合中具有可生产 性的两两属性值组合数量,L为一组所述属性值组合中包含的两两属性值组合总数。11. 根据权利要求10所述的方法,其特征在于,一个两两属性值组合是否具有可生产 性的确定方法包括: 如果所述两两属性值组合已在至少一个所述已有产品的属性值集合中出现,则确定该 两两属性值组合具有可生产性。12. 根据权利要求1所述的方法,其特征在于,步骤f中所述确定出所述数据对象的最 优属性值组合包括: 将所述可生产性占比小于预设的可生产性占比阈值P的属性组合删除; 对于当前剩余的每个所述属性值组合,计算该属性值组合中所有属性值的所述整体效 用贡献系数之和,并将该计算结果作为该组属性值组合的贡献系数; 选择所述贡献系数最大的属性值组合作为所述数据对象的最优属性值组合。
【专利摘要】本申请公开了一种特征属性的构建方法,根据历史销量数据和用户评论数据,选择出重要特征属性,然后对其属性值进行组合,最后根据每种组合的可生产性占比以及组合中各属性值的整体效用贡献系数,确定出数据对象的最优属性值组合。采用本发明,可以有效提升所构建的特征属性的客观性和准确性,使得对应的数据对象可以满足更多用户的实际需要。
【IPC分类】G06Q30/02
【公开号】CN104881797
【申请号】CN201510296847
【发明人】高慧, 张立军, 郑海龙
【申请人】北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
【公开日】2015年9月2日
【申请日】2015年6月3日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1