一种精确的注塑机选型方法与流程

文档序号：12735389阅读：来源：国知局

技术特征：

1.一种精确的注塑机选型方法，其特征在于，所述方法包括以下步骤：

将终端采集的用户的大量关于注塑机选型和购买行为和数据发送至服务器端；

将采集到的注塑机用户数据进行除噪、过滤；

将采集到的注塑机用户数据进行归一化处理；

对注塑机用户数据进行选型特征偏好提取；

在服务器端通过基于Spark大数据平台执行基于皮尔逊相关系数和最小二乘法的注塑机选型方法进行个性化的注塑机选型；

从服务器端返回注塑机选型结果至终端并显示。

2.根据权利要求1所述的一种精确的注塑机选型方法，其特征在于，所述的将采集到的注塑机用户数据进行除噪、过滤的具体过程包括：

以注塑机用户为键，对应用户关于注塑机选型系统和商城行为记录数为值，进行统计；

将注塑机用户提取出来，u的大小代表数据记录的用户个数，利用Spark Mllib的user.filter(line＝>line.contains(a))函数方法将原始数据中的所有关于注塑机用户a的记录筛选出来，并构造关于用户a的键值对；

移除注塑机行为数据记录中的噪声数据，所述噪声数据包括用户的恶意刷单、失误操作。

3.根据权利要求1所述的一种精确的注塑机选型方法，其特征在于，所述的将采集到的注塑机用户数据进行归一化处理额具体过程包括：

采用Z-score标准化方法对不同注塑机选型行为和注塑机商城购买行为的数值取值进行归一化处理，具体方法为：

$<mrow> <msup> <mi>X</mi> <mo>*</mo> </msup> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <mi>u</mi> </mrow> <mi>σ</mi> </mfrac> </mrow>$

其中，u为所有样本数据的均值，σ为所有样本数据的标准差。

4.根据权利要求1所述的一种精确的注塑机选型方法，其特征在于，所述的对注塑机用户数据进行选型特征偏好提取的具体过程包括：

将原始数据中的所有关于用户a的注塑机行为记录筛选出来，并构造关于用户a的键值对；

将用户选型参数中选择、浏览、收藏、加购物车、与购买的基础评分分别设置为1、2、3、4、5；

对用户的关于注塑机行为基础评分分别在其基础上加上不同适当权值分数加成，最后得到所有与用户a相关注塑机商品的评价；

循环上述步骤流程，将其他剩余用户的内容提取出来。

5.根据权利要求1所述的一种精确的注塑机选型方法，其特征在于，所述的在服务器端通过基于Spark大数据平台执行基于皮尔逊相关系数和最小二乘法的注塑机选型方法进行个性化的注塑机选型的具体过程包括：

采用皮尔逊相关系数计算注塑机用户之间的相似度；

描述用户对注塑机选型需求问题；

采用交替最小二乘法预测用户的注塑机选型需求；

在Spark大数据平台实现基于采用交替最小二乘法预测用户的注塑机选型需求。

6.根据权利要求5所述的一种精确的注塑机选型方法，其特征在于，所述的采用皮尔逊相关系数计算注塑机用户之间的相似度的具体过程如下：

利用两个注塑机用户之间的协方差和标准差计算皮尔逊相关系数：

$<mrow> <msub> <mi>ρX</mi> <mrow> <mi>u</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>X</mi> <mrow> <mi>u</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mn>2</mn> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mi>o</mi> <mi>v</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mrow> <mi>u</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>X</mi> <mrow> <mi>u</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mn>2</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>σX</mi> <mrow> <mi>u</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mn>1</mn> </mrow> </msub> <msub> <mi>σX</mi> <mrow> <mi>u</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mn>2</mn> </mrow> </msub> </mrow> </mfrac> </mrow>$

其中，Cov(X_user1,X_user2)代表两个注塑机用户之间的协方差，σX_user1和σX_user2分别代表两个注塑机用户的标准差；

若需要对样本的协方差和标准差进行估算，可得到样本相关系数，即样本皮尔逊系数：

$<mrow> <mi>γ</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>-</mo> <mover> <mi>X</mi> <mo>&OverBar;</mo> </mover> </mrow> <mrow> <mi>σ</mi> <mi>x</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>-</mo> <mover> <mi>Y</mi> <mo>&OverBar;</mo> </mover> </mrow> <mrow> <mi>σ</mi> <mi>y</mi> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>$

其中：

是X_i样本的标准分数，是Y_i样本的标准分数；

是X_i的样本平均数，是Y_i的样本平均数；

σx是X_i的样本标准差，σy是Y_i的样本标准差。

7.根据权利要求5所述的一种精确的注塑机选型方法，其特征在于，所述的描述用户对注塑机选型需求问题的具体过程如下：

用户u对商品i的兴趣偏好可以表示为：

$<mrow> <mi>Pr</mi> <mi>e</mi> <mi>f</mi> <mi>e</mi> <mi>r</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>F</mi> </munderover> <msub> <mi>X</mi> <mrow> <mi>u</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <msub> <mi>Y</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> </mrow>$

其中X_u，k是用户u的兴趣和第k个隐类的关系，而Y_i，k是第i个物品和第k个隐类直接的关系；

求解X和Y的过程可以转化为求损失函数最小的问题：

$<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>Σ</mo> <mrow> <mi>u</mi> <mo>,</mo> <mi>i</mi> </mrow> </munder> <msup> <mrow> <mo>(</mo> <msub> <mi>τ</mi> <mrow> <mi>u</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msubsup> <mi>x</mi> <mi>u</mi> <mi>T</mi> </msubsup> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mi>λ</mi> <mo>|</mo> <msub> <mi>X</mi> <mi>u</mi> </msub> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>λ</mi> <mo>|</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>$

其中λ是正则化项的系数，式中右边两项的引入是为了防止过拟合。

8.根据权利要求5所述的一种精确的注塑机选型方法，其特征在于，所述的采用交替最小二乘法预测用户的注塑机选型需求的具体过程如下：

利用最小二乘法求解X，然后固定X，求解Y，如此交替往复直至收敛，即所谓交替最小二乘法；

先固定Y，将Y带入损失函数L(X，Y)并对X_u求偏导，令导数＝0，得到：

X_u＝(Y^TY+λI)^-1Y^Tr_u，

同理固定X，可得：

Y_u＝(X^TX+λI)^-1X^Tr_i，

迭代步骤，首先随机选取Y，利用固定Y的公式更新得到X，然后利用固定X的公式更新Y，直到均方根误差很小或达到迭代次数：

$<mrow> <mi>R</mi> <mi>M</mi> <mi>S</mi> <mi>E</mi> <mo>=</mo> <msqrt> <mfrac> <mrow> <mi>Σ</mi> <msup> <mrow> <mo>(</mo> <mi>R</mi> <mo>-</mo> <mover> <mi>R</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mi>N</mi> </mfrac> </msqrt> <mo>.</mo> </mrow>$

9.根据权利要求5所述的一种精确的注塑机选型方法，其特征在于，所述的在Spark大数据平台实现基于采用交替最小二乘法预测用户的注塑机选型需求具体过程如下：

定义参数rank：模型中隐语义因子的个数；

定义参数iterations：迭代的次数，所述参数iterations的取值范围为：10-20；

定义参数lambda：惩罚函数的因数，是ALS的正则化参数，所述参数lambda的取值范围为：0.005-0.02；

通过调整上述参数，从而优化注塑机商品的选型算法，使注塑机选型结果的均方差逐渐变小。

10.根据权利要求9所述的一种精确的注塑机选型方法，其特征在于，所述的在Spark大数据平台实现基于采用交替最小二乘法预测用户的注塑机选型需求在Spark MLlib中实现步骤如下：

使用ALS训练的注塑机行为数据通过函数方法ALS.train()建立注塑机选型模型；

通过model.predict()方法使用注塑机选型模型对用户对注塑机进行预测评分，得到预测评分的数据集；

使用ratings.map{case Rating(user,item,rate)}方法将真实注塑机评分数据集与注塑机预测评分数据集进行合并；

利用ratesAndPreds.map()计算均方差；

注塑机选型的结果可以以用户id为key，结果为value存入hbase中；

使用predictions.collect.sortB()对注塑机预测选型的结果按预测的评分排序；

对注塑机预测结果按用户进行分组，然后合并选型结果。

完整全部详细技术资料下载

当前第2页1 2 3