模型创建方法、质量评估方法及装置的制造方法

文档序号:9375782阅读:158来源:国知局
模型创建方法、质量评估方法及装置的制造方法
【技术领域】
[0001] 本申请涉及数据挖掘技术,具体涉及一种基于文本的商品质量分析方法和装置以 及相关的模型创建方法和装置。
【背景技术】
[0002] 随着电子商务的兴起,网上购物已经越来越普及。这样,在服务提供商侧就累积了 大量的数据需要进行处理。例如,对海量商品的评价、投诉、工单、退换货等文本数据收集、 特征词计算,文本训练及质量分析,实现对商品质量的量化、以及假货的预测/识别,能高 准确度的判定商品的质量,是整个运营中不可或缺乃至非常重要的一环。
[0003] 在现有的技术中,使用人工建模,并根据分析结果不断完善模型的方式进行商品 质量分析。例如,收集文本(商品评价、投诉、工单、退换货等)数据,然后对文本数据进行 分词,去停用词、反义词。进而根据历史数据制定商品质量量化模型。在质量评估阶段,用 指定的关键字与文本匹配,并根据模型依次计算指标数据,并且根据分析结果以及关键词 命中情况优化关键词及量化模型。
[0004] 但是,上述的方案中根据经验设置的文本匹配关键词,与商品质量的相关度相对 较低。此外,通过历史数据制定的量化模型识别准确率低、变更频繁造成成本上升。并且, 模型在高维情况下,文本向高维控件做映射,计算复杂性增加。在现有技术中用同步分析或 多线程分析方式性能低,分析海量商品时不能满足业务要求。

【发明内容】

[0005] 针对现有技术中的一个或多个问题,提出了一种创建用于评估商品质量的模型的 方法、利用该模型评估商品质量的方法及装置。
[0006] 在本发明的一个方面,提供了一种创建用于评估商品质量的模型的方法,包括步 骤:计算样本集的每条样本数据中的各个候选关键词与商品质量的相关度,并且根据计算 的相关度确定关键词库;结合确定的关键词库计算每个样本数据中的词在该样本中的权 重;以及对计算的权重进行归一化,得到训练数据,并且利用训练数据进行训练以输出模型 文件,所述模型文件用来描述通过训练得到的模型。
[0007] 在本发明的另一方面,提供了一种创建用于评估商品质量的模型的装置,包括:计 算样本集的每条样本数据中的各个候选关键词与商品质量的相关度,并且根据计算的相关 度确定关键词库的装置;结合确定的关键词库计算每个样本数据中的词在该样本中的权重 的装置;以及对计算的权重进行归一化,得到训练数据,并且利用训练数据进行训练以输出 模型文件,所述模型文件用来描述通过训练得到的模型的装置。
[0008] 在本发明的再一方面,提供了一种评估商品质量的方法,包括步骤:结合关键词库 计算待评估商品的每条文本数据中的词在该文本中的权重;对计算的权重进行归一化,得 到训练数据;基于得到的训练数据,利用创建的模型计算该商品对应的质量类别及概率。
[0009] 在本发明的又一方面,提供了一种评估商品质量的装置,包括:结合关键词库计算 待评估商品的每条文本数据中的词在该文本中的权重的装置;对计算的权重进行归一化, 得到训练数据的装置;基于得到的训练数据,利用创建的模型计算该商品对应的质量类别 及概率的装置。
[0010] 根据上述方案,能够提供基于文本的商品质量分析的准确度和性能。此外,采用卡 方统计动态计算用于匹配文本的关键词,大大提尚关键词与商品质量的相关度。在其他例 子中,对关键词进行反义词过滤,提高量化数据的准确性,对关键词库进行尺度转换,利于 训练更好的模型。
[0011] 另外,一些方案中使用SVM支持向量机,在高维特征空间采用线性算法对文本的 非线性特征进行线性分析,应用核函数展开定理,降低计算复杂度。此外,可以运用分布式 任务进行关键词计算、量化及质量分析能够快速、近实时分析海量商品的质量。
【附图说明】
[0012] 为了更好地理解本发明,将根据以下附图对本发明进行详细描述:
[0013] 图1示出了根据本发明实施例的网络结构的示意图;
[0014] 图2示出了根据本发明实施例的服务器侧的结构示意图;
[0015] 图3示出了根据本发明实施例的创建评估商品质量的模型的方法的流程图;以及
[0016] 图4示出了根据本发明实施例的评估商品质量的方法的流程图。
【具体实施方式】
[0017] 下面将详细描述本发明的具体实施例,应当注意,这里描述的实施例只用于举例 说明,并不用于限制本发明。在以下描述中,为了提供对本发明的透彻理解,阐述了大量特 定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发 明。在其他实例中,为了避免混淆本发明,未具体描述公知的结构、材料或方法。
[0018] 在整个说明书中,对" 一个实施例"、"实施例"、" 一个示例"或"示例"的提及意味 着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。 因此,在整个说明书的各个地方出现的短语"在一个实施例中"、"在实施例中"、"一个示例" 或"示例"不一定都指同一实施例或示例。此外,可以以任何适当的组合和/或子组合将特 定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当 理解,这里使用的术语"和/或"包括一个或多个相关列出的项目的任何和所有组合。
[0019] 图1示出了根据本发明实施例的网络结构的示意图。如图1所示,用户通过手机 之类的移动终端140和150上网,例如移动终端140和150通过基站160连接到电信网络 170,进而通过网络170连接到服务提供商的服务器110。类似地,用户也可以通过台式机之 类的计算机120上网。例如,台式机120通过路由器130之类的网元连接到电信网络170, 进而连接到服务提供商的服务器110。这样,用户可以操作120/140或者150进行网络冲 浪,在服务提供商的网站上进行网上购物等等。而在服务提供商侧,通过网络将商品展示在 网络上,方便用户浏览和购买。当千千万万的用户进行网上购物时,就需要服务提供商对网 上售出的商品的质量进行评估和监控。这涉及到海量数据的处理,需要以较高的准确率和 较高的性能来进行这些数据的处理。
[0020] 图2示出了根据本发明实施例的服务器侧的结构示意图。如图2所示,在图示的 实施例中,实现对商品关联的文本进行分词,关键词计算、量化、尺度转换,模型训练及质量 分析。下面在SKU维度的基础上进行描述,但是本领域的技术人员应该能够想到在其他的 维度上实施本发明。
[0021] 如图2所示,管理端UI201是方便服务提供商的管理人员操作的用户界面,例如进 行数据的采集,发出进行质量分析的指示等等。此外,管理端UI还可以用来对关键词库进 行调整或者设定过滤器,例如设置需要过滤掉的反义词等等。
[0022] 定时器或用户(运营专员)202触发进行商品质量分析。协同工作单元204生成 任务协调并分配给关键词计算单元205、词量化单元207、训练单元208以及质量分析单元 214依次运行,每个单元均可分布式并行分析。每个单元都可找到对应的1个Master和多个 Follow,如某一 Master停止服务,且其他Follow会根据实例的闲忙情况选择一个Follow 接替Master的任务,并获取最新的任务状态,保证装置可靠性及数据的一致性。
[0023] 关键词计算单元205计算样本集的每条样本数据中的各个候选关键词与商品质 量的相关度,并且根据计算的相关度确定关键词库。例如,关键词计算单元205利用卡方统 计计算所有关键词(来源例如是:对所有样本数据的文本分词,去停用词、反义词)和商品 质量的相关度,并从高到低排序、编号,并取前N个作为关键词库,使关键词库和商品质量 高度相关。卡方统计是一种假设检验方法,利用独立性检验来考察两个变量是否有关系,并 且量化这种判断的可靠程度。卡方统计公式如下:
[0024]
[0025] SKU表示保存库存控制的最小可用单位,便于识别商品,如一款商品多色,则对应 多个SKU。以SKU维度分析为例:
[0026] A为关键词在假货类别中,所有文本出现的次数;
[0027] B为关键词不在假货类别中,所有文本出现的次数
[0028] C为关键词在假货类别中,没有出现过的文本个数;
[0029] D为关键词不在假货类别中,没有出现过的文本个数;
[0030] N为样本数据的文本总数;
[0031] 特征词计算、排序后数据格式如下表:
[0032]

[0033] 词量化单元207结合确定的关键词库计算每个样本数据中的词在该样本中的权 重。例如词量化单元207对每条样本数据(包含商品对应的质量类别:好、中、差)进行分 词,去停用词、反义词,然后结合关键词库计算每个词在样本中的权重,计算公式:
[0034]
[0035] 上式中,N为SKU对应的文本总数,分子为关键词在样本SKU中出现的频率(一个 文本出现多次算一次),分母为关键词在其他类别中出现次数总和。
[0036] 对样本数据量化数据格式如下表:
[0037]
[0038] _训练单元208对计算的权重进行归一化,得到训练数据,并且利用训练数据进行 训练以输出模型文件,所述模型文件用来描述通过训练得到的模型。例如训练单元208先 将词量化单元207生成的词量化数据进行尺度转换,统一量化值的范围(利于训练更好的 模型),然后生成训练集209,得到模型文件210,所述模型文件用来描述通过训练得到的模 型。在训练集209中,一条样本数据生成一条训练数据。
[0039] 进行尺度转换后数据格式如下表:
[00401
[0041] 例如,训练单元208使用SVM将训练集209训练成模型文件210并输出。SVM表示 支持向量机,是一种可训练的机器学习方法。
[0042] 在得到模型文件后,质量分析单元214读取商品文本数据,并使用和词量化单元、 训练单元同样的方法生成文本训练数据,并根据训练出的模型通过SVM计算某个商品质量 对应的类别及概率;
[0043]
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1