一种基于机器学习的数据分类方法及系统与流程

文档序号：19190711发布日期：2019-11-20 02:05阅读：735来源：国知局

本发明涉及数据处理技术领域，具体是一种基于机器学习的数据分类方法及系统。

背景技术：

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着互联网技术的发展，大数据是广大企业获取用户生活习惯、购买力等各项信息的主要来源。

在电商平台中，用户购买产品后的评论对卖家至关重要，甚至可以决定商户的生存，因此及时的浏览回复评论是电商日常的重要工作。但是由于评论量大，商户没有精力进行逐个浏览、回复等操作，因而错过了某些差评，造成用户群体的损失。

基于此，本申请提出了一种基于机器学习的数据分类方法及系统，来方便对这些评论数据等进行分类，使得商户有精力集中处理差评等评论。

技术实现要素：

本发明的目的在于提供一种基于机器学习的数据分类方法及系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于机器学习的数据分类方法，包括以下步骤：

s1，收集待分类的原始数据，将收集到的所有原始数据保存在数据库中；

s2，对数据库内的数据进行分析，提取出其中的关键词，将关键词导入到已经预先训练好的svm模型中，获得分类识别结果；

s3，结果分析模块对上述分类识别结果进行识别，提取出其中的有效的分类识别结果，称之为有效结果，将有效结果所对应的数据库内的原始数据导入到对应的子数据库中。

作为本发明进一步的方案：步骤s2中，若提取出的关键词具有多个，则为每个关键词均赋予权重，同一数据得到的关键词，其权重之和为1。

作为本发明进一步的方案：所述结果分析模块还将有效结果输出给svm模型，进行权重的训练和更新。

作为本发明再进一步的方案：所述svm模型采用线性核函数。

一种基于机器学习的数据分类系统，包括中央处理器、数据库、svm模型、结果分析模块、子数据库和数据分析模块，所述数据库，用于储存待分类的原始数据，并在收到中央处理器的指令后，供数据分析模块调用；数据分析模块，用于对原始数据进行分析，提取出其中的一个或若干个关键词；svm模型，对提取出的关键词进行训练，当关键词的数量大于一个时，为每个关键词赋予权重，获得分类识别结果；结果分析模块，对svm模型所得的分类识别结果进行识别分析，获得出其中的有效分类识别结果，将其所对应的数据库内的原始数据导入到对应的子数据库中。

作为本发明进一步的方案：所述结果分析模块还将有效分类识别结果所对应的权重赋予输入到svm模型，进行权重的训练和更新。

作为本发明进一步的方案：所述数据库还通过通讯模块与云端数据库通讯，通过网络从云端数据库中获取原始数据。

与现有技术相比，本发明的有益效果是：通过svm模型可以有效的对数据进行分类识别，效率较高，同时其通过设置的数据分析模块能有效的对结果正确性进行判定，以实现学习及更新识别机制，在后期的识别中更加精确。

附图说明

图1为一种基于机器学习的数据分类方法的流程图。

图2为一种基于机器学习的数据分类方法中结果分析的流程图。

图3为一种基于机器学习的数据分类系统的结构示意图。

图中：1-中央处理器、2-数据库、3-svm模型、4-结果分析模块、5-子数据库、6-数据分析模块、7-通讯模块、8-云端数据库。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本实施例公开的一些方面相一致的装置和方法的例子。

实施例1

请参阅图1～2，本发明实施例中，一种基于机器学习的数据分类方法，包括以下步骤：

s1，收集待分类的原始数据，将收集到的所有原始数据保存在数据库中，当然，在实际应用时，数据库既可以建立在本地，也可以通过网络从云端数据库中获取原始数据，此处不对其进行具体的限定；

s2，对数据库内的数据进行分析，提取出其中的关键词，将关键词导入到已经预先训练好的svm模型中，获得分类识别结果，例如在实际应用，对于买家的评论“这个隔离霜使用起来效果很好”，那么其“效果很好”就是其识别的关键词，将其导入至训练好的svm模型时，其输出的结果就是对应的“好评”，此处，作为优选的，svm模型采用线性核函数；

s3，结果分析模块对上述分类识别结果进行识别，提取出其中的有效的分类识别结果，称之为有效结果，将有效结果所对应的数据库内的原始数据导入到对应的子数据库中，结果分析模块的作用就是判定分类识别结果的正确性，例如对于买家的评论“这个隔离霜使用起来效果很好”，其输出的结果是“差评”或者是“中评”，这就意味着这个svm模型存在误差或错误，因此其分类识别结果也是错误的，该条数据的处理就存在问题；若svm模型的判定结果是正确的，那么此时可以将对应的这个评论导入到“好评”子数据库中，适当的时候卖家可以推送给这类买家群里一些优惠券或者活动信息等。

然而，当买家的评论较长时，存在多个关键词较多时，此时为每个关键词均赋予权重，当然，同一数据或者说同一条评论的权重之和是1，例如，“这个隔离霜很好，但是就是量稍微有点少”，那么其提取出的关键词可以为“很好”、“但是”、“量稍微有点少”，可以为其分别赋予权重0.6、0.2和0.2，之后再将其导入到svm模型中进行训练。

如果说结果分析模块得到该训练结果是正确有效的，即有效结果，可以将此权重赋予方式进行记录，并同步进行训练和更新。

实施例2

请参阅图3，本发明实施例中，一种基于机器学习的数据分类系统，包括中央处理器1、数据库2、svm模型3、结果分析模块4、子数据库5和数据分析模块6，

所述数据库2，用于储存待分类的原始数据，并在收到中央处理器1的指令后，供数据分析模块6调用；

数据分析模块6，用于对原始数据进行分析，提取出其中的一个或若干个关键词；

svm模型3，对提取出的关键词进行训练，当关键词的数量大于一个时，为每个关键词赋予权重，获得分类识别结果；

结果分析模块4，对svm模型3所得的分类识别结果进行识别分析，获得出其中的有效分类识别结果，将其所对应的数据库内的原始数据导入到对应的子数据库5中。

具体的来说，结果分析模块4还将有效分类识别结果所对应的权重赋予输入到svm模型，进行权重的训练和更新，以保证本技术方案具有学习效果，在后期的识别中更加精确。

此外，所述数据库2还通过通讯模块7与云端数据库8通讯，即可以通过网络从云端数据库中获取原始数据。

需要特别说明的是，本技术方案中，通过svm模型可以有效的对数据进行分类识别，效率较高，同时其通过设置的数据分析模块6能有效的对结果正确性进行判定，以实现学习及更新识别机制，在后期的识别中更加精确。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘春英
技术所有人：菏泽学院
我是此专利的发明人

上一篇：乳化油复合剂及制备方法和由其制备的乳化油及应用与流程
上一篇：润滑防锈油的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。