一种基于文本的商品分类处理方法及其系统的制作方法

文档序号:6524436阅读:328来源:国知局
一种基于文本的商品分类处理方法及其系统的制作方法
【专利摘要】本发明提供了一种基于文本的商品分类处理方法及其系统,包括从商品数据库提取文本格式商品数据,对商品数据进行分组并进行特征提取,利用训练文件依据概率模型构造出分类器,对商品数据进行分类。本发明实现了对商品数据进行自动分类,本发明的方法和系统运用机器学习的方式,分类速度快,适合大容量电子商务网站的商品分类处理。
【专利说明】一种基于文本的商品分类处理方法及其系统
【技术领域】
[0001]本发明涉及互联网电子商务领域,尤其涉及利用计算机实现基于文本的商品分类处理方法及其系统。
【背景技术】
[0002]互联网发展迅猛,越来越多的商品通过电子商务的方式进行销售。快速、准确的对所出售的商品进行类别的划分显得更加的重要。商品分类是为了方便消费者购买的需要,将商品选择适当的分类标志,系统地逐级划分大类,中类,小类以至品种、花色、规格等的过程。准确的分类有利于电子商务企业更有序组织管理商品。而具体到电子商务网站,商品分类就是把一些新上产品划归为已有某个所属类别的过程。
[0003]在目前的互联网电子商务网站,尚有很多商品分类系统还是通过网站编辑或者网络卖家自身进行手工分类。这样的方式存在以下几个弊端:1,大量的商品分类工作消耗了过多的人力成本。2,随着网站规模的不断膨胀,由于人工选择分类速度缓慢,导致很多商品不能及时上传到网站,从而错过了交易机会。3,人工分类会因为不同人对商品的特征的不同理解从而造成分类结果的不一致。

【发明内容】

[0004]为解决上述现有技术所存在的问题,本发明提出了一种基于文本的商品分类处理方法,以及建立在此方法上的系统。进一步地提出了通过电子商务网站站内的现有商品相关数据,运用分词系统和朴素贝叶斯分类算法进行分类,再辅助人工校对进行优化的商品分类系统。本发明的方法和系统运用机器学习的方式,分类速度快,适合大容量电子商务网站的商品分类处理。
[0005]本发明采用如下技术方案:从商品数据库提取文本格式商品数据,对商品数据进行分组并进行特征提取,利用训练文件依据概率模型构造出分类器,对商品数据进行分类。
[0006]优选地,其中商品分类数据包括:类目信息和商品信息。
[0007]其中类目信息包括:类目ID、类目名称、父类目ID。
[0008]商品信息包括:商品ID、商品描述、商品所属类目号。
[0009]优选地,本发明进一步包括以下步骤:在对商品数据进行分组之前对商品数据进行数据校验。
[0010]优选地,其中对商品数据进行特征提取包括:对商品描述进行机器分词处理,形成包含有效词汇的待分类项。
[0011]优选地,其中对商品数据进行分组包括将商品数据按比例随机分组为训练文件和测试文件。
[0012]优选地,其中概率模型为朴素贝叶斯变换,朴素贝叶斯变换计算式为:[0013]贝叶斯全概率公式
【权利要求】
1.一种基于文本的商品分类处理方法,其特征在于, 从商品数据库提取文本格式商品数据,对商品数据进行分组并进行特征提取,利用训练文件依据概率模型构造出分类器,对商品数据进行分类。
2.根据权利要求1所述的方法,其中所述文本格式商品数据包括:类目信息和商品信肩、O
3.根据权利要求2所述的方法,其中所述类目信息包括类目ID、类目名称和父类目ID。
4.根据权利要求2所述的方法,其中所述商品信息包括商品ID、商品描述和商品所属类目号。
5.根据权利要求1所述的方法,进一步包括以下步骤:在对商品数据进行分组之前对商品数据进行预处理。
6.根据权利要求4所述的方法,其中对商品数据进行特征提取包括:对商品描述进行机器分词处理,形成包含有效词汇的待分类项。
7.根据权利要求1所述的方法,其中对商品数据进行分组包括将商品数据按比例随机分组为训练文件和测试文件。
8.根据权利要求1所述的方法,其中概率模型为朴素贝叶斯变换。
9.根据权利要求8所述的方法,其中朴素贝叶斯变换计算式为: 贝叶斯全概率公式
10.根据权利要求1所述的方法,进一步包括对商品分类结果进行纠错、更新以及对分类器进行定时训练。
11.一种基于文本的商品分类处理系统,其特征在于包括: 数据提取模块,用于提取文本格式商品数据; 数据分组模块,用于对商品数据进行分组; 特征提取模块,用于对商品数据进行特征提取; 分类器,利用训练文件依据概率模型对商品数据进行分类。
12.根据权利要求11所述的系统,所述文本格式商品数据包括:类目信息和商品信息。
13.根据权利要求12所述的系统,其中所述类目信息包括类目ID、类目名称和父类目ID0
14.根据权利要求12所述的系统,其中所述商品信息包括商品ID、商品描述和商品所属类目号。
15.根据权利要求11所述的系统,进一步包括数据预处理模块,在对商品数据进行分组之前对商品数据进行数据校验。
16.根据权利要求14所述的系统,其中对商品数据进行特征提取包括:对商品描述进行机器分词处理,形成包含有效词汇的待分类项。
17.根据权利要求1所述的系统,其中对商品数据进行分组包括将商品数据按比例随机分组为训练文件和测试文件。
18.根据权利要求1所述的系统,其中概率模型为朴素贝叶斯变换。
19.根据权利要求18所述的系统,其中朴素贝叶斯变换计算式为: 贝叶斯全概率公式
20.根据权利要求11所述的系统,进一步包括对商品分类结果进行纠错、更新以及对分类器进行定时训练。
21.根据权利要求11所述的系统,进一步包括分类接口模块,用于为其它分类应用提供接口调用。
【文档编号】G06F17/27GK103646343SQ201310701215
【公开日】2014年3月19日 申请日期:2013年12月18日 优先权日:2013年12月18日
【发明者】王冬杰, 朱勇勇 申请人:世纪禾光科技发展(北京)有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1