一种基于互信息的商品分类方法和系统的制作方法

文档序号:6535673阅读:709来源:国知局
一种基于互信息的商品分类方法和系统的制作方法
【专利摘要】本发明提出了一种基于互信息的商品分类方法,其包括以下步骤:从网站服务器数据库中提取相关数据构建训练集合,其中,所述相关数据包括某一电子商务网站中所有的商品标题及相应的商品类别;对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词;将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。通过本发明避免了对商品分类时各个特征词之间的相互依赖;解决各个分类中数据存在交集的情况,并且降低了计算量。
【专利说明】一种基于互信息的商品分类方法和系统
【技术领域】
[0001]本发明涉及数据挖掘领域,具体地说,是涉及一种基于互信息的商品分类方法和系统。
【背景技术】
[0002]随着电子信息技术的飞速发展,数据挖掘已经深入到各个领域,尤其对于电子商务领域,高效的商品自动分类方法对管理电子商务中海量的商品信息至关重要。
[0003]但是,现有技术中对于描述词过于相近的商品往往会给出错误分类,这是因为它们的特征相互依赖,或者说有些特征由其他特征决定,因此会产生这种错误分类,比如,“联想笔记本电脑”、“笔记本(电脑图案)”,则会被认为属于同一类商品。
[0004]另外,由于商品分类中,很多分类数据有交集的现象,比如服装中,分为女装与男装,而其中与户外运动相关的服装鞋帽又都被划分为户外运动类,与运动器械等又被划分到一类,因此这种交叠分类的现象给产品的分类造成极大的困难,传统的分类方法不能简单、高效的解决其分类问题。

【发明内容】

[0005]为了解决上述问题,本发明结合商品信息的特征,提供简单高效的解决方案,避免了由于特征组合对分类带来的干扰,同时可以保证以较高的效率完成在线分类任务。
[0006]依据本发明的一个方面,一种基于互信息的商品分类方法,其包括以下步骤:
[0007]从网站服务器数据库中提取相关数据构建训练集合,其中,所述相关数据为一网站中所有的商品标题及与所述商品标题相对应的商品类别;
[0008]对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词;
[0009]将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。
[0010]可选地,所述构建训练集合的步骤还包括:
[0011]在提取相关数据之后,对提取出的所有商品标题分别进行分词处理,获取所有商品标题的所有特征词;
[0012]分别计算一个商品类别中的所有特征词与其他商品类别的相关度值。
[0013]可选地,在获取所有商品标题的所有特征词之后,对获取的所有特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库。
[0014]可选地,在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词构造特征词库。
[0015]可选地,在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词,之后对过滤出的特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库。[0016]可选地,在对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词之后,对所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词。
[0017]可选地,计算相关度值的公式为:
[0018]I (X,y) =1ga (P (X |y))-1oga (P (X));
[0019]其中,I (x, y)代表相关度值,P(X)代表特征词X在所有商品类别中出现的概率;P (x I y)代表特征词X在商品类别I中出现的条件概率;底数a可以是自然对数e,或10,或2,或为任意数。
[0020]依据本发明的另一方面,提供一种基于互信息的商品分类系统,其包括:
[0021]构建模块,用于从网站服务器数据库中提取相关数据构建训练集合,其中,所述相关数据为一网站中所有的商品标题及与所述商品标题相对应的商品类别;
[0022]分词模块,用于对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词;
[0023]分类模块,将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。
[0024]可选地,所述分词模块还用于在提取相关数据之后,对提取出的所有商品标题分别进行分词处理,获取所有商品标题的所有特征词。
[0025]可选地,所述商品分类系统还包括挑选模块,用于在获取所有商品标题的所有特征词之后,对获取的所有特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库。
[0026]可选地,所述商品分类系统还包括过滤模块,用于对在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词构造特征词库。
[0027]可选地,所述过滤模块还用于对一个新商品进行分词处理后的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词。
[0028]可选地,所述商品分类系统还包括计算模块,用于分别计算一个商品类别中的所有特征词与其他商品类别的相关度值。
[0029]可选地,计算相关度值的公式为:
[0030]I (X,y) =1ga (P (X |y))-1oga (P (X));
[0031]其中,I (x, y)代表相关度值,P(X)代表特征词X在所有商品类别中出现的概率;P (x I y)代表特征词X在商品类别I中出现的条件概率;底数a可以是自然对数e,或10,或2,或为任意数。
[0032]根据本发明的实施例可以看出,本发明对于一件新商品,只使用特征词与商品类别的相关度值作为预测分类的基本值,这样避免了对商品分类时各个特征词之间的相互依赖。同时,本发明能够解决各个分类中数据存在交集的情况,因为是单独使用商品的特征词在分类中的相关度,不同的分类中同样的特征词相关度是不一样的,同时结合描述商品的多个特征词便能够准确的计算该商品的分类。另外,由于待预测的分类有限,则对一个商品进行分类时计算量比较小,该方法可以作为在线程序提供服务。[0033]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0034]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0035]图1示出了本发明一种实施例的基于互信息的商品分类方法流程图。
[0036]图2示出了本发明实施例的一种基于互信息的商品分类系统原理图。
【具体实施方式】
[0037]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,其所述描述乃以说明本发明的一般原则为目的,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制,本发明的保护范围当视所附权利要求所界定者为准。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0038]另外,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包括”或“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。
[0039]为了说清楚本发明的实施例,首先先提及与本发明有关的相关技术:
[0040]1.数据挖掘(Data mining)与分类
[0041]数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。分类,则是数据挖掘中的一个重要环节。分类算法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要的研究领域。分类算法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。分类算法的应用非常广泛,银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等等。
[0042]2.文本分类技术描述
[0043]文本分类的任务是:在给定的类别体系下,根据文本的内容,将其自动映射到指定的类别中去。类别体系一般由人工按照应用需求构造。基于内容的文本分类需要指导,即一定数量的已分类好的训练文本或者实例,分类系统从训练文本中获取必要的信息,构造分类器。
[0044]在文本处理领域,通常采用向量空间模型(Vector Space Model, VSM)表示文本,一篇文本可以表示为一个η维向量(W1, w2, , wn),其中WiQ = 1,2,..., η)表示第i个特征项(Feature)的权重,η是特征项的个数,特征项可以是字、词、短语或者某种概念,本发明实施例中采用词作为特征项,故称为特征词或特征值。
[0045]权重有多种计算方法,最简单的是布尔权重,即权重为I (该特征词在文本中出现)或者O (该特征词没有在文本中出现)。在本发明中,VSM中的权重计算采用词频来表示,即用该特征词在文本中出现的次数来表示权重。
[0046]文本分类抽象为一般的描述:设类别总数为|C|,Cj表示第j(j = l,2,...,C|)类提供给分类器的训练集(训练集中的文本都已经过人工分类)包含|d|篇文本,特征空间(fp f2,..., fn), η 为特征数量,每篇文本表示为(Ii = (wn, wi2,..., win) ,1 = 1,2,...,
D| ο 一篇待分类文本泛化表示为dx = (wxl, wx2,..., wxn),任务是将dx分到相应的类别中去。
[0047]3.中文分词技术
[0048]中文自动分词是中文信息处理技术中最关键的一个环节。所谓分词,就是把一个句子中的词汇按照使用时的意义切分出来。在英语中单词与单词之间有显式的分割符,而在中文里,只有段与段之间、句子与句子间有明显分割,而单词之间不存在这种分界符,因此中文词汇的分割要复杂困难得多。随着汉语自动分词系统的关注度不断提高,各种分词系统也不断建立,分词系统在运行速度、准确度等方面都已经具有了研究应用的价值,其中最有代表性为中科院的分词工具ICTCLAS。ICTCLAS分词工具基于PDAT大规模知识库管理技术,分词速度单机996KB/S,分词精度98.45 %,本发明实施例中采用了 ICTCLAS3.0对网页文本进行分词处理。
[0049]4.特征选择方法
[0050]训练集合中包含了大量的词汇,如果把这些词都作为特征词,将带来一系列问题。首先是向量的维数太大,给计算带来了非常大的压力,存储空间大、处理速度慢;其次是这些词中实际上有很大一部分是与类别无关的,对分类作用不大。因此要降低向量的维数,选择那些有代表意义的词作为特征词。先对文本进行预处理,去掉那些常用的对分类用处不大的词,比如去掉那些不能反应商品特征的词,如停用词(也叫停止词,Stop word),然后采用某种特征选择方法对所有的词排序,选出排在前面的一定数量的词作为特征词。常用的特征选择方法有:文档频次(DF),互信息(MI),信息增益(IG),X 2统计量、相对熵(CE)。
[0051]以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
[0052]如图1所示,一种基于互信息的商品分类方法,包括如下步骤:
[0053]步骤S110,从网站服务器数据库中提取相关数据构建训练集合,其中,相关数据为某一电子商务网站中所有的商品标题及与商品标题相对应的商品类别。训练集合也可以称为商品标题集合,构建的训练集合中包含了某一电子商务网站中所有的商品标题及与商品标题相对应的商品类别。
[0054]步骤S120,对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词。具体的,使用分词技术对商品标题进行分词处理,使用分词结果作为商品的特征词,用相应特征词来描述该商品。
[0055]步骤S130,将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。
[0056]基于图1的原理,更详细的分类方法如下所述:[0057]步骤S110,从网站服务器数据库中提取某一电子商务网站中所有的商品标题及对应的商品类别,构建训练集合。训练集合可以是简单的仅由所有的商品标题和商品类别组成的数据集合,也可以是一种复杂的数据集合,复杂的训练集合可以为后续新商品的分类提供更高的计算效率,具体的,构建复杂的训练集合的步骤如下:
[0058]第一步,从网站服务器数据库中提取某一电子商务网站中所有的商品标题及对应的商品类别。
[0059]第二步,对提取出的所有商品标题使用分词技术分别进行分词处理,使用分词处理后的结果作为商品的特征词。由于并不是所有特征词都是用来描述商品本身特征的,为了提高后续对新商品进行分类时的计算效率的,还可以对所有商品标题的所有特征词做进一步处理,构造特征词库,特征词库也可以称作特性信息库,其内包含有经过分词处理后所得到的反映商品信息的特征词,这样,某一商品可以用特征词库中的相应特征词来描述。
[0060]构造特征词库的方法有多种,比如,一种构造方法为对获取的所有特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库,其中,预设值是可以根据先验概率得到的经验值,也可以是人为设定的值。具体的:
[0061]在此假设商品标题为L,其具体格式由C1C2Cf ClriCk构成,其中Ci (i=l, 2,…,k)为一个汉字或英文单词,k为标题字符长度;
[0062]之后,对标题L进行分词,得到词语集合IC1C2, C2C3, CV1CJ,在该词语集合中,将CiCw视为一个词,并用W表不;
[0063]之后,遍历训练集中所有的商品标题,统计每个词W出现的次数Count(W);
[0064]然后,设定一个阈值CT,如果Count(W)≤CT (即,词W出现的次数大于设定的阀值CT),则W—定为特征词;
[0065]从而,得到的所有特征词W构成的特征词库(WpW2,…,Wn}。
[0066]特征词库的另一种构造方法是对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,比如过滤掉那些对于分类没有意义的停用词(比如助词、副词、介词、连接词等等)、广告词、含义相同或描述重复的词等等,仅保留描述了商品特征的特征词构造特征词库。这些对商品特征描述没有意义的词可以根据设定的程序自动去除,只需定期更新需要被去除的词库即可,这样不仅能节省大量的存储空间,还能有效提高运算速度,因为毕竟一些商品标题上的很多信息,比如广告或宣传信息“降价促销”、“仅限三天”等等对新商品的分类毫无疑义。
[0067]特征词库的第三种构造方法是基于上述两种方法的结合,具体为:对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,仅保留描述了商品特征的特征词,之后对过滤出来的特征词进行词频统计,挑选词频高于预设值的词构造特征词库。第三种方法与前两种方法相比,又能进一步的提高后续新商品分类的计算效率。
[0068]第三步,利用互信息分别计算一个商品类别中的所有特征词与其他商品类别的相关度值,得到相关度值的集合,至此,训练集合构建完毕。相关度值的集合在后续新商品分类时,所需的相关度值可以直接从相关度值集合中调用,使新商品分类时的计算效率大大提闻。
[0069]互信息衡量的是某个词和类别之间的统计独立关系,某个词和某个类别传统的互信息定义如下:[0070]互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。
[0071]特征词和类别的互信息体现了特征词与类别的相关程度,是一种广泛用于建立词关联统计模型的标准。互信息没有考虑特征出现的频率,这样导致互信息评估函数不选择高频的有用词而有可能选择稀有词作为文本的最佳特征。因为对于每一主题来讲,某一特征的互信息越大,说明它与该主题的贡献概率越大,因此,以互信息作为提取特征的评价时应选互信息最大的若干个特征。
[0072]为了说清楚本发明如何利用互信息计算相关度值,得到相关度值集合进而完成训练集合的构建,现假设有A、B、C三个商品类别,其中包括的商品特征词分别为:al、a2、a3, bl、b2、b3, cl、c2、c3,表格更直观的表达为:
[0073]
【权利要求】
1.一种基于互信息的商品分类方法,其包括以下步骤: 从网站服务器数据库中提取相关数据构建训练集合,其中,所述相关数据为一网站中所有的商品标题及与所述商品标题相对应的商品类别; 对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词; 将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。
2.根据权利要求1所述基于互信息的商品分类方法,其特征在于,所述构建训练集合的步骤还包括: 在提取相关数据之后,对提取出的所有商品标题分别进行分词处理,获取所有商品标题的所有特征词。
3.根据权利要求2所述基于互信息的商品分类方法,其特征在于:在获取所有商品标题的所有特征词之后,对获取的所有特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库。
4.根据权利要求2所述基于互信息的商品分类方法,其特征在于:在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词构造特征词库。
5.根据权利要求2所述基于互信息的商品分类方法,其特征在于:在获取所有商品标题的所有特征词之后,对获取的所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词,之后对过滤出的特征词进行词频统计,挑选词频高于预设值的特征词构造特征词库。
6.根据权利要求2所述基于互信`息的商品分类方法,其特征在于:在获取所有商品标题的所有特征词之后,分别计算一个商品类别中的所有特征词与其他商品类别的相关度值。
7.根据权利要求1所述基于互信息的商品分类方法,其特征在于:在对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词之后,对所有特征词进行过滤处理,过滤掉没有描述商品特征的特征词,保留描述了商品特征的特征词。
8.根据权利要求1或6所述基于互信息的商品分类方法,其特征在于: 计算相关度值的公式为:
I (X,y) =1ga (P (X |y))-1oga (P (X)); 其中,I(X,y)代表相关度值,P(X)代表特征词X在所有商品类别中出现的概率;p(x|y)代表特征词X在商品类别y中出现的条件概率;底数a可以是自然对数e,或10,或2,或为任意数。
9.一种基于互信息的商品分类系统,其包括: 构建模块,用于从网站服务器数据库中提取相关数据构建训练集合,其中,所述相关数据为一网站中所有的商品标题及与所述商品标题相对应的商品类别; 分词模块,用于对一个新商品的商品名称进行分词处理,获取该商品名称的所有特征词; 分类模块,将该商品的所有特征词在一个商品类别中的相关度值的和,作为该商品在该商品类别中的得分,分别计算该商品的所有特征词在每个商品类别中的相关度值的和,将得分最高的商品类别作为该商品的类别。
10.根据权利要求9所述基于互信息的商品分类系统,其特征在于: 所述分词模块还用于在提取相关数据之后,对提取出的所有商品标题分别进行分词处理,获取所有商 品标题的所有特征词。
【文档编号】G06Q30/00GK103778205SQ201410015607
【公开日】2014年5月7日 申请日期:2014年1月13日 优先权日:2014年1月13日
【发明者】金学禹 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1