一种面向图书市场书名的短文本聚类方法

文档序号:9750953阅读:547来源:国知局
一种面向图书市场书名的短文本聚类方法
【技术领域】
[0001] 本发明涉及计算机技术领域,尤其涉及一种面向图书市场书名的短文本聚类方 法。
【背景技术】
[0002] 随着在互联网对传统行业的深度改造,互联网电子商务网站迅速发展,网上购物 成了潮流。电商网站拥有海量的商品。由于网上的商品信息错综复杂,分类繁琐,更新比率 快,对商品进人工标注往往会耗费大量的人力,因此自动化的将商品进行分类成为了电商 的基本需求。针对于商品的分类,国内外往往采用数据挖掘的方法进行操作。
[0003] 现有技术中,通常采用K均值(K-means)聚类算法对商品进行分类。K-means算法是 无监督聚类算法,是基于数据点到原型的某种距离作为优化的目标函数,利用函数求极值 的方法得到迭代运算的调整规则。例如,在短文本聚类领域,针对书籍名称进行聚类时,通 过K-means算法随机选定k个聚类关键词,计算每个书籍名称相对于选定聚类关键词的距 离,选取距离最小的聚类关键词作为书籍名称的类,根据每一类中书籍名称的平均值,重新 计算每个聚类关键词,重复进行以上过程,直到每个类中的书籍名称不再变化。
[0004] 但是,采用传统的k-means聚类算法,聚类关键词的数目不可预测,且采用不同的 初始聚类关键词得到的聚类结果往往会有较大偏差,如果聚类关键词选择了密集数据的边 缘区域或者噪声数据,会对聚类结果造成极大影响。

【发明内容】

[0005] 本发明实施例提供一种面向图书市场书名的短文本聚类方法,用于解决现有技术 中的聚类方法不能准确地对图书市场书名进行聚类的问题。
[0006] 本发明实施例提供一种面向图书市场书名的短文本聚类方法,包括:
[0007] 对文本数据及设定的聚类关键词进行词向量化,形成文本数据词向量及聚类关键 词向量;
[0008] 计算文本数据词向量到所述聚类关键词向量的距离;
[0009] 根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向 量的聚类类型,根据所述文本数据词向量的聚类类型将所述文本数据词向量划分到对应的 聚类集合;
[0010] 计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出 现频率,以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其 它聚类集合中的逆向文件频率,得到所述聚类集合中的所有文本数据词向量中的特征词的 文件词频-逆向文件频率TF-IDF值;
[0011]确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词;
[0012] 根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。
[0013] 另一实施例中,所述计算每个聚类集合中的所有文本数据词向量中的特征词在所 述聚类集合中的词频,以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类 集合之外的其它聚类集合中的逆向文件频率,得到所述聚类集合中的所有文本数据词向量 中的特征词的文件词频-逆向文件频率TF-IDF值,包括:
[0014] 根据TFXIDF得到所述聚类集合中的所有文本数据词向量中的特征词的文件词 频-逆向文件频率TF-IDF值,其中,TF表示所述聚类集合中的所有文本数据词向量中的特征 词在所述聚类集合中的出现频率,IDF表示所述聚类集合中的所有文本数据词向量中的特 征词在所述聚类集合外的其它聚类集合中的出现频率
,nlk为第i个聚 类集合中包含特征词k的文本数量,Si为第i个聚类集合中的文本数据词向量的总数,n~ik为 在第i个聚类集合之外的其它聚类集合中包含特征词k的文本数量,为在第i个聚类集合 之外的其它聚类集合中的文本数据词向量的总数;i和k为大于等于1的整数。
[0015] 另一实施例中,所述计算所述文本数据词向量到所述聚类关键词向量的距离包 括:
[0016] 根据
?计算第m个文本数据词向量到第η个聚类关键词向量的距 离,其中,Cm表示所述第m个文本数据词向量,cn表示所述第η个聚类关键词向量,m及η为大于 等于1的整数。
[0017] 另一实施例中,所述根据每个文本数据词向量到所述聚类关键词向量的距离确定 所述文本数据词向量的聚类类型包括:确定与所述文本数据词向量相距距离最小的聚类关 键词为所述文本数据词向量的聚类类型。
[0018] 另一实施例中,所述将TF-IDF值满足设定条件的特征词作为所述聚类集合的更新 后的聚类关键词包括:
[0019] 将TF-IDF值最大的前五个特征词作为所述第i个聚类集合更新后的聚类关键词。 [0020]另一实施例中,所述将TF-IDF值满足设定条件的特征词作为所述聚类集合的更新 后的聚类关键词之前,还包括:对所述第i个聚类集合中的所有文本数据词向量中的特征词 的文件词频-逆向文件频率TF-IDF值进行排序,去除所述设定的聚类关键词中已经包括在 所述第i个聚类集合中的特征词以及TF-IDF值小于设定阈值的特征词。
[0021 ]另一实施例中,所述设定阈值大于等于10。
[0022] 另一实施例中,所述设定的聚类关键词有多个,所述多个聚类关键词之间具有语 义上的互斥关系。
[0023] 本发明实施例提供的一种面向图书市场书名的短文本聚类方法,通过对文本数据 及设定的聚类关键词进行词向量化,计算文本数据词向量到所述聚类关键词向量的距离, 根据根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的 聚类类型,根据所述文本数据的聚类类型将所述文本数据词向量划分到对应的聚类集合; 然后计算每个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率 TF-IDF值,确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键 词;根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。采用本发明实施 例提供的短文本聚类方法,根据用户需求提前设定所述聚类关键词的数量及内容的初始 值,并使用改进的TF-IDF算法,体现出特征词在不同聚类中的重要性,能够更加准确地确定 文本数据词向量的聚类类型,使聚类结果能够更接近用户的实际需求。
【附图说明】
[0024] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以 根据这些附图获得其他的附图。
[0025] 图1为本发明实施例一种面向图书市场书名的短文本聚类方法的流程示意图。
[0026] 图2为本发明实施例一种面向图书市场书名的短文本聚类方法的另一种流程示意 图。
【具体实施方式】
[0027] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0028]随着互联网电子商务网站的迅速发展,将商品进行自动化分类成为了互联网电子 商务网站的基本需求。针对于商品的分类,现有技术通常采用K均值(K-means)聚类算法对 商品进行分类。但是,传统的k-means聚类算法,聚类关键词的数目不可预测,且采用不同的 初始聚类关键词得到的聚类结果往往会有较大偏差,如果聚类关键词选择了密集数据的边 缘区域或者噪声数据,会对聚类结果造成极大影响。
[0029] 基于此,本发明实施例提供一种短文本聚类方法,用于对大量的文本数据进行分 类。本发明实施例提供的短文本聚类方法基于设置初始聚类关键词向量及聚类关键词向量 的扩展算法,有效的提高了 K-MEANS算法在短文本聚类时的准确率,使聚类结果更接近于使 用者的实际需求。
[0030] 图1为本发明实施例一种面向图书市场书名的短文本聚类方法的流程示意图。图2 为本发明实施例一种面向图书市场书名的短文本聚类方法的另一种流程示意图。请参阅图 1及图2,所述方法包括:
[0031] S101:对文本数据及设定的聚类关键词进行词向量化,形成文本数据词向量及聚 类关键词向量;
[0032] 具体地,所述设定的聚类关键词有多个,所述多个聚类关键词之间具有语义上的 互斥关系。例如,计算机,数学,化学。所述设定的聚类关键词的数量及内容由用户输入。 [0033]将所述设定的聚类关键词向量化,将每个聚类关键词转化为一个聚类关键词向 量,所述聚类关键词向量使用HASHSET数据结构存储。
[0034]对于数据库中的每一条文本数据,首先使用结巴分词开源库将所述文本数据进行 最大化分词。对于分词后的结果,只保留名词与动词,将其他连词,介词等无法作为特征词 的分词结果舍掉,并将所述文本数据进行词向量化,形成文本数据词向量,使用HASHSET数 据结构存储。
[0035] S102:计算文本数据词向量到所述聚类关键词向量的距离;
[0036] 计算每一条文本数据词向量与所述聚类关键词向量之间的距离,遍历每一条文本 数据词向量中的每一个特征词,在所述聚类关键词向量中查询是否存在所述特征词,若存 在,则所述文本数据词向量与所述聚类关键词向量点积加1。
[0037] 具体地,根据
十算第m个文本数据词向量到第η个聚类关键词向 量的距离,其中,Cm表示所
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1