一种面向图书市场书名的短文本聚类方法

文档序号：9750953阅读：547来源：国知局

一种面向图书市场书名的短文本聚类方法
【技术领域】
[0001] 本发明涉及计算机技术领域，尤其涉及一种面向图书市场书名的短文本聚类方法。
【背景技术】
[0002] 随着在互联网对传统行业的深度改造，互联网电子商务网站迅速发展，网上购物成了潮流。电商网站拥有海量的商品。由于网上的商品信息错综复杂，分类繁琐，更新比率快，对商品进人工标注往往会耗费大量的人力，因此自动化的将商品进行分类成为了电商的基本需求。针对于商品的分类，国内外往往采用数据挖掘的方法进行操作。
[0003] 现有技术中，通常采用K均值(K-means)聚类算法对商品进行分类。K-means算法是无监督聚类算法，是基于数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。例如，在短文本聚类领域，针对书籍名称进行聚类时，通过K-means算法随机选定k个聚类关键词，计算每个书籍名称相对于选定聚类关键词的距离，选取距离最小的聚类关键词作为书籍名称的类，根据每一类中书籍名称的平均值，重新计算每个聚类关键词，重复进行以上过程，直到每个类中的书籍名称不再变化。
[0004] 但是，采用传统的k-means聚类算法，聚类关键词的数目不可预测，且采用不同的初始聚类关键词得到的聚类结果往往会有较大偏差，如果聚类关键词选择了密集数据的边缘区域或者噪声数据，会对聚类结果造成极大影响。

【发明内容】

[0005] 本发明实施例提供一种面向图书市场书名的短文本聚类方法，用于解决现有技术中的聚类方法不能准确地对图书市场书名进行聚类的问题。
[0006] 本发明实施例提供一种面向图书市场书名的短文本聚类方法，包括：
[0007] 对文本数据及设定的聚类关键词进行词向量化，形成文本数据词向量及聚类关键词向量；
[0008] 计算文本数据词向量到所述聚类关键词向量的距离；
[0009] 根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型，根据所述文本数据词向量的聚类类型将所述文本数据词向量划分到对应的聚类集合；
[0010] 计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率，以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率，得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值；
[0011]确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词；
[0012] 根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。
[0013] 另一实施例中，所述计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的词频，以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率，得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，包括：
[0014] 根据TFXIDF得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，其中，TF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率，IDF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合外的其它聚类集合中的出现频率
，nlk为第i个聚类集合中包含特征词k的文本数量，Si为第i个聚类集合中的文本数据词向量的总数，n~ik为在第i个聚类集合之外的其它聚类集合中包含特征词k的文本数量，为在第i个聚类集合之外的其它聚类集合中的文本数据词向量的总数;i和k为大于等于1的整数。
[0015] 另一实施例中，所述计算所述文本数据词向量到所述聚类关键词向量的距离包括：
[0016] 根据
?计算第m个文本数据词向量到第η个聚类关键词向量的距离，其中，Cm表示所述第m个文本数据词向量，cn表示所述第η个聚类关键词向量，m及η为大于等于1的整数。
[0017] 另一实施例中，所述根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型包括:确定与所述文本数据词向量相距距离最小的聚类关键词为所述文本数据词向量的聚类类型。
[0018] 另一实施例中，所述将TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词包括：
[0019] 将TF-IDF值最大的前五个特征词作为所述第i个聚类集合更新后的聚类关键词。 [0020]另一实施例中，所述将TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词之前，还包括:对所述第i个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值进行排序，去除所述设定的聚类关键词中已经包括在所述第i个聚类集合中的特征词以及TF-IDF值小于设定阈值的特征词。
[0021 ]另一实施例中，所述设定阈值大于等于10。
[0022] 另一实施例中，所述设定的聚类关键词有多个，所述多个聚类关键词之间具有语义上的互斥关系。
[0023] 本发明实施例提供的一种面向图书市场书名的短文本聚类方法，通过对文本数据及设定的聚类关键词进行词向量化，计算文本数据词向量到所述聚类关键词向量的距离，根据根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型，根据所述文本数据的聚类类型将所述文本数据词向量划分到对应的聚类集合；然后计算每个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率 TF-IDF值，确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词;根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。采用本发明实施例提供的短文本聚类方法，根据用户需求提前设定所述聚类关键词的数量及内容的初始值，并使用改进的TF-IDF算法，体现出特征词在不同聚类中的重要性，能够更加准确地确定文本数据词向量的聚类类型，使聚类结果能够更接近用户的实际需求。
【附图说明】
[0024] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0025] 图1为本发明实施例一种面向图书市场书名的短文本聚类方法的流程示意图。
[0026] 图2为本发明实施例一种面向图书市场书名的短文本聚类方法的另一种流程示意图。
【具体实施方式】
[0027] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0028]随着互联网电子商务网站的迅速发展，将商品进行自动化分类成为了互联网电子商务网站的基本需求。针对于商品的分类，现有技术通常采用K均值(K-means)聚类算法对商品进行分类。但是，传统的k-means聚类算法，聚类关键词的数目不可预测，且采用不同的初始聚类关键词得到的聚类结果往往会有较大偏差，如果聚类关键词选择了密集数据的边缘区域或者噪声数据，会对聚类结果造成极大影响。
[0029] 基于此，本发明实施例提供一种短文本聚类方法，用于对大量的文本数据进行分类。本发明实施例提供的短文本聚类方法基于设置初始聚类关键词向量及聚类关键词向量的扩展算法，有效的提高了 K-MEANS算法在短文本聚类时的准确率，使聚类结果更接近于使用者的实际需求。
[0030] 图1为本发明实施例一种面向图书市场书名的短文本聚类方法的流程示意图。图2 为本发明实施例一种面向图书市场书名的短文本聚类方法的另一种流程示意图。请参阅图 1及图2，所述方法包括：
[0031] S101:对文本数据及设定的聚类关键词进行词向量化，形成文本数据词向量及聚类关键词向量；
[0032] 具体地，所述设定的聚类关键词有多个，所述多个聚类关键词之间具有语义上的互斥关系。例如，计算机，数学，化学。所述设定的聚类关键词的数量及内容由用户输入。 [0033]将所述设定的聚类关键词向量化，将每个聚类关键词转化为一个聚类关键词向量，所述聚类关键词向量使用HASHSET数据结构存储。
[0034]对于数据库中的每一条文本数据，首先使用结巴分词开源库将所述文本数据进行最大化分词。对于分词后的结果，只保留名词与动词，将其他连词，介词等无法作为特征词的分词结果舍掉，并将所述文本数据进行词向量化，形成文本数据词向量，使用HASHSET数据结构存储。
[0035] S102:计算文本数据词向量到所述聚类关键词向量的距离；
[0036] 计算每一条文本数据词向量与所述聚类关键词向量之间的距离，遍历每一条文本数据词向量中的每一个特征词，在所述聚类关键词向量中查询是否存在所述特征词，若存在，则所述文本数据词向量与所述聚类关键词向量点积加1。
[0037] 具体地，根据
十算第m个文本数据词向量到第η个聚类关键词向量的距离，其中，Cm表示所

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李欢;孙阳;刘海星;张立;尤树林;
技术所有人：北京航空航天大学;化学工业出版社;
我是此专利的发明人

上一篇：网页显示方法及装置的制造方法
上一篇：一种构建垃圾文件的方法、装置及电子设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。