一种基于词矢量的短文本分类模型生成方法与分类方法

文档序号：9579334阅读：226来源：国知局

一种基于词矢量的短文本分类模型生成方法与分类方法
【技术领域】
[0001]本发明涉及文本挖掘领域，特别涉及一种基于词矢量的短文本分类模型生成方法与分类方法。
【背景技术】
[0002]随着互联网技术的飞速发展，大量文本信息及数据涌现。为了有效地管理和利用这些信息，基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中，文本分类技术是信息检索和文本挖掘的重要基础，其主要任务是在预先给定的类别标记集合下，根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域发挥着重要的作用。
[0003]然而，最近由于社交网络和电子商务的发展，诸如微博、即时信息、商品评价、影评等短文本形式的文本数据爆炸式地增长，所谓的短文本通常是一句简单的话，它具有包含的字数较少，不便于统计等特点。如何能够从这些短文本中提取出有用信息，根据这些有用信息更好地为用户提供服务成为互联网服务的关键。例如，如果一个用户在微博中经常发一些关于计算机方面的状态，那么我们可以自动地向他推荐一些计算机方面的产品、文章、评论等，更好地满足用户的需求。传统的文本分类方法通常是通过计算每个字、词或短语在特定领域下出现的次数及概率(即简单地来讲是数数机制)来实现文本分类，但是对于新的文本数据，由于有些字或词未在之前出现过，那么往往会被忽略。这种简单的计数机制没有充分地考虑文本语义层面上的信息。

【发明内容】

[0004]本发明的目的在于克服现有技术中的文本分类方法不适用于短文本的缺陷，从而提供一种适用于短文本的分类方法。
[0005]为了实现上述目的，本发明提供了一种基于词矢量的短文本分类模型生成方法，包括:
[0006]步骤101)、采集数据，并对所采集的数据进行领域标注，将这些已标注的数据作为训练数据；
[0007]步骤102)、对训练数据做预处理；
[0008]步骤103)、查询词矢量词典，将训练数据中所包含的文本数据转化为向量数据，并且将所述向量数据按照领域进行分隔；
[0009]步骤104)、对每一个领域内的向量数据采用高斯模型进行模型训练，得到高斯模型参数的最优值，从而得到该领域所对应的高斯模型；所有训练数据的各个领域所对应的高斯模型组成分类模型。
[0010]上述技术方案中，还包括:
[0011]步骤105)、采集并标注数据，将这些已标注的数据作为测试数据；将所述测试数据应用于步骤104)所得到的训练模型，由所述训练模型所生成的结果验证训练模型的有效性，如果训练模型不合适，进行参数调优。
[0012]上述技术方案中，在步骤101)之前还包括:
[0013]从互联网中抓取大量的网页文本文件，对网页文本文件中的文本数据进行词矢量训练，得到一个包含有描述词与矢量对应关系的词典。
[0014]上述技术方案中，在步骤102)中，所述预处理包括:剔除训练数据中的无效数据，去除停用词。
[0015]上述技术方案中，在步骤102)中，所述预处理还包括对中文数据做分词操作。
[0016]上述技术方案中，所述高斯模型的参数包括高斯均值与方差，高斯模型参数的最优值是指能够使准确率达到最高的参数值。
[0017]本发明还提供了一种基于词矢量的短文本分类方法，包括:
[0018]步骤201)、输入所要检测的文本数据，对这些待检测的文本数据做预处理；
[0019]步骤202)、将待检测的文本数据输入所述基于词矢量的短文本分类模型生成方法所得到的训练模型中与各个领域相对应的高斯模型，得到这一文本数据通过各个高斯模型后所生成的后验概率，将后验概率最大的那个高斯模型所对应的领域信息作为待检测文本数据的分类结果。
[0020]上述技术方案中，所述预处理包括:剔除训练数据中的无效数据，去除停用词。[0021 ] 上述技术方案中，所述预处理还包括对中文数据做分词操作。
[0022]本发明的优点在于:
[0023]本发明的方法通过建立基于词矢量的分类模型实现短文本的分类，具有分类较高好、识别度高的优点。
【附图说明】
[0024]图1是本发明的分类模型生成方法的流程图；
[0025]图2是本发明的分类方法的流程图。
【具体实施方式】
[0026]为了便于理解，首先对本发明中所涉及的概念加以说明。
[0027]词矢量:用一个数学上的列向量来表示一个词。一个词所对应的列向量可通过训练大批量的语料，然后利用诸如word2vec的开源工具处理这些语料得到。
[0028]词矢量词典:用于记录词矢量的词典。
[0029]现结合附图对本发明作进一步的描述。
[0030]本发明的方法包括训练阶段与分类阶段，所述分类阶段主要利用已标注的数据训练分类模型，而在分类阶段则利用已训练的分类模型对所要检测的文本数据进行分类。下面分别对这两个阶段所要完成的工作分别加以说明。
[0031]参考图1，本发明的方法在训练阶段包括下列步骤:
[0032]步骤101)、采集数据，并对所采集的数据进行标注，将这些已标注的数据作为训练数据。
[0033]本步骤在采集数据时，可根据应用的需求确定所采集数据的类型。例如，若本发明的方法需应用于一与金融业有关的应用，则在采集数据时应当尽可能地采集一些金融领域的短文本。所采集数据的数量可根据需要而定，一般来说，数据的采集量越大，训练得到的分类模型越准确。
[0034]对所采集的数据进行标注是指对收集到的短文本打上领域标签，所述的领域标签能够反映数据所处的领域。比如，对于如下的一个短文本:“Fitbit推出WP应用:成首款支持WP的智能手环”可标注“计算机”领域标签。
[0035]步骤102)、对训练数据做预处理，所述预处理包括:剔除训练数据中的无效数据(如标点、格式符等)，去除停用词(如“的”、“这个”、“那个”等一些没有实质意义的词)。
[0036]特别的，对于中文数据还需要做分词操作，如何对中文数据做分词操作为本领域技术人员所公知，此处不再重复。
[0037]步骤103)、查询词矢量词典，将训练数据中所包含的文本数据转化为向量数据，并且按照领域进行分隔。
[0038]在之前的步骤101)中，训练数据中所包含的文本数据带有领域标签，在将文本数据转化为向量数据后，这些向量数据

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张艳;马成龙;潘接林;颜永红;
技术所有人：中国科学院声学研究所;北京中科信利技术有限公司;
我是此专利的发明人

上一篇：基于计算机网络的专家问答系统及其构建方法
上一篇：布局显示方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。