1.一种基于词向量的中文年报标题分类方法,具体步骤为:
步骤1、输入企业年报数据集;
步骤2、对数据进行人工标注,并划分训练集;
步骤3、对数据进行预处理,并训练word2vector模型;
步骤4、待抽取标题的年报通过word2vector模型进行计算特征向量;
步骤5、通过分类抽取得到目录。
2.根据权利要求1所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤3预处理具体为分词和去掉停用词。
3.根据权利要求1所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤3中word2vector模型采用cbow模型,具体步骤为:
a、定窗口大小k,将窗口内除中心词wt外的所有词语分别生成独热向量;
b、将输入权重矩阵与独热向量相乘,得到每个词语的输入向量;
c、计算这2k个上下文词语词向量的平均值;
d、通过输出词向量矩阵乘以上下文词向量得到一个分数向量;
e、利用函数将分数向量转化为概率分布;
f、利用交叉熵作为损失函数,通过随机梯度下降算法优化输入权重矩阵和输出词向量矩阵。
4.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤a中独热向量可通过对词语的词典序进行独热编码生成。
5.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤e中所述函数具体为softmax函数。
6.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤c中所述平均值用以表示上下文词向量。