一种基于词向量的中文年报标题分类方法与流程

文档序号：22246531发布日期：2020-09-15 20:28阅读：来源：国知局

技术特征：

1.一种基于词向量的中文年报标题分类方法，具体步骤为：

步骤1、输入企业年报数据集；

步骤2、对数据进行人工标注，并划分训练集；

步骤3、对数据进行预处理，并训练word2vector模型；

步骤4、待抽取标题的年报通过word2vector模型进行计算特征向量；

步骤5、通过分类抽取得到目录。

2.根据权利要求1所述的一种基于词向量的中文年报标题分类方法，其特征在于：步骤3预处理具体为分词和去掉停用词。

3.根据权利要求1所述的一种基于词向量的中文年报标题分类方法，其特征在于：步骤3中word2vector模型采用cbow模型，具体步骤为：

a、定窗口大小k，将窗口内除中心词wt外的所有词语分别生成独热向量；

b、将输入权重矩阵与独热向量相乘，得到每个词语的输入向量；

c、计算这2k个上下文词语词向量的平均值；

d、通过输出词向量矩阵乘以上下文词向量得到一个分数向量；

e、利用函数将分数向量转化为概率分布；

f、利用交叉熵作为损失函数，通过随机梯度下降算法优化输入权重矩阵和输出词向量矩阵。

4.根据权利要求3所述的一种基于词向量的中文年报标题分类方法，其特征在于：步骤a中独热向量可通过对词语的词典序进行独热编码生成。

5.根据权利要求3所述的一种基于词向量的中文年报标题分类方法，其特征在于：步骤e中所述函数具体为softmax函数。

6.根据权利要求3所述的一种基于词向量的中文年报标题分类方法，其特征在于：步骤c中所述平均值用以表示上下文词向量。

技术总结
发明公开了一种基于词向量的中文年报标题分类方法，具体步骤为：步骤1、输入企业年报数据集，步骤2、对数据进行人工标注，并划分训练集，步骤3、对数据进行预处理，并训练Word2vector模型，步骤4、待抽取标题的年报通过Word2vector模型进行计算特征向量，步骤5、通过分类抽取得到目录，步骤3预处理具体为分词和去掉停用词，步骤3中Word2vector模型采用CBOW模型，本发明涉及标题分类技术领域。该基于词向量的中文年报标题分类方法，解决了传统的人工提取方式需要耗费巨大的人力和时间成本，而词向量的抽取方法效果差，准确力低的问题。

技术研发人员：梁倬骞;潘定;曹志鹏
受保护的技术使用者：暨南大学
技术研发日：2020.06.11
技术公布日：2020.09.15

完整全部详细技术资料下载

当前第2页1 2