一种基于词向量的中文年报标题分类方法与流程

文档序号:22246531发布日期:2020-09-15 20:28阅读:来源:国知局

技术特征:

1.一种基于词向量的中文年报标题分类方法,具体步骤为:

步骤1、输入企业年报数据集;

步骤2、对数据进行人工标注,并划分训练集;

步骤3、对数据进行预处理,并训练word2vector模型;

步骤4、待抽取标题的年报通过word2vector模型进行计算特征向量;

步骤5、通过分类抽取得到目录。

2.根据权利要求1所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤3预处理具体为分词和去掉停用词。

3.根据权利要求1所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤3中word2vector模型采用cbow模型,具体步骤为:

a、定窗口大小k,将窗口内除中心词wt外的所有词语分别生成独热向量;

b、将输入权重矩阵与独热向量相乘,得到每个词语的输入向量;

c、计算这2k个上下文词语词向量的平均值;

d、通过输出词向量矩阵乘以上下文词向量得到一个分数向量;

e、利用函数将分数向量转化为概率分布;

f、利用交叉熵作为损失函数,通过随机梯度下降算法优化输入权重矩阵和输出词向量矩阵。

4.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤a中独热向量可通过对词语的词典序进行独热编码生成。

5.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤e中所述函数具体为softmax函数。

6.根据权利要求3所述的一种基于词向量的中文年报标题分类方法,其特征在于:步骤c中所述平均值用以表示上下文词向量。


技术总结
发明公开了一种基于词向量的中文年报标题分类方法,具体步骤为:步骤1、输入企业年报数据集,步骤2、对数据进行人工标注,并划分训练集,步骤3、对数据进行预处理,并训练Word2vector模型,步骤4、待抽取标题的年报通过Word2vector模型进行计算特征向量,步骤5、通过分类抽取得到目录,步骤3预处理具体为分词和去掉停用词,步骤3中Word2vector模型采用CBOW模型,本发明涉及标题分类技术领域。该基于词向量的中文年报标题分类方法,解决了传统的人工提取方式需要耗费巨大的人力和时间成本,而词向量的抽取方法效果差,准确力低的问题。

技术研发人员:梁倬骞;潘定;曹志鹏
受保护的技术使用者:暨南大学
技术研发日:2020.06.11
技术公布日:2020.09.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1