技术特征:
技术总结
本发明提出一种基于字符对编码的词向量存储空间压缩的方法,具体方式为:步骤1,选取预处理完毕的语料,获得所述语料中每个词语的子词构成,在所述语料中的词语后插入它相对应的子词表示,构成一个新语料集;步骤2,使用所述新语料集训练出每个词语词向量集{Wi}与子词的词向量集{Si};步骤3,使用所述子词的词向量集S作为基词向量集,为每一个原词语训练出基于所述基词向量集的线性组合,使用该线性组合结果作为原词向量的表达。
技术研发人员:李建欣;包梦蛟;谢一凡;彭浩;胡春明
受保护的技术使用者:北京航空航天大学
技术研发日:2019.02.13
技术公布日:2019.05.28