一种语言模型的训练方法及装置与流程

文档序号：17741084发布日期：2019-05-24 20:06阅读：来源：国知局

技术特征：

技术总结
本申请公开了一种语言模型的训练方法及装置，所述方法包括：在获取到包括大量样本文本的语言模型训练数据后，可以将这些样本文本进行分词处理，以得到每一分词的分词标签，其中，分词标签包括对应分词中的每一字在对应分词中的位置信息，接着，可以根据这些样本文本中每一分词的分词标签，对语言模型进行训练。可见，本申请将样本文本的分词标签作为训练数据对语言模型进行训练，使得训练语言模型所使用的数据更为全面，从而能够降低语言模型的PPL值，提升了语言模型的效果。

技术研发人员：李长亮;徐智涛;齐济
受保护的技术使用者：北京金山数字娱乐科技有限公司;北京金山软件有限公司
技术研发日：2019.01.29
技术公布日：2019.05.24