1.自适应广播电视新闻关键词标准化方法,其特征在于,包括:
步骤a,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库。
2.根据权利要求1所述的自适应广播电视新闻关键词标准化方法,其特征在于,所述候选关键词按照如下步骤获取:通过基于训练好的关键词抽取模型对输入的广播电视新闻进行预测,获得关键词抽取结果,对抽取结果进行黑名单过滤形成候选关键词。
3.根据权利要求2所述的自适应广播电视新闻关键词标准化方法,其特征在于,在进行黑名单过滤前,对提取到的关键词进行如下处理:去除冗余、标点分割和通顺分析处理。
4.根据权利要求1所述的自适应广播电视新闻关键词标准化方法,其特征在于,所述基于基础关键词库标准化候选关键词,包括:
步骤a1,获取多个新闻文本语料,构建用于训练fasttext词向量模型的学习样本;
步骤a2,基于步骤a1所构建的学习样本进行fasttext词向量模型的训练,获得词向量模型;
步骤a3,利用步骤a2中训练好的fasttext词向量模型,以及结合近似最近邻方法hnswlib构建候选关键词标准化模型,利用所述候选关键词模型标准化模型获取输入候选关键词在基础关键词库中的前k个相似词及相互之间的距离;在距离小于设定阈值的相似词中选择距离与候选关键词最近的作为其标准化结果返回给用户;
步骤a4,将利用候选关键词标准化模型召回的相似词距离都大于阈值的候选关键词加入白名单,供后续基础关键词库扩充准备。
5.根据权利要求1所述的自适应广播电视新闻关键词标准化方法,其特征在于,所述对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库,包括:
步骤b1,利用步骤a1中训练好的fasttext词向量模型获取白名单中所有词的词向量,基于词向量对白名单内的词进行聚类分析,获得词簇
步骤b2,对每个词簇
6.根据权利要求5所述的自适应广播电视新闻关键词标准化方法,其特征在于,在步骤b2中,对每个词簇