自适应广播电视新闻关键词标准化方法与流程

文档序号:25518497发布日期:2021-06-18 20:04阅读:来源:国知局

技术特征:

1.自适应广播电视新闻关键词标准化方法,其特征在于,包括:

步骤a,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库。

2.根据权利要求1所述的自适应广播电视新闻关键词标准化方法,其特征在于,所述候选关键词按照如下步骤获取:通过基于训练好的关键词抽取模型对输入的广播电视新闻进行预测,获得关键词抽取结果,对抽取结果进行黑名单过滤形成候选关键词。

3.根据权利要求2所述的自适应广播电视新闻关键词标准化方法,其特征在于,在进行黑名单过滤前,对提取到的关键词进行如下处理:去除冗余、标点分割和通顺分析处理。

4.根据权利要求1所述的自适应广播电视新闻关键词标准化方法,其特征在于,所述基于基础关键词库标准化候选关键词,包括:

步骤a1,获取多个新闻文本语料,构建用于训练fasttext词向量模型的学习样本;

步骤a2,基于步骤a1所构建的学习样本进行fasttext词向量模型的训练,获得词向量模型;

步骤a3,利用步骤a2中训练好的fasttext词向量模型,以及结合近似最近邻方法hnswlib构建候选关键词标准化模型,利用所述候选关键词模型标准化模型获取输入候选关键词在基础关键词库中的前k个相似词及相互之间的距离;在距离小于设定阈值的相似词中选择距离与候选关键词最近的作为其标准化结果返回给用户;

步骤a4,将利用候选关键词标准化模型召回的相似词距离都大于阈值的候选关键词加入白名单,供后续基础关键词库扩充准备。

5.根据权利要求1所述的自适应广播电视新闻关键词标准化方法,其特征在于,所述对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库,包括:

步骤b1,利用步骤a1中训练好的fasttext词向量模型获取白名单中所有词的词向量,基于词向量对白名单内的词进行聚类分析,获得词簇,这里,k为聚类数,表示词簇中的词总量;

步骤b2,对每个词簇进行分析,获得代表词,用于扩充基础关键词库。

6.根据权利要求5所述的自适应广播电视新闻关键词标准化方法,其特征在于,在步骤b2中,对每个词簇进行分析包括如下步骤:先利用每个词簇内的词构建hnswlib索引,然后计算每个词簇的候选中心词词向量,最后在中检索与最近的词作为代表词返回给用户,由用户判定是否将其加入基础关键词库;其中,表示取词向量的加和平均。


技术总结
本发明公开了自适应广播电视新闻关键词标准化方法,包括步骤:步骤A,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库等;本发明作为利用智能化技术为广播电视新闻进行自动化内容标签标引的方法,在考虑用户实际业务需求的前提下,自适应地进行关键词的标准化和特色词库的扩展,可以更准确地组织和管理媒体资源,提高管理效率等。

技术研发人员:温序铭;朱婷婷;杨瀚;严照宇;陈智
受保护的技术使用者:成都索贝数码科技股份有限公司
技术研发日:2021.04.26
技术公布日:2021.06.18
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1