本发明具体涉及到一种自动发现音频关键词到分类映射关系的方法。
背景技术:
音频节目相关的文本信息包括音频题目和音频简介信息,用户可能因为慵懒不去上传音频简介信息。可用的音频文本信息一般只有题目信息。音频题目有个很明显的特点,一般是几个词甚至一个词,比如一个音频起名叫《今日头条》。利用这么短的文本很难做模型分类,所以,通过关键字映射到分类的一种常用的音频分类的方法。如何能找到更多的关键词到分类的映射,是上述算法的关键。
技术实现要素:
针对上述现有技术存在的缺陷,本发明要解决的技术问题是:利用word2vec自动发现关键词到分类的映射关系,降低了通过运营标注成本,后续流程可提高音频分类的覆盖率。
一种自动发现音频关键词到分类映射关系的方法,包括如下步骤:
人工标注关键词到分类映射关系数据中,建立人工标注分类数据库;
获取公开的word2vec数据,预训练word2vec;
利用人工标注分类数据库以及word2vec,计算各个分类下关键词的相似词并加入到对应分类的关键词中。
进一步地,所述人工标注分类数据库产出数据格式如下:
民俗{“中元节”,“立春吃春饼”,“民俗类”,“端午常识”,“节日文化”,“年俗”,“重阳节”,“赛龙舟”,“京味儿趣事”,“民俗文化”,“风物人情”,“天津民俗”,“民俗禁忌”};
民俗是分类数据,大括号内的词是民俗分类下的关键词,表示的意义是:若一个音频节目题目中包含了大括号内的词中的一个,则这个节目的分类就是民俗。
进一步地,所述word2vec是一种利用低维度向量数据表示词含义的方法,相似词的向量表示之间的距离会比不相似词之间的距离大。
进一步地,根据word2vec的性质,可以找出各个分类下关键词相似的新关键词,通过验证后加入到对应的分类关键词中。
进一步地,所述验证步骤为:将新关键词与多个已有关键词进行比较,以防止误判。
与现有技术相比,本发明的至少包括以下有益效果:
1.能够找出更丰富的映射关系;
2.有效的降低人工成本;
3.可自动迭代。
附图说明
图1为本发明一种自动发现音频关键词到分类映射关系的方法的流程图。
具体实施方式
以下实施例对本发明进行说明,但本发明并不受这些实施例所限制。对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换,而不脱离本发明方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
如图1所示,一种自动发现音频关键词到分类映射关系的方法,包括如下步骤:
步骤s100:人工标注关键词到分类映射关系数据中,建立人工标注分类数据库;
步骤s101:获取公开的word2vec数据,预训练word2vec;
步骤s102:利用人工标注分类数据库以及word2vec,计算各个分类下关键词的相似词并加入到对应分类的关键词中。
通过word2vec能够找出更丰富的映射关系,有效的降低人工成本,而且可以自动迭代。
本发明所述人工标注分类数据库产出数据格式如下:
民俗{“中元节”,“立春吃春饼”,“民俗类”,“端午常识”,“节日文化”,“年俗”,“重阳节”,“赛龙舟”,“京味儿趣事”,“民俗文化”,“风物人情”,“天津民俗”,“民俗禁忌”};
民俗是分类数据,大括号内的词是民俗分类下的关键词,表示的意义是:若一个音频节目题目中包含了大括号内的词中的一个,则这个节目的分类就是民俗,例如,如果一个音频节目题目中包含了“赛龙舟”,则这个节目的分类就是民俗。
本发明所述word2vec是一种利用低维度向量数据表示词含义的方法,相似词的向量表示之间的距离会比不相似词之间的距离大,例如“今日头条”和“微信”之间的向量距离大于“微信”和“北京”之间的距离,通过向量距离能够判断相似词。
本发明根据word2vec的性质,可以找出各个分类下关键词相似的新关键词,通过验证后加入到对应的分类关键词中,例如,根据word2vec计算出,“生活习俗”和民俗下多个关键词都很相似,将“生活习俗”也加入到民俗分类的关键词中。
本发明所述验证步骤为:将新关键词与多个已有关键词进行比较,以防止误判,这是为了防止添加一些无关的关键词,例如“风物人情”和“地方特产”word2vec的词向量距离很小,但却不是民俗分类的关键词。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
1.一种自动发现音频关键词到分类映射关系的方法,其特征在于,包括如下步骤:
人工标注关键词到分类映射关系数据中,建立人工标注分类数据库;
获取公开的word2vec数据,预训练word2vec;
利用人工标注分类数据库以及word2vec,计算各个分类下关键词的相似词并加入到对应分类的关键词中。
2.根据权利要求1所述一种自动发现音频关键词到分类映射关系的方法,其特征在于:所述人工标注分类数据库产出数据格式如下:
民俗{“中元节”,“立春吃春饼”,“民俗类”,“端午常识”,“节日文化”,“年俗”,“重阳节”,“赛龙舟”,“京味儿趣事”,“民俗文化”,“风物人情”,“天津民俗”,“民俗禁忌”};
民俗是分类数据,大括号内的词是民俗分类下的关键词,表示的意义是:若一个音频节目题目中包含了大括号内的词中的一个,则这个节目的分类就是民俗。
3.根据权利要求2所述一种自动发现音频关键词到分类映射关系的方法,其特征在于:所述word2vec是一种利用低维度向量数据表示词含义的方法,相似词的向量表示之间的距离会比不相似词之间的距离大。
4.根据权利要求3所述一种自动发现音频关键词到分类映射关系的方法,其特征在于:根据word2vec的性质,可以找出各个分类下关键词相似的新关键词,通过验证后加入到对应的分类关键词中。
5.根据权利要求4所述一种自动发现音频关键词到分类映射关系的方法,其特征在于,所述验证步骤为:将新关键词与多个已有关键词进行比较,以防止误判。