音频文件标签生成方法和系统的制作方法_3

文档序号:9417502阅读:来源:国知局
生词库303中保存标签库302中未包含的音频文件中提取的关键词;
[0094] 逆文档频率库304中保存包含关键词的文字信息数;
[0095] 用户信息库305中保存用户通过客户端上传的用户信息及用户播放音频文件的 记录。
[0096] 上述音频文件标签生成系统,通过标签生成服务器根据音频文件库中的数据生成 音频文件标签及音频文件-标签关系;通过音频文件展示服务器根据用户操作从音频文件 库中提取数据,并将所述数据展示到客户端;并通过系统管理服务器提供音频文件数据管 理服务,提供了一种智能化的音频文件标签生成系统,实现了真正的歌曲标签智能生成,效 率高,准确性高。
[0097] 本发明的歌曲标签生成系统与本发明的歌曲标签生成方法--对应,在上述歌曲 标签生成方法的实施例阐述的技术特征及其有益效果均适用于歌曲标签生成系统的实施 例中,特此声明。
[0098] 以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实 施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存 在矛盾,都应当认为是本说明书记载的范围。
[0099] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并 不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来 说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护 范围。因此,本发明专利的保护范围应以所附权利要求为准。
【主权项】
1. 一种音频文件标签生成方法,其特征在于,包括以下步骤: 将需要进行标签设置的音频文件及音频文件的内容中包含的文字信息录入音频文件 库、将常用标签录入标签库、将常用关键词录入关键词库; 根据常用关键词与常用标签的关联程度,为常用关键词设置标签,得到常用关键 词-标签关系;其中,所述关键词-标签关系表示关键词与对应标签之间的对应关系; 对所述文字信息进行分词,得到若干个词语,计算各词语的TF-IDF值,并根据TF-IDF 值的大小获取所述音频文件的关键词;其中,所述TF-IDF值表示词语的词频与逆文档频率 的乘积; 根据常用关键词-标签关系查询音频文件的关键词对应的标签;若查询到对应标签, 将首频文件与对应标签进彳丁关联; 为生词生成新标签,并关联所述生词与所述新标签,将所述新标签设为音频文件的标 签;其中,所述生词为未查询到对应标签的音频文件的关键词。2. 根据权利要求1所述的音频文件标签生成方法,其特征在于,所述对所述文字信息 进行分词,得到若干个词语,计算各词语的TF-IDF值,并根据TF-IDF值的大小来获取所述 首频文件的关键词的步骤包括: 将音频文件的内容中包含的文字信息划分为若干个分词; 过滤分词中的停用词和标点符号,得到有用词语; 计算各有用词语的词频和逆文档频率; 根据所述词频和逆文档频率计算各词语的TF-IDF值; 根据所述TF-IDF值的大小获取所述音频文件的关键词。3. 根据权利要求2所述的音频文件标签生成方法,其特征在于,根据如下公式计算各 有用词语的TF-IDF值:tfidfi」=tf 土 jX idfp 式中,七匕^表示从第j个音频文件中获取的第i个不重复的有用词语t ^勺词频;n u表 示从第j个音频文件中获取的有用词语^的数量;2 knk ]表示从第j个音频文件中获取的 所有有用词语的出现次数之和,1(1匕表示词语^的逆文档频率,|D|为音频文件库中的文 字信息的总数,I IJztiG dj I为音频文件库中包含词语h的文字信息的数量,tfidf 为 第i个不重复的有用词语h在第j个音频文件中的TF-IDF值。4. 根据权利要求3所述的音频文件标签生成方法,其特征在于,还包括以下步骤: 从逆文档频率库中查询包含有用词语h的文字信息; 如果未查询到,则将包含有用词语h的文字信息的记录插入到逆文档频率库中,并令 逆文档频率库中包含词语tl的文字信息的数量为1 ;否则,将逆文档频率库中包含词语t i 的文字信息的数量加1。5. 根据权利要求1所述的音频文件标签生成方法,其特征在于,还包括以下步骤: 查询生词库中是否含有所述生词; 如果含有,则将生词库中所述生词的数量加1;否则,将所述生词插入到生词库中,并 将该关键词的数量设为1。6. 根据权利要求1所述的音频文件标签生成方法,其特征在于,还包括以下步骤: 根据用户特征将音频文件的用户分为多个用户群; 为音频文件建立并关联用户群标签,所述用户群标签的初始值设为空;其中,所述用户 群标签表示音频文件的用户所属的用户群; 根据音频文件在不同用户群中的播放时长和播放次数,统计音频文件在不同用户群中 的关注度; 将关注度最高的用户群标签设为所述音频文件的用户群标签。7. 根据权利要求6所述的音频文件标签生成方法,其特征在于,所述根据音频文件在 不同用户群中的播放时长和播放次数,统计音频文件在不同用户群中的关注度的步骤包 括: 根据以下方式统计音频文件在不同用户群中的关注度: P1=TV(T0ilXT1), 式中,P1表示音频文件在第i个用户群中的关注度,T1表示音频文件在第i个用户群中 的总播放时长,Iai表示音频文件在第i个用户群中的播放次数,T :表示音频文件的时长。8. 根据权利要求7所述的音频文件标签生成方法,其特征在于,还包括以下步骤: 当用户播放所述音频文件时,记录用户对所述音频文件的播放时长,将所述播放时长 累计到对应用户群中所述音频文件的播放时长记录中,并将对应用户群中所述音频文件的 播放次数加1。9. 一种音频文件标签生成系统,其特征在于,包括: 标签生成服务器、音频文件展示服务器、音频文件数据库服务器、系统管理服务器; 标签生成服务器根据音频文件数据库服务器中的音频文件及音频文件的内容中包含 的文字彳目息为首频文件关联标签; 音频文件展示服务器根据用户操作从音频文件数据库服务器中提取音频文件的数据, 并将所述数据展示到客户端; 系统管理服务器提供音频文件数据管理服务。10. 根据权利要求9所述的音频文件标签生成系统,其特征在于,所述音频文件数据库 服务器包括: 音频文件库、标签库、生词库、逆文档频率库、用户信息库; 音频文件库保存系统管理服务器录入的音频文件及音频文件的内容中包含的文字信 息、标签生成服务器生成的音频文件-标签关系、用户信息库生成的音频文件被播放记录; 其中,所述音频文件-标签关系表示音频文件与对应标签的对应关系; 标签库中保存系统管理服务器录入的标签、关键词、关键词-标签关系,以及标签生成 服务器生成的首频文件-标签关系;其中,所述关键词_标签关系表不关键词与对应标签的 关联关系; 生词库中保存标签库中未包含的音频文件信息中提取的关键词; 逆文档频率库中保存包含关键词的文字信息数; 用户信息库中保存用户上传的用户信息及用户播放音频文件的记录。
【专利摘要】本发明涉及一种歌曲标签生成方法和系统,其中,方法包括:将需要进行标签设置的音频文件及音频文件的内容中包含的文字信息录入音频文件库、将常用标签录入标签库、将常用关键词录入关键词库;根据常用关键词与常用标签的关联程度,为常用关键词设置标签,得到常用关键词-标签关系;对文字信息进行分词,得到若干个词语,计算各词语的TF-IDF值,并根据TF-IDF值的大小获取音频文件的关键词;根据常用关键词-标签关系查询音频文件的关键词对应的标签;若查询到对应标签,将音频文件与对应标签进行关联;为生词生成新标签,并关联所述生词与所述新标签,将所述新标签设为音频文件的标签。
【IPC分类】G06F17/30
【公开号】CN105138670
【申请号】CN201510564305
【发明人】陆赞信
【申请人】天翼爱音乐文化科技有限公司
【公开日】2015年12月9日
【申请日】2015年9月6日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1