音频文件标签生成方法和系统的制作方法_2

文档序号:9417502阅读:来源:国知局
情况下,也可根据算法、复杂度、准确度等要求采用其他分词器、以其他分 词速度进行分词。
[0043] 为了体现出不同平台的特色或独家版权音频文件的打标签需求,采用分词器进行 分词时,还可根据平台特色词语、节目名称、网络词语等新词汇,对分词器词库进行扩展,再 采用扩展后的分词器对音频文件的内容中包含的文字信息进行分词。
[0044] 步骤S3的具体实施流程如下:
[0045] S31,将音频文件的内容中包含的文字信息划分为若干个分词;
[0046] S32,过滤分词中的停用词和标点符号,得到有用词语;
[0047] S33,计算各有用词语的词频和逆文档频率;
[0048] S34,根据所述词频和逆文档频率计算各词语的TF-IDF值;
[0049] S35,根据所述TF-IDF值的大小获取所述音频文件的关键词。
[0050] 其中,所述词频(Term Frequency,TF)表示一首歌曲中某个词语出现的频率,所述 逆文档频率(term frequency-inverse document frequency,IDF)表不每个词的重要性 权重。
[0051] 各词语的词频和逆文档频率分别根据以下公式计算:
[0052] .(. I ):
[0053] (2 )
[0054] 所述逆文档频率的计算方式为:
[0055] tfidfi j= tf ^jXidfi (3)
[0056] 式中,七匕^表示从第j个音频文件中获取的第i个不重复的有用词语t ^勺词频; Iili j表示从第j个音频文件中获取的有用词语t i的数量;Σ knki ^表示从第j个音频文件中 获取的所有有用词语的出现次数之和,1(1匕表示词语、的逆文档频率,|D|为音频文件库中 的文字信息的总数,I Ult1E d,} I为音频文件库中包含词语h的文字信息的数量,tfidf U 为第i个不重复的有用词语t在第j个音频文件中的TF-IDF值。
[0057] 举例来说,假如一个音频文件的总词语数是100个,而词语"母牛"出现了 3次,那 么"母牛"一词在该音频文件中的词频就是0. 03(3/100);如果"母牛"一词在音频文件库的 1,000个音频文件中出现过,而音频文件库中的音频文件总数是10, 000, 000的话,其逆向 音频文件频率就是 4 (log (10, 000, 000/1,000))。最后的 TF-IDF 值为 0· 12(0. 03*4)。
[0058] 其他词语的TF-IDF值计算方法与上述方法相同,此处不再赘述。
[0059] 可根据各词语的TF-IDF值来选择音频文件的关键词。例如,可抽取出TF-IDF值 排列前3的词语作为音频文件的关键词。根据实际需要,也可选择TF-IDF值排列前2或前 4的词语作为音频文件的关键词。
[0060] 在一个实施例中,可根据以下方式计算I IJit1G d』I :
[0061] 从逆文档频率库中查询包含有用词语h的文字信息;
[0062] 如果未查询到,则将包含有用词语^的文字信息的记录插入到逆文档频率库中, 并令 I Uzt1E d J I 为 1;否则,将 I Uzt1E d J I 加 1。
[0063] 在一个实施例中,如果根据步骤S4未查询到音频文件的关键词对应的标签,还可 执行以下操作:
[0064] 查询生词库中是否含有所述生词;
[0065] 如果含有,则将生词库中所述生词的数量加1 ;否则,将所述生词插入到生词库 中,并将该关键词的数量设为1。
[0066] 例如,音频文件的分词结果中包含"母牛"一词,而在常用关键词-标签关系中未 查询到"母牛"一词对应的标签,则查询生词库中是否含有"母牛"一词。如果生词库中含 有"母牛"一词,且"母牛" 一词的数量为2,则将"母牛" 一词的数量加1,得到"母牛"一词 的数量为3 ;如果生词库中不包含"母牛"一词,则将"母牛"一词添加到生词库中,并将"母 牛"一词的数量设为1。
[0067] 在一个实施例中,还可为音频文件关联用户群标签。具体方式如下:
[0068] 根据用户特征将音频文件的用户分为多个用户群;
[0069] 为音频文件建立并关联用户群标签,所述用户群标签的初始值设为空;其中,所述 用户群标签表示音频文件的用户所属的用户群;
[0070] 根据音频文件在不同用户群中的播放时长和播放次数,统计音频文件在不同用户 群中的关注度;
[0071] 将关注度最高的用户群标签设为所述音频文件的用户群标签。
[0072] 所述用户特征包括年龄、性别、职业等。例如,可根据用户年龄将用户群分为"80 后"、"90后";或分为"青少年"、"中老年"等类别;还可根据用户性别将用户群分为"男"、 "女"。
[0073] 以用户群分为"80后"、"90后"为例,如果某音频文件在"80后"集合中的关注度 最高,则为该音频文件插入"80后"用户群标签。
[0074] 为保证上述结果的准确性,可每隔一段时间执行一次用户群分析任务,例如,可每 隔一周执行一次用户群分析任务;又例如,还可每隔一个月执行一次用户群分析任务。
[0075] 可根据以下方式分别统计所述音频文件在不同用户群中的关注度:
[0076] P1= T1Z(T0ilXT1),
[0077] 式中,P1表示音频文件在第i个用户群中的关注度,T i表示音频文件在第i个用 户群中的总播放时长,Iai表示音频文件在第i个用户群中的播放次数,T 1表示音频文件的 时长。
[0078] 当用户播放所述音频文件时,记录用户对所述音频文件的播放时长,将所述播放 时长累计到对应用户群中所述音频文件的播放时长记录中,并将对应用户群中所述音频文 件的播放次数加1。
[0079] 上述音频文件标签生成方法具有以下优点:
[0080] 1)对首频文件标签进彳丁关联,节约了人力和时间,效率尚;
[0081] 2)可根据平台特色词语、节目名称、网络词语等新词汇,对分词器词库进行扩展, 能够体现出不同平台的特色或独家版权音频文件的打标签需求;
[0082] 3)米用统一规范进彳丁标签关联,准确性尚。
[0083] 下面结合附图对本发明的音频文件标签生成系统的实施例做进一步的描述。
[0084] 如图3所示,本发明的音频文件标签生成系统包括:
[0085] 标签生成服务器10、音频文件展示服务器20、音频文件数据库服务器30、系统管 理服务器40 ;
[0086] 标签生成服务器10根据音频文件数据库服务器30中的数据为音频文件关联标 签;
[0087] 音频文件展示服务器20根据用户操作从音频文件数据库服务器30中提取数据, 并将所述数据展示到客户端;
[0088] 系统管理服务器40提供音频文件数据管理服务。
[0089] 其中,所述音频文件数据库服务器30包括:
[0090] 音频文件库301、标签库302、生词库303、逆文档频率库304、用户信息库305 ;
[0091] 音频文件库301保存系统管理服务器40录入的音频文件及音频文件的内容中包 含的文字信息;标签生成服务器10生成的音频文件-标签关系;用户信息库生成的音频文 件被播放记录;其中,所述音频文件-标签关系表示音频文件与对应标签的对应关系;
[0092] 标签库302中保存系统管理服务器40录入的标签、关键词、关键词-标签关系,以 及标签生成服务器10生成的音频文件-标签关系;其中,所述关键词-标签关系表示关键 词与对应标签的关联关系;
[0093]
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1