音频文件标签生成方法和系统的制作方法

文档序号:9417502阅读:683来源:国知局
音频文件标签生成方法和系统的制作方法
【技术领域】
[0001] 本发明涉及应用服务技术领域,特别是涉及一种音频文件标签生成方法和系统。
【背景技术】
[0002] 随着网络技术的发展及大众对于信息接收方式的改变,网络上的音频文件数量呈 爆炸式增长。以数字音乐为例,截至2014年底,中国互联网音乐用户已达4. 78亿,日均下 载超过2亿次,并且预计在未来的两到三年间,音乐网民用户数将突破6亿,全年下载量将 超过1000亿次。同时,已有的音乐数以亿计,而目前主流各数字音乐平台,音乐收入量都在 百万以上。面对如此庞大的用户量和音频文件量,一个亟待解决的关键问题就是如何更准 确地将满足用户需要的音频文件批量展示出来,以提高用户体验。一种常用的方式是为音 频文件添加标签。
[0003]目前的音频文件标签生成平台一般包括三种方式:
[0004] 1、人工配置标签;
[0005] 2、爬取互联网标签,即采用爬虫程序将其他平台为音频文件配置的标签拿来为自 己所用。
[0006] 3、用户参与,即用户根据自己的判断上传为音频文件配置的标签,程序根据标签 统计来筛选最合适的标签。
[0007] 然而,人工配置标签的方式效率低,而从互联网爬取标签或用户上传标签的方式 准确率低。

【发明内容】

[0008] 基于此,有必要针对现有技术效率低、准确率低的问题,提供一种音频文件标签生 成方法和系统。
[0009] -种音频文件标签生成方法,包括以下步骤:
[0010] 将需要进行标签设置的音频文件及音频文件的内容中包含的文字信息录入音频 文件库、将常用标签录入标签库、将常用关键词录入关键词库;
[0011] 根据常用关键词与常用标签的关联程度,为常用关键词设置标签,得到常用关键 词-标签关系;其中,所述关键词-标签关系表示关键词与对应标签之间的对应关系;
[0012] 对所述文字信息进行分词,得到若干个词语,计算各词语的TF-IDF值,并根据 TF-IDF值的大小获取所述音频文件的关键词;其中,所述TF-IDF值表示词语的词频与逆文 档频率的乘积;
[0013] 根据常用关键词-标签关系查询音频文件的关键词对应的标签;若查询到对应标 签,将首频文件与对应标签进彳T关联;
[0014] 为生词生成新标签,并关联所述生词与所述新标签,将所述新标签设为音频文件 的标签;其中,所述生词为未查询到对应标签的音频文件的关键词。
[0015] 上述音频文件标签生成方法,通过对音频文件的内容中包含的文字信息进行分 词,计算各词语的TF-IDF值的大小从而获取所述音频文件的关键词,根据常用关键词-标 签关系查询音频文件的关键词对应的标签;若查询到对应标签,将音频文件与对应标签进 行关联;否则,将音频文件的关键词加入生词库,为生词库中的生词生成新标签,并关联所 述生词与所述新标签,将所述新标签设为音频文件的标签,执行效率高,结果准确性高。
[0016] -种音频文件标签生成系统,包括:
[0017] 标签生成服务器、音频文件展示服务器、音频文件数据库服务器、系统管理服务 器;
[0018] 标签生成服务器根据音频文件数据库服务器中的音频文件及音频文件的内容中 包含的文字信息为音频文件关联标签;
[0019] 音频文件展示服务器根据用户操作从音频文件数据库服务器中提取音频文件的 数据,并将所述数据展示到客户端;
[0020] 系统管理服务器提供音频文件数据管理服务。
[0021] 上述音频文件标签生成系统,通过标签生成服务器根据音频文件数据库服务器中 的音频文件及音频文件的内容中包含的文字信息为音频文件关联标签;通过音频文件展示 服务器根据用户操作从音频文件数据库服务器中提取音频文件的数据,并将所述数据展示 到客户端;并通过系统管理服务器提供音频文件数据管理服务,提供了一种智能化的歌曲 标签生成系统,提高了标签生成的效率和准确性。
【附图说明】
[0022] 图1为一个实施例的音频文件标签生成方法流程图;
[0023] 图2为一个实施例的TF-IDF值计算方法流程图;
[0024] 图3为一个实施例的音频文件标签生成系统的结构示意图;
[0025] 图4为一个实施例的音频文件库的结构示意图。
【具体实施方式】
[0026] 下面结合附图对本发明的技术方案做进一步描述。
[0027] 如图1所示,本发明的音频文件标签生成方法包括以下步骤:
[0028] S1,将需要进行标签设置的音频文件及音频文件的内容中包含的文字信息录入音 频文件库、将常用标签录入标签库、将常用关键词录入关键词库;
[0029] S2,根据常用关键词与常用标签的关联程度,为常用关键词设置标签,得到常用关 键词-标签关系;其中,所述关键词-标签关系表示关键词与对应标签之间的对应关系;
[0030] S3,对所述文字信息进行分词,得到若干个词语,计算各词语的TF-IDF值,并根据 TF-IDF值的大小获取所述音频文件的关键词;其中,所述TF-IDF值表示词语的词频与逆文 档频率的乘积;
[0031] S4,根据常用关键词-标签关系查询音频文件的关键词对应的标签;若查询到对 应标签,将首频文件与对应标签进彳T关联;
[0032] S5,为生词生成新标签,并关联所述生词与所述新标签,将所述新标签设为音频文 件的标签;其中,所述生词为未查询到对应标签的音频文件的关键词。
[0033] 在步骤Sl中,可将音频文件及音频文件的内容中包含的文字信息录入音频文件 库,以录入歌曲为例,可将歌曲的歌词录入音频文件库,也可根据实际需要将歌曲名称、发 布时间、点击数、专辑名称、收听用户群体等录入音频文件库。另外,还可将常用标签录入标 签库、将常用关键词录入关键词库。
[0034] 其中,所述音频文件库可包括标签生成服务器、音频文件展示服务器、音频文件数 据库服务器、系统管理服务器;其中,标签生成服务器可根据音频文件数据库服务器中的音 频文件及音频文件的内容中包含的文字信息为音频文件关联标签;音频文件展示服务器可 根据用户操作从音频文件数据库服务器中提取音频文件的数据,并将所述数据展示到客户 端;系统管理服务器可提供音频文件数据管理服务。
[0035] 在步骤S2中,可根据常用关键词与常用标签的关联程度,为常用关键词设置标 签,得到常用关键词-标签关系;其中,所述关键词-标签关系表示关键词与对应标签之间 的对应关系。
[0036] 仍以音频文件是歌曲为例,常用标签可包括演唱曲风、语种等;常用关键词可包 括流行歌曲、民族歌曲、日韩歌曲、欧美歌曲等。相应地,为上述关键词关联标签时,可将关 键词流行歌曲、民族歌曲与演唱曲风标签关联,将关键词日韩歌曲、欧美歌曲与语种标签关 联。
[0037] 在步骤S3中,可采用分词器对音频文件的的内容中包含的文字信息进行分词。例 如,采用jcseg分词器。jcseg分词器提供如下三种切分模式:
[0038] (1)简易模式:FMM ((Forward Maximum Matching Method,正向最大匹配)算法, 适合速度要求场合。
[0039] (2)复杂模式:MMSEG四种过滤算法,具有较高的岐义去除,分词准确率可达到 98. 41%,同时会匹配出同义词。
[0040] (3)检测模式:只返回词库中已有的词条,很适合某些应用场合。
[0041] 可根据实际情况选择不同的切分模式。例如,为了更准确地配置标签,可采用复杂 模式,可以479338字/秒,1324. 4KB/秒的分词速度进行分词。
[0042] 在实际
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1