音频文件标签生成方法和系统的制作方法

文档序号：9417502阅读：683来源：国知局

音频文件标签生成方法和系统的制作方法
【技术领域】
[0001] 本发明涉及应用服务技术领域，特别是涉及一种音频文件标签生成方法和系统。
【背景技术】
[0002] 随着网络技术的发展及大众对于信息接收方式的改变，网络上的音频文件数量呈爆炸式增长。以数字音乐为例，截至2014年底，中国互联网音乐用户已达4. 78亿，日均下载超过2亿次，并且预计在未来的两到三年间，音乐网民用户数将突破6亿，全年下载量将超过1000亿次。同时，已有的音乐数以亿计，而目前主流各数字音乐平台，音乐收入量都在百万以上。面对如此庞大的用户量和音频文件量，一个亟待解决的关键问题就是如何更准确地将满足用户需要的音频文件批量展示出来，以提高用户体验。一种常用的方式是为音频文件添加标签。
[0003]目前的音频文件标签生成平台一般包括三种方式：
[0004] 1、人工配置标签；
[0005] 2、爬取互联网标签，即采用爬虫程序将其他平台为音频文件配置的标签拿来为自己所用。
[0006] 3、用户参与，即用户根据自己的判断上传为音频文件配置的标签，程序根据标签统计来筛选最合适的标签。
[0007] 然而，人工配置标签的方式效率低，而从互联网爬取标签或用户上传标签的方式准确率低。

【发明内容】

[0008] 基于此，有必要针对现有技术效率低、准确率低的问题，提供一种音频文件标签生成方法和系统。
[0009] -种音频文件标签生成方法，包括以下步骤：
[0010] 将需要进行标签设置的音频文件及音频文件的内容中包含的文字信息录入音频文件库、将常用标签录入标签库、将常用关键词录入关键词库；
[0011] 根据常用关键词与常用标签的关联程度，为常用关键词设置标签，得到常用关键词-标签关系；其中，所述关键词-标签关系表示关键词与对应标签之间的对应关系；
[0012] 对所述文字信息进行分词，得到若干个词语，计算各词语的TF-IDF值，并根据 TF-IDF值的大小获取所述音频文件的关键词；其中，所述TF-IDF值表示词语的词频与逆文档频率的乘积；
[0013] 根据常用关键词-标签关系查询音频文件的关键词对应的标签；若查询到对应标签，将首频文件与对应标签进彳T关联；
[0014] 为生词生成新标签，并关联所述生词与所述新标签，将所述新标签设为音频文件的标签；其中，所述生词为未查询到对应标签的音频文件的关键词。
[0015] 上述音频文件标签生成方法，通过对音频文件的内容中包含的文字信息进行分词，计算各词语的TF-IDF值的大小从而获取所述音频文件的关键词，根据常用关键词-标签关系查询音频文件的关键词对应的标签；若查询到对应标签，将音频文件与对应标签进行关联；否则，将音频文件的关键词加入生词库，为生词库中的生词生成新标签，并关联所述生词与所述新标签，将所述新标签设为音频文件的标签，执行效率高，结果准确性高。
[0016] -种音频文件标签生成系统，包括：
[0017] 标签生成服务器、音频文件展示服务器、音频文件数据库服务器、系统管理服务器；
[0018] 标签生成服务器根据音频文件数据库服务器中的音频文件及音频文件的内容中包含的文字信息为音频文件关联标签；
[0019] 音频文件展示服务器根据用户操作从音频文件数据库服务器中提取音频文件的数据，并将所述数据展示到客户端；
[0020] 系统管理服务器提供音频文件数据管理服务。
[0021] 上述音频文件标签生成系统，通过标签生成服务器根据音频文件数据库服务器中的音频文件及音频文件的内容中包含的文字信息为音频文件关联标签；通过音频文件展示服务器根据用户操作从音频文件数据库服务器中提取音频文件的数据，并将所述数据展示到客户端；并通过系统管理服务器提供音频文件数据管理服务，提供了一种智能化的歌曲标签生成系统，提高了标签生成的效率和准确性。
【附图说明】
[0022] 图1为一个实施例的音频文件标签生成方法流程图；
[0023] 图2为一个实施例的TF-IDF值计算方法流程图；
[0024] 图3为一个实施例的音频文件标签生成系统的结构示意图；
[0025] 图4为一个实施例的音频文件库的结构示意图。
【具体实施方式】
[0026] 下面结合附图对本发明的技术方案做进一步描述。
[0027] 如图1所示，本发明的音频文件标签生成方法包括以下步骤：
[0028] S1，将需要进行标签设置的音频文件及音频文件的内容中包含的文字信息录入音频文件库、将常用标签录入标签库、将常用关键词录入关键词库；
[0029] S2,根据常用关键词与常用标签的关联程度，为常用关键词设置标签，得到常用关键词-标签关系；其中，所述关键词-标签关系表示关键词与对应标签之间的对应关系；
[0030] S3,对所述文字信息进行分词，得到若干个词语，计算各词语的TF-IDF值，并根据 TF-IDF值的大小获取所述音频文件的关键词；其中，所述TF-IDF值表示词语的词频与逆文档频率的乘积；
[0031] S4,根据常用关键词-标签关系查询音频文件的关键词对应的标签；若查询到对应标签，将首频文件与对应标签进彳T关联；
[0032] S5,为生词生成新标签，并关联所述生词与所述新标签，将所述新标签设为音频文件的标签；其中，所述生词为未查询到对应标签的音频文件的关键词。
[0033] 在步骤Sl中，可将音频文件及音频文件的内容中包含的文字信息录入音频文件库，以录入歌曲为例，可将歌曲的歌词录入音频文件库，也可根据实际需要将歌曲名称、发布时间、点击数、专辑名称、收听用户群体等录入音频文件库。另外，还可将常用标签录入标签库、将常用关键词录入关键词库。
[0034] 其中，所述音频文件库可包括标签生成服务器、音频文件展示服务器、音频文件数据库服务器、系统管理服务器；其中，标签生成服务器可根据音频文件数据库服务器中的音频文件及音频文件的内容中包含的文字信息为音频文件关联标签；音频文件展示服务器可根据用户操作从音频文件数据库服务器中提取音频文件的数据，并将所述数据展示到客户端；系统管理服务器可提供音频文件数据管理服务。
[0035] 在步骤S2中，可根据常用关键词与常用标签的关联程度，为常用关键词设置标签，得到常用关键词-标签关系；其中，所述关键词-标签关系表示关键词与对应标签之间的对应关系。
[0036] 仍以音频文件是歌曲为例，常用标签可包括演唱曲风、语种等；常用关键词可包括流行歌曲、民族歌曲、日韩歌曲、欧美歌曲等。相应地，为上述关键词关联标签时，可将关键词流行歌曲、民族歌曲与演唱曲风标签关联，将关键词日韩歌曲、欧美歌曲与语种标签关联。
[0037] 在步骤S3中，可采用分词器对音频文件的的内容中包含的文字信息进行分词。例如，采用jcseg分词器。jcseg分词器提供如下三种切分模式：
[0038] (1)简易模式：FMM ((Forward Maximum Matching Method，正向最大匹配）算法，适合速度要求场合。
[0039] (2)复杂模式：MMSEG四种过滤算法，具有较高的岐义去除，分词准确率可达到 98. 41%，同时会匹配出同义词。
[0040] (3)检测模式：只返回词库中已有的词条，很适合某些应用场合。
[0041] 可根据实际情况选择不同的切分模式。例如，为了更准确地配置标签，可采用复杂模式，可以479338字/秒，1324. 4KB/秒的分词速度进行分词。
[0042] 在实际

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陆赞信;
技术所有人：天翼爱音乐文化科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。