歌词文件生成、校对方法及装置的制作方法

文档序号：6739697阅读：251来源：国知局

专利名称：歌词文件生成、校对方法及装置的制作方法
技术领域：
本发明属于终端技术领域，尤其涉及歌词文件生成、校对方法及装置。
背景技术：
随着人们对视听体验追求的日益提高，人们要求音视频播放器能够提供显示歌词的功能。现有的播放器大多支持从一种特定的歌词文件读取歌词并显示，这给喜爱音乐的人群带来了很大的方便。但这种歌词文件必须从网络下载，当播放器处于无有效网络的受限环境中而无法获取到歌词文件时，这项功能便会失效，使用户的听歌体验大打折扣。另夕卜，即使播放器处于有效网络环境下，下载歌词文件也会产生额外的流量、资费，加重了用户的负担，不利于播放器的用户群扩大。

发明内容
本发明实施例的目的在于提供一种歌词文件生成方法及装置，旨在解决现有技术无法自动生成歌词的问题。本发明实施例是这样实现的，一种歌词文件生成方法，包括在当前播放的音视频文件未关联歌词文件时，生成与当前播放的音视频文件关联的歌词空文件；记录所述音视频文件的每句歌词的开始播放时间；根据语音识别生成所述每句歌词的文本；将所述每句歌词的所述开始播放的时间和所述文本关联后保存进所述歌词空文件，直至所述音视频文件播放结束，以生成所述音视频文件的歌词文件。本发明实施例的另一目的在于提供一种歌词文件生成装置，包括生成单元，用于在当前播放的音视频文件未关联歌词文件时，生成与当前播放的音视频文件关联的歌词空文件；第一记录单元，用于记录所述音视频文件的每句歌词的开始播放时间；第一语音识别单元，用于根据语音识别生成所述每句歌词的文本；保存单元，用于将所述每句歌词的所述开始播放的时间和所述文本关联后保存进所述歌词空文件，直至所述音视频文件播放结束，以生成所述音视频文件的歌词文件。在本发明实施例中，当音视频文件无关联的歌词文件时，通过语音识别技术自动生成歌词文本并获取到每句歌词的开始播放时间，将每句歌词的开始播放时间和该句歌词的文本写入特定格式的歌词文件，从而实现歌词文本的自动生成，提升了用户的视听体验。本发明实施例的另一目的在于提供一种歌词文件校对方法，包括载入当前播放的音视频文件关联的歌词文件；记录所述音视频文件每句歌词的开始播放时间；根据语音识别生成所述每句歌词的文本；对于所述每句歌词，当判断出所述记录的所述开始播放时间和所述歌词文件中的开始播放时间不同，或者判断出所述记录的所述文本与所述歌词文件中的文本不同，修改所述歌词文件。本发明实施例的另一目的在于提供一种歌词文件校对装置，包括载入单元，用于载入当前播放的音视频文件关联的歌词文件；第二记录单元，用于记录所述音视频文件每句歌词的开始播放时间；第二语音识别单元，用于根据语音识别生成所述每句歌词的文本；修改单元，用于对于所述每句歌词，当判断出所述记录的所述开始播放时间和所述歌词文件中的开始播放时间不同，或者判断出所述记录的所述文本与所述歌词文件中的文本不同，修改所述歌词文件。在本发明实施例中，当音视频文件关联的歌词文件出错时，通过语音识别技术自动生成正确的歌词文本并获取到每句歌词正确的开始播放时间，以对歌词文件进行修改，从而实现歌词文本的自动校对，提升了用户的视听体验。

图I是本发明实施例提供的歌词生成方法的实现流程图；图2是本发明实施例提供的歌词生成装置的结构框图；图3是本发明实施例提供的歌词校正方法的实现流程图；图4是本发明实施例提供的歌词校正装置的结构框图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。在本发明实施例中，当音视频文件无关联的歌词文件时，通过语音识别技术自动生成歌词文本并获取到每句歌词的开始播放时间，将每句歌词的开始播放时间和该句歌词的文本写入特定格式的歌词文件，从而实现歌词文本的自动生成，提升了用户的视听体验。图I示出了本发明实施例提供的歌词生成方法的实现流程，详述如下在步骤SlOl中，在当前播放的音视频文件未关联歌词文件时，生成与当前播放的音视频文件关联的歌词空文件。在本实施例中，步骤SlOl之前首先判断当前播放的音视频文件是否有关联的歌词文件，其中，关联是指播放器等进行音视频播放的应用程序可以根据音视频文件的文件信息以某种特定的规则查找或优选出唯一的歌词文件，例如，根据音视频文件的文件名，查找出相同文件名的.Iyc格式的歌词文件。若当前播放的音视频文件关联了歌词文件，则载入其关联的歌词文件，若没有关联歌词文件，则执行步骤S101，生成与当前播放的音视频文件关联的歌词空文件，其中，在本步骤中生成的歌词空文件为初始歌词文件，即该歌词文件中还不包括其关联的音视频文件的歌词相关信息。具体地，生成与当前音视频文件关联的歌词空文件，可以首先通过获取音视频文件的文件信息，这些信息包括但不限于音视频文件的文件名、音视频文件的存储位置、音乐家信息等，以生成与该音视频文件的文件名命名的歌词文件，从而通过相同的文件名建立起该音视频文件与其歌词文件的关联关系。进一步地，还可以在预设的存储位置或者该音视频文件的存储位置生成该歌词文件，由此，可以使播放器在下一次播放此音视频文件时能够查找到此歌词文件，从而不必再一次启动自动生成歌词的过程，节省了时间，提升了用户体验。在步骤S102中，记录当前播放的音视频文件每句歌词的开始播放时间。启动语音识别功能，监听音视频文件的声音波形。具体地，根据波形的振荡图形，可以辨识出音视频文件音频分量中每一句歌词的开始，将此时间点以预设格式记录下来，例如[mm: ss],其中，中mm表示此时间点的分钟数，ss表示此时间点的秒数,数值mm和ss不足10的以O填充其十位。在步骤S103中，根据语音识别生成每句歌词的文本。除了上述步骤S102中所述的辨识每句歌词的开始之外，语音识别技术还能够辨识出每句歌词的内容，即将音视频中所蕴含的声音信息转化成语言文本。当前，语音识别技术是一门相对成熟的技术，其在便携式终端或计算机等终端设备上的应用已十分普遍，包括苹果的Siri语音助手，微软的SpeechSDK，IBM的ViaVoice等等，在此不再赘述。通过对识别算法做相应的微调，语音识别技术可以用来辨识具有不同特点的声音信息。在本实施例中，以歌曲的旋律为参数对识别算法做相应的微调，即可准确地辨识出歌词信息。优选地，在对歌词进行语音识别时，可以在数据库中存储常用的词语或者成语的声音波形，通过将音视频文件的波形与存储的小型进行匹配，能够更加准确地识别出歌词的文本。在步骤S104中，将每句歌词的开始播放时间与文本关联后保存进歌词空文件，直至音视频文件播放结束，以生成该音视频文件的歌词文件。在音视频文件播放的过程中，每捕捉到一句歌词，即获取到一句歌词的开始时间后，将S102中所记录的时间与S103中所记录的歌词文本做关联，然后向步骤SlOl中所生成的歌词文件中写入关联后时间歌词信息。持续上述操作直至音视频文件播放结束。时间信息与歌词文本的关联方式可因实施例的不同而异。在本实施例中，将时间信息与歌词文本以英文半角空格字符相连接，时间信息在前，歌词文本在后。对于写入操作，每写完一句歌词会新起一行，在新行的行首执行下一句的写入操作，直至音视频文件播放完毕。当音视频文件播放结束后，将其歌词文件整体保存。通过上述步骤，在音视频文件播放的过程中，播放器通过语音识别技术获取每句歌词的开始时间，记录每句歌词的文本，将二者关联起来后写入事先生成的歌词文件中，直至音视频文件播放结束后，将记录了时间与歌词信息的歌词文件保存，从而实现了自动生成音视频文件的歌词，极大地方便了用户，提升了用户的视听体验。作为本发明的一个实施例，在自动生成歌词文件之前先判断是否存在与所播放的音视频文件相关联的歌词文件。若无则进行歌词文件的自动生成，若有则不进行自动生成。关联的特征在于，能够通过音视频文件的文件信息以某种规则查找或优选出唯一的歌词文件。作为本发明的一个实施例，在生成与音视频文件相关联的歌词文件时，首先获取音视频文件的文件信息，这些信息包括但不限于音视频文件的文件名、音视频文件的存储位置、音乐家信息等。然后创建歌词空文件，并根据获取到的文件信息以关联规则命名此文件。优选地，在本发明实施例中，以音视频文件的文件名加.Irc后缀命名歌词文件，且存储位置与其相关联的音视频文件相同。当然，歌词文件的命名规则可以因实施例不同而异，歌词文件的存储位置也可以作为播放器的设置项以供用户灵活设定。作为本发明的一个实施例，辨识一句歌词开始时间的过程如下当语音识别算法在音频中辨识出字或词时，记录下当时的时刻，记作tk，同样地，记上一次出现字或词的时亥Ij为V1 ；a为可以设定的阈值，当tk-tkja，表示一句歌词开始，那么tk即为第k句歌词的开始播放时间。值得注意的是，与此同时，歌词文本的记录操作也相应开始，即tk时刻辨识出的字或词将被纳入歌词中，不可丢弃。可以看出，歌词开始时间的辨识与歌词文本的记录两种操作是并行进行的。本发明实施例在音视频文件播放的过程中，通过语音识别技术辨识音视频文件中歌词的开始时间和歌词文本，并将它们记录下来，写入以特定规则命名的歌词文件中保存，从而实现了自动生成音视频文件的歌词，极大地方便了用户，提升了用户的视听体验。需要说明的是，本发明实施例提供的歌词生成方法也可适用于视频文件的歌词文件或者字幕文件的生成，其相关原理与前述实施例所述原理相一致，在此不再赘述。图2示出了本发明实施例提供的歌词生成装置的结构框图，该装置可以运行于音视频文件的播放器中，该播放器的宿主环境包括但不限于移动终端、便携式媒体录放器、计算机等设备。为了便于说明，仅示出了与本实施例相关的部分。参照图2，该装置包括生成单元21，在当前播放的音视频文件未关联歌词文件时，生成与当前播放的音视频文件关联的歌词空文件。第一记录单元22，记录所述音视频文件的每句歌词的开始播放时间。第二语音识别单元23，根据语音识别生成每句歌词的文本。保存单元24，将每句歌词的开始播放时间和文本关联后保存进歌词空文件，直至音视频文件播放结束，以生成所述音视频文件的歌词文件。可选地，生成单元21包括获取子单元，获取音视频文件的文件信息，其中，文件信息包括该音视频文件的文件名；生成子单元，生成以文件名命名的歌词空文件。可选地，文件信息还包括音视频文件的存储位置，生成子单元21具体用于在该存储位置生成以文件名命名的歌词空文件。可选地，记录单元22包括判断子单元，当有歌词播放时，判断当前时间距离上一次歌词播放的时间的间隔是否超过了预设阈值；记录子单元，当间隔超过预设阈值，将当前时间记录为音视频文件的一句歌词的开始播放时间。如图2所示，第一记录单元22与第一语音识别单元23并行工作，同时，二者又与保存单元24形成一个时间上的循环，循环的周期为一句歌词，循环的退出点为音视频文件播放结束。本发明实施例所述的装置在音视频文件播放的过程中，通过语音识别技术辨识音视频文件中歌词的开始播放时间和歌词文本，并将它们记录下来，写入以特定规则命名的歌词文件中保存，从而实现了自动生成音视频文件的歌词，极大地方便了用户，提升了用户的视听体验。对于音视频文件已关联的一些歌词文件，可能会出现歌词文件错误的情况，例如，在时间或者歌词上对不上播放的音视频文件，或者是通过前述方法自动生成的歌词文件还存在错误，因此可以在音视频文件播放时，通过相应的识别方法对已关联的歌词文件进行自动校正。图3示出了本发明实施例提供的歌词校对方法的实现流程，详述如下在步骤S301中，载入当前播放的音视频文件关联的歌词文件。在本实施例中，若当前播放的音视频文件关联了歌词文件，则在播放音视频文件的同时载入该音视频文件关联的歌词文件。在步骤S302中，记录音视频文件每句歌词的开始播放时间。在步骤S303中，根据语音识别生成每句歌词的文本。在本实施例中，与本发明图I实施例所述相关实现原理相同，在音视频文件播放的同时，记录歌词的开始播放时间，并通过语音识别生成每句歌词的文件，其具体实现原理与在本发明图I实施例中进行了详细阐述，在此不再赘述。在步骤S304中，对于每句歌词，当判断出记录的开始播放时间和歌词文件中的开始播放时间不同，或者判断出记录的文本与歌词文件中的文本不同，修改歌词文件。在本实施例中，对于音视频文件中的每句歌词，都将记录的开始播放时间和其关联的歌词文件中对应歌词的开始播放时间进行比较，且都将记录的文本与歌词文件中对应歌词的文本进行比较，当判断出记录的开始播放时间和歌词文件中的开始播放时间不同，或者判断出记录的文本与歌词文件中的文本不同，则修改歌词文件的对应内容，从而在音视频文件的播放过程中实现歌词文件的自动校正。图4示出了本发明实施例提供的歌词校正装置的结构框图，该装置可以运行于音视频文件的播放器中，该播放器的宿主环境包括但不限于移动终端、便携式媒体录放器、计算机等设备。为了便于说明，仅示出了与本实施例相关的部分。参照图4，该装置包括载入单元41，载入当前播放的音视频文件关联的歌词文件。第二记录单元42，记录音视频文件每句歌词的开始播放时间。第一语音识别单元43，根据语音识别生成每句歌词的文本。修改单元44，对于每句歌词，当判断出记录的开始播放时间和歌词文件中的开始播放时间不同，或者判断出所述记录的文本与歌词文件中的文本不同，修改歌词文件。在本发明实施例中，当音视频文件关联的歌词文件出错时，通过语音识别技术自动生成正确的歌词文本并获取到每句歌词正确的开始播放时间，以对歌词文件进行修改，从而实现歌词文本的自动校对，提升了用户的视听体验。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种歌词文件生成方法，其特征在于，包括在当前播放的音视频文件未关联歌词文件时，生成与当前播放的音视频文件关联的歌词空文件；记录所述音视频文件的每句歌词的开始播放时间；根据语音识别生成所述每句歌词的文本；将所述每句歌词的所述开始播放时间和所述文本关联后保存进所述歌词空文件，直至所述音视频文件播放结束，以生成所述音视频文件的歌词文件。
2.如权利要求I所述的方法，其特征在于，所述生成与所述音视频文件关联的歌词空文件包括获取所述音视频文件的文件信息，所述文件信息包括所述音视频文件的文件名；生成以所述文件名命名的所述歌词空文件。
3.如权利要求2所述的方法，其特征在于，所述文件信息还包括所述音视频文件的存储位置，所述生成以所述文件名命名的所述歌词空文件包括在所述存储位置生成以所述文件名命名的所述歌词空文件。
4.如权利要求I所述的方法，其特征在于，所述记录所述音视频文件的每句歌词的开始播放时间包括当有歌词播放时，判断当前时间距离上一次歌词播放的时间的间隔是否超过了预设阈值；当所述间隔超过所述预设阈值，将所述当前时间记录为所述音视频文件的一句歌词的所述开始播放时间。
5.—种歌词文件校对方法,其特征在于,包括载入当前播放的音视频文件关联的歌词文件；记录所述音视频文件每句歌词的开始播放时间；根据语音识别生成所述每句歌词的文本；对于所述每句歌词，当判断出所述记录的所述开始播放时间和所述歌词文件中的开始播放时间不同，或者判断出所述记录的所述文本与所述歌词文件中的文本不同，修改所述歌词文件。
6.一种歌词文件生成装置，其特征在于，包括生成单元，用于在当前播放的音视频文件未关联歌词文件时，生成与当前播放的音视频文件关联的歌词空文件；第一记录单元，用于记录所述音视频文件的每句歌词的开始播放时间；第一语音识别单元，用于根据语音识别生成所述每句歌词的文本；保存单元，用于将所述每句歌词的所述开始播放时间和所述文本关联后保存进所述歌词空文件，直至所述音视频文件播放结束，以生成所述音视频文件的歌词文件。
7.如权利要求6所述的装置，其特征在于，所述生成单元包括获取子单元，用于获取所述音视频文件的文件信息，所述文件信息包括所述音视频文件的文件名；生成子单元，生成以所述文件名命名的所述歌词空文件。
8.如权利要求7所述的装置，其特征在于，所述文件信息还包括所述音视频文件的存储位置，所述生成子单元具体用于在所述存储位置生成以所述文件名命名的所述歌词空文件。
9.如权利要求6所述的装置，其特征在于，所述记录单元包括判断子单元，用于当有歌词播放时，判断当前时间距离上一次歌词播放的时间的间隔是否超过了预设阈值；记录子单元，用于当所述间隔超过所述预设阈值，将所述当前时间记录为所述音视频文件的一句歌词的所述开始播放时间。
10.一种歌词文件校对装置，其特征在于，包括载入单元，用于载入当前播放的音视频文件关联的歌词文件；第二记录单元，用于记录所述音视频文件每句歌词的开始播放时间；第一语音识别单元，用于根据语音识别生成所述每句歌词的文本；修改单元，用于对于所述每句歌词，当判断出所述记录的所述开始播放时间和所述歌词文件中的开始播放时间不同，或者判断出所述记录的所述文本与所述歌词文件中的文本不同，修改所述歌词文件。
全文摘要
本发明适用于终端技术领域，提供了一种歌词文件生成方法及装置，包括在当前播放的音视频文件未关联歌词文件时，生成与当前播放的音视频文件关联的歌词空文件；记录所述音视频文件的每句歌词的开始播放时间；根据语音识别生成所述每句歌词的文本；将所述每句歌词的所述开始播放时间和所述文本关联后保存进所述歌词空文件，直至所述音视频文件播放结束，以生成所述音视频文件的歌词文件。在本发明中，当音视频文件无关联的歌词文件时，通过语音识别技术自动生成歌词文本并获取到每句歌词的开始播放时间，将每句歌词的开始播放时间和该句歌词的文本写入特定格式的歌词文件，从而实现歌词文本的自动生成，提升了用户的视听体验。
文档编号G11B27/10GK102881309SQ20121035914
公开日2013年1月16日申请日期2012年9月24日优先权日2012年9月24日
发明者曾元清, 李博宁申请人:广东欧珀移动通信有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾元清;李博宁
技术所有人：广东欧珀移动通信有限公司
我是此专利的发明人

上一篇：包括存储器件和系统的半导体器件的设定数据储存的制作方法
上一篇：录制的音频信号的时间对准的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。