字幕校正方法和装置制造方法

文档序号:7805738阅读:213来源:国知局
字幕校正方法和装置制造方法
【专利摘要】本发明公开了一种字幕校正方法和装置,属于多媒体【技术领域】。所述方法包括:获取多媒体文件的反馈数据,所述反馈数据是针对所述多媒体文件的字幕文件的错误所反馈的数据;根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型;根据所述错误类型对所述多媒体文件的字幕文件进行校正。所述装置包括:第一获取模块、第一识别模块和字幕校正模块。本发明通过获取字幕文件的反馈数据,识别该反馈数据中的错误类型,根据该错误类型对字幕文件进行校正,提高了字幕文件的正确性。
【专利说明】字幕校正方法和装置

【技术领域】
[0001] 本发明涉及多媒体【技术领域】,特别涉及一种字幕校正方法和装置。

【背景技术】
[0002] 在播放多媒体文件时,字幕可以帮助人们获得更高的使用体验。由于多媒体文件 包括音频文件和视频文件两种,在音频文件为歌曲时,字幕也可以称之为歌词。
[0003] 以多媒体文件是歌曲为例,歌词是一首歌曲中的文词部分,常见的歌词有 TXT(Text,文本)歌词、LRC(lyric,歌词)歌词和QRC(QQ lyric,QQ歌词)歌词三种。其 中,TXT歌词是纯文本类型的歌词;LRC歌词为一种在歌曲播放时能够同步显示且显示定位 到逐行的歌词;QRC歌词为一种在歌曲播放时能够同步显示且显示定位到逐字的歌词,显 然QRC歌词的同步显示更精确。LRC歌词和QRC歌词的实现方法均是基于时间轴同步歌词 和歌曲,该方法要求每段歌词的内容沿着播放时间轴对齐,而由于歌词是人工编辑的,其内 容和播放时间轴可能出现不对齐的现象,另外还可能存在部分歌曲无词或歌词内容错误的 问题,因此需要对歌词进行校正。
[0004] 现有技术中,一般采用人工校正的方式来实现对歌词的校正。人工校正的方式包 括人工判断歌词的错误类型,以及在出现无词问题时,采用人工的方式对歌词进行填充以 实现对歌词的校正。
[0005] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:人工判断歌词 的错误类型时识别错误的命中率较低且工作量大。


【发明内容】

[0006] 为了解决现有技术的问题,本发明实施例提供了一种字幕校正方法和装置。该技 术方案如下:
[0007] -方面,提供了一种字幕校正方法,该方法包括:
[0008] 获取多媒体文件的反馈数据,该反馈数据是针对该多媒体文件的字幕文件的错误 所反馈的数据;
[0009] 根据该反馈数据识别该多媒体文件的字幕文件的错误类型;
[0010] 根据该错误类型对该多媒体文件的字幕文件进行校正。
[0011] 另一方面,提供了一种字幕校正装置,该装置包括:
[0012] 第一获取模块,用于获取多媒体文件的反馈数据,该反馈数据是针对该多媒体文 件的字幕文件的错误所反馈的数据;
[0013] 第一识别模块,用于根据该反馈数据识别该多媒体文件的字幕文件的错误类型;
[0014] 字幕校正模块,用于根据该错误类型对该多媒体文件的字幕文件进行校正。
[0015] 本发明实施例提供的技术方案带来的有益效果是:
[0016] 本发明实施例提供的字幕校正方法和装置,通过获取多媒体文件的反馈数据,该 反馈数据是针对该多媒体文件的字幕文件的错误所反馈的数据;根据该反馈数据识别该多 媒体文件的字幕文件的错误类型;根据该错误类型对该多媒体文件的字幕文件进行校正。 采用本发明实施例提供的方案,通过识别反馈数据中的错误类型,根据该错误类型对字幕 文件进行校正,提高了字幕文件的正确性。

【专利附图】

【附图说明】
[0017] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0018] 图1是本发明实施例提供的一种字幕校正方法所涉及的实施环境;
[0019] 图2是本发明实施例提供的一种字幕校正方法的方法流程图;
[0020] 图3a是本发明实施例提供的一种字幕校正方法的方法流程图;
[0021] 图3b是本发明实施例提供的一种数据反馈界面图;
[0022] 图3c是本发明实施例提供的一种根据音频波形特征确定语音信号的开始时刻和 结束时刻方法的方法流程图;
[0023] 图4是本发明实施例提供的一种错误类型分类器训练方法的方法流程图;
[0024] 图5是本发明实施例提供的一种字幕校正装置的结构示意图。

【具体实施方式】
[0025] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0026] 图1是本发明实施例提供的一种字幕校正方法所涉及的实施环境。参见图1,该实 施环境包括至少一个终端120和至少一个服务器140。
[0027] 终端120,可以是具备多媒体文件播放功能的电子设备,该电子设备可以是智能手 机、平板电脑、智能电视等等。
[0028] 终端120与服务器140之间可以通过无线网络相连。
[0029] 服务器140,可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是 一个云计算服务中心。该服务器140是可以向终端120提供字幕校正服务的服务器。
[0030] 图2是本发明实施例提供的一种字幕校正方法流程图。参见图2,本实施例以该字 幕校正方法应用于图1所示服务器140中来举例说明。该方法流程具体包括:
[0031] 201、获取多媒体文件的反馈数据,该反馈数据是针对该多媒体文件的字幕文件的 错误所反馈的数据。
[0032] 202、根据该反馈数据识别该多媒体文件的字幕文件的错误类型。
[0033] 203、根据该错误类型对该多媒体文件的字幕文件进行校正。
[0034] 采用本发明实施例提供的方案,通过识别反馈数据中的错误类型,根据该错误类 型对字幕文件进行校正,提高了字幕文件的正确性。
[0035] 可选地,根据该反馈数据识别该多媒体文件的字幕文件的错误类型,包括:
[0036] 若该反馈数据为按钮反馈数据,则提取该按钮反馈数据中携带的错误类型,作为 该字幕文件的错误类型;该按钮反馈数据是通过按压错误类型按钮上报的反馈数据,每个 错误类型按钮对应无词、时序问题、内容问题和无错误共四种错误类型中的任意一种。
[0037] 可选地,该根据该反馈数据识别该多媒体文件的字幕文件的错误类型,包括:
[0038] 若该反馈数据为文本反馈数据,则提取该文本反馈数据中的至少一个关键词,该 文本反馈数据是通过文本上报的反馈数据;
[0039] 将该至少一个关键词输入错误类型分类器中,识别出对应的错误类型;该错误类 型分类器是预先通过文本反馈数据样本集训练得到的,该错误类型包括无词、时序问题、内 容问题和无错误中的至少一种。
[0040] 可选地,该将该至少一个关键词输入错误类型分类器中,识别出对应的错误类型 之前,还包括:
[0041] 获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型,生成该文 本反馈数据样本集;
[0042] 提取该文本反馈数据样本集中文本反馈数据的关键词,得到至少一个关键词;
[0043] 计算每个关键词在不同错误类型中出现的概率,筛选出每个错误类型所对应的特 征关键词;
[0044] 根据每个错误类型所对应的特征关键词以及每个特征关键词在该错误类型中出 现的概率,训练得到该错误类型分类器。
[0045] 可选地,该根据该错误类型对该多媒体文件的字幕文件进行校正,包括:
[0046] 若识别出的该错误类型为无词,则搜索与该多媒体文件匹配的字幕文件;
[0047] 若识别出的该错误类型为时序问题和/或内容问题,则向目标终端发送该多媒体 文件的标识和错误类型,该目标终端为校正人员所使用的终端;
[0048] 若识别出的该错误类型为无错误,不做处理或继续下一个多媒体文件的字幕文件 的校正。
[0049] 可选地,该方法还包括:
[0050] 在获取该多媒体文件的反馈数据失败时,分析该多媒体文件的音频波形特征;
[0051] 根据该多媒体文件的音频波形特征确定该多媒体文件中语音信号的开始时刻和 结束时刻;
[0052] 根据该多媒体文件中语音信号的开始时刻和结束时刻以及该字幕文件中的播放 时间轴确定该字幕文件是否存在时序问题。
[0053] 可选地,该获取多媒体文件的反馈数据,包括:
[0054] 获取至少一个用户针对该多媒体文件上报的至少一个反馈数据;
[0055] 根据预设条件对该至少一个反馈数据进行过滤,得到有效的反馈数据;该预设条 件包括:
[0056] 当前反馈数据所对应的用户所对应的等级高于预定等级;和/或,
[0057] 当前反馈数据所对应的用户在指定时间段内播放多媒体文件的频率高于预定频 率;和/或,
[0058] 当前反馈数据所对应的用户历史反馈的反馈数据的有效性高于预定阈值。
[0059] 可选地,该根据该错误类型对该多媒体文件的字幕文件进行校正之前,还包括:
[0060] 若针对该多媒体文件的字幕文件所对应的反馈数据不止1个,则计算识别出的各 个错误类型的出现概率,选择出现概率达到预定概率的错误类型作为该多媒体文件的字幕 文件所对应的错误类型。
[0061] 上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再 --赘述。
[0062] 图3a是本发明实施例提供的一种字幕校正方法流程图。参见图3a,本实施例以该 字幕校正方法应用于图1所示服务器140中来举例说明。该方法流程具体包括:
[0063] 3a01、多媒体服务器获取多媒体文件的至少一个反馈数据,该反馈数据是针对该 多媒体文件的字幕文件的错误所反馈的数据。
[0064] 在本发明实施例中,终端用户在发现多媒体文件的字幕文件有错误时,可以通过 终端上的按钮或者文本输入框,向多媒体服务器上报发现的错误。多媒体服务器可以通过 接收终端用户上报的反馈数据,实现对反馈数据的获取。该反馈数据还可以由特定服务器 采集,该特定服务器可以是该多媒体服务器的一个特定功能单元,也可以是专门用于采集 终端用户的反馈数据的服务器,多媒体服务器通过从该特定服务器提取终端用户的反馈数 据,实现对该反馈数据的获取。
[0065] 多媒体服务器在接收反馈数据时,接收的反馈数据为至少一个终端用户针对当前 对媒体文件上报的至少一个反馈数据。该反馈数据是针对该多媒体文件的字幕文件的错误 所反馈的数据。
[0066] 3a02、多媒体服务器根据预设条件对该至少一个反馈数据进行过滤,得到有效的 反馈数据。
[0067] 在本发明实施例中,预设条件用于衡量终端用户反馈数据的有效性。
[0068] 具体地,该预设条件可以为当前反馈数据所对应的终端用户所对应的等级高于预 定等级。其中,该预定等级用于衡量终端用户等级的高低。当终端用户的等级比预定等级 高时,则说明该终端用户的等级较高;当终端用户的等级比预定等级低时,则说明该终端用 户的等级较低。
[0069] 该预设条件还可以为当前反馈数据所对应的终端用户在指定时间段内播放多媒 体文件的频率高于预定频率。其中,该预定频率用于衡量终端用户在指定时间段内,播放该 多媒体文件次数的多少。当在指定时间段内,终端用户对该多媒体文件的播放频率比预定 频率高时,则说明该终端用户在指定时间段内播放该多媒体文件的次数较多;当在指定时 间段内,终端用户对该多媒体文件的播放频率比预定频率低时,则说明该终端用户在指定 时间段内播放该多媒体文件的次数较少。
[0070] 该预设条件还可以为当前反馈数据所对应的终端用户历史反馈的反馈数据的有 效性高于预定阈值。其中,该预定阈值用于衡量终端用户历史反馈的反馈数据的有效性。当 终端用户历史反馈的反馈数据的有效性比预定阈值高时,则说明该终端用户历史反馈的反 馈数据的有效性较高;当终端用户历史反馈的反馈数据的有效性比预定阈值低时,则说明 该终端用户历史反馈的反馈数据的有效性较低。
[0071] 多媒体服务器根据预设条件对该至少一个反馈数据进行过滤,得到有效的反馈数 据。具体地,多媒体服务器根据上述预设条件,将优于该预设条件的反馈数据作为有效的反 馈数据,舍弃次于预设条件的反馈数据。
[0072] 如,当预设条件为当前反馈数据所对应的终端用户所对应的等级高于预定等级 时,多媒体服务器将较高等级的终端用户的反馈数据作为有效的反馈数据,舍弃等级较低 的终端用户的反馈数据。
[0073] 如,当该预设条件为当前反馈数据所对应的终端用户在指定时间段内播放多媒体 文件的频率高于预定频率时,多媒体服务器将在指定时间段内对该多媒体文件播放次数较 多的终端用户的反馈数据作为有效的反馈数据,舍弃对该多媒体文件播放次数较少的终端 用户的反馈数据。
[0074] 如,当该预设条件为当前反馈数据所对应的终端用户历史反馈的反馈数据的有效 性高于预定阈值时,多媒体服务器将历史反馈的反馈数据的有效性较高的终端用户的反馈 数据作为有效的反馈数据,舍弃历史反馈的反馈数据的有效性较低的终端用户的反馈数 据。
[0075] 需要说明的是,上述预设条件仅是示例性的,并不能用来限制本发明。在本发明提 供的其它实施例中,该预设条件还可以为其它的预设条件,均以能表示用户反馈数据的有 效性为准,这里不再赘述。
[0076] 3a03、多媒体服务器根据该反馈数据识别该多媒体文件的字幕文件的错误类型。
[0077] 图3b是本发明实施例提供的一种数据反馈界面图。参见图3b,该数据反馈界面包 括按钮反馈和文本反馈。该按钮反馈包括一个下拉菜单,该下拉菜单至少包括四个选项,分 别对应错误类型无词、时序问题、内容问题和无错误中的一种,该按钮反馈还包括一个"提 交"按钮,终端用户可以通过点击该下拉菜单中的小三角,查看并选择错误类型,当终端用 户想要反馈某种错误类型时,可以通过下拉菜单,选中要反馈的错误类型,并按压"提交"按 钮,向多媒体服务器上报当前多媒体文件的字幕文件的按钮反馈数据。该文本反馈包括一 个文本输入框、一个"提交"按钮和一个"取消"按钮,终端用户可以在该文本输入框中输入 文本反馈数据,并按压"提交"按钮,以文本的形式向多媒体服务器上报反馈数据,终端用户 还可以通过按压"取消"按钮,取消当前输入的文本反馈数据。
[0078] 由上述可知,该反馈数据为按钮反馈数据和文本反馈数据中至少一种。该按钮反 馈数据是终端用户通过按压界面上的错误类型按钮上报的反馈数据,该文本反馈数据是终 端用户通过文本上报的反馈数据。
[0079] 3a04、若该反馈数据为按钮反馈数据,则提取该按钮反馈数据中携带的错误类型, 作为该字幕文件的错误类型。
[0080] 由于按钮反馈数据是终端用户通过按压终端数据反馈界面上的错误类型按钮向 多媒体服务器上报的,且在终端界面上,每一种错误类型都有对应的错误类型按钮,因此, 多媒体服务器接收到的反馈数据中携带了错误类型,多媒体服务器可直接将该携带的错误 类型,作为该字幕文件的错误类型。
[0081] 如,在图3b所示的数据反馈界面中,当终端用户按压"无词"按钮时,多媒体服务 器在接收到该终端用户的反馈数据时,该反馈数据就携带错误类型无词,因此,多媒体服务 器将该无词,作为该终端用户对该对媒体文件对应的字幕文件所上报的错误类型。与此同 理,可以得到错误类型时序问题、内容问题和无错误的错误类型,这里不再赘述。
[0082] 3a05、多媒体服务器根据错误类型对该字幕文件进行校正。
[0083] 该根据错误类型对字幕文件进行校正包括以下三种情况:
[0084] 第一种情况,若识别出的错误类型为无词,多媒体服务器搜索与该多媒体文件匹 配的字幕。
[0085] 具体地,若多媒体服务器识别出错误类型为无词,该多媒体服务器根据该多媒体 文件的名称,从网络服务器搜索与该多媒体文件匹配的字幕文件,并获取该搜索到的字幕 文件,实现对该字幕文件的校正。
[0086] 比如,若当前多媒体文件为音频文件"爱我中华",多媒体服务器根据该音频文件 的名称"爱我中华",从网络服务器搜索与该"爱我中华"匹配的字幕文件,并获取该字幕文 件。
[0087] 第二种情况,若识别出的该错误类型为时序问题和/或内容问题,则多媒体服务 器向目标终端发送该多媒体文件的标识和错误类型,该目标终端为校正人员所使用的终 端。
[0088] 具体地,当多媒体服务器识别出错误类型为时序问题和/或内容问题时,该多媒 体服务器向目标终端发送该多媒体文件的标识和错误类型,该目标终端接收到多媒体服务 器发送的该多媒体文件的标识和错误类型时,目标终端的校正人员根据该多媒体文件的标 识和错误类型,对该多媒体文件进行人工校正。
[0089] 具体地,当该错误类型为时序问题时,校正人员通过调节该字幕文件的时间轴,对 该字幕文件进行校正。如,当多媒体文件为音频文件"爱我中华",且该错误类型为时序问题 时,校正人员将当前音频文件对应的字幕文件的开始时刻与该音频文件所对应的正确的字 幕文件的开始时刻对齐,实现对该字幕文件的校正。
[0090] 当该错误类型为内容问题时,校正人员通过对该字幕文件内容的修改,对该字幕 文件进行校正。如,当多媒体文件为音频文件"爱我中华",且该错误类型为内容问题时,校 正人员将当前音频文件对应的字幕文件与正确的字幕文件进行对比,找出具体的错误,并 对该错误进行修改,如,当校正人员找到"中国凶姿英发"时,通过与正确的字幕文件"中华 雄姿英发"进行对比,可以发现该句中的错误为"国"和"凶",于是校正人员就可以将"国" 修改为"华",将"凶"修改为"雄",实现对该字幕文件的校正。
[0091] 第三种情况,若识别出的该错误类型为无错误,多媒体服务器不做处理或继续下 一个多媒体文件的字幕文件的校正。
[0092] 当多媒体服务器识别出的错误类型为无错误时,不做处理,或直接进行下一个多 媒体文件字幕文件的校正。
[0093] 需要说明的是,在本发明实施例中,将无错误也定义为一种错误类型,事实上,在 本发明提供的其它实施例中,还可以不对该无错误进行定义,或直接将其定义为正确类型, 这里不再赘述。
[0094] 还需要说明的是,若针对多媒体文件的字幕文件所对应的反馈数据不止1个,那 么,在错误类型识别过程中,多媒体服务器识别出不止1个错误类型,则多媒体服务器计算 该识别出的各个错误类型的出现概率,选择出现概率达到预定概率的错误类型作为该多媒 体文件的字幕文件所对应的错误类型。其中,预定概率用于衡量识别到的错误类型的正确 性,当计算得到的概率大于预定概率时,则认为此时多媒体服务器识别到的错误类型是正 确的,当计算得到的概率小于预定概率时,则认为此时多媒体服务器识别到的错误类型是 错误的。假设预定概率为P,多媒体服务器识别到的某个错误类型出现的概率为P1,当Pl>p 时,则认为此时多媒体服务器识别到的错误类型是正确的,当P1〈P时,则认为此时多媒体 服务器识别到的错误类型是错误的。
[0095] 如当多媒体服务器识别到的错误类型为时序问题和内容问题,多媒体服务器计算 得错误类型时序问题出现的概率为P2,错误类型内容问题出现的概率为P3,且P2>P,P3〈P, 那么此时多媒体服务器就认为识别到的时序问题是正确的,而识别到的内容问题是错误 的。则多媒体服务器将时序问题作为该字幕文件的错误类型,只对时序问题进行校正,而不 校正内容问题。
[0096] 如当多媒体服务器识别到的错误类型为时序问题和内容问题,多媒体服务器计算 得错误类型时序问题出现的概率为P2,错误类型内容问题出现的概率为P3,且P2>P,P3>P, 那么此时多媒体服务器就认为识别到的时序问题和内容问题都是正确的。则多媒体服务器 就将时序问题和内容问题同时作为该字幕文件的错误类型,并对该时序问题和内容问题进 行校正。
[0097] 如当多媒体服务器识别到的错误类型为时序问题和内容问题,多媒体服务器计算 得错误类型时序问题出现的概率为P2,错误类型内容问题出现的概率为P3,且P2〈P,P3〈P, 那么此时多媒体服务器就认为识别到的时序问题和内容问题都是错误的。即,多媒体服务 器认为该字幕文件是正确的,不对该字幕文件进行校正。
[0098] 3a06、若该反馈数据为文本反馈数据,多媒体服务器提取该文本反馈数据中的至 少一个关键词,该文本反馈数据是通过文本上报的反馈数据。
[0099] 在图3b所示的数据反馈界面中,当终端用户需要以文本的形式反馈数据时,可以 在文本框中输入文本反馈数据,如图3b中所示,此时该终端用户输入的文本反馈数据为 "唱到第3句的时候,不显示词了",终端用户可以按压"提交"按钮,向多媒体服务器上报该 文本反馈数据,也可以按压"取消"按钮,取消编辑的文本反馈数据。
[0100] 由于文本反馈数据是终端用户通过终端界面上的文本输入框向多媒体终端上报 的,同样的错误类型可以有多种表达语句,且不同终端用户的语言习惯存在差异,因此,不 同用户上报的文本反馈数据不同。
[0101] 当多媒体服务器获取到的反馈数据为文本反馈数据时,多媒体服务器对该文本反 馈数据进行分词,提取该文本反馈数据中的关键词,进而根据该关键词对上报的错误类型 进行识别。
[0102] 具体地,多媒体服务器对获取到的文本反馈数据进行分词处理,将对错误类型的 识别贡献较大的词语,作为关键词,舍弃对错误类型的识别贡献较小的词语。该对错误类型 的识别贡献较大的词语如"没词"、"时间"、"内容"等,该对错误类型的识别贡献较小的词语 如"了"、"的"、"可以"等。如,当获取到的文本反馈数据为"没有词了"时,多媒体服务器对 该文本反馈数据进行分词处理,得到"没有"、"词"和" 了"三个词语,由于在对错误类型无 词的识别时,"没有"和"词"的贡献较大,而"了 "的贡献较小,因此,多媒体服务器将该"没 有"和、"词"作为关键词,舍弃" 了"。
[0103] 3a07、多媒体服务器将该至少一个关键词输入错误类型分类器中,识别出对应的 错误类型。
[0104] 多媒体服务器将提取到的文本反馈数据的各个关键词输入错误类型分类器,该错 误类型分类器通过计算各个关键词在不同错误类型中出现的概率,识别出这些关键词所对 应的错误类型。多媒体服务器将出现概率最高的错误类型,作为该字幕文件的错误类型。
[0105] 具体地,当该错误类型分类器为贝叶斯(Bayes)分类器时,多媒体服务器将该至 少一个关键词输入该Bayes分类器中,Bayes分类器根据公式

【权利要求】
1. 一种字幕校正方法,其特征在于,所述方法包括: 获取多媒体文件的反馈数据,所述反馈数据是针对所述多媒体文件的字幕文件的错误 所反馈的数据; 根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型; 根据所述错误类型对所述多媒体文件的字幕文件进行校正。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述反馈数据识别所述多媒体 文件的字幕文件的错误类型,包括: 若所述反馈数据为按钮反馈数据,则提取所述按钮反馈数据中携带的错误类型,作为 所述字幕文件的错误类型,所述按钮反馈数据是通过按压错误类型按钮上报的反馈数据, 每个错误类型按钮对应无词、时序问题、内容问题和无错误共四种错误类型中的任意一种。
3. 根据权利要求1所述的方法,其特征在于,所述根据所述反馈数据识别所述多媒体 文件的字幕文件的错误类型,包括: 若所述反馈数据为文本反馈数据,则提取所述文本反馈数据中的至少一个关键词,所 述文本反馈数据是通过文本上报的反馈数据; 将所述至少一个关键词输入错误类型分类器中,识别出对应的错误类型;所述错误类 型分类器是预先通过文本反馈数据样本集训练得到的,所述错误类型包括无词、时序问题、 内容问题和无错误中的至少一种。
4. 根据权利要求3所述的方法,其特征在于,所述将所述至少一个关键词输入错误类 型分类器中,识别出对应的错误类型之前,还包括: 获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误类型,生成所述文本 反馈数据样本集; 提取所述文本反馈数据样本集中文本反馈数据的关键词,得到至少一个关键词; 计算每个关键词在不同错误类型中出现的概率,筛选出每个错误类型所对应的特征关 键词; 根据每个错误类型所对应的特征关键词以及每个特征关键词在所述错误类型中出现 的概率,训练得到所述错误类型分类器。
5. 根据权利要求1至4任一所述的方法,其特征在于,所述根据所述错误类型对所述多 媒体文件的字幕文件进行校正,包括: 若识别出的所述错误类型为无词,则搜索与所述多媒体文件匹配的字幕文件; 若识别出的所述错误类型为时序问题和/或内容问题,则向目标终端发送所述多媒体 文件的标识和错误类型,所述目标终端为校正人员所使用的终端; 若识别出的所述错误类型为无错误,不做处理或继续下一个多媒体文件的字幕文件的 校正。
6. 根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括: 在获取所述多媒体文件的反馈数据失败时,分析所述多媒体文件的音频波形特征; 根据所述多媒体文件的音频波形特征确定所述多媒体文件中语音信号的开始时刻和 结束时刻; 根据所述多媒体文件中语音信号的开始时刻和结束时刻以及所述字幕文件中的播放 时间轴确定所述字幕文件是否存在时序问题。
7. 根据权利要求1至4任一所述的方法,其特征在于,所述获取多媒体文件的反馈数 据,包括: 获取至少一个用户针对所述多媒体文件上报的至少一个反馈数据; 根据预设条件对所述至少一个反馈数据进行过滤,得到有效的反馈数据;所述预设条 件包括: 当前反馈数据所对应的用户所对应的等级高于预定等级;和/或, 当前反馈数据所对应的用户在指定时间段内播放多媒体文件的频率高于预定频率;和 /或, 当前反馈数据所对应的用户历史反馈的反馈数据的有效性高于预定阈值。
8. 根据权利要求1至4任一所述的方法,其特征在于,所述根据所述错误类型对所述多 媒体文件的字幕文件进行校正之前,还包括: 若针对所述多媒体文件的字幕文件所对应的反馈数据不止1个,则计算识别出的各个 错误类型的出现概率,选择出现概率达到预定概率的错误类型作为所述多媒体文件的字幕 文件所对应的错误类型。
9. 一种字幕校正装置,其特征在于,所述装置包括: 第一获取模块,用于获取多媒体文件的反馈数据,所述反馈数据是针对所述多媒体文 件的字幕文件的错误所反馈的数据; 第一识别模块,用于根据所述反馈数据识别所述多媒体文件的字幕文件的错误类型; 字幕校正模块,用于根据所述错误类型对所述多媒体文件的字幕文件进行校正。
10. 根据权利要求9所述的装置,其特征在于,所述第一识别模块包括: 第一提取单元,用于当所述反馈数据为按钮反馈数据时,提取所述按钮反馈数据中携 带的错误类型,作为所述字幕文件的错误类型;所述按钮反馈数据是通过按压错误类型按 钮上报的反馈数据,每个错误类型按钮对应无词、时序问题、内容问题和无错误共四种错误 类型中的任意一种。
11. 根据权利要求9所述的装置,其特征在于,所述第一识别模块,包括: 第二提取单元,用于当所述反馈数据为文本反馈数据时,提取所述文本反馈数据中的 至少一个关键词,所述文本反馈数据是通过文本上报的反馈数据; 错误识别单元,用于将所述至少一个关键词输入错误类型分类器中,识别出对应的错 误类型;所述错误类型分类器是预先通过文本反馈数据样本集训练得到的,所述错误类型 包括无词、时序问题、内容问题和无错误中的至少一种。
12. 根据权利要求11所述的装置,其特征在于,所述装置还包括: 第二获取模块,用于获取至少一个文本反馈数据以及每个文本反馈数据所对应的错误 类型,生成所述文本反馈数据样本集; 关键词提取模块,用于提取所述文本反馈数据样本集中文本反馈数据的关键词,得到 至少一个关键词; 概率计算模块,用于计算每个关键词在不同错误类型中出现的概率,筛选出每个错误 类型所对应的特征关键词; 分类器训练模块,用于根据每个错误类型所对应的特征关键词以及每个特征关键词在 所述错误类型中出现的概率,训练得到所述错误类型分类器。
13. 根据权利要求9至12任一所述的装置,其特征在于,所述字幕校正模块包括: 搜索单元,用于当识别出的所述错误类型为无词时,搜索与所述多媒体文件匹配的字 辱文件; 发送单元,用于当识别出的所述错误类型为时序问题和/或内容问题时,向目标终端 发送所述多媒体文件的标识和错误类型,所述目标终端为校正人员所使用的终端; 校正单元,用于当识别出的所述错误类型为无错误时,不做处理或继续下一个多媒体 文件的字幕文件的校正。
14. 根据权利要求9至12任一所述的装置,其特征在于,所述装置还包括: 波形分析模块,用于在获取所述多媒体文件的反馈数据失败时,分析所述多媒体文件 的音频波形特征; 时刻确定模块,用于根据所述多媒体文件的音频波形特征确定所述多媒体文件中语音 信号的开始时刻和结束时刻; 问题确定模块,用于根据所述多媒体文件中语音信号的开始时刻和结束时刻以及所述 字幕文件中的播放时间轴确定所述字幕文件是否存在时序问题。
15. 根据权利要求9至12任一所述的装置,其特征在于,所述第一获取模块包括: 获取单元,用于获取至少一个用户针对所述多媒体文件上报的至少一个反馈数据; 过滤单元,用于根据预设条件对所述至少一个反馈数据进行过滤,得到有效的反馈数 据;所述预设条件包括: 当前反馈数据所对应的用户所对应的等级高于预定等级;和/或, 当前反馈数据所对应的用户在指定时间段内播放多媒体文件的频率高于预定频率;和 /或, 当前反馈数据所对应的用户历史反馈的反馈数据的有效性高于预定阈值。
16. 根据权利要求9至12任一所述的装置,其特征在于,所述装置还包括: 类型计算模块,用于当针对所述多媒体文件的字幕文件所对应的反馈数据不止1个 时,计算识别出的各个错误类型的出现概率,选择出现概率达到预定概率的错误类型作为 所述多媒体文件的字幕文件所对应的错误类型。
【文档编号】H04N21/235GK104093037SQ201410254927
【公开日】2014年10月8日 申请日期:2014年6月10日 优先权日:2014年6月10日
【发明者】傅鸿城, 赵伟, 曹海峰 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1