一种为本地视频文件匹配字幕文件的方法和装置的制造方法_3

文档序号:9492220阅读:来源:国知局
件名,从所述字幕文件名集合中删除。
[0077]通常情况下,核心词是指的视频的集数,例如:某电视剧第3集,其中第3集就是核心词。在视频文件命名的时候,视频的集数通常出现在固定的位置。因此,本步骤中可以按照视频文件命名的格式,从其中固定的位置,也就是集数的位置中,提取出核心词。当然,也可以通过文字识别等方式来提取核心词。
[0078]S204:按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名;并按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合。
[0079]具体的,所述按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名,包括:
[0080]对所述第一视频文件名进行解析,获得所述第一视频文件名的所有字符,根据预设的无意义字符库,将第一视频文件名中的无意义字符删除,获得标准化第一视频文件名;所述无意义字符库中,包含:视频或字幕文件分辨率的标识,视频或字幕文件格式的标识,视频或字幕文件的语言标识,视频或字幕文件的文件源网址的标识,视频或字幕文件中用于分词分隔的符号;
[0081]按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合,包括:
[0082]对字幕文件名集合中的每个字幕文件名进行解析,获得所述每个字幕文件名的所有字符,根据预设的无意义字符库,将每个字幕文件名中的无意义字符删除,获得每个字幕文件名对应的标准化字幕文件名。
[0083]具体的,所述获得包含本地字幕文件名的字幕文件名集合,为:
[0084]根据预设的软件策略在本地搜索相应路径中的字幕文件,获得包含本地字幕文件名的字幕文件名集合。例如:在视频文件所在的目录或其上一级目录中搜索。
[0085]S205:将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算。
[0086]实际应用中,可以省略步骤S203,这种情况下,可以在将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算前,按预设格式,提取所述标准化第一视频文件名的第一核心词和标准化字幕文件名集合中的各个标准化字幕文件名的核心词;将标准化字幕文件名集合中核心词与所述第一核心词不一致的标准化字幕文件名,从所述标准化字幕文件名集合中删除。
[0087]具体的,所述将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算,包括:
[0088]分别计算出所述标准化第一视频文件名与标准化字幕文件名集合中的每个标准化字幕文件名之间的“编辑距离”;
[0089]获得所述标准化第一视频文件名的字符长度;
[0090]将计算出的所述标准化第一视频文件名与标准化字幕文件名集合中的每个标准化字幕文件名之间的编辑距离,和标准化第一视频文件名的字符长度,分别进行除法运算,将各个运算结果,确定为匹配特征值,该匹配特征值越低,匹配度越高。
[0091]S206:将匹配特征值大于预设阈值的标准化字幕文件名,从所述标准化字幕文件名集合中删除。
[0092]S207:将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。
[0093]具体的,所述将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件,包括:
[0094]按照所述标准化第一视频文件名与每个标准化字幕文件名之间的匹配特征值,对标准化字幕文件名集合中的标准化字幕文件名进行排序,将匹配特征值最低的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。
[0095]需要说明的是,本实施例中并不对计算匹配特征值的具体实现方式进行限定,任何可能的实现方式都可以应用于本申请中。
[0096]以下,举一个实例,对图2所示的流程进行详细的说明。
[0097](1)首先根据步骤S201,获取第一视频文件名和包含本地字幕文件名的字幕文件
々隹A
-? 口。
[0098]假设获得的第一视频文件名为〈Lie To Me.1080p s02e02.dvdrip>,字幕文件名集合S,其中包含字幕文件名为:
[0099]< [www.1qiy1.com]甄嫘传第 27 集〉
[0100]<甄嫘传1080p第20集〉
[0101]〈Lie To Me s01e02.dvdrip.xvid-reward>
[0102]<[www.cctv.com]Lie To Me s02e02.dvdrip.xvid-reward>
[0103]< 冰与火之歌 s02e02.dvdrip.xvid-reward〉。
[0104]这里搜索到的字幕文件集合中的字幕文件是根据预设的软件策略搜索相应路径中的字幕文件,一般只搜索视频文件所在的目录以及视频文件所在目录的上一级目录中存在的字幕文件。
[0105](2)根据步骤S202,统一大写或小写格式。
[0106]将获得的第一视频文件名和字幕文件名集合中的字幕文件名中包含的英文字母统一为小写格式,分别为:第一视频文件名〈lie to me.1080p s02e02.dvdrip);字幕文件名集合中的字幕文件名:
[0107]< [www.1qiy1.com]觀嫘传第 27 集〉
[0108]<甄嫘传1080p第20集〉
[0109]<1 ie to me s01e02.dvdrip.xvid-reward>
[0110]<[www.cctv.com]lie to me s02e02.dvdrip.xvid-reward>
[0111]< 冰与火之歌 s02e02.dvdrip.xvid-reward〉。
[0112]当然,在图2所示实施例中也可以将第一视频文件名和字幕文件名集合中的字幕文件名中包含的英文字母统一为预设的大写格式。
[0113](3)根据步骤S203,提取核心词。
[0114]按照预设格式,分别提取第一视频文件名的第一核心词和字幕文件名集合中的各个字幕文件名的核心词,本实施例中所述核心词为集数,则第一视频文件名的第一核心词为<S02e02> ;字幕文件名集合中的各个字幕文件名的核心词为:〈第27集〉、〈第20集〉、<s01e02>、<s02e02>、<s02e02>o 其中〈第 27 集〉、〈第 20 集〉、<s01e02> 与第一核心词<s02e02>字符不匹配,将与其相对应的字幕文件从所述字幕文件名集合S中删除,即所述字幕文件名集合S中剩余
[0115]<[www.cctv.com]lie to me s02e02.dvdrip.xvid_reward> 和
[0116]< 冰与火之歌 s02e02.dvdrip.xvid-reward〉。
[0117](4)根据步骤S204,进行规整化。
[0118]按照预设的规整化算法对所述第一视频文件名和字幕文件集合中剩余的字幕文件的文件名进行规整化,即根据无意义字符库过滤无意义字符,分别得到标准化第一视频文件名〈Iietomes02e02> ;
[0119]标准化字幕文件名〈Iietomes02e02>、<冰与火之歌s02e02>。
[0120](5)根据步骤S205,进行计算匹配特征值,其中匹配特征值与所述匹配度呈负相关,即匹配特征值越低,匹配度越高。
[0121]首先计算所述标准化第一视频文件名与标准化字幕文件名集合中的每个标准化字幕文件名之间的“编辑距离”,标准化第一视频文件名〈Iietomes02e02>与标准化字幕文件名〈Iietomes02e02>的“编辑距离”为0 ;标准化第一视频文件名〈Iietomes02e02>与标准化字幕文件名〈冰与火之歌s02e02>的“编辑距离”为7 ;
[0122]获得所述标准化第一视频文件名〈Iietomes02e02>的字符长度为13 ;
[0123]根据匹配特征值=编辑距离/标准化第一视频文件名字符长度,计算匹配特征值:标准化第一视频文件名〈Iietomes02e02>与标准化字幕文件名〈Iietomes02e02>的匹配特征值=0/13 = 0 ;
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1