字幕数据融合方法及装置的制造方法

文档序号:10516344阅读:452来源:国知局
字幕数据融合方法及装置的制造方法
【专利摘要】本发明公开了一种字幕数据融合方法及装置,其中方法包括:利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息,保存复数个字幕文件和字幕文件的字幕描述信息;根据字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息;对重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述信息。本方案方便了用户获取到全面、完整的字幕描述信息,提高了用户体验感。
【专利说明】
字幕数据融合方法及装置
技术领域
[0001 ]本发明涉及互联网技术领域,具体涉及一种字幕数据融合方法及装置。
【背景技术】
[0002]随着社会的不断进步,人们的精神需求也越来越多元化。例如,越来越多的人们喜欢观看美剧、韩剧等国外影视剧。然而很多的国外影视剧并没有中文字幕,因此给不熟悉国外语言的人们带来了很大的不便。
[0003]为了解决这一问题,现有许多视频播放器都已提供字幕播放功能,不过人们还是需要自己去寻找字幕文件。因此,也出现了许多可提供字幕文件的字幕网站,人们通过这些字幕网站可以获取到字幕文件,但是由于有些字幕网站是由影迷爱好者共同维护的,并不是由专业字幕人员进行维护的,因此这些字幕网站上所提供的字幕文件的字幕描述信息并不完整,甚至存在大量错误,因此给人们在查找过程中带来了很大的不便。

【发明内容】

[0004]本发明提供了一种字幕数据融合方法及装置,方便了用户获取到全面、完整的字幕描述信息,提高了用户体验感。
[0005]根据本发明的一个方面,提供了一种字幕数据融合方法,该方法包括:
[0006]利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息,保存复数个字幕文件和字幕文件的字幕描述信息;
[0007]根据字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息;
[0008]对重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述信息。
[0009]进一步,利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息具体为:根据抓取关键词,利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息。
[0010]进一步,获取重复的字幕文件的字幕描述信息包括:
[0011]对字幕描述信息进行分词处理,计算经分词处理后的字幕描述信息的相似度;
[0012]根据经分词处理后的字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息。
[0013]进一步,得到字幕融合描述信息包括:
[0014]根据重复的字幕文件的字幕描述信息的非空字段,从重复的字幕文件的字幕描述信息中选取基准字幕描述信息;
[0015]根据除基准字幕描述信息之外的重复的字幕文件的字幕描述信息,补充基准字幕描述信息的所有字段,得到字幕融合描述信息。
[0016]进一步,该方法还包括:对字幕融合描述信息相对应的字幕文件进行编码转换,得到符合至少一种预设编码方式的字幕分享文件。
[0017]根据本发明的另一方面,提供了一种字幕数据融合装置,该装置包括:
[0018]抓取模块,适于利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息,保存复数个字幕文件和字幕文件的字幕描述信息;
[0019]选取模块,适于根据字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息;
[0020]融合模块,适于对重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述信息。
[0021 ]进一步,抓取模块适于:根据抓取关键词,利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息。
[0022]进一步,选取模块适于:
[0023]对字幕描述信息进行分词处理,计算经分词处理后的字幕描述信息的相似度;
[0024]根据经分词处理后的字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息。
[0025]进一步,融合模块适于:
[0026]根据重复的字幕文件的字幕描述信息的非空字段,从重复的字幕文件的字幕描述信息中选取基准字幕描述信息;
[0027]根据除基准字幕描述信息之外的重复的字幕文件的字幕描述信息,补充基准字幕描述信息的所有字段,得到字幕融合描述信息。
[0028]进一步,该装置还包括:编码转换模块,适于对字幕融合描述信息相对应的字幕文件进行编码转换,得到符合至少一种预设编码方式的字幕分享文件。
[0029]根据本发明提供的技术方案,利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息,并根据字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息,然后对重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述信息。本发明提供的技术方案得到了更加全面、完整的字幕融合描述信息,从而方便了用户获取到全面、完整的字幕描述信息,提高了用户体验感。
[0030]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0031]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0032]图1示出了根据本发明一个实施例的字幕数据融合方法的流程示意图;
[0033]图2示出了根据本发明另一个实施例的字幕数据融合方法的流程示意图;
[0034]图3为管理列表的示意图;
[0035]图4示出了根据本发明一个实施例的字幕数据融合装置的功能结构示意图;
[0036]图5示出了根据本发明另一个实施例的字幕数据融合装置的功能结构示意图。
【具体实施方式】
[0037]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0038]图1示出了根据本发明一个实施例的字幕数据融合方法的流程示意图,如图1所示,该方法包括如下步骤:
[0039]步骤S100,利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息,保存复数个字幕文件和字幕文件的字幕描述信息。
[0040]有许多例如射手字幕网和人人字幕网等字幕网站都可以向用户提供免费的字幕文件和与之相应的字幕描述信息,在步骤SlOO中,利用爬虫从各大字幕网站抓取复数个字幕文件和字幕文件的字幕描述信息,并保存复数个字幕文件和字幕文件的字幕描述信息,以便后续对字幕描述信息进行融合处理。
[0041]其中,字幕描述信息用于描述字幕文件的相关信息,字幕描述信息包括:片名信息、上映时间信息、导演信息、主演信息和字幕语种信息。由于有些影视剧在不同国家的片名并不完全一样。因此,片名信息可包括:原片名信息、中文片名信息、英文片名信息、香港片名信息和台湾片名信息。
[0042]步骤SlOl,根据字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息。
[0043]例如,根据字幕描述信息的相似度,从复数个字幕文件中选取出相似度高的字幕文件,即重复的字幕文件,并获取重复的字幕文件的字幕描述信息。
[0044]步骤S102,对重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述?目息O
[0045]在步骤SlOl选取出重复的字幕文件之后,步骤S102对重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述信息。该字幕融合描述信息与重复的字幕文件的字幕描述信息相比,信息更加全面、完整,从而有助于用户获取到全面的字幕描述信息。
[0046]根据本实施例提供的字幕数据融合方法,利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息,并根据字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息,然后对重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述信息。本发明提供的技术方案得到了更加全面、完整的字幕融合描述信息,从而方便了用户获取到全面、完整的字幕描述信息,提高了用户体验感。
[0047]图2示出了根据本发明另一个实施例的字幕数据融合方法的流程示意图,如图2所示,该方法包括如下步骤:
[0048]步骤S200,根据抓取关键词,利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息,保存复数个字幕文件和字幕文件的字幕描述信息。
[0049]根据抓取关键词,利用爬虫从各大字幕网站抓取复数个字幕文件和字幕文件的字幕描述信息,并保存复数个字幕文件和字幕文件的字幕描述信息,以便后续对字幕描述信息进行融合处理。具体地,可通过管理列表实现对复数个字幕文件和字幕文件的字幕描述信息的管理。
[0050]其中,字幕描述信息用于描述字幕文件的相关信息,字幕描述信息包括:片名信息、上映时间信息、导演信息、主演信息和字幕语种信息。具体地,片名信息可包括:原片名信息、中文片名信息、英文片名信息、香港片名信息和台湾片名信息。
[0051]图3为管理列表的示意图,如图3所示,该管理列表列出了复数个字幕文件的字幕描述信息,其中,initialname信息即为原片名信息,chinesename信息即为中文片名信息,englishname信息即为英文片名信息,hongkongname信息即为香港片名信息,taiwanname即为台湾片名信息。从图3中还可以看出有些字幕文件的字幕描述信息并不全面,具有空字段。以图3中所列的第二个字幕文件的字幕描述信息为例,该字幕文件的原片名信息为“Jessabelle”,中文片名信息为“杰莎贝尔”,英文片名信息为空字段,台湾片名信息为“鬼魂”,香港片名信息为“母难日”。
[0052]步骤S201,对字幕描述信息进行分词处理,计算经分词处理后的字幕描述信息的相似度。
[0053]例如,可对字幕描述信息中的片名信息和主演信息进行分词处理,计算经分词处理后的字幕描述信息的相似度。
[0054]步骤S202,根据经分词处理后的字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息。
[0055]在步骤S201完成相似度的计算之后,步骤S202根据经分词处理后的字幕描述信息的相似度,从复数个字幕文件中选取相似度高的字幕文件,即重复的字幕文件,并获取重复的字幕文件的字幕描述信息。例如,可从复数个字幕文件中选取相似度超过80%的字幕文件,相似度超过80%的字幕文件可以作为重复的字幕文件。本领域技术人员可以根据实际需要,选取相似度在其他范围内的字幕文件作为重复的字幕文件。
[0056]步骤S203,根据重复的字幕文件的字幕描述信息的非空字段,从重复的字幕文件的字幕描述信息中选取基准字幕描述信息。
[0057]在步骤S202从复数个字幕文件中选取出重复的字幕文件之后,步骤S203根据重复的字幕文件的字幕描述信息的非空字段,从重复的字幕文件的字幕描述信息中选取基准字幕描述信息。例如,步骤S202从复数个字幕文件中选取出重复的字幕文件分别为字幕文件
1、字幕文件2和字幕文件3,而字幕文件I的字幕描述信息的非空字段的个数为6个,字幕文件2的字幕描述信息的非空字段的个数为5个,字幕文件3的字幕描述信息的非空字段的个数为7个,则在步骤S203中,可从字幕文件I的字幕描述信息、字幕文件2的字幕描述信息和字幕文件3的字幕描述信息中选取非空字段的个数最多的字幕描述信息,即字幕文件3的字幕描述信息作为基准字幕描述信息。
[0058]步骤S204,根据除基准字幕描述信息之外的重复的字幕文件的字幕描述信息,补充基准字幕描述信息的所有字段,得到字幕融合描述信息。
[0059]例如,重复的字幕文件分别为字幕文件1、字幕文件2和字幕文件3,在步骤S203中所选取的基准字幕描述信息为字幕文件3的字幕描述信息,则在步骤S204中分别根据字幕文件I的基准字幕描述信息和字幕文件2的基准字幕描述信息,补充字幕文件3的字幕描述信息的所有字段,从而得到更加全面、完整的字幕融合描述信息,进而有助于用户获取到全面的字幕描述信息。
[0060]虽然在步骤S204中对字幕文件3的字幕描述信息的所有字段进行补充,得到了字幕融合描述信息,但是字幕融合描述信息相对应的字幕文件即字幕文件3的编码方式并不一定是现有视频播放器所支持的字幕文件的编码方式,所以为了便于用户使用字幕文件,还需对字幕融合描述信息相对应的字幕文件进行编码转换,得到符合至少一种预设编码方式的字幕分享文件。具体地,可通过步骤S205至步骤S207进行实现。
[0061 ]步骤S205,分析字幕融合描述信息相对应的字幕文件的编码方式。
[0062]步骤S206,根据编码方式,将字幕融合描述信息相对应的字幕文件解码成Unicode格式的文件。
[0063]步骤S207,对文件进行编码转换,得到符合UTF-8编码方式的字幕分享文件和/或GBK编码方式的字幕分享文件。
[0064]为了对字幕融合描述信息相对应的字幕文件进行编码转换,在步骤S205中需要分析其编码方式。完成编码方式的分析之后,步骤S206可根据编码方式,将字幕融合描述信息相对应的字幕文件解码成Unicode格式的文件。然后在步骤S207中对文件进行编码转换,得到符合UTF-8编码方式的字幕分享文件和/或GBK编码方式的字幕分享文件。其中,UTF-8编码方式和GBK编码方式均为常用的编码方式,大多提供字幕播放功能的视频播放器都支持UTF-8编码方式的字幕分享文件和GBK编码方式的字幕分享文件。
[0065]在步骤S207中,将Unicode格式的文件转换成UTF-8编码方式的字幕分享文件和/或GBK编码方式的字幕分享文件,不仅方便了用户的使用,也避免了在使用过程中出现字幕乱码,进一步提高了用户体验感。
[0066]为了便于用户获取字幕分享文件及字幕分享文件相对应的字幕融合描述信息,该字幕数据融合方法还可包括将字幕分享文件及字幕分享文件相对应的字幕融合描述信息上传至内容分发网络的步骤。
[0067]步骤S208,将字幕分享文件及字幕分享文件相对应的字幕融合描述信息上传至内容分发网络,以供用户下载。
[0068]根据本实施例提供的字幕数据融合方法,利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息,并根据经分词处理后的字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息,然后根据重复的字幕文件的字幕描述信息的非空字段,从重复的字幕文件的字幕描述信息中选取基准字幕描述信息,并补充基准字幕描述信息的所有字段,得到字幕融合描述信息,对字幕融合描述信息相对应的字幕文件进行编码转换,得到符合UTF-8编码方式的字幕分享文件和/或GBK编码方式的字幕分享文件,最后将字幕分享文件及字幕分享文件相对应的字幕融合描述信息上传至内容分发网络,以供用户下载。本发明提供的技术方案不仅得到了更加全面、完整的字幕融合描述信息,而且还得到了符合UTF-8编码方式的字幕分享文件和/或GBK编码方式的字幕分享文件,从而方便了用户获取到全面、完整的字幕描述信息,也避免了在使用字幕分享文件的过程中出现字幕乱码,提高了用户体验感。另外,由于现有的字幕网站上存在多个重复的字幕文件,非常不利于用户快速获取到所需要的字幕文件,本发明提供的技术方案将字幕分享文件上传至内容分发网络,可使用户从内容分发网络中快速地查找到所需要的字幕分享文件,节省了用户的查找时间。
[0069]图4示出了根据本发明一个实施例的字幕数据融合装置的功能结构示意图,如图4所示,该字幕数据融合装置包括:抓取模块410、选取模块420和融合模块430。
[0070]抓取模块410,适于利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息,保存复数个字幕文件和字幕文件的字幕描述信息。
[0071]抓取模块410利用爬虫从各大字幕网站抓取复数个字幕文件和字幕文件的字幕描述信息,并保存复数个字幕文件和字幕文件的字幕描述信息,以便后续对字幕描述信息进行融合处理。其中,字幕描述信息用于描述字幕文件的相关信息,字幕描述信息包括:片名信息、上映时间信息、导演信息、主演信息和字幕语种信息。具体地,片名信息可包括:原片名信息、中文片名信息、英文片名信息、香港片名信息和台湾片名信息。
[0072]选取模块420,适于根据字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息。
[0073]例如,选取模块420根据字幕描述信息的相似度,从复数个字幕文件中选取出相似度高的字幕文件,即重复的字幕文件,并获取重复的字幕文件的字幕描述信息。
[0074]融合模块430,适于对重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述信息。
[0075]在选取模块420选取出重复的字幕文件之后,融合模块430对重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述信息。该字幕融合描述信息与重复的字幕文件的字幕描述信息相比,信息更加全面、完整,从而有助于用户获取到全面的字幕描述信息。
[0076]根据本实施例提供的字幕数据融合装置,通过抓取模块抓取复数个字幕文件和字幕文件的字幕描述信息,并通过选取模块根据字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息,然后通过融合模块对重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述信息。本发明提供的技术方案得到了更加全面、完整的字幕融合描述信息,从而方便了用户获取到全面、完整的字幕描述信息,提高了用户体验感。
[0077]图5示出了根据本发明另一个实施例的字幕数据融合装置的功能结构示意图,如图5所示,该字幕数据融合装置包括:抓取模块510、选取模块520融合模块530、编码转换模块540和上传模块550。
[0078]抓取模块510,适于根据抓取关键词,利用爬虫抓取复数个字幕文件和字幕文件的字幕描述信息,保存复数个字幕文件和字幕文件的字幕描述信息。
[0079]抓取模块510根据抓取关键词,利用爬虫从各大字幕网站抓取复数个字幕文件和字幕文件的字幕描述信息,并保存复数个字幕文件和字幕文件的字幕描述信息,以便后续对字幕描述信息进行融合处理。其中,字幕描述信息用于描述字幕文件的相关信息,字幕描述信息包括:片名信息、上映时间信息、导演信息、主演信息和字幕语种信息。具体地,片名信息可包括:原片名信息、中文片名信息、英文片名信息、香港片名信息和台湾片名信息。
[0080]选取模块520,适于对字幕描述信息进行分词处理,计算经分词处理后的字幕描述信息的相似度;根据经分词处理后的字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息。
[0081]例如,选取模块520可对字幕描述信息中的片名信息和主演信息进行分词处理,计算经分词处理后的字幕描述信息的相似度。在完成相似度的计算之后,选取模块520根据经分词处理后的字幕描述信息的相似度,从复数个字幕文件中选取相似度高的字幕文件,即重复的字幕文件,并获取重复的字幕文件的字幕描述信息。例如,可从复数个字幕文件中选取相似度超过80%的字幕文件,相似度超过80%的字幕文件可以作为重复的字幕文件。本领域技术人员可以根据实际需要,选取相似度在其他范围内的字幕文件作为重复的字幕文件。
[0082]融合模块530,适于根据重复的字幕文件的字幕描述信息的非空字段,从重复的字幕文件的字幕描述信息中选取基准字幕描述信息;根据除基准字幕描述信息之外的重复的字幕文件的字幕描述信息,补充基准字幕描述信息的所有字段,得到字幕融合描述信息。
[0083]在选取模块520从复数个字幕文件中选取出重复的字幕文件之后,融合模块530根据重复的字幕文件的字幕描述信息的非空字段,从重复的字幕文件的字幕描述信息中选取基准字幕描述信息。假设,选取模块520从复数个字幕文件中选取出重复的字幕文件分别为字幕文件1、字幕文件2和字幕文件3,而字幕文件I的字幕描述信息的非空字段的个数为6个,字幕文件2的字幕描述信息的非空字段的个数为5个,字幕文件3的字幕描述信息的非空字段的个数为7个,则融合模块530可从字幕文件I的字幕描述信息、字幕文件2的字幕描述信息和字幕文件3的字幕描述信息中选取非空字段的个数最多的字幕描述信息,即字幕文件3的字幕描述信息作为基准字幕描述信息,然后根据字幕文件I的基准字幕描述信息和字幕文件2的基准字幕描述信息,补充字幕文件3的字幕描述信息的所有字段,从而得到更加全面、完整的字幕融合描述信息,进而有助于用户获取到全面的字幕描述信息。
[0084]编码转换模块540,适于对字幕融合描述信息相对应的字幕文件进行编码转换,得到符合至少一种预设编码方式的字幕分享文件。
[0085]编码转换模块540进一步适于:分析字幕融合描述信息相对应的字幕文件的编码方式;根据编码方式,将字幕融合描述信息相对应的字幕文件解码成Unicode格式的文件;对文件进行编码转换,得到符合UTF-8编码方式的字幕分享文件和/或GBK编码方式的字幕分享文件。
[0086]虽然融合模块530已对字幕文件3的字幕描述信息的所有字段进行补充,得到了字幕融合描述信息,但是字幕融合描述信息相对应的字幕文件即字幕文件3的编码方式并不一定是现有视频播放器所支持的字幕文件的编码方式,所以为了便于用户使用字幕文件,还需编码转换模块540将字幕融合描述信息相对应的字幕文件进行编码转换,得到符合UTF-8编码方式的字幕分享文件和/或GBK编码方式的字幕分享文件。
[0087]为了便于用户获取字幕分享文件,该字幕数据融合装置还可包括上传模块550,适于将字幕分享文件及字幕分享文件相对应的字幕融合描述信息上传至内容分发网络,以供用户下载。
[0088]根据本实施例提供的字幕数据融合装置,通过抓取模块抓取复数个字幕文件和字幕文件的字幕描述信息,并通过选取模块根据经分词处理后的字幕描述信息的相似度,从复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息,然后通过融合模块从重复的字幕文件的字幕描述信息中选取基准字幕描述信息,并补充基准字幕描述信息的所有字段,得到字幕融合描述信息,通过编码转换模块对字幕融合描述信息相对应的字幕文件进行编码转换,得到符合UTF-8编码方式的字幕分享文件和/或GBK编码方式的字幕分享文件,最后通过上传模块将字幕分享文件及字幕分享文件相对应的字幕融合描述信息上传至内容分发网络,以供用户下载。本发明提供的技术方案不仅得到了更加全面、完整的字幕融合描述信息,而且还得到了符合至少一种预设编码方式的字幕分享文件,从而使用户可从内容分发网络中方便地、快捷地获取到全面、完整的字幕融合描述信息和与之相应的字幕分享文件,也避免了在使用字幕分享文件的过程中出现字幕乱码,提高了用户体验感。
[0089]上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。
【主权项】
1.一种字幕数据融合方法,其特征在于,所述方法包括: 利用爬虫抓取复数个字幕文件和所述字幕文件的字幕描述信息,保存所述复数个字幕文件和所述字幕文件的字幕描述信息; 根据所述字幕描述信息的相似度,从所述复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息; 对所述重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述信息。2.根据权利要求1所述的方法,其特征在于,所述利用爬虫抓取复数个字幕文件和所述字幕文件的字幕描述信息具体为:根据抓取关键词,利用爬虫抓取复数个字幕文件和所述字幕文件的字幕描述信息。3.根据权利要求1所述的方法,其特征在于,所述获取重复的字幕文件的字幕描述信息包括: 对所述字幕描述信息进行分词处理,计算经分词处理后的字幕描述信息的相似度; 根据经分词处理后的字幕描述信息的相似度,从所述复数个字幕文件中选取重复的字幕文件,获取所述重复的字幕文件的字幕描述信息。4.根据权利要求1所述的方法,其特征在于,所述得到字幕融合描述信息包括: 根据所述重复的字幕文件的字幕描述信息的非空字段,从所述重复的字幕文件的字幕描述信息中选取基准字幕描述信息; 根据除所述基准字幕描述信息之外的重复的字幕文件的字幕描述信息,补充所述基准字幕描述信息的所有字段,得到字幕融合描述信息。5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:对所述字幕融合描述信息相对应的字幕文件进行编码转换,得到符合至少一种预设编码方式的字幕分享文件。6.一种字幕数据融合装置,其特征在于,所述装置包括: 抓取模块,适于利用爬虫抓取复数个字幕文件和所述字幕文件的字幕描述信息,保存所述复数个字幕文件和所述字幕文件的字幕描述信息; 选取模块,适于根据所述字幕描述信息的相似度,从所述复数个字幕文件中选取重复的字幕文件,获取重复的字幕文件的字幕描述信息; 融合模块,适于对所述重复的字幕文件的字幕描述信息进行融合处理,得到字幕融合描述信息。7.根据权利要求6所述的装置,其特征在于,所述抓取模块适于:根据抓取关键词,利用爬虫抓取复数个字幕文件和所述字幕文件的字幕描述信息。8.根据权利要求6所述的装置,其特征在于,所述选取模块适于: 对所述字幕描述信息进行分词处理,计算经分词处理后的字幕描述信息的相似度; 根据经分词处理后的字幕描述信息的相似度,从所述复数个字幕文件中选取重复的字幕文件,获取所述重复的字幕文件的字幕描述信息。9.根据权利要求6所述的装置,其特征在于,所述融合模块适于: 根据所述重复的字幕文件的字幕描述信息的非空字段,从所述重复的字幕文件的字幕描述信息中选取基准字幕描述信息; 根据除所述基准字幕描述信息之外的重复的字幕文件的字幕描述信息,补充所述基准字幕描述信息的所有字段,得到字幕融合描述信息。10.根据权利要求6-9任一项所述的装置,其特征在于,所述装置还包括:编码转换模块,适于对所述字幕融合描述信息相对应的字幕文件进行编码转换,得到符合至少一种预设编码方式的字幕分享文件。
【文档编号】H04N21/435GK105872730SQ201510813471
【公开日】2016年8月17日
【申请日】2015年11月23日
【发明人】薛伟
【申请人】乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1