一种ugc视频分类方法及装置的制造方法

文档序号:8487883阅读:252来源:国知局
一种ugc视频分类方法及装置的制造方法
【技术领域】
[0001] 本发明涉及视频分类技术领域,特别是涉及一种UGC视频分类方法及装置。
【背景技术】
[0002] 随着互联网的发展,网络上的内容除了专业人员制作外,用户也可以制作,为加以 区分,网络上的内容被分为专业生产内容(Professionally-produced Content,简称PPC) 和用户生产内容(User Generated Content,简称UGC)。相应地,视频网站上的视频也被分 为PPC视频和UGC视频。
[0003] 其中,对于UGC视频来说,由于每个用户都可以生成或制作UGC视频,所以视频网 站中存在大量的UGC视频。目前,各类视频网站中的UGC视频虽然内容丰富,但UGC视频杂 乱无章的显示于视频网站中,所以UGC视频的利用率不高。

【发明内容】

[0004] 本发明实施例的目的在于提供一种UGC视频分类方法及装置,以实现对UGC视频 进行分类,提高UGC视频的利用率。具体技术方案如下:
[0005] 一种UGC视频分类方法,应用于电子设备,包括:
[0006] 获取视频网站中的UGC视频信息;其中,所述UGC视频信息包含与UGC视频信息对 应的UGC视频的视频题目、描述信息中的一种或多种;
[0007] 按照预设方式,获取所述UGC视频信息的特征;
[0008] 将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结果;所 述训练模型是对PPC视频信息训练样本的特征进行训练获得的;
[0009] 在视频网站显示UGC视频分类结果。
[0010] 在本发明的一种【具体实施方式】中,所述按照预设方式,获取所述UGC视频信息的 特征的步骤包括:
[0011] 将所述UGC视频信息的格式转换为符合预设的分词系统的数据格式;
[0012] 应用所述分词系统对格式转换后的UGC视频信息进行分词处理,将获得的一个或 多个分词作为该UGC视频信息的特征。
[0013] 在本发明的一种【具体实施方式】中,所述训练模型获得的过程包括:
[0014] 获取PPC视频信息训练样本,并将相同类别的所述PPC视频信息训练样本放入到 同一视频频道中;
[0015] 按照所述预设方式,获取PPC视频信息训练样本的特征;
[0016] 利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练模型。
[0017] 在本发明的一种【具体实施方式】中,所述获取PPC视频信息训练样本,并将相同类 别的所述PPC视频信息训练样本放入到同一视频频道中的步骤包括:
[0018] 获取PPC视频信息;其中,所述PPC视频信息包含频道信息和视频题目、描述信息 中的一种或多种;
[0019] 获取每一 PPC视频信息对应的片花视频信息;其中,所述片花视频信息包含片花 视频信息对应的PPC视频的频道信息和片花视频题目、描述信息中的一种或多种;
[0020] 将每一片花视频信息引入到对应的PPC视频信息中,得到第一类PPC视频信息训 练样本;
[0021] 爬取网络中的PPC视频信息,得到第二类PPC视频信息训练样本;其中,所述网络 中的PPC视频信息中包含频道信息和视频题目、描述信息中的一种或多种;
[0022] 整合所述第一类PPC视频信息训练样本和所述第二类PPC视频信息训练样本,得 到PPC视频信息训练样本;
[0023] 将相同类别的所述PPC视频信息训练样本放入到同一视频频道中。
[0024] 在本发明的一种【具体实施方式】中,
[0025] 所述按照所述预设方式,获取PPC视频信息训练样本的特征的步骤包括:
[0026] 针对每一视频频道的PPC视频信息训练样本,生成该频道的正样本和负样本;
[0027] 获取每一视频频道的正样本和负样本的特征;
[0028] 所述利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练 模型的步骤包括:
[0029] 采用朴素贝叶斯分类算法,对所述每一视频频道的正样本和负样本的特征进行训 练,得到多个训练模型;其中,每一视频频道对应一个训练模型;
[0030] 所述将所述UGC视频信息的特征输入到预设的训练模型中,得到UGC视频分类结 果的步骤包括:
[0031] 将所述UGC视频信息的特征输入到每一训练模型中,针对每一训练模型,分别得 到正样本UGC视频分类参数和负样本UGC视频分类参数,若正样本UGC视频分类参数较大, 则所述UGC视频信息对应的UGC视频属于该视频频道,若负样本UGC视频分类参数较大,则 所述UGC视频信息对应UGC视频不属于该视频频道,其中,同一 UGC视频可以同时属于不同 的视频频道。
[0032] 在本发明的一种【具体实施方式】中,所述针对每一视频频道的PPC视频信息训练样 本,生成该频道的正样本和负样本的步骤包括:
[0033] 统计每一视频频道的正样本的数量;其中,每一视频频道的所有PPC视频信息训 练样本为该视频频道的正样本;
[0034] 从其他视频频道随机选取一定数量的PPC视频信息训练样本作为该视频频道的 负样本;其中,所述负样本的数量=[正样本的数量/频道总数量]。
[0035] 在本发明的一种【具体实施方式】中,所述获取每一视频频道的正样本和负样本的特 征的步骤包括:
[0036] 将所述正样本和负样本的格式转换为符合预设的分词系统的数据格式;
[0037] 应用所述分词系统对格式转换后的正样本和负样本进行分词处理,将处理正样本 获得的一个或多个分词作为正样本的特征,将处理负样本获得的一个或多个分词作为负样 本的特征。
[0038] 在本发明的一种【具体实施方式】中,
[0039] 所述按照所述预设方式,获取PPC视频信息训练样本的特征的步骤包括:
[0040] 获取每一视频频道的PPC视频信息训练样本的特征;
[0041] 所述利用预设的算法,对所述PPC视频信息训练样本的特征进行训练,得到训练 模型的步骤包括:
[0042] 采用朴素贝叶斯分类算法,对所述PPC视频信息训练样本的特征进行训练,得到 一个训练模型;
[0043] 所述将所述UGC视频的特征输入到预设的训练模型中,得到UGC视频分类结果的 步骤包括:
[0044] 将所述UGC视频的特征输入到得到的一个训练模型中,先针对每一视频频道,分 别得到一个UGC视频分类参数,再将得到的各个UGC视频分类参数进行对比,得到其中最大 的UGC视频分类参数,所述UGC视频信息对应的UGC视频属于最大的UGC视频分类参数对 应的视频频道。
[0045] 在本发明的一种【具体实施方式】中,所述获取每一视频频道的PPC视频信息训练样 本的特征的步骤包括:
[0046] 将所述PPC视频信息训练样本的格式转换为符合预设的分词系统的数据格式;
[0047] 应用所述分词系统对格式转换后的PPC视频信息训练样本进行分词处理,将获得 的一个或多个分词作为该PPC视频信息训练样本的特征。
[0048] 在本发明的一种【具体实施方式】中,还包括:
[0049] 获取UGC视频的时长、题目长度和描述长度信息;
[0050] 根据获取的UGC视频的时长、题目长度和描述长度信息,采用决策树算法对所述 UGC视频分类结果进行再次分类,得到UGC视频再次分类结果;
[0051] 进一步地,所述在视频网站显示UGC视频分类结果的步骤包括:
[0052] 在视频网站显示所述UGC视频再次分类结果。
[0053] 本发明实施例还提供一种UGC视频分类装置,应用于电子设备,包括:
[0054] UGC视频信息获取单元:用于获取视频网站中的UGC视频信息;其中,所述UGC视 频信息包含与UGC视频信息对应的UGC视频的视频题目、描述信息中的一种或多种;
[0055] 第一特征获取单元:用于按照预设方式,获取所述UGC视频信息的特征;
[0056] UGC视频分类单元:用于将所述UGC视频信息的特征输入到预设的训练模型中,得 到UGC视频分类结果;所述训练模型是对PPC视频信息训练样本的特征进行训练获得的;
[0057] UGC视频分类结果显示单元:用于在视频网站显示UGC视频分类结果。
[0058] 在本发明的一种【具体实施方式】中,所述第一特征获取单元包括:
[0059] 第一格式转换子单元:用于将所述UGC视频信息的格式转换为符合预设的分词系 统的数据格式;
[0060] UGC视频信息特征获取子单元:用于应用所述分词系统对格式转换后的UGC视频 信息进行分词处理,将获得的一个或多个分词作为该UGC视频信息的特征。
[0061] 在本发明的一种【具体实施方式】中,所述训练模型,由模型训练单元实现,所述模型 训练单元包括:
[0062] PPC视频信息训练样本获取单元:用于获取PPC视频信息训练样本,并将相同类别 的所述
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1