一种ugc视频分类方法及装置的制造方法

文档序号：8487883阅读：252来源：国知局

一种ugc视频分类方法及装置的制造方法
【技术领域】
[0001] 本发明涉及视频分类技术领域，特别是涉及一种UGC视频分类方法及装置。
【背景技术】
[0002] 随着互联网的发展，网络上的内容除了专业人员制作外，用户也可以制作，为加以区分，网络上的内容被分为专业生产内容（Professionally-produced Content，简称PPC) 和用户生产内容（User Generated Content，简称UGC)。相应地，视频网站上的视频也被分为PPC视频和UGC视频。
[0003] 其中，对于UGC视频来说，由于每个用户都可以生成或制作UGC视频，所以视频网站中存在大量的UGC视频。目前，各类视频网站中的UGC视频虽然内容丰富，但UGC视频杂乱无章的显示于视频网站中，所以UGC视频的利用率不高。

【发明内容】

[0004] 本发明实施例的目的在于提供一种UGC视频分类方法及装置，以实现对UGC视频进行分类，提高UGC视频的利用率。具体技术方案如下：
[0005] 一种UGC视频分类方法，应用于电子设备，包括：
[0006] 获取视频网站中的UGC视频信息；其中，所述UGC视频信息包含与UGC视频信息对应的UGC视频的视频题目、描述信息中的一种或多种；
[0007] 按照预设方式，获取所述UGC视频信息的特征；
[0008] 将所述UGC视频信息的特征输入到预设的训练模型中，得到UGC视频分类结果；所述训练模型是对PPC视频信息训练样本的特征进行训练获得的；
[0009] 在视频网站显示UGC视频分类结果。
[0010] 在本发明的一种【具体实施方式】中，所述按照预设方式，获取所述UGC视频信息的特征的步骤包括：
[0011] 将所述UGC视频信息的格式转换为符合预设的分词系统的数据格式；
[0012] 应用所述分词系统对格式转换后的UGC视频信息进行分词处理，将获得的一个或多个分词作为该UGC视频信息的特征。
[0013] 在本发明的一种【具体实施方式】中，所述训练模型获得的过程包括：
[0014] 获取PPC视频信息训练样本，并将相同类别的所述PPC视频信息训练样本放入到同一视频频道中；
[0015] 按照所述预设方式，获取PPC视频信息训练样本的特征；
[0016] 利用预设的算法，对所述PPC视频信息训练样本的特征进行训练，得到训练模型。
[0017] 在本发明的一种【具体实施方式】中，所述获取PPC视频信息训练样本，并将相同类别的所述PPC视频信息训练样本放入到同一视频频道中的步骤包括：
[0018] 获取PPC视频信息；其中，所述PPC视频信息包含频道信息和视频题目、描述信息中的一种或多种；
[0019] 获取每一 PPC视频信息对应的片花视频信息；其中，所述片花视频信息包含片花视频信息对应的PPC视频的频道信息和片花视频题目、描述信息中的一种或多种；
[0020] 将每一片花视频信息引入到对应的PPC视频信息中，得到第一类PPC视频信息训练样本；
[0021] 爬取网络中的PPC视频信息，得到第二类PPC视频信息训练样本；其中，所述网络中的PPC视频信息中包含频道信息和视频题目、描述信息中的一种或多种；
[0022] 整合所述第一类PPC视频信息训练样本和所述第二类PPC视频信息训练样本，得到PPC视频信息训练样本；
[0023] 将相同类别的所述PPC视频信息训练样本放入到同一视频频道中。
[0024] 在本发明的一种【具体实施方式】中，
[0025] 所述按照所述预设方式，获取PPC视频信息训练样本的特征的步骤包括：
[0026] 针对每一视频频道的PPC视频信息训练样本，生成该频道的正样本和负样本；
[0027] 获取每一视频频道的正样本和负样本的特征；
[0028] 所述利用预设的算法，对所述PPC视频信息训练样本的特征进行训练，得到训练模型的步骤包括：
[0029] 采用朴素贝叶斯分类算法，对所述每一视频频道的正样本和负样本的特征进行训练，得到多个训练模型；其中，每一视频频道对应一个训练模型；
[0030] 所述将所述UGC视频信息的特征输入到预设的训练模型中，得到UGC视频分类结果的步骤包括：
[0031] 将所述UGC视频信息的特征输入到每一训练模型中，针对每一训练模型，分别得到正样本UGC视频分类参数和负样本UGC视频分类参数，若正样本UGC视频分类参数较大，则所述UGC视频信息对应的UGC视频属于该视频频道，若负样本UGC视频分类参数较大，则所述UGC视频信息对应UGC视频不属于该视频频道，其中，同一 UGC视频可以同时属于不同的视频频道。
[0032] 在本发明的一种【具体实施方式】中，所述针对每一视频频道的PPC视频信息训练样本，生成该频道的正样本和负样本的步骤包括：
[0033] 统计每一视频频道的正样本的数量；其中，每一视频频道的所有PPC视频信息训练样本为该视频频道的正样本；
[0034] 从其他视频频道随机选取一定数量的PPC视频信息训练样本作为该视频频道的负样本；其中，所述负样本的数量=[正样本的数量/频道总数量]。
[0035] 在本发明的一种【具体实施方式】中，所述获取每一视频频道的正样本和负样本的特征的步骤包括：
[0036] 将所述正样本和负样本的格式转换为符合预设的分词系统的数据格式；
[0037] 应用所述分词系统对格式转换后的正样本和负样本进行分词处理，将处理正样本获得的一个或多个分词作为正样本的特征，将处理负样本获得的一个或多个分词作为负样本的特征。
[0038] 在本发明的一种【具体实施方式】中，
[0039] 所述按照所述预设方式，获取PPC视频信息训练样本的特征的步骤包括：
[0040] 获取每一视频频道的PPC视频信息训练样本的特征；
[0041] 所述利用预设的算法，对所述PPC视频信息训练样本的特征进行训练，得到训练模型的步骤包括：
[0042] 采用朴素贝叶斯分类算法，对所述PPC视频信息训练样本的特征进行训练，得到一个训练模型；
[0043] 所述将所述UGC视频的特征输入到预设的训练模型中，得到UGC视频分类结果的步骤包括：
[0044] 将所述UGC视频的特征输入到得到的一个训练模型中，先针对每一视频频道，分别得到一个UGC视频分类参数，再将得到的各个UGC视频分类参数进行对比，得到其中最大的UGC视频分类参数，所述UGC视频信息对应的UGC视频属于最大的UGC视频分类参数对应的视频频道。
[0045] 在本发明的一种【具体实施方式】中，所述获取每一视频频道的PPC视频信息训练样本的特征的步骤包括：
[0046] 将所述PPC视频信息训练样本的格式转换为符合预设的分词系统的数据格式；
[0047] 应用所述分词系统对格式转换后的PPC视频信息训练样本进行分词处理，将获得的一个或多个分词作为该PPC视频信息训练样本的特征。
[0048] 在本发明的一种【具体实施方式】中，还包括：
[0049] 获取UGC视频的时长、题目长度和描述长度信息；
[0050] 根据获取的UGC视频的时长、题目长度和描述长度信息，采用决策树算法对所述 UGC视频分类结果进行再次分类，得到UGC视频再次分类结果；
[0051] 进一步地，所述在视频网站显示UGC视频分类结果的步骤包括：
[0052] 在视频网站显示所述UGC视频再次分类结果。
[0053] 本发明实施例还提供一种UGC视频分类装置，应用于电子设备，包括：
[0054] UGC视频信息获取单元：用于获取视频网站中的UGC视频信息；其中，所述UGC视频信息包含与UGC视频信息对应的UGC视频的视频题目、描述信息中的一种或多种；
[0055] 第一特征获取单元：用于按照预设方式，获取所述UGC视频信息的特征；
[0056] UGC视频分类单元：用于将所述UGC视频信息的特征输入到预设的训练模型中，得到UGC视频分类结果；所述训练模型是对PPC视频信息训练样本的特征进行训练获得的；
[0057] UGC视频分类结果显示单元：用于在视频网站显示UGC视频分类结果。
[0058] 在本发明的一种【具体实施方式】中，所述第一特征获取单元包括：
[0059] 第一格式转换子单元：用于将所述UGC视频信息的格式转换为符合预设的分词系统的数据格式；
[0060] UGC视频信息特征获取子单元：用于应用所述分词系统对格式转换后的UGC视频信息进行分词处理，将获得的一个或多个分词作为该UGC视频信息的特征。
[0061] 在本发明的一种【具体实施方式】中，所述训练模型，由模型训练单元实现，所述模型训练单元包括：
[0062] PPC视频信息训练样本获取单元：用于获取PPC视频信息训练样本，并将相同类别的所述

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋华;周燕红;
技术所有人：北京奇艺世纪科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。