一种基于视频标题和内容的视频过滤方法和系统的制作方法

文档序号:6521565阅读:237来源:国知局
一种基于视频标题和内容的视频过滤方法和系统的制作方法
【专利摘要】本发明公开了一种基于视频标题和内容的视频过滤方法和系统,通过对视频的标题进行拆词,计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频流的相似度作为组合条件进行视频过滤,达到视频去重的效果。从而可以对相似度高的视频新闻进行有效过滤,最大限度的去掉一些类似的视频新闻,让用户在有限时间内观看到的新闻都是当日的头条新闻,为用户带来更好的体验。
【专利说明】一种基于视频标题和内容的视频过滤方法和系统
【技术领域】
[0001]本发明涉及视频比对【技术领域】,特别涉及一种基于视频标题和内容的视频过滤方法和系统。
【背景技术】
[0002]为了使用户更快、更多、更准确地获取最新的新闻视频内容,如何抓取各大视频网站最新的新闻并及时的推荐给用户成为当前的研究方向之一。
[0003]但是这种从各大视频网站聚合的新闻,内容相似的非常多。比如:同样是禽流感的新闻,可能存在多个新闻都是介绍禽流感的,用户观看起来就很乏味,因此,需要对抓取的视频新闻进行分析,对相似内容进行有效过滤。
[0004]有鉴于此,现有技术还有待改进和提高。

【发明内容】

[0005]鉴于上述现有技术的不足之处,本发明的目的在于提供一种基于视频标题和内容的视频过滤方法和系统,以解决现有各大视频网站聚合的新闻视频内容重复率高,不利于向用户推送的问题。
[0006]为了达到上述目的,本发明采取了以下技术方案:
一种基于视频标题和内容的视频过滤方法,其中,包括:
获取两则视频;
比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
[0007]所述的基于视频标题和内容的视频过滤方法,其中,所述过滤掉其中一则视频步骤中,包括:
进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频;
其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
[0008]所述的基于视频标题和内容的视频过滤方法,其中,比较两则视频的视频内容是否一致具体包括:
A、根据两则视频的播放地址,分别获取与所述播放地址对应的视频信息文件,例如m3u文件,并从所述视频信息文件里面获取两则视频的视频地址;
B、根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
C、若两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
[0009]所述的基于视频标题和内容的视频过滤方法,其中,所述步骤B中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。
[0010]所述的基于视频标题和内容的视频过滤方法,其中,预先设定的匹配度阈值为60%。
[0011]一种基于视频标题和内容的视频过滤系统,其中,包括:
提取单元,用于获取两则视频;
第一过滤单元,用于比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
第二过滤单元,用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
[0012]所述的基于视频标题和内容的视频过滤系统,其中,所述第一过滤单元中过滤掉其中一则视频具体包括:
比较模块,用于进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视
频;
其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
[0013]所述的基于视频标题和内容的视频过滤系统,其中,所述第二过滤单元中比较两则视频的视频内容是否一致具体包括:
视频地址获取模块,用于根据两则视频的播放地址,分别获取与所述播放地址对应的视频信息文件,例如m3u文件,并从所述视频信息文件里面获取两则视频的视频地址;
数据流获取模块,用于根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
判断模块,用于当两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
[0014]所述的基于视频标题和内容的视频过滤系统,其中,所述判断模块中当两则视频的视频标题一样,进一步比较具有相同视频标题的视频的属性值,根据所述属性值确定过滤掉哪一则视频;其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
[0015]所述的基于视频标题和内容的视频过滤系统,其中,预先设定的匹配度阈值为60%。
[0016]相较于现有技术,本发明提供的基于视频标题和内容的视频过滤方法和系统,通过对视频的标题进行拆词,计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频流的相似度作为组合条件进行视频过滤,达到视频去重的效果。从而可以对相似度高的视频新闻进行有效过滤,最大限度的去掉一些类似的视频新闻,让用户在有限时间内观看到的新闻都是当日的头条新闻,为用户带来更好的体验。
【专利附图】

【附图说明】
[0017]图1为本发明提供的基于视频标题和内容的视频过滤方法的流程图。
[0018]图2为本发明提供的基于视频标题和内容的视频过滤系统的结构框图。【具体实施方式】
[0019]本发明提供一种基于视频标题和内容的视频过滤方法和系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0020]请参阅图1,其为本发明提供的基于视频标题和内容的视频过滤方法的流程图。如图所示,所述基于视频标题和内容的视频过滤方法包括:
S100、获取两则视频;
S200、比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
S300、判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
[0021]在步骤SlOO至S300只是其中两则视频进行比较的一个过程,当具有多个相同视频内容的多个视频源时候,分别进行两两比较,直到保留最后一则或者数则视频即可。
[0022]下面分别针对上述步骤进行描述:
步骤SlOO为获取两则视频。在本实施例中,以视频新闻为例,选取两则视频新闻。视频新闻的信息包括视频新闻的视频标题和视频内容。为了最大限度的去掉类似的视频新闻,我们从视频新闻的视频标题和视频内容入手进行过滤。
[0023]步骤S200为比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理。具体来说,我们直接通过标题比较去重:若两则视频新闻的标题完全一样,则过滤掉其中一帧。否则我们即对视频标题进行拆词处理。在本实施例中,所述拆词方法为使可用开源项目Iucene的词库(在JAVA程序代码引入程序包lucene-core-2.4.1.jar,使用智能中文分词模块SmartChineseAnalyzer即可)进行拆词,比如:杰出人物(如:李东生)、明星(如:刘德华)等检索量大的词,按照正向拆分法对新闻标题进行切分。(正向拆分法:从前往后匹配。如:〃湖南大学堂屋顶〃,正向拆分为〃湖南大学堂屋顶"。)
下面通过一个具体的例子来说明:有三个标题如下:
第一标题:北京至南宁高铁贯通全程仅需10小时”
进行拆词后变成:[北京,南宁,高铁,全程,10,小时];
第二标题:北京至南宁全程贯通高铁啦!只要10小时[凤凰新闻网]
进行拆词后变成:[北京,南宁,全程,贯通,高铁,10,小时,凤凰,新闻,网];第三标题:衡柳高铁和柳南客运专线贯通南宁到北京全程高铁10小时进行拆词后变成:[衡柳,高铁,和,柳南,客运,专线,贯通,南宁,北京,全程,高铁,10,小时];
通过拆词匹配,我们可以看出:第一标题和第二、第三标题的匹配程度达到100%;第二标题和第三标题匹配程度(例如可以采用各个词匹配计数的方式衡量文字匹配相同的程度)达到85%。
[0024]进一步地,当两则视频的视频标题是一致时,需要过滤掉其中一则视频,保留其中
一则视频。
[0025]为了保证保留的视频是最佳的(尤其是当视频个数较多时)视频。本发明的基于视频标题和内容的视频过滤方法进一步比较具有相同视频标题的视频的属性值,其中,所述视频的属性值包括:视频的连接速度、视频的清晰度等。每一属性具有不同的权重(所述权重的大小可以根据客户需要来设定),通过比较所述具有相同视频标题的视频的属性值,来确保保留下的视频是最佳的。举例来说,当两则视频的视频标题是一致的,那么我们先来判断两则视频的连接速度,当发现一则视频无法链接播放时,则过滤掉。若两则视频的连接速度相同,我们进一步比较两则视频的清晰度,过滤掉清晰度比较差的一则视频。当所有属性相同时,可随机滤掉一则视频。
[0026]步骤S300为判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值(在本实施例中,所述匹配度的阈值为60%),若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。具体来说,预先设定一匹配度阈值,将拆词后的视频标题的匹配度与预先设定的匹配度阈值进行比较:若拆词后的视频标题的匹配度超过预先设定的匹配度阈值,则判断两则视频的视频标题基本一致,过滤掉其中一条视频,否则再对视频内容进行判断:比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
[0027]在本实施例中,比较两则视频的视频内容是否一致具体包括:
S110、根据两则视频的播放地址,分别获取与所述播放地址对应的视频信息文件,例如m3u文件,并从所述视频信息文件里面获取两则视频的视频地址;
其中,所述视频的播放地址为提供视频内容的地址,然后,根据所述播放地址对应的视频文件内容里面获取视频地址信息。一般来说,做视频推荐类的应用时候,使用的视频可以从优酷及土豆上获取的,其实它 们也提供了开放的API,可以获取视频地址以及视频的多个标签,视频的同类视频推荐,视频同类目下的视频等,使用者可以直接去申请。
[0028]在本实施例中,所述播放地址优选为m3u8地址,其也是一种M3U地址,只是它的编码格式是UTF-8格式。m3u8地址是用来流播放,直播流或者点播形式,目的是实现时实性及保密性它会不让你获取它的视频所在地址。M3U本质上说不是音频文件,它是音频文件的列表文件,是纯文本文件。根据两则视频的m3u8地址,分别获取与所述m3u8地址对应的m3u8文件内容,并从所述文件内容里面获取两则视频的视频地址。
[0029]S120、根据两则视频的视频地址,下载并获取二进制的数据流(也称视频流)内容,并对数据流内容进行比较;以JAVA部分代码为例说明如下:
private boolean contentEquals(String addressl, String address2) {
InputStream isl = null;
InputStream is2 = null;
URLConnection connl = null;
URLConnection conn2 = null;
try {
URL urll = new URL(addressl);
connl = urll.0penConnection();
connl.setConnectTimeout (5000);
isl = connl.getlnputStreamO ;
URL url2 = new URL(address2);
【权利要求】
1.一种基于视频标题和内容的视频过滤方法,其特征在于,包括: 获取两则视频; 比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理; 判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
2.根据权利要求1所述的基于视频标题和内容的视频过滤方法,其特征在于,所述过滤掉其中一则视频步骤中,包括: 进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频; 其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
3.根据权利要求1所述的基于视频标题和内容的视频过滤方法,其特征在于,比较两则视频的视频内容是否一致具体包括: A、根据两则视频的播放地址,分别获取与所述播放地址对应的视频信息文件,并从所述视频信息文件里面获取两则视频的视频地址; B、根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较; C、若两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
4.根据权利要求3所述的基于视频标题和内容的视频过滤方法,其特征在于,所述步骤B中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。
5.根据权利要求1所述的基于视频标题和内容的视频过滤方法,其特征在于,预先设定的匹配度阈值为60%。
6.一种基于视频标题和内容的视频过滤系统,其特征在于,包括: 提取单元,用于获取两则视频; 第一过滤单元,用于比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理; 第二过滤单元,用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
7.根据权利要求6所述的基于视频标题和内容的视频过滤系统,其特征在于,所述第一过滤单元中过滤掉其中一则视频具体包括: 比较模块,用于进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频; 其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
8.根据权利要求6所述的基于视频标题和内容的视频过滤系统,其特征在于,所述第二过滤单元中比较两则视频的视频内容是否一致具体包括: 视频地址获取模块,用于根据两则视频的播放地址,分别获取与所述播放地址对应的视频信息文件,并从所述视频信息文件里面获取两则视频的视频地址;数据流获取模块,用于根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较; 判断模块,用于当两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
9.根据权利要求8所述的基于视频标题和内容的视频过滤系统,其特征在于,所述数据流获取模块中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。
10.根据权利要求6所述的基于视频标题和内容的视频过滤系统,其特征在于,预先设定的匹配度阈值为60%。`
【文档编号】G06F17/30GK103678527SQ201310631404
【公开日】2014年3月26日 申请日期:2013年12月2日 优先权日:2013年12月2日
【发明者】刘世才, 毛海涛, 宋轲 申请人:Tcl集团股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1