基于文本分析的视频匹配系统的制作方法

文档序号:14911274发布日期:2018-07-10 23:29阅读:502来源:国知局

本发明涉及的是一种视频检索领域的技术,具体是一种基于文本分析的视频匹配系统。



背景技术:

网络课程作为一种教育媒介已经被广泛应用于当前互联网环境下,越来越多的人通过在线教育来获取知识。现有的教学视频具有时间短但数量多的特点。现有的视频检索技术是基于课程描述或者视频标注,但是课程描述不能完全反映课程视频中出现的知识点,可能出现描述与内容不匹配的情况。自动化视频标注需要对视频进行关键帧提取并对关键帧中的内容进行识别,但是对于教学视频来说识别效果不好,而且准确率不高,而人工标注依赖于标注者对该视频对应课程的熟悉程度以及概括能力,同时标注结果一样不能涵盖课程视频中的所有知识内容。



技术实现要素:

本发明针对现有技术存在的上述不足,提出一种基于文本分析的视频匹配系统,能够有效保证搜索结果的准确性。

本发明是通过以下技术方案实现的:

本发明包括:字幕分析模块、索引模块和搜索模块,其中:字幕分析模块提取字幕文件中的文字内容以及文字内容在视频中出现的时间,采用结巴分词对文字内容进行分词,并对分词后的文字内容采用TF-IDF算法得到文字内容的字幕关键字以及字幕关键字在视频中出现的开始时间和结束时间,索引模块根据字幕关键字及其开始时间和结束时间后采用哈希索引方法建立或更新视频索引,搜索模块根据用户输入的搜索关键字与视频索引中的字幕关键字对比并返回相似性最大的视频列表。

所述的结巴分词是一种强大的中文分词组件,包括精确模式、全模式和搜索引擎模式三种分词模式,本发明采用精确模式进行文本分析。结巴分词基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),并采用动态规划查找最大概率路径,找出基于词频的最大切词组合,而对于未登录词,采用基于汉字成词能力的HMM模型,同时使用Viterbi算法。

所述的TF-IDF算法,即词频-逆文档频率算法,其通过一个关键词在文档中出现的次数以及逆文档频率,即关键词在文档中的权重,得到该关键词的TF-IDF值,某个关键词对文档的重要性越高,则它的TF-IDF值就越大。本发明采用TF-IDF算法获取字幕文件中的关键词及其关键词值,根据其高低顺序在对应视频中确定该关键词的开始时间和结束时间。

所述的哈希索引方法为将字幕关键字作为索引键进行哈希运算,将哈希运算结果和所对应的行指针信息存放于一个哈希表中。哈希索引的检索可以一次定位,避免多次的I/O访问,提高了查询效率。

本发明涉及一种根据上述系统的匹配方法,包括以下步骤:

步骤1)通过字幕分析模块读取视频中的字幕文件,对当前视频中的字幕的文字内容进行分析,提取字幕关键字;

步骤2)将获取的字幕关键字集合传送给索引模块,索引模块通过训练字幕关键字建立视频索引或更新现有的视频索引,并将新的索引存储到数据库中;

步骤3)当用户在系统中输入搜索关键字时,获取索引文件,并通过用户输入的搜索关键字来和视频索引中的字幕关键字进行相似性计算,得到相似性最高的关键字集合,返回给用户对应的视频列表以及搜索关键字在视频中出现的时间信息。

技术效果

与现有技术相比,本发明实现了教育视频根据字幕提取对应字幕关键字自动建立索引的过程,通过训练word2vec构建词向量集合,从而可以通过计算词之间的余弦相似度,将搜索关键字与字幕关键字进行匹配,有效的保证了搜索结果的准确性,在提取字幕关键字的过程中获取字幕关键字在视频对应出现的时间区间,帮助用户快速定位搜索关键字在视频中对应的时间区间。

附图说明

图1为本发明系统结构示意图。

具体实施方式

本发明的实验部署在1台8核16G内存的阿里云主机上。首先远程登录主机后下载word2vec的binary版本,然后通过训练维基百科的中英文语料库共370万份文章,耗时三个小时,得到了一个包含了所有词向量的输出文件,大小为8G。同时,对于一个视频字幕文件首先通过切分成若干小文件的形式,同样在这台机器上同时开启8个进程对上述的小文件并行的进行分词操作并输出到文件中。此步骤相比于单个进程的处理方式提高了65%的处理速度。最后将构建完成的索引存放在内存数据库Redis中,减少磁盘IO,提高查询速度约20%。

如图1所示,本实施例包括:字幕分析模块、索引模块和搜索模块,其中:字幕分析模块提取字幕文件中的文字内容以及文字内容在视频中出现的时间,采用结巴分词对文字内容进行分词,并对分词后的文字内容采用TF-IDF算法得到文字内容的字幕关键字以及字幕关键字在视频中出现的开始时间和结束时间,索引模块根据字幕关键字及其开始时间和结束时间后采用哈希索引方法建立或更新视频索引,搜索模块根据用户输入的搜索关键字与视频索引中的字幕关键字对比并返回相似性最大的视频列表。

所述的字幕分析模块是索引模块的基础,课程视频文件包括视频文件和字幕文件,字幕分析模块接收课程视频中的字幕文件,对字幕文件中的文字内容进行分析,提取文字内容中的字幕关键字,以及字幕关键字在课程视频中出现的时间点。

所述的字幕分析模块通过编写脚本获取字幕文件中的文字内容以及其对应的在是视频中出现的时间关系,之后采用结巴分词对文字内容进行分词,对分词完成后的文字内容使用TF-IDF算法得到字幕关键字及其在视频出现的开始时间和结束时间。

本装置中优选进一步设有存储模块,该存储模块存储视频索引以及视频文件。

所述的索引模块主要用于构建视频索引,如果当前系统中还没有建立视频索引,则根据字幕分析模块中得到的字幕关键字建立视频索引,否则将更新现有的视频索引,之后将新的视频索引存储到存储模块中的数据库中,方便视频查询。

所述的索引模块采用哈希索引的方法,首先读取一个视频文件的字幕关键字及其区间集合,并反向建立字幕关键字到视频和时间区间的关系,即构建字幕关键字、视频文件和时间区间的内容条目,然后对字幕关键字计算哈希值,将对应的条目写入哈希桶中。对于出现哈希冲突情况,我们采用哈希表加链表的方式进行解决。采用哈希索引的方式能够加快索引的构建和更新过程。索引的更新方法采用原地更新策略,即直接在已有的索引结构上进行修改。当视频库中增加新的课程视频并完成字幕关键字提取后,直接在已有的索引结构中新增对应的字幕关键字、视频文件和时间区间条目即可。原地更新可以通过哈希值直接定位字幕关键字是否已在原有的视频索引中存在,从而决定追加条目或新增条目的过程。

所述的搜索模块是对用户输入的搜索关键字产生查询结果的模块。具体过程是根据用户提供的搜索关键字与视频索引中的字幕关键字进行匹配,计算视频索引中的字幕关键字与查询的搜索关键字之间的相似性,返回相似性最大的对应的视频列表,并从数据库中读取相关课程视频返回给用户。具体匹配过程为通过训练word2vec构建词向量集合,计算搜索关键字和索引键之间的余弦相似度来获取字幕关键字和搜索关键字之间的最佳匹配结果。Word2vec通过构造双层神经网络,在输入层读入滑动窗口内的词,将它们的向量加和在一起,形成隐藏层的节点。输出层则是一个通过霍夫曼树算法构建的二叉树,隐藏层中的每个节点都和二叉树的节点有带权值的连边。在给定上下文时,对于一个要预测的词w,这时就让预测词的二进制编码概率最大即可,然后通过用梯度下降的方法来求解参数。通过网络构建成的词向量模型具有很高的语言学评价,两个词向量之间的关系,可以直接从这两个向量的差里得到体现。比如C(king)-C(queen)=C(man)–C(woman)。

所述的存储模块包括文件系统和数据库,以存储视频索引与所有的课程视频,方便之后查询时获取视频索引,也用来在后序关键字匹配时,提供视频查询结果。

系统工作时,字幕分析模块读取视频中的字幕文件,对当前视频中的字幕的文字内容进行分析,提取字幕关键字,将获取的字幕关键字集合传送给索引模块,索引模块通过训练字幕关键字建立视频索引或更新现有的视频索引,并将新的索引存储到数据库中。当用户在系统中输入搜索关键字时,获取索引文件,并通过用户输入的搜索关键字来和视频索引中的字幕关键字进行相似性计算,得到相似性最高的关键字集合,返回给用户对应的视频列表以及搜索关键字在视频中出现的时间信息。

与现有技术相比,本发明实现了教育视频根据字幕提取对应字幕关键字并自动建立索引的过程,通过训练word2vec构建词向量集合,从而可以通过计算词之间的余弦相似度,将搜索关键字与字幕关键字进行匹配,有效的保证了搜索结果的准确性,在提取字幕关键字的过程中获取字幕关键字在视频对应出现的时间区间,帮助用户快速定位搜索关键字在视频中对应的时间区间。和现有方法做对比,搜索时间减少了约8%,搜索准确率提高了约6%。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1