基于多模态融合的智能高容错视频识别系统及其识别方法与流程

文档序号:12063738阅读:411来源:国知局
基于多模态融合的智能高容错视频识别系统及其识别方法与流程

本发明涉及一种识别系统与识别方法,尤其涉及一种视频的识别系统与识别方法。



背景技术:

随着网络技术的发展以及云端服务的普及化,许多业者会将视频上传至网络,以令用户可以得到比文字更为丰富的内容。

一般来说,业者于上传各类视频,例如音乐录音带、广告、电影等时,会同时为各该视频编写一段文字描述。当用户要寻找一段视频时,主要是在网络平台上输入该视频的关键词,若用户输入的关键词存在于该视频的文字描述中,用户就可以成功搜寻到该视频。

如上所述,现今业者在上传视频时,需以人工方式为每一段视频分别撰写对应的文字描述,因此需耗费相当高的成本。再者,上述文字描述通常是依据该视频的主要剧情或是导演要表达的内容来撰写,不一定和该视频中实际出现的元素(例如人物、场景、音乐等)有实际的关联。因此,即使用户以该视频中出现的人物、场景或音乐的名称做为关键词来进行搜寻,也不见得能成功搜寻到该视频。

有鉴于此,如何令业者以最节省成本的方式来为视频产生对应的文字描述,以及令用户能以视频中实际出现的元素的名称做为关键词来准确搜寻所需的视频片段,即为本技术领域的技术人员所潜心研究的方向。



技术实现要素:

本发明的主要目的是在于提供一种基于多模态融合的智能高容错视频识别系统及其识别方法,可识别出视频中包含的多个元素的名称,以及各个元素在视频中出现的时间,藉此可供用户以文字进行所需视频片段的搜寻动作。

本发明的另一主要目的,在于提供一种基于多模态融合的智能高容错视 频识别系统及其识别方法,可对同一时间出现的多个元素进行多模态融合识别,以提升各个元素的识别准确率与容错性。

为了达成上述目的,本发明提供一种基于多模态融合的智能高容错视频识别方法,其特征在于,包括下列步骤:

a)输入一视频;

b)对该视频进行分析,以撷取该视频中的多个元素,以及各该元素出现的时间;

c)对各该元素进行分类;

d)通过多个算法分别对分类后的各该元素进行识别,其中各该算法分别对应至多个类别的其中之一;

e)对多个该元素进行交叉识别以提升各该元素的识别准确率与容错性;及

f)依据识别完成的各该元素为该视频产生可供文字搜寻的一索引文件,其中该索引文件包含各该元素的类别、名称以及于该视频中出现的时间。

承上所述,该基于多模态融合的智能高容错视频识别方法更包括下列步骤:

g)步骤c后,判断是否有识别准确率不足的一特定元素;及

h)于判断有识别准确率不足的该特定元素时执行该步骤e。

承上所述,该步骤e是将该特定元素与同一时间出现的其他元素进行交叉识别,或是对出现在多个不同时间点中的该特定元素进行交叉识别。

承上所述,该基于多模态融合的智能高容错视频识别方法更包括一步骤i:依据识别完成的各该元素为该视频产生具有逻辑性的一影片叙述。

承上所述,该基于多模态融合的智能高容错视频识别方法更包括下列步骤:

j)步骤f后,依据场景切换、分镜改变或时间区间经过将该视频区分为多个片段;及

k)依据各该片段中出现的各该元素,分别为各该片段产生具有逻辑性的该影片叙述。

承上所述,该步骤i与该步骤k是通过自然语音处理算法对各该元素进行处理,以产生具有逻辑性的该影片叙述。

承上所述,该索引文件与该影片叙述中不包含识别准确率低于一标准值 的一或多个该元素。

承上所述,该多个类别至少包括人脸、影像、文字、声音、动作、物件及场景中的任意两种。

本发明另外提供一种基于多模态融合的智能高容错视频识别系统,其特征在于,包括:

一影片输入子系统,接收一视频的输入;

一元素撷取与分类子系统,连接该影片输入子系统,对该视频进行分析,以撷取该视频中的多个元素以及各该元素出现的时间,并且对撷取出来的该多个元素进行分类;

多个元素识别子系统,连接该元素撷取与分类子系统,各该元素识别子系统分别对应至多个类别的其中之一,并且采用对应的一算法对所属类别的各该元素进行识别,并且该多个元素识别子系统对多个该元素进行交叉识别以提升各该元素的识别准确率及容错性;及

一索引文件产生子系统,连接该多个元素识别子系统,依据识别完成的各该元素为该视频产生可供文字搜寻的一索引文件,其中该索引文件包含各该元素的类别、名称以及于该视频中出现的时间。

承上所述,该多个元素识别子系统是于一特定元素的识别准确率不足时,将该特定元素与同一时间出现的其他元素进行交叉识别,或是对出现在多个不同的时间点中的该特定元素进行交叉识别。

承上所述,该基于多模态融合的智能高容错视频识别系统更包括一分类数据库,连接该元素撷取与分类子系统,该分类数据库储存多个类别的多个特征,该元素撷取与分类子系统将各该元素与该些特征进行比对,以确认各该元素分别属于哪个类别。

承上所述,该基于多模态融合的智能高容错视频识别系统更包括多个元素数据库,分别连接该多个元素识别子系统的其中之一,与所连接的该元素识别子系统属于同一类别,并且储存所属类别的元素数据。

承上所述,该基于多模态融合的智能高容错视频识别系统更包括:

一语料库,储存多个语法规则;及

一影片叙述产生子系统,连接该多个元素识别子系统及该语料库,依据识别完成的各该元素及该多个语法规则,为该视频产生具有逻辑性的一影片 叙述。

承上所述,该影片叙述产生子系统依据场景切换、分镜改变或时间区间经过将该视频区分为多个片段,再依据各该片段中出现的各该元素,分别为各该片段产生具有逻辑性的该影片叙述。

承上所述,该影片叙述产生子系统为一自然语言处理系统。

承上所述,该基于多模态融合的智能高容错视频识别系统更包括一主数据库,连接该影片输入子系统、该索引文件产生子系统及该影片叙述产生子系统,储存该视频、该索引文件及该影片叙述。

承上所述,该多个类别至少包括人脸、影像、文字、声音、动作、物件及场景中的任意两种。

本发明对照现有技术所能达成的技术功效在于,识别系统会为识别完成的视频产生专属的一索引文件,该索引文件中记录了该视频中出现的所有元素,以及各个元素于该视频中出现的时间。如此一来,当一用户以文字进行所需元素,例如人物、场景、音乐、动作等的搜寻时,可直接得到包含有该些元素的视频,以及该些元素于该视频中出现的片段,相当便利。

另外,本发明是对各个元素进行分类后,再依据对应的算法来分别对各个类别的元素进行识别,如此可以同时对视频中出现的多个类别的元素进行识别。并且,本发明还可以将同一时间出现的多个元素进行交叉识别,以及对出现在多个不同时间的同一个元素进行交叉比对。如此一来,可以有效提升各个元素的识别准确率与容错性。

附图说明

图1为本发明的第一具体实施例的视频识别平台架构图。

图2为本发明的第一具体实施例的识别系统方块图。

图3为本发明的第一具体实施例的识别流程图。

图4为本发明的第一具体实施例的元素识别示意图。

图5为本发明的第一具体实施例的元素出现时间示意图。

图6为本发明的第一具体实施例的元素搜寻流程图。

其中,附图标记:

1…基于多模态融合的智能高容错视频识别系统

11…影片输入子系统

12…元素撷取与分类子系统

121…分类数据库

13…元素识别子系统

131…第一元素识别子系统

132…第二元素识别子系统

13n…第n元素识别子系统

14…元素数据库

141…第一元素数据库

142…第二元素数据库

14n…第n元素数据库

15…索引文件产生子系统

16…影片叙述产生子系统

161…语料库

17…主数据库

2…台式计算机

3…笔记本电脑

4…行动装置

5…视频

61…第一元素

62…第二元素

63…第三元素

64…第四元素

65…第五元素

S10~S26…识别步骤

S30~36…搜寻步骤

具体实施方式

兹就本发明的一较佳实施例,配合图式,详细说明如后。

参阅图1,为本发明的第一具体实施例的视频识别平台架构图。本发明主 要揭露一基于多模态融合的智能高容错视频识别系统1(下面简称为该系统1),以及该系统1使用的一基于多模态融合的智能高容错视频识别方法(下面简称为该方法)。

如图1所示,该系统1主要用于建置一云端平台。当用户通过各式用户终端,例如台式计算机2、笔记本电脑3或行动装置4连接该云端平台并上传一视频时,该系统1可为该视频进行分析。待分析完成后,该视频即可被用户以文字、图像或影片的方式进行搜寻,如此将有助于该视频于网络上的流传,进而能有效提高该视频的能见度。

更甚者,该系统1可于分析后确认该视频中包含有哪些元素(components),并且依据该些元素来为该视频产生具有逻辑性的一段影片叙述。这些元素可例如但不局限于:人脸、商标、文字、音乐、语音、动作、物件、场景…等,但不以此限定。如此一来,提供该视频的业者不需要以人工方式为该视频撰写影片叙述,因此可有效节省所需耗费的成本。

参阅图2,为本发明的第一具体实施例的识别系统方块图。如图2所示,该系统1主要包括一影片输入子系统11、连接该影片输入子系统11的一元素撷取与分类子系统12、连接该元素撷取与分类子系统12的多个元素识别子系统13及连接该多个元素识别子系统13的一索引文件产生子系统15。

该影片输入子系统11用以接收一视频的输入。本实施例中,该影片输入子系统11可经由网络接收用户上传的该视频,然而于其他实施例中,该影片输入子系统11亦可经由有线传输方式或无线传输方式(例如经由蓝牙(Bluetooth)、射频(RF)或紫蜂(Zigbee)等),由周边的电子装置、硬盘或数据库接收该视频,不加以限定。

该元素撷取与分类子系统12由该影片输入子系统11接收该视频,并且对该视频进行第一阶段分析。具体而言,于该第一阶段分析中,该元素撷取与分类子系统12是可撷取出该视频中出现的所有元素,以及各该元素于该视频中出现的时间。

于该视频中的所有元素皆被撷取出来之后,该元素撷取与分类子系统12进一步对各该元素进行分类,以确认该些元素分别属于哪一个类别。本实施例中,该元素撷取与分类子系统12主要可依据一算法将各该元素区分为人脸(Face)、影像(Image)、文字(Text)、声音(Audio)、动作(Motion)、物件(Object) 及场景(Scene)等类别,但不加以限定。

更具体而言,该系统1还包括连接该元素撷取与分类子系统12的一分类数据库121,该分类数据库121中储存该多个类别所对应的多个特征。具体而言,各个类别的元素都有特定的特征,因此本实施例中,该元素撷取与分类子系统12主要是将该些元素与该分类数据库121中的该些特征进行比对,藉此判断各该元素分别属于哪一个类别。

本实施例中,该多个元素识别子系统13是用于对该视频进行第二阶段分析,其中该多个元素识别子系统13的数量是对应至该元素撷取与分类子系统12能够分析的类别数量。经过该第二阶段分析后,该系统可以确定各该元素的实际名称(label)。

如图2所示,本实施例中该元素撷取与分类子系统12可以区分n个类别的元素,故该多个元素识别子系统13是以一第一元素识别子系统131、一第二元素识别子系统132、………、至一第n元素识别子系统13n为例,其中,该第一元素识别子系统131用以对一第一类别的一或多个元素进行识别、该第二元素识别子系统132用以对一第二类别的一或多个元素进行识别、……、该第n元素识别子系统13n用以对一第n类别的一或多个元素进行识别,以此类推。

值得一提的是,于一较佳实施例中,该视频中的该些元素主要可以被区分为上述的人脸(Face)、影像(Image)、文字(Text)、声音(Audio)、动作(Motion)、物件(Object)及场景(Scene)等七个类别,因此,相应地,该多个元素识别子系统13的数量较佳为七个,但不加以限定。

如上所述,该多个元素识别子系统13分别对应该多个类别的其中之一,并且采用对应的一算法对该类别的元素进行识别。举例来说,该第一元素识别子系统131可采用脸部辨识算法,对被分类至人脸类别的一或多个元素进行识别,以确认该些元素分别对应至哪个人物。再例如,该第二元素识别子系统132可采用物件辨识算法,对被分类至物件类别的一或多个元素进行识别,以确认该些元素分别是什么物件,例如为汽车、飞机、包包、手表等等。

该系统1还包括多个元素数据库14,该多个元素数据库14的数量对应至该多个元素识别子系统13的数量。各该元素数据库14分别连接至该多个元素识别子系统13的其中之一,并且与所连接的该元素识别子系统13属于同一类 别。

更具体地,各该元素数据库14分别储存有所属的类别的元素数据。于执行该第二阶段分析时,各该元素识别子系统13是将该些元素分别与所属类别的元素数据进行比对,以确认该些元素的名称。

值得一提的是,该多个元素识别子系统13还可对不同类别的多个元素进行交叉识别(或称多模态融合识别),以提升该些元素的识别准确率以及容错性。具体来说,该多个元素识别子系统13是在一特定元素的准确率不足(例如低于70%或80%)时,将该特定元素与同一时间出现的其他元素进行交叉比对,藉此提升该特定元素的识别准确率以及容错性。

举例来说,若该第一元素识别子系统131识别一第一元素(人脸)后,判断该第一元素的名称为“周杰伦”,但准确率只有70%,则此识别结果可能会因为准确率不足而不被该系统1所采用。然,若该第二元素识别子系统132于同一时间识别一第二元素(例如声音)的名称为“七里香”而准确率为99%,且该第n元素识别子系统13n于同一时间识别一第三元素(例如物件)的名称为“钢琴”而准确率为95%,则该多个元素识别子系统13可经由交叉识别演算(周杰伦善于钢琴,且七里香为周杰伦的创作歌曲),提升该第一元素的名称为“周杰伦”的识别结果的准确率(例如提升为85%)。而当准确率提升并超过一标准值后,该识别结果即可被该系统1所采用。

于上述实施例中,该系统1是于该特定元素的识别准确率不足时执行上述交叉识别,然而于其他实施例中,该系统1亦可常态地执行上述交叉识别,以进一步确定各该元素的实际态样。

举例来说,该第n元素识别子系统13n识别一第四元素(例如物件)后,可能识别出该第四元素的名称为“汽车”且准确率为99%,但无法确定该汽车的厂牌或款式。此时,若该第二元素识别子系统132于同一时间识别一第五元素(例如声音)的名称为“宝马”且准确率为99%,则该多个元素识别子系统13可经由交叉识别演算后,识别出该第四元素的名称为“宝马”且准确率为99%。

如上所述,本发明主要是同时采用多种算法,分别对视频中的不同类别的元素同时进行识别,进而可增加识别后可得的结果。同时,本发明还可于必要时由多种算法对不同类别的元素进行交叉识别,如此一来,只要同一时间出现的多个元素彼此之间具有关联性,就可以有效提升各个元素的识别准确率。惟, 上述仅为本发明的一具体实施范例,不应以此为限。

值得一提的是,上述的交叉识别亦可运用于同一个元素,具体说明如下。由于同一个元素可能会连续或不连续地出现在同一段视频的不同时间点中,因此,当各该元素识别子系统13对一特定时间中出现的元素进行识别但识别准确率不足时,可进一步对连续或不连续的多个时间点(或时间段)中出现的同一元素进行交叉识别。在进行了多次识别后,只要其中有任何一帧的识别准确率足够,就可以归纳确定这些时间点中出现的该元素的内容为何。藉此,可大幅提升该元素的识别准确率及容错性。

该索引文件产生子系统15主要是由该多个元素识别子系统13接收该些元素的识别结果,并且依据识别完成的该些元素进行多模态融合,藉此为该视频产生可供文字搜寻的一索引文件(index)。更具体而言,该索引文件产生子系统15是依据识别准确率高于该标准值(例如80%)的识别结果产生该索引文件,换句话说,该索引文件中不会包含识别准确率低于该标准值的元素,但不加以限定。

本实施例中,该索引文件主要可包含各该元素的类别、名称以及于该视频中出现的时间。举例来说,该索引文件的内容可例如为{id:1,type:人脸,name:周杰伦,time:00:13~01:28}{id:2,type:物件,name:汽车,time:00:10~01:00}{id:3,type:场景,name:沙滩,time:01:00~01:35}等等。

如上所述,于本发明中,该索引文件主要是用于供用户以关键词进行的搜寻,因此不需要以用户可以理解的方式来呈现。

于一实施例中,该系统1更包括连接该多个元素识别子系统13的一影片叙述产生子系统16,以及连接该影片叙述产生子系统16的一语料库161,该语料库161中储存有多个语法规则。

本实施例中,该影片叙述产生子系统16是由该多个元素识别子系统13分别取得识别完成的多个元素,并且依据该些识别完成的元素,以及该多个语法规则,为该视频产生具有逻辑性的一影片叙述。本实施例中,该影片叙述产生子系统16主要是一自然语言处理(Natural Language Processing,NLP)系统,并且采用自然语音处理算法来对该些识别完成的元素进行逻辑处理,以产生具有逻辑性的该影片叙述。

更甚者,考虑到某些视频的时间长度可能太长(例如微电影约30分钟,正 规电影约2小时),若要以单一句或单一段影片叙述来描述单一视频实有困难。因此,该影片叙述产生子系统16还可于必要时产生多个影片叙述来描述单一视频。

具体而言,于另一实施例中,该影片叙述产生子系统16可依据该视频的场景切换、分镜改变或是时间区间经过,将该视频区分为多个片段。并且,再依据各该片段中出现且已识别完成的多个元素,分别为各该片段产生具有逻辑性的该影片叙述。换句话说,每一片段皆具有一影片叙述,而该视频具有多个片段以及多个影片叙述。惟,上述仅为本发明的另一实施范例,不应以此为限。

本发明中,该影片叙述主要是用于令用户可以在短时间内快速了解该视频的内容,因此主要是以具有逻辑性、与该视频所包含的元素直接相关并且用户可以了解的方式来呈现(容后详述)。通过本发明的技术方案,业者只需将该视频上传至该系统1,即可由该系统1自动为该视频产生对应的该影片叙述。如此一来,业者可以有效省下人工浏览该视频后再撰写影片叙述所需耗费的成本。

如图2所示,该系统1还可包括一主数据库17,连接该影片输入子系统11、该索引文件产生子系统15及该影片叙述产生子系统16。该主数据库17主要用于储存上述的该视频、以及该视频所对应的该索引文件及该影片叙述,但不加以限定。

值得一提的是,上述该该影片输入子系统11、该元素撷取与分类子系统12、该多个元素识别子系统13、该索引文件产生子系统15与该影片叙述产生子系统16主要可以实体的系统硬件,例如各别的服务器或计算机主机来实现,或是以该系统1内部执行的一或多套软件来实现,不加以限定。

请同时参阅图3,为本发明的第一具体实施例的识别流程图。图3揭露了本发明的该方法,并且该方法主要是以图2所示的该系统1来实现。

首先,由该系统1输入一视频(步骤S10),并且,该系统1对输入的该视频进行分析(多模态识别),以撷取出该视频中包含的多个元素,以及各该元素出现的时间(步骤S12)。本实施例中,该系统1可于该视频输入后立即开始分析,或是先将该视频暂存于该主数据库17中,并依据系统排序进行分析,不加以限定。

该步骤S12后,该系统1对撷取出来的多个元素进行分类(步骤S14),并 且通过多个算法分别对各个类别的该元素进行识别,以确认各该元素的名称(步骤S16)。其中,该多个算法是分别对应至该系统1可区分的该多个类别的其中之一。

接着,该系统1判断是否有识别准确率不足的一特定元素(步骤S18)。若有识别准确率不足的该特定元素,则该系统1对该特定元素要进行交叉识别(步骤S20),藉此提升该特定元素的识别准确率及容错性。

较具体地,该步骤S20是将该特定元素与同一时间出现的其他元素进行交叉识别,或是对出现在多个不同的时间点或时间段中的该特定元素进行交叉识别,不加以限定。然而,如前文中所述,该系统1可于该特定元素存在时才执行该交叉识别动作,亦可常态执行该交叉识别动作。换句话说,上述该步骤S18并不必然存在。

于该视频中的所有元素皆识别完成后,该系统1进一步依据识别完成的该些元素进行多模态融合,藉此为该视频产生可供文字搜寻的该索引文件(步骤S22),并且如前文所述,该索引文件主要包含了该视频中出现的所有元素的类别、名称、以及于该视频中出现的时间。藉此,只要用户以该些元素的名称做为关键词进行搜寻,即可顺利找到该视频。更甚者,当用户以一元素的名称做为关键词进行搜寻时,可直接找到该元素于该视频中出现的片段并且开始播放。

该步骤S22后,该系统1依据该视频的场景切换、分镜改变或者时间区间经过,将该视频区分为多个片段(步骤S24),并且再依据各个片段中已识别完成的多个元素,分别为各个片段产生具有逻辑性的一影片叙述(步骤S26)。本实施例中,该系统1主要是通过自然语音处理(Natural Language Processing,NLP)算法对已识别完成的各该元素进行处理,以产生具有逻辑性的该影片叙述。

然而,如前文中所述,该系统1可依据该视频的类型(例如广告、微电影、电影、音乐录像带等)或长度(例如30秒、1分钟、30分钟、1小时等),选择性地先将单一频视区分为多个片段后,再分段产生多个影片叙述(即,执行该步骤S24),或是直接为单一频视产生单一影片叙述(即,不执行该步骤S24),不应加以限定。

值得一提的是,本实施例中,该系统1会于识别完成后,舍弃识别准确率 低于上述该标准值的一或多个该元素,并且不记录于该索引文件与该影片叙述中。藉此,确保提供给用户进行搜寻或查看的内容都是相当精准的。

请同时参阅图4与图5,分别为本发明的第一具体实施例的元素识别示意图与元素出现时间示意图。如图4所示,当一视频5输入该系统1后,该系统1会按照播放时间序列,对该视频5中出现的多个元素进行撷取、分类与识别。

图4以该视频5的其中一帧为例,该系统1从该帧中撷取出一第一元素61、一第二元素62、一第三元素63、一第四元素64及一第五元素65,并且经判断后确认该第一元素61属于场景类别,该第二元素62属于物件类别,该第三元素63属于人脸类别,该第四元素64属于声音类别,该第五元素65属于动作类别。并且在分类完成后,以对应型态的算法分别对该些元素61-65进行识别。

如图4所示,该第一元素61经过识别后,确认名称为“沙滩”;该第二元素62经过识别后,确认名称为“汽车”;该第三元素63经过识别后,确认名称为“周杰伦”;该第四元素64经过识别后,确认名称为“七里香”;该第五元素65经过识别后,确认名称为“唱歌”。

如图5所示,当该视频5中的所有元素皆被识别完成后,该系统1除了藉由该索引文件产生子系统15产生可供文字搜寻的该索引文件之外,还可藉由该影片叙述产生子系统16产生能够代表该视频5,并且具有逻辑性的该影片叙述,例如“周杰伦坐在沙滩边的车上,并且唱着七里香”。藉此,用户可以通过该影片叙述快速得知该视频的内容为何,以及该视频中包含了哪些主要的元素。

请参阅图6,为本发明的第一具体实施例的元素搜寻流程图。当用户欲搜寻所需的视频时,可操作该台式计算机2、该笔记本电脑3或该行动装置4,藉由网络连接至该系统1,并且输入欲搜寻的元素的关键词(步骤S30)。

接着,该系统1以该关键词查询该主数据库17(步骤S32),并且更具体而言,是以该关键词查询该主数据库17中储存的多个索引文件。该步骤S32后,若该系统1查询到符合的索引文件,则同时取得该索引文件所对应的视频(步骤34)。并且,该系统1可依据用户设定,于该视频识别平台上显示出包含有该关键词所对应的元素的该视频,或是直接于该元素出现的时间开始播放该视频(步骤S36)。

于另一实施例中,用户亦可上传图像或影片至该系统1。该系统1可经由相同技术识别出该图像或该影片中包含的元素的名称,再自动将该名称做为关键词并查询该主数据库17。如此一来,可以实现用户以图像或影片来搜寻视频的技术方案。

通过本发明的技术方案,不但可便于用户以文字、图像或影片来搜寻视频,以提高用户的搜寻便利性,并且可有效提升整体系统对于视频中的元素的识别准确率及容错性。同时,还可省去业者以人工方式为视频撰写相关的影片叙述所需耗费的成本,实相当便利。

以上所述仅为本发明的较佳具体实例,非因此即局限本发明所附的权利要求的保护范围,故举凡运用本发明内容所为的等效变化,均同理皆包含于本发明所附权利要求的保护范围内,合予陈明。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1