基于语义关联的内容检索的制作方法

文档序号：6422421阅读：135来源：国知局

专利名称：基于语义关联的内容检索的制作方法
技术领域：
本发明致力于多媒体数据检索领域。尤其是致力于这样一种方法和系统，其使用户查询一种媒体形态(modality)的多媒体档案(archive)并且自动检索另一种媒体形态的相关数据，而不需要人工地通过数据结构来关联数据项。
本申请引入了受让人的在2002年2月14日提交的，发明人为M.Li、D.Li以及N.Dimitrova，序号为10/076,194，并且题目为“Speaking Face Detection in TV Domain”的申请，以供参考。这Li的申请为本发明提供了背景技术。
在过去的十年中，多媒体应用的数目已经按指数规律增长，并且多媒体内容量也在继续剧增。增强的计算能力、万维网的发展以及更紧凑和廉价的存储介质的可用性都加速了此增长。自然而然地，也导致了在基于多媒体内容的检索方面增长的兴趣，反映出了这些现象。
然而，现有的检索多媒体内容的方式是有限的。例如，为了查询多媒体数据库以便检索图像，所述查询必须结合图像的形式。例如将瀑布的声音用作查询来检索瀑布的图像就是是不可能的。除了通过关键字进行基本的交叉媒体检索以外，检索仍然是被限制在单个多媒体域。
序列号为10/076,194的美国专利申请描述了一种在不需要面部识别的情况下、把面部图像与语音相关联的系统和方法。对象检测模块根据视频面部数据提供了多个对象特征，而音频分段模块提供了多个与该视频相关的音频语音特征。潜在语义索引(LSI)技术被用于使所述对象特征相关，和定位在视频中正在进行讲话的面部。此申请没有描述数据检索，而是只讨论了音频与视频形态。
Hse及其他人提出的题目为“Automatic Synthesis of SemanticInformation From Multimedia Documents”的编号为6,154,754的专利公开了一种用于构造非文本媒体的分层信息结构的系统。从文本和非文本媒体中提取的这些信息被称作AIU(可锚的信息单元Anchorable Information Unit)，并且都是依照标准通用标记语言(SGML)来表示的，因此它们可以依照相同的方式来处理。AIU对象是一个或多个可解析字符串或者ASCII串的序列。例如，该`754专利致力于解决基于文本转换来链接文本和非文本媒体文献，并且没有解决对视频段检索的问题。
由Ball及其他人提出的题目为“User Interface for DataPresentation Systems”、编号为EP 1 120 720 A2的欧洲专利申请公开了一种用于增强用户界面的方法。用户可以自然语言格式给出用户查询，像是文本、语音或点并单击，接着该方法把所述查询翻译为标准的数据库查询以检索文本。如果所述自然语言的查询无法被有效转换，那么该方法就向用户供应附加信息并且继续提示用户进行查询。此申请没有解决信息的交叉形态检索。
题目为“Multimedia Archive Description Scheme”的公开号为WO 00/45307 A1的国际专利公开了用于集合多媒体记录的描述方案。所述方案涉及使用称为簇的数据结构的记录。簇是通过就相似性评估记录描述的属性而形成的。簇可以加以组合以形成其它的簇。簇的例子是艺术家、历史、表现派作家、印象派作家。簇信息必须被为每个记录存储，并且限制可以检索特定记录的查询的类型。
公开号为US 2001/0028731 A1、题目为“Canonical CorrelationAnalysis of Image/Control-Point Location Coupling for theAutomatic Location of Control Points”的美国专利申请公开了一种用于基于可观测的数据来导出隐式数据(控制点)的方法。控制点组被用于定位感兴趣的特征，诸如嘴，并且可以被定位在嘴角、在嘴唇的内外边缘以及在其中心。该系统公开了如何生成模型以便在无标记的图像上定位这些控制点。该系统是单一媒体形态的系统并且不检索数据。
Savchenko及其他人提出的题目为“Seamless MultimediaBranching”的编号为6,343,298 B1的美国专利公开了一种创作多媒体名称并且存储多媒体内容的方法，该方法实现了以高的寻找等待寻道延迟时间以及此延迟上的固定上界来进行数字媒体上的无缝转移。把连续的媒体内容作为单个剪辑设置在存储介质上，并且由作者标识剪辑之间的无缝转移。单个剪辑被标识为载体剪辑或者非载体剪辑以确保无缝，以及优化存储器使用率以及无缝跳转的有效性。特定目标媒体剪辑的桥接数据在所述存储介质上与载体剪辑交织或相反与其关联，该载体剪辑是该目标媒体剪辑的上游，并且与上游媒体剪辑一起被递送。这不是一个自动系统，并且没有采用统计方法论。
由此，在本领域中需要这样一种交叉形态系统，该系统可以在没有存储对象之间的关联的情况下，自动地检索与第二形式的媒体对象相关的一种形态的媒体对象。需要的是这样一种装置，该装置用于无缝地浏览不同种类的多媒体内容，并且能够基于它们的语义关联集成不同的媒体源。
本发明通过提供这样一种系统(即，方法、设备以及计算机可执行的处理步骤)来解决上述需要，所述系统用于构造不同类型多媒体内容之间的关联，以致从一种类型的媒体到另一种类型媒体的浏览可以平滑地进行。该关联是通过使用本领域所熟知的正则(canonical)相关统计技术来构造的，以在二维空间中，基于语义关联(相关性)，把诸如视觉特征的一种形态的低级特征映射至诸如音频特征的另一形态的低级特征。本发明还可以用于采用相同的形态进行查询和检索。
最初，该系统被提供多媒体采样，特征就是从该多媒体采样提取的。例如，从爆炸的视频剪辑中提取诸如纹理、色彩和边缘之类的视觉特征，从爆炸的声音的音频剪辑中提取诸如带宽、音调和Mel倒谱系数(MFCC)的特征。要提取的特征和该提取方法都是本领域众所周知的。
虽然这两组特征之间的相关性乍一看也许不明显，但是仔细的审查表明实际上它们是相关的。例如，使用爆炸举例来说，诸如逐渐变红的颜色将被从视频中提取出来，而以音调和幅度变化的特定模式为特征的声音将被从音频中提取出来。统计分析将揭露这些特征之间的相关性，并且提供链接音频与视频的关联模式。
正则相关的统计技术产生优化的矩阵A和B，这两个矩阵被用于确定具有特征集X的候选图像A与具有特征集Y的音频剪辑B的相关性。这些矩阵可用于使用Y(或者X)来评估X(或者Y)。换言之，所述相关性是双向的，因此，声音剪辑可用于检索相关联的视频或者相关联的视频可用于检索声音剪辑。作为选择，在本领域中众所周知的潜在语义索引技术可用于展开该矩阵。
本发明的优势在于使用户能够以最小化带宽的方式来浏览和搜索不同形态的多媒体内容。例如，为了检索图像，仅仅需要传输语音查询，来取代经由例如因特网的网络来传递图像形式的查询。
本发明的优势还在于降低了查询包含图像的多媒体数据库所需的装备的成本。例如，一次查询可以只使用麦克风来开展，而不要求图形输入装置。
本发明的优势还在于补偿损坏的输入。例如，如果声音被背景噪声损坏了，那么可以使用相关联的视觉特征来取代之作为查询的基础。
本发明还为用户浏览多媒体数据库提供了更大的选择，因为所述用户可以选择用户更喜欢的以及用户最熟悉的形态。例如，儿童可以发出迪斯尼角色Simba的声音(吼声)，检索Simba的图像，而不是必须知道如何键入拼出该角色名字的字母。
本发明并不局限于听觉和视觉的搜索，而且可以使用其它形态，诸如味道、皮肤电反应或者触觉特性。例如，可以把特定的酒的香气用作查询来使用与上述相同的特征提取和相关性技术来检索与酒有关的标识信息，诸如葡萄、葡萄园以及原产地。在香气的情况中，化学特征往往被提取并且以数字形式表示。同样，本发明的技术也可用于把诸如眼膜图案的生物统计学数据与有关诸如单个图像的个体的信息相关联，由此使用户能使用任何一种形态作为查询基础来查询采用不同形态的个体特性的多媒体数据库，和检索处于其它任何一种形态的信息。
通过相关过程展开的关联还可以用于以逼真的方式来做出化身(avatar)作品。例如，当化身说单词“停止”时，化身的面部将以与该单词相关联的方式来移动。本发明还可以用于搜索情绪，诸如以官方表情符号词典(official Smiley Dictionary)(参见附录)的方式描述的那些情绪。在此例子中，检索例如是“生气的”声音或者“快乐的面部”，而查询是一个有关的单词或者短语。
根据附图及其后优选实施例的详细说明，本发明的其它特征和方面以及本发明的各种优势将更加明显。

图1描述了可以在其上实现本发明的系统。
图2示出了该系统的总体图。
图3是示出该系统的操作的流程图。
图1示出了可以在其中实现本发明的系统。在优选的实施例中，该系统是通过由数据处理设备执行的计算机可读代码来实现的。该代码可以存储在数据处理设备中的存储器中，或者可从诸如DVD/CD-ROM或者软盘的存储介质中读取/下载。在其它实施例中，可以使用硬件电路代替软件指令或者两者结合来实现本发明。例如，本发明可以在使用用于处理的三媒体处理器和用于显示的电视监视器的数字电视平台或者机顶盒上实现。
如图1所示，计算机100包括网络连接101，用于对接到数据网络，该数据网络诸如是带宽可变网络、因特网；和/或传真/调制解调器连接，用于与其它远程源102对接，该远程源102诸如是视频或者数字照相机(未示出)。该系统还可以采用独立的模式来运行。该计算机100还包括显示器103，用于向用户显示信息(包括视频数据)；输入设备104，诸如键盘、麦克风或者输入图形板，用于输入查询或者其它命令；鼠标105，用于在显示器103上定位光标和输入用户命令；磁盘驱动器106，用于读写在其中安装的软盘；以及CD-ROM/DVD驱动器107，用于访问在CD-ROM或者DVD上存储的信息。该计算机100还可以具有一个或多个连接到其上的外围设备，诸如用于输入图像等等的一对电视会议照相机；以及具有用于输出图像、文本等等的打印机108。
可以通过各种装置以硬件和软件的方式并且通过各式各样的控制器以及处理器来实现其它实施例。例如，应注意的是，膝上型计算机或者掌上型计算机、电视会议系统、个人数字助理(PDA)、具有显示器的电话、电视、机项盒或者其它任何类型的类似装置都可以使用。
图2示出了该计算机100的内部结构，其包括存储器110，该存储器110可以包括随机存取存储器(RAM)、只读存储器(ROM)以及诸如硬盘的计算机可读介质。存储在该存储器110中的项目包括操作系统、各种数据以及应用。存储在存储器110中的应用可以包括视频编码器、视频解码器及帧捕获器。该视频编码器以常规的方式编码视频数据，而该视频解码器则对已经以常规的方式编码的视频数据进行解码。该帧捕获器能够实现从视频信号流抓取和处理单个帧。
该计算机100中还包括中央处理单元(CPU)120、通信接口121、存储器接口122、CD-ROM/DVD驱动器接口123、视频接口124和总线125。该CPU 120包括微处理器等等，用于执行计算机可读代码，即诸如上文提及的出自存储器110的应用。可以把这种应用存储在存储器110(如上所述)中，或者作为选择，存储在磁盘驱动器106中的软盘上或者光盘驱动器107中的CD-ROM上。CPU 120经由存储器接口122来访问存储在软盘上的应用(或者其它数据)，并且经由光盘驱动器接口123访问存储在CD-ROM上的应用(或者其它数据)。
CPU 120例如可以代表微处理器、中央处理单元、计算机、电路卡、数字信号处理器或者专用集成电路(ASIC)。该存储器110例如可以代表基于盘的光学或磁存储部件、电子存储器以及这些和其他存储器设备的部分或者组合。
与该系统10相关联的各种功能性操作可以完全或者部分地以一个或多个软件程序的方式来实现，该软件程序存储在存储器110中并且由该CPU 120来执行。此类计算和媒体处理设备可以是高级机顶盒的一部分。
图3和3a举例说明了本发明的操作。在图3中，视频140经由图2中附图标记124视频接口被输入至图2中附图标记120 CPU。视频140被分成音频和视觉分量，即视觉142和音频144。通过视觉特征提取步骤146从该视觉142中提取视觉特征，通过音频特征提取步骤148从该音频144中提取音频特征。此过程在2002年2月14日由发明人M.Li、D.Li以及N.Dimitrova提交的序号为10/076,194的“SpeakingFace Detection in TV Domain”中的第10-11页做出了详细描述，将该申请引入于此。
在步骤150，基于如下采样输入来训练该系统，该采样输入表示将存储在多媒体数据库中的信息类型。在步骤152，计算由X和Y表示的音频和视觉信息的协方差。在步骤154，对所述协方差执行奇异值分解，产生中间积USVT。在步骤156，矩阵A和B推导出来，这些矩阵把例如视频转换为例如与音频更好地相关的空间。
步骤152至156在数学上可以按照如下来描述A＝Cxx-1/2U并且B＝Cyy-1/2V被推导出来，以致使AX和BY之间的相关性最大化。A和B是正交矩阵并且det(A)＝det(B)＝1，其中，Cxx＝E{(X-mx)(X-mx)T}Cyy＝E{(Y-my)(Y-my)T}Cxy＝E{(X-mx)(&-my)T}
K＝Cxx-1/2·Cxy·Cyy-1/2＝U·S·VTX和Y是来自于不同形态的特征集。Cxx、Cyy和Cxy是协方差矩阵。Mx和My是中值向量。U、S和V是从奇异值分解获得的。
上述数学操纵的效果是查找最佳相关性，而没有考虑每一特征集的分布。在下面的附图中，由正则相关过程揭示的相关性方向在a1和v1^v2子空间之间。所揭示的相关性方向不受v1和v2子空间上的分布的影响。
一旦查找相关性的方向，就可以使用上述公式来把特征从一个子空间转换至另一子空间，例如从音频转换为视频。
现在转向图3a，在步骤158，存储A和B矩阵。在步骤160，相对于多媒体数据库启动使用视频(X)或者音频(Y)的查询。在步骤162，使用矩阵A和B来关联X和Y。当存在来自于形态X的查询时，使用X的提取特征就可以计算出AX。然后，就能够为对于形态B在数据库中的每一项计算出BY。当存在来自于形态Y的查询时，使用Y的提取特征就可以计算出BY。然后，就能够为形态A在数据库中的每一项计算AX。
在计算了AX和BY之后，在该数据库中搜索在AX和BY之间具有最大相关性的X或者Y。因此，例如，如果该查询项目是Simba的吼声，那么搜索项例如可以是Simba的图像。对于此例子来说，在步骤164，就和检索到Simba的多个图像，并且在步骤166中显示出来。
已经相对于特殊的例证性实施例描述了本发明。应该理解的是，本发明不局限于上述实施例及其修改，在不脱离所附权利要求书的精神和范围的情况下，本领域中普通技术人员可以做出各种改变和修改。
权利要求
1.一种多媒体系统，包括查询模块，能够生成多种媒体形态的查询；数据库，能够存储表示多种媒体形态的数据；对象检测模块，能够从该查询中提取第一组对象特征并且从该数据库中提取第二组对象特征，其中第一组对象特征和第二组对象特征是从表示不同形态的媒体中提取的；处理器，耦合至该对象检测模块，其中该处理器被设置来确定第一组对象特征和第二组对象特征之间的相关性，以及从该数据库中检索那些相关性至少等于预定的最大相关度的项目。
2.如权利要求1所述的系统，其中在检索之前，该系统被使用采样数据来加以训练以使交叉形态媒体相关。
3.如权利要求1所述的系统，其中该相关性是使用正则相关方法来计算的。
4.如权利要求1所述的系统，其中该相关性是使用潜在语义索引方法来计算的。
5.如权利要求2所述的系统，其中该训练产生正交矩阵A＝Cxx-1/2U和B＝Cyy-1/2V其中，det(A)＝det(B)＝1，Cxx＝E{(X-mx)(X-mx)T}，Cyy＝E{(Y-my)(Y-my)T}，Cxy＝E(X-mx)(Y-my)T}，K＝Cxx-1/2·Cxy·Cyy-1/2＝U·S·VT，并且表示第一形态中第一特征集的AX和表示第二形态中第二特征集的BY之间的相关性最大，由此使特征能够从该第一形态转换到第二形态。
6.如权利要求5所述的系统，其中，由于BY与AX之间具有最大相关性，所以表示第一特征集的查询-AX可以仅仅用给定的、表示第二特征集的查询结果-BY来标识。
7.一种从多媒体档案检索用户感兴趣的至少一项目的方法，包括如下步骤生成查询；从该查询中提取第一组对象特征，该对象特征表示第一形态；从所述多媒体档案中的项目中提取第二组对象特征，该对象特征表示第二形态；确定该第一组对象特征和第二组对象特征之间的相关性；从该档案中检索那些与在所述查询中的对象特征之间的相关性至少等于预定的最大相关度的项目。
8.如权利要求7所述的方法，还包括使用采样数据来生成相关矩阵的步骤，该相关矩阵用于使交叉形态媒体相关。
9.如权利要求7所述的方法，其中该相关方法是正则相关。
10.如权利要求7所述的方法，其中该相关方法是潜在语义索引。
11.如权利要求7所述的方法，其中所生成的矩阵表示为A＝Cxx-1/2U并且B＝Cyy-1/2V，其中，det(A)＝det(B)＝1，Cxx＝E{(X-mx)(X-mx)T}，Cyy＝E{(Y-my)(Y-my)T}，Cxy＝E(X-mx)(Y-my)T}，K＝Cxx-1/2·Cxy·Cyy-1/2＝U·S·VT，并且表示第一形态中第一特征集的AX和表示第二形态中第二特征集的BY之间的相关性最大，由此使特征能够从第一形态转换到第二形态。
12.如权利要求11所述的方法，其中由于BY与AX之间具有最大相关性，所以表示第一特征集的查询-AX可以仅仅用给定的、表示第二特征集的查询结果-BY来标识。
13.计算机可执行的处理步骤，该计算机可执行处理步骤被存储在计算机可读介质上，以使用户能够从多媒体数据库中检索感兴趣的媒体，包括查询生成步骤，用于获得来自于用户的查询，该查询采用第一媒体形态；第一提取步骤，用于从该查询中提取第一组对象特征；第二提取步骤，用于从所述多媒体档案的项目中提取第二组对象特征，该对象特征表示第二媒体形态；相关性计算步骤，用于确定该第一组对象特征和第二组对象特征之间的相关性；检索步骤，用于从该数据库中检索那些与在所述查询中的对象特征之间的相关性至少等于预定的最大相关度的项目。
14.用于从多媒体档案中检索用户感兴趣的至少一项目的设备，包括用于生成第一媒体形态的查询的装置；用于从该查询中提取第一组对象特征的装置；用于从该多媒体档案的项目中提取第二组对象特征的装置；用于确定第一组对象特征和第二组对象特征之间的相关性的装置，其中第二组对象特征是从第二媒体形态中提取的；从该档案中检索那些与在所述查询中的对象特征之间的相关性至少等于预定的最大相关度的项目。
15.一种用于从多媒体档案中检索角色的至少一个视频剪辑的方法，该方法包括如下步骤生成包括该角色的语音的音频剪辑的查询；从该查询中提取多个音频特征；从该多媒体档案中的每一视频剪辑中提取多个视频特征；计算多个音频特征和多个视频特征之间的相关性；以及基于使音频和视频之间的相关度最大化来检索所述角色说话的至少一个视频剪辑。
16.一种用于检索在多媒体档案中存储的人员的至少一个图像的方法，该方法包括如下步骤生成包括所述人员的生物统计学特征的查询；从该查询中提取多个视觉特征；从该多媒体档案的每一图像中提取多个视觉特征；计算来自于该档案的多个视觉特征和来自于该查询的多个视觉特征之间的相关性；以及基于使从该查询中提取的多个视觉特征和从该多媒体档案中提取的多个视觉特征之间的相关度最大化，来检索该人员的至少一个图片。
17.如权利要求16所述的方法，其中该生物统计学特征是眼膜图像。
18.一种用于检索在多媒体档案中存储的且标识未知液体的至少一项信息的方法，该方法包括如下步骤生成包括香气的查询；从该查询中提取多个化学特征，这些化学特征利用数字形式加以表示；从该多媒体档案的每一文本项中提取多个文本特征；计算从该查询中提取的多个化学特征和从该多媒体档案中提取的多个文本特征之间的相关性；以及基于使从该查询中提取的多个化学特征和从该多媒体档案中提取的多个文本特征之间的相关度最大化，来检索标识未知液体的至少一项信息。
19.如权利要求18所述的方法，其中该未知的液体是饮料。
20.一种用于从多媒体档案检索与情绪相关联的声音的方法，该情绪是从标准的情绪列表中选择的，该方法包括如下步骤生成包括情绪单词的查询；从该查询中提取多个文本特征；从该多媒体档案的每一声音中提取多个音频特征；计算从该查询中提取的多个文本特征和从该多媒体档案中提取的多个音频特征之间的相关性；以及基于使从该查询中提取的多个文本特征和从该多媒体档案中提取的多个音频特征之间的相关度最大化，来检索至少一个声音。
21.一种用于在最初只知道第二媒体形态的查询结果之时检索第一媒体形态的查询的方法，包括如下步骤检索所存储的矩阵B，以把第二形态的特征转换到与第一形态相关的特征空间中，其中该矩阵B是在训练过程期间被生成的，用于使第一形态A中的项目与第二形态B中的项目相关，反之亦然，如此使得A＝Cxx-1/2U并且B＝Cyy-1/2V其中，det(A)＝det(B)＝1，Cxx＝E{(X-mx)(X-mx)T}，Cyy＝E{(Y-my)(Y-my)T}，Cxy＝E{(X-mx)(Y-my)T)，K＝Cxx-1/2·Cxy·Cyy-1/2＝U·S·VT，并且表示第一形态中的第一特征集的AX和表示第二形态中的第二特征集的BY之间的相关性最大；从第二形态的项目中提取对象特征；计算第二形态的AY；从第一形态的项目中提取对象特征，其中该项目存储在多媒体数据库中；为每个项目计算AX；使AX和AY相关；并且检索在AX和BY之间具有最大相关性的X。
全文摘要
一种使用户能够查询一种媒体形态的多媒体档案并且自动检索另一媒体形态的相关数据且不需要人工地通过数据结构来关联数据项的方法和系统。该相关方法在不受数据在每种形态的相应子空间中的分布的影响的情况下，可以查找数据项之间的最大相关性。一旦揭示了相关性的方向，就可以把已提取的特征从一个子空间转换到另一子空间。
文档编号G06F17/30GK1723455SQ200380103280
公开日2006年1月18日申请日期2003年11月7日优先权日2002年11月15日
发明者D·李, N·迪米特罗瓦申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D·李、N·迪米特罗瓦
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

上一篇：异步通信系统的制作方法
上一篇：用于复制受控的存储设备的归档系统和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。