用于对象再识别的系统和方法_3

文档序号：9708722阅读：来源：国知局

来提供每一输入，包括图10A所示的通过一个以上的输入装置1002U003所生成的数据、通过网络1020、1002中的一个从外部源所接收到的数据、从存储装置1006、1009中的一个所检索的数据、或者从被插入相应阅读器1012的存储介质1025所检索到的数据。执行一组指令，在某些情况下可能导致数据输出。执行还可能涉及将数据或者变量存储到存储器1034。
[0061] 所公开的VIDD配置使用被存储在相应存储位置1055、1056、1057中的存储器1034 中的输入变量1054。VIDD配置产生被存储在相应存储位置1062、1063、1064中的存储器 1034中的输出变量1061。可以将中间变量1058存储在存储位置1059、1060、1066和1067 中。
[0062] 参考图10B的处理器1005,寄存器1044、1045、1046、算术逻辑单元（ALU) 1040和控制单元1039 -起工作，以进行用于对于构成程序1033的指令集中的每一指令进行"读取、解码和执行"周期所需的一系列微操作。每一读取、解码和执行周期包括：
[0063] 读取操作，其从存储位置1028、1029、1030获取或者读取指令1031 ;
[0064] 解码操作，其中，控制单元1039判断读取了哪一指令；以及
[0065] 执行操作，其中，控制单元1039和/或者ALU 1040执行该指令。
[0066] 此后，可以执行用于下一指令的另一读取、解码和执行周期。类似地，可以进行控制单元1039将值存储或者写至存储位置1032的存储周期。
[0067] 图4、5、7A、8和9的处理器中的每一步骤或者子处理被与程序1033的一个以上的片段相关联，并且通过处理器1005中的寄存器部1044、1045、1047、ALU 1040和控制单元 1039 -起工作来进行，以进行对于所述程序1033的标准片段所设置的指令中的每一指令的读取、解码和执行周期。
[0068] 可选地，可以在诸如用于进行VIDD功能或者子功能的一个以上的集成电路等的专用硬件中实现VIDD方法。这类专用硬件可以包括图形处理器、数字信号处理器、或者一个以上的微处理器及其相关存储器，并且可以安装在诸如视频摄像机等的平台上。
[0069] 图2示出根据一个VIDD配置的在PTZ询问时所使用的规划处理。（在图4的步骤 420,通过VIDD配置软件1033所指示的处理器1005所控制的摄像机140或者其它摄像机 141)利用低变焦拍摄包含候选对象205的场景的第一图像200。基于第一图像200,（根据 VIDD配置，在使用图4的步骤420、425、430、440、450和460处理第一图像200之后，在图4 的步骤420,通过VIDD配置软件1033所指示的处理器1005所控制的摄像机140或者其它摄像机141)拍摄用于以高分辨率示出候选对象的区域的第二图像（210或者220)，以提高特有属性的可检测性。从多个临时摄像机设置中，选择用于第二图像（210或者220)的摄像机设置。可以基于诸如观察目标的"头部"、"躯干"和"腿部"等的规则，预先确定如使用图9的步骤910所确定的"临时摄像机设置"，或者"临时摄像机设置"可以包括摄像机的用于拍摄第二图像的所有可能PTZ设置。
[0070] 与原始场景的图像200中的区域230相对应的一个可能视图210，允许以中等可检测性针对整个对象205来检测属性。与原始场景的图像200中的区域240相对应的另一可能视图220,允许以高的可检测性来检测头部222的属性。一定程度地基于（在图8的步骤 820,通过VIDD配置软件1033所指示的处理器1005所确定的）与视图210或者视图220 相关联的特有属性的可检测性的预期增大，选择对于拍摄视图210或者视图220所选择的摄像机设置。例如，如果"留胡须"是关注对象的单个最特有属性，则选择视图220以使胡须225的可检测性最大化。可选地，如果"长裤子"和"短发"两者都是特有属性，则可以选择视图210以做出用于观察两个特有属性，即，头发212和裤子214两者的次优可检测性。
[0071] 图3描述在对于使用贝叶斯推断的对象识别的本说明中所使用的信念网络300。假定X表示候选对象是否是以节点350所表示的关注对象的二元判定。在下面的说明中， X = 1表示判定为候选对象是关注对象，并且X = 0表示相反意思。假定a = {aj, i = 1、……4表示关注对象的N个属性ai的集合（其中，属性&1可以是例如"头发长度"或者 "面部毛发风格"等）。根据属性 &1的1^个可能类标签，属性a i具有类标签he {1，···，!^} (其中，类标签h可以例如对于属性"头发长度"有"短"或者"长"，或者对于属性"面部毛发风格"有"留胡须"或者"胡子被刮光"等）。假定Let d= {山}，1 = 1、"·，Ν表示应用于拍摄图像的Ν个属性检测器的输出山（其中，属性检测器输出山例如可以表示对于候选目标的属性"头发长度"或者"留胡须"的观察）。根据属性％的L i个可能类标签，检测器输出山同样具有类标签1 # {1，…，LJ (其中，如上所述，类标签込例如对于属性"头发长度"的检测器输出可以是"短"或者"长"、或者对于属性"面部毛发风格"的检测器输出可以是"留胡须"或者"胡子被刮光"等）。最后，假定v表示通过节点380所表示的观察条件 (其中，观察条件v例如可以是摄像机的平摇、俯仰和缩放设置、以及目标相对于摄像机的相对定向）。
[0072] 图3中的网络300捕获候选对象的属性（例如，"面部毛发风格"、"裤子长度"和 "头发长度"）依赖于所考虑的候选对象的身份（即，候选对象是否是关注对象）这一概念。网络300还捕获有噪声的属性检测器的输出依赖于观察条件和对象的属性这两者的概念。图3示出用于两个属性的信念网络300,其中，通过节点360表示 ai，并且通过节点370表示a2，而且通过节点365和节点375分别表示它们相应的属性检测器的输出山和d 2。在相关技术中，从两个属性向N个属性的图形结构的推广很简单。
[0073] 在贝叶斯统计中，随机事件的后验概率或者不确定命题是在考虑相关证据之后所分配的条件概率。相反，在贝叶斯统计推断中，不确定量的先验概率表示在考虑某一证据之前的不确定性。在下面的说明中，可以互换使用术语"概率"、"似然"、"置信度"和"不确定性"来描述命题的可信度，除非另有说明除外。
[0074] 基于图3,通过根据下面的公式⑴的"后验概率公式"，定义在根据利用观察条件 v拍摄的候选对象的图像的一组属性检测d= {dj的情况下、候选对象是关注对象的后验概率p(x|d，v)(即，置信度）：
[0075]
⑴
[0076] 公式⑴将与目标识别有关的先前的置信度（即，先验p(x))与观察（即，检测器输出山）和与这些观察的可靠性有关的知识（即，观察条件v下属性的可检测性）结合来计算与目标识别有关的新的置信度（即，后验口0^|(1，7))。在上述公式（1)中，项？〇〇表示与图8的步骤810的输出811相对应的、候选对象是关注对象的先验概率。项p (&11 X)表示在对象的身份X的情况下具有属性％的对象的概率。例如，p (a i | X = 1)是关注对象具有属性％的概率，而p (a i | X = 0)是来自种群的随机对象具有属性ai的概率。概率1203、 1206(参考图12)分别对应于作为图4的步骤410的输出411的、公式（1)中的项p (a」X =1)和p (a; | X = 0)。项p (山| a;, v)是在对象的属性a;和观察条件v的情况下观察属性检测器输出山的概率。该量表示与图8的步骤820的输出821相对应的、在观察条件v下观察时的属性的可检测性。例如，如果 ai是二值属性类标签，那么pWii l|ai=0，v)是在观察条件v下错误检测属性％的概率（还称为"假阳性"检测），而pWf l|ai= l，v) 是在观察条件v下正确检测属性％的概率（还称为"真阳性"检测）。
[0077] 在一个配置中，通过T个训练图像而经验性地确定条件概率分布p(ai|x = 1)和 p(a」x = 0)，其中，T彡l，p(ai|x = 1)和p(a」x = 0)分别表示关注对象或者来自种群的对象具有属性％的概率。在p(ai|x = l)的情况下，T个训练图像是关注对象的图像。在 p(ai|X = 0)的情况下，T个训练图像是来自种群的随机对象的图像。首先，利用用于属性屮的检测器处理每一训练图像，这样产生一组输出d; = |；#j，其中，t = 1、…、T。然后，根据山中每一类标签1 i的频率，可以对训练图像中的对象的检测器输出的边缘分布p (d i | X =j)(其中，j = 〇或者1)进行近似。最后，构建通过根据公式（2)的"属性推断约束"所定义的约束线性系统：
[0078]
(2) 1 上述公式（2)将对于关注对象或者来自种群的对象的图像的检测器输出中的类标签的观察频率（即，边缘分布= j))与对象具有相应属性的似然（即，未知概率 p(a;= 1 ; |x = j))相关。在公式⑵中，项p(a;= 1 ; |x = j)表示对象对于属性a;具有类标签込的似然，例如，对于与类标签"眼镜"相对应的1 i，通过图12中针对p(a1= 1 =1)的概率1203或者针对p (a;= 1 ; I x = 0)的概率1206来表示该似然。这些概率还对应于图4的步骤410的输出411。项口(山|a;= 1 ;，v)是在观察条件v下属性8;的可检测性。在一个配置中，如以下更加详细所述，基于用于某一属性的属性分类器针对在观察条件 v下所捕获的测试集展现出的性能，确定该属性的可检测性。项P(v)是在观察条件v下拍摄图像的先验概率。在一个例子中，通过假定以均匀频率在每一可能观察条件下拍摄图像来确定P(v)。公式（2)中的不等式〇彡P(a;= 1 ; |x = j)彡1表示概率始终表现为从0 到1的范围（包含0和1)内的量的约束。公式（2)提供Q约束，约束之一被标准化约束 Σ;?.ρ(α; = Glx =y) = 1替换。使用在先技术中的已知方法，对于p(ai= 1= j)(对于j = 0或者1)的Q个未知值，可以求解上述系统。
[0080] 基于图3所示的信念网络，使用信息论原理制定PTZ询问。如上所述，PTZ询问的目的是为了选择使与候选对象的身份X有关的不确定性的降低最大化的摄像机设置。假定 /表示与所选择的摄像机设置相对应的最佳观察条件。用于降低不确定性的信息论方法选择/，从而使得在观察条件/下检测属性d之后与对象身份X有关的互信息I (X ;d | v 〇 (即，预期信息增益）最大化。基于图3,通过根据下面的公式（3)的"互信息目标函数"定义互信息I(x;d|v):
[0081]
(3)
[0082] 公式（3)表示通过在预测观察条件v下观察对象的属性d所获得的、与候选对象的身份X有关的不确定性的预期降低。预测观察条件v对应于图9的步骤915的输出916。针对元组（V，I (X ;d| v))k，使用公式（3)所计算出的互信息I (X ;d| v)和相关联的观察条件 V，其表示对于第k个预测观察条件的图9的步骤930的输出931。项p(x = j)表示等于在图4的步骤440所输出的后验概率p (X | d，v) 411的、候选对象的身份的先验概率。对于情况X = 1，项p (d I X，v)表示在预测观察条件v下针对关注对象观察到特定组的属性检测d 的概率，以及对于情况X = 〇,项p (d | X，v)表示在观察条件v下针对一般种群中的对象观察到相同属性检测d的概率。项p (d | v)表示在观察条件v下观察到特定组的属性检测d的概率（g卩，不管对象的身份如何）。根据下面的公式（4)和（5)定义项p (d | X，v)和p (d | v):
[0083]
[0085] 公式⑷中的项p(a;= 1 ; |x)和公式（5)中的项p(a;= 1 ; |x = j)表示在对象的身份x的情况下，对于属性ai具有类标签1 i的对象的概率。这些值例如对应于图12中的概率1203、1206,并且是图4的步骤410的输出411。公式⑷和（5)中的项？(山| &1 = U v)表示与图9的步骤920的输出921相对应的、观察条件v下的属性&1的可检测性。项 P(X = j)表示等于在图4的步骤440所输出的后验概率p(x| d, v)411的、候选对象的身份的先验概率。通过根据下面的公式（6)对公式（3)中的互信息目标函数进行最大化，获得最佳观察条件V%
[0086]
<6)
[0087] 公式（6)选择提供与候选对象的身份有关的不确定性的最大降低的观察条件。与通过公式（6)所计算出的最佳观察条件/相对应的摄像机设置，对应于图4的步骤460的新摄像机设置输出461。
[0088] 实施例（实例和替代例）
[0089] 图4示出用于利用摄像机识别场景中的对象的方法400。方法400的目的是确定摄像机设置的序列461，以利用最小数量的观察来识别关注对象100。作为例子，参考用于拍摄如图1B所示的、包含候选对象130的场景的图像120以判断候选对象是否是图1A所示的关注对象100的ΡΤΖ摄像机140来说明方法400。通过使用下述方法所确定的、预定的多个属性来描述关注对象。除候选对象130共享与关注对象100相同类型的属性以外，方法400不进行与候选对象130有关的任何先验假设。例如，在一个VIDD配置中，候选对象 130和关注对象100两者都是具有包含类"长发"或者"短发"的"头发长度"属性的行人。在另一 VIDD配置中，候选对象和关注对象两者都是具有包含类"圆形"或者"矩形"的"前照灯形状"属性的车辆。下面的说明是对于整个方法400的概述。稍后进一步详细说明步骤410、420、425、430、440、450和460的实例和替代实施方案。
[0090] 图4是示出用于根据一个VIDD配置，利用摄像机识别场景中的对象的方法400的示意性流程图。在通过VIDD软件1033所指示的处理器1005所进行的开始步骤405,开始方法400,其中，作为输入，接收可以用于确定关注对象100的属性的信息。在VIDD配置的一个应用中，该信息是以关注对象的一个以上的图像的形式的。例如，选择并拍摄正在进行异常或者可疑动作的对象作为提

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6