一种活动识别方法及系统的制作方法_3

文档序号：9524206阅读：来源：国知局

例如如图4B所示的情况中的是一个物理空间样本数据包括；活动标注、时间特征、位置特征（如GP巧、传感器特征等物理空间特征；一个虚拟空间样本数据包括；活动标注、时间特征、位置特征、文本特征、P0I特征等虚拟空间特征，且二者的时间特征、位置特征为相同特征，但活动标注不为相同特征，在对二者进行特征迁移时，可W将除时间特征、位置特征之外的其它虚拟空间特征迁移到该物理空间样本数据中，得到包含"活动标注（物理）、活动标注（虚拟）、时间特征、位置特征、传感器特征、文本特征、P0I特征"的新的样本数据；
[0108] 对于图4B所示的情况，另一种处理方法可W为，将第一虚拟空间样本数据包括的活动标注特征和第一物理空间样本数据包括的活动标注特征都丢弃，形成包含"时间特征、位置特征、传感器特征、文本特征、P0I特征"的新的样本数据；
[0109] 在另一种情况中，假设第一物理空间样本数据和上述第一虚拟空间样本数据某个类型的特征中包括某些相同子特征，则在特征迁移时，可W在将虚拟空间特征迁移到物理空间样本数据中后，将该类型的特征中除相同子特征之外的其他子特征丢弃，或者均保留在新的样本数据中；
[0110] 例如图4C所示，第一物理空间样本数据包括：时间特征、位置特征、传感器特征等物理空间特征，第一虚拟空间样本数据包括：时间特征、位置特征、文本特征、P0I特征等虚拟空间特征，其中二者的位置特征为相同特征，二者的时间特征中的工作日/周末子特征为相同子特征，时间特征中的其它子特征不同，则在特征迁移时，可将虚拟空间中的文本特征、P0I特征迁移到物理空间样本数据中，并将时间特征中小时、星期子特征均丢弃，形成包括"时间特征（工作日/周末）、位置特征、文本特征、P0I特征、传感器特征"的新的样本数据；
[0111] 204A3、将上述第一物理空间样本数据丢弃；
[0112] 如果不存在与第一物理空间样本数据存在关联的虚拟空间样本数据，则可W将第一物理空间样本数据丢弃。
[0113] 上述实施方式中，通过将具有相同特征或相同子特征的物理空间样本数据和虚拟空间样本数据进行特征迁移，得到包括了物理空间特征和虚拟空间特征新的样本数据，相比现有技术中的物理空间样本数据扩展了样本数据的特征维度，可W提高活动识别的准确性。
[0114] 举例来说，在另一种实施方式中，上述204可W包括：
[0115] 204B、将包括相同特征或相同子特征的物理空间样本数据和虚拟空间样本数据进行特征对齐，得到包含物理空间特征的新的样本数据和包含虚拟空间特征的新的样本数据。
[0116] 具体地，如图5所示，上述204B可W包括：
[0117] 204B1、判断是否存在与第二物理空间样本数据包括相同特征或相同子特征的第二虚拟空间样本数据，如果存在，可执行204B2,否则执行204B3 ;
[0118] 其中，上述第二物理空间样本数据可W为任意一个物理空间样本数据；
[0119] 204B2、将上述第二物理空间样本数据和上述第二虚拟空间样本数据均作为上述新的样本数据；
[0120] 例如如图6所示的情况中，第二物理空间样本数据包括：活动标注、时间特征、位置特征（GP巧、传感器特征等物理空间特征；第二虚拟空间样本数据包括：时间特征、位置特征、文本特征、P0I特征等虚拟空间特征，且二者的时间特征和位置特征是相同特征，则由于存在可W进行特征对齐的相同特征，第二物理空间样本数据和第二虚拟空间样本数据都被作为新的样本数据；
[0121] 例如如图7所示的情况中，第二物理空间样本数据和第二虚拟空间样本数据包括相同子特征"工作日/周末"，则由于存在可W进行特征对齐的相同子特征，第二物理空间样本数据和第二虚拟空间样本数据都被作为新的样本数据；
[0122] 204B3、将第二物理空间样本数据丢弃。
[0123] 在上述实施方式中通过将存在相同特征或相同子特征的物理空间样本数据和虚拟空间样本数据，均作为新的样本数据，相比现有技术，可W从虚拟空间中获得可用的样本数据，提升了可用的样本数据的数量，可W提高活动识别的准确性。
[0124] 优选地，本实施例中使用的训练模型可W是二项逻辑回归模型化ogistic Regression)，当然本领域技术人员还可W选择其它合适的训练模型，在此不对训练模型的具体类型进行限制。
[01巧]相应的，上述205可W包括；将上述新的样本数据代入二项逻辑回归模型，利用极大似然估计法估计上述二项逻辑回归模型的参数，得到活动识别模型。
[0126] 二项逻辑回归模型是一种分布模型，由条件概率分布P(y|x)表示，其形式为参数化的逻辑分布。二项逻辑回归模型可W是如下条件概率分布：
[0127] 设；W=exp(W·x+b)
[012 引p(y=Ι|χ) =W/Q+W)
[0129] P(y= 0|χ) = 1/(1+W)
[0130] 其中，X是实数向量，也是模型的输入；yE{〇, 1}，是模型的输出；w是实数向量，b 是实数，是模型的参数。送里W称为权值向量，b称为偏置，W·X为W与X的内积。
[0131] 在本实施例中，X为特征向量，y为是否标注的活动，y= 0表示不是该活动，y= 1表示是该活动。
[0132] P(y=l|x)/P(y= 0|x)表示在X情况下是该活动的几率，则该事件的对数几率为：
[013引W·x+b=log(P(Y=?|χ)/Ρ(Υ= 0|x));
[0134]LogisticRegression的对数似然函数为：
[013引L(w) =ΣΝ; =1(y;(w·Xi) -log(l+exp(w·Xi)))
[0136] 在上述205中，训练模型的过程就是计算二项逻辑回归模型中的w和b的过程。具体的，可W采用极大似然估计法估计模型的参数，即上式中的W和b。利用极大似然估计法估计模型参数的过程属于现有技术，在此不再赏述。
[0137] 需要说明的是，用于估计上述二项逻辑回归模型的参数的方法并不限于极大似然估计法，例如也可W采用梯度下降法或拟牛顿法估算向量W和b的值，在此不对估计上述二项逻辑回归模型的参数的方法作具体的限制。
[013引图8是本发明实施例提供的一种活动识别系统的结构示意图，如图8所示，该系统可W包括：
[0139] 接收单元801，用于接收用户数据；
[0140] 活动识别单元802,用于通过活动识别模型对上述用户数据进行识别，获取用户活动信息；
[0141] 其中，上述活动识别模型是根据物理空间数据和虚拟空间数据进行训练得到的，上述物理空间数据是从物理空间获取的，上述虚拟空间数据是从虚拟空间获取的。
[0142] 本实施例提供的活动识别系统通过利用由物理空间数据和虚拟空间数据进行训练而建立的活动识别模型来进行活动识别，可W解决物理空间活动标注和数据匿乏的问题，同时也能增加物理空间数据特征的维度，提高活动识别的准确性；
[0143] 在利用活动识别单元802进行活动识别之前，可W预先建立活动识别模型，优选地，如图9所示，该系统还可包括；获取单元803,用于获取物理空间数据和虚拟空间数据；
[0144] 第一分析单元804,用于对上述物理空间数据进行分析，得到包括物理空间特征的物理空间样本数据；
[0145] 第二分析单元805,用于对上述虚拟空间数据进行分析，得到包括虚拟空间特征的虚拟空间样本数据；
[0146] 对齐迁移单元806,用于利用上述物理空间特征和上述虚拟空间特征的共有特征，对上述物理空间样本数据和上述虚拟空间样本数据进行特征对齐或迁移，得到新的样本数据；
[0147] 训练单元807,用于将上述新的样本数据代入训练模型进行训练，得到活动识别模型。
[0148] 本实施例提供的活动识别系统通过引入虚拟空间数据，可W解决物理空间活动标注和数据匿乏的问题，同时也能增加物理空间数据特征的维度，提高活动识别的准确性；此夕F，利用虚拟空间数据中包括的文字信息（例如微博文本），可W提高活动识别的可解释性。
[0149] 举例来说，在一种可行的实施方式中，对齐迁移单元806可W包括：
[0150] 迁移模块，用于将包括相同特征或相同子特征的物理空间样本数据和虚拟空间样本数据进行特征迁移，得到包含物理空间特征和虚拟空间特征的新的样本数据。
[0151] 举例来说，上述迁移模块可W包括：
[0152] 第一判断子模块，用于判断存在与第一物理空间样本数据包括相同特征或相同子特征的第一虚拟空间样本数据；
[0153] 特征迁移子模块，用于当上述第一判断子模块的判断结果为是，将将上述第一虚拟空间样本数据包括的特征迁移到上述第一物理空间样本数

完整全部详细技术资料下载

当前第3页1 2 3 4