1.一种识别物联网终端设备的方法,其特征在于,包括:
获取第一物联网终端设备发送的携带预知四元组的多个数据报文;
获取所述多个数据报文的字段特征,
根据所述预知四元组将所述多个数据报文分组并将每个分组中的数据报文按预设的顺序组织成第一数据流;
根据每个第一数据流中每个报文的字段特征计算每个第一数据流的流量特征;
根据所述每个第一数据流对应的流量特征将所述每个第一数据流分别组成训练集,对所述训练集统一进行模型训练后,生成能根据测试集获得所述测试集对应的未知类别终端设备归属于与所述预知四元组对应的终端类别的概率的分类器模型;
获取第二物联网终端设备发送的携带未知四元组的多个数据报文,所述第二物联网终端设备为未知类别终端设备;
根据所述未知四元组将所述多个数据报文分组并将每个分组中的数据报文组织成第二数据流;
将所述每个第二数据流分别组成测试集,将所述每个测试集输入所述分类器模型对所述每个测试集对应的第二数据流进行预测,获得所述每个测试集中的第二数据流分别属于n个终端类别的n个概率,其中,n为大于等于1的自然数;
将所述n个概率进行比较,根据比较结果确定所述每个测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
2.如权利要求1所述的方法,其特征在于,所述将所述n个概率进行比较,根据比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别的步骤具体包括:
将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
3.如权利要求2所述的方法,其特征在于,所述根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别的步骤具体包括:
当第一终端类别的命中次数大于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第一终端类别;
当第一终端类别的命中次数小于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第二终端类别。
4.如权利要求2所述的方法,其特征在于,还包括:
将所述n个概率分别与预先设置的阈值进行比较,当其中第一概率小于阈值时,确定所述第一概率对应的测试集对应的未知四元组对应的第二物联网终端设备不属于所述预知四元组分别对应的终端类别,使用聚类算法对所有不属于所述预知四元组分别对应的终端类别的测试集进行聚类,将所有不属于所述预知四元组分别对应的终端类别的测试集分别对应m类终端类别中的一类,则所有不属于所述预知四元组分别对应的终端类别的测试集对应的第二物联网终端设备归属于m类终端类别中的与所述测试集对应的终端类别。
5.如权利要求4所述的方法,其特征在于,还包括:
当m类终端类别中每类终端类别内的多个测试集之间的相似性大于第二阈值时,根据所述相似性进行m类终端类别的划分。
6.一种识别物联网终端设备的装置,其特征在于,包括:
第一获取模块,用于获取第一物联网终端设备发送的携带预知四元组的多个数据报文;
第二获取模块,用于获取所述多个数据报文的字段特征,
数据流生成模块,用于根据所述预知四元组将所述多个数据报文分组并将每个分组中的数据报文按预设的顺序组织成第一数据流;
计算模块,用于根据每个第一数据流中每个报文的字段特征计算每个第一数据流的流量特征;
分类器训练模块,用于根据所述每个第一数据流对应的流量特征将所述每个第一数据流分别组成训练集,对所述训练集统一进行模型训练后,生成能根据测试集获得所述测试集对应的未知类别终端设备归属于与所述预知四元组对应的终端类别的概率的分类器模型;
第三获取模块,用于获取第二物联网终端设备发送的携带未知四元组的多个数据报文,所述第二物联网终端设备为未知类别终端设备;
所述数据流生成模块,还用于根据所述未知四元组将所述多个数据报文分组并将每个分组中的数据报文组织成第二数据流;
预测模块,用于将所述每个第二数据流分别组成测试集,将所述每个测试集输入所述分类器模型对所述每个测试集对应的第二数据流进行预测,获得所述每个测试集中的第二数据流分别属于n个终端类别的n个概率,其中,n为大于等于1的自然数;
终端类别确定模块,用于将所述n个概率进行比较,根据比较结果确定所述每个测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
7.如权利要求6所述的装置,其特征在于,所述终端类别确定模块具体用于:
将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,根据所述命中次数的比较结果确定所述测试集对应的未知四元组对应的第二物联网终端设备所属的终端类别。
8.如权利要求7所述的装置,其特征在于,所述终端类别确定模块具体用于:将所述n个概率分别与预先设置的阈值进行比较,当其中一个概率大于阈值时,将该概率对应的测试集对应的终端类别的命中次数加1,比较每个终端类别对应的命中次数,
当第一终端类别的命中次数大于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第一终端类别;
当第一终端类别的命中次数小于第二终端类别的命中次数时,则确定所述测试集对应的未知四元组对应的第二物联网终端设备属于第二终端类别。
9.如权利要求7所述的装置,其特征在于,所述终端类别确定模块还用于:
将所述n个概率分别与预先设置的阈值进行比较,当其中第一概率小于阈值时,确定所述第一概率对应的测试集对应的未知四元组对应的第二物联网终端设备不属于所述预知四元组分别对应的终端类别,使用聚类算法对所有不属于所述预知四元组分别对应的终端类别的测试集进行聚类,将所有不属于所述预知四元组分别对应的终端类别的测试集分别对应m类终端类别中的一类,则所有不属于所述预知四元组分别对应的终端类别的测试集对应的第二物联网终端设备归属于m类终端类别中的与所述测试集对应的终端类别。
10.如权利要求9所述的装置,其特征在于,所述终端类别确定模块还用于:
当m类终端类别中每类终端类别内的多个测试集之间的相似性大于第二阈值时,根据所述相似性进行m类终端类别的划分。