一种工业物联网协议字段智能检测方法及系统与流程

文档序号:36420804发布日期:2023-12-20 10:05阅读:59来源:国知局
一种工业物联网协议字段智能检测方法及系统与流程

本发明属于工业物联网,尤其涉及一种工业物联网协议字段智能检测方法及系统。


背景技术:

1、在工业物联网中,为了实现多样的生产功能,用户需要引入不同的边端异构设备,并基于已知的规范知识进行协议配置,将它们接入网络。然而,大部分工业物联网协议都缺乏开放的规范文档,这严重限制了工业物联网的联通性。

2、因此,获取未知协议的规范知识是实现工业物联网异构边端设备通信的必要需求。协议逆向解析技术被提出来解决这个问题,它旨在基于收集到的协议报文逆向推断未知协议规范,其基础任务是检测出协议报文中各字段的位置、边界和语义。

3、一些现有技术专注于检测取值变化较小的关键字段的位置。例如,序列比对技术被用于比对多条报文,并识别各条报文的公共子序列作为关键字段。一些关键词挖掘算法被引入来提取报文中频繁出现的关键字段。然而,这些方法无法定位出相邻的非关键字段之间的边界,且无法推断字段的语义。

4、还有一些现有技术应用多种算法来提取字段数据特征,并通过分析它们在报文中相邻位置的变化来定位字段位置和边界。然而,一个字段包含多个数据,上述方法忽视了报文中长距离数据之间的联系,导致边界提取结果与真实的协议规范存在偏差,且它们同样无法检测出字段的语义。

5、挖掘数据的长短距离依赖关系对协议字段检测有着重要意义,成为一个亟待解决的挑战。

6、深度学习技术中的双向长短期记忆神经网络和条件随机场模型被广泛用于建模序列数据,并从中挖掘数据的双向长短距离依赖关系,具有良好的可扩展性。此外,大部分未知协议由已知协议扩展而来,对此可以利用该模型从已知协议的报文数据中捕获和学习字段数据的依赖关系,并将其应用于未知协议中的字段检测。

7、基于以上背景,本发明提出一种工业物联网协议字段智能检测方法及系统,为协议逆向解析提供更高效可靠的基础。


技术实现思路

1、本发明以工业物联网未知协议为对象,提出一种工业物联网协议字段智能检测方法及系统,重点关注字段检测的准确率和效率。

2、本发明提出了一种工业物联网协议字段智能检测方法,所述方法包括,

3、步骤1,通过数字转换和裁剪对未知协议报文进行预处理;

4、步骤2,通过特征提取、代表性消息抽取和相似度计算,对经预处理的未知协议报文与已知协议报文进行高相似度识别,获得具有高度相似依赖关系的字段检测模型;

5、步骤3,基于识别成功的高相似度已知协议报文数据,检测未知协议中的字段;其中,

6、在离线阶段,对已知协议,基于双向长短期记忆神经网络和条件随机场模型,提取高度抽象的实体特征并构建智能检测模型库;

7、在在线阶段,对于未知协议,从智能检测模型库中抽取其高相似度已知协议相应的字段检测模型,并使用该字段检测模型检测未知协议代表性消息中的字段作为最终结果。

8、进一步地,在步骤1中,

9、对于未知协议报文数据,以半字节为单位,将二进制数字转换为对应的十六进制字符。

10、进一步地,

11、对于未知协议中的tcp或udp协议,裁剪掉协议数据包中的以太网头部、ip头部和tcp/udp头部;

12、对于非tcp/udp协议,裁剪掉以太网目的地址和源地址。

13、进一步地,步骤2中,

14、基于未知协议文本负载,将协议消息视为消息文档,引入n-gram和tf-idf算法来提取协议特征并得到其特征矩阵。

15、进一步地,

16、假设一个单词的出现仅与其前n-1个单词有关,使用变长n-gram算法对协议消息进行划分,并将由划分产生的协议单词构成的集合视为协议消息语料库,如式(1)、(2)所示:

17、(1),

18、(2),

19、其中表示单词可能出现的概率,表示这个gram在协议消息语料库中出现的次数。

20、进一步地,

21、使用tf-idf算法对使用变长n-gram算法产生的每个单词,分别计算其在协议消息中出现的词频tf、逆文档频率idf和二者的加权,如式(3)、(4)、(5)所示:

22、(3),

23、(4),

24、(5),

25、其中,表示单词在消息中出现的次数,表示消息中段的总数,为协议消息语料库中消息的总数,表示包含的消息数。

26、进一步地,步骤2中,

27、对于未知协议和某类已知协议,从对应的协议消息语料库中随机选取一条消息作为其初始的代表性消息,对于未知协议和该类已知协议的每一条消息,基于变长n-gram和tf-idf算法生成其特征矩阵,然后计算每条消息的特征矩阵和初始代表性消息的特征矩阵之间的余弦相似度,如式(6)所示:

28、(6),

29、其中和表示两个消息,是的特征矩阵,是的特征矩阵。

30、进一步地,

31、计算某协议中所有消息的余弦相似度的均值,并选择余弦相似度与所述均值差值最小的消息作为新的代表性消息;

32、通过重复迭代上述过程,代表性消息不断更新直至不变。

33、进一步地,步骤2中,

34、基于收集到的已知协议消息构建一个已知协议库,如式(7)所示:

35、(7),

36、其中表示每个已知协议类,表示库中的协议数量。

37、进一步地,

38、已知协议库中的已知协议消息根据其所属类别分别存储;

39、新加入的已知协议消息经过代表性信息抽取和分类后不断增量更新已知协议库。

40、进一步地,

41、对于每一类已知协议,使用代表性消息抽取方法从它的消息集合中抽取出其代表性消息,并以此维护一个相应的已知协议代表性消息库,如式(8)所示:

42、(8)。

43、进一步地,

44、对于待识别的未知协议,同样抽取其代表性消息,然后分别计算和每个之间的特征余弦相似度,如式(9)所示:

45、(9)

46、通过式(10)、(11)可以得到已知协议和未知协议中最高的相似度值及其对应的已知协议类:

47、(10),

48、(11),

49、若大于设置的相似度阈值,则认为未知协议的高相似度已知协议类被成功识别,否则不存在可依赖的已知协议。

50、进一步地,步骤3中,

51、采用基于字符的bioes标注方案,对协议消息的字段数据中的每个字符分配一个命名实体标签。

52、进一步地,步骤3中,

53、基于长短期记忆神经网络构建字段智能检测模型,其中将窥视孔连接加入长短期记忆神经网络单元:

54、(12),

55、(13),

56、(14),

57、(15),

58、(16),

59、(17),

60、其中表示函数,代表权重矩阵,代表待检测字段,代表偏差,代表隐藏向量;

61、式(12)中遗忘门决定应丢弃或保留哪些信息;

62、式(13)中输入门用于更新细胞状态;

63、式(14)中将前一层隐藏状态的信息和当前输入的信息传递到函数中去,创造一个新的侯选状态;

64、式(15)中,将前一层的细胞状态与遗忘门向量逐点相乘,如果它们的乘积接近0,意味着在新的细胞状态中,这些信息是需要丢弃掉;然后再将该乘积与输入门的输出值逐点相加,将神经网络发现的新信息更新到细胞状态中去,得到更新后的细胞状态;

65、式(16)、(17)中输出门用来确定下一个隐藏状态的值。

66、进一步地,

67、函数如式(18)所示:

68、(18),

69、函数如式(19)所示:

70、(19),

71、对于输入句子,其预测标签输出分数计算如式(20)所示:

72、(20),

73、其中是标签之间的转移概率矩阵,是双向长短期记忆神经网络网络层的输出矩阵,是一个句子中第个字符预测为标签的得分。

74、进一步地,在步骤3中,

75、在线阶段,选择未知协议的代表性消息作为字段智能检测模型的输入,检测完成后得到未知协议中的字段位置、边界和对应的语义。

76、本发明还提出了一种工业物联网协议字段智能检测系统,通过工业物联网传感节点和设备感知收集数据,经由网络节点将数据上传至网关,服务器从网关中收集未知协议报文并存储至数据库,使用个人电脑远程控制服务器实施权利要求1至16任一项所述的检测方法。

77、本发明提出的工业物联网未知协议的智能字段检测方法及系统,能够充分挖掘协议字段数据之间的双向长短距离依赖关系,提升了对未知协议中字段位置、边界和语义的检测准确率和效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1