面向中文威胁报告的ATT&CK模型映射方法及装置

文档序号：35460312发布日期：2023-09-15 21:43阅读：61来源：国知局

本发明涉及计算机信息，尤其涉及一种面向中文威胁报告的att&ck模型映射方法及装置。

背景技术：

1、开源威胁报告中包含最新的攻击手段、攻击线索、攻击踪迹等信息，对构建基于主动防御的威胁狩猎、态势感知具有重要意义。报告中的威胁信息主要采用自然语言描述的形式对攻击行为细节进行呈现，同时也会流露出作者对攻击者更高层面的意图和动机的揣测和思考。如果能从大量威胁报告中提炼攻击者意图及其所使用的攻击策略，结合大数据分析优势，能够为积极主动的防御实施提供数据支撑，这是一个研究热点。由专业人员和社区进行维护和打造的att&ck知识库，是网络空间安全领域十分重要的开源知识库。att&ck威胁框架中描述了详细的攻击技术和高可信的威胁知识，它能够桥接攻击者行为与攻击者意图，填充威胁报告和攻击者行为之间的语义联系。从中文开源威胁报告中提取攻击行为，再通过att&ck映射到对应的战术、技术和程序(ttp)，能够清晰呈现攻击者行为链条，辅助发现攻击组织、攻击者的攻击意图，帮助安全分析师开展防御提供针对性决策依据。

2、现有技术中，面向开源威胁报告的att&ck映射方法，主流技术涉及三类方法：基于统计、基于早期机器学习、和基于深度学习的方法。

3、但存在以下问题：

4、首先，现有技术大多解析的都是英文开源威胁报告，而面向无论是在语言表达风格上还是在词汇使用习惯上都与英文存在巨大差异的中文开源威胁报告，上述方法均不适用；其次，中文开源情报体系发展相对英美发展落后，这导致高质量有标注的网安训练数据量相对与英文标注数据要少很多，因此使用机器学习和深度学习算法训练后的att&ck映射模型泛化能力差；最后，开源威胁报告具有领域性、专业性的特点，通用的中文自然语言处理工具不足以很好的支撑相关研究。随着我国面对网络威胁日益剧增，中文开源威胁报告发布途径日益增多，挖掘中文开源威胁报告中暗含的攻击者意图需求将会扩大。

技术实现思路

1、为克服相关技术中存在的问题，本公开提供一种面向中文威胁报告的att&ck模型映射方法及装置。

2、本说明书一个或多个实施例提供了一种面向中文威胁报告的att&ck模型映射方法，包括以下步骤：

3、获取威胁报告文本，通过中文开源自然语言处理工具对威胁报告文本分析，并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注；

4、基于预设的语义角色标签与攻击向量维度的映射关系表，抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段，将文本片段拼接成一个新的文本代表攻击向量；其中，攻击向量为表征攻击行为主体、意图、方式、动机以及时机特征的向量；

5、将攻击向量输入至att&ck映射模型，获得对应的ttp标签，根据ttp标签确定解除威胁的ttp决策，其中

6、att&ck映射模型为基于bm25检索算法的模型，所述att&ck映射模型为通过计算带ttp标签的攻击向量数据中出现的词汇与每个带ttp标签的攻击向量的相关性程度。

7、进一步的，所述获取威胁报告文本，通过经过网安领域知识增强后的中文开源自然语言处理工具对威胁报告文本分析，并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注，具体为：

8、通过中文开源自然语言处理工具对威胁报告文本进行分词和词性标注；

9、根据词性标注确定动词短语，并确定动词短语是否包含攻击动作词，如果包含则转下一步骤，若不包含，则丢弃该威胁文本；

10、通过经过网安领域知识增强后的中文开源自然语言处理工具对威胁报告文本进行句法依存分析和语义角色标注。

11、进一步的，基于预设的语义角色标签与攻击向量维度的映射关系表，抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段，将文本片段拼接成一个新的文本代表攻击向量，具体为：

12、确定威胁报告文本各单句中各词汇的语义角色标签，并根据构建的语义角色标签与攻击向量维度的映射关系表中的映射关系，确定威胁报告文本各单句中带有与攻击向量维度相对应的语义角色标签所对应的第一文本片段；

13、将带有与攻击向量维度相对应的语义角色标签所对应的第一文本片段拼接成文本序列；

14、对文本序列进行分词处理，获得各第二文本片段，根据预设的映射关系，得到各第二文本片段代表威胁信息的攻击向量，且攻击向量按照威胁报告文本各单句的语序进行排列；其中，攻击向量的长度等同于攻击向量中出现的第二文本片段的个数。

15、进一步的，所述输入至att&ck映射模型中的攻击向量为：

16、根据预设的攻击向量个数获取条件顺序获取预设个数的攻击向量输入至att&ck映射模型。

17、进一步的，所述att&ck映射模型中设置一个决策机制，其核心公式如下：

18、trtp＝lookup({t1，t2，...tn})

19、其中，n代表输入的攻击向量个数，变量tn代表att&ck模型对第n个攻击向量预测的ttp标签，函数lookup用于识别ttps标签，并赋值给变量tttp。

20、进一步的，还包括对中文开源自然语言处理工具的领域信息强化的方法包括步骤：

21、采集中文开源威胁报告和att&ck官网上关于攻击者战略、战术、技术、防御措施及其攻击实例的描述文本；

22、采用文本预处理方法对中文开源威胁报告和att&ck描述文本数据清洗，提取与网络攻击相关的威胁报告文本；

23、使用中文开源自然语言处理工具对威胁文本进行词法、句法、语义三个层面分析，提取描述攻击动作的动词词汇，构建成攻击动作词表；

24、使用中文开源自然语言处理工具对威胁文本进行词法、句法、语义三个层面分析，提取与攻击动作相关的攻击主体词汇，构建成攻击主体词表；

25、使用攻击动作词表和攻击主体词表拓展中文开源自然语言处理能力，获得面向中文开源威胁情报的增强型自然语言处理工具。

26、进一步的，所述攻击动作词表构建过程具体为：

27、步骤s101、采用中文开源自然语言处理工具对威胁文本进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注；

28、步骤s102、抽取威胁文本中满足词性标签为动词的词汇，依存句法结构中与名词关联的词汇、及语义角色为动作成分的词汇，作为攻击动作候选词汇；

29、步骤s103、计算各攻击动作候选词汇在威胁情报语料中的tfidf值，并筛选tfidf值高的攻击动作候选加入到攻击动作词表中，通过人工校验的方式构建攻击动作词表。

30、进一步的，所述攻击主体词表构建过程具体为：

31、步骤s201、采用中文开源自然语言处理工具对威胁文本进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注；

32、步骤s202、抽取威胁文本中满足词性标签为名词的词汇，依存句法结构中与名词关联的词汇以及语义角色为动作的实施角色和接收角色的词汇，并作为攻击主体候选词汇；

33、步骤s203、抽取威胁文本中包含攻击主体候选词的名词性短语，其中名词性短语抽取规则包含名词，名词+名词，数词+名词和/或形容词+名词的形式；

34、步骤s204、计算各攻击主体候选词汇在威胁情报语料中的idf值，并筛选idf值高的攻击主体候选词汇加入到攻击主体词表中，并通过人工校验的方式构建攻击主体词表。

35、本说明书一个或多个实施例提供了一种面向中文威胁报告的att&ck模型映射装置，其特征在于，包括：

36、获取分析模块：用于获取威胁报告文本，通过中文开源自然语言处理工具对威胁报告文本分析，并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注；

37、攻击向量确定模块：基于预设的语义角色标签与攻击向量维度的映射关系表，抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段，将文本片段拼接成一个新的文本代表攻击向量；其中，攻击向量为表征攻击行为主体、意图、方式、动机以及时机特征的向量；

38、决策确定模块：将攻击向量输入至att&ck映射模型，获得对应的ttp标签，根据ttp标签确定解除威胁的ttp决策；其中，

39、att&ck映射模型为基于bm25检索算法的模型，所述att&ck映射模型为通过计算带ttp标签的攻击向量数据中出现的词汇与每个带ttp标签的攻击向量的相关性程度。

40、进一步的，所述攻击向量确定模块具体执行以下操作：

41、确定威胁报告文本各单句中各词汇的语义角色标签，并根据构建的语义角色标签与攻击向量维度的映射关系表中的映射关系，确定威胁报告文本各单句中带有与攻击向量维度相对应的语义角色标签所对应的第一文本片段；

42、将带有与攻击向量维度相对应的语义角色标签所对应的第一文本片段拼接成文本序列；

43、对文本序列进行分词处理，获得各第二文本片段，根据预设的映射关系，得到各第二文本片段代表威胁信息的攻击向量，且攻击向量按照威胁报告文本各单句的语序进行排列；其中，攻击向量的长度等同于攻击向量中出现的第二文本片段的个数。

44、本发明，通过中文开源自然语言处理工具对威胁报告文本进行词法、句法、语义三个层面分析，并基于预设的语义角色标签与攻击向量的映射关系，根据确定的语义角色标签获得代表威胁行为的攻击向量，最后挖掘攻击向量与att&ck之间的关联特征，完成att&ck映射，获得对应的威胁报告文本的ttp标签，从而根据ttp标签确定解除威胁的ttp决策。

45、本发明以att&ck威胁框架为核心，对海量非结构化中文威胁报告进行深度分析，可以帮助安全分析师精准定位攻击相关主题报告，过滤无关、冗余信息获取，聚焦核心威胁信息；该发明的持续推广可以为提前干扰和反制对手入侵提供决策依据，间接提高对手攻击成本，降低对手攻击的效率和成功率。从整体上提升了既有安全产品及服务体系的完整性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：仇晶高成亮陈俊君汤菲邢家旭田志宏孙彦斌李默涵陈荣融郑东阳胡铭皓倪晓雅肖千龙
技术所有人：广州大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。