本技术涉及文本数据处理,尤其涉及一种机场安全检查中自动识别风险源的方法以及机场安全检查中自动识别风险源的装置。
背景技术:
1、名词解释:
2、单词嵌入
3、目前已经存在的成功的单词嵌入算法包括:word2vec、glove和fasttext。这些方法使用大型文本集合,并检查每个单词出现的上下文以确定其向量表示。
4、word2vec:使用skip-gram模型训练神经网络以预测句子中单词周围的上下文单词。
5、glove:单词的相似性取决于它们与其他上下文单词出现的频率。该算法训练单词共现计数的简单线性模型。
6、fasttext:facebook的词向量模型,其训练速度比word2vec的训练速度更快,效果又不丢失。
7、句子嵌入
8、除了单词嵌入,还有基于复杂的神经网络架构的句子嵌入算法,可以实现较长的文本进行词向量表示。并且有时在训练期间需要不断标记数据以帮助捕获语义信息和提高训练效果。
9、一旦经过训练,模型就能够获取一个句子并为上下文中的每个单词生成一个向量,以及整个句子的向量。
10、一些常见的句子嵌入技术包括infersent,universal sentence encoder,elmo和bert。
11、文本嵌入
12、在传统的信息检索中,例如:基于大多使用tf-idf等基于单词个数的搜索方法,只是计算单词出现而不考虑句子结构。而基于文本嵌入技术的搜索,将会考虑句子意思。比如“飞机故障”和“航空器抛锚了”这两个句子没有一个单词一样,但是其语义是完全接近的,使用文本嵌入将能够很好的搜索出来。
13、文本嵌入在某些重要方面与传统的矢量表示不同:
14、文本嵌入的向量通常纬度比较低,100~1000。而传统的单次向量纬度可以到5000+。文本嵌入技术将文本编码为低维空间向量,同义词和短语在新的向量空间中表示形式会十分相似。
15、text embedding通常适用于短文本。
16、在机场安全管理活动中,sms系统起着关键作用,用于记录、分析安全事件。在向sms录入安全事件过程中,需要根据事件,关联相关的危险源。而危险源的种类繁多,并且描述并非简洁。因此在录入过程中,关联危险源时,需要在众多危险源查找,现有技术都是通过人工进行录入以及识别,此种方式的缺点为耗时较多并且容易出错。
17、因此,希望有一种技术方案来解决或至少减轻现有技术的上述不足。
技术实现思路
1、本发明的目的在于提供一种通过轻量化文本生成模型进行文本生成的方法来至少解决上述的一个技术问题。
2、本发明提供了下述方案:
3、根据本发明的一个方面,提供一种机场安全检查中自动识别风险源的方法,所述机场安全检查中自动识别风险源的方法包括:
4、获取待识别文字信息;
5、提取所述待识别文字信息的向量信息;
6、获取elasticsearch数据库;
7、根据所述向量信息, 自所述elasticsearch数据库中进行检索,从而识别风险源。
8、可选地,所述机场安全检查中自动识别风险源的方法进一步包括:
9、生成所述elasticsearch数据库。
10、可选地,所述生成所述elasticsearch数据库包括:
11、准备文本数据,所述文本数据包括多个二元组,每个二元组包括危险源信息以及安全隐患信息;
12、获取 doc2vec 模型;
13、根据所述文本数据对所述 doc2vec 模型进行训练,从而获取每个文本数据对应的预设向量信息;
14、将各个所述预设向量信息存储至所述elasticsearch数据库,从而生成所述主elasticsearch数据库。
15、可选地,所述生成所述elasticsearch数据库进一步包括:
16、对所述文本数据通过经过训练的文本生成模型进行扩充,从而获取文本扩充数据;
17、获取 doc2vec 模型;
18、根据所述文本扩充数据对所述 doc2vec 模型进行训练,从而获取每个文本扩充数据对应的预设扩充向量信息;
19、将各个所述预设扩充向量信息存储至所述elasticsearch数据库,从而生成所述辅助elasticsearch数据库。
20、可选地,在所述提取所述待识别文字信息的向量信息之前,所述机场安全检查中基于向量检索技术的自动识别风险源的方法进一步包括:
21、对所述待识别文字信息进行扩充,从而获取扩充文本信息;
22、所述根据所述向量信息, 自所述elasticsearch数据库中进行检索,从而识别风险源包括:
23、根据所述向量信息以及扩充文本信息,自所述主elasticsearch数据库以及辅助elasticsearch数据库中进行检索,从而识别风险源。
24、可选地,所述对所述待识别文字信息进行扩充,从而获取扩充文本信息包括:
25、获取多个经过训练的文本生成模型,其中,各个文本生成模型的参数不同,其中至少一个经过训练的文本生成模型与用于扩充文本数据的经过训练的文本生成模型相同;
26、提取所述待识别文字信息的特征信息;
27、将所述特征信息分别输入至其中一个或多个所述经过训练的文本生成模型,从而获取经过训练的文本生成模型的扩充文本信息。
28、可选地,所述根据所述向量信息以及扩充文本信息,自所述主elasticsearch数据库以及辅助elasticsearch数据库中进行检索,从而识别风险源包括:
29、将所述向量信息输入至所述主elasticsearch数据库,从而获取主elasticsearch数据库输出的与所述向量信息的相似度值最高的风险源标签;
30、将各个扩充文本信息分别输入至所述辅助elasticsearch数据库,从而分别获取辅助elasticsearch数据库输出的与对应输入的所述扩充文本信息的相似度值最高的风险源标签;
31、判断各个所获取的风险源标签是否一致,若是,则选取改风险源标签作为最终风险源标签。
32、可选地,所述根据所述向量信息以及扩充文本信息,自所述主elasticsearch数据库以及辅助elasticsearch数据库中进行检索,从而识别风险源进一步包括:
33、判断各个所获取的风险源标签是否一致,若否,则判断获取主elasticsearch数据库输出的与所述向量信息的相似度值最高的风险源标签的相似度值是否超过第一相似度阈值,若是, 则
34、获取各个辅助elasticsearch数据库输出的与对应输入的所述扩充文本信息的相似度值最高的风险源标签所对应的相似度值;
35、获取各个相似度值的平均值是否大于第二相似度阈值,若是, 则
36、获取主elasticsearch数据库输出的与所述向量信息的相似度值最高的风险源标签作为最终风险源标签。
37、可选地,所述根据所述向量信息以及扩充文本信息,自所述主elasticsearch数据库以及辅助elasticsearch数据库中进行检索,从而识别风险源进一步包括:
38、判断各个所获取的风险源标签是否一致,若否,则判断获取主elasticsearch数据库输出的与所述向量信息的相似度值最高的风险源标签的相似度值是否超过第一相似度阈值,若否, 则
39、获取各个辅助elasticsearch数据库输出的与对应输入的所述扩充文本信息的相似度值最高的风险源标签;
40、获取各个elasticsearch数据库输出的风险源标签中,是否有一个风险源标签的数量超过预设标签数量,若是,则
41、以超过预设标签数量的风险源标签作为最终风险源标签。
42、本技术还提供了一种机场安全检查中自动识别风险源的装置,所述机场安全检查中自动识别风险源的装置包括:
43、待识别文字信息获取模块,所述待识别文字信息获取模块用于获取待识别文字信息;
44、向量信息提取模块,所述向量信息提取模块用于提取所述待识别文字信息的向量信息;
45、elasticsearch数据库获取模块,所述elasticsearch数据库获取模块用于获取elasticsearch数据库;
46、识别模块,所述识别模块用于根据所述向量信息, 自所述elasticsearch数据库中进行检索,从而识别风险源。
47、本技术通过elasticsearch数据库从而实现机场安检中风险源的自动识别,从而能够更好地落实安全风险分级管控和隐患排查治理双重预防工作机制"以及基本逻辑关系、功能定位和运转流程,推动sms与双重预防机制的有机融合,更加有效地防范化解安全风险。通过隐患与危险源的一一对应,及时发现因违规或风险管控措施失效或弱化演变的各类隐患,坚持依法合规、务实高效、闭环管理的原则,围绕事前预防,推动从源头上防范风险、从根本上消除安全隐患。