基于大数据的缉私案件情报抽取方法与流程

文档序号:21696835发布日期:2020-07-31 22:41阅读:619来源:国知局
基于大数据的缉私案件情报抽取方法与流程
本发明属于基于计算模型的数据处理
技术领域
,具体涉及一种基于大数据的缉私案件情报抽取方法。
背景技术
:在大数据时代背景下,不法分子在进行走私违法犯罪活动的过程中应用的信息化手段也越来越多,交易的相关信息被存储在各种各样的媒体和介质中,具有数据量大,且被隐蔽于不同领域存储器中的特点。具体的数据来源主要包括海关业务数据、公安内部数据、其他行政管理数据和互联网资源。走私犯罪行为普遍会涉及报关单证、运单、舱单、提单和销售合同等文本信息材料,还有走私犯罪分子的基本人员信息、通话记录、资金来往以及相关的线索信息。面对这种长时间跨度的各种数据类型的案件海量复杂信息,海关缉私警察必须从相关材料中快速高效地抽取出与案件有关的有效情报,以及时整理出案件的资金流、货物流、单证流等证据链条,达到帮助迅速梳理案情助力破案的目的。这其中的每一个环节都对大数据时代海关缉私情报的抽取能力提出了硬性要求,对于传统缉私情报工作而言,情报抽取已经构成瓶颈。基于以上分析,有必要构建面向大数据技术背景下的可适用于多层次、广视角的大量缉私案件数据研究的缉私案件情报抽取方法。技术实现要素:本发明针对海关传统缉私情报工作存在的情报抽取瓶颈问题,提出了面向大数据的缉私信息抽取模型,并对该模型在真实案件复盘中的具体应用效果进行验证。为实现上述目的,本发明采用的技术方案为基于大数据的缉私案件情报抽取方法,包含以下步骤:s1:基于缉私案件信息,构建缉私案件的情报要素表达模型;s2:通过自然语言处理技术和深度学习算法模型,实现各类缉私情报要素的自动抽取;s3:结合单据链、资金链和货物链证据链条,实现大数据环境下智能化的缉私情报抽取效果验证。上述步骤s1又具体包括以下步骤:s11:缉私案件的要素表达基于缉私案件的案件特征,数据来源,构建缉私案件的要素表达模型。s12:字符向量化参照上述要素表达模型的组成及其关系,对缉私案事件文本进行情报的要素标注,得到已标注数据集,基于已标注训练集及未标注的案件文本语料,利用产生词向量的相关模型工具对分好词的文本进行无监督训练学习。作为优选,上述产生词向量的相关模型工具使用的是word2vec,用来训练以重新建构语言学之词文本。上述步骤s2中所述深度学习算法模型的建模流程具体包括以下步骤:s21:扩张卷积将卷积神经网络层应用到序列标注问题,对序列向量进行卷积运算,对输入序列做仿射变换,对于其子序列向量xt的输出,其定义为(1)式中:r为卷积半径;⊕为向量链接运算,扩张卷积在普通卷积的滤波器上增加了扩张宽度,当有输入序列向量时,扩张卷积会自动跳过扩张宽度中间所有的输入数据,使得有效输入变得更宽,可以获得更多的输入数据,扩张卷积用于序列标注问题时,子序列向量xt的输出定义为(2)式中:σ为扩张宽度,当σ=1时,扩张卷积同普通的卷积操作一样,而当σ>1时,扩张宽度使得感受野范围更大,由此带来的空洞问题,通过过滤器的平移可以使之加入到卷积运算之中;s22:迭代扩张卷积神经网络利用迭代扩张卷积神经网络预防通过简单的层数叠加使得输出结果存在过度拟合的风险,迭代扩张卷积神经网络多次应用相同的扩张卷积块,每个迭代将最后一层的输出结果作为输入,每次迭代都将重复使用相同的参数;s23:条件随机场条件随机场定义了一系列的二值特征函数,包含转移特征函数和状态特征函数,前者考虑输出变量间的依赖关系,后者考虑输入特征的影响,将所有特征函数加权求和得到每个标注类别的评分,运用规范化因子得到各个标注类别的概率,概率最大的即为当前的标注类别,在观测序列x=(x1,x2,…xn)为x的条件下,线性链条件随机场p=(y|x)的预测序列y=(y1,y2,…yn)取值为y的条件概率的简化表现形式为(3)式中:z(x)为归一化因子;exp为指数函数;wk代表特征函数fk(y,x)对应的权重;k代表定义的特征函数个数;s24:迭代扩张卷积神经网络结合条件随机场将预处理得到的字向量、词向量作为模型的输入,输入的向量经过普通卷积层后输入迭代扩张卷积网络,迭代的块共享一组参数,最终网络层为每个序列输出每个分类的得分,将每个得分序列作为crf层的输入,crf层利用考虑了输出变量依赖关系的转移特征函数对每个标注序列进行评判,进一步优化迭代扩张卷积得出的分类结果。在步骤s24的整个过程中,首先在预处理阶段保留命名实体不被分词拆分,让每个实体作为一个独立词向量输入模型,其次选用迭代扩张卷积神经网络提取鲁棒性更高的特征,然后用dropout随机丢弃网络的一些连接以解决网络层反复迭代可能导致的过拟合,最后用条件随机场对网络层得出的结果进行进一步修正。上述步骤s3中,结合情报评估的五个维度,对情报的可靠性、有效性、时效性、重复性以及紧急程度进行综合评估验证。与现有技术相比,本发明具有以下有益技术效果:(1)本发明以大数据时代在海关缉私工作中的难点为出发点,针对海关传统缉私情报工作存在的瓶颈问题,提出了面向大数据的缉私信息抽取模型,以及对该模型在真实案件复盘中的具体应用效果进行验证。(2)本发明基于时空框架的缉私案件情报要素表达,实现情报自动抽取,有效节省人力物力的投入,应用大数据分析方法对缉私工作产生的积极影响,有效解决缉私情报部门一线办案民警的难点问题。(3)本发明借鉴要素模型、自然语言处理技术,以缉私案件相关的信息为数据源,构建大数据环境下的缉私情报抽取模型,形成一种缉私案件情报自动抽取的缉私情报服务方法,并开展实验验证分析。附图说明图1为深度条件随机场模型流程图;图2为情报要素表达模型;图3为普通卷积与扩张卷积结构图;图4为深度条件随机场信息抽取模型。具体实施方式现结合附图对本发明作进一步详细的说明。不同的公安数据源在知识的丰富性、表达的抽象性、认知的习惯性等方面具有显著的优势互补特性。从数据形式来看,缉私大数据包括文本、语音、图像、视频、音频等五种类型。目前,针对结构化数据的案事件信息抽取相对比较成熟,且容易实现。相比较而言,非结构化的文本、语音、图像、视频和音频等数据的抽取还需要进一步研究。为了能获取案件文本中更多的上下文信息,本发明以文本数据为主构建基于缉私情报要素驱动的深度条件随机场信息抽取模型。建模的流程如图1所示,具体包括:s11:缉私案件的要素表达目前,我国公安信息系统通常按照五要素“人、事、物、组织、地点”进行信息收集、处理和管理。公安业务通常需要回答以下几种类型的基本问题:“警情涉及谁?警情什么时候发生的?警情发生在哪里?涉警行为人做了什么?涉警行为人为什么这么做?与警情有关的物品是什么?案事件造成了什么样的后果?”因此,公安情报可以概括为以案事件为核心的五类基本要素,即时间、地点、人物、物品、事件。其中,时间和地点是人物、物品和事件三类要素存在和演化的基本条件,且具有属性、行为、状态和过程特征。需要说明的是,人物包括组织和虚拟人物。案事件要素关系可以分为概念关系和特征关系两种类型。其中,概念关系是指在同一分类体系中,不同要素所属概念之间的语义关系,包括等同关系、上位关系、下位关系、同位关系和相关关系等。特征关系是不同要素特征之间的关系,例如时间关系、空间关系、属性关系、状态关系、过程关系等。总体上,根据要素的类型、特征及其逻辑关系,案事件的情报要素可以划分为三个层次:概念层、要素层和要素关系层。其中,要素层可以分为三个子层次,包括基本特征(时间、空间、属性、行为)、状态特征和过程特征;要素关系层可以分为两个子层次:概念关系和特征关系。按照案事件要素的层次划分,可以形成不同层级的案事件要素语义单元。情报要素表达模型包括情报要素子模型和情报要素关系子模型,如图2所示。s12:字符向量化为了获取高质量的词向量特征,首先由基层民警对数据资料进行情报的要素标注,标注的要素类别基于本实施例提出的情报要素表达模型,由此得到已标注数据集。基于已标注训练集及未标注的案件文本语料,利用word2vec工具对分好词的文本进行无监督训练学习。s21:扩张卷积将扩张卷积运用于图像分割任务,解决了池化图像增加感受野的同时丢失信息的矛盾,同时不需要增加额外的计算。卷积核为3×3,感受野为3×3的普通卷积结构如图3(a);卷积核大小为3×3,扩张宽度为2的扩张卷积如图3(b)所示,其感受野增加到了5×5。扩张卷积在不损失信息的条件下增大了感受野,因此,将扩张卷积神经网络运用到要素抽取中,来解决要素抽取这类需要较长序列依赖的问题。将卷积神经网络层应用到序列标注问题,实质是对序列向量进行卷积运算,不同于二维的图像卷积操作,在这里相当于对输入序列做仿射变换。对于其子序列向量xt的输出,其定义为(1)式中:r为卷积半径;⊕为向量链接运算。扩张卷积在普通卷积的滤波器上增加了扩张宽度,当有输入序列向量时,扩张卷积会自动跳过扩张宽度中间所有的输入数据,使得有效输入变得更宽,可以获得更多的输入数据。扩张卷积用于序列标注问题时,子序列向量xt的输出定义为(2)式中:σ为扩张宽度,当σ=1时,扩张卷积同普通的卷积操作一样,而当σ>1时,扩张宽度使得感受野范围更大,而由此带来的空洞问题,通过过滤器的平移可以使之加入到卷积运算之中。因此扩张卷积相对于普通卷积能获取文本更多的上下文信息。s22:迭代扩张卷积神经网络利用迭代扩张卷积神经网络可以预防通过简单的层数叠加,使得输出结果存在过度拟合的风险。迭代扩张卷积神经网络多次应用相同的扩张卷积块,每个迭代将最后一层的输出结果作为输入,每次迭代都将重复使用相同的参数,这既可拓宽有效输入宽度又能增强模型泛化能力。s23:条件随机场条件随机场定义了一系列的二值特征函数,包含转移特征函数和状态特征函数,前者考虑输出变量间的依赖关系,后者考虑输入特征的影响。将所有特征函数加权求和得到每个标注类别的评分,运用规范化因子得到各个标注类别的概率,概率最大的即为当前的标注类别。在观测序列x=(x1,x2,…xn)为x的条件下,线性链条件随机场p=(y|x)的预测序列y=(y1,y2,…yn)取值为y的条件概率的简化表现形式为(3)式中:z(x)为归一化因子;exp为指数函数;wk代表特征函数fk(y,x)对应的权重;k代表定义的特征函数个数。s24:迭代扩张卷积神经网络结合条件随机场将预处理得到的字向量、词向量作为模型的输入,输入的向量经过普通卷积层后输入迭代扩张卷积网络,例如,图4中的网络由一个迭代了4次的包含3个的扩张卷积层的块组成,迭代的块共享一组参数。最终网络层为每个序列输出每个分类的得分(即:logits);将每个得分序列作为crf层的输入,crf层利用考虑了输出变量依赖关系的转移特征函数对每个标注序列进行评判,进一步优化迭代扩张卷积得出的分类结果。在整个过程中,首先在预处理阶段保留命名实体不被分词拆分,让每个实体作为一个独立词向量输入模型,其次选用迭代扩张卷积神经网络提取鲁棒性更高的特征,然后用dropout随机丢弃网络的一些连接以解决网络层反复迭代可能导致的过拟合,最后用条件随机场对网络层得出的结果进行进一步修正。s3:缉私情报分析验证本发明将结合情报评估的五个维度(表1),对情报的可靠性、有效性、时效性、重复性以及紧急程度进行综合评估分析。表1情报评估分析矩阵情报评估特征abc实用性针对性强有一定潜力不适用真实性内容真实准确较为可靠不可靠时效性超前预警及时预警无预警、滞后重复性从未出现偶尔出现总是出现紧急程度特重度、重度警情中度警情轻警情需要说明的是,以上具体实施方式的描述并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1