一种报文解析方法及装置、电子设备、计算机存储介质与流程

文档序号:26007481发布日期:2021-07-23 21:26阅读:64来源:国知局
一种报文解析方法及装置、电子设备、计算机存储介质与流程
本申请涉及报文解析
技术领域
,特别涉及一种报文解析方法及装置、电子设备、计算机存储介质。
背景技术
:由于银行间分别通过各自的标准进行电传通讯,存在不安全、不统一等问题,所以15个国家239家银行组建一个合作组织以便自动化电传,该组织成为环球同业银行金融电讯协会(societyworldwideinter-financialtelecommunication,swift)。并且,该组织定义了一种统一格式的报文进行传输,称为swift报文。在反洗钱监测等应用场景下,需要对swift报文进行解析从swift报文中提取出关键词汇。现有主要通过预设匹配规则,然后通过swift报文与预设匹配规则进行匹配,从swift报文中提取出关键词汇。但是由于对一个实体会对应有多个关键词汇,而通常会设置有多个需求提取的实体,例如,对于国家这一实体,由于存在上百个国家,因此会对应有上百个关键词汇,因此采用预设规则匹配的方式,存在准确性、效率较低的问题。技术实现要素:基于上述现有技术的不足,本申请提供了一种报文解析方法及装置、电子设备、计算机存储介质,以解决现有技术准确性、效率较低的问题。为了实现上述目的,本申请提供了以下技术方案:本申请第一方面提供了一种报文解析方法,包括:获取待解析报文;对所述待解析报文中的目标栏位中的文本进行预处理,得到多个待解析语句;其中,所述目标栏位指代预先分析出的,所述待解析报文所属类型的报文中可记录目标实体的栏位;分别将每个所述待解析语句中的单词转换成词向量,得到每个所述待解析语句对应的词向量集合;对每个所述待解析语句,将所述待解析语句对应的词向量集合输入预先训练好的解析模型中,通过所述解析模型预测所述待解析语句中的各个单词的属性,得到所述待解析语句对应的实体标识队列;其中,所述实体标识队列中的每种实体标识对应一种属性;所述分析模型包括双向神经网络模型以及条件随机场模型;所述分析模型利用训练得到的粗糙的分析模型对原始语料进行标注得到的训练集进行训练得到;基于所述实体标识队列,从所述待解析语句中查找出所述待解析语句中包含的各个目标实体。可选地,在上述的报文解析方法中,所述对所述待解析报文中的目标栏位中的文本进行预处理,得到多个待解析语句,包括:利用预设正则规则对所述待解析报文中的目标栏位中的文本进行格式化;基于条件随机场模型,对格式化后的所述目标栏位中的文本中,长度大于预设长度的句子进行拆分,得到多个短语句;将所述多个短语句和所述目标栏位中的文本中未拆分的句子,确定为所述待解析语句。可选地,在上述的报文解析方法中,所述对所述待解析报文中的目标栏位中的文本进行预处理,得到多个待解析语句之后,还包括:对每个所述待解析语句进行分词,得到每个所述语句对应的单词;基于语言模型,对每个所述语句对应的单词中的粘连词进行拆分。可选地,在上述的报文解析方法中,所述解析模型的训练方法,包括:构建小批量的已标注属性的粗糙训练集;利用所述粗糙训练集对初始分析模型进行训练,得到粗糙分析模型;其中,所述初始分析模型包括初始的双向神经网络模型以及初始的条件随机场模型;将所述粗糙分析模型作为当前中间模型;利用所述当前中间模型对原始语料进行属性预测,得到当前初始训练集;对所述当前初始训练集进行校验,得到当前最终训练集;利用所述当前最终训练集对所述当前中间模型进行训练,得到当前的已训练中间模型;计算所述当前的已训练中间模型的第一评估指标以及第二评估指标;其中,所述第一评估指标为精确率与召回率的调和值,且精确率与召回率的权重相同;所述第二评估指标为精确率与召回率的调和值,且召回率的权重大于精确率的权重;基于所述第一评估指标和所述第二评估指标,从所有已训练中间模型中选取出最优的模型,作为最新的所述当前中间模型;分别将最新的所述当前中间模型的第一评估指标和第二评估指标与对应的阈值进行对比,评估最新的所述当前中间模型是否合格;若评估出最新的所述当前中间模型不合格,则针对最新的所述当前中间模型,返回执行所述利用所述当前中间模型对原始语料进行属性预测,得到当前初始训练集;若评估出最新的所述当前中间模型合格,则将最新的所述当前中间模型确定为训练好的所述解析模型。本申请第二方面提供了一种报文解析装置,包括:获取单元,用于获取待解析报文;预处理单元,用于对所述待解析报文中的目标栏位中的文本进行预处理,得到多个待解析语句;其中,所述目标栏位指代预先分析出的,所述待解析报文所属类型的报文中可记录目标实体的栏位;转换单元,用于分别将每个所述待解析语句中的单词转换成词向量,得到每个所述待解析语句对应的词向量集合;解析单元,用于对每个所述待解析语句,将所述待解析语句对应的词向量集合输入预先训练好的解析模型中,通过所述解析模型预测所述待解析语句中的各个单词的属性,得到所述待解析语句对应的实体标识队列;其中,所述实体标识队列中的每种实体标识对应一种属性;所述分析模型包括双向神经网络模型以及条件随机场模型;所述分析模型利用训练得到的粗糙的分析模型对原始语料进行标注得到的训练集进行训练得到;查找单元,用于基于所述实体标识队列,从所述待解析语句中查找出所述待解析语句中包含的各个目标实体。可选地,在上述的报文解析装置中,所述预处理单元,包括:格式化单元,用于利用预设正则规则对所述待解析报文中的目标栏位中的文本进行格式化;句子拆分单元,用于基于条件随机场模型,对格式化后的所述目标栏位中的文本中,长度大于预设长度的句子进行拆分,得到多个短语句;第一确定单元,用于将所述多个短语句和所述目标栏位中的文本中未拆分的句子,确定为所述待解析语句。可选地,在上述的报文解析装置中,还包括:分词单元,用于对每个所述待解析语句进行分词,得到每个所述语句对应的单词;单词拆分单元,用于基于语言模型,对每个所述语句对应的单词中的粘连词进行拆分。可选地,在上述的报文解析装置中,还包括模型训练单元,其中,所述模型训练单元,包括:构建单元,用于构建小批量的已标注属性的粗糙训练集;第一训练单元,用于利用所述粗糙训练集对初始分析模型进行训练,得到粗糙分析模型;其中,所述初始分析模型包括初始的双向神经网络模型以及初始的条件随机场模型;第二确定单元,用于将所述粗糙分析模型作为当前中间模型;预测单元,用于利用所述当前中间模型对原始语料进行属性预测,得到当前初始训练集;校验单元,用于对所述当前初始训练集进行校验,得到当前最终训练集;第二训练单元,用于利用所述当前最终训练集对所述当前中间模型进行训练,得到当前的已训练中间模型;计算单元,用于计算所述当前的已训练中间模型的第一评估指标以及第二评估指标;其中,所述第一评估指标为精确率与召回率的调和值,且精确率与召回率的权重相同;所述第二评估指标为精确率与召回率的调和值,且召回率的权重大于精确率的权重;挑选单元,用于基于所述第一评估指标和所述第二评估指标,从所有已训练中间模型中选取出最优的模型,作为最新的所述当前中间模型;评估单元,用于分别将最新的所述当前中间模型的第一评估指标和第二评估指标与对应的阈值进行对比,评估最新的所述当前中间模型是否合格;返回单元,用于在所述评估单元评估出最新的所述当前解析模型不合格时,针对最新的所述当前中间模型,返回所述预测单元执行所述利用所述当前中间模型对原始语料进行属性预测,得到当前初始训练集;第三确定单元,用于在所述评估单元评估出最新的所述当前中间模型合格时,将最新的所述当前中间模型确定为训练好的所述解析模型。本申请第三方面提供了一种电子设备,包括:存储器和处理器;其中,所述存储器用于存储程序;所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的报文解析方法。本申请第四方面提供了一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的报文解析方法。本申请提供的一种报文解析方法,通过获取待解析报文,然后对所述待解析报文中的目标栏位中的文本进行预处理,得到多个待解析语句,并分别将每个待解析语句中的单词转换成词向量,得到每个待解析语句对应的词向量集合。对每个待解析语句,将待解析语句对应的词向量集合输入预先训练好的解析模型中,通过解析模型预测所述待解析语句中的各个单词的属性,得到待解析语句对应的实体标识队列。其中,实体标识队列中的每种实体标识对应一种属性,从而基于分析模型,可以快速且准确的得各个单词的属性,进而可以根据属性抽取出目标实体。并且,分析模型包括双向神经网络模型以及条件随机场模型,且分析模型利用训练得到的粗糙的分析模型对原始语料进行标注得到的大量训练集进行训练得到,从而保证了训练得到较优的分析模型,进而保证输出结果的准确性,最后基于实体标识队列,从待解析语句中查找出待解析语句中包含的各个目标实体。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例提供的一种解析模型的训练方法的流程图;图2为本申请另一实施例提供的一种报文解析方法的流程图;图3为本申请另一实施例提供的一种文本预处理的流程图;图4为本申请另一实施例提供的一种拆分粘连词的框架示意图;图5为本申请另一实施例提供的基于实体标识队列查找目标实体的示例的示意图;图6为本申请另一实施例提供的一种报文解析装置的结构示意图;图7为本申请另一实施例提供的一种预处理单元的结构示意图;图8为本申请另一实施例提供的一种模型训练单元的结构示意图;图9为本申请另一实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本申请公开了提供了一种报文解析方法,以解决现有技术对于报文解析不够准确的问题。需要说明的是,本申请提供的报文解析方法基于预先训练好的解析模型实现。所以为了实现本申请提供的报文解析方法需要预先训练好解析模型。可选地,为了实现本申请实施例提供的报文解析方法,本申请实施例提供了一种解析模型的训练方法,如图1所示,具体包括以下步骤:s101、构建小批量的已标注属性的粗糙训练集。需要说明的是,由于在初始阶段是不存在任何标注属性的数据的,而训练模型需要大量的标注数据,即已标注属性的语料。而完全通过人为进行标注的方式,获得大量的标注数据,需要花费大量的人力和时间,因此在本申请实施例中,通过一些简单的标注技术手段,如根据预设规则进行匹配并打上批注,以及人工的方式,获得小批量的已标注属性的粗糙训练集。然后,基于粗糙训练集训练出的模型来得到大量的标注数据。s102、利用粗糙训练集对初始分析模型进行训练,得到粗糙分析模型。其中,初始分析模型包括初始的双向神经网络模型以及初始的条件随机场模型。双向神经网络模型可以采用bilstm,条件随机场模型则为基于条件随机场算法(conditionalrandomfieldalgorithm,crf)的模型。s103、将粗糙分析模型作为当前中间模型。s104、利用当前中间模型对原始语料进行属性预测,得到当前初始训练集。具体的,将原始语料输入当前中间模型中,通过当前中间模型预测各个原始语料的属性,并根据当前中间模型预测的属性为各个原始语料条件标注,从而得到大量的标注的数据,即得到当前初始训练集。需要说明的是,由于当前中间模型为未训练好的模型,所以其所输出的结果的准确性无法保证,因此在执行步骤s104之后执行步骤s105。s105、对当前初始训练集进行校验,得到当前最终训练集。具体的,将当前初始训练集推送给业务人员进行核对。相应的,可以响应业务人员的修改操作,对初始训练集进行修改,得到当前最终训练集。可选地,在标注以及校验过程中,可以制定一个标注标准,以能得到统一的标注标准的数据。s106、利用当前最终训练集对当前中间模型进行训练,得到当前的已训练中间模型。可选地,在对初始分析模型进行训练时,可以采用网格搜索的方式进行训练。s107、计算当前的已训练中间模型的第一评估指标以及第二评估指标。其中,第一评估指标为精确率与召回率的调和值,且精确率与召回率的权重相同。第二评估指标为精确率与召回率的调和值,且召回率的权重大于精确率的权重。s108、基于第一评估指标和第二评估指标,从所有已训练中间模型中选取出最优的模型,作为最新的当前中间模型。其中,具体可以是基于各个已训练中间模型的第一评估指标和第二评估指标的和,或者是加权平均值等进行选取。具体方式可以根据对精准率和召回率的要求进行设定。s109、分别将最新的当前中间模型的第一评估指标和第二评估指标与对应的阈值进行对比,评估最新的当前中间模型是否合格。需要说明的是,若评估出最新的当前中间模型不合格,则针对最新的当前中间模型返回执行步骤s104。由于最新的当前中间模型是经过当前最终训练集训练得到的最优的,所以输出结果是最准确的,但是还未达到要求,所以可以将针对最新的当前中间模型,返回去构造更加准确的初始训练集。若评估当前解析模型合格,则步骤s110。s109、将最新的当前中间模型确定为训练好的解析模型。可选地,在利用最终训练集对初始分析模型进行训练,得到训练好后的分析模型之后,具体可以是在后续使用解析模型的过程中,还可以进一步包括:计算解析模型的第二评估指标,并判断第二评估指标是否大于预设阈值。其中,第二评估指标为精确率与召回率的调和值,且召回率的权重大于精确率的权重。并且若判断出第二评估指标未大于预设阈值,则对解析模型进行优化。基于上述训练好的解析模型,本申请实施例提供了一种报文解析方法,如图2所示,包括以下步骤:s201、获取待解析报文。需要说明的是,本申请实施例中,待解析报文主要指的是环球同业银行金融电讯协会报文(societyworldwideinter-financialtelecommunication,swift),即swift报文。一份swift报文主要由报头、正文、报尾组成,并且还会标明发报银行和收报银行等。s202、对待解析报文中的目标栏位中的文本进行预处理,得到多个待解析语句。其中,目标栏位指代预先分析出的,待解析报文所属类型的报文中可记录目标实体的栏位。实体指的是文本中具体由特定意义或者指代性强的实体,例如,对公客户、国家、船只、港口、银行等。具体的,可以预先设定好需要抽取的词汇,即设定好目标实体。例如,如下表1所示的,设定好十个目标实体:对公客户、国家、船只、港口、银行、个人、非国家实体、bic、商品、分行或分支。表1要素类型实体简称描述1对公客户cocompany2国家ctrycountry3船只shipship4港口portport5银行bnkbank6个人persperson7非国家实体nonnon-country8bicbicbankindentifiercode9商品gdsgoods10分行或分支brbranch需要说明的是,也可以是分别将表1中的10个实体中的一个或多个目标实体,去执行本申请提供的方案,即分别针对一个或多个上述的实体,去训练解析模型,然后使用相应的解析模型从报文中抽取出相应的实体。由于一个解析模型只针对少量的目标实体,所以得到的结果可以更加准确。在明确需要从报文中抽取出哪些实体后,逐一对比报文中的栏位,确定出哪些栏位会有设定好的目标实体,哪些栏位需要通过解析模型提取其中的目标实体,从而确定出目标栏位,以便准确地从报文中识别出目标实体,而不需要遍历所有的栏位。由于,解析模型是分别对待解析报文中的各个句子进行处理进行解析的,对待解析报文中的目标栏位中的文本进行预处理,例如清洗,句子分割等,以得到解析模型可处理的多个待解析语句。可选地,可以根据标点符号,提取出目标栏位中的文本中的各个句子,得到多个待解析语句。可选地,本申请另一实施例中,步骤s202的一种具体实施方式,如图3所示,具体包括以下步骤:s301、利用预设正则规则对待解析报文中的目标栏位中的文本进行格式化。s302、基于条件随机场模型,对格式化后的目标栏位中的文本中,长度大于预设长度的句子进行拆分,得到多个短语句。需要说明的是,由于在对报文进行分析时,发现报文中由于标点符号使用不规范等问题,存在过长的句子,所以需要将这样的句子拆分。所以仅根据标点符号并不能很好的进行句子拆分,因此本申请实施例中条件随机场模型进行拆分。可选地,可以确定出目标栏位中的文本中句子长度大于预设长度的句子,然后通过条件随机场模型,来考虑每个单词的上下位信息,查找出属于句子开头的单词,并从属于句子开头的单词处进行句子进行拆分。s303、将多个短语句和目标栏位中的文本中未拆分的句子,确定为待解析语句。具体的,对于长度相对合理的句子,则可以直接根据标点符号,从目标栏位中的文本中提取出来,不需要进行拆分,然后与步骤s302拆分得到的短语句共同组成待解析语句。可选地,由于文本中还可能由于拼写错误、单词被拆分等原因,而存在错别字,所以对待解析报文中的目标栏位中的文本进行预处理时,还可以包括对单词的纠正。可选地,在本申请另一实施例中,在执行步骤s202之后,还可以进一步包括:对每个待解析语句进行分词,得到每个语句对应的单词,并基于语言模型,对每个语句对应的单词中的粘连词进行拆分。需要说明的是,在对报文中的文本进行分析时,发现报文中存在数词、量词等词语的粘连问题,比如“usd1,200,78set”,所以需要对粘连词进行拆分,以能保证最终解析结果的准确性。可选地,如图4所示,为了能提升拆分的效率和准确性,本申请实施例中,还基于领域词典构造前缀搜索树,并与预设规则进行配合,快速定位出文本中的粘连词,然后通过语言模型进行拆分。s203、分别将每个待解析语句中的单词转换成词向量,得到每个待解析语句对应的词向量集合。具体的,在得到待解析语句后,分别对每个待解析语句进行分词,得到每个待继续语句对应的单词集合,然后分别将每个待继续语句对应的单词集合换成词向量,得到每个待解析语句对应的词向量集合。s204、对每个待解析语句,将待解析语句对应的词向量集合输入预先训练好的解析模型中,通过解析模型预测待解析语句中的各个单词的属性,得到待解析语句对应的实体标识队列。其中,实体标识队列中的每种实体标识对应一种属性。需要说明的是,不属于目标实体的单词的属性对应的实体标识是相同的,即可以认为不属于目标实体的单词的属性是相同的。而不同的目标实体的属性可以是相同的,也可以是不同的,因此所对应的实体标识也是相同或不同的。分析模型包括双向神经网络模型以及条件随机场模型。分析模型利用训练得到的粗糙的分析模型对原始语料进行标注得到的训练集进行训练得到。具体的,解析模型对一个待解析语句的词向量集合进行属性预测,得到各个单词的属性的对应的实体标识组成的实体标识队列。s205、基于实体标识队列,从待解析语句中查找出待解析语句中包含的各个目标实体。具体的,从待解析语句中查找出,实体标识队列中属于目标实体对应的实体标识所对应的单词,从而得到待解析语句中包含的各个目标实体,进而最终得到待解析报文中的所有的目标实体。例如,如图5所示,待解析语句为:“/chinaconstructionbank,jianguoroad,shanghai,china”。得到实体标识队列为“ob-bnki-bnki-bnkooooooob-ctry”。其中,实体标识“o”指代不属于目标实体的单词的对应的实体标识。所以,提取出的实体为公司实体:“chinaconstructionbank”,和国家实体:“china”。根据该例子可以看出,可以是多个单词共同组成一个实体,如公司实体:“chinaconstructionbank”,是由三个单词组成的。此时各个单词对应的有相同或者同一类实体标识,如上述的三个单词对应的实体标识的后缀都是“bnk”。当然,也可以是一个单词就是一个实体,如“china”。具体的,在得到各个目标实体后,可以将各个目标实体与预设名单进行匹配评分,并基于得到的分值评估待解析报文所对应的交易是否属于洗钱行为。本申请实施例提供的一种报文解析方法,通过获取待解析报文,然后对所述待解析报文中的目标栏位中的文本进行预处理,得到多个待解析语句,并分别将每个待解析语句中的单词转换成词向量,得到每个待解析语句对应的词向量集合。对每个待解析语句,将待解析语句对应的词向量集合输入预先训练好的解析模型中,通过解析模型预测所述待解析语句中的各个单词的属性,得到待解析语句对应的实体标识队列。其中,实体标识队列中的每种实体标识对应一种属性,从而基于分析模型,可以快速且准确的得各个单词的属性,进而可以根据属性抽取出目标实体。并且,分析模型包括双向神经网络模型以及条件随机场模型,且分析模型利用训练得到的粗糙的分析模型对原始语料进行标注得到的大量训练集进行训练得到,从而保证了训练得到较优的分析模型,进而保证输出结果的准确性,最后基于实体标识队列,从待解析语句中查找出待解析语句中包含的各个目标实体。本申请另一实施例提供了一种报文解析装置,如图6所示,包括以下单元:获取单元601,用于获取待解析报文。预处理单元602,用于对待解析报文中的目标栏位中的文本进行预处理,得到多个待解析语句。其中,目标栏位指代预先分析出的,待解析报文所属类型的报文中可记录目标实体的栏位。转换单元603,用于分别将每个待解析语句中的单词转换成词向量,得到每个待解析语句对应的词向量集合。解析单元604,用于对每个待解析语句,将待解析语句对应的词向量集合输入预先训练好的解析模型中,通过解析模型预测待解析语句中的各个单词的属性,得到待解析语句对应的实体标识队列;其中,实体标识队列中的每种实体标识对应一种属性;分析模型包括双向神经网络模型以及条件随机场模型;分析模型利用训练得到的粗糙的分析模型对原始语料进行标注得到的训练集进行训练得到。查找单元605,用于基于实体标识队列,从待解析语句中查找出待解析语句中包含的各个目标实体。可选地,在本申请另一实施例提供的报文解析装置中,预处理单元,如图7所示,包括以下单元:格式化单元701,用于利用预设正则规则对待解析报文中的目标栏位中的文本进行格式化。句子拆分单元702,用于基于条件随机场模型,对格式化后的目标栏位中的文本中,长度大于预设长度的句子进行拆分,得到多个短语句。第一确定单元703,用于将多个短语句和目标栏位中的文本中未拆分的句子,确定为待解析语句。可选地,在本申请另一实施例提供的报文解析装置中,还包括:分词单元,用于对每个待解析语句进行分词,得到每个语句对应的单词。单词拆分单元,用于基于语言模型,对每个语句对应的单词中的粘连词进行拆分。可选地,在本申请另一实施例提供的报文解析装置中,还包括模型训练单元。其中,模型训练单元,如图8所示,包括:构建单元801,用于构建小批量的已标注属性的粗糙训练集。第一训练单元802,用于利用粗糙训练集对初始分析模型进行训练,得到粗糙分析模型。其中,初始分析模型包括初始的双向神经网络模型以及初始的条件随机场模型。第二确定单元803,用于将粗糙分析模型作为当前中间模型。预测单元804,用于利用当前中间模型对原始语料进行属性预测,得到当前初始训练集。校验单元805,用于对当前初始训练集进行校验,得到当前最终训练集。第二训练单元806,用于利用当前最终训练集对当前中间模型进行训练,得到当前的已训练中间模型。计算单元807,用于计算当前的已训练中间模型的第一评估指标以及第二评估指标。其中,第一评估指标为精确率与召回率的调和值,且精确率与召回率的权重相同。第二评估指标为精确率与召回率的调和值,且召回率的权重大于精确率的权重。挑选单元808,用于基于第一评估指标和第二评估指标,从所有已训练中间模型中选取出最优的模型,作为最新的当前中间模型。评估单元809,用于分别将最新的当前中间模型的第一评估指标和第二评估指标与对应的阈值进行对比,评估最新的当前中间模型是否合格。返回单元810,用于在评估单元809评估出最新的当前解析模型不合格时,针对最新的当前中间模型,返回预测单元804执行利用当前中间模型对原始语料进行属性预测,得到当前初始训练集。第三确定单元811,用于在评估单元809评估出最新的当前中间模型合格时,将最新的当前中间模型确定为训练好的解析模型。可选地,在本申请另一实施例提供的报文解析装置中,还包括:计算单元,用于计算解析模型的第二评估指标。其中,第二评估指标为精确率与召回率的调和值,且召回率的权重大于精确率的权重。判断单元,用于判断第二评估指标是否大于预设阈值。优化单元,用于在判断单元判断出第二评估指标未大于预设阈值时,对解析模型进行优化。需要说明的是,本申请上述实施例提供的各个单元的具体工作过程,可相应地参考上述方法实施例中的相应的步骤,此处不再赘述。本申请另一实施例提供了一种报文解析方法,如图9所示,包括:存储器901和处理器902。其中,存储器901用于存储程序,处理器902用于执行存储器901存储的所述程序,并且该程序被执行时,具体用于实现如上述任意一个实施例提供的高速通行收费方法。本申请另一实施例提供了一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一个实施例提供的高速通行收费方法。计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1