一种处理重复信件的方法、装置、存储介质和电子设备与流程

文档序号:31127075发布日期:2022-08-13 03:53阅读:53来源:国知局
一种处理重复信件的方法、装置、存储介质和电子设备与流程

1.本技术涉及计算机技术领域,尤其涉及一种处理重复信件的方法、装置、存储介质和电子设备。


背景技术:

2.处理重复信件是指同一人员在一定时期两次以上提出同一事项的行为。其中,重复信件可以分为不予处理的重复信件和不再受理的重复信件。
3.目前,现有的处理重复信件的方法主要是通过人工审查的方法来进行的。
4.在实现本发明的过程中,发明人发现现有技术中存在如下问题:由于现有的处理重复信件的方法是通过人工审查的方式来实现的,故其存在着审查效率比较低的问题。


技术实现要素:

5.本技术实施例的目的在于提供一种处理重复信件的方法、装置、存储介质和电子设备,以提高审核效率。
6.第一方面,本技术实施例提供了一种处理重复信件的方法,该方法包括:获取待处理重复信件;对待处理重复信件进行实体抽取,得到实体抽取结果;将实体抽取结果输入到预先训练好的分类模型中,得到待处理重复信件的分类结果;基于待处理重复信件的分类结果,对待处理重复信件执行相应的处理。
7.因此,借助于上述技术方案,本技术实施例能够实现对重复信件的自动识别,从而相比于现有的人工审查的方法,其至少能够实现降低人工审核压力,以及还能够提高审核效率的技术效果。
8.在一个可能的实施例中,对待处理重复信件进行实体抽取,得到实体抽取结果,包括:将待处理重复信件输入到训练好的bilstm-crf模型中,得到实体抽取结果。
9.在一个可能的实施例中,bilstm-crf模型的训练过程包括:获取样本训练数据;其中,样本训练数据是通过对样本重复信件进行预处理后得到的,样本重复信件的预处理包括为样本重复信件中的标点符合添加标识;利用样本训练数据对初始bilstm-crf模型进行训练,得到训练好的bilstm-crf模型。
10.在一个可能的实施例中,待处理重复信件包括目标人员,实体抽取结果包括目标人员的姓名、目标人员的身份证号、目标人员的地址和目标人员对应的信件问题的归属地。
11.第二方面,本技术实施例提供了一种处理重复信件的装置,该装置包括:第一获取模块,用于获取待处理重复信件;实体抽取模块,用于对待处理重复信件进行实体抽取,得到实体抽取结果;输入模块,用于将实体抽取结果输入到预先训练好的分类模型中,得到待处理重复信件的分类结果;处理模块,用于基于待处理重复信件的分类结果,对待处理重复信件执行相应的处理。
12.在一个可能的实施例中,实体抽取模块,用于将待处理重复信件输入到训练好的bilstm-crf模型中,得到实体抽取结果。
13.在一个可能的实施例中,装置还包括:第二获取模块,用于获取样本训练数据;其中,样本训练数据是通过对样本重复信件进行预处理后得到的,样本重复信件的预处理包括为样本重复信件中的标点符合添加标识;训练模块,用于利用样本训练数据对初始bilstm-crf模型进行训练,得到训练好的bilstm-crf模型。
14.在一个可能的实施例中,待处理重复信件包括目标人员,实体抽取结果包括目标人员的姓名、目标人员的身份证号、目标人员的地址和目标人员对应的信件问题的归属地。
15.第三方面,本技术实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
16.第四方面,本技术实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
17.第五方面,本技术提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
18.为使本技术实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
19.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
20.图1示出了本技术实施例提供的一种处理重复信件的方法的流程图;图2示出了本技术实施例提供的一种处理重复信件的装置的结构框图;图3是本技术实施例提供的一种电子设备的结构框图。
具体实施方式
21.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
22.重复信件的文本资料的主要来源是信息中心登记的重复信件资料,主要是目标人员(目标人员指发出信件的人员)反映的问题主要内容,信件编号以及包括部分姓名、证件号码和信件目的等,其存在数据缺失的情况。为了进一步提升处理信件工作效能,解决重复信件率居高不下的问题,强力推动问题解决和矛盾化解,切实维护群众合法权益,急需在短时间内(例如,三年等)大幅下降重复信件事项。
23.究其本质,重复信件的自动识别属于一个信息抽取和多分类的问题。其中,信息抽取为从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提
取和重构。以及,这些信息通常包括实体、关系和事件。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。在重复信件处理中,主要是需要从投诉内容中抽取出目标人员姓名、证件号码、地址、问题属地,补充完整我们的信件投诉内容,以便相关人员进行核对审查。
24.以及,在文本分类领域内,其实现方法大致可以分为两类:基于传统的文本分类和基于深度学习的文本分类。其中,传统的文本分类算法包括朴素贝叶斯等,但是由于传统的文本分类方法存在一定的弊端,其特征表达能力还有待提高,在文本分类领域中虽然广泛使用,但是分类效果不能达到最优。随着深度学习的推进,许多深度学习算法也被广泛应用与文本分类任务中,比如textrnn和fasttext等模型,通过使词语进行向量化操作来解决文本表示,例如word2vec等方法,然后再自动获取特征表达能力,不需要再人工地进行繁杂的特征工程,使得文本分类任务效果得到了提升。近年来,大规模通用的预训练模型陆续出现,比如bert、gpt等,预训练语言模型能够从海量的数据中学习到更多的内容,以参数的形式存储在模型中,经过适当的微调就能在下游任务中取得sota表现。
25.目前,现有的关于信件处理业务种类的自动识别分类任务多为基于传统的分类算法,虽然能够实现分类任务,但是准确率有待提高。而且案源线索相关的信息文本多为长文本,传统的文本分类并不能很好地表示原有文本的语义。
26.基于此,本技术实施例提供了一种处理重复信件的方案,通过获取待处理重复信件,以及对待处理重复信件进行实体抽取,得到实体抽取结果,以及将实体抽取结果输入到预先训练好的分类模型中,得到待处理重复信件的分类结果,以及基于待处理重复信件的分类结果,对待处理重复信件执行相应的处理。
27.因此,借助于上述技术方案,本技术实施例能够实现对重复信件的自动识别,从而相比于现有的人工审查的方法,其至少能够实现降低人工审核压力,以及还能够提高审核效率的技术效果。
28.请参见图1,图1示出了本技术实施例提供的一种处理重复信件的方法的流程图。如图1所示的方法可以由处理重复信件的装置执行,并且该装置可以是如图2所示的处理重复信件的装置。以及,该装置的具体装置可以根据实际需求来进行设置,本技术实施例并不局限于此。例如,该装置可以是计算机,也可以是服务器等。具体地,如图1所示的方法包括:步骤s110,获取待处理重复信件。
29.应理解,待处理重复信件的获取方法可根据实际需求来进行设置,本技术实施例并不局限于此。
30.例如,可从信息中心登记的重复信件资料中获取待处理重复信件。
31.步骤s120,对待处理重复信件进行实体抽取,得到实体抽取结果。
32.应理解,对待处理重复信件进行实体抽取,得到实体抽取结果的具体过程可根据实际需求来进行设置,本技术实施例并不局限于此。
33.可选地,可将待处理重复信件输入到训练好的bilstm-crf模型中,得到实体抽取结果。
34.例如,可将待处理重复信件输入到训练好的bilstm-crf模型中,得到训练好的bilstm-crf模型输出的用于标识实体抽取结果所处位置的位置向量,以及该位置向量可包含起始位置和终止位置,从而可根据起始位置和终止位置确定待处理重复信件中实体相关
内容所处的段落。以及,在得到位置向量之后,可利用位置向量中的起始位置和终止位置,从待处理重复信件中提取起始位置和终止位置之间的内容,进而获得实体抽取结果。
35.应理解,bilstm-crf模型的具体结构和训练过程等均可根据实际需求来进行设置,本技术实施例并不局限于此。
36.可选地,可获取样本重复信件,并可对样本重复信件进行“已化解”,还是“未化解”的目的进行识别,所以要保证每个数据集的数据进行了区分类目的要素提取和补全。即要根据信件的投诉内容,进行实体抽取。
37.基于此,本技术实施例可对每个类别加上相应的索引,以方便来进行得分计算,具体可参见下面的表格1。
38.表1以及x
yi
表示状态分数(指的是元素对应的位置,yi表示的是类别的索引),比如依据上表1,x
i=1,yi=2
=x
w1,b-organisation
=0.1。
39.以及,bilstm模型的参数中存在一个转移矩阵,以及该转移矩阵中的分数就是转移分数,在训练模型之前,可以先随机初始化转移矩阵的分数,然后在训练的过程中不断更新这些分数,也就是crf自己训练的约束条件。以及,crf的损失函数由真实路径分数和所有路径的总分数组成,设每种可能路径的分数为pi,其中正确预测的为真实路径,路径总分为:;其中,p
total
为所有路径的总分数;e为常数;si为状态分数和转移分数值和。
40.以及,其损失函数lossfunction=p
realpath
/p
total
。其中。p
realpath
为真实路径分数。
41.以及,还可对模型的参数进行界定,具体可参见下表2。
42.表2
以及,带类别权重的卷积神经网络,卷积网络的训练过程中根据算法对其进行更新,先正向计算得到网络输出误差,然后反向更新网络权重,使网络的输出误差最小,本技术实施例可采用批量梯度下降的方法更新网络参数。卷积神经网路输出结果为y=[y1,y2,...,yn],y∈rn×m,以及n是batch size包含的样本个数,m是输入数据集的类别总数。
[0043]
在上述设置的基础上,本技术实施例可从目标数据库(例如,信件局数据库)中获取样本重复信件。以及,还可可对样本重复信件进行预处理,以实现对样本重复信件的实体标注,以得到样本训练数据。例如,可为样本重复信件中的标点符合添加对应的标识,以便bilstm-crf模型能够根据该标识学习到相关标点的知识;再例如,还可对目标人员的姓名、目标人员的身份证号、目标人员的地址和目标人员对应的信件问题的归属地设置相应的标识。
[0044]
从而,在获取到样本训练数据之后,可利用样本训练数据对初始bilstm-crf模型进行训练,得到训练好的bilstm-crf模型。其中,初始bilstm-crf模型也可称为未训练好的bilstm-crf模型。
[0045]
以及,在通过上述方法获得训练好的bilstm-crf模型之后,可基于训练好的bilstm-crf模型对待处理重复信件进行实体抽取,并且对待处理重复信件进行抽取的过程中,无需进行实体标注等,即实体标注仅仅是在训练阶段标注。
[0046]
此外,在确定模型的学习率、批处理大小、梯度更新时候的阈值等超参数,可对hmm模型、bilstm模型和bilstm-crf模型三个模型进行对比实验,通过比较每个类别的精确度、召回率和f1值等信息,确定bilstm-crf模型的方法是最优的。
[0047]
这里需要说明的是,实体抽取领域自发展以来主要有三大类方法,分别是基于规则/字典的方法,基于传统机器学习的方法和近年来发展迅速的基于深度学习的方法。对于前两者而言,基于规则的方式虽然准确率较高,但是需要大量的人力物力去挖掘文本中上下文存在的关联,再针对这些关联进一步的提取出合适的规则,并且由于规则具有针对性,所以提取出的规则的可移植性较差,不仅无法适用于其他数据集,当本身的数据集改变时,提取出的规则也需要随之改变;基于机器学习的方法对语料库的依赖性很大,对文本特征选取的要求也很高,并且训练时间较长,开销较大。近年来基于深度学习模型的方法逐渐被
推广和使用,神经网络可以很好的处理许多自然语言处理的相关问题。相比以上两种方式,基于深度学习模型的方法对语料库的依赖性小,适用性广,并且准确率也较高。所以,本技术实施例将近年表现较好的bilstm-crf深度学习模型来进行实体抽取。
[0048]
步骤s130,将实体抽取结果输入到预先训练好的分类模型中,得到待处理重复信件的分类结果。
[0049]
应理解,分类模型的具体模型、模型结构和误差函数等均可根据实际需求来进行设置,本技术实施例并不局限于此。
[0050]
例如,通常的误差函数为:;但是,本发明提出改进后误差函数e为:;其中,c
ij
是第i个样本真是类别是j的标签权重。
[0051]
以及,具体计算方式为cj=t/dj。其中,t是超参数,dj是第j类标签在训练集中的文本总数,可以看出标签权重与标签文本总数成反比。
[0052]
还应理解,待处理重复信件的分类结果的具体内容可根据实际需求来进行设置,本技术实施例并不局限于此。
[0053]
例如,待处理重复信件的分类结果可以为是否纳入交办范围。其中,“意见建议”和“揭发控告”不纳入交办范围;系统标识为“三跨三分离”的不纳入交办范围;问题属地为目标地域的信件事项不纳入交办范围等。
[0054]
步骤s140,基于待处理重复信件的分类结果,对待处理重复信件执行相应的处理。
[0055]
应理解,基于待处理重复信件的分类结果,对待处理重复信件执行相应的处理的具体过程可根据实际需求来进行设置,本技术实施例并不局限于此。
[0056]
例如,在待处理重复信件的分类结果为纳入交办范围的情况下,判断其是否已经“化解”,若其已经化解,则可计算化解率,并且确定案件已经重复,并对指定数据库中的待处理重复信件的标签进行更新;若其未进行化解,则通报给相关工作人员,以便相关工作人员进行处理,并对指定数据库中的待处理重复信件的标签进行更新。
[0057]
再例如,在待处理重复信件的分类结果为未纳入交办范围的情况下,通报给相关工作人员,以便相关工作人员进行处理,并对指定数据库中的待处理重复信件的标签进行更新。
[0058]
因此,本技术实施例可借助于深度神经网络强大的自动特征提取能力,可以有效地优化人工方法存在的数据缺失,减轻人工重复信件信息审核的压力,推进社会治理能力现代化。
[0059]
应理解,上述处理重复信件的方法仅是示例性的,本领域技术人员根据上述的方法可以进行各种变形,修改或变形之后的内容也在本技术保护范围内。
[0060]
请参见图2,图2示出了本技术实施例提供的一种处理重复信件的装置200的结构框图。应理解,该装置200与上述方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置200具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该
装置200包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置200的操作系统(operating system,os)中的软件功能模块。具体地,该装置200包括:第一获取模块210,用于获取待处理重复信件;实体抽取模块220,用于对待处理重复信件进行实体抽取,得到实体抽取结果;输入模块230,用于将实体抽取结果输入到预先训练好的分类模型中,得到待处理重复信件的分类结果;处理模块240,用于基于待处理重复信件的分类结果,对待处理重复信件执行相应的处理。
[0061]
在一个可能的实施例中,实体抽取模块220,用于将待处理重复信件输入到训练好的bilstm-crf模型中,得到实体抽取结果。
[0062]
在一个可能的实施例中,该装置200还包括:第二获取模块(未示出),用于获取样本训练数据;其中,样本训练数据是通过对样本重复信件进行预处理后得到的,样本重复信件的预处理包括为样本重复信件中的标点符合添加标识;训练模块(未示出),用于利用样本训练数据对初始bilstm-crf模型进行训练,得到训练好的bilstm-crf模型。
[0063]
在一个可能的实施例中,待处理重复信件包括目标人员,实体抽取结果包括目标人员的姓名、目标人员的身份证号、目标人员的地址和目标人员对应的信件问题的归属地。
[0064]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
[0065]
请参见图3,图3是本技术实施例提供的一种电子设备300的结构框图。该电子设备300可以包括处理器310、通信接口320、存储器330和至少一个通信总线340。其中,通信总线340用于实现这些组件直接的连接通信。其中,本技术实施例中的通信接口320用于与其他设备进行信令或数据的通信。处理器310可以是一种集成电路芯片,具有信号的处理能力。上述的处理器310可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器310也可以是任何常规的处理器等。
[0066]
存储器330可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。存储器330中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器310执行时,电子设备300可以执行上述方法实施例中的各个步骤。
[0067]
电子设备300还可以包括存储控制器、输入输出单元、音频单元、显示单元。
[0068]
所述存储器330、存储控制器、处理器310、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线340实现电性连接。所述处理器310用于执行存储器330中存储的可执行模块。并且,电子设备300用于执行下述方法:获取待处理重复信件;对所述待处理重复信件进行实体抽取,得到实体抽取结果;将所述实体抽取结果输入到预先
训练好的分类模型中,得到所述待处理重复信件的分类结果;基于所述待处理重复信件的分类结果,对所述待处理重复信件执行相应的处理。
[0069]
输入输出单元用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。
[0070]
音频单元向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
[0071]
显示单元在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
[0072]
可以理解,图3所示的结构仅为示意,所述电子设备300还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
[0073]
本技术还提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行方法实施例所述的方法。
[0074]
本技术还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
[0075]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
[0076]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0077]
本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0078]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0079]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计
算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0080]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0081]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1