数据处理方法、装置、设备及可读存储介质与流程

文档序号：20704926发布日期：2020-05-12 16:16阅读：110来源：国知局

本发明涉及大数据技术领域，尤其涉及一种数据处理方法、装置、设备及计算机可读存储介质。

背景技术：

目前，一般需要保险公司的人员去发生灾难的地区进行实际调查，才能真正得知用户是否遭受到灾害，以及受灾的程度与需要赔付的金额，面对海量的数据，尤其是在大灾过后，仅依靠人为决策，往往需要消耗较多的时间，最重要是收集到的数据存在被恶意删除或修改的可能，这些因素的存在会大大降低理赔的准确度，因此，如何对理赔业务所需的原始受灾数据进行全面管控，以提高理赔的准确度，是目前本领域亟待解决的技术问题。

技术实现要素：

本发明的主要目的在于提供一种数据处理方法、装置、设备及计算机可读存储介质，旨在解决现有技术中由数据管控不全面而造成的理赔准确度低的技术问题。

将分类结果缓存于预置分布式缓存节点集合的节点，其中，所述预置分布式缓存节点集合的节点包括多个节点，所述分类结果为与理赔相关的数据；

判断预置分布式缓存节点集合中是否存在未缓存数据的节点，其中，所述节点的数量大于所述分类结果的数量；

若所述预置分布式缓存节点集合中存在未缓存数据的节点，则通过随机算法确定所述节点集合中各个节点的先后顺序，得到具有先后顺序的各个节点；

基于所述先后顺序，将缓存于在先节点内的在先缓存结果缓存于在后节点内，得到在后缓存结果，直至所述预置分布式缓存节点集合中不存在未缓存数据的节点，则得到最终节点结果，其中，在缓存时，通过预先部署在节点内的的哈希算法对各个节点内的缓存结果进行计算，得到哈希值，所述缓存结果由分类结果集和哈希值组成；

以所述最终节点结果为依据，执行理赔动作。

可选地，在所述将分类结果缓存于预置分布式缓存节点集合的节点的步骤之前，还包括以下步骤:

采集灾难现场信息，接收受灾用户上传的受灾图像，通过网页抓取技术抓取灾情信息，以及接收勘察人员上传的勘察数据；

对所述灾难现场信息、所述受灾图像、所述灾情信息和所述勘察数据分别进行特征数据提取，对应得到第一特征数据集、第二特征数据集、第三特征数据集和第四特征数据集并构成特征数据集合；

通过均值漂移算法对各个特征数据集中的特征数据进行分隔，得到分隔数据，并计算所述分隔数据之间的欧式距离；

判断所述欧式距离是否小于或等于预设阈值；

若所述欧式距离小于或等于预设阈值，则通过贝叶斯分类器对所述特征数据集合中各个特征数据集分别进行分类，得到所述各特征数据集对应的分类结果，所述分类结果为灾难种类以及所述灾难种类的预测概率值。

可选地，所述对所述灾难现场信息、所述受灾图像、所述灾情信息和所述勘察数据分别进行特征数据提取，对应得到第一特征数据集、第二特征数据集、第三特征数据集和第四特征数据集并构成特征数据集合包括以下步骤：

根据所述灾难现场信息、所述受灾图像、所述灾情信息和所述勘察数据的数据类型选择数据提取方式；

若所述数据类型为图像类，则采用滤波器算法从所述图像类的数据中提取出小波特征向量，得到第一特征数据集、第二特征数据集、第三特征数据集和第四特征数据集并构成特征数据集合；

若所述数据类型为文本类，则将所述文本类的数据转化成矩阵的形式，以及通过协方差矩阵算法将所述矩阵转化成协方差矩阵，并得到第一特征数据集、第二特征数据集、第三特征数据集和第四特征数据集并构成特征数据集合。

可选地，在所述若所述欧式距离小于或等于预设阈值，则通过贝叶斯分类器对所述特征数据集合中各个特征数据集分别进行分类，得到所述各特征数据集对应的分类结果的步骤之前，还包括以下步骤：

通过预置第一训练样本集对初始贝叶斯分类器进行分类训练，得到贝叶斯分类器；

通过所述贝叶斯分类器对预置第二训练样本集进行分类，得到分类结果；

根据预置分类结果，判断所述分类结果是否不高于预置准确率；

若所述分类结果不高于预置准确率，则通过第一训练样本集对初始贝叶斯分类器继续进行分类训练，直至所述分类结果高于预置准确率。

可选地，在所述若所述欧式距离小于或等于预设阈值，则通过贝叶斯分类器对所述特征数据集合中各个特征数据集分别进行分类，得到所述各特征数据集对应的分类结果的步骤之后，还包括以下步骤：

依次遍历所述分类结果集中的分类结果，并判断所述分类结果中是否存在受灾信息；

若所述分类结果中存在所述受灾信息，则根据预设理赔规则判断当前受灾是否具有理赔权限。

可选地，在所述通过预置第一训练样本集对初始贝叶斯分类器进行分类训练，得到贝叶斯分类器的步骤之前，还包括以下步骤：

通过爬虫技术实时从网站抓取灾难数据；

通过相似度匹配算法计算所述灾难数据与预置理赔灾难数据库中的数据之间的相似度；

判断所述相似度是否超过预置阈值；

若所述相似度超过预置阈值，则将所述灾难数据作为第一训练样本集。

可选地，在所述采集灾难现场信息，接收受灾用户上传的受灾图像，通过网页抓取技术抓取灾情信息，以及接收勘察人员上传的勘察数据的步骤之后，还包括以下步骤:

通过预先写好的解码策略对灾难报案信息进行解码，得到大灾编码数据；

基于所述大灾编码数据判断是否存在重复报案；

若存在重复报案，则并案处理，得到第一灾难报案信息，若不存在重复报案，则分案处理，得到第二灾难报案信息。

进一步地，本发明还提供一种数据处理装置，所述装置包括以下模块：

缓存模块，用于将分类结果缓存于预置分布式缓存节点集合的节点，其中，所述预置分布式缓存节点集合的节点包括多个节点；

第一判断模块，用于判断预置分布式缓存节点集合中是否存在未缓存数据的节点；

排序模块，用于若所述预置分布式缓存节点集合中存在未缓存数据的节点，则通过随机算法确定所述节点集合中各个节点的先后顺序，得到具有先后顺序的各个节点；

第二判断模块，用于基于所述先后顺序，将缓存于在先节点内的在先缓存结果缓存于在后节点内，得到在后缓存结果，直至所述预置分布式缓存节点集合中不存在未缓存数据的节点，则得到最终节点结果，其中，在缓存时，通过预先部署在节点内的的哈希算法对各个节点内的缓存结果进行计算，得到哈希值，所述缓存结果由分类结果集和哈希值组成；

执行模块，用于以所述最终节点结果为依据，执行理赔动作。

可选地，所述数据处理装置，还包括以下模块：

采集模块，用于采集灾难现场信息，接收受灾用户上传的受灾图像，通过网页抓取技术抓取灾情信息，以及接收勘察人员上传的勘察数据；

提取模块，用于对所述灾难现场信息、所述受灾图像、所述灾情信息和所述勘察数据分别进行特征数据提取，对应得到第一特征数据集、第二特征数据集、第三特征数据集和第四特征数据集并构成特征数据集合；

第一计算模块，用于通过均值漂移算法对各个特征数据集中的特征数据进行分隔，得到分隔数据，并计算所述分隔数据之间的欧式距离；

第一分类模块，用于若所述欧式距离小于或等于预设阈值，则通过贝叶斯分类器对所述特征数据集合中各个特征数据集分别进行分类，得到所述各特征数据集对应的分类结果，所述分类结果为灾难种类以及所述灾难种类的预测概率值。

可选地，所述提取模块包括以下单元：

选择单元，用于根据所述灾难现场信息、所述受灾图像、所述灾情信息和所述勘察数据的数据类型选择数据提取方式；

提取单元，用于若所述数据类型为图像类，则采用滤波器算法从所述图像类的数据中提取出小波特征向量，得到第一特征数据集、第二特征数据集、第三特征数据集和第四特征数据集并构成特征数据集合；

转化单元，用于若所述数据类型为文本类，则将所述文本类的数据转化成矩阵的形式，以及通过协方差矩阵算法将所述矩阵转化成协方差矩阵，并得到第一特征数据集、第二特征数据集、第三特征数据集和第四特征数据集并构成特征数据集合。

可选地，所述数据处理装置，还包括以下模块：

第一训练模块，用于通过预置第一训练样本集对初始贝叶斯分类器进行分类训练，得到贝叶斯分类器；

第二分类模块，用于通过所述贝叶斯分类器对预置第二训练样本集进行分类，得到分类结果；

第三判断模块，用于根据预置分类结果，判断所述分类结果是否不高于预置准确率；

第二训练模块，用于若所述分类结果不高于预置准确率，则通过第一训练样本集对初始贝叶斯分类器继续进行分类训练，直至所述分类结果高于预置准确率。

可选地，所述数据处理装置，还包括以下模块：

遍历模块，用于依次遍历所述分类结果集中的分类结果，并判断所述分类结果中是否存在受灾信息；

第四判断模块，用于若所述分类结果中存在所述受灾信息，则根据预设理赔规则判断当前受灾是否具有理赔权限。

可选地，所述数据处理装置，还包括以下模块：

抓取模块，用于通过爬虫技术实时从网站抓取灾难数据；

第二计算模块，用于通过相似度匹配算法计算所述灾难数据与预置理赔灾难数据库中的数据之间的相似度；

第五判断模块，用于判断所述相似度是否超过预置阈值；

第一获取模块，用于若所述相似度超过预置阈值，则将所述灾难数据作为第一训练样本集。

可选地，所述数据处理装置，还包括以下模块：

解码模块，用于通过预先写好的解码策略对灾难报案信息进行解码，得到大灾编码数据；

第六判断模块，用于基于所述大灾编码数据判断是否存在重复报案；

第二获取模块，用于若存在重复报案，则并案处理，得到第一灾难报案信息，若不存在重复报案，则分案处理，得到第二灾难报案信息。

进一步地，为实现上述目的，本发明还提供一种数据处理方法设备，所述数据处理方法设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的数据处理方法程序，所述数据处理方法程序被所述处理器执行时实现如上述任一项所述的数据处理方法方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据处理方法程序，所述数据处理方法程序被处理器执行时实现如上述任一项所述的数据处理方法方法的步骤。

本发明首先从多个渠道获取数据，在对数据进行提取的过程中采用了滤波过滤算法与协方差算法相互结合的方式，为了获取到更有可信度的数据，因此又采用了均值漂移算法，当提取到更有可信度的数据后，再对灾难的类型进行识别，得到分类结果，由于不同的灾难理赔的金额和理赔的时间各不相同，为了防止分类结果被恶意修改，因此，本方案在识别出灾难结果后，通过哈希算法计算出不同的结果，其中，结果与结果之间是环环相扣的，可增加对数据的保护力度，同时，多个节点之间的数据传输顺序是通过随机算法确定的，可有效防止数据被泄露或修改，实现了对理赔相关的数据的全面管控，提高了理赔的准确率。

附图说明

图1为本发明实施例方案涉及的数据处理设备运行环境的结构示意图；

图2为本发明数据处理方法一实施例的流程示意图；

图3为本发明数据处理方法第二实施例的流程示意图；

图4为图3中步骤s70一实施例的细化流程示意图；

图5为本发明数据处理方法第三实施例的流程示意图；

图6为本发明数据处理方法第四实施例的流程示意图；

图7为本发明数据处理方法第五实施例的流程示意图；

图8为本发明数据处理方法第六实施例的流程示意图；

图9为本发明数据处理装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种数据处理设备。

参照图1，图1为本发明实施例方案涉及的数据处理设备运行环境的结构示意图。

如图1所示，该数据处理设备包括：处理器1001，例如cpu，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的数据处理设备的硬件结构并不构成对数据处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序。其中，操作系统是管理和控制数据处理设备和软件资源的程序，支持数据处理程序以及其它软件和/或程序的运行。

在图1所示的数据处理设备的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的数据处理程序，并执行以下数据处理方法的各实施例的操作。

基于上述数据处理设备硬件结构，提出本发明数据处理方法的各个实施例。

参照图2，图2为本发明数据处理方法第一实施例的流程示意图。本实施例中，所述数据处理方法包括以下步骤:

步骤s10，将分类结果缓存于预置分布式缓存节点集合的节点，其中，所述预置分布式缓存节点集合的节点包括多个节点，所述分类结果为与理赔相关的数据；

本实施例中，为了使预先收集到的与理赔相关的数据缓存进较为安全的缓存环境，因此将理赔相关的数据缓存进预置分布式缓存节点集合的节点内，为了增强数据的安全性，还可在节点内预选部署各种加密算法，例如，哈希算法。

步骤s20，判断预置分布式缓存节点集合中是否存在未缓存数据的节点，其中，所述节点的数量大于所述分类结果的数量；

本实施例中，节点集合包括多个节点，当存在未缓存数据的节点时，才会继续将接收到的数据处理进节点，当不存在未缓存数据的节点时，则停止缓存数据。为了使所有的与理赔相关的数据都有地方可存，因此缓存节点的数量要大于分类结果的数量。

步骤s30，若所述预置分布式缓存节点集合中存在未缓存数据的节点，则通过随机算法确定所述节点集合中各个节点的先后顺序，得到具有先后顺序的各个节点；若所述预置分布式缓存节点集合中不存在未缓存数据的节点，则进入步骤s50；

本实施例中，确定先后顺序的目的是，方便在缓存数据时，按照所述先后顺序将数据处理进行各个节点，例如，一共有甲乙丙三个节点，例如通过随机算法后，可将甲节点设置为第一节点，将乙节点设置为第二节点，将丙节点设置为第三节点，则在缓存数据时，可将数据a先缓存于第一节点，再缓存于第二节点，最后缓存于第三节点。

步骤s40，基于所述先后顺序，将缓存于在先节点内的在先缓存结果缓存于在后节点内，得到在后缓存结果，直至所述预置分布式缓存节点集合中不存在未缓存数据的节点，则得到最终节点结果，其中，在缓存时，通过预先部署在节点内的的哈希算法对各个节点内的缓存结果进行计算，得到哈希值，所述缓存结果由分类结果集和哈希值组成；

本实施例中，分类结果，可以包括多种，既可以是相同的灾难，也可以存在不相同的灾难，在实际场景下，不同的灾难往往对应着不同的理赔金额，而做出分类结果后，存在被其他人员有意删改或无意删改的可能，为了可以及时发现分类结果有没有被修改，因此，将灾难分类数据处理于预先设置好的节点中，通过哈希算法计算出一个唯一的值，这就相当于每缓存进一个节点，每个缓存节点都会给分类结果集打上唯一的标志。

步骤s50，以所述最终节点结果为依据，执行理赔动作。

本实施例中，由于分类结果集是一直保存在节点集合的各个节点中的，而每个节点都可以保证数据不被轻易修改，因此可保证数据的安全性，再根据分类结果集进行理赔时，可减少理赔的失误率。由于不同的与理赔相关的数据所对应的理赔金额是存在差异的，为了防止分类结果被恶意修改，因此，在预先识别出灾难结果后，通过哈希算法计算出不同的结果，其中，结果与结果之间是环环相扣的，可增加对数据的保护力度，同时，多个节点之间的数据传输顺序是通过随机算法确定的，可有效防止数据被泄露或修改，实现了对理赔相关的数据的全面管控，提高了理赔的准确率。

参照图3，图3为本发明数据处理方法第二实施例的流程示意图。本实施例中，在所述图2的步骤s10，将分类结果缓存于预置分布式缓存节点集合的节点的步骤之前，还包括以下步骤:

步骤s60，采集灾难现场信息，接收受灾用户上传的受灾图像，通过网页抓取技术抓取灾情信息，以及接收勘察人员上传的勘察数据；

本实施例中，若当前接收到灾难报案信息，可通过地理信息系统获取所述灾难报案信息所在的地理位置信息，根据所述地理位置信息，通过预置api接口调用所述地理位置信息处的摄像头，采集灾难现场信息，接收受灾用户上传的受灾图像，通过网页抓取技术抓取灾情信息，接收勘察人员上传的勘察数据。通过预置api接口调用摄像头采集灾难现场信息可以很直观地看到当前灾难现场信息并可以调取到历史系信息，通过接收到的受灾用户上传的受灾图像得知是否受灾，通过网页抓取技术从具有公信力的网站上收集灾情信息，例如，向政府防灾防损网站、权威气象网站等以关键字的形式进行抓取。为了确保准确性，最后还要接收由人工进行勘察后得到的勘察数据。

步骤s70，对所述灾难现场信息、所述受灾图像、所述灾情信息和所述勘察数据分别进行特征数据提取，对应得到第一特征数据集、第二特征数据集、第三特征数据集和第四特征数据集并构成特征数据集合；

本实施例中，在特征提取时可以采用将原始特征转换为一组具有明显物理意义的形式，再对特征数据进行提取，例如，转化成几何矩阵的形式，提取角点特征，或者是通gabor滤波器提取纹理特征。

步骤s80，通过均值漂移算法对各个特征数据集中的特征数据进行分隔，得到分隔数据，并计算所述分隔数据之间的欧式距离；

本实施例中，各个特征数据集指的是第一特征数据集，第二特征数据集、第三特征数据集和第四特征数据集。通过均值漂移算法可将相似度较高的特征数据分隔在一起，考虑到均值漂移算法对纹理特征不敏感，因此，还要计算分隔数据之间的欧式距离，例如，若第一特征数据集与第二特征数据集、第三特征数据集以及第四特征数据集的特征数据之间的欧式距离均小于或等于预设阈值，则说明第一特征数据集可信度较高，若大于预设阈值则说明第一特征数据集的可信度较低，为了在后续的步骤中更加精准地分类出该数据属于哪种灾难类型，因此，需要选择可信度较高的数据。

步骤s90，判断所述欧式距离是否小于或等于预设阈值；

本实施例中，为了检验数据的可信度，因此，需预先设置一个阈值以检验数据的可信度。判断所述第一特征数据集，第二特征数据集、第三特征数据集和第四特征数据集的数据之间的欧式距离是否小于或等于预设阈值。

步骤s100，若所述欧式距离小于或等于预设阈值，则通过贝叶斯分类器对所述特征数据集合中各个特征数据集分别进行分类，得到所述各特征数据集对应的分类结果，所述分类结果为灾难种类以及所述灾难种类的预测概率值；若否，则不处理。

本实施例中，若所述欧式距离小于或等于预设阈值，则说明数据之间是相似的，可以将这些数据划分到一个分类中，否则说明数据不相似，不能划分到同一分类中。本实施例首先从多个维度获取数据，在对数据进行提取的过程中采用了滤波过滤算法与协方差算法相互结合的方式，为了获取到更有可信度的数据，因此又采用了均值漂移算法，当提取到更有可信度的数据后，再对灾难的类型进行识别，得到分类结果。

参照图4，图4为图3中步骤s70一实施例的细化流程示意图。本实施例中，所述图3的步骤s70，所述对所述灾难现场信息、所述受灾图像、所述灾情信息和所述勘察数据分别进行特征数据提取，对应得到第一特征数据集、第二特征数据集、第三特征数据集和第四特征数据集并构成特征数据集合包括以下步骤：

步骤s701，根据所述灾难现场信息、所述受灾图像、所述灾情信息和所述勘察数据的数据类型选择数据提取方式；

本实施例中，由于接收的到的数据类型众多，为了对不同的数据进行个性化处理，因此判断是否存在图形类的数据。

步骤s702，若所述数据类型为图像类，则采用滤波器算法从所述图像类的数据中提取出小波特征向量，得到第一特征数据集、第二特征数据集、第三特征数据集和第四特征数据集并构成特征数据集合；

本实施例中，通过滤波器算法将不同的数据转化成纹理的形式，不同纹理一般具有不同的中心频率及带宽，为了提取到符合当前场景的特征数据，可以通过调整滤波器算法的参数来实现。

若当前接收到的数据存在图像类的数据，则采用滤波器算法从所述通过预置算法分别对所述灾难现场信息、受灾图像、灾情信息和勘察数据分别提取出小波特征向量，得到第一特征数据集，第二特征数据集、第三特征数据集和第四特征数据集，若否，则判断当前接收到的数据是否存在文本类的数据。

步骤s703，若所述数据类型为文本类，则将所述文本类的数据转化成矩阵的形式，以及通过协方差矩阵算法将所述矩阵转化成协方差矩阵，并得到第一特征数据集、第二特征数据集、第三特征数据集和第四特征数据集并构成特征数据集合。

本实施例中，将任何数据都可以在空间上构造成矩阵的形式，例如，da×b，通过协方差算法计算后，得到该矩阵的协方差矩阵ca×a或是cb×b，达到提取特征数据的目的。

参照图5，图5为本发明数据处理方法第三实施例的流程示意图。本实施例中，在所述图3的步骤s100，若所述欧式距离小于或等于预设阈值，则通过贝叶斯分类器对所述特征数据集合中各个特征数据集分别进行分类，得到所述各特征数据集对应的分类结果之前，还包括以下步骤:

步骤s110，通过预置第一训练样本集对初始贝叶斯分类器进行分类训练，得到贝叶斯分类器；

本实施例中，第一训练样本为预先做好标记的样本，将第一训练样本输入初始贝叶斯分类器进行分类训练，根据分类结果对初始贝叶斯分类器进行调参，得到贝叶斯分类器。

步骤s120，通过所述贝叶斯分类器对预置第二训练样本集进行分类，得到分类结果；

本实施例中，在训练一个阶段后，例如一个阶段为通过使用第一训练样本训练初始贝叶斯分类器后，得到了贝叶斯分类器，此时为了检验贝叶斯分类器是否可以对未做标记的样本进行分类，因此需要通过贝叶斯分类器对第二训练样本集进行分类。

步骤s130，根据预置分类结果，判断所述分类结果是否不高于预置准确率；

本实施例中，通过贝叶斯分类器对第二训练样本集进行分类后会得到分类结果，为了检验分类结果是否不高于预置准确率，需要将分类出的结果与人工预先分类好的标准分类结果进行比较。

步骤s140，若所述分类结果不高于预置准确率，则通过第一训练样本集对初始贝叶斯分类器继续进行分类训练，直至所述分类结果高于预置准确率。

本实施例中，若是贝叶斯分类器的分类结果不高于预置准确率，则说明对初始贝叶斯分类器的训练未达到本场景所需要的条件，造成这种情况的原因包括：1.第一训练样本不足，针对这种情况，则要增加训练样本的数量；2.未训练至收敛，针对这种情况，则要增加训练轮数。

参照图6，图6为本发明数据处理方法第四实施例的流程示意图。本实施例中，在所述图3的步骤s100，若所述欧式距离小于或等于预设阈值，则通过贝叶斯分类器对所述特征数据集合中各个特征数据集分别进行分类，得到所述各特征数据集对应的分类结果之后，还包括以下步骤:

步骤s150，依次遍历所述分类结果集中的分类结果，并判断所述分类结果中是否存在受灾信息；

本实施例中，依次遍历所述分类结果集中的分类结果，得到遍历结果。

步骤s160，若所述分类结果中存在所述受灾信息，则根据预设理赔规则判断当前受灾是否具有理赔权限，若否，则不处理。

本实施例中，基于所述遍历结果，判断所述分类结果中是否存在大灾，其中，大灾包括气象灾害、地震灾害，大面积火灾、爆炸、生产安全事故、公共卫生事故和互联网产品大规模索赔事故。预设理赔规则指的是：新增灾案件量(小机构a件，大机构b件，超大机构c件)，且新增整体案件量达到日常m％(m>100)，且案件预估损失金额n万元。

参照图7，图7为本发明数据处理方法第五实施例的流程示意图。本实施例中，在所述图5的步骤s110，通过预置第一训练样本集对初始贝叶斯分类器进行分类训练，得到贝叶斯分类器之前，还包括以下步骤：

步骤s170，通过爬虫技术实时从网站抓取灾难数据；

本实施例中，通过爬虫技术实时从网站抓取灾难数据，在对网页数据进行抓取的时候可以通过预先设置的查重策略，时间策略对数据进行有针对性的抓取。

步骤s180，通过相似度匹配算法计算所述灾难数据与预置理赔灾难数据库中的数据之间的相似度；

本实施例中，通过相似度匹配算法计算所述灾难数据与预置理赔灾难数据库中的数据之间的相似度，例如，将灾难数据与预置理赔灾难数据库中的数据均转化为向量的形式，然后通过向量空间中两个向量夹角的余弦值作为衡量两个数据差异的大小的度量，当夹角越小时，则说明两数据间的相似程度越高。

步骤s190，判断所述相似度是否超过预置阈值；

本实施例中，预置阈值指的是为了衡量两个数据间的相似度而预先设置的数值，例如，预置阈值为两个向量之间的夹角为20°，若当前的夹角为30°，则说明超出了预置阈值。

步骤s200，若所述相似度超过预置阈值，则将所述灾难数据作为第一训练样本集，若否，则不处理。

本实施例中，若相似度超过预置阈值，则将所述灾难数据作为第一训练样本集，因为第一训练样本中的数据是有限的，因此在训练贝叶斯分类器所使用的训练样本数据也是有限的，根据极限的思想，只有在训练样本无穷多的时候，分类结果的正确率才可以无限接近于真实分类结果，因此，在本实施例中不断完善第一训练样本集中样本的数量，且增加的数据都是未超过预置阈值的数据。

参照图8，图8为本发明数据处理方法第六实施例的流程示意图。本实施例中，在所述图2的步骤s60，采集灾难现场信息，接收受灾用户上传的受灾图像，通过网页抓取技术抓取灾情信息，以及接收勘察人员上传的勘察数据之后，还包括以下步骤：

步骤s210，通过预先写好的解码策略对灾难报案信息进行解码，得到大灾编码数据；

本实施例中，通过预先设置的解码策略对所述报案信息进行解码，并随机生成一串唯一的编码，如：“dzxxxx”，若是相同的灾难报案信息则生成的编码是一致的，若是不相同的灾难报案信息则生成的编码是不一致的。

步骤s220，基于所述大灾编码数据判断是否存在重复报案；

本实施例中，通过遍历的方式实时检测所有的大灾编码数据中是否存在相同的编码数据，若存在，则说明对同一灾难，接收到了多次报案。

步骤s230，若存在重复报案，则并案处理，得到第一灾难报案信息；

步骤s240，若不存在重复报案，则分案处理，得到第二灾难报案信息。

本实施例中，对同一灾难，接收到了多次报案，例如，接收到了用户甲和用户乙均遭受到了地震灾难的信息，则可以将用户甲和用户乙所遭受到的灾难进行并案处理，这样可利于理赔公司根据用户的数量及时作出理赔的决策。

参照图9，图9为本发明数据处理装置一实施例的功能模块示意图。本实施例中，所述数据处理装置包括：

缓存模块10，用于将分类结果缓存于预置分布式缓存节点集合的节点，其中，所述预置分布式缓存节点集合的节点包括多个节点；

第一判断模块20，用于判断预置分布式缓存节点集合中是否存在未缓存数据的节点，其中，所述节点的数量大于所述分类结果的数量；

排序模块30，用于若所述预置分布式缓存节点集合中存在未缓存数据的节点，则通过随机算法确定所述节点集合中各个节点的先后顺序，得到具有先后顺序的各个节点；

第二判断模块40，用于基于所述先后顺序，将缓存于在先节点内的在先缓存结果缓存于在后节点内，得到在后缓存结果，直至所述预置分布式缓存节点集合中不存在未缓存数据的节点，则得到最终节点结果，其中，在缓存时，通过预先部署在节点内的的哈希算法对各个节点内的缓存结果进行计算，得到哈希值，所述缓存结果由分类结果集和哈希值组成；

执行模块50，用于以所述最终节点结果为依据，执行理赔动作。

本实施例中，通过本装置中的模块可从原始灾难数据中提取出特征数据，并止数据被泄露或修改，实现了对理赔相关的数据的全面管控，提高理赔的准确率。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如上述任一项实施例中所述的数据处理方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苗田
技术所有人：中国平安财产保险股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。