一种电子证据分类提取方法及系统与流程

文档序号：11143379阅读：来源：国知局

技术特征：

1.一种电子证据分类提取方法，其特征在于，包括步骤，电子证据获取模块调用RDD序列化存储函数读取电子数据，对电子数据进行归一化处理获得标称电子数据集构成测试集；分类训练模块将训练集中的样本数据转化为样本特征和标签，该样本集中的所有样本数据获得标签，将获得标签的样本数据输入基分类器进行训练，获得电子证据分类器；将测试集中的电子数据输入电子证据分类器进行聚类，为测试集中每个电子数据寻找对应的标签，并分配到与其标签对应的RDD分区中，对每个RDD分区进行簇排序，得到不同层次结构上的簇号，合并分区，为每个分区保存一个标签，排除电子数据中的噪声信息，输出聚类结果；模糊融合识别模块对经过聚类到各RDD分区的电子数据进行模糊识别，获得分类电子证据；文档层处理模块从RDD各分区中拷贝分类电子证据形成目标数据，对目标数据进行文档化处理，送入呈述层模块，呈述层模块对目标数据进行相关描述，自动生成描述型句子。

2.根据权利要求1所述的方法，其特征在于，所述将预测集中电子数据分配到对应的RDD分区分区中具体包括，将标称电子数据集通过map键值对函数转化为对应的键值对的形式，根据键值对将标称数据集分配到一系列的RDD分区中。

3.根据权利要求1所述的方法，其特征在于，所述对每个RDD分区进行簇排序进一步具体包括：选择一个电子数据样本点放入全局邻居数组，在全局邻居数组中选择第一个对象p进行扩张,判断对象p是否为核心点，如果p不是核心点，从全局邻居数组中删除p；如果p是核心点，对核心点p的邻域内任一未处理的邻居点q计算欧式距离,如果q已在全局邻居数组中且从p到q的可达距离小于此时q的欧式距离,更新q的可达距离为q的欧式距离,并根据更新的可达距离，调整q到全局邻居数组中的相应位置；如果q不在全局邻居数组中,则根据p到q的可达距离将其插入有序队列中，直到核心点p的所有邻居点都插入队列，获得所有核心点的队列即为分区的簇排序。

4.根据权利要求1所述的方法，其特征在于，所述所有电子证据获得标签进一步包括：将训练集中的样本数据转化为样本特征和标签(1，featuress，labels)的形式，采用广播变量的形式将样本特征和标签进行分离，对特征进行广播变量，将特征和标签(1，featuress，labels)转化为特征(1，featuress)，标签(1，1，label₁)，(1，2，label₂)，(1，3，label₃),……(1，n*(n+1)/2,label_n*(n+1)/2)，转化获得的标签分配到n*(n+1)/2个RDD分区分区中，为每个分区保存一个标签。

5.根据权利要求1所述的方法，其特征在于，所述模糊识别具体包括，模糊融合识别模块将电子数据对比度值域区间非线性划分，提取特征，利用模糊隶属函数获取待分类电子证据样本特征隶属于各类别的卡方距离，对卡方距离内的各特征进行权重融合，获得分类结果。

6.根据权利要求2所述的方法，其特征在于，根据任意RDD分区的前边界数据样本和广播变量的后边界点获得键值对map，根据map的方向向前合并簇号，所有RDD分区中的标称数据样本点都根据键值对Map合并簇号，并输出所有标称电子数据对应的簇号，合并的簇号加入map中。

7.根据权利要求1所述的方法，其特征在于，呈述层模块根据特征信息进行完整性检查，获取完整性程度高的电子证据，根据经过完整性检查的特征信息生成固定长度的特征向量，利用投影矩阵将特征向量对应描述句子中的词映射到相同的特征空间获得词序列特征向量，利用电子证据特征向量和对应的词序列特征向量作为训练样本对训练长短期记忆模型生成语言模型，将经过分类的电子证据输入语言模型，自动生成描述型句子。

8.一种电子证据分类提取系统，其特征在于，包括：电子证据获取模块、分类训练模块、电子证据分类器、模糊融合识别模块、文档层处理模块、呈述层模块，其中，电子证据获取模块，用于调用RDD序列化存储函数读取电子数据，对电子数据进行归一化处理获得标称电子数据集构成测试集；分类训练模块，用于将训练集中的样本数据转化为样本特征和标签，将获得标签的样本数据输入基分类器进行训练，获得电子证据分类器；电子证据分类器，用于对测试集中的电子数据进行预测，为测试集中每个电子数据寻找对应的标签，并分配到与其标签对应的RDD分区中，为每个RDD分区保存一个标签，对每个RDD分区进行簇排序，得到不同层次结构上的簇号，合并分区，排除电子数据中的噪声信息，对电子数据进行聚类；模糊融合识别模块，用于对经过聚类到各RDD分区的电子数据进行模糊识别，获得分类电子证据；文档层处理模块，用于从RDD各分区中拷贝分类电子证据形成目标数据，对目标数据进行文档化处理，送入呈述层模块；呈述层模块，用于对目标数据进行相关描述，自动生成描述型句子。

9.根据权利要求8所述的系统，其特征在于，所述对每个RDD分区进行簇排序进一步具体包括：选择一个电子数据样本点放入全局邻居数组，在全局邻居数组中选择第一个对象p进行扩张,判断对象p是否为核心点，如果p不是核心点，从全局邻居数组中删除p；如果p是核心点，对核心点p的邻域内任一未处理的邻居点q计算欧式距离,如果q已在全局邻居数组中且从p到q的可达距离小于此时q的欧式距离,更新q的可达距离为q的欧式距离,并根据更新的可达距离，调整q到全局邻居数组中的相应位置；如果q不在全局邻居数组中,则根据p到q的可达距离将其插入有序队列中，直到核心点p的所有邻居点都插入队列，获得所有核心点的队列即为分区的簇排序。

10.根据权利要求8所述的系统，其特征在于，所述所有电子证据获得标签进一步包括：将训练集中的样本数据转化为样本特征和标签(1，featuress，labels)的形式，采用广播变量的形式将样本特征和标签进行分离，对特征进行广播变量，将特征和标签(1，featuress，labels)转化为特征(1，featuress)，标签(1，1，label₁)，(1，2，label₂)，(1，3，label₃),……(1，n*(n+1)/2,label_n*(n+1)/2)，转化获得的标签分配到n*(n+1)/2个RDD分区分区中，为每个分区保存一个标签。

11.根据权利要求8所述的系统，其特征在于，所述模糊识别具体包括，模糊融合识别模块将电子数据对比度值域区间非线性划分，提取特征，利用模糊隶属函数获取待分类电子证据样本特征隶属于各类别的卡方距离，对卡方距离内的各特征进行权重融合，获得分类结果。

12.根据权利要求8所述的系统，其特征在于，呈述层模块根据特征信息进行完整性检查，获取完整性程度高的电子证据，根据经过完整性检查的特征信息生成固定长度的特征向量，利用投影矩阵将特征向量对应描述句子中的词映射到相同的特征空间获得词序列特征向量，利用电子证据特征向量和对应的词序列特征向量作为训练样本对训练长短期记忆模型生成语言模型，将经过分类的电子证据输入语言模型，自动生成描述型句子。

完整全部详细技术资料下载

当前第2页1 2 3