一种法律文本的量子聚类系统及方法与流程

文档序号:15558117发布日期:2018-09-29 01:36阅读:270来源:国知局

本发明属于法律文本聚类分析领域和量子计算领域,具体涉及一种法律文本的量子聚类系统及方法。



背景技术:

在如今飞速发展的互联网时代,互联网在各个领域的运用越来越广泛,全球信息量急剧增加。同样,在法律领域,文本聚类方法作为能够帮助用户快速有效地找到所需信息的方法,它具有广泛的应用。文本聚类目前已经形成了多种门类,如划分方法、层次方法、基于密度的方法、基于的网格方法、知识工程方法、统计学习的方法、智能聚类方法(如人工神经网络、模糊系统和进化算法等),都取得了一定的效果。

但是目前的法律文本的传统聚类方法与系统缺点也是很明显的。首先,传统的聚类方法都没有有效地解决对大规模无序文本的快速计算和处理问题。随着国家法治化建设的全面展开和人们法制观念的增强,法院要处理的案件也与日俱增,司法机关案多人少的形势逾来逾严峻,容易延长办案周期,影响办案质量。单纯地增加人手并不足够应付法律文本所呈现的指数型增长。其次,传统算法难以发现任意形状的聚类。比如基于距离的聚类算法通常只能发现近似球状簇,如何发现任意形状的簇在聚类算法设计中显得尤为重要。不同形状的簇在同一个案件也会导致不同的聚类结果,从而做出不一样的判决。再次,传统类算法处理噪声数据的能力较弱。在现实中,一些数据虽然数量很少,但是对算法结果或审判结果影响很严重,比如关键证据链。由于案件的复杂性、疑难性,传统的聚类算法难免会遗漏掉其中的某些信息,忽视证据的完整性,造成裁判案件偏差,极有可能导致冤假错案的发生,甚至引发社会矛盾和群体性事件。最后,传统的聚类算法可伸缩性较差。对于无序数据库,传统的聚类算法搜索的规模随着数据库规模的增长而成线性增长,在经典算法中需要o(n)时间才能完成整个搜索过程。好的可伸缩性要求聚类算法在不同数据集上均具有很强的鲁棒性,无论对于大数据集还是小数据集均是有效的。

法律是国家维护社会秩序的最基本手段,随着社会的发展,人们更渴望得到及时、公正客观的裁判和处理方案,为了维护法律的稳定和社会群众对法律的信仰,维护社会稳定,这就要求法院和其他机构在适用法律文本时更加准确与恰当。但是,我国目前还没有关于法律文本的量子聚类方法与系统。



技术实现要素:

为了克服上述现有技术的缺陷,本发明提供了一种法律文本的量子聚类系统及方法,通过利用量子聚类的方法来挖掘法律文本中相关的法律法规文本、案例判例文本、物证文本、书证文本、笔录文本、视听资料文本、电子数据文本、个人及单位信息文本、以及其他相关文本的数据,聚类处理进行细化加工,为司法从业人员提供准确可行的裁判方案。

本发明采取的技术方案为:

一种法律文本的量子聚类系统,包括法律文书输入系统、法律文本量子聚类挖掘系统、数据库、法律文书输出系统。

所述法律文书输入系统安装于司法机关、公安机关、监察机关、仲裁机构;用于将刑事法律法规文本、民事法律法规文本、行政法律法规文本、案例判例文本、物证文本、书证文本、笔录文本、视听资料文本、电子数据文本、或者个人及单位信息文本输入并存入数据库;

所述法律文本量子聚类挖掘系统安装于司法机关的法律信息管理系统;用于对输入的刑事法律法规文本、民事法律法规文本、行政法律法规文本、案例判例文本、物证文本、书证文本、笔录文本、视听资料文本、电子数据文本、个人及单位信息文本进行初步处理和清洗并存入数据库;

所述法律文本量子聚类挖掘系统,利用量子聚类方法对完成初步处理和清洗的法律文本进行聚类分析,包括使用量子态波函数描述所处理的法律文本或记录,对所有文本和记录进行分组,并将相似的文本和记录集中于一个聚集中;进一步地,能够根据上述文本类型进行聚类,也能够根据相关法律规定进行聚类,也能够根据司法机关、公安机关、监察机关、仲裁机构的不同进行聚类,也能够从程序和实体等方面进行聚类,或者根据需要进行聚类;进一步地,在量子聚类过程中,能够利用量子态函数的叠加特性、相干特性、纠缠特性迅速地处理大量文本,发现任意形状的文本聚类和文本的异常现象和行为,并将异常或不符合要求的文本内容进行排除和预警处理。

所述法律文本量子聚类挖掘系统,利用量子聚类方法对数据库中的所有法律文本进行精确挖掘,从法律文本集合中搜索所有的高频簇,再对这些高频簇建立任意形状的关联规则,从而发现常规思维难以发现的两个或多个文本或变量之间存在的某种规律性;进一步地,能够利用量子态函数的叠加特性、相干特性、纠缠特性挖掘数量巨大的刑事、民事、行政和其他案件的文本群、人群、案件群的行为特征和区域特征,提高文本利用效率;进一步地,能够将挖掘结果以图形形式输出到法律文书输出系统,辅助用户对法律本文进行精确评估和计算。

所述法律文本量子聚类挖掘系统,利用量子聚类方法对上述进行精确计算的结果再次审核挖掘,根据相关法律规定对司法机关、公安机关、监察机关、仲裁机构及与案件有关的事实情况,从程序和实体方面进行分析和审核挖掘,将不符合程序公正和实体公正的内容进行排除和处理,使程序公正和实体公正结合。

所述数据库安装于司法机关的法律信息管理系统,用于存储法律文书输入系统101输入的有关法律法规文本、案例判例文本、物证文本、书证文本、笔录文本、视听资料文本、电子数据文本、个人及单位信息文本;

所述数据库用于存储法律文本量子聚类挖掘系统预处理阶段、精处理阶段、审核阶段的所有计算结果和相关数据。

所述法律文书输出系统安装于司法机关、和公安机关、监察机关、仲裁机构,通过打印、屏幕显示、或者客户终端方式输出量子聚类挖掘结果。

所述法律文书输入系统为多元输入系统,安装于司法机关、公安机关、监察机关、仲裁机构,利用扫描仪,电子文档,监控设备将有关法律法规文本、案例判例文本、物证文本、书证文本、笔录文本、视听资料文本、电子数据文本、个人及单位信息文本输入并存入数据库。

所述物证文本包括:刑事方面证明案件真实情况的一切物品和痕迹,包括作案工具、赃款赃物、脚印、指纹、血迹、体液、毛发等生物样本、清单、图片,照片、相关物品复制品、复制件等;民事或行政方面以其形状、质量、规格来证明案件事实的物品;

所述书证文本包括:刑事、民事或行政等方面以文字、符号、图画等记载或表达人的一定思想的物品,包括合同书、遗嘱、授权委托书、房产证、结婚证、借据、日记、罚款单据、营业执照等文字材料;

所述笔录文本包括:刑事犯罪嫌疑人,违法嫌疑人,被侵害人或证人的详细身份和话语记录的文字,包括被害人陈述,犯罪嫌疑人,刑事被告人供述、辩解,违法嫌疑人陈述和申诉,证人证言,鉴定意见笔录,现场记录,勘验笔录,检查笔录,侦查笔录,庭审笔录等;民事或行政方面的接待笔录,问话笔录,询问笔录,证人证言,勘验笔录,鉴定意见笔录,庭审笔录等;

所述视听资料文本包括:刑事、民事或行政等方面以录音、录像等形式存储信息证明案件真实情况的资料,包括与案件真实情况有关的以录音、录像、光盘、监控等。

所述电子数据文本包括:刑事、民事或行政,以电子计算机或其他高科技设备所存储的信息证明案件真实情况的资料,包括电子邮件、电子数据交换、网上聊天记录、博客、微博客、手机短信、电子签名、域名等相关电子数据资料。

所述个人及单位信息文本包括:当事人,法定代理人,委托代理人,证人,司法机关、公安机关、监察机关、仲裁机构等从业人员的个人信息及其所在机关单位信息。

所述法律文本量子聚类挖掘系统,集预处理、精处理、与审核于一体,安装于司法机关的法律信息管理系统,与数据库连接,读取数据库中的数据,对所有的法律文本进行预处理,并进行深层次的量子聚类挖掘和审核;量子聚类具有可伸缩性、同时处理不同类型数据、快速发现任意形状的聚类簇、决定输入参数的领域知识最小化、处理"噪声"数据、对输入记录的顺序不敏感、高维度、基于约束的聚类、可解释性和可用性等特点,把刑事、民事、行政及其他方面的数据进行量子聚类分组,将抽象的法律文本分成由类似的对象组成的多个类,从而衡量不同法律文本数据源中的相似性,把法律文本数据源分到不同的簇中,进而对法律文本进行量子化;通过量子搜索算法的并行性,干涉性、叠加性、纠缠性、指数级存储容量和指数加速等特征,可将在一组无序数中快速地找到满足条件的个体数,将类似信息的分布,发现隐藏信息,加快信息检索的效率,提高工作效率;

量子搜索算法将搜索时间缩小到相对于经典算法来说它起到了二次加速的效果,可将刑事方面采用刑讯逼供等非法方法收集的刑事犯罪嫌疑人、被告人供述,违法嫌疑人陈述与辩解和采用暴力威胁等非法方法收集的证人证言、被害人陈述,予以排除;将刑事、民事或行政等方面不符合法定程序,并可能影响司法公正的证据予以提示补正或者做出解释;从而挖掘案件本质,对刑事、民事、行政和其他案件进行精确评估和计算,做出合理判断。

所述数据库,安装于司法机关的法律信息管理系统,只与法律文本量子聚类挖掘系统双向连接,独立于其他程序,只允许法律文本量子聚类挖掘系统读取其中的数据;利用量子的不确定原理、纠缠性和不可克隆的性质,使所有数据处于整体波态,不能精确复制和打扰,防止数据被窃取,也保证被窃取的信息不被破解,于此对所有数据进行保护,所有数据只允许有合法身份人员新增、截取、更新、删除等操作,保证数据的绝对安全。并利用尽可能小的冗余度、高度的数据独立性供多个用户共享。

所述法律文书输出系统,安装于司法机关、公安机关、监察机关、仲裁机构;通过利用以上提到的量子的性质设置权限,对于预处理和精处理阶段的计算结果进行保护,只允许相关合法人员获取。通过量子聚类的叠加性和干涉性,使大规模的不规则的数据文本并行存储和计算,将所有数据文本按照多个幺正变换同时变化,从而使量子计算同时作用在多个数据文本上,计算并输出案件可供参考的所有可能性。

所述法律文书输出系统与电脑、打印机、客户终端等设备连接,输出不同阶段的计算结果供用户阅读、查看、打印、拷贝和检索,包括输出预处理阶段的量子聚类挖掘结果和数据,用于司法机关、公安机关、监察机关、仲裁机构在做出初步判断前参考和推理等;输出精处理阶段的量子聚类挖掘结果和数据,用于司法机关、公安机关、监察机关、仲裁机构在做出最终判断前参考和推理;输出审核阶段的量子聚类挖掘结果和数据,作为最终结果,生成相关法律文书;

所述相关法律文书包括刑事、民事或行政等其他方面判决书,裁定书,决定书,和解协议书,调解书,裁决书,仲裁协议,并将可公开的判决书通过互联网等渠道推送至相关网址供用户阅读和监督。

一种法律文本的量子聚类方法,法律文本通过法律文书输入系统输入并由法律文本量子聚类挖掘系统进行预处理和清洗并存入数据库;再由法律文本量子聚类挖掘系统利用量子聚类挖掘,将进行过预处理的文本进行挖掘处理,并将量子数据挖掘计算结果作为输出结果,根据刑事、民事、行政和其他方面的相关规定生成相关法律文书存入数据库;最后将生成的相关法律文书通过法律文书输出系统推送至相关机关或单位,供用户阅读与使用。

一种法律文本的量子聚类方法,将有关法律文本和与案件事实有关的法律文本作为整体,运用量子聚类方法建立一个稳定的模型,将所有文本进行最佳聚类、独立彼此变量、快速处理文本数据,从而对刑事、民事、行政和其他案件进行精确评估和计算。该系统利用量子聚类方法的优势,挖掘案件本质、法律价值和社会价值等做出合理判断。

本发明一种法律文本的量子聚类系统及方法,有益效果如下:

1、本发明能够高效地处理大规模无序法律文本的快速计算问题。量子搜索算法,它采用并行处理,可以将搜索时间缩小到相对于经典算法来说它起到了二次加速的效果。只需进行计算次,就可以以接近100%的概率查询到所需要的数。量子聚类的于法律文本的量子聚类分析有预处理部分,可以提高判定法律事件的精确度和处理效率,可同时处理刑事、民事、行政和其他等不同类案件。随时输出案件在预处理、精处理和审核阶段的所有计算结果,方便同时处理大量案件。审核阶段的计算结果可直接生成刑事、民事或行政等其他方面判决书,裁定书,决定书,和解协议书,调解书,裁决书,仲裁协议等,可供相关人员参考或直接使用。大大减少司法机关、公安机关、监察机关、仲裁机构等相关机关部门的工作量。

2、本发明能够发现几乎任意形状的聚类簇,具有很强的分辨性。通过量子聚类具有可伸缩性、同时处理不同类型数据、快速发现任意形状的聚类、决定输入参数的领域知识最小化、高维度、基于约束的聚类、可解释性和可用性等特点,将刑事、民事、行政和其他案件抽象的文本数据中相似度高的,难以区分的文本数据进行聚类,分到不同的簇中,并由此判定案件性质。量子聚类是由数据分析驱动,加之量子聚类独特的状态叠加性、干涉性等,处理法律文本数据的能力极强,抗干扰能力极强,近似可以认为不受法律文本数据多少的影响。进而对对刑事、民事、行政和其他案件进行精确评估和计算,做出合理解决方案。

3、本发明处理噪声的能力很强,具有高度的准确性,减少误判和错判。量子聚类算法能够有效处理"噪声"数据、对输入记录的顺序不敏感、高维度、基于约束的聚类、可解释性和可用性等特征,可以快速挖掘相似信息的分布,发现隐藏信息,提高运算速度这对于加快信息检索的效率,提高工作效率具有重要的意义。该法律文本的量子聚类方法与系统集预处理、精处理与审核于一体,将所有法律文本作为一个整体,以量子聚类特有的方法建立一个稳定的模型,对所有文本进行最佳聚类、独立彼此变量、快速处理。利用量子具有独特的运算方式,以及独有的叠加性,很高的并行性,相干性和纠缠性等完全超乎人类想象的特性以及高深的运算法则,快速挖掘相似信息的分布,发现隐藏信息,提高运算速度这对于加快信息检索的效率。深度挖掘文本中的数据,按照幺正变换同时处理多个数据,挖掘难以被发现的隐藏信息,计算出高精度、高准确性的方案,并根据法律准则更加准确的定性法律事件,将案件中难以区分,难以辨别的内容区分并分组,准确定位其性质和特征。预处理、精处理与审核三步环环相扣,紧密联系,保证证据成链,细节处理到位,全面准确的分析案件的全部过程和主要情节。

4、本发明可伸缩性好,应用领域广泛,参考价值大。通过量子聚类的叠加性和干涉性,使大规模的不规则的数据文本并行存储和计算,将所有数据文本按照多个幺正变换同时变化,从而使量子计算同时作用在多个数据文本上,计算并输出案件可供参考的所有可能性和可行方案,为用户提供多种参考和处理方案,无论对于大数据集还是小数据集均是有效的。可根据不同部门不同地区受理的案件,有针对性的处理由司法机关、公安机关、监察机关、仲裁机构等部门所管辖的刑事类、民事类、行政类和其他一般违法案件。不同部门、不同地区所有数据和计算程序相对独立。司法机关、公安机关、监察机关、仲裁机构等部门各司其职,建立一个完整的法律网络。

5、本发明具有很强的保密性,确保了聚类分析时隐私数据的安全性。量子聚类的纠缠性、不确定性和不可复制性使得所有文本数据状态波函数处于不确定状态,各成分波函数间具有非定域和关联性,同时所有文本数据不能精确复制,也不能在不打扰该状态的情况下观察数据,这也就保证所有文本数据不被窃取,即使被窃取也无法破解其中的内容。其数据库也独立于其他程序,所有数据只允许有合法身份人员新增、截取、更新、删除等操作。对在网络上依法公开的涉及当事人、证人等个人信息和涉及商业秘密、国家秘密的法律文书进行技术性处理,保证相关隐私和秘密不被泄露。司法机关、公安机关、监察机关、仲裁机构的工作人员只有通过每个人独有的信息登录,并记录和监控每个人每次登录数据,防止相关工作人员或其他无关人员篡改数据,以保证数据库所有信息绝对安全。

附图说明

图1为本发明的系统结构示意图。

图2为本发明的系统运行说明图。

图3为本发明的量子聚类方法流程图。

具体实施方式

如图1所示,一种法律文本的量子聚类系统,包括法律文书输入系统101、法律文本量子聚类挖掘系统102、数据库103、法律文书输出系统104。

所述法律文书输入系统101,安装于司法机关、检察机关和公安机关、仲裁机构等相关单位,用于采集有关法律法规文本、案例判例文本、物证文本、书证文本、笔录文本、视听资料文本、电子数据文本、个人及单位信息文本及其他相关文本并传入法律文本量子聚类挖掘系统102并存储于数据库103。

法律法规文本、案例判例文本、书证文本、笔录文本、个人及单位信息文本可以采用扫描仪,配合光学字符识别ocr(opticalcharacterrecognition)将扫描的法律法规文本、案例判例文本、书证文本、笔录文本、个人及单位信息等文本信息转化成数字信号传入计算机中并储存;优选地,使用平板式扫描仪,分辨率为100-600dpi,扫描速度为黑白/彩色(单面)/140ppm,a4或信纸打印(200/300dpi,双面)/280ipm,扫描幅面可用a4、a3等。

物证文本包括作案工具、赃款赃物、脚印、指纹、血迹、体液、毛发、生物样本、清单、图片,照片、相关物品复制品、复制件等,物证文本的获取可以经公安机关进行鉴定分析后生成鉴定报告,然后利用以上所属平板式扫描仪扫描,将数据存入计算机;

视听资料文本指运用录像、录音等科学技术手段记录下来的有关案件事实的材料,包括与案件真实情况有关的以录音、录像、光盘、监控等。其中的音频资料可以通过adobeaudition、录音笔、手机等设备将现场的声音进行录制,然后保存为mp3、wav、flac等音频格式;图片、视频资料可以通过相机,使用电荷耦合元件(ccd)或cmos(complementarymetaloxidesemiconductor)成像元件转化成数字信号传入计算机中并储存;优选地,使用超高清像素的数码相机或摄像机,将案件的图片和视频保存为mp4、avi、jpg等格式;电子数据文本包括的电子邮件、电子数据交换、网上聊天记录、博客、微博客、手机短信、电子签名、域名等相关电子数据资料,可以通过公安机关获取;

所述法律文书输入系统101,包含安装于各个银行网点等相关场所的扫描仪和计算机与安装于司法机关、检察机关和公安机关、仲裁机构等相关单位的分布式服务器。优选地,使用以上所属平板扫描仪,分辨率为100-600dpi,扫描速度为黑白/彩色(单面):140ppm,a4或信纸打印(200/300dpi,双面):280ipm,扫描幅面一般为a4、a3等,配合光学字符识别ocr(opticalcharacterrecognition)将文本信息转化为数字信号传入计算机中并储存;优选地分布式服务器,使用cpu为4×xeone7-4820v22ghz8-core机架式服务器,不少于64gbram,标配硬盘容量300gb,最大可扩展到14.4tb,用于将分布的不同格式的数据进行处理及必要的清洗,计算机中储存的数据和处理后的数据传入法律文本量子聚类挖掘系统102。

所述法律文本量子聚类挖掘系统102,集预处理、精处理、与审核于一体,安装于司法机关的法律信息管理系统,与数据库103连接。法律文本量子聚类挖掘系统102第一步将法律文书输入系统101传入的分布式数据,通过预处理算法完成分布式数据的整理和聚类,包括数据清理、数据集成、数据变换、数据归约等,处理后的数据存入数据库103中;第二步读取数据库103中的数据,对案件进行深层次的量子聚类挖掘和审核;第三步将深层次量子聚类挖掘和审核的结果存入数据库103中,并传入法律文书输出系统104。

所述法律文本量子聚类挖掘系统102的量子聚类挖掘,将量子聚类挖掘应用于法律分析中,将抽象的法律文本分成由类似的对象组成的多个类,从而衡量不同法律文本数据源中的相似性,把法律文本数据源分到不同的簇中,进而对法律文本进行量子化,从而挖掘案件本质,对刑事、民事、行政和其他案件进行精确评估和计算,做出合理判决。

所述数据库103,安装于司法机关的法律信息管理系统,只与法律文本量子聚类挖掘系统102双向连接,独立于其他程序,为存储系统,用于存储法律文本量子聚类挖掘系统102预处理后的数据与深层次量子聚类挖掘和审核的结果。数据库103包含一个中心服务器、磁盘阵列和数据库软件,对于中心服务器,优选地,使用cpu为4×xeone5-46032ghz4-core刀片式服务器,不少于256gbram,标配硬盘容量300gb,该中心服务器用于辅助法律文本量子聚类挖掘系统102进行预处理和量子聚类挖掘;对于磁盘阵列,优选地,使用高容量3.5寸ssd/fc/sas/sata混合磁盘阵列,最大存储容量1pb,管理节点/数据节点不少于1mgmt/19data,网络dual-port10gbe(data)/dual-port1gbe(mgmt),用于存储数据;对于数据库软件,优选地,为oracledatabase12c。

所述法律文书输出系统104,安装于司法机关、检察机关和公安机关、仲裁机构等相关单位,通过设置权限,对于预处理和精处理阶段的计算结果进行保护,只允许相关合法人员获取。法律文书输出系统104与电脑、打印机、客户终端等设备连接,输出的计算结果可供不同用户阅读参考,如:供侦察机关在做出审查起诉或公安机关在做出处罚决定书前参考和推理、供审判机关在审查起诉后参考和推理、生成的判决书和处罚决定供大众阅读和监督。

一种法律文本的量子聚类系统,能够通过法律文书输入系统101将分布于各个银行网点、司法机关、检察机关和公安机关、仲裁机构等相关单位的数据收集起来,并将分布的不同格式的数据进行处理及必要的清洗,处理后的数据传入法律文本量子聚类挖掘系统102,经法律文本量子聚类挖掘系统102预处理完成分布式数据的整理和聚类,然后存入数据库103中,法律文本量子聚类挖掘系统102提取数据库中存储的数据,进行深层次的量子聚类挖掘和审核,将结果存入数据库103中并传入法律文书输出系统104,法律文书输出系统104与电脑、打印机、客户终端等设备连接,输出不同阶段的计算结果供不同用户阅读、查看、打印、拷贝和检索。

如图2所示,为本发明实例提供的一种法律文本的量子聚类系统的系统运行说明图,包括由法律文书输入系统输入的法律法规文本、案例判例文本、物证文本、书证文本、笔录文本、视听资料文本、电子数据文本、个人及单位信息文本及其他相关文本,储存文本数据的数据库,进行预处理、量子聚类挖掘和审核的法律文本量子聚类挖掘系统,以及生成刑事诉讼判决书、民事诉讼判决书、行政诉讼判决书和处罚决定的法律文书输出系统。

法律法规文本指中华人民共和国现行有效的法律、行政法规、司法解释、地方法规、地方规章、部门规章及其他规范性文件以及对于该等法律法规的不时修改和补充。

案例判例文本包括最高人民法院发布的相关指导性案例或判例或汇编,党和国家权力机关发布的案例,中国指导性案例裁判规则全库,中国法院网或行业协会发布的指导性案例,中华全国律师协会、法律从业机构、裁判文书网等发布的案例信息。

物证文本指证明案件真实情况的一切物品和痕迹,包括作案工具、赃款赃物、脚印、指纹、血迹、体液、毛发、生物样本、清单、图片,照片、相关物品复制品、复制件等;

书证文本指以文字、符号和记录或者表达的思想内容证明案件事实的文书,如罚款单据、财产没收单据、营业执照、商标注册证、档案、报表、图纸、会计账册、专业技术资料、合同书、遗嘱、授权委托书、房产证、结婚证、借据、日记等;

笔录文本指证人,刑事犯罪嫌疑人,违法嫌疑人,被侵害人或目击证人的详细身份和话语记录的文字,包括被害人陈述,犯罪嫌疑人,刑事被告人供述、辩解,违法嫌疑人陈述和申诉,证人证言,鉴定意见笔录,现场记录,勘验笔录,检查笔录,侦查笔录,庭审笔录等。证人是指直接或者间接了解案件情况的单位和个人,认定证人证言,可以通过对证人的智力状况,品德,知识,经验和专业技能等,综合分析,作出裁判;当事人的陈述是指当事人就自己的经历和案件事实向法院作出的叙述,承认和陈辞;鉴定意见是指鉴定机构或者人民法院指定具有专门知识或者技能的人,对案件中出现的专门性问题,通过分析、检验、鉴别等方法作出的书面意见,包括医疗事故鉴定,产品质量鉴定药品质量鉴定,审计,分析鉴定,伤残鉴定等;勘验笔录是指人民法院对能够证明案件事实的现场,或者不能不便拿到人民法院的物证,就地进行分析检验、勘察后作出的记录;

视听资料文本指运用录像、录音等科学技术手段记录下来的有关案件事实的材料,如录音机录制的当事人的谈话、用摄像机拍摄的当事人形象及其活动等,包括电脑与互联网中存储的数据材料,视频文件和音频文件,视听资料应注明制作方法,制作时间,制作人和证明对象等,音频资料应当附有该声音内容的文字记录;

电子数据文本指以电子计算机或其他高科技设备所存储的信息证明案件真实情况的资料,包括电子邮件、电子数据交换、网上聊天记录、博客、微博客、手机短信、电子签名、域名等相关电子数据资料,包括存储在电子介质中的录音资料和影像资料;

个人及单位信息文本包括当事人,法定代理人,委托代理人,证人,司法机关、检察机关、公安机关、仲裁机构从业人员等个人信息及其所在机关单位信息;

法律文书输入系统包含安装于各个银行网点等相关场所的扫描仪和计算机与安装于司法机关、检察机关和公安机关、仲裁机构等相关单位的分布式服务器。优选地,使用以上所属平板扫描仪,配合光学字符识别ocr将文本信息转化为数字信号传入计算机中并储存;优选地分布式服务器,使用cpu为4×xeone7-4820v22ghz8-core机架式服务器,不少于64gbram,标配硬盘容量300gb,用于将分布的不同格式的数据进行处理及必要的清洗,对法律文本进行量子态描述,形成任意形状的簇,分类并删除偏差多的文本,建立关联规则,挖掘关联关系,聚类挖掘结果的图形化输出;服务器中计算的中间结果数据和处理后的数据存入数据库;

数据库,安装于司法机关的法律信息管理系统,包含一个中心服务器、磁盘阵列和数据库软件,对于中心服务器,优选地,使用cpu为4×xeone5-46032ghz4-core刀片式服务器,不少于256gbram,标配硬盘容量300gb;对于磁盘阵列,优选地,使用高容量3.5寸ssd/fc/sas/sata混合磁盘阵列,最大存储容量1pb,管理节点/数据节点不少于1mgmt/19data,网络dual-port10gbe(data)/dual-port1gbe(mgmt),中心服务器与磁盘阵列通过fddi联接;对于数据库软件,优选地,为oracledatabase12c。

如图3所示,为本发明实例提供的一种法律文本的量子聚类方法与系统的方法流程图,法律文本量子聚类挖掘系统,安装于司法机关的法律信息管理系统,先将法律文书输入系统传入的分布式数据通过预处理算法完成分布式数据的整理和聚类,处理后的数据存入数据库中,再读取数据库中的数据,对案件进行深层次的量子聚类挖掘和审核,最后将深层次量子聚类挖掘和审核的结果存入数据库中,并传入法律文书输出系统,法律文本量子聚类挖掘系统的量子聚类挖掘有五步。

第一步,要将相关法律文本的量子聚类算法中数据清0,开始做好第一步的准备。设置聚类标准度a,法律文本是否符合要求估计值x,每个法律文本所具有的聚类方式p=0,所有相关数据清零后,将法律文本导入量子聚类算法进行事件处理。

量子聚类算法共包含m个法律文本,其中作为样本的法律文本有n个,聚类标准度为a,法律文本是否符合要求估计值为x,每个法律文本可有p种聚类方式,也就是dimention(m)。

第二步,相应的量子聚类法律文本从不同输入方式文本相关数值,法律文本输入的不同方式

y=∫(1,m){p(n1–n2)}。

所述法律文本量子聚类挖掘系统的量子聚类挖掘,量子聚类算法用量子态波函数以|0>到|1>之间的任意一种聚类方式来表示法律文本|w>,可以是法律文本的叠加,也可以是法律文本性质的增强;根据量子聚类定义|w>是|0>及|1>的组合形式,可以为实数区域组合,也可以为复数区域。

|w>=a|0>+b|1>

其中a和b均为复数,且满足条件|a|2+|b|2=1;则量子态就是00、01、10、11

这四个状态的叠加态,此时:

|w>=a|00>+b|01>+c|10>+d|11>

其中a,b,c,和d均为复数,且满足条件|a|2+|b|2+|c|2+|d|2=1,所以量子算有独特的叠加性。

第三步,计算基于法律文本的量子聚类算法定义矩阵,a获得法律文本量子聚类性能并计算由量子聚类算法所推断是否为相应法律文本的概率。聚类性能u={cosβcosβ–sinβsinβ},β为量子聚类中量子旋转的角度,其方向和大小由具体的法律文本所决定。根据量子聚类求得是相应法律文本的概率为

p={(α(n1,n2)*x)/∫(1,m)p(n1–n2)};

将n个样本按相同的概率及量子聚类性能分为k类,并删除量子聚类概率偏差太多的法律文本条框。

第四步,量子聚类算法现根据数据求出数据分布的势能函数,

v(x)=[(θ2/2)▽θ]/θ

θ为文本数据分布函数(势能最小的点就可以确定为聚类的中心,则量子聚类中心mid=low;这样便可分析出样本点中最有可能的法律文本low=min(|w>),就可以对法律事件进行定性。

聚类算法就是按照同一个簇中相对相似度高的,不同簇中相似度的原则将不同的法律文本数据对象分成不同的组别,并得到其聚类中心,法律文本数据可以被分成许多对不同的组,s={s(1),s(2),s(3)…,s(k)}。

则满足:

s(1)∪s(2)∪s(3)…=m;

第五步:得出其法律文本属性及定性。求出样本点中最有可能的法律文本low=min(|w>),则另聚类中心mid=low;输出所有聚类方式聚类中心mid和聚类结果。

以上实施方式仅适用于说明本公开,而并非对公开的限制,有关技术领域的普通技术人员,在不脱离本公开的精度和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本公开的范畴,本公开的专利保护范畴应自权利要求限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1