一种用于司法公开的内外网数据一致性的核验方法

文档序号:26738698发布日期:2021-09-22 22:34阅读:65来源:国知局
一种用于司法公开的内外网数据一致性的核验方法

1.本发明涉及信息处理技术领域,尤其涉及一种用于司法公开的内外网数据一致性的核验方法。


背景技术:

2.随着司法公开的不断推进,大量诸如裁判文书类的司法信息需要及时、准确地向互联网发布。而保障司法系统内网数据和外网数据的一致性则可以实现司法系统内网与外网的共生互动,建设完整配套的信息与服务的供给体系,使网上司法成为对外发布信息的重要窗口,成为司法内部沟通的主渠道,成为服务审判工作的重要工作方式,为审判工作提供一个新的平台。
3.由于司法系统的内网与外网之间存在诸如网闸类的隔离设施,司法公开数据需要通过复杂的过程和环节才能到达司法公开网站,在此过程中,司法公开数据可能会由于各种原因出现数据丢失的情况。例如司法公开数据在传递到大数据平台的过程中出现的数据丢失情况或司法公开数据到达大数据平台的队列时由于队列溢出导致数据丢失情况。
4.此外,内网数据在到达公开网站时,还会被重组和重新渲染,数据格式发生改变。例如将内网中的结构数据转化为非结构化数据进而在外网中进行展示。然而重组渲染过程是公开网站按照特定的模式进行的,因此在面对某些裁判文书数据时,可能会出现错误的重组渲染信息。


技术实现要素:

5.本发明的实施例提供了一种用于司法公开的内外网数据一致性的核验方法,用于解决现有技术中存在的问题。
6.为了实现上述目的,本发明采取了如下技术方案。
7.一种用于司法公开的内外网数据一致性的核验方法,包括:
8.s1对司法系统待公开的内网数据进行封装,获得文书数据报;
9.s2将多个文书数据报进行封装,获得包数据报;
10.s3通过核验文书数据报和包数据报的结构和自描述信息,核验文书数据报和包数据报的内网数据的完整性与一致性。
11.优选地,步骤s1包括:
12.s101基于司法系统待公开的内网数据,构建该司法系统待公开的内网数据的描述信息和关键信息;
13.s102将该内网数据的描述信息、内网数据的关键信息和对应的司法系统待公开的内网数据进行结合获得文书数据报;
14.内网数据的描述信息包括文书结构、文书编码方式、文书类别、该描述信息首部长度、该描述信息总长度、第一首部校验码、文书id和第一模糊哈希值;
15.内网数据的关键信息包括案号、裁决日期、案件类型、诉讼请求、案件名称、审理法
院、原告和被告。
16.优选地,步骤s2包括:
17.s201将多个文书数据报与各自的文书数据报的描述信息进行封装,获得包数据;
18.s202基于该包数据,构建包数据的描述信息;
19.s203将该包数据的描述信息和包数据进行结合,获得包数据报;
20.文书数据描述信息包括文书头部标识、文书大小、文书id;
21.包数据的描述信息包括包id、文书数量、该描述信息总长度、该描述信息首部长度、文书id和第二首部校验码。
22.优选地,步骤s3包括:
23.s301解封装获取的多个包数据报,获得某个包数据报内的包数据的描述信息、包数据、文书数据报描述信息、文书数据报、内网数据的描述信息、内网数据的关键信息和对司法系统待公开的内网数据;
24.s302基于该某个包数据的描述信息,计算获得第三首部校验码,验证该第三首部校验码与包数据的描述信息的第二首部校验码是否一致,若是则执行子步骤s303,否则,重新获得该某个包数据报;
25.s303验证重新获得该某个包数据报中的包数据中的文书数量与包数据的描述信息的文书数量是否一致,若是则执行子步骤s304,否则,重新获得该某个包数据报;
26.s304验证重新获得该某个包数据报中的包数据的描述信息中的文书id与文书数据报的描述信息的文书id是否一致,若是则执行子步骤s305,否则,重新获得该某个文书数据报;
27.s305通过该某个包数据报中的司法系统待公开的内网数据的描述信息和关键信息计算第四首部校验码,验证该第四首部校验码与司法系统待公开的内网数据的描述信息的第一首部校验码是否一致,若是则执行子步骤s306,否则,重新获得通过该某个包数据报中的文书数据报;
28.s306验证该某个包数据报中的包数据报的内网数据的关键信息和内网数据中提取到的关键信息是否一致,若是则执行子步骤s307,否则,重新获得该某个包数据报中的文书数据报;
29.s307分别对该某个包数据报内的内网系统待公开的内网数据进行分片模糊哈希运算,拼接获得第二模糊哈希值;
30.s308对该拼接后第二模糊哈希值与内网数据的描述信息的第一模糊哈希进行编辑距离运算获得相似度值,将该相似度值与预设阈值进行比较,若该相似度值大于预设阈值则结束执行核验方法,若该相似度小于预设阈值则重新获得该某个包数据报中的文书数据报。
31.由上述本发明的实施例提供的技术方案可以看出,本发明提供一种用于司法公开的内外网数据一致性的核验方法,将司法系统待公开的内网数据进行封装形成文书数据报,将多个文书数据报封装形成包数据报,利用包数据报及文书数据报的结构和自描述信息,核验数据的完整性与一致性。本发明提供的方法,解决了内外网传递过程中裁判文书数量不一致情况以及数据重组、渲染过程中出现的数据内容不一致的问题,能够保障司法系统内网向外部公开的数据和外网数据的一致性,适用于法院司法系统内网向外网传递的裁
判文书信息的受控发布过程。
32.本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
33.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的处理流程图;
35.图2为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的一种优选实施例的流程图;
36.图3为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的文书数据报格式图;
37.图4为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的包数据格式图;
38.图5为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的包数据报格式图;
39.图6为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的内网数据格式图;
40.图7为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的内网数据格式图;
41.图8为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的内网数据关键信息格式图;
42.图9为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的内网数据描述信息格式图;
43.图10为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的封装后文书数据报具体格式图;
44.图11为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的文书数据报描述信息格式图;
45.图12为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的包数据描述信息格式图;
46.图13为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的封装后的包数据报具体格式图;
47.图14为本发明提供的一种用于司法公开的内外网数据一致性的核验方法的数据校验流程图。
具体实施方式
48.下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
49.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
50.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
51.为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
52.参见图1,本发明提供的一种用于司法公开的内外网数据一致性的核验方法,包括如下步骤:
53.s1对司法系统待公开的内网数据进行封装,获得文书数据报;
54.s2将多个所述文书数据报进行封装,获得包数据报;
55.s3通过核验所述文书数据报和包数据报的结构和自描述信息,核验所述文书数据报和包数据报的内网数据的完整性与一致性。
56.进一步的,步骤s1的封装过程具体如下:
57.对司法系统待公开的内网数据,构建待公开内网数据描述信息(文书长度、总长度、首部长度等信息)与关键信息(文书原告、文书被告、审理法院、审理日期等信息),将描述信息、关键信息与待公开的内网数据进行结合形成文书数据报,文书数据报形式如图3所示。
58.步骤s2的封装过程具体如下:
59.构建文书数据报描述信息(文书大小、文书头部标识符、文书id等信息),将多个文书数据报与各自的描述信息封装在一起形成包数据,构建包数据描述信息(包id、文书数量、首部长度等信息),将包数据描述信息与包数据结合形成包数据报,包数据格式如图3所示,包数据报形式如图5所示。
60.步骤s3校验的过程具体如下:
61.数据的完整性与一致性核验包括两个方面,分别是数量一致性核验(即数据报的结构核验)与内容一致性核验(即数据报的自描述信息核验);数量一致性核验可发现由发布机制和发布系统造成的发布缺失情况;数量一致性核验具体过程如下:解封装包数据报,获取包数据描述信息与包数据,利用包数据描述信息与外网中接收到的文书数据数量进行比对;内容一致性核验可发现由于发布系统的重组、渲染等过程造成的数据不一致情况;内
容一致性核验具体过程如下:解封装包数据,获取文书数据报描述信息与文书数据报,解封装文书数据报,获取原始内网数据与原始内网数据描述信息与关键信息,利用重组渲染后的文书数据提取出文书中相应的关键信息,将提取的文书关键信息与原始内网数据关键信息进行对比。
62.在一个具体的优选实施例中,步骤s1具体包括如下子步骤:
63.s101基于司法系统待公开的内网数据,构建该司法系统待公开的内网数据的描述信息和关键信息;
64.s102将该内网数据的描述信息、内网数据的关键信息和对应的司法系统待公开的内网数据进行结合获得文书数据报。
65.在本实施例中,
66.采用的法律文书数据集是网络中爬取到的法律文书,法律文书的格式如图6所示,内网数据则是利用法律文书生成的,生成的内网数据如图7所示。
67.封装过程中内网数据关键信息格式如图8所示,内网数据描述信息如图9所示,封装后文书数据报具体格式如图10所示。封装后各个字段的含义以及长度如下所示:
68.内网数据描述信息由八部分组成,这八部分分别是文书结构、文书编码方式、文书类别、(该内网数据的)描述信息首部长度、(该内网数据的)描述信息总长度、第一首部校验码、文书id和第一模糊哈希值。
69.①
文书结构,占1个字节,结构化文书使用0表示,非结构化数据使用1表示,结构化与非结构化数据使用2表示
70.②
文书编码方式:占1个字节,unicode编码用0表示,utf

8编码使用1表示,gb2312编码使用2表示,big5编码使用3表示,gbk编码使用4表示,gb18030编码使用5表示。
71.③
文书类别:占2个字节,民事案件使用0表示,刑事案件使用1表示,行政案件使用2表示
72.④
首部长度,占2个字节,代表内网数据描述信息与内网数据关键信息长度之和
73.⑤
总长度,占2个字节,代表首部长度与原始内网数据部分长度之和
74.⑥
第一首部校验码,占2个字节,是对原始内网数据描述信息与关键信息的校验
75.⑦
文书id,占2个字节,是传输过程中原始内网数据的唯一id
76.⑧
第一模糊哈希值:占2个字节,是对原始内网数据分片模糊哈希之后的结果拼接
77.内网数据关键信息由七部分组成,这七部分分别是案号、裁决日期、案件罪名、诉讼请求、案件名称、审理法院、案件原告、案件被告、案件罪名、裁判日期,具体属性如下:
78.①
案号,占2个字节,是原始内网数据对应的案件号码
79.②
裁决日期,占4个字节,由年月日格式组成,如20191231,用4bit表示一位。
80.③
案件类型,占20个字节,表示为中文字符的unicode编码。
81.④
案件名称,占40个字节,表示为中文字符的unicode编码。
82.⑤
审理法院,占40个字节,表示为中文字符的unicode编码。
83.⑥
原告,占20个字节,表示为中文字符的unicode编码。
84.⑦
被告,占20个字节,表示为中文的unicode编码。
85.进一步的,步骤s2的过程具体包括如下子步骤:
86.s201将多个所述文书数据报与各自的所述的内网数据的描述信息进行封装,获得
包数据;
87.s202基于该包数据,构建包数据的描述信息;
88.s203将该包数据的描述信息和包数据进行结合,获得所述包数据报。
89.文书数据报描述信息格式如图11所示,包数据描述信息格式如图12所示,封装后的包数据报具体格式如图13所示。封装后各个字段的含义以及长度如下所示:
90.文书数据报描述信息由三部分组成,这三部分别是文书头部标识,文书大小,文书id。这三部分的具体属性如下:
91.①
文书头部标识,占4个字节,用以表示文件的开端,采用固定值0x04034b50表示。
92.②
文书id,占2个字节,是原始内网数据传输过程中唯一id
93.③
文书大小,占2个字节,代表文书数据报大小,不大于65535字节
94.包数据描述信息由六部分组成,这六部分分别是包id、携带的文书数量、对应的文书id、(该包数据描述信息的)首部长度、(该包数据描述信息的)总长度、第二首部校验码。这六部分的具体属性如下所示:
95.①
包id,占2个字节,是传输过程中包唯一id;
96.②
携带的文书数量,占1个字节,包携带的文书数量;
97.③
首部长度,占2个字节,包数据描述信息部分长度;
98.④
第二首部校验码,占2个字节,是对包数据描述信息的校验;
99.⑤
总长度,占4个字节,是包数据描述信息与其所携带的包数据的长度总和;
100.⑥
文书id,占2个字节,是传输过程中原始内网数据的唯一id。
101.进行了包数据报的封装后,将该包数据报发送到外网,在本实施例中,根据待公开的数据量,制作多个包数据报,利用网闸或其它已知的手段,将多个包数据报传递到外网。
102.更进一步的,步骤s3的执行过程具体包括如下子步骤:
103.s301解封装获取的多个包数据报,获得某个包数据报内的包数据的描述信息、包数据、文书数据报描述信息、文书数据报、内网数据的描述信息、内网数据的关键信息和对司法系统待公开的内网数据;
104.s302基于该某个包数据的描述信息,计算获得第三首部校验码,验证该第三首部校验码与包数据的描述信息的第二首部校验码是否一致,若是则执行子步骤s303,否则,重新获得该某个包数据报;
105.s303验证重新获得该某个包数据报中的包数据中的文书数量与包数据的描述信息的文书数量是否一致,若是则执行子步骤s304,否则,重新获得该某个包数据报;
106.s304验证重新获得该某个包数据报中的所述包数据的描述信息中的文书id与所述文书数据报的描述信息的文书id是否一致,若是则执行子步骤s305,否则,重新获得该某个文书数据报;
107.s305通过该某个包数据报中的所述司法系统待公开的内网数据的描述信息和关键信息计算第四首部校验码,验证该第四首部校验码与所述司法系统待公开的内网数据的描述信息的第一首部校验码是否一致,若是则执行子步骤s306,否则,重新获得通过该某个包数据报中的所述文书数据报;
108.s306验证该某个包数据报中的所述包数据报的内网数据的关键信息和内网数据中提取到的关键信息是否一致,若是则执行子步骤s307,否则,重新获得该某个包数据报中
的所述文书数据报;该内网数据中提取到的关键信息即待公开的内网数据中的原始的关键信息(可以通过已知算法提取),在本子步骤中,其内容应当与包数据报的内网数据的关键信息相对应,如果发现不一致,则重新获得该某个包数据报中的所述文书数据报;
109.s307分别对该某个包数据报内的所述内网系统待公开的内网数据进行分片模糊哈希运算,拼接获得第二模糊哈希值;
110.s308对该拼接后第二模糊哈希值与所述内网数据的描述信息的第一模糊哈希进行编辑距离运算获得相似度值,将该相似度值与预设阈值进行比较,若该相似度值大于预设阈值则结束执行所述核验方法,若该相似度小于预设阈值则重新获得该某个包数据报中的所述文书数据报。
111.在本实施例中,执行上述解封装和校验过程是外网一侧。
112.综上所述,本发明提供一种用于司法公开的内外网数据一致性的核验方法,将司法系统待公开的内网数据进行封装形成文书数据报,并构建文书数据报描述信息;将多个文书数据报与各自的描述信息封装在一起形成包数据,并构建包数据描述信息;将包数据描述信息与包数据结合形成包数据报并传递到外网。外网将接收到的包数据报按照描述信息进行解封装,利用包数据报及文书数据报的结构和自描述信息,核验数据的完整性与一致性。本发明提供的方法,解决了内外网传递过程中裁判文书数量不一致情况以及数据重组、渲染过程中出现的数据内容不一致的问题,能够保障司法系统内网向外部公开的数据和外网数据的一致性,适用于法院司法系统内网向外网传递的裁判文书信息的受控发布过程。
113.本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
114.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
115.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
116.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1