一种量刑预测方法及装置与流程

文档序号:31054307发布日期:2022-08-06 11:05阅读:777来源:国知局
一种量刑预测方法及装置与流程

1.本技术涉及信息技术领域,尤其涉及一种量刑预测方法及装置。


背景技术:

2.目前,法律判决预测主要涉及三个子任务:即罪名、法条和刑期的预测。刑期的预测过程是十分复杂的,不仅要考虑被告人的基本状态和作案过程,还要考虑被告人是否积极认罪,自首等相关的因素。首先,现有技术方案缺失外部信息,只重视案件的犯罪事实描述。犯罪事实描述在进行罪名预测和法条预测时确实起着不可替代的作用,但是在刑期预测的过程中,仅仅依靠犯罪事实描述中的信息已经不太现实。其次,现有技术方案中,从犯罪事实描述中分别提取出三个子任务分别对应的相关信息,根据单个子任务对应的信息进行预测,没有考虑各个子任务之间的关联关系,导致了判别结果在全面性和准确性方面存在一定的误差。


技术实现要素:

3.本技术实施例提供了一种量刑预测方法及装置,用以解决现有技术中判别结果不全面以及准确性地的问题。
4.第一方面,本技术实施例提供了一种量刑预测方法,包括:
5.获取案件相关信息以及犯罪事实描述文本,所述案件相关信息包括人证、物证、被告人信息、证词、嫌疑人口供以及笔录中至少一项;所述犯罪事实描述文本包括多个篇章,所述多个篇章中每个篇章包括多个分句,所述多个句中每个分句包括多个分词;
6.对所述多个篇章包括的分词进行向量化处理以得到每个分词对应第一词向量,以及对所述案件相关信息包括的分词进行向量化处理以得到每个分词对应的第二词向量;对所述多个篇章包括的第一词向量进行特征提取得到多个篇章中每个篇章的第一特征向量,并根据每个篇章的第一特征向量确定所述每个篇章的预测类别,所述预测类别为法条类别或者罪名类别或刑期类别;
7.对所述案件相关信息包括的第二词向量进行特征提取得到所述案件相关信息的第二特征向量;根据所述多个篇章对应的多个第一特征向量的预测类别以及所述第二特征向量进行法条预测、罪名预测和刑期预测。
8.基于上述方案,在犯罪事实描述文本的基础上引入了案件相关信息共同进行量刑预测,提高了预测效果。同时由于刑期的复杂性,在多任务上引入了拓扑结构,先预测罪名,再预测法条,最后在罪名和法条的基础之上进行刑期的预测,进一步提高了刑期预测的效果。
9.一种可能的实现方式中,对所述多个篇章包括的第一词向量进行特征提取得到多个篇章中每个篇章的第一特征向量,包括:基于第一篇章包括的第一词向量对所述第一篇章中的分词进行过滤处理得到经过滤第一篇章,所述经过滤第一篇章包括的多个分句中的第一词向量均与量刑预测相关,所述第一篇章为所述多个篇章中的任一个篇章;将所述经
过滤第一篇章包括的多个分句进行组合得到多个分句组合,所述多个分句组合中每个分句组合包括至少两个分句;
10.通过第一语义向量编码器对每个分句组合进行特征提取,以得到每个分句组合的词级特征向量;对多个分句组合的词级特征向量进行特征拼接,以得到每个分句组合的语句向量表示;通过第二语义向量编码器每个分句组合的语句向量进行特征提取,以得到每个分句组合的分句级特征向量;对多个分句组合的分句级特征向量进行特征拼接以得到所述第一特征向量。
11.基于上述方案,通过特征提取,获得了各个篇章中多个分词之间的上下文特征以及分句之间的上下文特征。
12.一种可能的实现方式中,所述方法还包括:编码所述经过滤第一篇章包括的多个第一词向量对应的位置向量,所述第一词向量对应的位置向量用于表征所述第一词向量对应的分词在所述第一篇章对应的文本中的位置;将所述经过滤第一篇章包括的多个分词的第一词向量与对应的位置向量进行融合得到第一篇章中多个分词的融合词向量;
13.所述通过第一语义向量编码器对每个分句组合进行特征提取,以得到每个分句组合的词级特征向量,包括:根据第一分句组合包括的多个分词的融合词向量采用第一语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的词级特征向量,所述第一分句组合为所述多个分句组合中的任一个分句组合。
14.基于上述方案,通过对第一词向量与位置向量进行融合,使得在后续编码过程中可以获得每个分词在句子中的相对和绝对的位置信息。
15.一种可能的实现方式中,所述方法还包括:编码所述经过滤第一篇章包括的多个第一语句向量对应的位置向量,所述第一语句向量对应的位置向量用于表征所述第一语句向量对应的分句在所述第一篇章对应的文本中的位置;将所述经过滤第一篇章包括的多个第一语句向量与对应的位置向量进行融合得到第一篇章中多个分句的融合句向量;
16.所述通过第二语义向量编码器对每个分句组合的语句向量进行特征提取,以得到每个分句组合的分句级特征向量,包括:根据第一分句组合包括的多个分句的融合句向量采用第二语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的分句级特征向量,所述第一分句组合为所述多个分句组合中的任一个分句组合。
17.基于上述方案,通过对第一语句向量与位置向量进行融合,使得在后续编码过程中可以获得每个分句在分句组合中的相对和绝对的位置信息。
18.一种可能的实现方式中,所述第一语义向量编码器包括n个注意力网络层、第一神经网络层和第一单头注意力层;所述n个注意力网络层中每个注意力网络层包括第一多头注意力层和第一相加归一化层;n为正整数;
19.所述根据第一分句组合包括的多个分词的融合词向量采用第一语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的词级特征向量,包括:
20.第i个注意力网络层中的所述第一多头注意力层包括的多个注意力模块分别对所述第一分句组合包括的多个分词的融合词向量进行注意力运算,以得到所述多个注意力模块的输出;
21.第i个注意力网络层中的所述第一相加归一化层对所述多个注意力模块的输出结果进行拼接,得到拼接结果;根据第i-1个注意力网络层的输出结果对所述拼接结果进行线
性变换,得到第i个注意力网络层的第一多头注意力层的第一输出结果;i为小于或者等于n的正整数;对所述第i个注意力网络层的第一多头注意力层的第一输出结果进行归一化处理得到第二输出结果,所述第二输出结果用于第i+1个注意力网络层的线性变换;
22.通过所述第一神经网络层对第n个注意力网络层的所述第二输出结果进行特征提取,获得每个分句组合的第一分词的特征矩阵;
23.通过所述第一单头注意力层提取出第一分词的特征矩阵中的特征信息,获得所述第一分句组合的词级特征向量。
24.基于上述方案,通过n个注意力网络层对第一分句组合包括的多个分词进行特征提取,能够捕获到文本中分词与分词之间的长距离特征,能够提取到丰富的上下文语义表征信息,增强对特征的提取能力。
25.一种可能的实现方式中,所述第二语义向量编码器包括n个注意力网络层、第二神经网络层和第二单头注意力层;所述n个注意力网络层中每个注意力网络层包括第二多头注意力层和第二相加归一化层;n为正整数;
26.所述根据第一分句组合包括的多个分句的融合句向量采用第二语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的分句级特征向量,包括:
27.第i个注意力网络层中的所述第二多头注意力层包括的多个注意力模块分别对所述第一分句组合包括的多个分句的融合句向量进行注意力计算,以得到所述多个注意力模块的输出;
28.第i个注意力网络层中的所述第二相加归一化层对所述多个注意力模块的输出结果进行拼接,得到拼接结果;根据第i-1个注意力网络层的输出结果对所述拼接结果进行线性变换,得到第i个注意力网络层的第二多头注意力层的第三输出结果;i为小于或者等于n的正整数;对所述第i个注意力网络层的第二多头注意力层的第三输出结果进行归一化处理得到第四输出结果,所述第四输出结果用于第i+1个注意力网络层的线性变换;
29.通过所述第二神经网络层对第n个注意力网络层的所述第四输出结果进行特征提取,获得每个分句组合的第一分句的特征矩阵;
30.通过所述第二单头注意力层提取出第一分句的特征矩阵中的特征信息,获得所述第一分句组合的分句级特征向量。
31.基于上述方案,通过n个注意力网络层对第一分句组合包括的多个分句进行特征提取,能够捕获到文本中分句与分句之间的长距离特征,能够提取到丰富的上下文语义表征信息,增强对特征的提取能力。
32.在一种可能的实现方式中,所述根据所述多个篇章对应的多个第一特征向量的预测类别以及所述第二特征向量进行法条预测、罪名预测和刑期预测,包括:
33.对所述第二特征向量和所述多个篇章对应的多个第一特征向量中预测类别为法条类别的第一特征向量进行非线性变换获得法条预测向量,根据所述法条预测向量进行法条预测;
34.对所述第二特征向量、所述多个篇章对应的多个第一特征向量中预测类别为罪名类别的第一特征向量以及所述法条预测向量进行非线性变换获得罪名预测向量,根据所述罪名预测向量进行罪名预测;
35.对所述第二特征向量、所述多个篇章对应的多个第一特征向量中预测类别为刑期
类别的第一特征向量、所述法条预测向量以及所述罪名预测向量进行非线性变换获得刑期预测向量,根据所述刑期预测向量进行刑期预测。
36.基于上述方案,在量刑预测时采用拓扑结构,先预测罪名,再预测法条,最后在罪名和法条的基础之上进行刑期的预测,进一步提高了刑期预测的效果。
37.一种可能的实现方式中,所述案件相关信息包括第一数据和第二数据;其中,所述第一数据包括证词、嫌疑人口供以及笔录中的至少一项,所述第二数据包括人证、物证、被告人信息中的至少一项;所述对所述案件相关信息包括的分词进行向量化处理以得到每个分词对应的第二词向量,包括:
38.对所述第一数据包括的分词进行向量化处理以得到第一数据中每个分词对应第二词向量;
39.确定所述第二数据包括的每个分词所属的类别,从数据向量表中确定所述第二数据包括的每个分词所属的类别对应的类别向量;所述数据向量表包括多个类别对应的类别向量;将所述第二数据包括的每个分词所属的类别对应的类别向量确定所述每个分词对应的所述第二词向量。
40.基于上述方案,在犯罪事实描述文本的基础上引入了案件相关信息,并对案件相关信息进行特征提取,通过犯罪事实描述文本的基础上引入了案件相关信息共同进行量刑预测,提高了预测效果。
41.一种可能的实现方式中,所述基于第一篇章包括的第一词向量对所述第一篇章中的分词进行过滤处理得到经过滤第一篇章,包括:
42.通过卷积神经网络对所述第一篇章包括的多个第一词向量进行过滤处理以获得所述经过滤的第一篇章。
43.第二方面,本技术实施例提供了一种量刑预测装置,包括获取单元和处理单元;
44.所述获取单元,用于获取案件相关信息以及犯罪事实描述文本,所述案件相关信息包括人证、物证、被告人信息、证词、嫌疑人口供以及笔录中至少一项;所述犯罪事实描述文本包括多个篇章,所述多个篇章中每个篇章包括多个分句,所述多个句中每个分句包括多个分词;
45.所述处理单元,用于对所述多个篇章包括的分词进行向量化处理以得到每个分词对应第一词向量,以及对所述案件相关信息包括的分词进行向量化处理以得到每个分词对应的第二词向量;对所述多个篇章包括的第一词向量进行特征提取得到多个篇章中每个篇章的第一特征向量,并根据每个篇章的第一特征向量确定所述每个篇章的预测类别,所述预测类别为法条类别或者罪名类别或刑期类别;
46.所述处理单元,还用于对所述案件相关信息包括的第二词向量进行特征提取得到所述案件相关信息的第二特征向量;根据所述多个篇章对应的多个第一特征向量的预测类别以及所述第二特征向量进行法条预测、罪名预测和刑期预测。
47.一种可能的实现方式中,所述处理单元,在对所述多个篇章包括的第一词向量进行特征提取得到多个篇章中每个篇章的第一特征向量时,具体用于:
48.基于第一篇章包括的第一词向量对所述第一篇章中的分词进行过滤处理得到经过滤第一篇章,所述经过滤第一篇章包括的多个分句中的第一词向量均与量刑预测相关,所述第一篇章为所述多个篇章中的任一个篇章;
49.将所述经过滤第一篇章包括的多个分句进行组合得到多个分句组合,所述多个分句组合中每个分句组合包括至少两个分句;
50.通过第一语义向量编码器对每个分句组合进行特征提取,以得到每个分句组合的词级特征向量;
51.对多个分句组合的词级特征向量进行特征拼接,以得到每个分句组合的语句向量表示;
52.通过第二语义向量编码器每个分句组合的语句向量进行特征提取,以得到每个分句组合的分句级特征向量;
53.对多个分句组合的分句级特征向量进行特征拼接以得到所述第一特征向量。
54.一种可能的实现方式中,所述处理单元还用于:编码所述经过滤第一篇章包括的多个第一词向量对应的位置向量,所述第一词向量对应的位置向量用于表征所述第一词向量对应的分词在所述第一篇章对应的文本中的位置;将所述经过滤第一篇章包括的多个分词的第一词向量与对应的位置向量进行融合得到第一篇章中多个分词的融合词向量;
55.所述处理单元,在通过第一语义向量编码器对每个分句组合进行特征提取,以得到每个分句组合的词级特征向量时,具体用于:根据第一分句组合包括的多个分词的融合词向量采用第一语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的词级特征向量,所述第一分句组合为所述多个分句组合中的任一个分句组合。
56.一种可能的实现方式中,所述处理单元还用于:编码所述经过滤第一篇章包括的多个第一语句向量对应的位置向量,所述第一语句向量对应的位置向量用于表征所述第一语句向量对应的分句在所述第一篇章对应的文本中的位置;将所述经过滤第一篇章包括的多个第一语句向量与对应的位置向量进行融合得到第一篇章中多个分句的融合句向量;
57.所述处理单元,在通过第二语义向量编码器对每个分句组合的语句向量进行特征提取,以得到每个分句组合的分句级特征向量时,具体用于:根据第一分句组合包括的多个分句的融合句向量采用第二语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的分句级特征向量,所述第一分句组合为所述多个分句组合中的任一个分句组合。
58.一种可能的实现方式中,所述第一语义向量编码器包括n个注意力网络层、第一神经网络层和第一单头注意力层;所述n个注意力网络层中每个注意力网络层包括第一多头注意力层和第一相加归一化层;n为正整数;
59.所述处理单元,在根据第一分句组合包括的多个分词的融合词向量采用第一语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的词级特征向量时,具体用于:第i个注意力网络层中的所述第一多头注意力层包括的多个注意力模块分别对所述第一分句组合包括的多个分词的融合词向量进行注意力运算,以得到所述多个注意力模块的输出;第i个注意力网络层中的所述第一相加归一化层对所述多个注意力模块的输出结果进行拼接,得到拼接结果;根据第i-1个注意力网络层的输出结果对所述拼接结果进行线性变换,得到第i个注意力网络层的第一多头注意力层的第一输出结果;i为小于或者等于n的正整数;对所述第i个注意力网络层的第一多头注意力层的第一输出结果进行归一化处理得到第二输出结果,所述第二输出结果用于第i+1个注意力网络层的线性变换;通过所述第一神经网络层对第n个注意力网络层的所述第二输出结果进行特征提取,获得每个
分句组合的第一分词的特征矩阵;通过所述第一单头注意力层提取出第一分词的特征矩阵中的特征信息,获得所述第一分句组合的词级特征向量。
60.一种可能的实现方式中,所述第二语义向量编码器包括n个注意力网络层、第二神经网络层和第二单头注意力层;所述n个注意力网络层中每个注意力网络层包括第二多头注意力层和第二相加归一化层;n为正整数;
61.所述处理单元,在根据第一分句组合包括的多个分句的融合句向量采用第二语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的分句级特征向量时,具体用于:第i个注意力网络层中的所述第二多头注意力层包括的多个注意力模块分别对所述第一分句组合包括的多个分句的融合句向量进行注意力计算,以得到所述多个注意力模块的输出;第i个注意力网络层中的所述第二相加归一化层对所述多个注意力模块的输出结果进行拼接,得到拼接结果;根据第i-1个注意力网络层的输出结果对所述拼接结果进行线性变换,得到第i个注意力网络层的第二多头注意力层的第三输出结果;i为小于或者等于n的正整数;对所述第i个注意力网络层的第二多头注意力层的第三输出结果进行归一化处理得到第四输出结果,所述第四输出结果用于第i+1个注意力网络层的线性变换;通过所述第二神经网络层对第n个注意力网络层的所述第四输出结果进行特征提取,获得每个分句组合的第一分句的特征矩阵;通过所述第二单头注意力层提取出第一分句的特征矩阵中的特征信息,获得所述第一分句组合的分句级特征向量。
62.一种可能的实现方式中,所述处理单元,在根据所述多个篇章对应的多个第一特征向量的预测类别以及所述第二特征向量进行法条预测、罪名预测和刑期预测时,具体用于:对所述第二特征向量和所述多个篇章对应的多个第一特征向量中预测类别为法条类别的第一特征向量进行非线性变换获得法条预测向量,根据所述法条预测向量进行法条预测;对所述第二特征向量、所述多个篇章对应的多个第一特征向量中预测类别为罪名类别的第一特征向量以及所述法条预测向量进行非线性变换获得罪名预测向量,根据所述罪名预测向量进行罪名预测;对所述第二特征向量、所述多个篇章对应的多个第一特征向量中预测类别为刑期类别的第一特征向量、所述法条预测向量以及所述罪名预测向量进行非线性变换获得刑期预测向量,根据所述刑期预测向量进行刑期预测。
63.一种可能的实现方式中,所述案件相关信息包括第一数据和第二数据;其中,所述第一数据包括证词、嫌疑人口供以及笔录中的至少一项,所述第二数据包括人证、物证、被告人信息中的至少一项;所述处理单元,在对所述案件相关信息包括的分词进行向量化处理以得到每个分词对应的第二词向量时,具体用于:对所述第一数据包括的分词进行向量化处理以得到第一数据中每个分词对应第二词向量;确定所述第二数据包括的每个分词所属的类别,从数据向量表中确定所述第二数据包括的每个分词所属的类别对应的类别向量;所述数据向量表包括多个类别对应的类别向量;将所述第二数据包括的每个分词所属的类别对应的类别向量确定所述每个分词对应的所述第二词向量。
64.一种可能的实现方式中,所述处理单元,在基于第一篇章包括的第一词向量对所述第一篇章中的分词进行过滤处理得到经过滤第一篇章时,具体用于:通过卷积神经网络对所述第一篇章包括的多个第一词向量进行过滤处理以获得所述经过滤的第一篇章。
65.第三方面,本技术实施例提供了一种量刑预测装置,包括存储器和处理器;
66.所述存储器,用于存储程序指令;
67.所述处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行第一方面以及第一方面中包括的任一种可能的实现方式所述的方法。
68.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行第一方面以及第一方面中包括的任一种可能的实现方式所述的方法。
69.另外,第二方面至第四方面中任一种实现方式所带来的技术效果可参见第一方面以及第一方面不同实现方式所带来的技术效果,此处不再赘述。
附图说明
70.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
71.图1a为本技术实施例提供的系统架构示意图;
72.图1b为本技术实施例提供的服务器结构示意图;
73.图2为本技术实施例提供的一种量刑预测方法的流程示意图;
74.图3为本技术实施例提供的一种案件相关信息特征提取的网络模型示意图;
75.图4a为本技术实施例提供的一种犯罪事实描述文本特征提取的网络模型示意图;
76.图4b为本技术实施例提供的一种犯罪事实描述文本特征提取的流程示意图;
77.图5为本技术实施例提供的一种获取词级特征向量的流程示意图;
78.图6为本技术实施例提供的一种注意力网络层的示意图;
79.图7为本技术实施例提供的一种分类器的结构示意图;
80.图8为本技术实施例提供的一种量刑预测模型的结构示意图;
81.图9为本技术实施例提供的一种量刑预测装置的示意图;
82.图10为本技术实施例提供的另一种量刑预测装置的示意图。
具体实施方式
83.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
84.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
85.需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述
要素的过程、方法、物品或者设备中还存在另外的相同要素。
86.针对现有技术中仅根据案件的犯罪事实描述对刑期进行预测,导致判别结果在全面性和准确性方面存在一定的误差的问题,本技术提供了一种量刑预测方法,在犯罪事实描述文本的基础上增加了案件相关信息,通过对犯罪事实描述文本和案件相关信息两种信息进行编码和特征提取,进而实现量刑预测,可以提高量刑预测的准确度。
87.图1a示例性地示出了本技术实施例所适用的一种系统架构,该系统架构可以包括量刑预测装置。一些实施例中,量刑预测装置可以包括一个或者多个服务器100,图1a中以三个服务器为例。服务器100可以通过实体服务器实现,也可以通过虚拟服务器实现。服务器可以通过单个服务器实现,可以通过多个服务器组成的服务器集群实现。单个服务器或者服务器集群来实现本技术提供的量刑预测方法。可选地,服务器100可以与终端设备相连,接收终端设备发送的量刑预测任务,或者将量刑预测结果发送给终端设备。例如,终端设备可为手机、平板电脑和个人计算机等。
88.作为一种举例,参见图1b所示,服务器可以包括处理器110、通信接口120和存储器130。当然服务器100中还可以包括其它的组件,图1b中未示出。
89.以服务器100与多个终端设备相连接为例,通信接口120用于与不同终端设备进行通信,用于接收终端设备发送的量刑预测任务,或者向终端设备发送量刑预测结果。
90.在本技术实施例中,处理器110可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
91.处理器110是服务器100的控制中心,利用各种接口和路线连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。处理器110,例如可以是处理器、微处理器、控制器等控制组件,例如可以是通用中央处理器(central processing unit,cpu),通用处理器,数字信号处理(digital signal processing,dsp),专用集成电路(application specific integrated circuits,asic),现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
92.存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。存储器130作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器130可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory,ram)、静态随机访问存储器(static random access memory,sram)、可编程只读存储器(programmable read only memory,prom)、只读存储器(read only memory,rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性存储器、磁盘、光盘等等。存储器130是能
够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器130还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
93.需要说明的是,上述图1a和图1b所示的结构仅是一种示例,本发明实施例对此不做限定。
94.一些场景中,本技术实施例提供的量刑预测方法可以由本地的一个或者多个终端设备来实现。
95.本技术实施例提供了一种量刑预测方法,图2示例性地示出了量刑预测方法的流程,该流程可由量刑预测装置执行,该装置可以位于如图1b所示的服务器100内,比如可以是处理器110,也可以是服务器100,后续描述时以服务器100为例进行说明,为了便于描述,后续对服务器100的描述不再示例数字标示。该量刑预测装置也可以位于本地的终端设备中。具体流程如下:
96.201,获取案件相关信息以及犯罪事实描述文本。
97.一些实施例中,案件相关信息是指与案件相关的其他辅助信息,例如人证、物证、被告人信息、证词、嫌疑人口供以及笔录等等。犯罪事实描述文本可以包括被告人信息、犯罪信息。被告人信息中可以包括被告人的前科信息,例如前科数量、前科罚金、前科剥政、前科刑期和前科罪名。犯罪信息可以包括犯罪事实描述,或者包括犯罪事实描述和涉案金额等。
98.一些实施例中,在获得犯罪事实描述文本后,对犯罪事实描述文本进行分词。可以基于分词器对犯罪事实描述文本进行分词,本技术对此不作具体限制。比如分词器可以采用文本分析分词器analysis、汉语言处理包(han language processing,hanlp)。
99.一些实施例中,在将犯罪事实描述文本进行分词后,可以将犯罪事实描述文本以固定的分词数量或者分句数量分成多个篇章,每个篇章包括多个分句,每个分句包括多个分词。也可以按照段落将犯罪事实描述文分成多个篇章,本技术实施例对此不作具体限定。
100.一些实施例中,犯罪事实描述文本和案件相关信息可以来自与服务器相连的终端设备。在一些实施例中,用户可以通过终端设备触发量刑预测任务,在向服务器发送量刑预测任务时,可以将犯罪事实描述文本和案件相关信息发送给服务器,量刑预测任务用于指示服务器进行量刑预测。服务器接收到量刑预测任务后,执行量刑预测的方法流程。
101.202,对多个篇章包括的分词进行向量化处理以得到每个分词对应第一词向量,以及对案件相关信息包括的分词进行向量化处理以得到每个分词对应的第二词向量。
102.一些实施例中,犯罪事实描述文本是书面的、官方的,存在言简意赅的特点,因此确定犯罪事实描述文本包括的多个篇章后,将多个篇章分别对应的多个分词进行向量化处理,获得每个分词对应的词向量。为了便于描述,将篇章包括的分词对应的词向量称为第一词向量。一些场景中,首先将犯罪事实描述文本以字粒度进行处理,将犯罪事实描述文本转化成数值形式。具体地,以第一篇章为例,第一篇章包括的每个分词分别对应一个token,第一篇章就可以表示为t=(t1,t2,

,tn)。其中,t代表token序列,ti代表一个分词的token,n为第一篇章包括的分词数量。进一步地,可以将第一篇章包括的token序列映射为整数序列。整数序列可以表示为d(t

d)=(d1,d2,

,dn),其中,n为第一篇章包括的分词数量。比如可以通过词典确定每个分词对应的token与一个整数值的对应关系。比如,词典中保存目
前场景所遇到的所有分词对应的token与一个整数值的对应关系。例如,基于统计特征训练标注可以获得5000个分词,则词典中保存有5000个分词对应的token与整数值之间的对应关系。不同的分词对应的整数值不同。
103.一些实施例中,在将犯罪事实描述文本以字粒度将多个分词以文本的形式转化成数值的形式后,可以将分词映射到向量空间,获得多个词向量。量刑预测装置中保存有一个词向量序列,该词向量序列的数量为词典的大小,通过多个分词对应的数值按照词向量序列映射出多个第一词向量。具体地,词向量序列可以表示为e=(e1,e2,

,es),其中,s为词典包括的分词的数量,ei为词向量,长度可以设置,ei∈rk,k为词向量的长度。例如,词典中一个词向量为“有效”,则词向量的长度为2。犯罪事实描述文本包括的每个分词对应一个token,则每个token所对应的数值就可以通过e映射出一个向量,把所有映射出的词向量按照token原顺序即分词在犯罪事实描述文本中的顺序组合起来,就得到了犯罪事实描述文本中每个篇章包括分词的第一词向量。作为一种举例,以第一篇章中包括s个分词为例,通过词向量序列e映射后,第一篇章可以表示为x=(x1,x2,

,xs),其中xi为第i个分词对应的第一词向量,xi∈rk,k为第一词向量的长度。一些场景中,词向量序列可以由量刑装置模型产生。量刑预测装置接收到终端设备发送的量刑预测任务后,可以自动产生一个词向量序列。在将犯罪事实描述文本的分词转换成数值后,可以根据词向量序列将分词映射到向量空间,获得多个词向量。
104.另一些实施例中,在获得案件相关信息后,案件相关信息包括第一数据和第二数据。可以理解的是,第一数据与第二数据还可以采用其它称呼,例如第一数据可以称为连续数据,第二数据可以称为离散数据。其中,第一数据可以包括证词、嫌疑人口供以及笔录中的至少一项,第二数据可以包括人证、物证、被告人信息中的至少一项。
105.一些场景中,可以对第一数据包括的分词进行向量化处理直接得到第一数据包括的每个分词对应第二词向量。对第一数据包括的分词进行向量化处理的方法与上述对犯罪事实描述文本包括的分词进行向量化处理的方法一致,此处不再赘述。
106.另一些场景中,第一数据包括的多个分词可能分属于不同的类别。当然第一数据中某几个分词可能属于相同的类别,即每个类别包括多个分词。多个类别对应的向量化后的值域可能不同,且多个类别对应的向量化后的值域的范围比较大。因此,可以将第一数据包括的分词进行向量化处理后,对第一数据中包括的多个分词的向量化后得到的词向量进行归一化操作,得到每个分词对应的第二词向量。因此,第i个分词对应的第二词向量可以满足如下公式(1)所示的条件:
[0107][0108]
其中,c
′i表示第一数据中第i个分词对应的第二词向量,μc表示第一数据包括的所有值的均值,σc表示方差,ci表示第i个分词进行向量化处理得到的词向量。
[0109]
一些场景中,第一数据包括所有分词所属类别的第一词向量可以通过向量序列来表示,比如表示为c

=(c
′1,c
′2,c
′3,

,c
′g)。其中,c

∈rg,g为第一数据的类别数。
[0110]
另一些实施例中,确定第二数据包括的每个分词所属的类别,从数据向量表中的确定第二数据包括的每个分词所述的类别对应的类别向量。第二数据中类别数少于第一数据的类别数。可以通过预先构造的数据向量表,将第二数据包括的每个分词所属的类别对
应的类别向量确定所述每个分词对应的第二词向量。其中,数据向量表包括多个类别对应的类别向量。
[0111]
203,对多个篇章包括的第一词向量进行特征提取得到多个篇章中每个篇章的第一特征向量,并根据每个篇章的第一特征向量确定所述每个篇章的预测类别。
[0112]
204,对案件相关信息包括的第二词向量进行特征提取得到案件相关信息的第二特征向量。
[0113]
例如,可以采用concat函数对案件相关信息包括的第二词向量进行拼接得到第二特征向量。
[0114]
205,根据多个篇章对应的多个第一特征向量的预测类别以及第二特征向量进行法条预测、罪名预测和刑期预测。
[0115]
一些实施例中,在获得量刑预测的结果后,服务器可以将量刑预测结果发送至终端设备,用户可以通过终端设备获得量刑预测的结果。
[0116]
示例性的,量刑预测装置中可以部署量刑预测模型,量刑预测装置通过量刑预测模型来执行步骤202-205。
[0117]
通过上述方案,在犯罪事实描述文本的基础上引入了案件相关信息共同进行量刑预测,提高了预测效果。同时由于刑期的复杂性,在多任务上引入了拓扑结构,先预测罪名,再预测法条,最后在罪名和法条的基础之上进行刑期的预测,进一步提高了刑期预测的效果。
[0118]
在一种可能的实现方式中,执行步骤204中对案件相关信息包括的第二词向量进行特征提取时可以采用前馈神经网络,参见图3所示。例如,将第一数据中的第二词向量输入第一前馈神经网络获得第一数据的输出向量。例如第一前馈神经网络包括全连接层,将第一数据中的第二词向量输入全连接层获得第一数据的输出向量。第一数据的输出向量满足如下公式(2)所示的条件:
[0119]
tc=relu(c

wc+bc);
ꢀꢀ
(2)
[0120]
其中,tc为第一数据的输出向量,tc∈r
p
,p为第一数据的输出向量的向量维度,c

是第一数据的向量序列。relu为激活函数,wc为变换矩阵,bc为偏置项。通过上述公式,可以将互相隔离的不同类别的数据融合在一起。
[0121]
一些实施例中,可将第二数据包括的分词对应的第二词向量输入第二前馈神经网络,获得第二数据的输出向量,参见图3所示。例如,将第二数据中的第二词向量输入第二前馈神经网络获得第二数据的输出向量。例如第二前馈神经网络包括全连接层,将第二数据中的第二词向量输入全连接层获得第二数据包括的每个类别的输出向量。第二数据包括第i个类别的输出向量满足如下公式(3)所示的条件:
[0122]
t
di
=relu(d
′iw
di
+b
di
);
ꢀꢀ
(3)
[0123]
其中,t
di
表示第二数据中第i个类别对应的输出向量,relu表示激活函数,w
di
表示变换矩阵,b
di
表示偏置项。进一步地,第二数据的输出向量可以表示为td=(t
d1
,t
d2
,

,t
dq
);其中,q为第二数据包括的类别数。
[0124]
进一步地,在获得第一数据的输出向量与第二数据的输出向量后,将第一数据的输出向量与第二数据的输出向量进行拼接,以获得案件相关信息的第二特征向量,如图3所示。第二特征向量满足如下公式(4)所示的条件:
[0125]
tm=concat(tc,td);
ꢀꢀ
(4)
[0126]
其中,tm表示第二特征向量,concat表示拼接函数,tc表示第一数据的输出向量,td表示第二数据的输出向量。
[0127]
在一种可能的实现方式中,在执行步骤203中获取每个篇章的第一特征向量时,可以通过第一语义向量编码器来执行词级编码,然后在经过第二语义向量编码器进行句级编码。第一语义向量编码器也可以称为词编码器,第二语义向量编码器也可以称为句编码器。一些实施例中,在进行词级编码和句级编码之前,先对每个篇章包括的分词进行过滤处理,将与量刑预测无关的分词过滤掉。例如在执行过滤时,可以采用神经网络来实现,比如卷积神经网络。
[0128]
作为一种举例,参见图4a所示,以采用卷积神经网路进行分词过滤为例。以第一篇章为例,可以基于第一篇章包括的第一词向量对第一篇章中的分词进行过滤处理得到经过滤第一篇章,经过滤第一篇章包括的多个分句中的第一词向量均与量刑预测相关。具体地,可以通过卷积神经网络对第一篇章包括的分词进行过滤处理获得经过滤第一篇章。卷积神经网络比全连接神经网络的优势在于卷积神经网络的参数更少,计算速度更快。卷积神经网络执行文本卷积可以把卷积神经网络中的卷积核理解为滤波器,类似于通信领域的高通滤波器,通过对第一篇章包括的第一词向量进行卷积可以让具有意义的词向量通过(即与量刑预测相关的第一词向量),而忽略掉无意义的词汇(如“的”、“了”等)。使用卷积神经网络对第一篇章包括的分词进行过滤,可以使每个字作为一个的时候具有词的特征,而不会过拟合。通过卷积核执行卷积操作,最终获得第一篇章对应的token序列d的特征表示量,可以表示c=(c1,c2,

,cm),如图4a所示。经过滤第一篇章包括的多个分词的第一词向量经过卷积以后具有n-gram上下文特征,即分词与分词之间不再是孤立的。例如,当n=2时,经过滤第一篇章中的第一分词向量分别与前后的两个词向量具有上下文特征。
[0129]
一些实施例中,犯罪事实描述文本属于长篇章级别,不可避免的产生长距离依赖问题,为了进一步获取到分词与分词之间的关系,可以将文本中的分句再组合。具体的,可以将经过滤第一篇章包括的多个分句进行组合得到多个分句组合,所述多个分句组合中每个分句组合包括至少两个分句。经过滤的第一篇章可以表示为c

=(c1″
,c2″
,

,cm″
)。示例性地,在进行分句组合时,不限定分句之间的顺序。可以理解为,多个分句进行不同顺序排列后,可以构成多个分句组合。
[0130]
参见图4a所示,进一步地,通过第一语义向量编码器对每个分句组合进行特征提取,以得到每个分句组合的词级特征向量。然后对多个分句组合的词级特征向量进行特征拼接,以得到每个分句组合的语句向量表示。再然后通过第二语义向量编码器每个分句组合的语句向量进行特征提取,以得到每个分句组合的分句级特征向量;对多个分句组合的分句级特征向量进行特征拼接以得到第一特征向量。
[0131]
作为一种举例,第一语义向量编码器可以采用transformer编码器。transformer编码器通过注意力机制对每个分句组合进行特征提取,已得到每个分句组合的词级特征向量。
[0132]
一些实施例中,在通过第一语义向量编码器进行词级编码时,可以结合每个分词的位置。例如,参见图4b所示,将经过滤的第一篇章包括的多个分词的第一词向量与对应的位置向量进行融合以得到第一篇章中多个分词的融合词向量。融合词向量满足如下公式
(5)所示的条件:
[0133][0134]
其中,c
p
表示融合词向量,pe表示位置编码向量,c

表示经过滤的第一篇章包括的多个分词对应的第一词向量。代表元素对应相加操作符号。
[0135]
上式中,选择对应元素相加的方式进行位置编码向量的融合,而不是选用向量拼接的方法,使得不会出现因为向量拼接的方式造成的参数变多的问题,且不容易出现过拟合。
[0136]
示例性地,位置向量可以通过正弦函数以及余弦函数进行编码得到。具体的,编码组合后的第一篇章包括的多个第一词向量对应的位置向量后,篇章中第i个分词的位置向量满足如下公式(6)(7)所示的条件:
[0137][0138][0139]
其中,pos代表当前词在句子中的位置,i代表向量中每个词向量在第一篇章中的索引,dmodel代表词向量的维度。因此,给定一个分词的位置pos,可以根据上述公式(6)和(7)生成一个dmodel维度的位置向量。生成的位置向量是绝对位置编码,但是由于使用的是三角函数,所以绝对位置编码中也包含了分词之间相对位置信息。
[0140]
通过对多个第一词向量进行位置编码,并与多个第一词向量进行融合获得融合词向量,可以避免无法获知分词在句子中的位置信息,而影响最后的量刑预测结果。可以理解的是,一般情况下,transformer没有设置机制来捕获分句中分词的相对位置,分词互换位置时不会影响输出。当采用transformer编码器时,分词的词序信息就会丢失,无法获知每个分词在句子中的相对和绝对的位置信息。通过上述编码位置将分词在句子或者篇章中的位置加入后续的特征提取。
[0141]
一些实施例中,可以将获得第一分句组合的多个分词的融合词向量输入第一语义编码器中并进行特征提取,以获得第一分句组合的词级特征向量,如图4b所示。第一语义向量编码器包括n个注意力网络层、第一神经网络层和第一单头注意力层;所述n个注意力网络层中每个注意力网络层包括第一多头注意力层和第一相加归一化层;n为正整数。通过第一语义向量编码器对每个分句组合进行特征提取,以得到每个分句组合的词级特征向量的流程如图5所示,包括以下步骤:
[0142]
501,第i个注意力网络层中的第一多头注意力层包括的多个注意力模块分别对第一分句组合包括的多个分词的融合词向量进行注意力运算,以得到多个注意力模块的输出。
[0143]
一些实施例中,第一语义向量编码器包括n层第一多头注意力层,每层执行多头注意力机制,每层第一多头注意力层均包括多个注意力模块。将第一分句组合包括的多个分词的融合词向量分别通过多头注意力机制输入多个注意力模块,获得多个注意力模块的输出。例如,第i层第一多头注意力层包括h个注意力模块。将多个分词的融合词向量作为第i层第一多头注意力层的输入,输入到h个注意力模块中。h个注意力模块分别对输入的多个分词的融合词向量进行注意力运算,获得h个注意力模块的输出。每个注意力模块可以采用
下述公式(8)至(10)进行注意力运算,第i个注意力模块的输出结果可以通过公式(10)表示。
[0144]
q,k,v=c
p

ꢀꢀ
(8)
[0145]q′i=qw
iq
、k
′i=kw
ik
、v
′i=vw
iv

ꢀꢀ
(9)
[0146]
headi=attention(q
′i,k
′i,v
′i);
ꢀꢀ
(10)
[0147]
其中,c
p
表示融合词向量,w
iq
表示第i层第一多头注意力层中第i个注意力模块的查询权重矩阵,q
′i表示第i层第一多头注意力层中第i个注意力模块的查询矩阵。w
ik
表示第i层第一多头注意力层中第i个注意力模块的键权重矩阵,k
′i表示第i层第一多头注意力层中第i个注意力模块的键矩阵。w
iv
表示第i层第一多头注意力层中第i个注意力模块的值权重矩阵,v
′i表示第i层第一多头注意力层中第i个注意力模块的值矩阵。headi表示第i个注意力模块的输出矩阵,attention表示注意力运算。
[0148]
502,第i个注意力网络层中的第一相加归一化层对每层多个注意力模块的输出结果进行拼接,得到拼接结果;根据第i-1个注意力网络层的输出结果对拼接结果进行线性变换,得到第i个注意力网络层的第一多头注意力层的第一输出结果;对第i个注意力网络层的第一多头注意力层的第一输出结果进行归一化处理得到第二输出结果。
[0149]
一些实施例中,注意力模块的输出结果的数据形式是矩阵,拼接结果的数据形式也是矩阵,拼接结果的维度数量等于每个注意力模块的输出结果的维度数量之和。拼接的方式可以是横向拼接,拼接过程可以通过调用concat(拼接)函数实现。应理解,横向拼接的方式仅是示例性说明。可选地,采用其他拼接方式,对每个注意力模块的输出结果进行拼接,例如采用纵向拼接的方式,对每个注意力模块的输出结果进行拼接,得到拼接结果,则拼接结果的行数等于每个注意力模块的输出结果的行数之和,本技术实施例对如何进行拼接不做具体限定。
[0150]
一些实施例中,在获得拼接结果后,可以对拼接结果进行线性变换,得到第一输出结果。其中,线性变换的方式可以是与一个权重矩阵相乘,拼接结果与权重矩阵相乘,将乘积作为第一输出结果。可选地,线性变换也可以采用与权重矩阵相乘之外的其他方式,例如,将拼接结果与某一常数相乘,从而对拼接结果进行线性变换,或者,将拼接结果与某一常数相加,从而对拼接结果进行线性变换,本技术实施例对线性变换采用的方式不做限定具体。
[0151]
作为一种举例,本技术实施例在对第i个注意力网络层的第一多头注意力层中的多个注意力模块的输出结果进行拼接时可以采用concact拼接,以获得拼接结果。之后对拼接结果进行线性变换时可以采用将拼接结果与一个权重矩阵进行相乘的方式获得第一输出结果。其中,该权重矩阵为第i-1个注意力网络层的输出结果。第i个注意力网络层的第一多头注意力层的第一输出结果满足如下公式(11)所示的条件:
[0152][0153]
其中,w
io
表示第i个注意力网络层的权重矩阵(即第i-1个注意力网络层的第二输出结果),concat表示拼接函数,mhai(q,k,v)表示第i层注意力网络层的第一输出结果,h表示第i层注意力网络层中的第一多头注意力层中注意力模块的数量,h为大于1的正整数;表示第i层注意力网络层中h个注意力模块的输出。
[0154]
通过利用多头注意力机制,能够捕获到文本中分词与分词之间的长距离特征,能够提取到丰富的上下文语义表征信息,增强对特征的提取能力。将多个注意力模块的输出结果进行向量拼接,可以理解为在计算第一输出结果时引入了原始信息,可以弥补信息缺失的问题。此外,将多个注意力模块的输出结果进行向量拼接相当于引入一条网络通路,使得网络在反向传播的时候可以有一部分不经过复杂的网络,而直接传播到原始信息中去,防止梯度爆炸或者梯度消失。
[0155]
一些实施例中,在获得第一输出结果后,对第一输出结果进行归一化,得到第二输出结果。归一化的均值和方差满足如下公式(12)(13)所示的条件:
[0156][0157][0158]
上式中,h代表第i个注意力网络层中注意力模块的数量,代表第i个注意力网络层中第g个注意力模块的输出,μi表示第i层的注意力模块输出的均值,σi表示第i层的注意力模块输出的方差。
[0159]
每一层通过同一个均值和方差对第i层注意力网络层的第一多头注意力层的第一输出结果进行归一化,获得第i层注意力网络层的第二输出结果。例如,第i层注意力网络层的第二输出结果可以用m

=(m
′1,m
′2,m
′3,

,m
′n)表示,则m
′j满足如下公式(14)所示的条件:
[0160][0161]
其中,m
′j表示第i层注意力网络层的第二输出结果中的第j个向量,m
′j∈rm,m表示m
′j的维度,mj表示第i层注意力网络层的第一多头注意力层的第一输出结果中的第j个向量。
[0162]
经过上述归一化后,可以使数据分布相对一致。网络在传播的过程中,经常会发生偏移,造成反向传播困难。在每一层上都进行归一化操作,经过归一化后,使每一层输第二输出结果符合正态分布。归一化的特点是不依赖于输入序列的数量和输入序列的长度,对于神经网络的效果具有提升作用。
[0163]
一些实施例中,在获得第i层注意力网络层的第二输出结果后,可以将第i层注意力网络层的第二输出结果用于第i+1个注意力网络层的线性变换。例如,第一分句组合包括的多个分词的融合词向量输入第1个注意力网络层获得第1个注意力网络层的第二输出结果后,可以将获得的第1层的第二输出结果作为第2个注意力网络层中的线性变换的权重矩阵。例如第1层的第二输出结果可以表示为m
′1,可以将m
′1作为第2个注意力网络层中线性变换的权重矩阵以此类推,可以将第i层注意力网络层的第二输出结果m
′i用于第i+1个注意力网络层的线性变换中的权重矩阵如图6所示。权重矩阵满足如下公式所示的条件:
[0164][0165]
其中,表示第2个注意力网络层的权重矩阵,m
′1表示第1个注意力网络层的第二输出结果,mha2(q,k,v)表示第2层注意力网络层的第一输出结果,w
io
表示第i个注意力网络层的权重矩阵,m

i-1
表示第i-1个注意力网络层的第二输出结果,mhai(q,k,v)表示第i层注意力网络层的第一输出结果,表示第i+1个注意力网络层的权重矩阵,m
′i示第i个注意力网络层的第二输出结果,mha
i+1
(q,k,v)表示第i+1层注意力网络层的第一输出结果。
[0166]
503,通过第一神经网络层对第n个注意力网络层的第二输出结果进行特征提取,获得每个分句组合的第一分词的特征矩阵。
[0167]
一些实施例中,在获得第n个注意力网络层的第二输出结果后,可以通过第一神经网络对第n个注意力网络层的第二输出结果进行线性变换或者非线性变换,以获得每个分句组合的第一分词的特征矩阵。线性变换可以包括与矩阵相乘的运算、与偏置相加的运算,非线性变换可以通过非线性函数实现。例如,非线性变换可以是求最大值的操作。例如,可以采用max函数实现。其中,max函数仅是非线性变换的示例性实现方式,也可以采用其他方式进行非线性变换,例如通过激活函数进行运算,从而实现非线性变换,本技术实施例对如何进行线性或者非线性变换不做具体限定。作为一种举例,本技术实施例中第一神经网络可以通过前馈神经网络实现,具体地,可以使用两层全连接网络来对第n个注意力网络层的第二输出结果进行特征提取,每个分句组合的第一分词的特征矩阵满足如下公式(15)所示的条件:
[0168]
md=relu((m

w1+b1)w2+b2);
ꢀꢀ
(15)
[0169]
其中,m

表示第n个注意力网络层的第二输出结果,md表示第一分词的特征矩阵,w1、w2表示参数矩阵,w1、w2∈rm×m,b1、b2表示偏置项,relu表示激活函数。
[0170]
504,通过第一单头注意力层提取出第一分词的特征矩阵中的特征信息,获得第一分句组合的词级特征向量。
[0171]
一些实施例中,可以使用一个可训练的注意力向量代替现有的单头注意力层中的q查询向量提取第一分词的特征矩阵中的特征信息,以获得第一分句组合的词级特征向量。词级特征向量满足如下公式(16)-(18)所示的条件:
[0172]ai
=uw·mdi

ꢀꢀ
(16)
[0173][0174][0175]
其中,ai为经过注意力机制加权后的特征矩阵,a
′i为经过softmax归一化后的特征
矩阵,uw为初始化的注意力向量,m
di
为第一分词的特征矩阵中的第i个列向量,uw∈rm,sj表示词级特征向量,sj∈rm,rm为m
×
m的矩阵。
[0176]
一些实施例中,可以对多个分句组合的词级特征向量进行特征拼接,以得到每个分句组合的语句向量表示。例如,当第一分句组合包括n个词级特征向量时,则第一分句的语句向量可以表示为s=(s1,s2,s3,

,sn)。
[0177]
一些实施例中,可以通过第二语义向量编码器每个分句组合的语句向量进行特征提取,以得到每个分句组合的分句级特征向量。一些场景中,在对语句向量进行特征提取前,可以先编码经过滤第一篇章包括的多个第一语句向量对应的位置向量。其中,第一语句向量对应的位置向量用于表征第一语句向量对应的分句在第一篇章对应的文本中的位置。
[0178]
一些实施例中,在获得第一语句向量对应的位置向量后,将第一语句向量的位置向量与第一语句向量进行融合获得融合句向量。具体方法可参考上述融合词向量的编码方法,此处不再赘述。进一步地,可以将多个分句对应的融合句向量输入第二语义向量编码器并进行特征提取,获得第一分句组合的分句级特征向量,如图4b所示。
[0179]
一些实施例中,第二语义向量编码器包括n个注意力网络层、第二神经网络层和第二单头注意力层;所述n个注意力网络层中每个注意力网络层包括第二多头注意力层和第二相加归一化层。根据第一分句组合包括的多个分句的融合句向量采用第二语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的分句级特征向量,包括以下步骤:
[0180]
601,第i个网络注意力层中的第二多头注意力层包括的多个注意力模块分别对第一分句组合包括的多个分句的融合句向量进行注意力计算,以得到所述多个注意力模块的输出。
[0181]
602,第i个网络注意力层中的第二相加归一化层对每层多个注意力模块的输出结果进行拼接,得到拼接结果;根据第i-1个注意力网络层的输出结果对拼接结果进行线性变换,得到根据第i-1个注意力网络层的第二多头注意力层的第三输出结果;i为小于或者等于n的正整数;对根据第i个注意力网络层的第二多头注意力层的第三输出结果进行归一化处理得到第四输出结果。
[0182]
一些实施例中,第四输出结果可以用于第i+1个注意力网络层的线性变换。
[0183]
603,通过第二神经网络层对第n个注意力网络层的第四输出结果进行特征提取,获得每个分句组合的第一分句的特征矩阵。
[0184]
604,通过第二单头注意力层提取出第一分句的特征矩阵中的特征信息,获得第一分句组合的分句级特征向量。
[0185]
上述步骤601-604的具体方法与步骤501-504的方法相同,此处不再赘述。
[0186]
一些实施例中,在获得多个分句组合的分句级特征向量后,可以对多个分句组合的分句级特征向量进行特征拼接以得到每个篇章对应的第一特征向量。
[0187]
一些实施例中,在获得每个篇章对应的第一特征向量后,根据第一特征向量确定每个篇章的预测类别。因此,可以将多个篇章进行信息剥离,确定预测类别为法条类别、罪名类别以及刑期类别分别对应的多个篇章。
[0188]
在确定每个篇章的预测类别之后,可以结合第二特征向量、各个篇章的第一特征向量以及预测类别来进行刑期预测、法条预测以及罪名预测。示例性地,参见图7所示,量刑
预测装置可以根据第二特征向量和预测类别为法条类别的多个篇章对应的多个第一特征向量经过非线性变换获得法条预测向量,根据法条预测向量进行法条预测。根据第二特征向量、预测类别为罪名类别的多个篇章对应的多个第一特征向量以及罪名预测向量进行非线性变换获得罪名预测向量,根据罪名预测向量进行罪名预测。根据第二特征向量、预测类别为刑期类别的多个篇章对应的多个第一特征向量、法条预测向量以及罪名预测向量进行非线性变换获得刑期预测向量,根据刑期预测向量进行刑期预测。
[0189]
一种示例中,执行刑期预测、法条预测以及罪名预测可以通过分类器来实现,分类器中可以包括法条预测网络、罪名预测网络以及刑期预测网络。参见图8所示。法条预测网络、罪名预测网络以及刑期预测网络可以采用前向传播网络。结合图3、图4b来说,通过图4b对应的编码犯罪事实描述文本的网络获得每个篇章对应的预测类别,以及通过图3对应的网络获得第二特征向量后,将第二特征向量和预测类别为法条类别的多个篇章对应的多个第一特征向量进行拼接(参见公式(19)),获得第一拼接向量,将第一拼接向量输入分类器中(参加公式(20)和(21)),进行法条预测。一般情况下,法律所颁布的法条包括多条条款,不同的条款可被设定为一个条款类别。法条预测的计算过程满足如下公式(19)-(21)所示的条件:
[0190][0191][0192][0193]
其中,为第一拼接向量,tm为第二特征向量,t1为预测类别为法条类别的多个篇章对应的第一特征向量,为法条预测向量,t
l
法条预测中每个条款类别的概率分布,t
l
∈r
x
,x为法条预测的第一特征向量的数量,w
l1
为权重,为偏置项,relu为激活函数。
[0194]
一些实施例中,罪名预测的输入向量包括tm,t2和法条预测向量t
l1
。将tm,t2,t
l1
进行拼接获得第二拼接向量(参见公式(22)),将第二拼接向量输入分类器中(参见公式(23)和公式(24)),进行罪名预测。一般情况下,罪名可能包括多种,不同的罪名可被设定为一个罪名类别。罪名预测的计算过程满足如下公式(22)-(24)所示的条件:
[0195][0196][0197][0198]
其中,表示第二拼接向量,tm表示第二特征向量,t
l1
表示法条预测向量,t2表示预测类别为罪名类别的多个篇章对应的第一特征向量,表示罪名预测向量,t
ch
表示罪名预测中每个罪名类别的概率分布,t
ch
∈ry,y为罪名预测的第一特征向量的数量,为权重,为偏置项,relu为激活函数。
[0199]
一些实施例中,刑期预测的输入向量包括tm,t3,t
l1
和罪名预测向量将tm,t2,t
l1
,进行拼接获得第三拼接向量(参见公式(25)),将第三拼接向量输入分类器中(参见公式(26)和公式(27)),进行刑期预测。一般情况下,刑期可能包括多种期限,比如5年、10
年、不判刑、死刑以及无期。不同的刑期可被设定为一个期限类别。刑期预测的计算过程满足如下公式(25)-(27)所示的条件:
[0200][0201][0202][0203]
其中,表示第二拼接向量,tm表示第二特征向量,t
l1
表示法条预测向量,为罪名预测向量,t3表示预测类别为刑期类别的多个篇章对应的第一特征向量,表示刑期预测向量,t
p
表示刑期预测中每个期限类别的概率分布,t
p
∈rz,z为刑期预测的第一特征向量的数量,为权重,为偏置项,relu为激活函数。
[0204]
一些实施例中,可以通过训练集合中的多个样本对量刑预测模型进行训练。样本包括裁判文书以及案件相关信息。其中,裁判文书包括文书信息、被告人信息、犯罪事实描述以及法院判决信息。其中,文书信息为犯罪裁判文书中的摘要和标题,在法院判决信息中,包括事实认定部分信息以及标签信息。事实认定包括结论类信息、金额类信息、情节类信息、后果类信息、认罪态度信息。标签提取三类:相关法条中的各个条款类别、罪名(比如,包含无罪)包括的多种罪名类别、刑期(比如,包含不判刑、死刑以及无期)。在对量刑预测模型进行训练时,可以将多个样本经过多次迭代输入到量刑预测模型中,每次可以输入一个样本,根据量刑预测模型输出的针对该样本的法条预测结果与该样本标签中的法条预测结果进行比较来对量刑预测模型中各个网络参数进行调整。根据量刑预测模型输出的该样本的刑期预测结果与该样本标签中的刑期标签进行比较来对量刑预测模型中各个网络参数进行调整。根据量刑预测模型输出的该样本的罪名预测结果与该样本标签中的罪名标签进行比较来对量刑预测模型中各个网络参数进行调整。
[0205]
一种可能的示例中,在调整网络参数时,可以通过损失函数确定比较得到的比较结果(即损失值)来调整网络参数。损失函数比如可以交叉熵损失函数。
[0206]
每个预测任务的损失可以使用交叉熵损失函数获得,交叉熵损失函数的表达式满足如下公式所示(28)的条件:
[0207][0208]
其中,y表示数据是否属于当前类别,比如,y取值可以为0或1,l表示类别,取值为1或2或3,表示预测结果,即为属于当前类别的概率,为预测第i个样本为类别l的损失值。取值为1或2或3用来标识罪名预测的损失值、法条预测的损失值或者刑期预测的损失值。比如1用于标识罪名预测,2用于标识法条预测,3用于标识刑期预测。
[0209]
一些实施例中,可以针对罪名预测通过损失函数确定的损失值,以及法条预测通过损失函数确定的损失值以及刑期预测通过损失函数确定的损失值进行损失值累计得到总损失值,然后基于总损失值来调整量刑预测模型的网络参数。一些场景中,可以通过优化算法进行网络参数的调整,例如,通过adam优化算法对量刑预测模型的网络参数进行调整。
[0210]
在一些可能的实施方式中,针对量刑预测模型中的不同的网络单独进行训练。比如针对图4b用于编码犯罪事实描述文本的网络进行单独训练。编码犯罪事实描述文本的网
络的训练集合中的多个样本中每个样本可以包括裁判文书以及裁判文书中每个句子或者段落对应的标签,该标签用于指示该句子或者段落所属的标签为罪名类别、刑期类别以及法条类别。在对编码犯罪事实描述文本的网络进行训练时,可以将多个样本经过多次迭代输入到编码犯罪事实描述文本的网络中,每次可以输入一个样本,根据编码犯罪事实描述文本的网络输出的针对该样本的预测结果与该样本标签中的类别(罪名类别、刑期类别以及法条类别)进行比较得到比较结果,通过比较结果来对编码犯罪事实描述文本的网络中各个网络参数进行调整。
[0211]
一种可能的示例中,在调整网络参数时,可以通过损失函数确定比较得到的比较结果来调整网络参数。损失函数比如可以交叉熵损失函数。
[0212]
每个预测任务的损失可以使用交叉熵损失函数获得,交叉熵损失函数的表达式满足如下公式所示(29)的条件:
[0213][0214]
其中,y表示数据是否属于当前类别(罪名类别、法条类别或者刑期类别),比如,y取值可以为0或1,l表示类别,取值为1或2或3,表示预测结果,即为属于当前类别的概率,为预测第i个样本为类别l的损失。取值为1或2或3用来标识罪名类别、法条类别或者刑期类别。比如1用于标识罪名类别,2用于标识法条类别,3用于标识刑期类别。
[0215]
一些实施例中,在训练过程中,预测类别的概率分布的数据可以通过一组1和0组成的数字进行表示,该数据是指多个篇章与预测的分类结果的组合。例如,可以将每个篇章对应一个序列号,当概率分布的数据为[35273,label1]时,则表示第35273个篇章,预测类别标签为第一类。若预测结果和人工标注的结果是一致的,则记为1,反之则0。
[0216]
基于相同的技术构思,本技术实施例提供了一种量刑预测装置800,参见图9所示。该装置800可以执行上述量刑预测方法中的各个步骤,为了避免重复,此处不再详述。装置800包括获取单元801、处理单元802,包括获取单元和处理单元;
[0217]
所述获取单元801,用于获取案件相关信息以及犯罪事实描述文本,所述案件相关信息包括人证、物证、被告人信息、证词、嫌疑人口供以及笔录中至少一项;所述犯罪事实描述文本包括多个篇章,所述多个篇章中每个篇章包括多个分句,所述多个句中每个分句包括多个分词;
[0218]
所述处理单元802,用于对所述多个篇章包括的分词进行向量化处理以得到每个分词对应第一词向量,以及对所述案件相关信息包括的分词进行向量化处理以得到每个分词对应的第二词向量;对所述多个篇章包括的第一词向量进行特征提取得到多个篇章中每个篇章的第一特征向量,并根据每个篇章的第一特征向量确定所述每个篇章的预测类别,所述预测类别为法条类别或者罪名类别或刑期类别;
[0219]
所述处理单元802,还用于对所述案件相关信息包括的第二词向量进行特征提取得到所述案件相关信息的第二特征向量;根据所述多个篇章对应的多个第一特征向量的预测类别以及所述第二特征向量进行法条预测、罪名预测和刑期预测。
[0220]
一些实施例中,所述处理单元802,在对所述多个篇章包括的第一词向量进行特征提取得到多个篇章中每个篇章的第一特征向量时,具体用于:基于第一篇章包括的第一词向量对所述第一篇章中的分词进行过滤处理得到经过滤第一篇章,所述经过滤第一篇章包
括的多个分句中的第一词向量均与量刑预测相关,所述第一篇章为所述多个篇章中的任一个篇章;将所述经过滤第一篇章包括的多个分句进行组合得到多个分句组合,所述多个分句组合中每个分句组合包括至少两个分句;
[0221]
通过第一语义向量编码器对每个分句组合进行特征提取,以得到每个分句组合的词级特征向量;对多个分句组合的词级特征向量进行特征拼接,以得到每个分句组合的语句向量表示;
[0222]
通过第二语义向量编码器每个分句组合的语句向量进行特征提取,以得到每个分句组合的分句级特征向量;对多个分句组合的分句级特征向量进行特征拼接以得到所述第一特征向量。
[0223]
一些实施例中,所述处理单元802还用于:编码所述经过滤第一篇章包括的多个第一词向量对应的位置向量,所述第一词向量对应的位置向量用于表征所述第一词向量对应的分词在所述第一篇章对应的文本中的位置;将所述经过滤第一篇章包括的多个分词的第一词向量与对应的位置向量进行融合得到第一篇章中多个分词的融合词向量;
[0224]
所述处理单元802,在通过第一语义向量编码器对每个分句组合进行特征提取,以得到每个分句组合的词级特征向量时,具体用于:根据第一分句组合包括的多个分词的融合词向量采用第一语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的词级特征向量,所述第一分句组合为所述多个分句组合中的任一个分句组合。
[0225]
另一些实施例中,所述处理单元802还用于:编码所述经过滤第一篇章包括的多个第一语句向量对应的位置向量,所述第一语句向量对应的位置向量用于表征所述第一语句向量对应的分句在所述第一篇章对应的文本中的位置;将所述经过滤第一篇章包括的多个第一语句向量与对应的位置向量进行融合得到第一篇章中多个分句的融合句向量;
[0226]
所述处理单元802,在通过第二语义向量编码器对每个分句组合的语句向量进行特征提取,以得到每个分句组合的分句级特征向量时,具体用于:根据第一分句组合包括的多个分句的融合句向量采用第二语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的分句级特征向量,所述第一分句组合为所述多个分句组合中的任一个分句组合。
[0227]
一些实施例中,所述第一语义向量编码器包括n个注意力网络层、第一神经网络层和第一单头注意力层;所述n个注意力网络层中每个注意力网络层包括第一多头注意力层和第一相加归一化层;n为正整数;
[0228]
所述处理单元802,在根据第一分句组合包括的多个分词的融合词向量采用第一语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的词级特征向量时,具体用于:第i个注意力网络层中的所述第一多头注意力层包括的多个注意力模块分别对所述第一分句组合包括的多个分词的融合词向量进行注意力运算,以得到所述多个注意力模块的输出;第i个注意力网络层中的所述第一相加归一化层对所述多个注意力模块的输出结果进行拼接,得到拼接结果;根据第i-1个注意力网络层的输出结果对所述拼接结果进行线性变换,得到第i个注意力网络层的第一多头注意力层的第一输出结果;i为小于或者等于n的正整数;对所述第i个注意力网络层的第一多头注意力层的第一输出结果进行归一化处理得到第二输出结果,所述第二输出结果用于第i+1个注意力网络层的线性变换;通过所述第一神经网络层对第n个注意力网络层的所述第二输出结果进行特征提取,获得每
个分句组合的第一分词的特征矩阵;通过所述第一单头注意力层提取出第一分词的特征矩阵中的特征信息,获得所述第一分句组合的词级特征向量。
[0229]
另一些实施例中,所述第二语义向量编码器包括n个注意力网络层、第二神经网络层和第二单头注意力层;所述n个注意力网络层中每个注意力网络层包括第二多头注意力层和第二相加归一化层;n为正整数;
[0230]
所述处理单元802,在根据第一分句组合包括的多个分句的融合句向量采用第二语义向量编码器对第一分句组合进行特征提取,以得到所述第一分句组合的分句级特征向量时,具体用于:第i个注意力网络层中的所述第二多头注意力层包括的多个注意力模块分别对所述第一分句组合包括的多个分句的融合句向量进行注意力计算,以得到所述多个注意力模块的输出;第i个注意力网络层中的所述第二相加归一化层对所述多个注意力模块的输出结果进行拼接,得到拼接结果;根据第i-1个注意力网络层的输出结果对所述拼接结果进行线性变换,得到第i个注意力网络层的第二多头注意力层的第三输出结果;i为小于或者等于n的正整数;对所述第i个注意力网络层的第二多头注意力层的第三输出结果进行归一化处理得到第四输出结果,所述第四输出结果用于第i+1个注意力网络层的线性变换;通过所述第二神经网络层对第n个注意力网络层的所述第四输出结果进行特征提取,获得每个分句组合的第一分句的特征矩阵;通过所述第二单头注意力层提取出第一分句的特征矩阵中的特征信息,获得所述第一分句组合的分句级特征向量。
[0231]
一些实施例中,所述处理单元802,在根据所述多个篇章对应的多个第一特征向量的预测类别以及所述第二特征向量进行法条预测、罪名预测和刑期预测时,具体用于:对所述第二特征向量和所述多个篇章对应的多个第一特征向量中预测类别为法条类别的第一特征向量进行非线性变换获得法条预测向量,根据所述法条预测向量进行法条预测;对所述第二特征向量、所述多个篇章对应的多个第一特征向量中预测类别为罪名类别的第一特征向量以及所述法条预测向量进行非线性变换获得罪名预测向量,根据所述罪名预测向量进行罪名预测;对所述第二特征向量、所述多个篇章对应的多个第一特征向量中预测类别为刑期类别的第一特征向量、所述法条预测向量以及所述罪名预测向量进行非线性变换获得刑期预测向量,根据所述刑期预测向量进行刑期预测。
[0232]
另一些实施例中,所述案件相关信息包括第一数据和第二数据;其中,所述第一数据包括证词、嫌疑人口供以及笔录中的至少一项,所述第二数据包括人证、物证、被告人信息中的至少一项;所述处理单元802,在对所述案件相关信息包括的分词进行向量化处理以得到每个分词对应的第二词向量时,具体用于:对所述第一数据包括的分词进行向量化处理以得到第一数据中每个分词对应第二词向量;确定所述第二数据包括的每个分词所属的类别,从数据向量表中确定所述第二数据包括的每个分词所属的类别对应的类别向量;所述数据向量表包括多个类别对应的类别向量;将所述第二数据包括的每个分词所属的类别对应的类别向量确定所述每个分词对应的所述第二词向量。
[0233]
一些实施例中,所述处理单元802,在基于第一篇章包括的第一词向量对所述第一篇章中的分词进行过滤处理得到经过滤第一篇章时,具体用于:通过卷积神经网络对所述第一篇章包括的多个第一词向量进行过滤处理以获得所述经过滤的第一篇章。
[0234]
基于相同的技术构思,本技术实施例提供了一种量刑预测装置1000,参见图10所示。该装置1000可以执行上述量刑预测方法中的各个步骤,为了避免重复,此处不再详述。
装置1000包括存储器1001和处理器1002。
[0235]
所述存储器1001,用于存储程序指令;
[0236]
所述处理器1002,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述量刑预测方法。
[0237]
本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行第一方面以及第一方面中包括的任一种可能的实现方式所述的方法。
[0238]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0239]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0240]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0241]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0242]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1