一种信息处理方法及相关设备与流程

文档序号：20687808发布日期：2020-05-08 18:58阅读：95来源：国知局

本发明涉及信息处理领域，特别涉及一种信息处理方法及相关设备。

背景技术：

人工智能+司法正如火如荼的进行着，如何利用裁判文书网公开的4000万篇文书，为公检法提供有效的支持，减少司法人员重复性工作，提高工作效率，推动司法的透明和公正，是一件非常有意义的事情。在如何利用司法文书中，文书的结构化是一个非常重要的过程，而对文书进行要素标签解析又是司法结构化的基础，该工作可以使文书以要素标签的形式得以呈现，使得法律工作者无需从头到尾阅读整篇文书才能总结该文书涉及的主要事项，而是只要浏览文书的要素标签即可。将文书进行要素标签解析后，文书的要素标签可以用于类案推送、知识图谱构建、文书简化、文书对比等等多项工作。

目前的要素标签解析工作主要有两种方法，一是利用规则的方式进行提取，例如利用关键词、正则表达式等匹配文书，得到文书涉及的要素标签；二是通过标注数据，给每篇文书(按段落或者句子)打上标签，然后利用机器学习或者深度学习算法进行分类，相当于作为多类标分类进行要素标签的解析。

前者的缺点在于对于裁判文书尤其是民事文书，总结规则完全依靠人力，每个正则表达式都非常复杂，尤其针对民事文书，对于同一个要素标签会有各种各样完全不同的描述，总结规律非常复杂，且效果往往不好，准确率和召回率难以兼顾。而后者的缺点在于，要训练一个多类标分类的深度学习模型，需要的标注数据需要非常可观，且一般情况下会存在严重的数据倾斜问题，即少量要素标签在少量文书中即可标注积累大量数据，而大量的数据标注很多数据也只能积累少量数据，数据的严重倾斜会导致模型的效果不是很好。

技术实现要素：

本发明实施例提供了一种信息处理方法及相关设备，可以提升司法文书的要素解析的效率以及效果。

本发明实施例第一方面提供了一种信息处理方法，具体包括：

获取目标文书，所述目标文书为待解析要素标签的司法文书，所述要素标签用于表述所述目标文书的中心思想；

对所述目标文书进行预处理，以得到词语向量集合；

确定所述目标文书对应的目标关键词向量；

确定所述目标文书对应的目标案由向量以及所述目标文书对应的目标领域关键词向量，所述目标案由为所述目标文书的分类标签；

将所述词语向量集合、所述目标关键词向量、所述目标案由向量以及所述目标领域关键词向量输入预设要素解析模型进行解析，以得到所述目标文书的要素标签，所述预设要素解析模型为通过训练语料集合对带注意力机制的循环神经网络模型以及条件随机场模型的结合进行训练得到的，所述训练语料集合包括语料库的文书集合中每个文书的词向量子集、所述语料库的文书集合中每个文书的关键词向量子集、所述语料库的文书集合中每个文书的案由向量子集以及所述语料库的文书集合中每个文书的领域关键词向量子集。

可选地，所述将词语向量集合、所述目标关键词对应的向量、所述目标案由对应的向量以及所述目标领域关键词对应的向量输入预设要素解析模型进行解析，以得到所述目标文书的要素标签之前，所述方法还包括：

对所述语料库的文书集合中每个文书进行预处理，得到所述词向量子集；

确定所述语料库的文书集合中每个文书的关键词向量，得到关键词向量子集；

确定所述语料库的文书集合中每个文书的案由向量子集以及所述语料库的文书集合中每个文书的领域关键词子集；

将所述词向量子集、关键词向量子集、案由向量子集以及所述领域关键词子集输入所述带注意力机制的循环神经网络模型以及所述条件随机场模型进行训练，得到所述预设要素解析模型。

可选地，所述对所述语料库的文书集合中的每个文书进行预处理，得到所述词向量子集包括：

对所述文书集合中每个文书的标注句子以及所述标注句子对应的要素标签进行分词，得到分词集合；

对所述分词集合进行向量化处理，得到初始向量化子集；

对所述分词集合中每个词语进行词性标注并向量化，得到词性向量子集；

对所述标注句子对应的分词之间的依存关系向量化，得到依存关系向量化子集；

将所述初始向量化子集、所述词性向量化子集以及所述依存关系向量化子集关联，得到所述词向量子集。

可选地，所述确定所述语料库中文书集合的关键词向量子集包括：

将所述文书集合中每个文书的句子输入预设文档主题生成模型，得到所述文书集合的关键词集合；

将所述关键词集合向量化，得到所述关键词向量子集。

本发明实施例第二方面提供了一种信息处理装置，包括：

获取单元，用于获取目标文书，所述目标文书为待解析要素标签的司法文书，所述要素标签用于表述所述目标文书的中心思想；

预处理单元，用于对所述目标文书进行预处理，以得到词语向量集合；

第一确定单元，用于确定所述目标文书对应的目标关键词向量；

第二确定单元，用于确定所述目标文书对应的目标案由向量以及所述目标文书对应的目标领域关键词向量，所述目标案由为所述目标文书的分类标签；

第三确定单元，用于将所述词语向量集合、所述目标关键词向量、所述目标案由向量以及所述目标领域关键词向量输入预设要素解析模型进行解析，以得到所述目标文书的要素标签，所述预设要素解析模型为通过训练语料集合对带注意力机制的循环神经网络模型以及条件随机场模型的结合进行训练得到的，所述训练语料集合包括语料库的文书集合中每个文书的词向量子集、所述语料库的文书集合中每个文书的关键词向量子集、所述语料库的文书集合中每个文书的案由向量子集以及所述语料库的文书集合中每个文书的领域关键词向量子集。

可选地，所述装置还包括：训练单元，所述训练单元用于：

对所述语料库的文书集合中每个文书进行预处理，得到所述词向量子集；

确定所述语料库的文书集合中每个文书的关键词向量，得到关键词向量子集；

确定所述语料库的文书集合中每个文书的案由向量子集以及所述语料库的文书集合中每个文书的领域关键词子集；

可选地，所述训练单元对所述语料库的文书集合中的每个文书进行预处理，得到所述词向量子集包括：

对所述文书集合中每个文书的标注句子以及所述标注句子对应的要素标签进行分词，得到分词集合；

对所述分词集合进行向量化处理，得到初始向量化子集；

对所述分词集合中每个词语进行词性标注并向量化，得到词性向量子集；

对所述标注句子对应的分词之间的依存关系向量化，得到依存关系向量化子集；

将所述初始向量化子集、所述词性向量化子集以及所述依存关系向量化子集关联，得到所述词向量子集。

可选地，所述训练单元确定所述语料库中文书集合的关键词向量子集包括：

将所述文书集合中每个文书的句子输入预设文档主题生成模型，得到所述文书集合的关键词集合；

将所述关键词集合向量化，得到所述关键词向量子集。

本发明实施例第三方面提供了一种处理器，所述处理器用于运行计算机程序，所述计算机程序运行时执行如上述各方面所述的信息处理方法的步骤。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时上述各方面所述的信息处理方法的步骤。

综上所述，可以看出，本发明提供的实施例中，通过预设要素解析模型识别出目标文书中的要素标签，该预设要素解析模型为通过带注意力机制的循环神经网络模型以及条件随机场模型结合对训练语料集合训练得到的，且该训练语料集合包括语料库的文书集合中每个文书的词向量子集、语料库的文书集合中每个文书的关键词向量子集、语料库的文书集合中每个文书的案由向量子集以及语料库的文书集合中每个文书的领域关键词向量子集，由于在训练模型的过程中，不止于利用文书词的信息，还利用了裁判文书整体的关键词信息、领域信息以及词性、依存关系等的特征，使得要素标签解析模型不会仅限于各自领域以及不同文书类型，而是一个模型即可覆盖所有的文书类型和领域，提升效率，同时，还通过rnn模型以及crf模型结合进行训练，提升文书的要素标签输出的效果。

附图说明

图1为本发明实施例提供的信息处理方法的实施例示意图；

图2为本发明实施例提供的训练模型的生成方法的流程示意图；

图3为本发明实施例提供的信息处理装置的实施例示意图；

图4为本发明实施例提供的服务器的硬件结构示意图。

具体实施方式

本发明实施例提供了一种信息处理方法及相关设备，可以提升司法文书的要素解析的效率以及效果。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面从信息处理装置的角度对本发明的信息处理方法进行说明，该信息处理装置可以是服务器，也可以是服务器中的服务单元，具体不做限定。

请参阅图1，图1为本发明实施例提供的信息处理方法的实施例示意图，包括：

101、获取目标文书。

本实施例中，信息处理装置可以获取目标文书，该目标司法文书为待解析要素标签的司法文书，此处具体不限定获取目标文书的方式以及目标文书，例如该目标文书为民事领域的司法裁判文书，接收用户输入的目标文书。

102、对目标文书进行预处理，以得到词语向量集合。

本实施例中，信息处理装置可以预先利用词向量模型word2vec或者glove等进行词向量的训练，生成词向量模型。利用词向量模型可以将目标文书中的标注句子转换为一定维度的词向量(例如100维，具体不限定)，同时在对目标文书进行分词之后，可以得到每个词的词性(词性是指该词属于名词、动词或形容词)，以及句子和句子中的词之间的依存关系，例如“吃、苹果”，是一个动宾结构，由此，可以通过将词性和词之间的依存关系都进行向量化，具体的向量化方式，例如可以训练一个向量生成模型对词性以及标注句子中词之间的依存关系进行向量化，具体不做限定，之后将得到的目标文书标注句子转换为一定维度的词向量、词性对应的向量以及标注句子中词之间的依存关系对应的向量进行关联，得到词语向量集合。

需要说明的是，由于一篇文书中肯定会有一些句子有要素标签，有些句子没有要素标签，有要素标签的句子标注上合适要素标签，该适合标注要素标签的句子即为标注句子，而对于不包含任何要素标签信息的句子就不标注任何标签，在模型训练或者通过模型识别文书的时候，只需要考虑该文书中的标注句子以及标注句子对应的要素标签即可。

103、确定目标文书对应的目标关键词向量。

本实施例中，信息处理装置可以通过文档主题生成模型(latentdirichletallocation，lda)获取目标文书中每个句子的关键词，并进行向量化，具体向量化方式，例如可以通过训练一个向量生成模型来对目标文书中的每个句子的关键词进行向量化，得到目标关键词向量化，或者通过向量化工具对目标文书中每个句子的关键词进行向量化得到目标关键词向量。

104、确定目标文书对应的目标案由向量以及目标文书对应的目标领域关键词向量。

本实施例中，信息处理装置可以首先确定目标文书对应的目标案由以及目标文书对应的目标领域关键词，之后对该目标案由以及目标领域关键词进行向量化处理，得到目标案由向量以及目标领域关键词向量，其中，该目标案由为目标文书的分类标签。

下面对目标文书的案由以及领域关键词进行举例说明，例如该目标文书属于人格权纠纷类的文书，则该目标文书的案由可以为生命权、健康权、身体权纠纷、姓名权纠纷、肖像权纠纷、名誉权纠纷、荣誉权纠纷、隐私权纠纷、婚姻自主权纠纷、人身自由权纠纷或一般人格权纠纷中的一个；例如该目标文书所属的领域为“离婚领域”，则该目标文书对应的领域关键词即为：夫妻共同财产，婚后子女，抚养权纠纷，婚前财产，无婚后子女等等，上述对目标文书的案由以及领域关键词仅为举例说明，并不代表对其的限定。

需要说明的是，通过步骤102可以得到目标文书的词向量集合，通过步骤103可以确定目标文书的目标关键词向量，通过步骤104可以确定目标案由向量以及目标领域关键词向量，然而，这几个步骤之间并没有先后执行顺序的限制，可以先执行步骤102，也可以先执行步骤103，也可以先执行步骤104，或者同时执行，具体不做限定。

105、将词语向量集合、目标关键词向量、目标案由向量以及目标领域关键词向量输入预设要素解析模型进行解析，以得到目标文书的要素标签。

本实施例中，信息处理装置可以预先训练一个预设要素解析模型，当需要对目标文书进行要素标签解析的时候，可以直接通过该预设要素解析模型对词语向量集合、目标关键词向量、目标案由向量以及目标领域关键词向量进行解析，得到目标文书的要素标签，其中，该预设要素解析模型通过训练语料集合对带注意力机制的循环神经网络模型(recurrentneuralnetworks,rnn)以及条件随机场模型(conditionalrandomfieldalgorithm，crf)的结合训练得到的，也就是说该rnn模型的输出作为crf模型的输入，训练语料集合包括语料库的文书集合中每个文书的词向量子集、语料库的文书集合中每个文书的关键词向量子集、语料库的文书集合中每个文书的案由向量子集以及语料库的文书集合中每个文书的领域关键词向量子集。

综上所述，可以看出，本发明提供的实施例中，由于在训练模型的过程中，不止于利用文书词的信息，还利用了裁判文书整体的关键词信息、领域信息以及词性、依存关系等的特征，使得要素标签解析模型不会仅限于各自领域以及不同文书类型，而是一个模型即可覆盖所有的文书类型和领域，提升效率，同时，还通过rnn模型以及crf模型结合进行训练，提升文书的要素标签输出的效果。

下面对如何训练预设要素解析模型进行说明。

请参阅图2，图2为本发明实施例提供的预设要素解析模型的训练流程示意图，包括：

201、对语料库的文书集合中的每个文书进行预处理，得到词向量子集。

本实施例中，信息处理装置可以对语料库的文书集合中的每个文书分别进行预处理，得到词向量子集，该语料库可以为所有司法领域内的所有裁判文书的集合，当然也可以根据实际情况进行添加文书或者减少文书，具体不做限定。下面对信息处理装置如何对文书集合中每个文书进行预处理进行详细说明，具体如下：

对文书集合中每个文书的标注句子以及标注句子对应的要素标签进行分词，得到分词集合；

对分词集合进行向量化处理，得到初始向量化子集；

对分词集合中每个词语进行词性标注并向量化，得到词性向量子集；

对标注句子对应的分词之间的依存关系向量化，得到依存关系向量化子集；

将初始向量化子集、所述词性向量化子集以及所述依存关系向量化子集关联，得到所述词向量子集。

也就是说，信息处理装置可以预先利用词向量模型word2vec或者glove等进行词向量的训练，生成词向量模型，对语料库的文书集合中的每个文书分别进行分词处理，并利用词向量模型生成每个文书对应的词向量。利用词向量模型可以将文书集合的每个文书中的标注句子转换为一定维度的词向量(例如100维，具体不限定)，同时在对文书集合的每个文书进行分词之后，可以得到文书集合的每个文书中的每个词的词性(词性是指该词属于名词、动词或形容词)，以及文书集合的每个文书中的标注句子和标注句子中的词之间的依存关系，例如“吃、苹果”，是一个动宾结构，由此，可以通过将词性和词之间的依存关系都进行向量化，具体的向量化方式，例如可以训练一个向量生成模型对词性以及句子中词之间的依存关系进行向量化，具体不做限定，之后将得到的文书集合的每个文书中的标注句子转换的词向量、词性对应的向量以及标注句子中词之间的依存关系对应的向量进行关联，得到词向量子集。

202、确定语料库的文书集合中每个文书的关键词向量，得到关键词向量子集。

本实施例中，信息处理装置可以确定语料库的文书集合中每个文书的关键词向量，得到关键词向量子集。具体的，将文书集合中每个文书的句子输入预设文档主题生成模型，得到文书集合的关键词集合；将关键词集合向量化，得到关键词向量子集。也就是说，信息处理装置可以通过lda模型获取文书集合中每个文书的每个句子的关键词，并进行向量化，具体向量化方式，例如可以通过训练一个向量生成模型来对文书集合中每个文书的每个句子的关键词进行向量化，得到关键词向量子集，或者通过向量化工具对文书集合中每个文书的每个句子的关键词进行向量化得到关键词向量子集，具体不做限定，只要能得到语料库的文书集合中每个文书对应的关键词并向量化即可。

203、确定语料库的文书集合中每个文书的案由向量子集以及语料库的文书集合中每个文书对应领域的领域关键词子集。

本实施例中，信息处理装置可以首先遍历语料库的文书集中的每个文书的，分别确定文书集合中的每个文书的案由以及文书集合中每个文书的领域关键词，得到案源集合以及领域关键词集合，之后，可以对该案由集合以及领域关键词集合进行向量化处理，得到案由向量子集以及领域关键词子集，其中，该目标案由为目标文书的分类标签。

下面对语料库的文书集合中的文书的案由以及领域关键词进行举例说明，例如该语料库的文书集合中某一篇文书属于人格权纠纷类的文书，则该文书的案由可以根据文书的内容确定为生命权、健康权、身体权纠纷、姓名权纠纷、肖像权纠纷、名誉权纠纷、荣誉权纠纷、隐私权纠纷、婚姻自主权纠纷、人身自由权纠纷或一般人格权纠纷；例如该文书所属的领域为“离婚领域”，则该目标文书对应的领域关键词即为：夫妻共同财产，婚后子女，抚养权纠纷，婚前财产，无婚后子女等等，上述对目标文书的案由以及领域关键词仅为举例说明，并不代表对其的限定。

204、将词向量子集、关键词向量子集、案由向量子集以及领域关键词子集输入带注意力机制的循环神经网络模型以及条件随机场模型进行训练，得到预设要素解析模型。

本实施例中，信息处理装置可以在得到此向量子集、关键词向量子集、案由向量子集以及领域关键词子集进行关联，获得全面的能够标注语料库的文书集合中每个文书的信息的向量特征，将这些数据进行模型的训练。模型的训练主要采用带有attention机制的rnn模型，该模型显示在多类标分类问题上有比较好的效果。由于不同类别的数据倾斜比较大，因此采用对低频类别进行过采样的方法保证数据间的平衡，此外还可以利用不同数据的组合进行数据创造，减少数据倾斜度。另外，由于不同的要素标签之间有的是互斥的关系，例如“婚后有子女”和“婚后无子女”、“夫妻间有共同财产”和“夫妻间无共同财产”之间是互斥的，而crf模型可以解决这一问题，因此将数据通过带有注意力机制的rnn模型训练之后，与crf模型进行结合，优化模型效果。

需要说明的是，低频类别进行过采样的方法，可以包括以下三种：

1、简单的重复类别较小的样本，例如某个样本只有50个，重复4次达到200个；

2、修改标注句子中的部分不关键信息，重新构造句子，例如a和b结婚5年，可以变幻出很多类似的句子都可以作为训练样本；

3、相同要素标签的标注句子进行不同的组合，例如有四个句子含有相同的要素标签，可以将这四个句子组合成新的不同的句子同样含有这样的标签。

需要说明的是，为了提高模型训练的效果，可以将训练语料集合中的数据按照预设比例划分训练数据和测试数据，例如9:1或8:2，训练语料集合中的9份为训练数据，1份为测试数据，也就是说，可以通过训练数据来训练模型，通过测试数据对训练后的模型进行测试，当输出的效果不好时，调整训练后的模型的参数，直至训练数据中的所有数据测试完成或者达到比较好的效果，例如输出的要素标签可以完全的表达文书的中心思想。

综上所述，可以看出，本发明提供的实施例中，在训练模型的过程中，训练语料不止于利用文书词的信息，还利用了文书整体的关键词信息、领域信息以及词性、依存关系等的特征，使得要素标签解析模型不会仅限于各自领域以及不同文书类型，而是一个模型即可覆盖所有的文书类型和领域，提升效率。其次，还通过利用过采样、组合样本等方法减轻数据倾斜度，以及利用crf模型来解决要素标签之间互斥的现象，提升效果。

上面对本发明实施例提供的信息处理方法进行说明，下面结合图3对本发明实施例提供的信息处理装置进行说明。

请参阅图3，图3为本发明实施例提供的信息处理装置的实施例示意图，包括：

获取单元301，用于获取目标文书，所述目标文书为待解析要素标签的司法文书，所述要素标签用于表述所述目标文书的中心思想；

预处理单元302，用于对所述目标文书进行预处理，以得到词语向量集合；

第一确定单元303，用于确定所述目标文书对应的目标关键词向量；

第二确定单元304，用于确定所述目标文书对应的目标案由向量以及所述目标文书对应的目标领域关键词向量，所述目标案由为所述目标文书的分类标签；

第三确定单元305，用于将所述词语向量集合、所述目标关键词向量、所述目标案由向量以及所述目标领域关键词向量输入预设要素解析模型进行解析，以得到所述目标文书的要素标签，所述预设要素解析模型为通过训练语料集合对带注意力机制的循环神经网络模型以及条件随机场模型的结合进行训练得到的，所述训练语料集合包括语料库的文书集合中每个文书的词向量子集、所述语料库的文书集合中每个文书的关键词向量子集、所述语料库的文书集合中每个文书的案由向量子集以及所述语料库的文书集合中每个文书的领域关键词向量子集。

可选地，所述装置还包括：训练单元306，所述训练单元306用于：

对所述语料库的文书集合中每个文书进行预处理，得到所述词向量子集；

确定所述语料库的文书集合中每个文书的关键词向量，得到关键词向量子集；

确定所述语料库的文书集合中每个文书的案由向量子集以及所述语料库的文书集合中每个文书的领域关键词子集；

可选地，所述训练单元306对所述语料库的文书集合中的每个文书进行预处理，得到所述词向量子集包括：

对所述文书集合中每个文书的标注句子以及所述标注句子对应的要素标签进行分词，得到分词集合；

对所述分词集合进行向量化处理，得到初始向量化子集；

对所述分词集合中每个词语进行词性标注并向量化，得到词性向量子集；

对所述标注句子对应的分词之间的依存关系向量化，得到依存关系向量化子集；

将所述初始向量化子集、所述词性向量化子集以及所述依存关系向量化子集关联，得到所述词向量子集。

可选地，所述训练单元306确定所述语料库中文书集合的关键词向量子集包括：

将所述文书集合中每个文书的句子输入预设文档主题生成模型，得到所述文书集合的关键词集合；

将所述关键词集合向量化，得到所述关键词向量子集。

本实施例中的信息处理装置的各单元之间的交互方式如前述图1以及图2所示实施例中的描述，具体此处不再赘述。

请参阅图4，图4是本发明实施例提供的一种服务器的结构示意图，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，和/或，一个或一个以上操作系统441，例如windowsservertm，macosxtm，unixtm，linuxtm，freebsdtm等等。

上述实施例中由信息处理装置所执行的步骤可以基于该图4所示的服务器结构。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述信息处理方法。

本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述信息处理方法。

本发明实施例还提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取目标文书，所述目标文书为待解析要素标签的司法文书，所述要素标签用于表述所述目标文书的中心思想；

对所述目标文书进行预处理，以得到词语向量集合；

确定所述目标文书对应的目标关键词向量；

确定所述目标文书对应的目标案由向量以及所述目标文书对应的目标领域关键词向量，所述目标案由为所述目标文书的分类标签；

对所述语料库的文书集合中每个文书进行预处理，得到所述词向量子集；

确定所述语料库的文书集合中每个文书的关键词向量，得到关键词向量子集；

确定所述语料库的文书集合中每个文书的案由向量子集以及所述语料库的文书集合中每个文书的领域关键词子集；

可选地，所述对所述语料库的文书集合中的每个文书进行预处理，得到所述词向量子集包括：

对所述文书集合中每个文书的标注句子以及所述标注句子对应的要素标签进行分词，得到分词集合；

对所述分词集合进行向量化处理，得到初始向量化子集；

对所述分词集合中每个词语进行词性标注并向量化，得到词性向量子集；

对所述标注句子对应的分词之间的依存关系向量化，得到依存关系向量化子集；

将所述初始向量化子集、所述词性向量化子集以及所述依存关系向量化子集关联，得到所述词向量子集。

可选地，所述确定所述语料库中文书集合的关键词向量子集包括：

将所述文书集合中每个文书的句子输入预设文档主题生成模型，得到所述文书集合的关键词集合；

将所述关键词集合向量化，得到所述关键词向量子集。

本文中的设备可以是服务器、pc、pad、手机等。

本发明还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取目标文书，所述目标文书为待解析要素标签的司法文书，所述要素标签用于表述所述目标文书的中心思想；

对所述目标文书进行预处理，以得到词语向量集合；

确定所述目标文书对应的目标关键词向量；

确定所述目标文书对应的目标案由向量以及所述目标文书对应的目标领域关键词向量，所述目标案由为所述目标文书的分类标签；

对所述语料库的文书集合中每个文书进行预处理，得到所述词向量子集；

确定所述语料库的文书集合中每个文书的关键词向量，得到关键词向量子集；

确定所述语料库的文书集合中每个文书的案由向量子集以及所述语料库的文书集合中每个文书的领域关键词子集；

可选地，所述对所述语料库的文书集合中的每个文书进行预处理，得到所述词向量子集包括：

对所述文书集合中每个文书的标注句子以及所述标注句子对应的要素标签进行分词，得到分词集合；

对所述分词集合进行向量化处理，得到初始向量化子集；

对所述分词集合中每个词语进行词性标注并向量化，得到词性向量子集；

对所述标注句子对应的分词之间的依存关系向量化，得到依存关系向量化子集；

将所述初始向量化子集、所述词性向量化子集以及所述依存关系向量化子集关联，得到所述词向量子集。

可选地，所述确定所述语料库中文书集合的关键词向量子集包括：

将所述文书集合中每个文书的句子输入预设文档主题生成模型，得到所述文书集合的关键词集合；

将所述关键词集合向量化，得到所述关键词向量子集。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素标签的过程、方法、商品或者设备不仅包括那些要素标签，而且还包括没有明确列出的其他要素标签，或者是还包括为这种过程、方法、商品或者设备所固有的要素标签。在没有更多限制的情况下，由语句“包括一个……”限定的要素标签，并不排除在包括要素标签的过程、方法、商品或者设备中还存在另外的相同要素标签。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马庆丽
技术所有人：北京国双科技有限公司
我是此专利的发明人

上一篇：用于基于云平台的自动区块链部署的方法和系统与流程
上一篇：一种预防呼吸道传染病的设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。