一种基于语义相似度的相似案件匹配方法与流程

文档序号：19424483发布日期：2019-12-17 15:01阅读：来源：国知局

技术特征：

1.一种基于语义相似度的相似案件匹配方法，其特征在于，所述方法包括如下步骤：

步骤1：建立案件库；

步骤2：案件词向量生成；

步骤3：基于案件词向量的语义相似度计算方法；

步骤4：相似案件匹配。

2.根据权利要求1所述的一种基于语义相似度的相似案件匹配方法，其特征在于，所述步骤1包括获取裁判文书，对裁判文书进行结构化处理并存储，形成案件库。

3.根据权利要求1所述的一种基于语义相似度的相似案件匹配方法，其特征在于：所述步骤2和步骤3的是通过两步优化，首先是案件语料整理，剔除信息量低的内容，保留审理经过、原告诉求、本院认为、判决结果等字段，通过word2vec模型训练得到案件词向量，然后再根据案件词向量，计算描述案件各个词在语句中的重要程度，选取前k个关键词，再通过多示例转单示例，得到描述案件的fisher向量，最后通过计算两个案件fisher向量之间的语义相似度，通过阈值判断是否为相似案件。

4.根据权利要求3所述的一种基于语义相似度的相似案件匹配方法，其特征在于所述阈值为0.8。

5.根据权利要求1所述的一种基于语义相似度的相似案件匹配方法，其特征在于：步骤4案件匹配过程就是从用户输入的案件描述或者导入的审判文书中自动抽取关键词，再将关键词向量转成fisher向量，使用fisher向量去案件库中进行语义相似度计算，最后将匹配到的类似案件按照相似程度进行排序，并展示给用户。

技术总结
本发明公开了一种基于语义相似度的案件匹配方法,本发明选择使用Word2Vec模型训练得到案件词向量，它可以自动从训练数据中抽取特征，也就是说抽取特征是模型的一部分，从而忽视案件文本的特殊性；本方法在案件词向量的基础上实现自动抽取案件的关键词，并通过多示例转成单示例，将多个关键词向量转化成案件的fisher向量进行语义相似度计算，使得普通用户只需要输入案件描述或者裁判文书就可以获得相似案件，其可使用性大大增强。

技术研发人员：张邱鸣;糜俊;于志文;邵一婷;丁家轩;胡笳
受保护的技术使用者：江苏鸿信系统集成有限公司
技术研发日：2019.09.11
技术公布日：2019.12.17

完整全部详细技术资料下载

当前第2页1 2