基于sentence-bert模型和milvus向量数据库的轻量级文本查重方法和系统与流程

文档序号：36421811发布日期：2023-12-20 13:25阅读：123来源：国知局

本发明涉及文本数据分析处理，特别涉及一种基于sentence-bert模型和milvus向量数据库的轻量级文本查重方法和系统。

背景技术：

1、智能查重系统在机构端的应用是为了解决机构在处理大量业务项目申报文件和资料时所面临的重复和抄袭问题。其中，评价管理机构实现任务查重的主要目的是确保业务任务评卷工作的公平性、准确性和规范性。通过任务查重能够实现如下功能：防止抄袭：任务查重可以检测和发现学生在作业、试卷等评价任务中的抄袭行为，保证学生的作品原创性和公平竞争；确保评分准确性：任务查重能够帮助评卷人员识别重复的答案或内容，避免因为相同答案而导致评分的不一致性或错误；提高评卷效率：通过任务查重系统，评卷人员可以快速比对和检索大量的学生答案，节省人力和时间成本，提高评卷效率；维护评价的规范性：任务查重有助于保持评价标准的一致性和规范性，减少评卷过程中的主观偏差，提高评价结果的可信度和公信力；数据分析和质量监控：通过任务查重系统，考评办可以对评价数据进行分析和监控，识别重复模式、异常情况和作弊行为，从而改进评价方式和提高评价质量。总之，任务查重能够确保评卷工作的公正性、准确性和规范性，帮助考评办高效、公正地完成评价任务，并为进一步提升评价质量和学生能力提供有力支持。

2、目前，智能查重系统在机构端的应用主要依赖于自然语言处理(nlp)、文本相似度计算、机器学习(ml)和数据库管理等相关技术。其中，自然语言处理(nlp)：nlp技术是一种用于处理和理解人类语言的技术，在机构端的智能查重系统中，nlp技术被广泛应用于文本的分析和处理，它可以帮助系统识别文本中的语法结构、语义信息和关键词，从而实现对文本的自动分析和理解。文本相似度计算：文本相似度计算是智能查重系统中的关键技术之一，它利用nlp和机器学习技术，对文本进行向量化表示，并通过计算向量之间的相似度来判断文本之间的相似程度。常用的文本相似度计算方法包括余弦相似度、编辑距离等。机器学习(ml)：机器学习技术在智能查重系统中发挥重要作用，通过对大量的文本数据进行训练和学习，系统可以建立模型来识别和判断重复文本。常见的机器学习算法包括支持向量机(svm)、决策树、随机森林等。数据库管理：智能查重系统需要对大量的文本数据进行存储和管理，数据库管理技术可以帮助系统高效地存储、检索和更新文本数据，提高系统的性能和可扩展性。

3、综上所述，机构端智能查重系统的应用技术主要基于自然语言处理、文本相似度计算、机器学习和数据库管理等相关技术。这些技术的结合和应用，能够有效提高机构处理业务考评项目的效率，并确保相关业务考评任务内容的原创性和合法性，从而推动机构工作的规范化和高效化。但上述技术在实际应用中存在：文本向量化精准程度不理想、无法满足使用有限的资源达到高效的向量相似度计算，进而影响查重方案在工程应用中的实效性。

技术实现思路

1、为此，本发明提供一种基于sentence-bert模型和milvus向量数据库的轻量级文本查重方法及系统，能够解决现有查重文本向量化精准度、查重实效性等问题。

2、按照本发明所提供的设计方案，一方面，提供一种基于sentence-bert模型和milvus向量数据库的轻量级文本查重方法，包含如下内容：

3、基于预训练后的sentence-bert模型将考评任务信息进行文本向量化，将考评任务信息向量在milvus向量数据库中进行存储，其中，考评任务信息包括考评任务名称；

4、针对目标考评任务信息的待查重请求，基于预训练后的sentence-bert模型将请求中的目标考评任务信息进行文本向量化，并基于考评任务信息向量在milvus向量数据库中进行查重。

5、进一步地，文本向量化之前，还包括：

6、对考评任务信息进行预处理，以去除噪声，其中，预处理包括文本清洗、分词及标准化处理。

7、进一步地，sentence-bert模型训练过程，包括：

8、利用带有标注标签的句子对作为训练样本，基于该训练样本对sentence-bert模型模型参数进行训练微调，获取预训练后的sentence-bert模型，以基于预训练后的sentence-bert模型将输入的考评任务信息文本转换为特征向量。

9、进一步地，将考评任务信息向量在milvus向量数据库中进行存储，包括：

10、首先，在milvus向量数据库中创建用于存储考评任务向量的向量字段、用于存储考评任务名称的标量字段及用于存储考评任务编号的主键字段；

11、然后，基于向量字段、标量字段和主键字段将考评任务信息向量的相关数据存储至milvus向量数据库中。

12、进一步地，将考评任务信息向量在milvus向量数据库中进行存储，还包括：

13、将主键字段作为索引字段，基于mysql数据库存储索引字段任务编号对应关联的考评任务内容，以利用索引将milvus向量数据库存储的考评任务信息和mysql数据库存储的考评任务内容进行查重关联，其中，考评任务内容包含考评任务目标。

14、进一步地，基于考评任务信息向量在milvus向量数据库中进行查重，包括：

15、首先，针对请求中的目标考评任务信息向量，计算其与milvus向量数据库中存储的考评任务信息向量的相似度；

16、然后，判断相似度是否满足预设阈值，若满足，则判定当前请求中的目标考评任务已存在于milvus向量数据库，输出milvus向量数据库已存储的考评任务信息作为辅助参考并提醒相关人员对请求中的目标考评任务进行修改。

17、进一步地，计算考评任务信息向量的相似度，包含：

18、利用余弦相似度计算方法或欧式距离计算方法来计算考评任务信息向量之间的相似度。

19、另一方面，结合以上的基于sentence-bert模型和milvus向量数据库的轻量级文本查重方法，本发明还提供一种基于sentence-bert模型和milvus向量数据库的轻量级文本查重系统，包含：存储模块和查重模块，其中，

20、存储模块，用于基于预训练后的sentence-bert模型将考评任务信息进行文本向量化，将考评任务信息向量在milvus向量数据库中进行存储，其中，考评任务信息包括考评任务名称；

21、查重模块，用于针对目标考评任务信息的待查重请求，基于预训练后的sentence-bert模型将请求中的目标考评任务信息进行文本向量化，并基于考评任务信息向量在milvus向量数据库中进行查重。

22、本发明的有益效果：

23、本发明通过使用sentence-bert和milvus结合，可以将文本转化为语义向量，并将这些向量存储在milvus中进行高效的相似度计算。这种结合可以提高查重系统的准确性，因为它能够更准确地捕捉文本之间的语义相似性，而不仅仅是基于词汇或句法的相似性。sentence-bert和milvus的结合可以提高系统的性能。通过将语义向量存储在milvus中，可以实现高效的向量检索和相似度计算，减少了系统响应时间。这使得系统能够处理大规模的文本数据集，提高了系统的吞吐量和响应速度。使用sentence-bert和milvus结合可以实现实时查重功能。由于milvus提供了高速的向量检索和计算能力，系统可以在实时场景下对新加入的文本进行查重，并快速返回结果。这对于需要即时响应的应用场景(如实时文本处理、在线编辑器等)非常重要。sentence-bert和milvus的结合可以提高系统的扩展性和可扩展性。milvus支持水平扩展和分布式部署，可以处理大规模的向量集合，便于处理更多的文本数据，并随着数据量的增长可进行扩展，以满足不断增长的业务查重需求。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨昊天陈纪任王正文张帆叶艳岳修飞
技术所有人：数字郑州科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。