本发明涉及论文检测领域,尤其涉及基于ai的论文格式检测与排版方法及其系统。
背景技术:
1、论文是一种承载各个领域、不同学者对于其研究成果的文章,为了保证论文的可读性,通常需要针对论文的整体格式以及文档内容进行一定的限制,针对这些格式限制,过去通常是采用人工自查的方式,而随着互联网技术的不断发展,越来越多的开发者开始针对ai检查论文格式进行开发,这衍生出如知网一类的各大检测平台,平台的格式检测通常是以词汇为基础,而由于同一个词汇在不同领域中可能会存在不同的语义,这就导致当这些词汇被撰写者混用时,检测平台可能会错误地读取词汇的语义,导致论文的领域被错误判断,进而使得文档的格式检测出现错误。
技术实现思路
1、本发明针对现有技术存在的不足,提供了基于ai的论文格式检测与排版方法及其系统,具体技术方案如下:
2、基于ai的论文格式检测与排版方法,包括以下步骤:
3、s1:通过检测模块确定论文的主要语言格式。
4、s2:构建siamese网络,根据论文中名词性词汇与相关词汇来确定论文所属的主领域。
5、s3:根据论文的语言以及所属的主领域来确定对应的标准格式信息。
6、s4:根据标准格式信息对论文的词汇以及格式的错误部分进行提示,并进行重新排版。
7、作为上述技术方案的改进,所述步骤s2包括以下步骤:
8、s21:通过检测模块将论文中的每句话分离为若干个词汇。
9、s22:采用隐马尔可夫模型来确定若干个词汇的词性,并提取所有名词性词汇。
10、s23:构建siamese网络,获取每个名词性词汇的相关词汇,将每个名词性词汇与相关词汇输入至siamese网络中计算相似度得分,并根据相似度得分确定论文所属主领域。
11、作为上述技术方案的改进,所述最相关词汇的获取方法包括以下步骤:
12、s231:建立多领域的语料数据库。
13、s232:设定一个阈值,计算语料数据库中每个词汇与其同领域下各词汇的相关度,当相关度大于阈值时,则作为相关词汇进行保留。
14、s233:在语料数据库中进行遍历,得到与提取的名词性词汇相同的词汇,并获取这些词汇的相关词汇。
15、作为上述技术方案的改进,所述词汇的相关度的获取依赖于以下公式:其中,为与同出现的频率与它们各自独立出现的频率之间的关系,是词语与共同出现的概率,和分别是词语与各自出现的概率。
16、作为上述技术方案的改进,所述步骤s23包括以下步骤:
17、s234:构建siamese网络,将每个名词性词汇与其中一个相关词汇输入至siamese网络计算得相似度分数。
18、s235:循环执行步骤s234,直至计算出每个名词性词汇单独与其相关词汇的相似度得分。
19、s236:设定相似性截止阈值,当相似度分数大于该阈值时,则判定该名词性词汇与相关词汇在语义上相关。
20、s237:根据相关词汇所属最多的领域作为论文所属主领域。
21、作为上述技术方案的改进,所述siamese网络的构建方法包括以下步骤:
22、s2341:构建两组相同的神经卷积网络,所述神经卷积网络用于传递两个不同的输入。
23、s2342:构建分拆层,通过拆分层计算两个神经卷积网络的输出编码的欧几里得距离。
24、s2343:构建单节点的全连接层,所述全连接层使用sigmoid激活函数来对输出的欧几里得距离计算相似度得分。
25、作为上述技术方案的改进,所述欧几里得距离的获得依赖于以下公式:其中,与分别表示两个神经卷积网络的输出结果。
26、所述sigmoid函数包括以下公式:其中,d为计算所得的欧几里得距离。
27、作为上述技术方案的改进,所述步骤s4包括以下步骤:
28、s41:读取论文的格式信息,并将其与所属领域的标准格式信息进行对比,获取不符合的部分作为错误信息并输出提示,并将错误的格式按照标准格式信息进行自动调整。
29、s42:根据所属主领域中的词义信息来确定论文的词汇是否存在错误,若存在错误,则将错误的部分输出提示,并进行自动修改。
30、其中,论文的自动调整与自动修改部分均在文档中进行高亮标记。
31、基于ai的论文格式检测与排版系统,应用于如前述技术方案中任一项所述的基于ai的论文格式检测与排版方法,包括:检测模块、分析模块、数据库模块以及调整模块。
32、所属检测模块用于对论文进行扫描,确定论文的关键信息,所述分析模块用于分析论文的关键信息,并根据关键信息来确定论文的所属主领域,所述数据库模块存储包括但不限于以下数据:标准格式信息、语料数据、词汇信息、符号信息、语句结构信息,所述调整模块用于根据论文的所属主领域以及数据库模块中所存储的信息来对论文进行重新错误查找和重新排版。
33、本发明的有益效果:
34、通过构建siamese网络,以名词性词汇与相关词汇之间的联系来进行主领域的确定,在确定主领域后,以主领域和论文的语言信息来进行标准格式信息的确认,这样就获得了最贴近论文及其领域的标准格式信息,再以这个标准格式信息对论文进行检查和重新排版,从而避免了词汇语义不定所导致的领域判定错误以及文档的格式检测的误差问题。
1.基于ai的论文格式检测与排版方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于ai的论文格式检测与排版方法,其特征在于:所述步骤s2包括以下步骤:
3.根据权利要求2所述的基于ai的论文格式检测与排版方法,其特征在于:所述最相关词汇的获取方法包括以下步骤:
4.根据权利要求3所述的基于ai的论文格式检测与排版方法,其特征在于:所述词汇的相关度的获取依赖于以下公式:其中,为与共同出现的频率与它们各自独立出现的频率之间的关系,是词语与共同出现的概率,和分别是词语与各自出现的概率。
5.根据权利要求3所述的基于ai的论文格式检测与排版方法,其特征在于:所述步骤s23包括以下步骤:
6.根据权利要求5所述的基于ai的论文格式检测与排版方法,其特征在于:所述siamese网络的构建方法包括以下步骤:
7.根据权利要求6所述的基于ai的论文格式检测与排版方法,其特征在于:所述欧几里得距离的获得依赖于以下公式:其中,与分别表示两个神经卷积网络的输出结果;
8.根据权利要求2所述的基于ai的论文格式检测与排版方法,其特征在于:所述步骤s4包括以下步骤:
9.基于ai的论文格式检测与排版系统,应用于如权利要求1-8任一项所述的基于ai的论文格式检测与排版方法,其特征在于,包括: