一种电子作业抄袭检测方法

文档序号:6430940阅读:688来源:国知局
专利名称:一种电子作业抄袭检测方法
技术领域
本发明涉及电子学习和自然语言处理领域,它对于作业集进行内容提取,通过常用词词频、实词语义相似度对于作业抄袭情况进行检测。
背景技术
随着电子学习系统(Ε-Learning)的普及,大量的学生作业都是以电子作业的形式提交到电子学习系统中,并最终由老师给出评定。由于电子作业数量庞大,人工判断任意两个作业之间是否存在抄袭工作量非常大。对于电子作业的抄袭检测,人工处理耗时耗力, 不能满足批量检测的要求。基于自然语言处理的文档相似性计算方法使得电子作业抄袭检测可以由计算机完成。但是传统的作业检测是根据计算文本向量的距离来完成的,误差较大并且速度较慢。本发明结合常用词词频和实词语义相似度,提出一种新的度量文本相似性的方法,并用来解决电子作业的抄袭检测问题。“的”、“一”、“是”、“ 了,,和“我”是在汉语语料中出现最为频繁的五个常用词。它们在不同作者的文档中,出现频率是不一样的,所以根据这个特征可以检测不同文档是否出自同一作者。“知网”是一个中文语义辞典,利用“知网”中的概念层次关系,可以计算两个实词之间的语义距离。这里的实词包括名词、动词、形容词和副词。根据常用词词频和实词语义相似度两方面的信息,可以综合判断起来用以判断两篇文档之间是否存在抄袭现象。

发明内容
人工判断电子作业是否存在抄袭费时费力,现有的基于文本向量的检测方式速度慢,错误率高。为了解决现有技术问题的不足,本发明提出一种电子作业抄袭检测的方法。为了达成所述目的,本发明提供一种电子作业抄袭检测的方法,其技术方案包括如下步骤步骤Sl 对于待处理的作业集,分别进行文档类型适配和文档内容提取;步骤S2 对于步骤Sl所述的处理结果,作为纯文本存入作业数据库;步骤S3 对于步骤S2中的纯文本格式的作业,分别进行中文分词和词性标注;步骤S4 对于步骤S3处理后的以词表达的作业,分别进行常用词词频计算和实词语义相似度计算;步骤S5 对于步骤S4得到的两种相似度进行加权平均,最终得到两个作业的相似度并根据阈值判断是否抄袭。本发明的有益效果对于电子学习系统中的批量电子作业进行抄袭检测。对于电子学习系统中的批量作业,使用本技术可以避免人工检测作业抄袭所带来的枯燥繁琐的劳动。本发明有效融合了常用词词频和实词语义相似度两种文本相似性度量方法,并根据融合后的相似度判断两篇文档间是否存在抄袭。


图1是本发明的文档类型适配和文档内容提取流程图。图2是本发明的常用词词频计算和实词语义相似度计算流程图。图3是本发明的基于“知网”的实词语义关系层次图。
具体实施例方式下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是, 所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。本发明提出了一种电子作业抄袭检测的方法,具体的实施步骤如下所示1、作业类型适配和作业内容提取对于待处理的批量作业,首先进行作业类型适配和作业内容提取,如图1所示。作业文本集中的作业被作业类型适配器处理,根据不同的作业文档类型交由不同的文档解析器处理。图1所示的WORD文档解析器、PDF文档解析器、PPT文档解析器和HTML文档解析器的作用分别是用来提取WORD、PDF、PPT和HTML文档类型里边的内容,并进一步转化为纯文本文件。2、中文分词和词性标注对于以纯文本表示的作业文件,分别进行中文分词和词性标注。一篇作业文档即表示为一些汉语词汇的集合,这些词汇都标注了各自的词性。3、文本相似度度量如图2所示,对于文档A和B,利用常用词词频和实词语义相似度两种方法的结合来判断A和B是否相似。其中,常用词词频和实词语义相似度的计算方法在4和5中详细介绍。4、常用词词频计算这里所说的常用词指的是汉语语料中出现频率最多的五个词,它们分别是“的”、 “一”、“是”、“了”和“我”。不同学生的作业,这五个词出现的频率不一样。定义文档A
的”
中“的”字的出现频率为,Ff ’’ = ^_。其中,|Α|表示文档A中的字数,表示文档A中 “的”字出现的次数。按同样的方式定义文档A中其他字的出现频率为,:F;; Xj'" Λ7"
I ρ·‘‘的’’ 一F"的’’ I
和[‘賞文档A和文档B中“的”字的频率相似度定义为,Sim=’’ =1- 1 A/C;B[‘‘J,’、, tA 。max(tA ,tB )
其中maxpT1”,!^^”)表示文档A和文档B中“的”字出现的频率最大值。按照同样的方式定义Sim^'、Sim;;"、Sim';TB"和Sim=’’。总的常用词相似度定义为,
SimAiB =全Sim:’ + 全 Sim二”+全Sim^J" + 全 Sim^"+全 Sim^"。5、实词语义相似度计算对于在作业纯文本中得到的名词、动词、形容词和副词四种实词,计算两个相同词性词语之间的语义相似度。计算方法采取基于“知网”的层次距离度量方法,相似度定义在0和1之间,比如桌子和椅子之间的相似度0. 8,而风景和轮船的相似度为0. 1。基于“知网”的语义层次结构如图3所示。这里取文档中出现频率最大的五个名词、五个动词、五个形容词和五个副词来进行计算。定义文档A中名词和文档B中名词的语义相似度为
权利要求
1.一种电子作业抄袭检测方法,其特征在于,所述方法的步骤如下步骤Sl 对于待处理的作业集,分别进行文档类型适配和文档内容提取;步骤S2 对于步骤Sl所述的处理结果,作为纯文本存入作业数据库;步骤S3 对于步骤S2中的纯文本格式的作业,分别进行中文分词和词性标注;步骤S4 对于步骤S3处理后的以词表达的作业,分别进行常用词词频计算和实词语义相似度计算;步骤S5 对于步骤S4得到的两种相似度进行加权平均,最终得到两个作业的相似度并根据阈值判断是否抄袭。
2.根据权利要求1所述的电子作业抄袭检测方法,其特征在于,所述文档类型适配和文档内容提取,其特征在于能够从各种文档类型中提取出纯文本。
3.根据权利要求1所述的电子作业抄袭检测方法,其特征在于,对于作业的处理包括中文分词和词性标注,最终作业是以各种词性的词来表达的。
4.根据权利要求1所述的电子作业抄袭检测方法,其特征在于,所述常用词的词频计算是统计汉语文档中最常出现的五个词,即“的”、“一”、“是”、“了”和“我”,在作业中所出现的频率;实词语义相似度计算采取的是基于“知网”的语义度量方法,这里的实词包括名词、 动词、形容词和副词,通过查询“知网”语义辞典中词语之间的层次和隶属关系来计算两个词语之间的语义距离。
5.根据权利要求1所述的电子作业抄袭检测方法,其特征在于通过融合常用词的词频和实词的语义相似度来得到最终的文档相似度,并根据预定义的阈值来判断两篇文档是否存在抄袭。
全文摘要
本发明涉及一种电子作业抄袭检测方法,该方法首先对待处理的作业进行文档类型适配、文档内容提取,然后对于处理之后的纯文本文件进行中文分词和词性标注,并根据常用词词频和实词语义相似度分别计算作业之间的相似程度,最后融合两方面的相似度并根据阈值判断两篇文档间是否存在抄袭。本发明的特点是,利用常用词“的”、“一”、“是”、“了”和“我”的词频,以及实词的语义相似度实现电子作业的抄袭检测。本发明解决了电子学习系统中批量作业的抄袭检测的问题;解决了学生通过同义替换和语句调整等作业抄袭方式的检测问题。本发明可以用来对计算机辅助教学系统中各种文档类型的作业进行抄袭检测。
文档编号G06F17/27GK102411564SQ20111023571
公开日2012年4月11日 申请日期2011年8月17日 优先权日2011年8月17日
发明者张师林 申请人:北方工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1