一种基于双层分类模型的中文作者识别方法及其装置的制作方法

文档序号:6372893阅读:265来源:国知局
专利名称:一种基于双层分类模型的中文作者识别方法及其装置的制作方法
技术领域
本发明涉及中文自然语言处理领域以及中文作者识别领域,尤指一种基于双层分类模型的中文作者识别方法及其装置。
背景技术
近年来,抄袭剽窃之风在文学创作、论文写作等学术领域愈演愈烈。比如上海发生数起国家社会科学基金项目论文抄袭剽窃事件;80后作家郭敬明的《梦里花落知多少》涉嫌抄袭;吉林省文联摄影家协会常务副主席桑玉柱涉嫌剽窃冒用他人作品;清华大学中文系教授、《读书》杂志前任主编汪晖写于20多年前的博士论文《反抗绝望》,被南京大学中文系教授王彬彬指出存在多处抄袭;之后,学坛宿儒朱学勤也被人指责有“剽窃”行为。·与此同时,随着信息时代的到来,尤其是因特网的普及,通过网络产生的版权问题也逐渐进入人们的视野,比如中国新闻出版网上发表的一则关于博客文章剽窃造成侵权的新闻。据法院调查统计显示,自1999年北京市法院审理了我国首例网络著作权案件后,2009年的网络著作权案件已占全部著作权案件的47. 6%,达到1800余件,成为北京市法院知识产权案件的重要组成部分。除此之外,通过网络产生的安全问题也越来越引起人们的重视,早在二十世纪九十年代初,美国的银行企业就出现过电子邮件欺诈的案例。另外还有大量邮件滥用的现象,比如通过电子邮件进行恐怖威胁、传播病毒、色情等非法活动。由于邮件服务器不会对发信人身份的合法性做任何检查,一旦被不法分子利用,用户的利益和正常的经济秩序将会受到很大的负面影响。作者识别(Authorship Identification)是给定一个待判定作者的作品,比如一篇文章、一封邮件甚至是一段文字,通过作品涉及到的争议作者所著的其他作品推测作者写作风格,并与待判定归属的作品风格进行比较,从而识别出真正的作者。在现实世界中的法证领域,可以利用指纹来识别个人,而作者识别则是利用作品字里行间的蛛丝马迹来进行识别。作者识别是一个应用广泛的研究领域,可以应用于中外文学作品的作者考证领域,也可以应用于版权保护、恶意邮件识别等信息安全领域。通过分析作品的写作风格来推测作者这一工作,很早以前就有国外的一些语言学家开始进行研究了。国内关于作者识别的研究起步相对较晚,并且由于中文的特殊性,对于中文作者识别的研究相对较少,对于能有效区分不同中文作品写作风格的特征并不多,可以说有效的中文作品特征的发现目前还处于探索阶段。同时该领域中现有大多数方法存在的问题是识别的准确率很大程度上依赖于训练分类器的作者数目,作者数目在10个到20个以内一般能够取得比较理想的效果,但是一旦作者数目持续增大,将会造成识别准确率的下降,因此实际的应用性受到了限制。本发明针对中文作品以及中文作者识别研究中存在的上述问题,将中文自然语言处理领域中的概念和技术应用于中文作者识别研究中,实现了一种基于双层分类模型的中文作者识别方法和装置。

发明内容
本发明旨在针对中文,发掘出新的有效特征;解决高维特征向量中包含的噪声导致识别准确率下降的问题;以及当作者个数比较多(大于20个)造成的识别准确率低下的问题。本发明采用如下方案针对作者个数超过20个的情况,实现一种基于双层分类模型的中文作者识别方法及其装置。双层分类作者识别模型如图I所示 第一层为作者分组层,作者分组层所做的工作是使用聚类算法将作者分成若干组,每个组中包含若干作者,每个组内的作者个数远小于原始作者个数。假设给定一篇待识别的作品,属于相同组的作者被预先标记成相同的类别,通过分类器的处理预测该作品属于哪个类别,也就是哪一个分组。本发明针对该层提出一种基于词义的中文作者表示方法,通过作者作品中表达的词义上的相似性先对作者进行分组,使得每一组中作者数目相对较少(一般不超过20个)。本发明根据《同义词词林》、《哈工大同义词词林扩展版》选取了88个中类标记在作品中出现的频数作为作者向量的特征。该层的工作原理是对作者进行聚类,我们关注的是找到作者与作者之间的相同或相似的部分,比如说作者的作品常涉及到哪些事物,一般说来,作者所撰写的大多数作品内容与他们自身的专业知识结构或者个人的阅历和偏好是相关的。有些作者倾向于关注人物情感或者心理方面的描写,有些作者倾向于关注撰写历史时事评论,有些作者倾向于关注撰写文学理论或社会活动。为了尽量找到作者之间写作的相同或相似之处,同时又能够刻画出每个作者自身的一些写作特点,我们以作者作品中所包含词语的词义为出发点,考虑作品中所包含的词义,以及各词义所属的抽象种类(比如人、物、时间空间、政治、军事、管理等),通过这些抽象种类来表示作者特征。第二层为作者识别层,作者识别层所做的工作是,根据上一层作者分组层预测待识别作品属于哪一分组的结果,通过分类器识别出该作品属于分组中的具体哪一位作者。识别在组内相对较少的作者数中进行,可以解决当作者个数很多时导致识别准确率下降的问题。本发明在该层中提取出24种依存关系作为句法层上的有效特征,与虚词、标点符号、词性标记相结合构成一个大特征集,同时针对大量特征中包含的无用属性或噪音导致识别准确率下降的情况,采用主成分分析方法(Principal Component Analysis, PCA)对特征集进行优化。然后根据作者分组层的结果,对组内作者进行进一步识别。需要指出的是,作者分组层和作者识别层分别进行一次分类处理,因此本发明在整个识别过程中,一共进行两次分类处理。本发明提出的方法实现的总体步骤如下第一步语料收集。给出一篇待识别的作品,为了识别出真正的作者,需要收集所有潜在作者的作品,这些作品集也就构成了作者识别中的语料库。为了方便后面进行分类训练和测试,在进行特征提取之前,把每位作者的作品按一定比例(比如6:4或7:3)分成训练集和测试集。第二步作者分组。作者分组流程如图2所示。首先使用词义标记模块,以每位作者的作品集为单位,对每篇作品进行词义标记。词义标记的部分结果如图3所示;然后使用计算模块计算每篇文档中词义标记(词义标记按照字母顺序进行先后计数)所出现的频数,并且对每位作者的所有作品中词义标记频数分别进行累加和规格化处理(规格化处理的目的是忽略作品长度不同以及每位作者作品数不同带来的影响),从而最终得到对应的作者向量,将每个作者向量存储在同一个文档中,构成一个作者向量库。作者向量库如图4所示;最后使用k-means聚类算法对作者向量库中的作者向量进行聚类,得到作者聚类,即分组结果。图5为weka中的聚类结果示意图。第三步作者识别。作者识别的整体框架如图6所示。首先使用特征提取器提取出有效的特征。具体是依据预先选定的能够有效表示作者写作风格的特征集,使用中文 处理模块对作品进行分句、分词、词性标注以及依存语法分析等;使用计算模块对每个特征所对应的标记在每篇作品中出现的频数进行计数,利用向量空间模型将每篇作品表示成一个特征向量,特征向量的维数就是特征集中包含的特征个数,将计算模块的输出结果保存起来,这样每篇作品都会对应一个特征向量。特征提取器如图7所示。如果涉及到高维特征向量,使用基于PCA的特征优化器来对输入的高维特征向量进行降维和优化。输出的是高维特征向量经过优化得到的维数较低的特征向量。最后使用分类器来生成识别模型。分类器的输入分为两部分,一部分是训练特征向量集,一部分是测试特征向量集。训练特征向量集用来训练分类器,测试向量集用来验证分类的准确率。分类器的输出是训练好的识别模型,这个模型可以用来对未知的作品进行作者识别。


图I为双层分类中文作者识别模型示意2为作者分组层流程示意3为词义标记的部分结果示意4为作者向量库的部分结果示意5为weka中的聚类结果示意6作者识别层框架示意7特征提取器示意8分词、词性标记的部分结果示意9依存语法分析的部分结果示意图
具体实施例方式为使本发明的目的、技术方案更加清晰,下面对本发明具体实施方式
进行详细说明。基于双层分类模型的中文作者识别方法的具体步骤如下第一步,获取作者向量。使用词义标记模块对中文作品中的词语进行词义标记。词义标记模块的输入是一篇作品,通过调用哈工大社会计算与信息检索研究中心免费共享的语言技术平台(LTP)的全文词义消歧模块,在对作品中的语句进行标注之后,将标注的结果保存在新的文档中。对于每篇进行了词义标注的文档,计算模块将其作为输入,提取出每篇文档中88个词义标记(88个词义标记按照字母顺序进行先后计数)所出现的频数,并且对每位作者的所有作品中这88个词义标记频数分别进行累加和规格化处理(规格化处理的目的是忽略作品长度不同以及每位作者作品数不同带来的影响),从而最终得到对应的作者向量
权利要求
1.一种基于双层分类模型的中文作者识别方法及其装置,利用双层分类作者识别模型,即在传统的作者识别层之前添加一个作者分组层 a.在第一层作者分组层中提出一种基于词义的中文作者表不方法,将每位作者表不成对应的作者向量,使用聚类算法对作者进行分组,使得每一组中作者数目相对较少(一般不超过20个); b.第二层为作者识别层,根据作者分组层得到的结果,将自然语言处理中的依存语法关系作为句法层次的有效特征,同时结合已有的虚词、标点符号和词性频数构成一个大特征集对中文作品进行识别,对于大量特征产生的噪声所导致识别准确率下降的问题,利用主成分分析方法对特征集进行降维和优化,在组内进行作者识别,得到最终的识别结果。
2.根据权利要求I所述的方法,其特征在于,作者分组层的操作步骤如下 a.首先使用哈工大社会计算与信息检索研究中心免费共享的语言技术平台LTP包含的词义消歧模块来完成作者分组层中词义标记模块的功能,以每位作者的作品集为单位,对每篇作品进行词义标记;词义标记模块的输入是中文作品,输出是进行了词义标记的作品文档; b.计算每篇文档中词义标记(词义标记按照字母顺序进行先后计数)所出现的频数,并且对每位作者的所有作品中词义标记频数分别进行累加和规格化处理(规格化处理的目的是忽略作品长度不同以及每位作者作品数不同带来的影响),从而最终得到对应的作者向量,将每个作者向量存储在同一个文档中,构成一个作者向量库; c.使用数据挖掘工具weka中自带的k-means聚类算法对作者向量库中的作者向量进行聚类,得到作者分组结果。
3.根据权利要求I所述的方法,其特征在于,作者识别层的过程如下 a.中文处理模块使用中科院计算所开发的汉语分词系统ICTCLAS对输入的作品进行词法分析,使用LTP进行依存语法分析; b.获取虚词、标点符号、词性标记和依存关系的频数并进行规格化,得到每篇作品的特征向量; c.对于特征向量维数比较高的情况,可以使用基于PCA的特征优化器对特征向量进行降维和优化; d.使用Iibsvm对输入的训练特征向量和测试特征向量进行学习和测试,得到识别的准确率。
4.根据权利要求2所述的方法,其特征在于,作者分组层使用聚类算法将作者分成若干组,每个组中包含若干作者,每个组内的作者个数远小于原始的作者个数,并且每个分组包含数目合理的作者;假设原本有20位作者,我们将这20位作者分为3组,那么比较合理的聚类结果(即分组结果)是每个组包含5-8位作者,如果一个组内出现只包含I位作者的情况,那么对分类器的训练学习是不利的,很可能会影响分类预测的准确率。
5.根据权利要求2所述的方法,其特征在于,得到聚类(分组)结果以后,属于相同组的作者被预先标记成相同的类别,提取每篇作品的特征(比如虚词、标点符号、词性标记和依存关系等),特征向量与对应的作者所属类别相同;比如作者I有30篇作品,根据聚类结果,该作者属于簇0,那么这30篇作品对应的30个特征向量也被事先标记为0,作为分类器的输入;给定一篇待识别的作品,使用特征提取器得到该作品对应的特征向量,然后利用分类器在作者分组层分类中得到的模型来预测该特征向量,也就是该作品属于哪一个类别,即属于哪一组。
6.根据权利要求2所述的方法,其特征在于,作者分组层分类过程中,由于涉及到的作者数和样本数比较多,可以将多类特征相结合以提高该层分类的准确率。
7.根据权利要求3所述的方法,其特征在于,当涉及到高维特征向量造成识别准确率下降的情况,使用基于PCA的特征优化器可以对高维特征向量进行降维和优化;将优化以后的特征向量作为Iibsvm分类器的输入;如果特征向量维数并不高,那么可以跳过特征优化,直接将原始的特征向量作为分类器的输入。
全文摘要
本发明涉及一种基于双层分类模型的中文作者识别方法及其装置,属于信息安全领域。针对作者个数较多造成的识别准确率低下的问题,在作者识别模型中添加一个作者分组层,将每位作者表示成作者向量,使用聚类算法对作者进行分组;第二层为作者识别层,在该层提取依存关系、虚词、标点符号以及词性标记作为特征,在组内进行作者识别。使用本发明的方法或装置,可以有效解决作者个数较多而导致识别准确率下降的问题;同时,提出的基于主成分分析方法的特征降维和优化方法,可以解决高维特征向量中包含的噪声影响识别准确率的问题。本发明可以应用于文学作品的作者考证领域,也可以应用于版权保护等信息安全领域。
文档编号G06F17/30GK102880631SQ20121023128
公开日2013年1月16日 申请日期2012年7月5日 优先权日2012年7月5日
发明者刘玉玲, 万晶 申请人:湖南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1