一种科技论文语料库的构建方法与流程

文档序号:16609305发布日期:2019-01-14 21:27阅读:394来源:国知局
一种科技论文语料库的构建方法与流程
本发明涉及语言数据处理领域,更具体地,涉及一种科技论文语料库的构建方法。
背景技术
:语料库是一种以一定的方式获取与清洗、以特定的规则分类与存储的大量文本数据的集合。在科技论文语料库的构建中,存在如何在保持原有组织体系的基础上扩充科技论文、如何构建语料库的分类特征、如何依据科技论文的结构特征构建合理的主题框架并抽取相应的内容特征、如何构建评判语料库的标准等问题。目前已有的科技论文语料库,多是以关键词、摘要、引用等为语料,缺乏对科技论文正文内容的提取利用,对语料库的评判没有统一的标准,且不能考虑内容间的语义关系。技术实现要素:本发明为克服上述现有技术所述的不能考虑文本内容语义关系等至少一种缺陷,提供一种科技论文语料库的构建方法,能够从语义角度构建完整的语料库验证体系,能够验证语料库的稳定性、扩展性以及文本质量。为解决上述技术问题,本发明的技术方案如下:一种科技论文语料库的构建方法,包括以下步骤:s1:通过人工下载和爬虫的方法抓取论文文档,构建科技论文集;s2:导入所述科技论文集,对科技论文的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息;s3:对科技论文文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本;s4:通过lda主题建模聚类方法对所述基础文本进行聚类,将研究主题相似的科技论文放进相同的簇中,构建分类类目主题;s5:对聚类后的基础文本进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目数目;s6:通过十折交叉验证法验证语料库的稳定性s7:通过分类器和分类模型验证语料库的扩展性;s8:通过分类器获得科技论文不同部分的语义贡献度,验证语料库的内容质量。本技术方案通过对科技论文抓取与清洗、文本预处理、构建分类体系等完整的构建流程,并使用文本分析的方法,构建多个分类器和多个文本分类模型,从语义的角度提出了较为完整的语料库验证体系,验证语料库的准确性、稳定性、扩展性以及文本内容质量等。优选地,步骤s4中,lda主题建模聚类方法的计算公式为:其中,n为单篇科技论文的总词数,n为单篇科技论文中单词的序号数;θ为文档主题的分布,其先验分布为含超参数α的狄利克雷分布;为单个主题中词语的分布,其先验分布为含超参数β的狄利克雷分布;c为依据θ生成的主题,w为主题c中依据词语分布生成的单词;cn为生成的第n个主题;为词语分布组成的主题c,p()为用于计算概率的贝叶斯公式。从整个主题模型中可以看到,当n小于n时,lda会重复单词w的生成步骤,直至n达到文档的总词数n时,才结束文档的建模。通过对文档的词语进行遍历,可以得到各个主题的主题词集合以及语料集中文档属于不同主题的概率分布,从而最终生成文档的主题概率模型。因此,在采用lda作为文本聚类的手段时,常常利用对每一篇文档选择其概率最大的主题作为其类别的方法从而完成无给定标签的文本语料集的聚类过程。优选地,lda主题建模过程中,采用吉布斯采样估计主题c和单词w的后验分布。优选地,步骤s5的具体步骤包括:s5.1:将科技论文全文作为语料,采用不同的随机数种子将论文语料分割为测试集、训练集两部分;s5.2:采用chi2的特征选择方法,根据给定的特征数量从训练集、测试集中选定文本标识的特征词用于表示文本;s5.3:采用nb分类器和svm分类器进行分类试验,验证lda聚类结果的准确性;s5.4:将nb分类器和svm分类器在不同聚类数目下分类结果进行平均计算,根据平均准确率确定最终的分类数目。优选地,步骤s7的具体步骤包括:s7.1:将语料库语料划分为训练集和测试集两部分;s7.2:采用多个分类器和多种变体型式的cnn分类模型分别对训练集进行训练,对测试集进行分类测试,观察分类效果,验证语料库的扩展性。优选地,多个分类器包括knn、nb、svm和mlp分类器。优选地,mlp分类器的计算方法为:y=f(∑iwixi+b)其中,xi为感知机模型的第i个输入,wi为模型中第i个输入所对应的权值,b为模型的偏置值,f为激活函数。优选地,多种变体型式的cnn分类模型包括cnn分类模型、embedding-cnn分类模型、cnn-lstm分类模型、cnn-bilstm分类模型和cnn+mlp分类模型。优选地,步骤s8的具体步骤如下:s8.1:选取所有科技论文的全文内容为训练集,随机抽样选取部分科技论文,将抽取的科技论文的全文内容分割成两部分,其中论文的标题、摘要和关键词为tak部分,论文的正文内容为mt部分,构建tak和mt两组测试集;s8.2:使用svm和mlp分类器对tak测试集和mt测试集进行分类,验证tak测试集和mt测试集的分类准确率,获得科技论文不同部分的语义贡献度,根据得到的语义贡献度验证语料库的文本质量;s8.3:统计两组测试集预测的主题不相符的情况并进行语义分析,验证语料库的主题质量。与现有技术相比,本发明技术方案的有益效果是:能从关键词、摘要、引用以及正文内容中提取语料,能够考虑论文内容间的语义关系,能够从语义角度构建完整的语料库验证体系,有效保证语料库的准确性、稳定性、扩展性以及文本质量。附图说明图1为本实施例的科技论文语料库的构建流程图。图2为本实施例的语料自分类实验nb分类器的准确率折线图。图3为本实施例的语料自分类实验svm分类器的准确率折线图。图4为本实施例的语料自分类实验平均准确率示意图。图5为本实施例的聚类数目为20时不同特征维数下语料自分类的平均准确率。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。本实施例从cssci中选择情报学的10个核心来源期刊,分别为:《情报科学》、《情报理论与实践》、《情报学报》、《情报杂志》、《情报资料工作》、《图书情报工作》、《图书情报知识》、《图书与情报》、《现代情报》、《现代图书情报技术》,所有期刊按照时间范围2011年-2016年,从中构建科技论文语料库。如图1所示,为本实施例的科技论文语料库的构建流程图。科技论文语料库的构建具体步骤如下:步骤一:通过人工下载和网络爬虫结合的形式获取目标论文,其中网络爬虫的方法是采用python下的selenium网络测试包作为爬虫库的基础,首先通过百度学术等第三方网站爬取科技论文pdf的下载页的外部链接,而后再统一进入这些外部链接,通过模拟点击页面元素的方式,下载论文pdf文件。步骤二:采用pdf2text软件将科技论文从pdf转换为txt格式。论文经过转换后,得到的内容可能包含冗余信息、错别字以及乱码等情况,需要将这些冗余、错误信息清洗。对于清洗完后的数据,则根据文本内容的字号数据,筛选科技论文的不同结构部分,提取相应的结构信息。步骤三:对论文的文本信息进行分词和去停用词操作。在分词步骤中,采用结巴分词工具,并结合提取出的关键词与搜狗输入法的社会学研究、自然语言处理等领域的词库作为词典进行分词,该词典包含30611个词汇。完成分词后,介入停用词表,过滤出一些不必要的词语、无语义段落以及转换过程中出现的乱码、全角字符等不规范数据。处理完成后的文本数据中,如果存在某一论文结构部分存留的内容较少,则予以过滤处理。处理完成后,用于后续聚类、划分标签以及建库的论文语料共包含16376篇论文。步骤四:使用lda主题建模聚类方法对所选领域的科技论文的语料数据进行聚类,将研究主题相似的论文放进相同的簇中,构建分类类目主题。其中,lda主题建模聚类方法的计算公式为:其中,n为单篇科技论文的总词数,n为单篇科技论文中单词的序号数;θ为文档主题的分布,其先验分布为含超参数α的狄利克雷分布;为单个主题中词语的分布,其先验分布为含超参数β的狄利克雷分布;c为依据θ生成的主题,w为主题c中依据词语分布生成的单词;cn为生成的第n个主题;为词语分布组成的主题c,p()为用于计算概率的贝叶斯公式。在lda主题建模聚类计算过程中,选择类数范围为9~25,每一个类别数目进行一次聚类实验,总共进行17组聚类实验。在具体执行上,lda主题聚类采用python的lda包进行聚类操作,聚类的迭代次数设置为5000,以保证每一组聚类实验的误差都能够收敛到极小值附近,同时含超参数α设置为0.1,含超参数β设置为0.01。对于每一个科技论文文本,都取其主题概率最大的那一个作为该论文文本所属的主题,从而实现对论文语料的聚类。步骤五:对聚类后的语料数据进行自分类测试。在自分类测试中,语料数据将会被分为8组,每一组代表以不同数量的特征词进行文本表示的分类测试,特征数量选定为[10000,12500,15000,17500,20000,22500,25000,27500]。在每一组实验下,采用不同的随机数种子将论文语料分割为占比为0.6和0.4两部分,其中占比为0.6的部分作为测试集,占比为0.4的部分作为训练集,且训练集和测试集的语料在各个类别上的数目分布都符合未分割前论文语料在各个类别上的数目分布。在每一组实验下,特征选择步骤均采用chi2的特征选择方法,根据给定的特征数量选定作为文本表示的特征词以表示文本。在分类器方面,考虑到性能及效率,采用nb和svm分类器进行分类实验,验证lda聚类结果的准确性。在分类过程中,采用朴素贝叶斯(nb,bayes)算法计算文本从属类别的概率。计算公式如下:其中,x表示文档集中特定的一篇文档;c则代表文档类别集中特定的一个主题类别;而n则代表遴选的特征词的总量;xi则表示为特征集合中排序为第i的词项。在参数设定上,nb分类器设置为多项式模型,系数α设为0.2,而svm则设定惩罚系数为0.3,迭代次数为100。经过nb分类器和svm分类器的分类实验后得到的结果如图2至4所示,为本实施例的语料自分类实验nb分类器的准确率、svm分类器的准确率以及平均准确率。在平均准确率的走势图中,类别数目20在走势上呈现反弹的趋势,并取得了较高准确率,于是,选择20为最终分类系统的类目数目。如表1所示,为本实施例最终构建的分类体系与主题特征词。表1分类体系类目主题与主题特征词步骤六:通过十折交叉验证法验证语料库的稳定性。语料库的稳定性验证采用十折交叉验证法,将整个数据集分成均匀分布的10份,以9:1的比分隔训练集与测试集,从而可进行10组分类实验。如果在十折交叉验证的结果中包含相差过大的值或是多个异常值,则说明语料内部的数据内容不够稳定,如果一些实验组准确率较低,另一些实验组准确率过高,存在较大差距,则说明该实验组的测试集或者训练集具有噪声数据,影响了语料的整体性或是语料训练的拟合程度,反之,如果十折交叉验证的结果值相似,并且准确率数值高,则说明语料库足够稳定。如图5所示,为本实施例的聚类数目为20时不同特征维数下语料自分类的平均准确率。当聚类数目为20时,不同特征维数下十折交叉验证的准确率都在[84%,86%]之间,证明了所构建的语料库是稳定的。步骤七:通过分类器和分类模型验证语料库的扩展性。语料库的扩展性验证采用不同的分类器和多种变体形式的cnn分类模型对语料划分的训练集和测试集进行分类测试,观察分类效果,从而判断该语料在时序上是否具有内容的共性。分类器包括knn、nb、svm和mlp分类器,可以分别对vsm-tfidf的文本表示模型进行训练。其中klp分类器的计算公式为:y=f(∑iwixi+b)式中,xi为感知机模型的第i个输入,wi为模型中第i个输入所对应的权值,b为模型的偏置值,f为激活函数。在上述的步骤中,观测到特征数量在10000到20000之间时分类效果较好,因此在时序性验证实验中设定特征数为其中值15000。而多种变体型式的cnn分类模型包括cnn分类模型、embedding-cnn分类模型、cnn-lstm分类模型、cnn-bilstm分类模型和cnn+mlp分类模型,在利用cnn作为文本分类模型时,则采用序列编码的方式,将文本表示为多个单词的词向量组成的序列从而对文本进行建模。首先用word2vec方法得到所有词的词向量,再将文本表示为词向量的序列作为输入,其输入层为批量大小*maxl*1*d的张量,其中maxl指代最大的文本长度,而d指代词向量的维数,可以表示为一个单词的深度。如果文本本身的长度没有到达最大的文本长度,则将输入空缺的位置进行补0(zero-padding)操作。在对语料进行分类测试时,设置一下五种分类模型:(1)cnn分类模型:输入层为word2vec计算的词向量的序列,池化层iii的展开结果的层为全连接层;(2)embedding-cnn分类模型:不做word2vec预训练,输入层中加入一层embedding层,动态训练词向量,池化层iii的展开结果的层为全连接层;(3)cnn-lstm分类模型:输入层为word2vec计算的词向量的序列。池化层iii的展开结果的层为lstm,其中,lstm每一个位置的输入为池化层iii的输出结果的相应位置上不同过滤器编码结果的拼接,每一个的输出单元数为20;(4)cnn-bilstm分类模型:输入层为word2vec计算的词向量的序列,池化层iii的展开结果的层为双向lstm,其中双向lstm的正向与反向输出单元数均为20;(5)cnn+mlp分类模型:输出层变为两个分类器:cnn与mlp的输出层的加和,进而用softmax函数计算输出值,实现cnn与mlp的复合分类器。以上五种cnn分类器的损失函数、优化函数与验证集设置与mlp相同,迭代次数设置为50,经过多次预实验表明cnn在以此结构与优化设置下具有较好效果。至此在多种分类器的分类测试下,扩展性验证的分类准确率如表2所示:表2扩展性验证分类准确率分类器分类准确率(%)knn80.93svm86.45nb84.35mlp87.77cnn86.86embedding-cnn80.44cnn-lstm85.09cnn-bilstm85.71cnn+mlp88.25总体来看,不论是传统的以vsm文本表示为基础的分类器,还是以分布式文本表示为基础的cnn分类器,在扩展性验证中都获得了80%以上的准确率,说明了旧时间的语料及其分类体系在新时间语料上是拥有应用能力的。因此可以认为,聚类数为20的图情科技论文全文语料通过了语料扩展性的验证。步骤八:选取所有论文的全文内容为训练集,随机抽样选取部分论文,将抽取的论文的全文内容分割成两部分,其中论文的标题、摘要和关键词为tak部分,论文的正文内容为mt部分,构建tak和mt两组测试集并分别对该两组测试集进行验证。首先,通过观测两部分的分类准确率探究科技论文的不同结构对科技论文语义的贡献程度,以获得文章的文本质量。试集抽取样本数量上采取由4000为起始,16000为终,跨度为2000的取值,即[4000,6000,8000,10000,12000,14000,16000]七种取值,并且在构建tfidf向量空间模型的步骤过程中,省略特征选择的部分。考虑到之前的实验效果和统一编码长度,本步骤采用了svm、mlp作为分类器。在svm的参数设定上,采用惩罚因子c=0.4+实验组序号*0.3的设置。其中mlp分类器的输入同样为tfidf赋权的向量空间模型数据,设置隐藏层节点数为h_size=360+实验组序号*40。损失函数设置为kl散度,优化函数则为adam,迭代次数则限定为5次,验证集取训练集的5%。如表3和表4所示,为svm分类器和mlp分类器下不同样本数量测试集分类准确率。表3svm分类器下不同样本数量测试集分类准确率样本数量tak组(%)mt组(%)400084.5099.88600085.9799.83800085.4899.851000085.9999.851200085.5899.861400085.8499.861600085.9199.86平均值85.6199.86表4mlp分类器下不同样本数量测试集分类准确率其中,分类器对正文的拟合度极高,mt组中分类准确率均达到了99%以上,tak组的分类准确率也均在85%以上。实验结果可以进一步证实图书情报核心期刊科技论文中,标题、摘要和关键词等题录内容能够简洁而有效地表示论文整体的内容信息。这说明了图书情报论文全文语料库在不同论文结构内容语义贡献方面是合理而科学的,具有内容质量。除此以外,还需要统计两组测试集预测的主题不相符的情况并进行语义分析,验证语料库的主题质量。这里通过一种人工验证统计语料库的不同类别中存在不同程度的语义内容交融,如表5所示,为不同对应情况中“互换”情况类别对计数前十位。表5不同对应情况中“互换”情况类别对计数前10位从表5可得知,主题语义交融现象的可解释性强,以计数第一的类别9的图书馆数字资源与学科服务建设主题和类别19的图书馆馆藏与服务推广建设主题为例,从主题词上来看,两个主题都包含了“图书馆”、“服务”等词语,其主题词的交集大;而从包含论文的内容上来看,这两个类别都与图书馆建设相关,相互之间虽然有着研究方法、应用方式的差异,有着脱离不掉的研究对象、研究目的的共性。因此,基于预测结果的主题语义交融分析印证了构建的语料库具备主题内容的分布是合理的,具有主题质量。相同或相似的标号对应相同或相似的部件;附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1