一种基于文本的自动识别文献研究的方法与流程

文档序号:12034597阅读:162来源:国知局

本发明涉及人工智能技术领域,具体为一种基于文本的自动识别文献研究的方法。



背景技术:

科学论文是由作者通过书面撰写,总结提炼研究工作的展现形式,科学论文一般包括不同的研究元素,如研究背景、研究对象、研究过程、研究方法、研究结论等,其中研究对象是指论文主要研究目标的核心主体,能高效清晰定位出对应文章的关注面,包括客观事物、理论、事件、过程、关系等属性实例,研究对象的提取能够将论文的主要研究目标以直观的形式展现出来,有助于研究者快速掌握这一对象的相关信息,方便的检索和对比相关研究内容,已有的处理方法有很多,其中有基于规则的方法,此方法取得了一定的效果,但由于自然语言句式的多样性,导致该方法并不能覆盖研究对象提取中的所有规则,遗漏太多,且不能实时更新,灵活性差,而采用统计学习方法的提取过程常常引入不确定因素,导入查全率高而准确率低,因而,单纯的规则或者统计的实用性都很有限。



技术实现要素:

本发明的目的在于提供一种基于文本的自动识别文献研究的方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于文本的自动识别文献研究的方法,包括首先基于crf模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模块,而此模型即可用于对科技文献的研究对象进行抽取,具 体为以下步骤:

步骤一:获取科技文献标题,并做初次标注

获取大量的科技文献的标题集合s,提取出少量科技文献的标题s1(s1的总量大于2000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为sd1,提取出少量科技文献的标题s2(s2的总量大于4000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为sd2,s中去除s1数据和s2数据后,剩下的部分记为s3;

步骤二:对数据进行标准化处理

由于科技文献本身涉及的对象复杂,研究对象中存在英文字母数字符号等,需要对句子进行预处理去掉这些东西,此处即根据正则表达式对原始文本进行标准化清洗,此步骤对s涉及的所有标题都进行标准化,而sd1标准化后记为sp1,sd2标准化后记为sp2,s3标准化后记为sp3;

步骤三:模型特征化提取

对数据sp1、sp2和sp3进行特征化,提取为可供模型直接使用的样本输入,对应的特征化后,sp1的特征化提取结果记为fa,sp2的特征化提取结果记为fb,sp3的特征化提取结果记为fc;

步骤四:训练数据

对数据fa用crf模型在标注后的数据进行训练,得到训练好的模型m0,运用模型m0对数据fb进行准确率测试,得到模型准确率p0;

步骤五:提取部分未标注数据,并进行标记

运用模型m0对数据fc进行自动标注,各样本的各个字符对应有被分为不同类别标签的概率值,记e=标签的概率最大值-次大值其中从中选取对应不同e范围的样本,随机选择一部分交给人工进行标注,将标注后的得到的数据记为d0,进而做标准化和特征化,得到fd0;

步骤六:对模型准确率评估

将fd0加入fa中得到fa1,在fa1上重新建模,得到模型m1,并再次fb中进行准确率测试,准确率为p1;

步骤七:判断r值是否最优

观察两次准确率之差值δp=p1-p0,δp>0则该e区间数据否对模型有效,为了节省人工标注成本,须尽可能的减少人工标注的成本,即筛选出进行人工标注的数据量n应尽可能的少,引入如下判别公式:r=argmaxe(△p/n),其中,e=标签的概率最大值-次大值,△p=p2-p1=f(e)表示前后两次模型准

确率的差值,n=g(e)为添加的人工标记的数据的数量;

步骤八:分析数据量增加方法

重复步骤五、步骤六和步骤七过程;

步骤九:迭代标引,生成最终模型

(1)将当前所有已标好结果的数据作为训练数据,生成训练模型,(2)用当前的训练模型对不带标号的数据进行预测,(3)从中选出判定结果符合ebest值的数据,随机抽取少量让人工标注,(4)将此时增加的人工标注后的数据加入已有的标注中,(5)重复此(1)到(4)的迭代过程,人为设定迭代次数,将最终得到的所有标注后的数据作为训练数据,生成最终训练模型,此模型即可用以对未知数据进行标注,对一篇新的科技文献,先获取此文献的标题,并将此标题做标准化,提取特征后置入最终模型中,即可得到对应输出,即可评判得到此文献的研究对象。

优选的,在步骤五中,不断调整的大小,通常是以相同间隔递增的数列,如0.1,0.2,0.3,0.4,...,1,越大,筛选的数据越多,计算每次在原来数据基础上加入重新人工标注的新数据ai重新建模,计算前后两次准确率差值△p=pi-p(i-1),最后计算对应的r值,不断循环迭代,寻找最优r值, 当△e越大,n越小时,越能添加尽量少的数据,得到最好的实验效果,即当r值越大时,这时的e是最优解ebest,则在e∈[0,ebest]时,能添加最少的数据(节省人工标注成本),得到最好的实验效果。

与现有技术相比,本发明的有益效果是:该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据,在机器学习模型中优化的引入人工评定,可有效提高学习模型的改进效果的同时,能够尽量节省人工标注的成本,而最终得到的模型可直接用于实际工程实践,结合人的分析智能和统计学习的计算能力,在最小人工的劳动量的补充要求下,产生的模型可有效的提高研究对象的标引能力,最终模型可直接用以对未知数据进行预测,实用性强,方法简单。

具体实施方式

下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不限于此。

实施例

一种基于文本的自动识别文献研究对象的方法,包括首先基于crf模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模块,而此模型即可用于对科技文献的研究对象进行抽取,具体为以下步骤:

步骤一:获取科技文献标题,并做初次标注

获取大量的科技文献的标题集合s,提取出少量科技文献的标题s1(s1的总量大于2000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为sd1,提取出少量科技文献的标题s2(s2的总量大于4000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对 象,标出后数据记为sd2,s中去除s1数据和s2数据后,剩下的部分记为s3;

步骤二:对数据进行标准化处理

由于科技文献本身涉及的对象复杂,研究对象中存在英文字母数字符号等,需要对句子进行预处理去掉这些东西,此处即根据正则表达式对原始文本进行标准化清洗,此步骤对s涉及的所有标题都进行标准化,而sd1标准化后记为sp1,sd2标准化后记为sp2,s3标准化后记为sp3;

步骤三:模型特征化提取

对数据sp1、sp2和sp3进行特征化,提取为可供模型直接使用的样本输入,对应的特征化后,sp1的特征化提取结果记为fa,sp2的特征化提取结果记为fb,sp3的特征化提取结果记为fc;

步骤四:训练数据

对数据fa用crf模型在标注后的数据进行训练,得到训练好的模型m0,运用模型m0对数据fb进行准确率测试,得到模型准确率p0;

步骤五:提取部分未标注数据,并进行标记

运用模型m0对数据fc进行自动标注,各样本的各个字符对应有被分为不同类别标签的概率值,记e=标签的概率最大值-次大值其中从中选取对应不同e范围的样本,随机选择一部分交给人工进行标注,将标注后的得到的数据记为d0,进而做标准化和特征化,得到fd0,不断调整的大小,通常是以相同间隔递增的数列,如0.1,0.2,0.3,0.4,...,1,越大,筛选的数据越多,计算每次在原来数据基础上加入重新人工标注的新数据ai重新建模,计算前后两次准确率差值△p=pi-p(i-1),最后计算对应的r值,不断循环迭代,寻找最优r值,当△e越大,n越小时,越能添加尽量少的数据,得到最好的实验效果,即当r值越大时,这时的e是最优解 ebest,则在e∈[0,ebest]时,能添加最少的数据(节省人工标注成本),得到最好的实验效果;

步骤六:对模型准确率评估

将fd0加入fa中得到fa1,在fa1上重新建模,得到模型m1,并再次fb中进行准确率测试,准确率为p1;

步骤七:判断r值是否最优

观察两次准确率之差值δp=p1-p0,δp>0则该e区间数据否对模型有效,为了节省人工标注成本,须尽可能的减少人工标注的成本,即筛选出进行人工标注的数据量n应尽可能的少,引入如下判别公式:r=argmaxe(△p/n),其中,e=标签的概率最大值-次大值,△p=p2-p1=f(e)表示前后两次模型准

确率的差值,n=g(e)为添加的人工标记的数据的数量;

步骤八:分析数据量增加方法

重复步骤五、步骤六和步骤七过程;

步骤九:迭代标引,生成最终模型

(1)将当前所有已标好结果的数据作为训练数据,生成训练模型,(2)用当前的训练模型对不带标号的数据进行预测,(3)从中选出判定结果符合ebest值的数据,随机抽取少量让人工标注,(4)将此时增加的人工标注后的数据加入已有的标注中,(5)重复此(1)到(4)的迭代过程,人为设定迭代次数,将最终得到的所有标注后的数据作为训练数据,生成最终训练模型,此模型即可用以对未知数据进行标注,对一篇新的科技文献,先获取此文献的标题,并将此标题做标准化,提取特征后置入最终模型中,即可得到对应输出,即可评判得到此文献的研究对象,该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据,在机器学习模型中优化的引入人工评定,可有效提高学习模型的改进效果的同时,能够尽量节省人工标注的成本,而最终得到的模型可直接用于实际工程实践,结合 人的分析智能和统计学习的计算能力,在最小人工的劳动量的补充要求下,产生的模型可有效的提高研究对象的标引能力,最终模型可直接用以对未知数据进行预测,实用性强,方法简单。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1