本发明涉及人工智能技术领域,具体为一种基于文本的自动识别文献研究的方法。
背景技术:
科学论文是由作者通过书面撰写,总结提炼研究工作的展现形式,科学论文一般包括不同的研究元素,如研究背景、研究对象、研究过程、研究方法、研究结论等,其中研究对象是指论文主要研究目标的核心主体,能高效清晰定位出对应文章的关注面,包括客观事物、理论、事件、过程、关系等属性实例,研究对象的提取能够将论文的主要研究目标以直观的形式展现出来,有助于研究者快速掌握这一对象的相关信息,方便的检索和对比相关研究内容,已有的处理方法有很多,其中有基于规则的方法,此方法取得了一定的效果,但由于自然语言句式的多样性,导致该方法并不能覆盖研究对象提取中的所有规则,遗漏太多,且不能实时更新,灵活性差,而采用统计学习方法的提取过程常常引入不确定因素,导入查全率高而准确率低,因而,单纯的规则或者统计的实用性都很有限。
技术实现要素:
本发明的目的在于提供一种基于文本的自动识别文献研究的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于文本的自动识别文献研究的方法,包括首先基于crf模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模块,而此模型即可用于对科技文献的研究对象进行抽取,具 体为以下步骤:
步骤一:获取科技文献标题,并做初次标注
获取大量的科技文献的标题集合s,提取出少量科技文献的标题s1(s1的总量大于2000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为sd1,提取出少量科技文献的标题s2(s2的总量大于4000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为sd2,s中去除s1数据和s2数据后,剩下的部分记为s3;
步骤二:对数据进行标准化处理
由于科技文献本身涉及的对象复杂,研究对象中存在英文字母数字符号等,需要对句子进行预处理去掉这些东西,此处即根据正则表达式对原始文本进行标准化清洗,此步骤对s涉及的所有标题都进行标准化,而sd1标准化后记为sp1,sd2标准化后记为sp2,s3标准化后记为sp3;
步骤三:模型特征化提取
对数据sp1、sp2和sp3进行特征化,提取为可供模型直接使用的样本输入,对应的特征化后,sp1的特征化提取结果记为fa,sp2的特征化提取结果记为fb,sp3的特征化提取结果记为fc;
步骤四:训练数据
对数据fa用crf模型在标注后的数据进行训练,得到训练好的模型m0,运用模型m0对数据fb进行准确率测试,得到模型准确率p0;
步骤五:提取部分未标注数据,并进行标记
运用模型m0对数据fc进行自动标注,各样本的各个字符对应有被分为不同类别标签的概率值,记e=标签的概率最大值-次大值
步骤六:对模型准确率评估
将fd0加入fa中得到fa1,在fa1上重新建模,得到模型m1,并再次fb中进行准确率测试,准确率为p1;
步骤七:判断r值是否最优
观察两次准确率之差值δp=p1-p0,δp>0则该e区间数据否对模型有效,为了节省人工标注成本,须尽可能的减少人工标注的成本,即筛选出进行人工标注的数据量n应尽可能的少,引入如下判别公式:r=argmaxe(△p/n),其中,e=标签的概率最大值-次大值,△p=p2-p1=f(e)表示前后两次模型准
确率的差值,n=g(e)为添加的人工标记的数据的数量;
步骤八:分析数据量增加方法
重复步骤五、步骤六和步骤七过程;
步骤九:迭代标引,生成最终模型
(1)将当前所有已标好结果的数据作为训练数据,生成训练模型,(2)用当前的训练模型对不带标号的数据进行预测,(3)从中选出判定结果符合ebest值的数据,随机抽取少量让人工标注,(4)将此时增加的人工标注后的数据加入已有的标注中,(5)重复此(1)到(4)的迭代过程,人为设定迭代次数,将最终得到的所有标注后的数据作为训练数据,生成最终训练模型,此模型即可用以对未知数据进行标注,对一篇新的科技文献,先获取此文献的标题,并将此标题做标准化,提取特征后置入最终模型中,即可得到对应输出,即可评判得到此文献的研究对象。
优选的,在步骤五中,不断调整
与现有技术相比,本发明的有益效果是:该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据,在机器学习模型中优化的引入人工评定,可有效提高学习模型的改进效果的同时,能够尽量节省人工标注的成本,而最终得到的模型可直接用于实际工程实践,结合人的分析智能和统计学习的计算能力,在最小人工的劳动量的补充要求下,产生的模型可有效的提高研究对象的标引能力,最终模型可直接用以对未知数据进行预测,实用性强,方法简单。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不限于此。
实施例
一种基于文本的自动识别文献研究对象的方法,包括首先基于crf模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模块,而此模型即可用于对科技文献的研究对象进行抽取,具体为以下步骤:
步骤一:获取科技文献标题,并做初次标注
获取大量的科技文献的标题集合s,提取出少量科技文献的标题s1(s1的总量大于2000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为sd1,提取出少量科技文献的标题s2(s2的总量大于4000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对 象,标出后数据记为sd2,s中去除s1数据和s2数据后,剩下的部分记为s3;
步骤二:对数据进行标准化处理
由于科技文献本身涉及的对象复杂,研究对象中存在英文字母数字符号等,需要对句子进行预处理去掉这些东西,此处即根据正则表达式对原始文本进行标准化清洗,此步骤对s涉及的所有标题都进行标准化,而sd1标准化后记为sp1,sd2标准化后记为sp2,s3标准化后记为sp3;
步骤三:模型特征化提取
对数据sp1、sp2和sp3进行特征化,提取为可供模型直接使用的样本输入,对应的特征化后,sp1的特征化提取结果记为fa,sp2的特征化提取结果记为fb,sp3的特征化提取结果记为fc;
步骤四:训练数据
对数据fa用crf模型在标注后的数据进行训练,得到训练好的模型m0,运用模型m0对数据fb进行准确率测试,得到模型准确率p0;
步骤五:提取部分未标注数据,并进行标记
运用模型m0对数据fc进行自动标注,各样本的各个字符对应有被分为不同类别标签的概率值,记e=标签的概率最大值-次大值
步骤六:对模型准确率评估
将fd0加入fa中得到fa1,在fa1上重新建模,得到模型m1,并再次fb中进行准确率测试,准确率为p1;
步骤七:判断r值是否最优
观察两次准确率之差值δp=p1-p0,δp>0则该e区间数据否对模型有效,为了节省人工标注成本,须尽可能的减少人工标注的成本,即筛选出进行人工标注的数据量n应尽可能的少,引入如下判别公式:r=argmaxe(△p/n),其中,e=标签的概率最大值-次大值,△p=p2-p1=f(e)表示前后两次模型准
确率的差值,n=g(e)为添加的人工标记的数据的数量;
步骤八:分析数据量增加方法
重复步骤五、步骤六和步骤七过程;
步骤九:迭代标引,生成最终模型
(1)将当前所有已标好结果的数据作为训练数据,生成训练模型,(2)用当前的训练模型对不带标号的数据进行预测,(3)从中选出判定结果符合ebest值的数据,随机抽取少量让人工标注,(4)将此时增加的人工标注后的数据加入已有的标注中,(5)重复此(1)到(4)的迭代过程,人为设定迭代次数,将最终得到的所有标注后的数据作为训练数据,生成最终训练模型,此模型即可用以对未知数据进行标注,对一篇新的科技文献,先获取此文献的标题,并将此标题做标准化,提取特征后置入最终模型中,即可得到对应输出,即可评判得到此文献的研究对象,该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据,在机器学习模型中优化的引入人工评定,可有效提高学习模型的改进效果的同时,能够尽量节省人工标注的成本,而最终得到的模型可直接用于实际工程实践,结合 人的分析智能和统计学习的计算能力,在最小人工的劳动量的补充要求下,产生的模型可有效的提高研究对象的标引能力,最终模型可直接用以对未知数据进行预测,实用性强,方法简单。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。