一种基于文本的自动识别文献研究的方法与流程

文档序号：12034597阅读：162来源：国知局

本发明涉及人工智能技术领域，具体为一种基于文本的自动识别文献研究的方法。

背景技术：

科学论文是由作者通过书面撰写，总结提炼研究工作的展现形式，科学论文一般包括不同的研究元素，如研究背景、研究对象、研究过程、研究方法、研究结论等，其中研究对象是指论文主要研究目标的核心主体，能高效清晰定位出对应文章的关注面，包括客观事物、理论、事件、过程、关系等属性实例，研究对象的提取能够将论文的主要研究目标以直观的形式展现出来，有助于研究者快速掌握这一对象的相关信息，方便的检索和对比相关研究内容，已有的处理方法有很多，其中有基于规则的方法，此方法取得了一定的效果，但由于自然语言句式的多样性，导致该方法并不能覆盖研究对象提取中的所有规则，遗漏太多，且不能实时更新，灵活性差，而采用统计学习方法的提取过程常常引入不确定因素，导入查全率高而准确率低，因而，单纯的规则或者统计的实用性都很有限。

技术实现要素：

本发明的目的在于提供一种基于文本的自动识别文献研究的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于文本的自动识别文献研究的方法，包括首先基于crf模型对已经标注少量的数据建模，然后对未标注数据进行预测，再从大部分标注集合中挑选尽量少的部分数据进行人工标注，接着将标注后的结果在加入到原有语料中重新建模，适当迭代该过程得到最终模块，而此模型即可用于对科技文献的研究对象进行抽取，具体为以下步骤：

步骤一：获取科技文献标题，并做初次标注

获取大量的科技文献的标题集合s，提取出少量科技文献的标题s1(s1的总量大于2000)并由人工在这些标题上做标注，标出对应的标题中提及的研究对象，标出后数据记为sd1，提取出少量科技文献的标题s2(s2的总量大于4000)并由人工在这些标题上做标注，标出对应的标题中提及的研究对象，标出后数据记为sd2，s中去除s1数据和s2数据后，剩下的部分记为s3；

步骤二：对数据进行标准化处理

由于科技文献本身涉及的对象复杂，研究对象中存在英文字母数字符号等，需要对句子进行预处理去掉这些东西，此处即根据正则表达式对原始文本进行标准化清洗，此步骤对s涉及的所有标题都进行标准化，而sd1标准化后记为sp1，sd2标准化后记为sp2，s3标准化后记为sp3；

步骤三：模型特征化提取

对数据sp1、sp2和sp3进行特征化，提取为可供模型直接使用的样本输入，对应的特征化后，sp1的特征化提取结果记为fa,sp2的特征化提取结果记为fb,sp3的特征化提取结果记为fc；

步骤四：训练数据

对数据fa用crf模型在标注后的数据进行训练，得到训练好的模型m0，运用模型m0对数据fb进行准确率测试，得到模型准确率p0；

步骤五：提取部分未标注数据，并进行标记

运用模型m0对数据fc进行自动标注，各样本的各个字符对应有被分为不同类别标签的概率值，记e＝标签的概率最大值-次大值其中从中选取对应不同e范围的样本，随机选择一部分交给人工进行标注，将标注后的得到的数据记为d0，进而做标准化和特征化，得到fd0；

步骤六：对模型准确率评估

将fd0加入fa中得到fa1，在fa1上重新建模，得到模型m1，并再次fb中进行准确率测试，准确率为p1；

步骤七：判断r值是否最优

观察两次准确率之差值δp＝p1-p0，δp>0则该e区间数据否对模型有效，为了节省人工标注成本，须尽可能的减少人工标注的成本，即筛选出进行人工标注的数据量n应尽可能的少，引入如下判别公式：r＝argmaxe(△p/n),其中，e＝标签的概率最大值-次大值，△p＝p2-p1＝f(e)表示前后两次模型准

确率的差值，n＝g(e)为添加的人工标记的数据的数量；

步骤八：分析数据量增加方法

重复步骤五、步骤六和步骤七过程；

步骤九：迭代标引，生成最终模型

优选的，在步骤五中，不断调整的大小，通常是以相同间隔递增的数列，如0.1，0.2，0.3，0.4，...，1，越大，筛选的数据越多，计算每次在原来数据基础上加入重新人工标注的新数据ai重新建模，计算前后两次准确率差值△p＝pi-p(i-1)，最后计算对应的r值，不断循环迭代，寻找最优r值，当△e越大，n越小时，越能添加尽量少的数据，得到最好的实验效果，即当r值越大时，这时的e是最优解ebest，则在e∈[0,ebest]时，能添加最少的数据(节省人工标注成本)，得到最好的实验效果。

与现有技术相比，本发明的有益效果是：该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据，在机器学习模型中优化的引入人工评定，可有效提高学习模型的改进效果的同时，能够尽量节省人工标注的成本，而最终得到的模型可直接用于实际工程实践，结合人的分析智能和统计学习的计算能力，在最小人工的劳动量的补充要求下，产生的模型可有效的提高研究对象的标引能力，最终模型可直接用以对未知数据进行预测，实用性强，方法简单。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不限于此。

实施例

一种基于文本的自动识别文献研究对象的方法，包括首先基于crf模型对已经标注少量的数据建模，然后对未标注数据进行预测，再从大部分标注集合中挑选尽量少的部分数据进行人工标注，接着将标注后的结果在加入到原有语料中重新建模，适当迭代该过程得到最终模块，而此模型即可用于对科技文献的研究对象进行抽取，具体为以下步骤：

步骤一：获取科技文献标题，并做初次标注

步骤二：对数据进行标准化处理

步骤三：模型特征化提取

步骤四：训练数据

对数据fa用crf模型在标注后的数据进行训练，得到训练好的模型m0，运用模型m0对数据fb进行准确率测试，得到模型准确率p0；

步骤五：提取部分未标注数据，并进行标记

运用模型m0对数据fc进行自动标注，各样本的各个字符对应有被分为不同类别标签的概率值，记e＝标签的概率最大值-次大值其中从中选取对应不同e范围的样本，随机选择一部分交给人工进行标注，将标注后的得到的数据记为d0，进而做标准化和特征化，得到fd0，不断调整的大小，通常是以相同间隔递增的数列，如0.1，0.2，0.3，0.4，...，1，越大，筛选的数据越多，计算每次在原来数据基础上加入重新人工标注的新数据ai重新建模，计算前后两次准确率差值△p＝pi-p(i-1)，最后计算对应的r值，不断循环迭代，寻找最优r值，当△e越大，n越小时，越能添加尽量少的数据，得到最好的实验效果，即当r值越大时，这时的e是最优解 ebest，则在e∈[0,ebest]时，能添加最少的数据(节省人工标注成本)，得到最好的实验效果；

步骤六：对模型准确率评估

将fd0加入fa中得到fa1，在fa1上重新建模，得到模型m1，并再次fb中进行准确率测试，准确率为p1；

步骤七：判断r值是否最优

确率的差值，n＝g(e)为添加的人工标记的数据的数量；

步骤八：分析数据量增加方法

重复步骤五、步骤六和步骤七过程；

步骤九：迭代标引，生成最终模型

(1)将当前所有已标好结果的数据作为训练数据，生成训练模型，(2)用当前的训练模型对不带标号的数据进行预测，(3)从中选出判定结果符合ebest值的数据，随机抽取少量让人工标注，(4)将此时增加的人工标注后的数据加入已有的标注中，(5)重复此(1)到(4)的迭代过程，人为设定迭代次数，将最终得到的所有标注后的数据作为训练数据，生成最终训练模型，此模型即可用以对未知数据进行标注，对一篇新的科技文献，先获取此文献的标题，并将此标题做标准化，提取特征后置入最终模型中，即可得到对应输出，即可评判得到此文献的研究对象，该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据，在机器学习模型中优化的引入人工评定，可有效提高学习模型的改进效果的同时，能够尽量节省人工标注的成本，而最终得到的模型可直接用于实际工程实践，结合人的分析智能和统计学习的计算能力，在最小人工的劳动量的补充要求下，产生的模型可有效的提高研究对象的标引能力，最终模型可直接用以对未知数据进行预测，实用性强，方法简单。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贺惠新;刘丽娟;曹宇
技术所有人：《中国学术期刊（光盘版）》电子杂志社有限公司
我是此专利的发明人

上一篇：关系网络的构建方法及装置与流程
上一篇：确定词组关联度的方法、品牌竞争度的方法及其装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。