基于自然语言的论文标签补充方法、装置及存储介质

文档序号:33809230发布日期:2023-04-19 13:12阅读:28来源:国知局
基于自然语言的论文标签补充方法、装置及存储介质

本技术涉及论文文本处理,尤其涉及一种基于自然语言的论文标签补充方法、装置、设备及存储介质。


背景技术:

1、随着时代的发展和进步,有许多源源不断的新事物或者新技术被人们所使用,研究学者在对新研究成果或者新事物分类归纳入库研究时,发现科技和科学类论文文本的分类和入库中,现有的分类标签种类已经不满足现有的新知识点。

2、目前,若再使用现有的分类种类,已经不足以表示对应学术论文的论点中心,因此,需要对现有分类库中标签种类进行优化,现有技术中标签优化采用的方式是通过查找全网点击率排行靠前的新词汇,并获取新出现的词汇,定时对分类库中标签种类进行更新,将新词汇加入到分类库中标签中。但是,这样盲目的加入新标签会造成太多垃圾标签的产生,既占用了分类标签的空间资源,又不能起到分类标签的实质性扩展作用。由此可知,目前在对原有分类标签进行更新维护时,盲目加入新标签,造成新标签扩充不严谨,适用性不强的问题。


技术实现思路

1、本技术实施例的目的在于提出一种基于自然语言的论文标签补充方法、装置、设备及存储介质,以解决现有技术中新标签扩充不严谨,适用性不强的问题。

2、为了解决上述技术问题,本技术实施例提供一种基于自然语言的论文标签补充方法,采用了如下所述的技术方案:

3、一种基于自然语言的论文标签补充方法,包括:

4、获取待进行标签分类的科技文本资源;

5、使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,其中,所述的分类标签选择步骤包括:基于预设的层次分层方式将所述科技文本资源分成若干文本片段,基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集;

6、基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,其中,所述的扩充处理步骤包括:基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集,基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集;

7、基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集,其中,所述预设的筛选方式包括:基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素;

8、将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,其中,所述分类目标空间包括:已经分类完成的若干文本资源和若干标签种类。

9、进一步的,所述基于预设的层次分层方式将所述科技文本资源分成若干文本片段,包括:基于关键词或者段落标识将所述科技文本资源分成若干部分。

10、进一步的,所述基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集包括:基于各个文本片段在文本中的不同位置,对不同的文本片段分配不同的分类标签选择方式;对不同的文本片段进行分类标签选择时,先对待分类片段进行分句分词处理,基于预设的分类标签选择阈值,筛选出符合阈值条件的分词作为分类标签集。

11、进一步的,所述基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集,包括:

12、基于语料库预先生成的词汇参照表,对所述分类标签集中元素进行词性判断;判断所述分类标签集中元素是否为名词结构,若为名词结构将当前元素加入到标签初选集中。

13、进一步的,所述基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集,包括:以资源平台或者预先存储的语料库作为参考库,将所述标签初选集中的每一个元素作为查询条件进行查询;使用轮询的方式,查询所述参考库中是否存在与所述标签初选集中元素含义相同但表达方式不同的字段,若存在,将查询到的字段实时加入标签初选集中,直到所述标签初选集中元素的相同含义字段都查询和加入完毕,结束查询,获得标签扩充集。

14、进一步的,所述基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,包括:基于预设的地名表、人名表和时间格式,判断标签扩充集中元素是否为地名、人名或时间的表述,若判断所述元素为所述地名、人名或时间进行删除处理,保留剩下的元素构成新的标签扩充集。

15、进一步的,所述基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素,包括:基于预设的通俗参照表,判断经筛选条件一筛选后的标签扩充集中元素是否存在方言或者非科学性表达方式,若存在,将所述元素进行筛选,将经筛选条件二筛选后的元素重新作为标签扩充集。

16、为了解决上述技术问题,本技术实施例还提供了一种基于自然语言的论文标签补充装置,采用了如下所述的技术方案:

17、一种基于自然语言的论文标签补充装置,包括:

18、文本资源获取模块,用于获取待进行标签分类的科技文本资源;

19、标签初选择模块,用于使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,其中,所述的分类标签选择步骤包括:基于预设的层次分层方式将所述科技文本资源分成若干文本片段,基于预设的不同分类标签选择方式对不同的文本片段进行分类标签选择,生成分类标签集;

20、标签扩充模块,用于基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,其中,所述的扩充处理步骤包括:基于词性对分类标签集中元素进行筛选,筛选出符合预设词性的元素作为标签初选集,基于预设的词库资源对标签初选集中元素进行扩充,将经扩充后的标签初选集作为标签扩充集;

21、标签清洗模块,用于基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集,其中,所述预设的筛选方式包括:基于预设的筛选条件一,筛选出标签扩充集中含有特定含义的元素,基于预设的筛选条件二,筛选出标签扩充集中非专业性表述元素;

22、标签新加入模块,用于将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,其中,所述分类目标空间包括:已经分类完成的若干文本资源和若干标签种类。

23、为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:

24、一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现本技术实施例中提出的一种基于自然语言的论文标签补充方法的步骤。

25、为了解决上述技术问题,本技术实施例还提供一种非易失性计算机可读存储介质,采用了如下所述的技术方案:

26、一种非易失性计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本技术实施例中提出的一种基于自然语言的论文标签补充方法的步骤。

27、与现有技术相比,本技术实施例主要有以下有益效果:

28、本技术实施例公开了基于自然语言的论文标签补充方法、装置、设备及存储介质,获取待进行标签分类的科技文本资源;使用分层次选择方式对所述科技文本资源进行分类标签选择,并获取分类标签集,通过分层次选择的方式,避免了处理耗时较多的问题,分层次分别处理提高了处理效率,也减少了内存的占用率;基于自然语言理解和处理中的词性分析方式,对所述分类标签集中元素进行扩充处理,并获取标签扩充集,通过分类标签进行扩充,选择词性含义相同的词语加入到标签扩充集中,使得标签的可选择性更强;基于预设的筛选方式对标签扩充集中元素进行筛选,将经筛选后所述标签扩充集中剩下的元素作为最终预测集;将最终预测集中元素与分类目标空间中的分类标签集进行对照,并判断最终预测集中是否有新元素出现,若存在新元素则将所述新元素加入到分类目标空间中的分类标签集中,通过预设的筛选和判断条件,对标签扩充集进行筛选,筛选出非适用性标签,最后将最终预测集中元素和分类目标空间中的分类标签集中元素进行对比,将出现的新标签加入到分类目标空间的分类标签集中,即做到了结合文本内容对分类标签种类更新,有助于为原有分类标签库提供更加科学的新标签,做到合理更新,提高论文分类标签的完善度和高适用性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1