面向文献新兴技术的成熟度预测方法、装置及设备与流程

文档序号:37469493发布日期:2024-03-28 18:52阅读:11来源:国知局
面向文献新兴技术的成熟度预测方法、装置及设备与流程

本技术涉及数据分析,尤其涉及面向文献新兴技术的成熟度预测方法、装置及设备。


背景技术:

1、科学与技术作为决定科技创新走向的两股力量,相互渗透、相互交织。学术论文通常表征科学,被用于测度基础科学研究活动的水平,而专利文献通常表征技术,被用于测度产业技术的创新水平。新兴技术不仅能够改变传统产业所依赖的技术范式或创造新的产业,而且具有改变现有的社会经济体系和社会经济生产方式的潜力。因此新兴技术的识别和预测对于政府和企业在面临技术变革时识别战略机遇具有重要意义。

2、现有的技术生命周期识别的方法主要可以分为两类:定性分析法和定量分析法。定性分析法的共同缺陷在于过于依赖专家经验和领域知识来进行技术的识别,存在技术专家依赖性,无法保证结果的客观性。定量分析法虽然一定程度上提高了结果的客观性,但现有监督型定量分析方法需要事先对每项新兴技术进行人工标注;受限于昂贵的人力、物力和财力,带标签的新兴技术数据量较小,难以满足需求。导致实际的新兴技术预测分析缺乏客观性和高效可靠性。


技术实现思路

1、本技术提供了面向文献新兴技术的成熟度预测方法、装置及设备,用于解决现有技术缺乏客观性,且对人工标注具有较大依赖性,导致新兴技术成熟度分析缺乏高效性和可靠性的技术问题。

2、有鉴于此,本技术第一方面提供了面向文献新兴技术的成熟度预测方法,包括:

3、在目标领域获取预置时段内的文献数据,所述文献数据包括文献数量、文献作者、文献期刊和文献领域;

4、基于预设包装法根据所述文献数据构建文献训练集,所述文献训练集包括成熟度阶段真实标签;

5、基于k折交叉验证法和所述文献训练集对初始半监督模型进行训练,得到伪标签生成器;

6、通过所述伪标签生成器对无标签文献数据进行标签预测,生成伪标签数据集,所述伪标签数据集包括预测得到的成熟度阶段伪标签;

7、将所述伪标签数据集加入所述文献训练集中,返回所述基于k折交叉验证法和所述文献训练集对初始半监督模型进行训练的步骤,得到优化成熟度预测模型;

8、通过所述优化成熟度预测模型对目标文献数据的新兴阶段进行预测分析,得到成熟度阶段预测结果。

9、优选地,所述在目标领域获取预置时段内的文献数据,所述文献数据包括文献数量、文献作者、文献期刊和文献领域,之后还包括:

10、对所述文献数据进行预处理操作,所述预处理操作包括数据类型转换、有效信息提取、异常值剔除、缺失值填补和同名消歧。

11、优选地,所述对所述文献数据进行预处理操作,所述预处理操作包括数据类型转换、有效信息提取、异常值剔除、缺失值填补和同名消歧,之后还包括:

12、基于所述文献数据以计算的方式构造多个文献特征,所述文献特征包括增长率和作者率。

13、优选地,所述基于预设包装法根据所述文献数据构建文献训练集,所述文献训练集包括成熟度阶段真实标签,之前还包括:

14、基于预置参考报告信息确定所述文献数据在所述目标领域内的成熟度阶段标签,得到成熟度阶段真实标签。

15、优选地,所述基于预设包装法根据所述文献数据构建文献训练集,所述文献训练集包括成熟度阶段真实标签,包括:

16、基于预设包装法将所述文献数据对应的文献特征划分为初始训练集和初始测试集;

17、采用预设选择算法依据所述初始训练集和所述初始测试集进行特征选择分析,生成文献训练集。

18、本技术第二方面提供了面向文献新兴技术的成熟度预测装置,包括:

19、数据获取单元,用于在目标领域获取预置时段内的文献数据,所述文献数据包括文献数量、文献作者、文献期刊和文献领域;

20、数据处理单元,用于基于预设包装法根据所述文献数据构建文献训练集,所述文献训练集包括成熟度阶段真实标签;

21、模型训练单元,用于基于k折交叉验证法和所述文献训练集对初始半监督模型进行训练,得到伪标签生成器;

22、标签生成单元,用于通过所述伪标签生成器对无标签文献数据进行标签预测,生成伪标签数据集,所述伪标签数据集包括预测得到的成熟度阶段伪标签;

23、更新优化单元,用于将所述伪标签数据集加入所述文献训练集中,触发所述模型训练单元,得到优化成熟度预测模型;

24、结果预测单元,用于通过所述优化成熟度预测模型对目标文献数据的新兴阶段进行预测分析,得到成熟度阶段预测结果。

25、优选地,还包括:

26、数据预处理单元,用于对所述文献数据进行预处理操作,所述预处理操作包括数据类型转换、有效信息提取、异常值剔除、缺失值填补和同名消歧。

27、优选地,还包括:

28、特征构造单元,用于基于所述文献数据以计算的方式构造多个文献特征,所述文献特征包括增长率和作者率。

29、优选地,所述数据处理单元,具体用于:

30、基于预设包装法将所述文献数据对应的文献特征划分为初始训练集和初始测试集;

31、采用预设选择算法依据所述初始训练集和所述初始测试集进行特征选择分析,生成文献训练集。

32、本技术还提供了面向文献新兴技术的成熟度预测设备,所述设备包括处理器以及存储器;

33、所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

34、所述处理器用于根据所述程序代码中的指令执行上述方法实施例中的面向文献新兴技术的成熟度预测方法。

35、从以上技术方案可以看出,本技术实施例具有以下优点:

36、本技术中,提供了面向文献新兴技术的成熟度预测方法,包括:在目标领域获取预置时段内的文献数据,文献数据包括文献数量、文献作者、文献期刊和文献领域;基于预设包装法根据文献数据构建文献训练集,文献训练集包括成熟度阶段真实标签;基于k折交叉验证法和文献训练集对初始半监督模型进行训练,得到伪标签生成器;通过伪标签生成器对无标签文献数据进行标签预测,生成伪标签数据集,伪标签数据集包括预测得到的成熟度阶段伪标签;将伪标签数据集加入文献训练集中,返回基于k折交叉验证法和文献训练集对初始半监督模型进行训练的步骤,得到优化成熟度预测模型;通过优化成熟度预测模型对目标文献数据的新兴阶段进行预测分析,得到成熟度阶段预测结果。

37、本技术提供的面向文献新兴技术的成熟度预测方法,基于训练的优化成熟度预测模型对目标文献数据进行新兴技术成熟度阶段的预测分析,此过程不需要依赖专家经验和领域知识,就能够实现对任意未知目标文献数据的成熟度预测。而用于模型训练的文献训练集可以基于伪标签数据集不断扩增,以此确保模型训练的可靠性;另外,由于伪标签数据集的成熟度阶段伪标签是伪标签生成器生成的,所以文献训练集对人工标注的依赖并不大,能够在一定程度上减少人力成本。因此,本技术能够解决现有技术缺乏客观性,且对人工标注具有较大依赖性,导致新兴技术成熟度分析缺乏高效性和可靠性的技术问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1