一种基于多特征融合的网络学术报告分类方法与流程

文档序号:11134212阅读:来源:国知局

技术特征:

1.一种基于多特征融合的网络学术报告分类方法,其特征是按如下步骤进行:

步骤1、收集并建立学术报告数据库;

步骤1.1、利用爬虫工具收集网络学术报告的信息并作为相应条目,所述网络学术报告的信息包括:报告标题、报告时间、报告地点、报告人、报告人简介、报告简介和报告举办单位;

步骤1.2、添加学术报告所属的学科分类信息的条目,从而建立学术报告数据库;

步骤2、获得第一匹配结果集合;

步骤2.1、收集并建立学院名称集合及其包含的各个学科名称集合;

步骤2.2、将所述报告举办单位与所述学院名称集合中的各个学院进行匹配,从而获得第一匹配结果集合;所述第一匹配结果集合为所述报告举办单位所对应的学院所包含的所有学科;

步骤3、获得第二匹配结果集合;

步骤3.1、收集并建立研究人员集合及其对应的研究领域集合;

步骤3.2、将所述报告人与所述研究人员集合中的各个研究人员姓名进行匹配,从而获得第二匹配结果集合;所述第二匹配结果集合为所述报告人所属的研究领域;

步骤4、利用中文关键词提取算法对所述报告标题进行提取,获得所述报告标题的关键词;

步骤5、使用同义词扩展算法对所提取的关键词进行同义词扩展,得到所述关键词的近义词特征集合;

步骤6、使用SVM分类器对所述关键词及其近义词特征集合进行文本分类,得到第一分类结果;所述第一分类结果为所述关键词及其近义词所对应的第一学科集合;所述第一学科集合中包含各个学科名称及其相应的概率;

步骤7、使用朴素贝叶斯分类器NB对所述关键词及其近义词特征集合进行文本分类,得到第二分类结果;所述第二分类结果为所述关键词及其近义词所对应的第二学科集合;所述第二学科集合中包含各个学科名称及其相应的概率;

步骤8、得到初步分类结果集合;

步骤8.1、从所述第一分类结果和第二分类结果分别选出概率最高的前2个学科所对应的概率,分别记为第一SVM概率和第二SVM概率、第一NB概率和第二NB概率;

步骤8.2、设置一个置信度值C;

步骤8.3、判断第一SVM概率和第二SVM概率之差≥置信度值C是否成立,若成立,则表将所述第一SVM概率所对应的学科作为第一初步分类结果;否则,则将所述第一SVM概率和第二SVM概率所对应的学科作为第一初步分类结果;

步骤8.4、判断第一NB概率和第二NB概率之差≥置信度值C是否成立,若成立,则表将所述第一NB概率所对应的学科作为第二初步分类结果;否则,则将所述第一NB概率和第二NB概率所对应的学科作为第二初步分类结果;

步骤8.5、将所述第一初步分类结果和第二初步分类结果取并集,得到初步分类结果集合;

步骤9、得到最终分类结果

步骤9.1、为所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合设定相应的权重,记为A、B、C;

步骤9.2、将所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合取并集,得到综合分类结果集合;

步骤9.3、统计所述综合分类结果集合中的每个学科分别在所述第一匹配结果集合、第二匹配结果集合和初步分类结果集合中相应权重的总和;

步骤9.4、以权重的总和最高的学科作为所述网络学术报告的最终分类结果并用于预告和推荐。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1