本发明涉及数据处理技术领域,具体涉及一种基于专家论文大数据的研究热点分析方法。
背景技术:
知网本身已有搜索引擎,可以根据标题、作者、关键词等方式进行搜索,搜索的结果也可以导出,与noteexpress等软件共享。用来分析和可视共被引网络的java应用程序citespace,可以分析科学知识的发展进程与结构关系,在知网导出标题等数据后,可以完成关键词分析和作者关系分析等科学知识谱系分析。
但知网本身已有搜索引擎的缺陷是每次均要靠人工点选操作,对于数据分析来说,这种工作方式无疑是很费力的。人工点选下载数据的数量有限,通常人力成本不允许下载完全部数据,导致数据很难有一个总体和全面的分析呈现。而且,其分析功能仅限于对用户输入关键词的记忆和排序,并没有更深入的分析功能。citespace还是基于人工操作的基础上,效率较低,数据的不完整还会造成分析的误差,且并不能解决专业分析问题。
技术实现要素:
本发明的目的是针对现有技术的不足,提供了一种基于专家论文大数据的研究热点分析方法。
本发明的目的可以通过如下技术方案实现:
一种基于专家论文大数据的研究热点分析方法,所述方法包括以下步骤:
s1、根据关键词,以知识数据库为数据源进行论文搜索,并抓取论文标题、发表时间、作者、数据来源这些开放性数据;
s2、根据下载的论文标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出热点词汇列表;
s3、通过专业论文日常用词语料库匹配排除法,将热点词汇列表中的日常用词删除,得出专业词汇列表;
s4、对专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据得到专业词汇词频总表;
s5、增加年份数据,在专业词汇词频总表的基础上,根据不同年份列出词频分表,得出以时间为轴线的关注点变化趋势。
进一步地,所述根据关键词,以网络开放数据库为数据源进行论文搜索,关键词为一个,或者再包括这个关键词的一个相似性最大的同义词或近义词。
进一步地,所述知识数据库为知网数据库或其他包含专业论文数据的网络开放数据库。
进一步地,所述步骤s5中根据不同年份列出词频分表,得出的以时间为轴线的关注点变化趋势能够以图表绘制进行可视化呈现。
进一步地,所述图表绘制采用了echarts画图技术。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提供的一种基于专家论文大数据的研究热点分析方法,采用双关键词搜索,以论文标题为源数据,经过分词、词频排序、专业论文中日常用词语料库匹配排除,从而得出有效专业词汇列表;采用论文文本大数据分析得出的词频数据,其样本量巨大,具有较高真实性和准确性,代表行业专家群体观点,能够弥补传统方法数据样本量较小和取样随机性不足的缺陷,可以为进一步的专家观点主观评价分析提供数据参考。
2、本发明提供的一种基于专家论文大数据的研究热点分析方法,能够分析长期从事该领域研究的专家之贡献度、各类期刊对该领域的关注度,以及被引度和被关注度等数据,这些数据可以帮助科研人员迅速了解和掌握行业研究现状,具有高效性。
附图说明
图1为本发明一种基于专家论文大数据的研究热点分析方法流程图。
图2为本发明实施例中基于专家论文大数据的研究热点分析方法流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
如图1所示,本实施例提供了一种基于专家论文大数据的研究热点分析方法,包括以下步骤:
s1、根据关键词,以知识数据库为数据源进行论文搜索,并抓取论文标题、发表时间、作者、数据来源这些开放性数据;
s2、根据下载的论文标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出热点词汇列表;
s3、通过专业论文日常用词语料库匹配排除法,将热点词汇列表中的日常用词删除,得出专业词汇列表;
s4、对专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据得到专业词汇词频总表;
s5、增加年份数据,在专业词汇词频总表的基础上,根据不同年份列出词频分表,得出以时间为轴线的关注点变化趋势。
下面结合具体实施例对上述方法进行详细说明,如图2所示,包括以下步骤:
s1、在网页中输入关键词,可以输入一个关键词,也可以再输入这个关键词的一个相似性最大的同义词或近义词。点击搜索按钮启动数据后台采集程序,将得到从知网数据库下载的与关键词相关的论文标题列表。由于两个关键词可能搜索到重复的数据,重复的部分不能叠加计算。故两个关键词的数据分别下载之后,应进行查重并排除重复数据。
s2、启动分词程序,对论文标题列表进行分词处理,得出词汇列表;
s3、启动词性分析程序,删除连词、介词、代词、动词、形容词等词性的词汇,只保留名词,得出热点词汇列表;
s4、启动专业论文日常用词语料库匹配程序,排除热点词汇列表中词频占比列表中的日常用词,按照词频降序排列,得出专业词汇列表;
s5、区分论文标题不同数据源,得出总数据列表和不同数据源列表;
s6、启动绘图程序,按照总数据列表和不同数据源列表,分别绘制热点来源分布图、热点占比分析图、热点年份走势分析图、专家贡献图、期刊贡献云图等分析图。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。