本发明涉及关键词提取领域,具体涉及一种基于深度神经网络的公司网站关键词提取方法。
背景技术:
搜索推荐场景下,目标公司产品服务的描述及所属行业信息对于匹配相关公司的用户具有直接意义。目前,公司网站的关键词一般是由公司人工选择设定,当公司网站上的业务信息有所更新时,关键词并不能随之更新,这就会使得该公司网站的关键词与实际会有所偏差,导致用户不能准确搜索或了解该公司的情况。
技术实现要素:
有鉴于此,本发明的目的在于提供一种基于深度神经网络的公司网站关键词提取方法,其能够准确提取出公司网站的关键词。
为实现上述目的,本发明采用的技术方案是:
一种基于深度神经网络的公司网站关键词提取方法,其包括以下步骤:
步骤1、从公司网站中获取基础语料;
从公司的网站中爬取主页即一级页面,以及能够从主页跳转到的同域名页面,即二级页面;利用预先设置好的关键词词典,对一级页面和二级页面的url进行筛选,获取网页源码;
对网页源码进行过滤处理,过滤非文本内容,留下文本内容,并对文本内容进行分句处理,得到分句文本,将该分句文本作为基础语料;
步骤2、从基础语料中提取名词短语;
对步骤1得到的基础语料进行单词统计,并进行词向量训练;对经过词向量训练后的基础语料进行句法结构分析,分析完成后提取名词短语,并进行去重处理;
步骤3、利用循环神经网络模型对步骤2中获取到的名词短语进行向量化,将每一个名词短语映射为一个定长的向量,得到名词短语向量;
步骤4、将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量;
步骤5、采用余弦相似度计算公司的各个名词短语向量与该公司主向量之间的相似度,并按照相似程度由高至低对公司的名词短语向量进行排序,得到名词短语排行榜;
步骤6、在名词短语排行榜中选择排名为前k名的名词短语向量作为公司的主要关键词。
采用上述方案后,本发明通过从公司的一级页面和二级页面中获取基础语料,然后从基础语料中提取名词短语;利用循环神经网络模型对名词短语进行向量化,得到名词短语向量;将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量;采用余弦相似度计算公司的各个名词短语向量与该公司主向量之间的相似度,并按照相似程度由高至低对公司的名词短语向量进行排序,得到名词短语排行榜;在名词短语排行榜中选择排名为前k名的名词短语向量作为公司的主要关键词。与现有技术相比,通过本发明方法获取到的公司网站关键词比较准确,使用户能准确搜索或了解该公司的情况。
附图说明
图1为本发明流程图。
具体实施方式
如图1所示,本发明揭示了一种基于深度神经网络的公司网站关键词提取方法,其包括以下步骤:
步骤1、从公司网站中获取基础语料;
从公司的网站中爬取主页即一级页面,以及能够从主页跳转到的同域名页面,即二级页面;利用预先设置好的关键词词典,对一级页面和二级页面的url进行筛选,获取网页源码。
对网页源码进行过滤处理,过滤非文本内容,留下文本内容,并对文本内容进行分句处理,得到分句文本,将该分句文本作为基础语料。
步骤2、从基础语料中提取名词短语;
对步骤1得到的基础语料进行单词统计,并进行词向量训练,在进行词向量训练时可以采用woed2vec模型或者glove模型。
对经过词向量训练后的基础语料进行句法结构分析,分析完成后提取名词短语(np),并进行去重处理。
步骤3、利用循环神经网络(rnn)模型对步骤2中获取到的名词短语进行向量化,将每一个名词短语映射为一个定长的向量,得到名词短语向量。
步骤4、将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量。
步骤5、采用余弦相似度计算公司的各个名词短语向量与该公司主向量之间的相似度,并按照相似程度由高至低对公司的名词短语向量进行排序,得到名词短语排行榜。
步骤6、在名词短语排行榜中选择排名为前k名的名词短语向量作为公司的主要关键词。
本发明的关键在于,本发明通过从公司的一级页面和二级页面中获取基础语料,然后从基础语料中提取名词短语;利用循环神经网络模型对名词短语进行向量化,得到名词短语向量;将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量;采用余弦相似度计算公司的各个名词短语向量与该公司主向量之间的相似度,并按照相似程度由高至低对公司的名词短语向量进行排序,得到名词短语排行榜;在名词短语排行榜中选择排名为前k名的名词短语向量作为公司的主要关键词。与现有技术相比,通过本发明方法获取到的公司网站关键词比较准确,使用户能准确搜索或了解该公司的情况。
以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。