基于工作说明书解析的岗位画像标签提取方法及装置

文档序号:35346184发布日期:2023-09-07 19:53阅读:24来源:国知局
基于工作说明书解析的岗位画像标签提取方法及装置

本技术涉及数据处理,特别是涉及一种基于工作说明书解析的岗位画像标签提取方法及装置。


背景技术:

1、近年来,随着大数据和人工智能技术的不断发展和普及,岗位画像成为了企业招聘、人才培养和职业规划等领域的重要工具。基于岗位画像,企业可以更准确地了解各种岗位的需求和特点,从而制定更有效的招聘策略。同时,在求职者方面,岗位画像也可以帮助他们更好地了解自己适合的岗位,并提高求职成功率。

2、然而,目前已有的专利申请中,cn201910068512-一种岗位画像设置方法、岗位画像设置装置及终端设备,cn201910744021-一种岗位画像生成方法、岗位画像生成装置及电子设备,cn201910192576-岗位画像和简历信息的匹配方法、装置、设备及存储介质,cn202011286200-岗位画像生成方法、装置、设备及存储介质,主要解决的是岗位画像的生成和设置问题,没有提供相关岗位画像标签的提取方法。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够实现岗位画像标签提取的基于工作说明书解析的岗位画像标签提取方法、装置、计算机设备和存储介质。

2、一种基于工作说明书解析的岗位画像标签提取方法,所述方法包括:

3、获取相关企业岗位的工作说明书;对工作说明书进行预处理,得到预处理后的工作说明书;

4、根据自然语言处理技术对预处理后的工作说明书进行向量化处理,得到向量化后的工作说明书;

5、对向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子;利用模糊因子设置模糊聚类的损失函数,根据损失函数对关键词进行分配,得到每个关键词所属的初始类别;

6、根据基于密度的dbscan算法对分配初始类别后的关键词进行密度聚类,得到每个类别的中心以及中心对应的关键词集合;将关键词集合作为岗位的画像标签。

7、在其中一个实施例中,对工作说明书进行预处理,得到预处理后的工作说明书,包括:

8、对工作说明书进行文本清洗,去除工作说明书中的无用信息,再根据jieba分词工具对清洗后的工作说明书进行分词和词性标注并进行停用词过滤,得到预处理后的工作说明书。

9、在其中一个实施例中,根据自然语言处理技术对预处理后的工作说明书进行向量化处理,得到向量化后的工作说明书,包括:

10、根据tf-idf算法对预处理后的工作说明书进行关键词提取,再根据词袋模型对提取后的句子或短语进行向量化,得到向量化后的句子;

11、对所有向量化后的句子进行加权平均,得到向量化后的工作说明书。

12、在其中一个实施例中,根据tf-idf算法对预处理后的工作说明书进行关键词提取,包括:

13、根据tf-idf算法对预处理后的工作说明书进行关键词提取,得到提取后的句子或短语为

14、;

15、其中,w表示单词,表示工作说明书文本中的一个句子或短语,d表示整篇工作说明书,表示单词w在句子或短语中的出现频率,表示单词w在整篇工作说明书中的逆文档频率。

16、在其中一个实施例中,对向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子,包括:

17、对向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子为

18、;

19、其中,表示关键词到第 j个类别中心的距离,表示关键词到第 k个类别中心的距离, m表示类别总数, b是模糊因子的指数。

20、在其中一个实施例中,利用模糊因子设置模糊聚类的损失函数,包括:

21、利用模糊因子设置模糊聚类的损失函数为

22、;

23、其中,表示关键词总数。

24、在其中一个实施例中,根据基于密度的dbscan算法对分配初始类别后的关键词进行密度聚类,得到每个类别对应的关键词集合,包括:

25、将分配初始类别后的关键词分为核心点、边界点和噪声点;核心点是指在以自身为圆心,为半径的邻域内至少包含个点的数据点,其中是一个预设的参数;边界点是指在以核心点为圆心,为半径的邻域内但不是核心点的数据点;噪声点是指既不是核心点也不是边界点的数据点;

26、随机选择一个的关键词 x,判断其是否为核心点,如果是核心点,则创建一个新的簇,并将核心点以及其密度可达的所有点归为新的簇;如果 x不是核心点,但是 x是某个核心点的边界点,则将 x归为对应核心点所在的簇;如果 x既不是核心点也不是边界点,则将 x标记为噪声点,直到所有关键词都被分类为止,得到每个类别对应的关键词集合;其中,对于每个关键词,定义以其为圆心,为半径的邻域为,如果某个关键词在关键词的邻域内,即,则称是的直接密度可达点,如果存在一个关键词序列,满足,且是的直接密度可达点,则称是的密度可达点。

27、一种基于工作说明书解析的岗位画像标签提取装置,所述装置包括:

28、预处理模块,用于获取相关企业岗位的工作说明书;对工作说明书进行预处理,得到预处理后的工作说明书;

29、向量化处理模块,用于根据自然语言处理技术对预处理后的工作说明书进行向量化处理,得到向量化后的工作说明书;

30、模糊聚类模块,用于对向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子;利用模糊因子设置模糊聚类的损失函数,根据损失函数对关键词进行分配,得到每个关键词所属的初始类别;

31、密度聚类模块,用于根据基于密度的dbscan算法对分配初始类别后的关键词进行密度聚类,得到每个类别的中心以及中心对应的关键词集合;将关键词集合作为岗位的画像标签。

32、上述基于工作说明书解析的岗位画像标签提取方法及装置,首先对工作说明书进行预处理,得到预处理后的工作说明书,根据自然语言处理技术对预处理后的工作说明书进行向量化处理,得到向量化后的工作说明书,通过将工作说明书内容向量化,能够高效地处理大量数据,提高算法的效率。再对向量化后的工作说明书中的关键词进行模糊计算,得到关键词的模糊因子;利用模糊因子设置模糊聚类的损失函数,根据损失函数对关键词进行分配,得到每个关键词所属的初始类别,考虑了关键词之间的模糊性,通过设计工作说明书工作内容与任务模糊因子,相比于传统聚类算法,能够更准确高效地对工作说明书中的内容进行分析和提取,从而实现自动化生成岗位画像标签,最后根据基于密度的dbscan算法对分配初始类别后的关键词进行密度聚类,利用最新的聚类算法对每个类别进行进一步的聚类,可以有效地处理数据分布不均匀、聚类形状不规则和噪声等问题,提高聚类准确率,进而提高岗位画像标签的准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1