行业分类方法和系统与流程

文档序号:36338410发布日期:2023-12-13 15:46阅读:24来源:国知局
行业分类方法和系统与流程

本说明书涉及互联网领域,尤其涉及一种行业分类方法和系统。


背景技术:

1、互联网是用户获取信息的重要渠道。如何洞察用户需求,并及时抓住热点事件,是实现信息推送的关键。目前,多采用基于有监督算法的事件行业分类及话题生成模型或者基于人工规则的事件行业分类及话题生成模型来进行行业分类及话题生成。然而,在冷启动阶段,没有相关的行业类别打标数据时,无法使用该类有监督分类模型进行行业分类,并且有监督分类模型的表现强依赖于行业类别打标数据的数量和质量,当打标数据比较少或者打标质量比较差时,均会导致热点事件分类准确率较低。

2、综上,需要提供一种新的行业分类方法和系统,能够提高热点事件的分类准确率。

3、背景技术部分的内容仅仅是发明人个人所知晓的信息,并不代表上述信息在本公开申请日之前已经进入公共领域,也不代表其可以成为本公开的现有技术。


技术实现思路

1、本说明书提供一种行业分类准确率更高的行业分类方法和系统。

2、第一方面,本说明书提供一种行业分类方法,用于对热点事件进行行业分类,所述方法包括:获取待分类的多个样本数据,所述多个样本数据中的每个样本数据包括至少一个热点事件的信息;获取多个行业类别对应的关键词库;将所述多个样本数据与所述关键词库进行匹配,确定所述多个样本数据中与所述关键词库相匹配的第一样本数据的行业类别;以及将所述多个样本数据中与所述关键词库不匹配的第二样本数据与所述第一样本数据进行匹配,并基于匹配成功的第一样本数据的行业类别确定与其对应的第二样本数据的行业类别。

3、在一些实施例中,所述将所述多个样本数据中与所述关键词库不匹配的第二样本数据与所述第一样本数据进行匹配,并基于匹配成功的第一样本数据的行业类别确定与其对应的第二样本数据的行业类别,包括对每个第二样本数据:确定当前第二样本数据与所述第一样本数据两两之间的相似度;以及将相似度大于预设第一相似度阈值或者相似度最大的至少一个第一样本数据的行业类别作为所述当前第二样本数据的行业类别。

4、在一些实施例中,所述将所述多个样本数据与所述关键词库进行匹配,确定所述多个样本数据中第一样本数据的行业类别,包括对所述多个样本数据中的每个样本数据:提取当前样本数据的样本关键词;确定所述样本关键词与所述关键词库中的多个关键词之间的相似度;以及基于所述相似度确定所述当前样本数据与所述关键词库匹配时,基于与所述当前样本数据匹配的至少一个关键词对应的行业类别确定其对应的行业类别,或者,基于所述相似度确定所述当前样本数据与所述关键词库不匹配时,将所述当前样本数据作为所述第二样本数据。

5、在一些实施例中,所述基于与所述当前样本数据匹配的至少一个关键词对应的行业类别确定其对应的行业类别,包括:将相似度大于预设第二相似度阈值,或者相似度大于预设第二相似度阈值且相似度最大的至少一个关键词对应的行业类别确定为所述当前样本数据的初始行业类别;以及基于所述当前样本数据的初始行业类别,确定所述当前样本数据的行业类别。

6、在一些实施例中,所述基于所述当前样本数据的初始行业类别,确定所述当前样本数据的行业类别包括:获取行业类别分类错误且被修正的至少一个历史样本数据及其对应的修正行业类别;确定所述当前样本数据与所述至少一个历史样本数据之间的相似度;以及基于所述当前样本数据与所述至少一个历史样本数据之间的相似度,和所述当前样本数据的初始行业类别,得到所述当前样本数据的行业类别。

7、在一些实施例中,所述基于所述当前样本数据与所述至少一个历史样本数据之间的相似度,以及所述当前样本数据的初始行业类别,得到所述当前样本数据的行业类别,包括:确定所述当前样本数据与所述至少一个历史样本数据之间的相似度中的最大相似度大于预设第三相似度阈值时,将所述最大相似度对应的历史样本数据的修正行业类别作为所述当前样本数据的行业类别;或者,确定所述当前样本数据与所述至少一个历史样本数据之间的相似度中的最大相似度小于预设第三相似度阈值时,将所述初始行业类别作为所述当前样本数据的行业类别。

8、在一些实施例中,所述获取多个行业类别对应的关键词库,包括:获取预设的原始关键词库;确定所述多个行业类别对应的扩充关键词,所述扩充关键词是基于与其对应的行业类别的特征描述得到的;以及基于所述扩充关键词对所述原始关键词库进行扩充,得到所述关键词库。

9、在一些实施例中,所述基于所述多个行业类别对应的扩充关键词对所述原始关键词库进行扩充,得到所述关键词库,包括:确定所述扩充关键词与所述原始关键词库中的多个原始关键词之间的相似度;以及将相似度大于预设第四相似度阈值的扩充关键词添加至与其对应的原始关键词对应的行业类别下,得到所述关键词库。

10、在一些实施例中,所述将所述多个样本数据中与所述关键词库不匹配的第二样本数据与所述第一样本数据进行匹配,并基于所述第一样本数据的行业类别确定所述第二样本数据的行业类别之后,所述方法还包括:确定所述多个行业类别中的至少一个行业类别对应的样本数据的话题。

11、在一些实施例中,所述确定所述多个行业类别中的至少一个行业类别对应的样本数据的话题,包括对所述至少一个行业类别中的每个行业类别:基于当前行业类别中的样本数据之间的话题相似度对所述当前行业类别中的样本数据进行聚类,得到至少一个样本数据集合;针对所述至少一个样本数据集合中至少部分样本数据集合,将所述至少部分样本数据集合中每个样本数据集合依次作为当前样本数据集合,对所述当前样本数据集合中不同渠道的样本数据的热度值进行归一化处理,并基于归一化后的热度值的加权和,得到所述当前样本数据集合对应的话题的热度值,以及将所述当前样本数据集合中归一化后的最高热度值的样本数据的事件名称确定为所述话题的名称;以及输出所述至少部分样本数据集合对应的话题的热度值和名称。

12、在一些实施例中,所述话题相似度包括样本数据的字符串相似度以及地理相似度。

13、第二方面,本说明书还提供一种行业分类系统,包括:至少一个存储介质,存储有至少一个指令集,用于进行行业分类;以及至少一个处理器,同所述至少一个存储介质通信连接,其中,当所述行业分类系统运行时,所述至少一个处理器读取所述至少一个指令集,并且根据所述至少一个指令集的指示执行本说明书第一方面所述的行业分类方法。

14、由以上技术方案可知,本说明书提供的行业分类方法和系统,该方案在获取待分类的多个样本数据和多个行业类别对应的关键词库之后,基于关键词库对多个样本数据进行匹配,并将与关键词库相匹配的样本数据作为第一样本数据,以及将与关键词库不匹配的样本数据作为第二样本数据,之后基于关键词库确定第一样本数据的行业类别,采用第一样本数据对第二样本数据进行匹配,以及基于与第二样本数据相匹配的第一样本数据的行业类别确定与其对应的第二样本数据的行业类别。该方案中,通过利用已分类的第一样本数据对第二样本数据进行行业分类,从而将未实现行业分类的样本数据归属到与其相似度较高的样本数据的行业分类中,能够提高样本数据的匹配覆盖度,达到对更多的样本数据进行行业分类的效果,进而实现及时准确地发掘出更多热点事件的效果。

15、本说明书提供的行业分类方法和系统的其他功能将在以下说明中部分列出。根据描述,以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的行业分类方法和系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1