软件名称的分类方法及装置与流程

文档序号:33632991发布日期:2023-03-28 23:38阅读:来源:国知局

技术特征:
1.一种软件名称的分类方法,其特征在于,所述方法包括:基于预先进行人工分类的多个已知软件名称建立初始名称语料库;其中,所述初始名称语料库包括多个已知分类,每个已知分类均包括多个已知软件名称;通过所述初始名称语料库分别提取每个已知分类的特征词;其中,每个已知分类的特征词为该已知分类的已知软件名称中出现频率超过预设频率阈值的词语;基于每个已知分类的特征词和预先定义的每个已知分类的自定义词,建立初始分类知识库;其中,所述自定义词包括以下中至少之一:与特征词词义不相近的第一自定义词、与特征词词义相近的第二自定义词、通过网络爬取得到的与所述第一自定义词和所述第二自定义词均不同的第三自定义词;通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类;基于每个第一软件名称的第一分类对每个第一软件名称进行分类校验,并根据每个第一软件名称的分类校验结果确定每个第一软件名称的最终分类结果。2.根据权利要求1所述的方法,其特征在于,所述初始分类知识库包括每个已知分类各自对应的特征词以及每个已知分类各自对应的自定义词;通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类的步骤,包括:对于每个第一软件名称,将该第一软件名称分别与所述初始分类知识库中每个已知分类各自对应的特征词进行匹配;对于每个第一软件名称,若该第一软件名称与所述初始分类知识库中的特征词匹配成功,则将所述初始分类知识库中与该第一软件名称匹配的特征词所对应的已知分类作为该第一软件名称的第一分类。3.根据权利要求2所述的方法,其特征在于,通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类的步骤,还包括:对于每个第一软件名称,若该第一软件名称与所述初始分类知识库中的特征词匹配失败,则将该第一软件名称分别与所述初始分类知识库中每个已知分类各自对应的自定义词进行匹配;对于每个第一软件名称,若该第一软件名称与所述初始分类知识库中的自定义词匹配成功,则将所述初始分类知识库中与该第一软件名称匹配的自定义词所对应的已知分类作为该第一软件名称的第一分类。4.根据权利要求1所述的方法,其特征在于,通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类的步骤,还包括:对于每个第一软件名称,若该第一软件名称不符合预设规则,则用第一预设标识方式标识该第一软件名称。5.根据权利要求3所述的方法,其特征在于,基于每个第一软件名称的第一分类对每个第一软件名称进行分类校验的步骤,包括:对于每个第一软件名称,若该第一软件名称的第一分类有多个,则将该第一软件名称分别与预先定义的每个已知分类的关键词进行匹配;其中,所述关键词为不同已知分类中相同的词;对于每个第一软件名称,若该第一软件名称与多个已知分类的关键词匹配或者该第一
软件名称与每个已知分类的关键词均不匹配,则该第一软件名称的分类校验不通过;对于每个第一软件名称,若该第一软件名称与一个已知分类的关键词匹配成功,则该第一软件名称的分类校验通过。6.根据权利要求5所述的方法,其特征在于,基于每个第一软件名称的第一分类对每个第一软件名称进行分类校验的步骤,包括:对于每个第一软件名称,若该第一软件名称的第一分类有多个,则将该第一软件名称分别与预先定义的每个已知分类的互斥词进行匹配;其中,所述互斥词为不同已知分类中具有相同关键词的词;对于每个第一软件名称,若该第一软件名称与每个已知分类的互斥词均不匹配,则该第一软件名称的分类校验不通过;对于每个第一软件名称,若该第一软件名称与一个已知分类的互斥词匹配成功,则该第一软件名称的分类校验通过。7.根据权利要求3所述的方法,其特征在于,根据每个第一软件名称的分类校验结果确定每个第一软件名称的最终分类结果的步骤,包括:对于每个第一软件名称,若该第一软件名称的分类校验通过,则将该第一软件名称的第一分类作为该第一软件名称的最终分类结果;对于每个第一软件名称,若该第一软件名称的分类校验不通过,则确定该第一软件名称分类失败,并将该第一软件名称分类失败作为该第一软件名称的最终分类结果。8.根据权利要求7所述的方法,其特征在于,在根据每个第一软件名称的分类校验结果确定每个第一软件名称的最终分类结果的步骤之后,所述方法还包括:对于每个第一软件名称,若该第一软件名称的最终分类结果为该第一软件名称分类失败,则执行所述将该第一软件名称分别与所述初始分类知识库中每个已知分类各自对应的自定义词进行匹配的步骤;对于每个第一软件名称,若该第一软件名称的最终分类结果为该第一软件名称的第一分类,则将该第一软件名称以及该第一软件名称的第一分类添加至所述初始名称语料库。9.根据权利要求3所述的方法,其特征在于,所述方法还包括:对于每个第一软件名称,若该第一软件名称与所述初始分类知识库中的自定义词匹配失败,则将该第一软件名称作为未分类软件名称添加至预先建立的未分类名称库。10.一种软件名称的分类装置,其特征在于,所述装置包括:第一建立模块,用于基于预先进行人工分类的多个已知软件名称建立初始名称语料库;其中,所述初始名称语料库包括多个已知分类,每个已知分类均包括多个已知软件名称;提取模块,用于通过所述初始名称语料库分别提取每个已知分类的特征词;其中,每个已知分类的特征词为该已知分类的已知软件名称中出现频率超过预设频率阈值的词语;第二建立模块,用于基于每个已知分类的特征词和预先定义的每个已知分类的自定义词,建立初始分类知识库;其中,所述自定义词包括以下中至少之一:与特征词词义不相近的第一自定义词、与特征词词义相近的第二自定义词、通过网络爬取得到的与所述第一自定义词和所述第二自定义词均不同的第三自定义词;分类预处理模块,用于通过所述初始分类知识库对待分类的第一软件名称进行分类预
处理,得到所述第一软件名称的第一分类;确定模块,用于基于所述第一软件名称的第一分类对所述第一软件名称进行分类校验,并根据所述分类校验的结果确定所述第一软件名称的最终分类结果。

技术总结
本发明提供了一种软件名称的分类方法及装置,基于预先进行人工分类的多个已知软件名称建立初始名称语料库,通过初始名称语料库分别提取每个已知分类的特征词,基于每个已知分类的特征词和预先定义的每个已知分类的自定义词建立初始分类知识库,通过初始分类知识库对待分类的多个第一软件名称进行分类预处理以得到每个第一软件名称的第一分类,基于每个第一软件名称的第一分类对每个第一软件名称进行分类校验,并根据每个第一软件名称的分类校验结果确定每个第一软件名称的最终分类结果。采用本发明可以提高对软件进行分类的效率和准确性。和准确性。和准确性。


技术研发人员:刘立兰 黄萍 王梅 王涛
受保护的技术使用者:北京锐安科技有限公司
技术研发日:2022.11.16
技术公布日:2023/3/27
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1