一种分类方法及装置与流程

文档序号:13678792阅读:149来源:国知局
技术领域本发明涉及数据处理领域,尤其涉及一种分类方法及装置。

背景技术:
随着网络技术的发展,可以通过网络获取越来越多的数据,并依托这些数据进行进一步的分析,这也是大数据时代的特点之一。为了对海量数据进行进一步的处理和分析,对数据进行分类往往是必不可少的步骤。但是,现有技术中的分类方法准确性有待提高。

技术实现要素:
本发明解决的技术问题是提升分类方法的准确性。为解决上述技术问题,本发明实施例提供一种分类方法,包括:确定层级分类库,所述层级分类库包含多个不同的支线,每一支线包含一个或多个不同层级的类目;从目标网站获取所述支线的最下层级类目包含的对象信息;根据所述对象信息和所述对象信息所属的支线训练分类模型。可选的,所述对象信息包括对象标题信息和对象属性信息。可选的,所述训练分类模型包括:对所述对象信息进行处理,以生成基础词库;根据所述基础词库和所述多个不同的支线训练所述分类模型,以使所述分类模型能够对基础词库中词语的所属类目的概率进行分值估算。可选的,所述基础词库通过如下步骤得到:对所述对象信息进行分词处理,以得到对象信息词语;在类似词库中检索所述对象信息词语,选取与所述对象信息词语的相似度大于相似度阈值的词语作为扩展信息;对所述对象信息词语和所述扩展信息进行去重处理,以得到所述基础词库。可选的,所述分类方法还包括:根据所述基础词库对待分类对象信息进行分词处理,以得到待分类对象信息词语;利用所述分类模型对所述待分类对象信息词语进行分值估算;参照所述待分类对象信息词语的分值估算结果,确定所述待分类对象信息所属的分类。可选的,所述分类方法还包括:根据所述基础词库对待分类对象信息进行分词处理,以得到待分类对象信息词语;参照类似词库生成所述待分类对象信息词语的扩展信息;利用所述分类模型对所述待分类对象信息词语和所述扩展信息进行分值估算;参照所述待分类对象信息词语和所述扩展信息的分值估算的结果,确定所述待分类对象信息所属的分类。本发明实施例还提供一种分类装置,包括:层级分类库确定单元、对象信息获取单元以及模型训练单元;其中:所述层级分类库确定单元,适于确定层级分类库,所述层级分类库包含多个不同的支线,每一支线包含多个不同层级的类目;所述对象信息获取单元,适于从目标网站获取所述支线的最下层级类目包含的对象信息;所述模型训练单元,适于所述对象信息和所述对象信息所属的支线训练分类模型。可选的,所述对象信息包括对象标题信息和对象属性信息。可选的,所述模型训练单元包括:基础词库生成子单元以及训练子单元;其中:所述基础词库生成子单元,适于对所述对象信息进行分词处理,以得到基础词库;所述训练子单元,适于根据所述基础词库和所述多个不同的支线训练所述分类模型,以使所述分类模型能够对基础词库中词语的所属类目的概率进行分值估算。可选的,所述基础词库生成子单元包括:第二分词处理单元、第一扩展信息生成单元和第二去重处理单元,其中:所述第二分词处理单元,适于对所述对象信息进行分词处理,以得到对象信息词语;所述第一扩展信息生成单元,适于在类似词库中检索所述对象信息词语,选取与所述对象信息词语的相似度大于相似度阈值的词语作为扩展信息;所述第二去重处理单元,适于对所述对象信息词语和所述扩展信息进行去重处理,以得到所述基础词库。可选的,所述分类装置还包括:第三分词处理单元、第一分值估算单元以及第一分类确定单元;其中:第三分词处理单元,适于根据所述基础词库对所述待分类对象信息进行分词处理,以得到待分类对象信息词语;第一分值估算单元,适于利用所述分类模型对所述待分类对象信息词语进行分值估算;第一分类确定单元,适于参照所述待分类对象信息词语的分值估算结果,确定所述待分类对象信息所属的分类。可选的,所述分类装置还包括:第四分词处理单元、第二扩展信息生成单元、第二分值估算单元以及第二分类确定单元;其中:所述第四分词处理单元,适于根据所述基础词库对所述待分类对象信息进行分词处理,以得到待分类对象信息词语;所述第二扩展信息生成单元,适于参照类似词库生成所述待分类对象信息词语的扩展信息;所述第二分值估算单元,适于利用所述分类模型对所述待分类对象信息词语和所述扩展信息进行分值估算;所述第二分类确定单元,适于参照所述待分类对象信息词语和所述扩展信息的分值估算的结果,确定所述待分类对象信息所属的分类。与现有技术相比,本发明实施例的技术方案具有以下有益效果:通过从目标网站获取所述支线的最下层级类目包含的对象信息,根据所述对象信息和所述对象信息所属的支线训练分类模型,可以使得训练分类模型的数据来源更加广阔,利用更多的真实数据训练分类模型,可以使得分类模型更加准确,从而可以使得利用该分类模型进行的分类更加准确。附图说明图1是本发明实施例中一种分类方法的流程图;图2是本发明实施例中一种训练分类模型的过程的流程图;图3是本发明实施例中一种得到基础词库的方法流程图;图4是本发明实施例中另一种得到基础词库的方法流程图;图5是本发明实施例中一种得到类似词库的方法流程图;图6是本发明实施例中一种对待分类对象信息进行分类的方法流程图;图7是本发明实施例中另一种对待分类对象信息进行分类的方法流程图;图8是本发明实施例中一种分类装置的结构示意图;图9是本发明实施例中一种模型训练单元的结构示意图;图10是本发明实施例中一种基础词库生成子单元的结构示意图;图11是本发明实施例中另一种基础词库生成子单元的结构示意图。具体实施方式如前所述,随着网络技术的发展,可以通过网络获取越来越多的数据,并依托这些数据进行进一步的分析,这也是大数据时代的特点之一。为了对海量数据进行进一步的处理和分析,对数据进行分类往往是必不可少的步骤。但是,现有技术中的分类方法准确性有待提高。另外,现有技术中不同的实体或网站对于同一对象往往采用了不同的类目体系,如此,同一对象的信息在面对多种类目体系时,很可能被按照不同的分类方式进行划分,导致信息在进行进一步的存储、处理和分析时产生偏差。例如,由于分类的偏差,而导致对象在进行聚类处理时出现偏差,或者由于分类的偏差,而导致大数据处理过程中数据整合的偏差,导致分析结果的不准确。经发明人研究发现,从技术层面上,如果想要对未知数据进行分类,首先需要有一个类目体系,这个体系往往是有层次结构,而不同网站对这个体系的描述也是不一样的,往往是结合网站自身业务上需求订制类目体系。由于不同网站的类目体系不尽相同,难以进行相互间的映射,也难以直接进行跨站数据的分析,故需要建立可以对不同来源对象信息进行同一分类的分类模型。现有技术的一些机器学习的方法,需要人工对对象信息打标签,也就是对对象信息分类,不但人力成本较高而且容易出错。同时,现有模型在使用词向量进行模型训练和预测时,无法理解词与词之间的关系,也无法对词库进行动态拓展,这样模型的覆盖度,准确性,时效性都会因此而局限。本发明实施例通过从目标网站获取所述支线的最下层级类目包含的对象信息,根据所述对象信息和所述对象信息所属的支线训练分类模型,可以使得训练分类模型的数据来源更加广阔,利用更多的真实数据训练分类模型,可以使得分类模型更加准确,从而可以使得利用该分类模型进行的分类更加准确。为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。图1是本发明实施例中一种分类方法的流程图。在步骤S11中,确定层级分类库,所述层级分类库包含多个不同的支线,每一支线包含一个或多个不同层级的类目。层级分类的运用十分广泛,例如面包屑导航就是一种层级分类。层级分类库可以包含若干基础分类,每个基础分类可以包含不同层数的子分类,基础分类和不同子分类的组合形成若干支线。层级分类库的定义可以根据需要,结合各大主流网站的分类进行,以更易获得大量真实的对象数据。通过技术手段获取真实对象信息,可以使得模型训练更贴合实际,准确性更高。在步骤S12中,从目标网站获取所述支线的最下层级类目包含的对象信息。目标网站是包含分类库中至少一条支线的网站,在目标网站中,该支线的最下层类目包含对象信息。可以理解的是,目标网站可以是对应层级分类库中某条支线的一个或者多个网站。例如,本发明实施例中的类目体系为针对新闻分类的类目体系,某条支线为:财经新闻>股市,网站A包含与上述支线同样的导航,则网站A为目标网站,网站A中股市类目下的所有新闻为对象信息。或者,在本发明另一实施例中,类目体系为针对商品的类目体系,某条支线为:家用电器>大家电>平板空调,网站B包含与上述支线同样的导航,则网站B为目标网站,网站B中平板电视类目下的所有平板电视的信息为对象信息。此时,若网站C也包含该支线,则网站C也是目标网站,网站C中平板电视类目下的所有平板电视的信息也是对象信息。在具体实施中,所述对象信息包括对象标题信息和对象属性信息。标题信息可以通过网页的页面布局来确定,例如可以是网页标题上包含的信息;属性信息可以是对对象信息进行进一步说明的信息,例如可以是某篇文章的内容提要、作者,或者商品的参数信息。在本发明一实施例中,使用爬虫获取对象信息,利用预先配置的层叠样式表(css)规则去提取标题。例如,提取到标题“海尔模卡(MOOKA)65K565英寸安卓智能网络窄边框全高清LED液晶电视”,对应的面包屑导航为:“家用电器>大家电>平板电视>海尔(haier)>海尔65k5”,以及规格参数里面的屏幕尺寸,屏幕分辨率等。这里“家用电器>大家电>平板电视”是对象信息的标签,也就是层级分类库中的一条支线。从“海尔模卡(MOOKA)65K565英寸安卓智能网络窄边框全高清LED液晶电视”和“海尔(haier)>海尔65k5”中,可以获取对象属性信息。通过技术手段获取对象信息,免去了人工映射大量样本的麻烦。同时,层级分类库利用了实际应用中网站的归类,可以使得模型训练更贴合实际,准确性更高。在步骤S13中,根据所述对象信息和所述对象信息所属的支线训练分类模型。对象信息所述的支线中包括一个或多个不同层级的类目,训练模型的过程可以是建立对象信息一个或多个不同的类目间映射关系的过程。例如,可以得到对象信息里词语对应不同类目的相关度。图2是本发明实施例中一种训练分类模型的过程的流程图。在步骤S21中,对所述对象信息进行处理,以生成基础词库。对象信息由词语组成,通过对对象信息的分词处理以及其它处理,可以生成基础词库。在步骤S22中,根据所述基础词库和所述多个不同的支线训练所述分类模型,以使所述分类模型能够对词语的所属类目的概率进行分值估算。分值估算的方法可以是对在基础词库中对象数据的相关词语进行检索,根据上述相关词语与不同类目的相关度进行分值估算。图3是本发明实施例中一种得到基础词库的方法流程图。在步骤S31中,对所述对象信息进行分词处理,以得到对象信息词语。进行分词处理的方法可以根据需要进行选择,例如可以采用字典双向最大匹配法、HMM方法、CRF方法或者其他分词方法进行分词处理。在步骤S32中,对所述对象信息词语进行去重处理,以得到所述基础词库。由于层级分类库中包含多个不同支线,对每条支线最下层级类目包含的对象信息均会进行分词处理,很可能会出现重复的词语,通过去重处理,可以得到更加合理的基础词库。图4是本发明实施例中另一种得到基础词库的方法流程图。S41,对所述对象信息进行分词处理,以得到对象信息词语。步骤S41的具体实现可以参照步骤S31,此不赘述。S42,在类似词库中检索所述对象信息词语,选取与所述对象信息词语的相似度大于相似度阈值的词语作为扩展信息。由于对同一种事物可以有多种称呼和多种描述,通过类似词库拓展对象信息,可以使基础词库的覆盖面更为广泛,从而使得分类模型的准确性更高。通过设定相似度阈值,可以选取相似度较高的词语作为扩展信息,兼顾覆盖面和准确度。S43,对所述对象信息词语和所述扩展信息进行去重处理,以得到所述基础词库。步骤S43的具体实现可以参照步骤S32,此不赘述。图5是本发明实施例中一种得到类似词库的方法流程图。在步骤S51中,获取与所述层级分类库相关的文字信息。与层级分类库相关的文字信息可以是多种信息,可以是与层级分类库包含的类目和最下层级类目包含的对象信息相关的信息。例如,当层级分类库对应商品分类时,相关文字信息可以是商品的详细介绍、品牌介绍、用户评论等;当层级分类库对应新闻分类时,相关信息可以是用户留言。在步骤S52中,分析所述文字信息,以生成类似词库。可以通过对文字信息进行分析,例如对文字信息进行语义分析等,生成类似词库,在本发明一实施例中,采用word2vec工具进行分析,以生成类似词库。参见图1,在步骤S13之后,还可以包括:步骤S14,利用所述分类模型对待分类对象信息进行分类。分类模型由大量的对象信息训练而成,通过分类模型可以对待分类对象进行评判,进而可以对待分类对象信息进行分类。图6是本发明实施例中一种对待分类对象信息进行分类的方法流程图。S61,根据所述基础词库对待分类对象信息进行分词处理,以得到待分类对象信息词语。S62,利用所述分类模型对所述待分类对象信息词语进行分值估算。由于分类模型能够对基础词库中词语的所属类目的概率进行分值估算,而对象信息已根据基础词库进行分词处理,得到待分类对象信息词语,故利用分类模型可以对待分类对象信息词语进行分值估算。分值估算的实现可以参见图2中步骤S22,此不赘述。S63,参照所述待分类对象信息词语的分值估算结果,确定所述待分类对象信息所属的分类。对待分类对象信分类的确定可以是对各分值估算结果进行综合运算,得到待分类对象信对应不同类目的分值,进行确定。在具体实施中,可以按照层级确定待分类对象信息的分类,例如可以先确定待分类对象信息属于哪个基础类目;在确定基础类目后,再确定待分类对象信息属于该基础分类下的哪个子类目,直至不能明确判断该待分类对象在某层所述的类目,或者已确定最下层级的所述类目为止。图7是本发明实施例中另一种对待分类对象信息进行分类的方法流程图。在步骤S71中,根据所述基础词库对待分类对象信息进行分词处理,以得到待分类对象信息词语。在步骤S72中,参照类似词库生成所述待分类对象信息词语的扩展信息。参照类似词库生成所述待分类对象信息词语的扩展信息的具体实现可以类似于图4中步骤S42,此不赘述。在步骤S73中,利用所述分类模型对所述待分类对象信息词语和所述扩展信息进行分值估算。分值估算的具体实现可以参照图6中步骤S62,此不赘述。通过对待分类对象信息词语生成扩展信息,可以丰富待分类对象的表达方式,以更好的对待识别对象进行分类。在步骤S74中,参照所述待分类对象信息词语和所述扩展信息的分值估算的结果,确定所述待分类对象信息所属的分类。确定所述待分类对象信息所属的分类的实现过程可以类似于图6中步骤S63,此不赘述。本发明实施例通过从目标网站获取所述支线的最下层级类目包含的对象信息,根据所述对象信息和所述对象信息所属的支线训练分类模型,可以使得训练分类模型的数据来源更加广阔,利用更多的真实数据训练分类模型,可以使得分类模型更加准确,从而可以使得利用该分类模型进行的分类更加准确。本发明实施例还提供一种分类装置,其结构示意图参见图8。分类装置包括:层级分类库确定单元81、对象信息获取单元82以及模型训练单元83;其中:所述层级分类库确定单元81,适于确定层级分类库,所述层级分类库包含多个不同的支线,每一支线包含多个不同层级的类目;所述对象信息获取单元82,适于从目标网站获取所述支线的最下层级类目包含的对象信息;所述模型训练单元83,适于所述对象信息和所述对象信息所属的支线训练分类模型。在具体实施中,所述对象信息可以包括对象标题信息和对象属性信息。参见图9,在具体实施中,所述模型训练单元83可以包括:基础词库生成子单元91以及训练子单元92;其中:所述基础词库生成子单元91,适于对所述对象信息进行分词处理,以得到基础词库;所述训练子单元92,适于根据所述第一基础词库和所述多个不同的支线训练所述分类模型,以使所述分类模型能够对基础词库中词语的所属类目的概率进行分值估算。在具体实施中,参见图10,所述基础词库生成子单元91可以包括:第一分词处理单元101和第一去重处理单元102,其中:所述第一分词处理单元101,适于对所述对象信息进行分词处理,以得到对象信息词语;所述第一去重处理单元102,适于对所述对象信息词语进行去重处理,以得到所述基础词库。在另一具体实施中,参见图11,所述基础词库生成子单元91可以包括:第二分词处理单元111、第一扩展信息生成单元112和第二去重处理单元113,其中:所述第二分词处理单元111,适于对所述对象信息进行分词处理,以得到对象信息词语;所述第一扩展信息生成单元112,适于在类似词库中检索所述对象信息词语,选取与所述对象信息词语的相似度大于相似度阈值的词语作为扩展信息;所述第二去重处理单元113,适于对所述对象信息词语和所述扩展信息进行去重处理,以得到所述基础词库。仍然参考图8,在具体实施中,分类装置还可以包括:文字信息获取单元84和类似词库生成单元85,其中:所述文字信息获取单元84,适于获取与所述层级分类库相关的文字信息;所述类似词库生成单元85,适于分析所述文字信息,以生成类似词库。在具体实施中,分类装置还可以包括:分类单元86,适于利用所述分类模型对所述待分类对象信息进行分类。在具体实施中,分类单元86可以包括:第三分词处理单元、第一分值估算单元以及第一分类确定单元;其中:第三分词处理单元,适于根据所述基础词库对所述待分类对象信息进行分词处理,以得到待分类对象信息词语;第一分值估算单元,适于利用所述分类模型对所述待分类对象信息词语进行分值估算;第一分类确定单元,适于参照所述待分类对象信息词语的分值估算结果,确定所述待分类对象信息所属的分类。在具体实施中,分类单元86可以包括:第四分词处理单元、第二扩展信息生成单元、第二分值估算单元以及第二分类确定单元;其中:所述第四分词处理单元,适于根据所述基础词库对所述待分类对象信息进行分词处理,以得到待分类对象信息词语;所述第二扩展信息生成单元,适于参照类似词库生成所述待分类对象信息词语的扩展信息;所述第二分值估算单元,适于利用所述分类模型对所述待分类对象信息词语和所述扩展信息进行分值估算;所述第二分类确定单元,适于参照所述待分类对象信息词语和所述扩展信息的分值估算的结果,确定所述待分类对象信息所属的分类。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1