一种对象分类方法、装置、存储介质及计算机设备与流程

文档序号:18704563发布日期:2019-09-17 23:28阅读:191来源:国知局
一种对象分类方法、装置、存储介质及计算机设备与流程

本发明涉及对象分类领域,尤其涉及一种对象分类方法、装置、存储介质及计算机设备。



背景技术:

随着互联网的发展,视频网站上可供观看的视频也越来越多。

电影播单是具有一定相似性的电影列表,如:警察故事系列电影播单,该播单中包括成龙主演的多部警察故事系列电影。通过电影播单,视频网站浏览者可以快速找到自己所需的多个电影并进行观看。但现有技术需要通过人工对各个电影进行整理从而得到电影播单。

由于电影数量巨大,因此人工制作电影播单的效率较低。同时,一个电影携带的标签可能很多(如:香港、成龙、警匪、喜剧等),通过人工无法根据这些标签对电影进行准确的分类。



技术实现要素:

鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种对象分类方法、装置、存储介质及计算机设备,技术方案如下:

一种对象分类方法,包括:

获得当前待分类对象集合,所述当前待分类对象集合中包括多个对象,每个对象对应有至少一个标签,所述当前待分类对象集合为初始待分类对象集合的子集;

将所述当前待分类对象集合中各对象对应的标签中的至少部分标签确定为一个当前标签集合;

对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集;

从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集;

确定所述综合聚度最小的对象子集分别与各已分类对象子集的相似度是否均满足预设相似度要求,其中,所述各已分类对象子集均为所述初始待分类对象集合的子集;

如果是,则将所述综合聚度最小的对象子集确定为一个新的已分类对象子集。

可选的,在所述从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集之后,所述方法还包括:

将所述综合聚度最小的对象子集中的各对象从当前待分类对象集合中删除,将所述综合聚度最小的对象子集对应的标签从当前标签集合中删除。

可选的,在所述将所述综合聚度最小的对象子集确定为一个新的已分类对象子集之后,返回执行所述对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集的步骤。

可选的,在所述将所述综合聚度最小的对象子集确定为一个新的已分类对象子集之后,所述方法还包括:

将所述初始待分类对象集合确定为一个已分类对象子集,将该已分类对象子集确定为当前待分类对象集合,将所述当前待分类对象集合中各对象对应的标签中除与该已分类对象子集对应的标签外的其他标签中的至少部分标签确定为一个当前标签集合;

返回执行所述对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集的步骤。

可选的,所述方法还包括:

如果所述综合聚度最小的对象子集分别与各已分类对象子集的相似度未均满足预设相似度要求,则将所述综合聚度最小的对象子集中各对象放入相似度最高的已分类对象子集中,建立所述综合聚度最小的对象子集对应的标签与所述相似度最高的已分类对象子集的对应关系。

可选的,所述对象子集的综合聚度的确定过程包括:

获得对象子集与各已分类对象子集的并集;

确定所述并集的标签内聚度和标签外聚度;

根据所述标签内聚度和标签外聚度确定对象子集的综合聚度。

可选的,所述确定所述并集的标签内聚度,包括:

根据公式

确定所述并集的标签内聚度tagsamgroup(g),其中,g为所述并集,l为g中包含的对象子集的数量,gk为g中的编号为k的对象子集,mi为gk中编号为i的对象,mj为gk中编号为j的对象,ti为当前标签集合中与mi对应的标签,tj为当前标签集合中与mj对应的标签,|ti∩tj|为ti与tj的交集中标签的数量,|ti∪tj|为ti与tj的并集中标签的数量,tagsim(mi,mj)为对象mi和对象mj的标签相似度,|gk|2为gk中包含的对象的数量的平方,tagsamgroup(gk)为gk内各对象的标签相似度的综合值。

可选的,所述并集的标签外聚度的确定过程包括:

根据公式

确定所述并集的标签外聚度moviesim(g),其中,gi为g中编号为i的对象子集,gj为g中编号为j的对象子集、为当前标签集合中与gi中各对象对应的标签的集合,为当前标签集合中与gj中各对象对应的标签的集合,的交集中标签的数量,的并集中标签的数量,mgroupsim(gi,gj)为gi与gj的标签相似度。

可选的,所述根据所述标签内聚度和标签外聚度确定对象子集的综合聚度,包括:

根据公式

确定对象子集的综合聚度target(g)。

一种对象分类装置,包括:集合获得单元、集合确定单元、第一子集确定单元、第二子集确定单元、相似度确定单元和子集分类单元,

所述集合获得单元,用于获得当前待分类对象集合,所述当前待分类对象集合中包括多个对象,每个对象对应有至少一个标签,所述当前待分类对象集合为初始待分类对象集合的子集;

所述集合确定单元,用于将所述当前待分类对象集合中各对象对应的标签中的至少部分标签确定为一个当前标签集合;

所述第一子集确定单元,用于对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集;

所述第二子集确定单元,用于从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集;

所述相似度确定单元,用于确定所述综合聚度最小的对象子集分别与各已分类对象子集的相似度是否均满足预设相似度要求,其中,所述各已分类对象子集均为所述初始待分类对象集合的子集;如果是,则触发所述子集分类单元;

所述子集分类单元,用于将所述综合聚度最小的对象子集确定为一个新的已分类对象子集。

一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现任一种对象分类方法。

一种计算机设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述处理器执行程序时至少实现以下步骤:

获得当前待分类对象集合,所述当前待分类对象集合中包括多个对象,每个对象对应有至少一个标签,所述当前待分类对象集合为初始待分类对象集合的子集;

将所述当前待分类对象集合中各对象对应的标签中的至少部分标签确定为一个当前标签集合;

对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集;

从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集;

确定所述综合聚度最小的对象子集分别与各已分类对象子集的相似度是否均满足预设相似度要求,其中,所述各已分类对象子集均为所述初始待分类对象集合的子集;

如果是,则将所述综合聚度最小的对象子集确定为一个新的已分类对象子集。

借由上述技术方案,本发明提供的一种对象分类方法、装置、存储介质及计算机设备,可以获得当前待分类对象集合,所述当前待分类对象集合中包括多个对象,每个对象对应有至少一个标签,所述当前待分类对象集合为初始待分类对象集合的子集;将所述当前待分类对象集合中各对象对应的标签中的至少部分标签确定为一个当前标签集合;对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集;从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集;确定所述综合聚度最小的对象子集分别与各已分类对象子集的相似度是否均满足预设相似度要求;如果是,则将所述综合聚度最小的对象子集确定为一个新的已分类对象子集。本发明可以自动对对象进行分类,无需人工参与,更加快捷和准确。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种对象分类方法的流程图;

图2示出了本发明实施例提供的另一种对象分类方法的流程图;

图3示出了本发明实施例提供的另一种对象分类方法的流程图;

图4示出了本发明实施例提供的另一种对象分类方法的流程图;

图5示出了本发明实施例提供的一种对象分类效果示意图;

图6示出了本发明实施例提供的一种对象分类装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示,本发明实施例提供的一种对象分类方法,可以包括:

s100、获得当前待分类对象集合,所述当前待分类对象集合中包括多个对象,每个对象对应有至少一个标签,所述当前待分类对象集合为初始待分类对象集合的子集;

其中,本实施例中的对象可以为电影、电视剧、音乐等多媒体的标识,如电影名称。可选的,本实施例中的标签可以为多媒体所具有的特征词,例如:在多媒体对象为电影时,标签可以为电影的特征词(如:搞笑、a明星等)。其中,本发明可以不将所述多媒体的标识确定为标签。

具体的,步骤s100可以从网页中爬取多个对象及各对象对应的标签,并将爬取的全部或部分对象确定为初始待分类对象集合。当然,本发明还可以从预设的一个或多个标签库中获得与对象对应的标签。具体的,不同的标签库中的标签可以相同或不同。本实施例中的标签库可以包括:明星标签库、影片类型标签库、影片所属地区标签库等。

可选的,在获得初始待分类对象集合后,首次执行图1所示方法时,可以将初始待分类对象集合确定为当前待分类对象集合。

可选的,本发明可以对对象对应的标签进行筛选。例如:本实施例可以使用tf-idf(词频-逆文本频率指数,termfrequency-inversedocumentfrequency)算法确定对象对标签的偏好值,然后对每个对象:将该对象对应的标签中除偏好值最高的n个标签外的其他标签删除。其中,n为自然数,可选的,n=10。这样,与某对象对应的标签均为偏好值较高的标签,这些标签可以很好的体现对象的特征。根据这些标签对对象进行分类可以有效提高分类的准确性。当然,对标签进行筛选后可以减少本发明需要处理的标签的数量,减小了执行图1所示方法的装置的运行负担。

可选的,设有n个标签库,si为编号为i的标签库,本实施例使用的tf-idf算法可以为:

其中,m(j)表示对象m对标签j的偏好值,表示标签库si中是否包括标签j,如果包括,则如果不包括,则i为标签库si的编号,n为标签库的数量,si(m)表示si中包括的m的标签构成的集合,wi表示si的权重。

在本发明另一实施例中,初始待分类对象集合可以为一个已分类对象集合,步骤s100可以将该已分类对象集合确定为当前待分类对象集合,或者,将该已分类对象集合中部分对象构成的集合确定为当前待分类对象集合。所述当前待分类对象集合中各对象对应的标签中不包括该已分类对象集合对应的标签。

例如:对于已经分类得到的中国电影集合,将该中国电影集合作为初始待分类对象集合,并将该中国电影集合确定为当前待分类对象集合。该当前待分类对象集合中对象对应的标签中不包括该中国电影集合对应的标签“中国”。

s200、将所述当前待分类对象集合中各对象对应的标签中的至少部分标签确定为一个当前标签集合;

具体的,本发明可以将所述当前待分类对象集合中各对象对应的全部标签确定为一个当前标签集合,也可以将部分标签确定为一个当前标签集合。

在将部分标签确定为一个当前标签集合时,本发明可以从所述当前待分类对象集合中各对象对应的全部标签中筛选出部分标签,并将这部分标签确定为一个当前标签集合。具体的筛选方式有多种,如:将对应的对象的数量大于预设数量的标签筛选出来,再如:将上述全部标签中的无效标签去除,将剩余标签作为筛选出来的标签。本发明可以预先设置一个无效标签库,从而根据该无效标签库确定哪些标签是无效标签。无效标签可以为与对象分类无关的标签,例如对象为电影时,手机、辣椒为与电影分类无关的标签。

s300、对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集;

具体的,步骤s100在获得当前待分类对象集合后,步骤s100可以通过键-值(key-value)的方式将具有对应关系的对象和标签保存为键值对。其中,步骤s100可以将对象作为键,将标签作为值进行保存。例如:{电影名称1:标签1,标签2,标签3}。需要说明的是,该举例仅是键值对的示意性展示,并不代表实际存储时必然采用此种形式。可选的,步骤s200可以将所述当前待分类对象集合中各对象对应的标签中的全部标签确定为一个当前标签集合。步骤s300可以对步骤s100保存的键值对进行倒排索引处理,这样,步骤s300就得到键为标签,值为对象的键值对。例如:{标签1:电影名称1,电影名称3}。可以理解的是,该当前标签集合中的每个标签都可以作为一个键值对中的键。

需要说明的一点是,步骤s300并未改变步骤s100获得的对象与标签的对应关系。为方便理解,下面举例说明:

举例1:设初始待分类对象集合为由电影1至电影18构成的集合,步骤s100将该集合确定为当前待分类对象集合并获得这18个电影各自对应的标签,步骤s100将这18个电影及对应的标签保存为如下的18个键值对,下方18个键值对中冒号右侧为电影对应的标签:

{电影1:中国香港,恐怖,林正英};

{电影2:中国香港,恐怖,林正英};

{电影3:中国香港,恐怖,林正英};

{电影4:中国香港,恐怖,吴君如};

{电影5:中国香港,恐怖,吴君如};

{电影6:中国香港,恐怖,吴君如};

{电影7:美国,恐怖};

{电影8:美国,恐怖};

{电影9:美国,恐怖};

{电影10:中国香港,喜剧,周星驰};

{电影11:中国香港,喜剧,周星驰};

{电影12:中国香港,喜剧,周星驰};

{电影13:中国香港,喜剧,洪金宝};

{电影14:中国香港,喜剧,洪金宝};

{电影15:中国香港,喜剧,洪金宝};

{电影16:美国,喜剧};

{电影17:美国,喜剧};

{电影18:美国,喜剧}。

步骤s200将举例1中的标签“中国香港”、“恐怖”、“林正英”、“洪金宝”、“周星驰”、“喜剧”、“美国”和“吴君如”确定为一个当前标签集合。步骤s300对上述18个键值对进行索引倒排处理后,得到如下8个键值对:

{中国香港:电影1,电影2,电影3,电影4,电影5,电影6,电影10,电影11,电影12,电影13,电影14,电影15};

{恐怖:电影1,电影2,电影3,电影4,电影5,电影6,电影7,电影8,电影9};

{林正英:电影1,电影2,电影3};

{吴君如:电影4,电影5,电影6};

{美国:电影7,电影8,电影9,电影16,电影17,电影18};

{喜剧:电影10,电影11,电影12,电影13,电影14,电影15,电影16,电影17,电影18};

{周星驰:电影10,电影11,电影12};

{洪金宝:电影13,电影14,电影15}。

步骤s300还将举例1中每个标签对应的各对象确定为一个与该标签对应的对象子集,例如将“洪金宝”对应的电影13至电影15确定为一个与“洪金宝”对应的对象子集,这样步骤s300将确定8个对象子集。

s400、从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集;

可选的,步骤s400中对象子集的综合聚度的确定过程可以包括:

获得对象子集与各已分类对象子集的并集;

确定所述并集的标签内聚度和标签外聚度;

根据所述标签内聚度和标签外聚度确定对象子集的综合聚度。

具体的,本发明可以分别确定每一个对象子集的综合聚度。

其中,各已分类对象子集均为所述初始待分类对象集合的子集。当不存在已分类对象子集时,某对象子集与各已分类对象子集的并集即为该对象子集本身。

进一步,所述确定所述并集的标签内聚度,可以包括:

根据公式

确定所述并集的标签内聚度tagsamgroup(g),其中,g为所述并集,l为g中包含的对象子集的数量,gk为g中的编号为k的对象子集,mi为gk中编号为i的对象,mj为gk中编号为j的对象,ti为当前标签集合中与mi对应的标签,tj为当前标签集合中与mj对应的标签,|ti∩tj|为ti与tj的交集中标签的数量,|ti∪tj|为ti与tj的并集中标签的数量,tagsim(mi,mj)为对象mi和对象mj的标签相似度,|gk|2为gk中包含的对象的数量的平方,tagsamgroup(gk)为gk内各对象的标签相似度的综合值。

可选的,并集的标签外聚度的确定过程可以包括:

根据公式

确定所述并集的标签外聚度moviesim(g),其中,gi为g中编号为i的对象子集,gj为g中编号为j的对象子集,为当前标签集合中与gi中各对象对应的标签的集合,为当前标签集合中与gj中各对象对应的标签的集合,的交集中标签的数量,的并集中标签的数量,mgroupsim(gi,gj)为gi与gj的标签相似度。

当不存在的已分类对象子集时,l的取值为1。此情况下本发明将公式6中的l(l-1)的值设置为1,防止出现分母为0的情况。

进一步,所述根据所述标签内聚度和标签外聚度确定对象子集的综合聚度,可以包括:

根据公式

确定对象子集的综合聚度target(g)。

具体的,本发明确定的综合聚度综合考虑了标签内聚度和标签外聚度,因此该综合聚度可以很好的体现对象子集间的距离特征。标签内聚度越大和/或标签外聚度越小,则综合聚度越大,代表所述并集中各对象子集之间的距离越远。而距离越远的对象子集间的差异越大,差异越大说明对象分类效果越好。

s500、确定所述综合聚度最小的对象子集分别与各已分类对象子集的相似度是否均满足预设相似度要求,其中,所述各已分类对象子集均为所述初始待分类对象集合的子集;如果是,则执行步骤s600。

可选的,步骤s500可以具体包括:

获得所述综合聚度最小的对象子集分别与各已分类对象子集的杰卡德相似系数(jaccardsimilaritycoefficient);

确定获得的各杰卡德相似系数是否均满足预设相似度要求,其中,所述预设相似度要求为:小于预设值,如果是,则执行步骤s600。

可以理解的是,两个对象子集的杰卡德相似系数越小,则说明这两个对象子集的差异越大。当综合聚度最小的对象子集分别与各已分类对象子集的杰卡德相似系数均小于预设值时,则说明综合聚度最小的对象子集与各已分类对象子集的差异都很大。此时可以将综合聚度最小的对象子集确定为一个新的已分类对象子集。如果综合聚度最小的对象子集与至少一个已分类对象子集的杰卡德相似系数大于预设值,则说明综合聚度最小的对象子集与至少一个已分类对象子集比较相似,此时可以将综合聚度最小的对象子集放入相似度最高的已分类对象子集中。

s600、将所述综合聚度最小的对象子集确定为一个新的已分类对象子集。

其中,本发明确定的已分类对象子集即为对对象进行分类后得到的分类结果,本发明可以将各已分类对象子集与对应的标签进行保存。例如:根据标签与已分类对象子集的对应关系,将标签作为对应的已分类对象子集的子集标识,例如:美国电影:(电影7,电影8,电影9,电影16,电影17,电影18)。

本发明提供的一种对象分类方法,可以获得当前待分类对象集合,所述当前待分类对象集合中包括多个对象,每个对象对应有至少一个标签,所述当前待分类对象集合为初始待分类对象集合的子集;将所述当前待分类对象集合中各对象对应的标签中的至少部分标签确定为一个当前标签集合;对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集;从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集;确定所述综合聚度最小的对象子集分别与各已分类对象子集的相似度是否均满足预设相似度要求;如果是,则将所述综合聚度最小的对象子集确定为一个新的已分类对象子集。本发明可以自动对对象进行分类,无需人工参与,更加快捷和准确。

可选的,如图2所示,在本发明实施例提供的另一种对象分类方法中,还可以包括:

s700、将所述综合聚度最小的对象子集中各对象放入相似度最高的已分类对象子集中,建立所述综合聚度最小的对象子集对应的标签与所述相似度最高的已分类对象子集的对应关系。

步骤s700在步骤s500的判断结果为否时执行。

可选的,如图3所示,本发明实施例提供的另一种对象分类方法,还可以包括:

s800、将所述综合聚度最小的对象子集中的各对象从当前待分类对象集合中删除,将所述综合聚度最小的对象子集对应的标签从当前标签集合中删除。

可选的,步骤s800可以添加到图1或图2所示实施例中,也可以添加到本发明其他实施例中,本发明不做限定。图3所示实施例将步骤s800添加到图2所示实施例中。具体的,步骤s800只需在步骤s400之后执行即可,本发明并不限定步骤s800与步骤s500至步骤s700的执行先后关系。

可以理解的是,步骤s600已将综合聚度最小的对象子集确定为一个新的已分类对象子集,因此本发明将该综合聚度最小的对象子集中的各对象从当前待分类对象集合中删除,同时将所述综合聚度最小的对象子集对应的标签从当前标签集合中删除,这样就可以继续对当前待分类对象集合中剩余的对象继续进行分类。

相应的,由于步骤s700已将所述综合聚度最小的对象子集中各对象放入相似度最高的已分类对象子集中,因此本发明将该综合聚度最小的对象子集中的各对象从当前待分类对象集合中删除,同时将所述综合聚度最小的对象子集对应的标签从当前标签集合中删除,这样就可以继续对当前待分类对象集合中剩余的对象继续进行分类。

可选的,本发明执行步骤s600后,可以返回执行步骤s300以根据更新后的当前标签集合和更新后的当前待分类对象集合重新确定对象子集并继续对重新确定的对象子集进行分类;相应的,本发明执行步骤s700后,也可以返回执行步骤s300以重新确定对象子集。

可见,图3所示实施例可以通过多次执行步骤s300及后续步骤可以逐步将当前待分类对象集合中的对象分类出来,获得多个已分类对象子集。

在实际应用中,当归属于初始待分类对象集合的已分类对象子集的数量达到预设数量时,本发明就可以不再对当前待分类对象集合中剩余的对象进行分类。

如图4所示,本发明实施例提供的另一种对象分类方法,还可以包括:

s900、将所述初始待分类对象集合确定为一个已分类对象子集,将该已分类对象子集确定为当前待分类对象集合,将所述当前待分类对象集合中各对象对应的标签中除与该已分类对象子集对应的标签外的其他标签中的至少部分标签确定为一个当前标签集合,返回执行步骤s300。

在实际应用中,在循环执行s300及后续步骤后,本发明将获得多个已分类对象子集,这些已分类对象子集之间是并列的关系。一个已分类对象子集中的各对象可能较多且仍存在一定差异,这种情况下,可以继续对该已分类对象子集中的各对象进行分类以得到粒度更小的已分类对象子集。设有一个对象集合b,本发明对该对象集合b进行对象分类后获得如图5所示的分类结果。其中,对象集合b1、b2和b3均为对象集合b的子集且均为已分类对象子集。而且,对象集合b11和b12均为对象集合b1的子集且均为已分类对象子集。对象集合b21和b22均为对象集合b2的子集且均为已分类对象子集。对象集合b31和b32均为对象集合b3的子集且均为已分类对象子集。图5中对象集合的层数为3。在实际应用中,本发明可以在对象集合的层数达到预设层数时不再进行分类,即结束本发明的执行。例如:通过图4所示方法获得图5所示的已分类子集后,本发明可以不再继续对图5所示的已分类子集进行分类。

由于已分类对象子集中各对象之间的相似度和综合聚度是根据该已分类对象子集对应的标签得到的。因此为了排除该已分类对象子集对应的标签对后续相似度和综合聚度的影响,本发明可以将所述当前待分类对象集合中各对象对应的标签中除与该已分类对象子集对应的标签外的其他标签中的至少部分标签确定为一个当前标签集合。这样本发明就将该已分类对象子集对应的标签排除在当前标签集合外。这样步骤s300就不会根据该已分类对象子集对应的标签确定对象子集,步骤s400也不会将该已分类对象子集对应的标签用到确定综合聚度的过程中,相应的,步骤s500也不会将该已分类对象子集对应的标签用到确定相似度的过程中。例如:使用本发明的方法对举例1的18个电影进行分类,获得了一个新的已分类对象子集为(电影7,电影8,电影9,电影16,电影17,电影18)。该已分类对象子集与标签“美国”对应。则当继续对(电影7,电影8,电影9,电影16,电影17,电影18)进行分类时,需要将该已分类对象子集中各电影对应的标签中除标签“美国”外的其他标签中的至少部分标签确定为一个当前标签集合。这样,当前标签集合为(恐怖,喜剧),本发明就可以根据这两个标签从(电影7,电影8,电影9,电影16,电影17,电影18)中确定对象子集(电影7,电影8,电影9)和(电影16,电影17,电影18),然后对(电影7,电影8,电影9)和(电影16,电影17,电影18)这两个对象子集进行步骤s400及后续步骤的处理。

与图1所示方法相对应,如图6所示,本发明实施例提供了一种对象分类装置,可以包括:集合获得单元100、集合确定单元200、第一子集确定单元300、第二子集确定单元400、相似度确定单元500和子集分类单元600,

所述集合获得单元100,用于获得当前待分类对象集合,所述当前待分类对象集合中包括多个对象,每个对象对应有至少一个标签,所述当前待分类对象集合为初始待分类对象集合的子集;

其中,本实施例中的对象可以为电影、电视剧、音乐等多媒体的标识,如电影名称。可选的,本实施例中的标签可以为多媒体所具有的特征词,例如:在多媒体对象为电影时,标签可以为电影的特征词(如:搞笑、a明星等)。其中,本发明可以不将所述多媒体的标识确定为标签。

具体的,集合获得单元100可以从网页中爬取多个对象及各对象对应的标签,并将爬取的全部或部分对象确定为初始待分类对象集合。当然,本发明还可以从预设的一个或多个标签库中获得与对象对应的标签。具体的,不同的标签库中的标签可以相同或不同。本实施例中的标签库可以包括:明星标签库、影片类型标签库、影片所属地区标签库等。

可选的,在获得初始待分类对象集合后,图6所示装置首次进行工作时,可以将初始待分类对象集合确定为当前待分类对象集合。

可选的,本发明可以对对象对应的标签进行筛选。例如:本实施例可以使用tf-idf(词频-逆文本频率指数,termfrequency-inversedocumentfrequency)算法确定对象对标签的偏好值,然后对每个对象:将该对象对应的标签中除偏好值最高的n个标签外的其他标签删除。其中,n为自然数,可选的,n=10。这样,与某对象对应的标签均为偏好值较高的标签,这些标签可以很好的体现对象的特征。根据这些标签对对象进行分类可以有效提高分类的准确性。当然,对标签进行筛选后可以减少本发明需要处理的标签的数量,减小了图6所示装置的运行负担。

可选的,设有n个标签库,si为编号为i的标签库,本实施例使用的tf-idf算法可以为:

其中,m(j)表示对象m对标签j的偏好值,表示标签库si中是否包括标签j,如果包括,则如果不包括,则i为标签库si的编号,n为标签库的数量,si(m)表示si中包括的m的标签构成的集合,wi表示si的权重。

在本发明另一实施例中,初始待分类对象集合可以为一个已分类对象集合,集合获得单元100可以将该已分类对象集合确定为当前待分类对象集合,或者,将该已分类对象集合中部分对象构成的集合确定为当前待分类对象集合。所述当前待分类对象集合中各对象对应的标签中不包括该已分类对象集合对应的标签。

所述集合确定单元200,用于将所述当前待分类对象集合中各对象对应的标签中的至少部分标签确定为一个当前标签集合;

具体的,本发明可以将所述当前待分类对象集合中各对象对应的全部标签确定为一个当前标签集合,也可以将部分标签确定为一个当前标签集合。

在将部分标签确定为一个当前标签集合时,本发明可以从所述当前待分类对象集合中各对象对应的全部标签中筛选出部分标签,并将这部分标签确定为一个当前标签集合。具体的筛选方式有多种,如:将对应的对象的数量大于预设数量的标签筛选出来,再如:将上述全部标签中的无效标签去除,将剩余标签作为筛选出来的标签。本发明可以预先设置一个无效标签库,从而根据该无效标签库确定哪些标签是无效标签。无效标签可以为与对象分类无关的标签,例如对象为电影时,手机、辣椒为与电影分类无关的标签。

所述第一子集确定单元300,用于对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集;

具体的,集合获得单元100在获得当前待分类对象集合后,集合获得单元100可以通过键-值(key-value)的方式将具有对应关系的对象和标签保存为键值对。其中,集合获得单元100可以将对象作为键,将标签作为值进行保存。例如:{电影名称1:标签1,标签2,标签3}。需要说明的是,该举例仅是键值对的示意性展示,并不代表实际存储时必然采用此种形式。可选的,集合确定单元200可以将所述当前待分类对象集合中各对象对应的标签中的全部标签确定为一个当前标签集合。第一子集确定单元300可以对集合获得单元100保存的键值对进行倒排索引处理,这样,第一子集确定单元300就得到键为标签,值为对象的键值对。例如:{标签1:电影名称1,电影名称3}。可以理解的是,该当前标签集合中的每个标签都可以作为一个键值对中的键。

需要说明的一点是,第一子集确定单元300并未改变集合获得单元100获得的对象与标签的对应关系。

所述第二子集确定单元400,用于从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集;

可选的,第二子集确定单元400中对象子集的综合聚度的确定过程可以包括:

第二子集确定单元400获得对象子集与各已分类对象子集的并集,确定所述并集的标签内聚度和标签外聚度,根据所述标签内聚度和标签外聚度确定对象子集的综合聚度。

具体的,本发明可以分别确定每一个对象子集的综合聚度。

其中,各已分类对象子集均为所述初始待分类对象集合的子集。当不存在已分类对象子集时,某对象子集与各已分类对象子集的并集即为该对象子集本身。

进一步,第二子集确定单元400确定所述并集的标签内聚度,可以具体设置为:

第二子集确定单元400根据公式

确定所述并集的标签内聚度tagsamgroup(g),其中,g为所述并集,l为g中包含的对象子集的数量,gk为g中的编号为k的对象子集,mi为gk中编号为i的对象,mj为gk中编号为j的对象,ti为当前标签集合中与mi对应的标签,tj为当前标签集合中与mj对应的标签,|ti∩tj|为ti与tj的交集中标签的数量,|ti∪tj|为ti与tj的并集中标签的数量,tagsim(mi,mj)为对象mi和对象mj的标签相似度,|gk|2为gk中包含的对象的数量的平方,tagsamgroup(gk)为gk内各对象的标签相似度的综合值。

可选的,第二子集确定单元400确定并集的标签外聚度可以具体设置为:

根据公式

确定所述并集的标签外聚度moviesim(g),其中,gi为g中编号为i的对象子集,gj为g中编号为j的对象子集,为当前标签集合中与gi中各对象对应的标签的集合,为当前标签集合中与gj中各对象对应的标签的集合,的交集中标签的数量,的并集中标签的数量,mgroupsim(gi,gj)为gi与gj的标签相似度。

当不存在的已分类对象子集时,l的取值为1。此情况下本发明将公式6中的l(l-1)的值设置为1,防止出现分母为0的情况。

进一步,所述第二子集确定单元400根据所述标签内聚度和标签外聚度确定对象子集的综合聚度,可以具体设置为:

根据公式

确定对象子集的综合聚度target(g)。

具体的,本发明确定的综合聚度综合考虑了标签内聚度和标签外聚度,因此该综合聚度可以很好的体现对象子集间的距离特征。标签内聚度越大和/或标签外聚度越小,则综合聚度越大,代表所述并集中各对象子集之间的距离越远。而距离越远的对象子集间的差异越大,差异越大说明对象分类效果越好。

所述相似度确定单元500,用于确定所述综合聚度最小的对象子集分别与各已分类对象子集的相似度是否均满足预设相似度要求,其中,所述各已分类对象子集均为所述初始待分类对象集合的子集;如果是,则触发所述子集分类单元600;

可选的,相似度确定单元500可以具体用于:

获得所述综合聚度最小的对象子集分别与各已分类对象子集的杰卡德相似系数(jaccardsimilaritycoefficient);

确定获得的各杰卡德相似系数是否均满足预设相似度要求,其中,所述预设相似度要求为:小于预设值,如果是,则触发子集分类单元600。

可以理解的是,两个对象子集的杰卡德相似系数越小,则说明这两个对象子集的差异越大。当综合聚度最小的对象子集分别与各已分类对象子集的杰卡德相似系数均小于预设值时,则说明综合聚度最小的对象子集与各已分类对象子集的差异都很大。此时可以将综合聚度最小的对象子集确定为一个新的已分类对象子集。如果综合聚度最小的对象子集与至少一个已分类对象子集的杰卡德相似系数大于预设值,则说明综合聚度最小的对象子集与至少一个已分类对象子集比较相似,此时可以将综合聚度最小的对象子集放入相似度最高的已分类对象子集中。

所述子集分类单元600,用于将所述综合聚度最小的对象子集确定为一个新的已分类对象子集。

其中,本发明确定的已分类对象子集即为对对象进行分类后得到的分类结果,本发明可以将各已分类对象子集与对应的标签进行保存。例如:根据标签与已分类对象子集的对应关系,将标签作为对应的已分类对象子集的子集标识,例如:美国电影:(电影7,电影8,电影9,电影16,电影17,电影18)。

本发明提供的一种对象分类装置,可以获得当前待分类对象集合,所述当前待分类对象集合中包括多个对象,每个对象对应有至少一个标签,所述当前待分类对象集合为初始待分类对象集合的子集;将所述当前待分类对象集合中各对象对应的标签中的至少部分标签确定为一个当前标签集合;对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集;从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集;确定所述综合聚度最小的对象子集分别与各已分类对象子集的相似度是否均满足预设相似度要求;如果是,则将所述综合聚度最小的对象子集确定为一个新的已分类对象子集。本发明可以自动对对象进行分类,无需人工参与,更加快捷和准确。

可选的,在本发明实施例提供的另一种对象分类装置中,还可以包括:对象放入单元和对应关系建立单元,

所述对象放入单元,用于将所述综合聚度最小的对象子集中各对象放入相似度最高的已分类对象子集中;

所述对应关系建立单元,用于建立所述综合聚度最小的对象子集对应的标签与所述相似度最高的已分类对象子集的对应关系。

对象放入单元和对应关系建立单元在相似度确定单元500中的判断结果为否时被触发。

可选的,本发明实施例提供的另一种对象分类装置,还可以包括对象删除单元和标签删除单元,

所述对象删除单元,用于在第二子集确定单元400从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集之后,将所述综合聚度最小的对象子集中的各对象从当前待分类对象集合中删除;

所述标签删除单元,用于在第二子集确定单元400从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集之后,将所述综合聚度最小的对象子集对应的标签从当前标签集合中删除。

可选的,对象删除单元和标签删除单元可以添加本发明实施例提供的任一种对象分类装置中,本发明不做限定。具体的,对象删除单元和标签删除单元只需在第二子集确定单元400之后触发即可,本发明并不限定对象删除单元和标签删除单元该两个单元与相似度确定单元500、子集分类单元600、对象放入单元和对应关系建立单元的触发先后关系。

可以理解的是,子集分类单元600已将综合聚度最小的对象子集确定为一个新的已分类对象子集,因此本发明将该综合聚度最小的对象子集中的各对象从当前待分类对象集合中删除,同时将所述综合聚度最小的对象子集对应的标签从当前标签集合中删除,这样就可以继续对当前待分类对象集合中剩余的对象继续进行分类。

相应的,由于对象放入单元和对应关系建立单元已将所述综合聚度最小的对象子集中各对象放入相似度最高的已分类对象子集中,因此本发明将该综合聚度最小的对象子集中的各对象从当前待分类对象集合中删除,同时将所述综合聚度最小的对象子集对应的标签从当前标签集合中删除,这样就可以继续对当前待分类对象集合中剩余的对象继续进行分类。

可选的,本发明在触发子集分类单元600后,可以直接触发第一子集确定单元300以根据更新后的当前标签集合和更新后的当前待分类对象集合重新确定对象子集并继续对重新确定的对象子集进行分类;相应的,本发明触发对象放入单元和对应关系建立单元后,也可以直接触发第一子集确定单元300以重新确定对象子集。

可见,本发明实施例可以通过触发第一子集确定单元300及其它单元可以逐步将当前待分类对象集合中的对象分类出来,获得多个已分类对象子集。

在实际应用中,当归属于初始待分类对象集合的已分类对象子集的数量达到预设数量时,本发明就可以不再对当前待分类对象集合中剩余的对象进行分类。

本发明实施例提供的另一种对象分类装置,还可以包括:第三子集确定单元、对象确定单元和标签确定单元,

所述第三子集确定单元,用于在所述子集分类单元600将所述综合聚度最小的对象子集确定为一个新的已分类对象子集之后,将所述初始待分类对象集合确定为一个已分类对象子集;

所述对象确定单元,用于将该已分类对象子集确定为当前待分类对象集合;

所述标签确定单元,用于将所述当前待分类对象集合中各对象对应的标签中除与该已分类对象子集对应的标签外的其他标签中的至少部分标签确定为一个当前标签集合,触发第一子集确定单元300。

在实际应用中,在循环触发第一子集确定单元300及其它单元后,本发明将获得多个已分类对象子集,这些已分类对象子集之间是并列的关系。一个已分类对象子集中的各对象可能较多且仍存在一定差异,这种情况下,可以继续对该已分类对象子集中的各对象进行分类以得到粒度更小的已分类对象子集。

由于已分类对象子集中各对象之间的相似度和综合聚度是根据该已分类对象子集对应的标签得到的。因此为了排除该已分类对象子集对应的标签对后续相似度和综合聚度的影响,本发明可以将所述当前待分类对象集合中各对象对应的标签中除与该已分类对象子集对应的标签外的其他标签中的至少部分标签确定为一个当前标签集合。这样本发明就将该已分类对象子集对应的标签排除在当前标签集合外。这样第一子集确定单元300就不会根据该已分类对象子集对应的标签确定对象子集,第二子集确定单元400也不会将该已分类对象子集对应的标签用到确定综合聚度的过程中,相应的,相似度确定单元500也不会将该已分类对象子集对应的标签用到确定相似度的过程中。

所述对象分类装置包括处理器和存储器,上述集合获得单元100、集合确定单元200、第一子集确定单元300、第二子集确定单元400、相似度确定单元500和子集分类单元600等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来进行对象分类。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现本发明实施例提供的对象分类方法。

本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述对象分类方法。

本发明实施例提供了一种计算机设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述处理器执行程序时至少实现以下步骤:

获得当前待分类对象集合,所述当前待分类对象集合中包括多个对象,每个对象对应有至少一个标签,所述当前待分类对象集合为初始待分类对象集合的子集;

将所述当前待分类对象集合中各对象对应的标签中的至少部分标签确定为一个当前标签集合;

对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集;

从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集;

确定所述综合聚度最小的对象子集分别与各已分类对象子集的相似度是否均满足预设相似度要求,其中,所述各已分类对象子集均为所述初始待分类对象集合的子集;

如果是,则将所述综合聚度最小的对象子集确定为一个新的已分类对象子集。

本文中的计算机设备可以是服务器、pc、pad、手机等。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于至少执行初始化有如下方法步骤的程序:

获得当前待分类对象集合,所述当前待分类对象集合中包括多个对象,每个对象对应有至少一个标签,所述当前待分类对象集合为初始待分类对象集合的子集;

将所述当前待分类对象集合中各对象对应的标签中的至少部分标签确定为一个当前标签集合;

对当前标签集合中的至少一个标签:将与该标签对应且位于当前待分类对象集合中的各对象确定为当前待分类对象集合的一个与该标签对应的对象子集;

从当前待分类对象集合的各对象子集中确定综合聚度最小的对象子集;

确定所述综合聚度最小的对象子集分别与各已分类对象子集的相似度是否均满足预设相似度要求,其中,所述各已分类对象子集均为所述初始待分类对象集合的子集;

如果是,则将所述综合聚度最小的对象子集确定为一个新的已分类对象子集。

本领域内的技术人员应明白,本申请的实施例可提供为方法、装置(系统)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、设备(系统)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1