一种标签的分类处理方法及装置与流程

文档序号:16390519发布日期:2018-12-22 11:26阅读:168来源:国知局
一种标签的分类处理方法及装置与流程

本发明涉及数据库技术领域,具体涉及一种标签的分类处理方法及装置。

背景技术

在当今的互联网时代,每天都会有成千上万条的信息通过各类网站发布出来。用户除了通过网站类型来对信息进行初步的过滤外,只能通过一条条的阅读来获取自己需要的信息内容。有些信息类网站为了方便用户阅读,可以根据用户选择的兴趣标签来推荐自己所需要的信息内容。这虽然方便了用户,但是对于信息类网站,就需要在获取到各类信息的同时,对信息进行分类。

对于互联网公司,往往需要利用用户的各种基本信息和行为信息,通过不同的维度指标来对各项数据进行分析,并利用打标签的方式完善用户画像,以充分了解用户的需求,提供更个性化的服务。然而,现有技术中在对标签分类管理的过程中,往往需要针对每一条标签存储设置分类信息,对于重新自定义的标签无法与用户形成直接的对应关系,标签分类管理效率低。



技术实现要素:

本发明要解决现有技术重新自定义标签无法与用户形成直接的对应关系的技术问题,从而提供一种标签的分类处理方法及装置。

本发明的一方面,提供了一种标签的分类处理方法,包括:接收标签应用管理平台发送的标签分类管理请求,所述标签分类管理请求携带有自定义的标签类目和名称;基于所述标签分类管理请求携带的自定义的标签类目和名称建立标签目录表;获取已保存的用户成员对应的标签属性取值,得到所述标签属性取值对应的文字内容;从所述标签属性取值对应的文字内容中提取关键词;将提取到的关键词与所述标签目录表中的标签类目名称进行匹配;将匹配成功的关键词对应的标签属性取值、所述用户成员与标签类目名称进行整合存储,形成标签集合。

可选地,在将提取到的关键词与所述标签目录表中的标签类目名称进行匹配之后,还包括:将匹配不成功的关键词对应的标签属性取值发送给所述标签应用管理平台,以使所述标签应用管理平台发送包含新的标签类目和名称的标签分类管理请求。

可选地,获取已保存的用户成员对应的标签属性取值包括:从数据仓库中调取标签公共字典表和标签成员关系表,其中,所述标签公共字典表用于保存标签属性值,所述标签成员关系表用于保存用户成员与标签取值的对应关系;根据所述成员关系表从所述标签公共字典表中查询与所述用户成员匹配的标签属性取值。

可选地,从所述标签属性取值对应的文字内容中提取的关键词为n个,所述标签目录表中的标签类目名称为m个,n和m均为大于0的自然数,其中,将提取到的关键词与所述标签目录表中的标签类目名称进行匹配包括:将n个关键词和m个标签类目名称分别进行排序;按照排序顺序依次将第i个关键词与第j个标签类目名称进行匹配,i取1至n,j取1至m,直到所有的关键词和标签类目名称都参与匹配;当n个关键词匹配到同一个标签类目名称时,则确定为匹配成功。

可选地,所述标签目录表中的标签类目名称包括标签类型名称、标签一级类目名称、标签二级类目名称和标签名称,其中,所述标签名称从属于所述标签二级类目名称,所述标签二级类目名称从属于所述标签一级类目名称,所述标签一级类目名称从属于所述标签类型名称。

可选地,将提取到的关键词与所述标签目录表中的标签类目名称进行匹配包括:将提取到的关键词与所述标签类型名称逐个进行匹配;在匹配到所述标签类型名称时,将提取到的关键词与匹配到的标签类型名称下的标签一级类目名称进行匹配;在匹配到标签一级类目名称时,将提取到的关键词与匹配到的标签一级类目名称下的标签二级类目名称进行匹配;在匹配到标签二级类目名称时,将提取到的关键词与匹配到的标签二级类目名称下的标签名称进行匹配。

可选地,还包括:在未匹配到所述标签类型名称时,将提取到的关键词与所述标签一级类目名称逐个进行匹配;在未匹配到标签一级类目名称时,将提取到的关键词与所述标签二级类目名称逐个进行匹配;在未匹配到标签二级类目名称时,将提取到的关键词与所述标签名称逐个进行匹配。

本发明的另一方面,提供了一种标签的分类处理装置,包括:接收单元,用于接收标签应用管理平台发送的标签分类管理请求,所述标签分类管理请求携带有自定义的标签类目和名称;建立单元,用于基于所述标签分类管理请求携带的自定义的标签类目和名称建立标签目录表;获取单元,用于获取已保存的用户成员对应的标签属性取值,得到所述标签属性取值对应的文字内容;提取单元,用于从所述标签属性取值对应的文字内容中提取关键词;匹配单元,用于将提取到的关键词与所述标签目录表中的标签类目名称进行匹配;存储单元,用于将匹配成功的关键词对应的标签属性取值、所述用户成员与标签类目名称进行整合存储,形成标签集合。

可选地,还包括:发送单元,用于在将提取到的关键词与所述标签目录表中的标签类目名称进行匹配之后,将匹配不成功的关键词对应的标签属性取值发送给所述标签应用管理平台,以使所述标签应用管理平台发送包含新的标签类目和名称的标签分类管理请求。

可选地,所述获取单元包括:调取模块,用于从数据仓库中调取标签公共字典表和标签成员关系表,其中,所述标签公共字典表用于保存标签属性值,所述标签成员关系表用于保存用户成员与标签取值的对应关系;查询模块,用于根据所述成员关系表从所述标签公共字典表中查询与所述用户成员匹配的标签属性取值。

根据本发明实施例,通过将自定义的标签类目名称与用户成员的标签属性取值提取的关键词进行匹配,将匹配成功的关键词对应的标签属性取值、用户成员与标签类目名称进行整合存储,形成标签集合。这样使得重新自定义标签无法与用户形成直接的对应关系,自定义标签进行分类管理并存储,为标签应用提供数据支持,进一步的推动标签技术的广泛应用。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中标签的分类处理方法的一个具体示例的流程图;

图2为本发明实施例中标签生成过程的示意图;

图3为本发明实施例一种可选的标签的分类处理方法的流程图;

图4为本发明实施例中标签的分类处理装置的一个具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本实施例提供一种标签的分类处理方法,应用于计算机设备上,如图1所示,该方法包括:

步骤s11,接收标签应用管理平台发送的标签分类管理请求,标签分类管理请求携带有自定义的标签类目和名称。

本发明实施例中,标签应用管理平台主要用于进行数据源管理、标签分类管理、标签任务管理、标签客户画像管理和标签展示管理等。在进行标签分类管理的过程中,工作人员可以在标签应用管理平台上进行标签自定义,自定义的标签,例如定义一个叫高装修需求的标签,可以由性别是男,年收入过百万,房产超过三套三个标签取值组合而来(也叫组合标签),或者是编写计算逻辑得出来的标签,方便数据分析员进行标签扩展。然后通过标签应用管理平台将标签分类管理请求发送至数据库服务器进行相应的操作。

本发明实施例所述的标签的生成流程见图2,主要用于描述一下内容:

1、主体的某个属性是什么,如用户的性别。

2、主体是否满足某个属性值,各个属性值的图表展示(个数、百分比),如用户的职业是否是工程师,某个地区的业主教育程度分布图。

3、主体首次、近n天发生某个行为的属性(时间、平均数、总次数、最近n个等),如最近一周性别为男的用户平均登录次数。

步骤s12,基于标签分类管理请求携带的自定义的标签类目和名称建立标签目录表。

本发明所述的标签目录表的一种可选示例如表1所示:

表1

步骤s13,获取已保存的用户成员对应的标签属性取值,得到标签属性取值对应的文字内容。

标签属性取值可以包括基础属性值、标签行为属性值等。如表1中所示的基础属性和行为特征对应的标签名称对应的取值(该取值在上表中未示出),可以从标签公共字典表中获取。

已保存的用户成员对应的标签属性取值可以是存储在数据仓库中。由用户日常在网络上的操作行为记录得到。

步骤s14,从标签属性取值对应的文字内容中提取关键词。

本发明实施例中,可以优选标签行为属性值来提取关键词。提取关键词的方式可以先对文字内容进行分词处理,然后利用关键词提取算法提取关键词,例如textrank算法。需要说明的是,本发明实施例中所提取的关键词为能够体现标签行为属性的关键词。

步骤s15,将提取到的关键词与标签目录表中的标签类目名称进行匹配。

该匹配可以是相同性匹配,也可以是相关性匹配。其中,相同性匹配是指文字内容相同时,则匹配成功;文字内容不相同时,则匹配不成功。相关性匹配是指根据内容的相关性程度进行匹配,该匹配过程需要根据关键词词义与标签类目名称的词义计算相关度,当相关度达到预设值时,匹配成功;反之,未到达预设值时,则匹配失败。具体地根据词义计算相关度,可以训练的词义模型来进行附值。

步骤s16,将匹配成功的关键词对应的标签属性取值、用户成员与标签类目名称进行整合存储,形成标签集合。

可选地,本发明实施例的在匹配不成功时,可以执行任意操作,例如停止后续操作。优选地,本发明实施例还包括:将匹配不成功的关键词对应的标签属性取值发送给标签应用管理平台,以使标签应用管理平台发送包含新的标签类目和名称的标签分类管理请求。

本发明实施例中,若匹配成功,将包含该关键字的文字内容对应的标签属性取值、标签成员及标签类目和名称进行整合存储,最终形成标签集合;若匹配不成功,则将标签公共字典表的标签属性值返回标签应用平台,标签应用平台根据返回的标签属性值重新发送包含新的标签类目和名称的标签分类管理请求。

根据本发明实施例,通过将自定义的标签类目名称与用户成员的标签属性取值提取的关键词进行匹配,将匹配成功的关键词对应的标签属性取值、用户成员与标签类目名称进行整合存储,形成标签集合。这样使得重新自定义标签无法与用户形成直接的对应关系,自定义标签进行分类管理并存储,为标签应用提供数据支持,进一步的推动标签技术的广泛应用。

作为一种可选的实施方式,本发明实施例中,上述步骤s13包括:从数据仓库中调取标签公共字典表和标签成员关系表,其中,标签公共字典表用于保存标签属性值,还可以对标签进行值的细化,值可以扩展(比如性别标签有男女两个值),标签成员关系表用于保存用户成员与标签取值的对应关系;根据成员关系表从标签公共字典表中查询与用户成员匹配的标签属性取值。

作为本发明实施例的一种可选实施方式,从标签属性取值对应的文字内容中提取的关键词为n个,标签目录表中的标签类目名称为m个,n和m均为大于0的自然数,其中,图1所示的步骤s15包括:

s1,将n个关键词和n个标签类目名称分别进行排序。

s2,按照排序顺序依次将第i个关键词与第j个标签类目名称进行匹配,i取1至n,j取1至m,直到所有的关键词和标签类目名称都参与匹配。

s3,当n个关键词匹配到同一个标签类目名称时,则确定为匹配成功。

当一个标签属性值对应的文字内容提取的关键词为2个,即n取2,m取10,在进行匹配时,将2个关键词与10个标签类目名称分别进行匹配,加入其中有一个标签类目名称与2个关键词均匹配,则确定匹配成功。需要说明的是,本发明实施例中,由于用户成员可以有多个,因此,对应的标签属性取值也为多个,因此,上述步骤s1-s3需要根据用户成员的数量循环执行,直到所有用户成员均完成相应的匹配。

可选地,如表1所示,标签目录表中的标签类目名称包括标签类型名称、标签一级类目名称、标签二级类目名称和标签名称,其中,标签名称从属于标签二级类目名称,标签二级类目名称从属于标签一级类目名称,标签一级类目名称从属于标签类型名称。

图3为本发明实施例一种可选的标签的分类处理方法的流程图,如图3所示,该方法包括:

步骤s21,接收标签应用管理平台发送的标签分类管理请求,标签分类管理请求携带有自定义的标签类目和名称。

步骤s22,基于标签分类管理请求携带的自定义的标签类目和名称建立标签目录表。

步骤s23,获取已保存的用户成员对应的标签属性取值,得到标签属性取值对应的文字内容。

步骤s24,从标签属性取值对应的文字内容中提取关键词。

步骤s25,将提取到的关键词与标签类型名称逐个进行匹配;

步骤s26,在匹配到标签类型名称时,将提取到的关键词与匹配到的标签类型名称下的标签一级类目名称进行匹配;

步骤s27,在匹配到标签一级类目名称时,将提取到的关键词与匹配到的标签一级类目名称下的标签二级类目名称进行匹配;

步骤s28,在匹配到标签二级类目名称时,将提取到的关键词与匹配到的标签二级类目名称下的标签名称进行匹配。

步骤s29,将匹配成功的关键词对应的标签属性取值、用户成员与标签类目名称进行整合存储,形成标签集合。

本发明实施例中,将提取的关键词按照标签类型名称、标签一级类目名称、标签二级类目名称和标签名称逐级进行匹配,对于匹配到的上级名称,则只相应的下级名称进行匹配,达到降低了匹配的次数,提高匹配效率。

进一步地,如图3所示,还包括:

步骤s30,未匹配到标签类型名称时,将提取到的关键词与标签一级类目名称逐个进行匹配。

步骤s31,在未匹配到标签一级类目名称时,将提取到的关键词与标签二级类目名称逐个进行匹配。

步骤s32,在未匹配到标签二级类目名称时,将提取到的关键词与标签名称逐个进行匹配。对于上级名称未能匹配到的,则需要对所有的下级名称进行匹配,以避免出现遗漏。

本发明实施例的还提供了一种标签的分类处理装置,该装置可以用于执行本发明实施例的所提供的标签的分类处理方法,如图4所示,该装置包括:接收单元10、建立单元20、获取单元30、提取单元40、匹配单元50和存储单元60。

接收单元10用于接收标签应用管理平台发送的标签分类管理请求,标签分类管理请求携带有自定义的标签类目和名称。

本发明实施例中,标签应用管理平台主要用于进行数据源管理、标签分类管理、标签任务管理、标签客户画像管理和标签展示管理等。在进行标签分类管理的过程中,工作人员可以在标签应用管理平台上进行标签自定义,自定义的标签,例如定义一个叫高装修需求的标签,可以由性别是男,年收入过百万,房产超过三套三个标签取值组合而来(也叫组合标签),或者是编写计算逻辑得出来的标签,方便数据分析员进行标签扩展。然后通过标签应用管理平台将标签分类管理请求发送至数据库服务器进行相应的操作。

建立单元20用于基于标签分类管理请求携带的自定义的标签类目和名称建立标签目录表。

获取单元30用于获取已保存的用户成员对应的标签属性取值,得到标签属性取值对应的文字内容。

标签属性取值可以包括基础属性值、标签行为属性值等。如表1中所示的基础属性和行为特征对应的标签名称对应的取值(该取值在上表中未示出),可以从标签公共字典表中获取。

已保存的用户成员对应的标签属性取值可以是存储在数据仓库中。由用户日常在网络上的操作行为记录得到。

提取单元40用于从标签属性取值对应的文字内容中提取关键词。

本发明实施例中,可以优选标签行为属性值来提取关键词。提取关键词的方式可以先对文字内容进行分词处理,然后利用关键词提取算法提取关键词,例如textrank算法。需要说明的是,本发明实施例中所提取的关键词为能够体现标签行为属性的关键词。

匹配单元50用于将提取到的关键词与标签目录表中的标签类目名称进行匹配。

该匹配可以是相同性匹配,也可以是相关性匹配。其中,相同性匹配是指文字内容相同时,则匹配成功;文字内容不相同时,则匹配不成功。相关性匹配是指根据内容的相关性程度进行匹配,该匹配过程需要根据关键词词义与标签类目名称的词义计算相关度,当相关度达到预设值时,匹配成功;反之,未到达预设值时,则匹配失败。具体地根据词义计算相关度,可以训练的词义模型来进行附值。

存储单元60用于将匹配成功的关键词对应的标签属性取值、用户成员与标签类目名称进行整合存储,形成标签集合。

可选地,本发明实施例的在匹配不成功时,可以执行任意操作,例如停止后续操作。优选地,本发明实施例的装置还包括:发送单元,用于在将提取到的关键词与标签目录表中的标签类目名称进行匹配之后,将匹配不成功的关键词对应的标签属性取值发送给标签应用管理平台,以使标签应用管理平台发送包含新的标签类目和名称的标签分类管理请求。

本发明实施例中,若匹配成功,将包含该关键字的文字内容对应的标签属性取值、标签成员及标签类目和名称进行整合存储,最终形成标签集合;若匹配不成功,则将标签公共字典表的标签属性值返回标签应用平台,标签应用平台根据返回的标签属性值重新发送包含新的标签类目和名称的标签分类管理请求。

根据本发明实施例,通过将自定义的标签类目名称与用户成员的标签属性取值提取的关键词进行匹配,将匹配成功的关键词对应的标签属性取值、用户成员与标签类目名称进行整合存储,形成标签集合。这样使得重新自定义标签无法与用户形成直接的对应关系,自定义标签进行分类管理并存储,为标签应用提供数据支持,进一步的推动标签技术的广泛应用。

作为一种可选的实施方式,本发明实施例中,获取单元包括:调取模块,用于从数据仓库中调取标签公共字典表和标签成员关系表,其中,标签公共字典表用于保存标签属性值,标签成员关系表用于保存用户成员与标签取值的对应关系;查询模块,用于根据成员关系表从标签公共字典表中查询与用户成员匹配的标签属性取值。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本申请的保护范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1