基于标签的信息分类处理、标签查询方法和装置与流程

文档序号:16532900发布日期:2019-01-05 10:54阅读:206来源:国知局
基于标签的信息分类处理、标签查询方法和装置与流程

本发明涉及数据库技术领域,具体涉及一种基于标签的信息分类处理方法和装置、标签查询方法及装置。



背景技术:

在当今的互联网时代,每天都会有成千上万条的信息通过各类网站发布出来。用户除了通过网站类型来对信息进行初步的过滤外,只能通过一条条的阅读来获取自己需要的信息内容。有些信息类网站为了方便用户阅读,可以根据用户选择的兴趣标签来推荐自己所需要的信息内容。这虽然方便了用户,但是对于信息类网站,就需要在获取到各类信息的同时,对信息进行分类。

现有的分类方法,只是根据预先设置好的标签字典对信息内容进行匹配,通过判断信息内容中是否出现标签字典中的某类关键字,对信息内容设置标签,进而通过标签来对信息进行分类。而对于互联网公司,往往需要利用用户的各种基本信息和行为信息,通过不同的维度指标来对各项数据进行分析,并利用打标签的方式完善用户画像,以充分了解用户的需求,提供更个性化的服务。

然而,目前采用的打标签的方式,只能粗略的对信息的设置标签,因无法对信息内容精确的设置,导致标签的信息分类不准确的问题。



技术实现要素:

本发明要解决现有技术对标签的信息分类不准确的技术问题,从而提供一种基于标签的信息分类处理方法和装置、标签查询方法及装置。

本发明的一方面,提供了一种基于标签的信息分类处理方法,包括:获取维度指标关系表,所述维度指标关系表中配置有维度指标关系;将预先设置的标签字典中的标签与所述维度指标关系表中的维度指标关系进行匹配;基于匹配的标签和维度指标关系建立索引表,所述索引表用于基于所述匹配的维度指标关系查找对应的标签;从所述维度指标关系表中的指标名称中提取关键词,形成一级分词词库;从所述维度指标关系表中的维度属性名称中提取关键词,形成二级分词词库;基于所述一级分词词库中的关键词生成一级分词标签集合,基于所述二级分词词库中的关键词生成二级分词标签集合。

可选地,将预先设置的标签字典中的标签与所述维度指标关系表中的维度指标关系进行匹配包括:从待匹配的标签中提取关键词,提取到的关键词为一个或者多个;将提取到的关键词与所述维度指标关系表中的维度指标关系进行匹配;确定出匹配到最多关键词的维度指标关系,作为所述待匹配的标签匹配到的维度指标关系。

可选地,将提取到的关键词与所述维度指标关系表中的维度指标关系进行匹配包括:获取待匹配的维度指标关系对应的指标名称、维度属性名称;将提取到的关键词与所述待匹配的维度指标关系对应的指标名称、维度属性名称逐个进行匹配,记录匹配到的次数,用以确定出匹配到最多关键词的维度指标关系。

可选地,将预先设置的标签字典中的标签与所述维度指标关系表中的维度指标关系进行匹配包括:获取待匹配的维度指标关系对应的指标名称、维度属性名称;将待匹配的标签与所述待匹配的维度指标关系对应的指标名称、维度属性名称逐个进行匹配;将匹配到最多维度和指标的待匹配的标签,作为所述待匹配的维度指标关系匹配到的标签。

可选地,从所述维度指标关系表中的指标名称中提取关键词包括:通过中文分词算法将维度指标关系中的指标名称进行分词,得到多个分词;并利用关键词提取算法从多个分词中提取关键词。

可选地,从所述维度指标关系表中的维度属性名称中提取关键词包括:通过中文分词算法将维度指标关系中的维度属性名称进行分词,得到多个分词;并利用关键词提取算法从多个分词中提取关键词。

可选地,所述关键词提取算法为textrank算法。

本发明的另一方面,提供了一种标签查询方法,包括:接收用于查询标签的一级分词和二级分词;从一级分词标签集合中查询所述一级分词,从二级分词标签集合中查询所述二级分词,其中,所述一级分词标签集合和所述二级分词标签集合为采用上述方法生成的;根据查询到的一级分词和二级分词确定所述一级分词和所述二级分词对应的维度指标关系;基于确定出的维度指标关系从索引表中查询所述一级分词和所述二级分词对应的标签。

本发明的另一方面,提供了一种基于标签的信息分类处理装置,包括:获取单元,用于获取维度指标关系表,所述维度指标关系表中配置有维度指标关系;匹配单元,用于将预先设置的标签字典中的标签与所述维度指标关系表中的维度指标关系进行匹配;建立单元,用于基于匹配的标签和维度指标关系建立索引表,所述索引表用于基于所述匹配的维度指标关系查找对应的标签;第一提取单元,用于从所述维度指标关系表中的指标名称中提取关键词,形成一级分词词库;第二提取单元,用于从所述维度指标关系表中的维度属性名称中提取关键词,形成二级分词词库;生成单元,用于基于所述一级分词词库中的关键词生成一级分词标签集合,基于所述二级分词词库中的关键词生成二级分词标签集合。

本发明的另一方面,提供了一种标签查询装置,包括:接收单元,用于接收用于查询标签的一级分词和二级分词;查询单元,用于从一级分词标签集合中查询所述一级分词,从二级分词标签集合中查询所述二级分词;确定单元,用于根据查询到的一级分词和二级分词确定所述一级分词和所述二级分词对应的维度指标关系;检索单元,用于基于确定出的维度指标关系从索引表中查询所述一级分词和所述二级分词对应的标签。

根据本发明实施例,通过利用维度指标关系表,建立维度指标关系与标签的匹配关系,建立索引表;并对维度指标关系表中的指标名称和维度属性名称进行关键词提取,形成一级分词标签集合和二级分词标签集合,作为标签分类管理库。在查询标签信息时,分别输入一级分词和二级分词进行查询对应的维度指标关系,再从索引表中查询对应的标签,从而提高标签查询效率,提高标签的分类管理效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于标签的信息分类处理方法的一个具体示例的流程图;

图2为本发明实施例中标签查询方法的一个具体示例的流程图;

图3为本发明实施例中基于标签的信息分类处理装置的一个具体示例的原理框图;

图4为本发明实施例中标签查询装置的一个具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本实施例提供一种基于标签的信息分类处理方法,应用于计算机设备上,如图1所示,该方法包括:

步骤s101,获取维度指标关系表,维度指标关系表中配置有维度指标关系。

维度指标关系表上建立有数据维度和指标之间的对应关系。其中一个示例如表1所示:

表1

该维度指标表中记录了指标名称、指标id、维度名称和维度id,并形成对应关系。需要说明的是,本发明实施例的维度指标表还包括维度属性名称,例如,“app名称”包括:“土巴兔ios”、“土巴兔andriod”和“土巴兔wp”等属性,表1中未示出,其仅作为示例,不影响本发明的保护范围。

步骤s102,将预先设置的标签字典中的标签与维度指标关系表中的维度指标关系进行匹配。

本发明实施例中所述的标签为文字标签,例如:“首次访问平台”、“pc端近n日启动次数”等,因此,在进行标签匹配时,主要是将标签与维度名称和指标名称进行匹配。该匹配可以是相同性匹配,也可以是相关性匹配。其中,相同性匹配是指文字内容相同时,则匹配成功;文字内容不相同时,则匹配不成功。相关性匹配是指根据内容的相关性程度进行匹配,该匹配过程需要根据标签语义与维度指标的含义计算相关度,当相关度达到预设值时,匹配成功;反之,未到达预设值时,则匹配失败。具体地,根据词义计算相关度,可以训练的词义模型来进行附值。

标签字典也可以称为标签公共字典,其上记录有各项标签以及对标签进行值的细化,可以扩展(比如性别标签有男女两个值)。

步骤s103,基于匹配的标签和维度指标关系建立索引表,索引表用于基于匹配的维度指标关系查找对应的标签。

建立的索引表主要用于检索维度指标关系对应的标签,也即是说,当确定出某项数据的维度指标关系时,即可通过该索引表查询到对应的标签,用以作为该项数据所能够体现的标签。

步骤s104,从维度指标关系表中的指标名称中提取关键词,形成一级分词词库。

步骤s105,从维度指标关系表中的维度属性名称中提取关键词,形成二级分词词库。

步骤s106,基于一级分词词库中的关键词生成一级分词标签集合,基于二级分词词库中的关键词生成二级分词标签集合。

本发明实施例中,通过对维度指标关系表中的指标名称和维度属性名称提取关键词,形成一级分词词库和二级分词词库,并分别生成一级分词标签集合和二级分词标签集合作为标签分类管理库。这样,当需要查询标签信息时,只需要在一级分词标签集合和二级分词标签集合中查询输入的一级分词和二级分词即可。

根据本发明实施例,通过利用维度指标关系表,建立维度指标关系与标签的匹配关系,建立索引表;并对维度指标关系表中的指标名称和维度属性名称进行关键词提取,形成一级分词标签集合和二级分词标签集合,作为标签分类管理库。在查询标签信息时,分别输入一级分词和二级分词进行查询对应的维度指标关系,再从索引表中查询对应的标签,从而提高标签查询效率,提高标签的分类管理效率。

作为本发明实施例的一种可选实施方式,本发明实施例中,上述步骤s102包括:

s11,从待匹配的标签中提取关键词,提取到的关键词为一个或者多个。

标签可以是一个词,例如:男;也可以是一句话,例如:pc端近n日启动次数。在进行标签匹配时,可以从标签中提取关键词,用以作为匹配的基础信息。当标签是一个词时,则提取一个词。如果是一句话,则可以提取多个关键词。

s12,将提取到的关键词与维度指标关系表中的维度指标关系进行匹配。

本发明实施例中,提取到的关键词是指对标签提取到的关键词。在进行匹配时的,可以通过计算关键词与维度指标关系之间的相关度来判断是否匹配。优选地,基于标签内容和维度指标名称,为了提高匹配的效率,本实施例通过以下步骤来进行匹配:获取待匹配的维度指标关系对应的指标名称、维度属性名称;将提取到的关键词与待匹配的维度指标关系对应的指标名称、维度属性名称逐个进行匹配,记录匹配到的次数,用以确定出匹配到最多关键词的维度指标关系。

其中,匹配到的次数是指累计提取到的关键词与指标名称、维度属性名称匹配成功的次数。例如,当某个关键词与指标名称匹配成功,则计数加1;当某个关键词与某个维度属性名称匹配成功,计数再加1。

s13,确定出匹配到最多关键词的维度指标关系,作为待匹配的标签匹配到的维度指标关系。

由于匹配成功的次数越多,表明相关性越大。例如,标签“pc端近n日启动次数”,通过关键词提取,可以提取到“pc端”、“n日”和“启动次数”。其中,“pc端”表示了一定的维度信息,“启动次数”则表示了一定的指标信息。在进行匹配时,如果有两个关键词匹配到的维度指标关系中正好包含“pc端”维度的“启动次数”指标,则表示二者之间存在很大的关联关系。如果只能够匹配到一个,或者都未匹配到,那表明二者关联性很低。

本发明实施例是通过对标签的关键词提取,用来对维度指标关系进行匹配。作为另一种可替换的实施方式,利用维度指标关系中的指标名称和维度属性名称来匹配标签。具体地,上述步骤s102包括:

s21,获取待匹配的维度指标关系对应的指标名称、维度属性名称。

s2,将待匹配的标签与待匹配的维度指标关系对应的指标名称、维度属性名称逐个进行匹配。

s23,将匹配到最多维度和指标的待匹配的标签,作为待匹配的维度指标关系匹配到的标签。

本发明实施例中,无需提取标签的关键词,而是直接利用获取到的指标名称和维度属性名称来匹配标签。其匹配的原理与上述实施例中相似,这里不再赘述。

本发明实施例中,从维度指标关系表中的指标名称中提取关键词包括:通过中文分词算法将维度指标关系中的指标名称进行分词,得到多个分词;并利用关键词提取算法从多个分词中提取关键词。从维度指标关系表中的维度属性名称中提取关键词包括:通过中文分词算法将维度指标关系中的维度属性名称进行分词,得到多个分词;并利用关键词提取算法从多个分词中提取关键词。其中,关键词提取算法为textrank算法。

本发明实施例还提供了一种标签查询方法,该标签查询方法是基于本发明实施例提供的基于标签的信息分类处理方法的处理结果执行的。如图2所示,该标签查询方法包括:

步骤s201,接收用于查询标签的一级分词和二级分词。

一级分词可以是指与指标名称相关的分词,二级分词可以是指与维度属性名称相关的分词。在进行标签查询时,通过向搜索引擎输入一级分词和二级分词,用以发送相关的查询请求。

步骤s202,从一级分词标签集合中查询所述一级分词,从二级分词标签集合中查询所述二级分词。本发明实施例中所述的所述一级分词标签集合和所述二级分词标签集合为采用本发明实施例的基于标签的信息分类处理方法生成的。具体参见上述实施例的描述,这里不做赘述。

步骤s203,根据查询到的一级分词和二级分词确定所述一级分词和所述二级分词对应的维度指标关系。

步骤s204,基于确定出的维度指标关系从索引表中查询所述一级分词和所述二级分词对应的标签。

本实施例的索引表也是由本发明上述实施例的基于标签的信息分类处理方法生成的,这里不做赘述。

根据本发明实施例,在查询标签信息时,分别输入一级分词和二级分词进行查询对应的维度指标关系,再从索引表中查询对应的标签,从而提高标签查询效率,提高标签的分类管理效率。

本发明实施例的还提供了一种基于标签的信息分类处理装置,该装置可以用于执行本发明实施例的所提供的基于标签的信息分类处理方法,如图3所示,该装置包括:

获取单元301用于获取维度指标关系表,维度指标关系表中配置有维度指标关系。

匹配单元302用于将预先设置的标签字典中的标签与维度指标关系表中的维度指标关系进行匹配。

本发明实施例中所述的标签为文字标签,例如:“首次访问平台”、“pc端近n日启动次数”等,因此,在进行标签匹配时,主要是将标签与维度名称和指标名称进行匹配。该匹配可以是相同性匹配,也可以是相关性匹配。其中,相同性匹配是指文字内容相同时,则匹配成功;文字内容不相同时,则匹配不成功。相关性匹配是指根据内容的相关性程度进行匹配,该匹配过程需要根据标签语义与维度指标的含义计算相关度,当相关度达到预设值时,匹配成功;反之,未到达预设值时,则匹配失败。

标签字典也可以称为标签公共字典,其上记录有各项标签以及对标签进行值的细化,可以扩展(比如性别标签有男女两个值)。

建立单元303用于基于匹配的标签和维度指标关系建立索引表,索引表用于基于匹配的维度指标关系查找对应的标签。

建立的索引表主要用于检索维度指标关系对应的标签,也即是说,当确定出某项数据的维度指标关系时,即可通过该索引表查询到对应的标签,用以作为该项数据所能够体现的标签。

第一提取单元304用于从维度指标关系表中的指标名称中提取关键词,形成一级分词词库。

第二提取单元305用于从维度指标关系表中的维度属性名称中提取关键词,形成二级分词词库。

生成单元306用于基于一级分词词库中的关键词生成一级分词标签集合,基于二级分词词库中的关键词生成二级分词标签集合。

本发明实施例中,通过对维度指标关系表中的指标名称和维度属性名称提取关键词,形成一级分词词库和二级分词词库,并分别生成一级分词标签集合和二级分词标签集合作为标签分类管理库。这样,当需要查询标签信息时,只需要在一级分词标签集合和二级分词标签集合中查询输入的一级分词和二级分词即可。

根据本发明实施例,通过利用维度指标关系表,建立维度指标关系与标签的匹配关系,建立索引表;并对维度指标关系表中的指标名称和维度属性名称进行关键词提取,形成一级分词标签集合和二级分词标签集合,作为标签分类管理库。在查询标签信息时,分别输入一级分词和二级分词进行查询对应的维度指标关系,再从索引表中查询对应的标签,从而提高标签查询效率,提高标签的分类管理效率。

本发明实施例中匹配单元302还用于从待匹配的标签中提取关键词,提取到的关键词为一个或者多个;将提取到的关键词与所述维度指标关系表中的维度指标关系进行匹配;确定出匹配到最多关键词的维度指标关系,作为所述待匹配的标签匹配到的维度指标关系。具体地还用于获取待匹配的维度指标关系对应的指标名称、维度属性名称;将提取到的关键词与所述待匹配的维度指标关系对应的指标名称、维度属性名称逐个进行匹配,记录匹配到的次数,用以确定出匹配到最多关键词的维度指标关系。

可替换地,本发明实施例的匹配单元302还可以用于获取待匹配的维度指标关系对应的指标名称、维度属性名称;将待匹配的标签与所述待匹配的维度指标关系对应的指标名称、维度属性名称逐个进行匹配;将匹配到最多维度和指标的待匹配的标签,作为所述待匹配的维度指标关系匹配到的标签。

第一提取单元304具体可以用于通过中文分词算法将维度指标关系中的指标名称进行分词,得到多个分词;并利用关键词提取算法从多个分词中提取关键词。

第二提取单元305具体可以用于通过中文分词算法将维度指标关系中的维度属性名称进行分词,得到多个分词;并利用关键词提取算法从多个分词中提取关键词。

本发明实施例的还提供了一种标签查询装置,该装置可以用于执行本发明实施例的所提供的标签查询方法,如图4所示,该装置包括:接收单元401、查询单元402、确定单元403和检索单元404。

接收单元401用于接收用于查询标签的一级分词和二级分词。

查询单元402用于从一级分词标签集合中查询一级分词,从二级分词标签集合中查询二级分词。

确定单元403用于根据查询到的一级分词和二级分词确定一级分词和二级分词对应的维度指标关系。

检索单元404用于基于确定出的维度指标关系从索引表中查询一级分词和二级分词对应的标签。

根据本发明实施例,在查询标签信息时,分别输入一级分词和二级分词进行查询对应的维度指标关系,再从索引表中查询对应的标签,从而提高标签查询效率,提高标签的分类管理效率。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本申请的保护范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1