类目标签匹配映射方法及装置的制造方法

文档序号:10534807阅读:295来源:国知局
类目标签匹配映射方法及装置的制造方法
【专利摘要】本发明实施例提供一种类目标签匹配映射方法及装置,该方法包括:获取源类目标签的标签信息和目标类目标签的标签信息;根据标签字符串,分别确定各源类目标签和各目标类目标签的字面相似度;根据标签信息得到标签的向量化信息,结合标签路径信息,分别确定各源类目标签和各目标类目标签的语义相似度;根据标签路径信息,分别确定各源类目标签和各目标类目标签的结构相似度;根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中的至少一个,选择出相似度符合设定条件的源类目标签和目标类目标签,建立映射关系。能够实现快速、准确的标签相似度匹配和标签映射,匹配映射的效率高,不需要人工参与,节约人力物力财力。
【专利说明】
类目标签匹配映射方法及装置
技术领域
[0001] 本发明涉及互谅网数据处理技术领域,尤指一种用于数据管理平台 (DataManagement Platform,DMP)的类目标签匹配映射方法及装置。
【背景技术】
[0002] 在大数据时代,数据管理平台(DMP)成为互联网广告领域、个性化推荐领域必不可 少一部分,主要用于存储用户浏览行为、用户兴趣以及物品属性等,以便提供更好的个性化 服务。然而由于DMP技术的复杂性,大部分需要处理这些用户数据的网站或企业等,会将数 据提供给第三方数据管理平台进行加工处理,以方便应用。
[0003] 因此,第三方数据管理平台会接受来自不同网站或者企业的用户数据,统一提供 数据处理服务。而这些用户数据来自不同的网站和企业,即使相同性质或类别的用户数据, 其标签可能也不尽相同,因此,对标签进行归一化则成为需要解决的问题。第三方数据管理 平台接收到企业或网站的用户数据时会进行加工处理,将用户数据统一映射到相同的类目 体系下,以便提供更精准的服务;
[0004] 目前实现标签归一化的解决方案有:
[0005] 1)通过字面相似度或者近义词扩展进行标签映射;
[0006] 2)给定两个类目树结构,人工逐一映射。
[0007] 现有标签归一化的解决方案存在以下问题:
[0008] 1)通过字面相似度或者近义词表进行标签映射,召回率比较低,而且没有考虑到 语义信息可能会导致匹配错误,例如手机品牌-苹果与水果-苹果,两个苹果标签进行映射 时,就会发送错误。
[0009] 2)通过人工映射缺点消耗人力,比如两个10 0 0节点的标签树,就需要人工映射 100W 次。
[0010] 可见,现有的标签归一化解决方案容易出现匹配错误,匹配映射的准确度低,且耗 时耗力,匹配映射的速度和效率低。

【发明内容】

[0011] 本发明实施例提供一种类目标签匹配映射方法及装置,用以解决现有技术中存在 的标签归一化过程中匹配准确度低,耗时耗力,匹配映射速度和效率低的问题,能够实现快 速、准确的标签相似度匹配及标签映射,节约人力物力财力。
[0012] -方面,本发明实施例提供一种类目标签匹配映射方法,包括:
[0013] 获取源类目标签的标签信息和目标类目标签的标签信息;
[0014] 根据标签信息中包括的标签字符串,分别确定各源类目标签和各目标类目标签的 字面相似度;
[0015]根据标签信息得到标签的向量化信息,根据标签的向量化信息和标签信息中包括 的标签路径信息,分别确定各源类目标签和各目标类目标签的语义相似度;
[0016] 根据标签信息中包括的标签路径信息,结合字面相似度和语义相似度,分别确定 各源类目标签和各目标类目标签的结构相似度;
[0017] 根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中 的至少一个,选择出相似度符合设定条件的源类目标签和目标类目标签,建立映射关系。
[0018] 在一些可选的实施例中,通过下列方式中的至少一种确定源类目标签和目标类目 标签的字面相似度:
[0019] 根据标签信息中包括的标签字符串是否相同或相近,确定两个标签的字面相似 度;
[0020] 根据标签信息中包括的标签字符串中的分词是否是同义词,确定两个标签的字面 相似度;
[0021] 根据标签信息中包括的标签字符串前缀的相似比例,确定两个标签的字面相似 度;
[0022] 计算两个标签字符串的N元文法N-gram相似度,得到两个标签的字面相似度;
[0023]计算两个标签的编辑距离相似度,得到两个标签的字面相似度;
[0024] 根据标签信息中包括的标签字符串的长公共子序列计算两个标签的最长公共子 串LCS相似度。
[0025] 在一些可选的实施例中,通过下列方式中的至少一种确定源类目标签和目标类目 标签的语义相似度:
[0026] 计算源类目标签和目标类目标签的杰卡德Jaccard相似度:获取源类目标签的向 量化信息和目标类目标签的向量化信息,计算两个向量Jaccard相似度,作为所述语义相似 度;
[0027] 计算源类目标签和目标类目标签的余弦相似度:获取源类目标签的向量化信息和 目标类目标签的向量化信息,计算两个向量余弦相似度,作为所述语义相似度;
[0028]计算源类目标签和目标类目标签的向量点互信息相似度,作为所述语义相似度;
[0029] 基于源类目标签和目标类目标签的词向量,计算源类目标签和目标类目标签的语 义相似度;
[0030] 基于主题模型,计算源类目标签和目标类目标签的语义相似度;
[0031 ]基于机器学习算法,确定源类目标签和目标类目标签的语义相似度。
[0032] 在一些可选的实施例中,确定源类目标签和目标类目标签的结构相似度的过程, 具体包括:
[0033] 根据源类目标签的标签路径信息和目标类目标签的标签路径信息,获取标签路径 信息中的父节点信息、子节点信息和兄弟节点信息;以及根据字面相似度和语义相似度确 定基础相似度;
[0034] 基于父节点信息,根据基础相似度计算源类目标签和目标类目标签的祖先节点相 似度;
[0035] 基于子节点信息,根据基础相似度计算源类目标签和目标类目标签的子孙节点相 似度;
[0036] 基于兄弟节点信息,根据基础相似度计算源类目标签和目标类目标签的兄弟节点 相似度;
[0037] 根据祖先节点相似度、子孙节点相似度和兄弟节点相似度,采用设定的加权规则 或选择规则,确定源类目标签和目标类目标签的结构相似度。
[0038] 在一些可选的实施例中,根据各源类目标签与各目标类目标签的字面相似度、语 义相似度和结构相似度中的至少一个,选择出相似度符合设定条件的目标类目标签,建立 映射关系,具体包括:
[0039] 针对每个源类目标签,获取与该源类目标签字面相似度最大的第一设定数量的目 标类目标签;从获取到的目标类目标签中获取与该源类目标签语义相似度最大的第二设定 数量的目标类目标签,第二设定数量小于第一设定数量;从获取到的目标类目标签中获取 与该源类目标签结构相似度最大的目标类目标签,并建立映射关系;或
[0040] 针对每个源类目标签,获取与该源类目标签结构相似度最大的目标类目标签,建 立映射关系;或
[0041] 获取字面相似度大于第一相似度阈值和/或语义相似度大于第二相似度阈值,且 结构相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和目标类目标签 建立映射关系;或
[0042] 获取结构相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和 目标类目标签建立映射关系。
[0043] 在一些可选的实施例中,获取源类目标签的标签信息和目标类目标签的标签信息 之后,还包括:
[0044] 对获取的源类目标签的标签信息和目标类目标签的标签信息进行分词操作,过滤 掉无用词。
[0045] 另一方面,本发明实施例提供一种类目标签匹配映射装置,包括:
[0046] 信息获取模块,用于获取源类目标签的标签信息和目标类目标签的标签信息;
[0047] 第一确定模块,用于根据标签信息中包括的标签字符串,分别确定各源类目标签 和各目标类目标签的字面相似度;
[0048] 第二确定模块,用于根据标签信息得到标签的向量化信息,根据标签的向量化信 息和标签信息中包括的标签路径信息,分别确定各源类目标签和各目标类目标签的语义相 似度;
[0049] 第三确定模块,用于根据标签信息中包括的标签路径信息,结合字面相似度和语 义相似度,分别确定各源类目标签和各目标类目标签的结构相似度;
[0050] 匹配映射模块,根据各源类目标签与各目标类目标签的字面相似度、语义相似度 和结构相似度中的至少一个,选择出相似度符合设定条件的源类目标签和目标类目标签, 建立映射关系。
[0051] 在一些可选的实施例中,所述第一确定模块,具体用于通过下列方式中的至少一 种确定源类目标签和目标类目标签的字面相似度:
[0052] 根据标签信息中包括的标签字符串是否相同或相近,确定两个标签的字面相似 度;
[0053] 根据标签信息中包括的标签字符串中的分词是否是同义词,确定两个标签的字面 相似度;
[0054] 根据标签信息中包括的标签字符串前缀的相似比例,确定两个标签的字面相似 度;
[0055]计算两个标签字符串的N-gram相似度,得到两个标签的字面相似度;
[0056]计算两个标签的编辑距离相似度,得到两个标签的字面相似度;
[0057]根据标签信息中包括的标签字符串的长公共子序列计算两个标签的最长公共子 串LCS相似度。
[0058]在一些可选的实施例中,所述第二确定模块,具体用于通过下列方式中的至少一 种确定源类目标签和目标类目标签的语义相似度:
[0059] 计算源类目标签和目标类目标签的杰卡德Jaccard相似度:获取源类目标签的向 量化信息和目标类目标签的向量化信息,计算两个向量Jaccard相似度,作为所述语义相似 度;
[0060] 计算源类目标签和目标类目标签的余弦相似度:获取源类目标签的向量化信息和 目标类目标签的向量化信息,计算两个向量余弦相似度,作为所述语义相似度;
[0061 ]计算源类目标签和目标类目标签的向量点互信息相似度,作为所述语义相似度;
[0062] 基于源类目标签和目标类目标签的词向量,计算源类目标签和目标类目标签的语 义相似度;
[0063] 基于主题模型,计算源类目标签和目标类目标签的语义相似度;
[0064]基于机器学习算法,确定源类目标签和目标类目标签的语义相似度。
[0065]在一些可选的实施例中,所述第三确定模块,具体用于:
[0066] 根据源类目标签的标签路径信息和目标类目标签的标签路径信息,获取标签路径 信息中的父节点信息、子节点信息和兄弟节点信息;以及根据字面相似度和语义相似度确 定基础相似度;
[0067] 基于父节点信息,根据基础相似度计算源类目标签和目标类目标签的祖先节点相 似度;
[0068] 基于子节点信息,根据基础相似度计算源类目标签和目标类目标签的子孙节点相 似度;
[0069] 基于兄弟节点信息,根据基础相似度计算源类目标签和目标类目标签的兄弟节点 相似度;
[0070] 根据祖先节点相似度、子孙节点相似度和兄弟节点相似度,采用设定的加权规则 或选择规则,确定源类目标签和目标类目标签的结构相似度。
[0071] 在一些可选的实施例中,所述匹配映射模块,具体用于:
[0072] 针对每个源类目标签,获取与该源类目标签字面相似度最大的第一设定数量的目 标类目标签;从获取到的目标类目标签中获取与该源类目标签语义相似度最大的第二设定 数量的目标类目标签,第二设定数量小于第一设定数量;从获取到的目标类目标签中获取 与该源类目标签结构相似度最大的目标类目标签,并建立映射关系;或
[0073] 针对每个源类目标签,获取与该源类目标签结构相似度最大的目标类目标签,建 立映射关系;或
[0074]获取字面相似度大于第一相似度阈值和/或语义相似度大于第二相似度阈值,且 结构相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和目标类目标签 建立映射关系;或
[0075] 获取结构相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和 目标类目标签建立映射关系。
[0076] 在一些可选的实施例中,所述信息获取模块,还用于:
[0077] 获取源类目标签的标签信息和目标类目标签的标签信息之后,对获取的源类目标 签的标签信息和目标类目标签的标签信息进行分词操作,过滤掉无用词。
[0078] 上述技术方案具有如下有益效果:通过源类目标签的标签信息和目标类目标签的 标签信息,分别确定源类目标签和目标类目标签的字面相似度、语义相似度和结构相似度, 综合考虑字面相似度、语义相似度和结构相似度选择相似度匹配最好的源类目标签和目标 类目标签,进行归一化映射,从而使得匹配映射的准确性更好,有效的去处歧义保证准确 率;此外该方法能够自动化的实现标签的匹配映射不需要人工处理,省时省力,处理速度和 效率也比较高。
【附图说明】
[0079] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0080] 图1是本发明实施例一中源类目标签和目标类目标签映射的树状结构示例图;
[0081] 图2是本发明实施例一中类目标签匹配映射方法的流程图;
[0082] 图3是本发明实施例二中类目标签匹配映射方法的流程图;
[0083] 图4是本发明实施例语义相似度确定一种可选流程图;
[0084] 图5是本发明实施例结构相似度确定一种可选流程图;
[0085] 图6是本发明实施例中类目标签匹配映射装置的结构示意图。
【具体实施方式】
[0086] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0087] 为了解决现有技术中标签归一化过程中存在的匹配准确度低,耗时耗力的问题, 本发明实施例提供一种类目标签匹配映射方法,该方法能够实现自动化的标签归一化处 理,快速、准确的实现标签相似度匹配及标签的映射。下面通过具体的实施例进行详细描 述。
[0088] 先介绍一下类目标签的类目体系架构。如图1所示为源类目标签和目标类目标签 映射的树状结构图示例。
[0089] 图1中源类目标签体系的结构和目标类目标签体系的结构分别示意为树状结构。 比如:其中一个标签体系,假设源类目标签体系,根节点下,有"Mobi 1 e"和"蔬菜"两个标签; "Mobi 1 e"标签下,有"Iphone"和"XiaoMi"两个标签;"蔬菜"标签下,有"苹果"这一个标签。 另一个标签体系,假设目标类标签体系,根节点下,有"手机"和"水果"两个标签;"手机"标 签下,有"苹果"和"小米"两个标签;"水果"标签下,有"苹果"这一个标签。
[0090]标签归一化映射的输出为源类目标签结构体系中的标签 映射或者一对多映 射到目标类目标签结构体系中的标签上。如图1中,"Mobi le"映射到"手机"、"Mobi le"下边 的"Iphone"映射到"手机"下边的"苹果"、"Mobile"下边的"XiaoMi"映射到"手机"下边的 "小米"、"蔬菜"下边的"苹果"映射到"水果"下边的"苹果"、……等等。
[0091] 实施例一
[0092]本发明实施例提供一种类目标签相似度匹配方法,其流程如图2所示,包括如下步 骤:
[0093]步骤S101:获取源类目标签的标签信息和目标类目标签的标签信息。
[0094] 获取源类目标签体系中和目标类目标签中各标签的标签信息,其中标签信息至少 包括下列信息之一:标签字符串、标签的向量化信息、标签路径信息、标签的节点信息。标签 的节点信息可以包括子节点信息、父节点信息、兄弟节点信息等信息中的一个或多个。
[0095] 步骤S102:根据标签信息中包括的标签字符串,分别确定各源类目标签和各目标 类目标签的字面相似度。
[0096] 该步骤主要针对标签数据进行初级或者第一层标签相似度计算,主要是基于标签 的字面相似度算法,产出各个源类目标签到目标类目标签的字面相似度。属于第一层级的 相似度确定。
[0097] 通过下列方式中的至少一种确定源类目标签和目标类目标签的字面相似度:
[0098] 根据标签信息中包括的标签字符串是否相同或相近,确定两个标签的字面相似 度;
[0099] 根据标签信息中包括的标签字符串中的分词是否是同义词,确定两个标签的字面 相似度:
[0100] 根据标签信息中包括的标签字符串前缀的相似比例,确定两个标签的字面相似 度;
[0101] 计算两个标签字符串的N元文法(N-gram)相似度,得到两个标签的字面相似度;
[0102] 计算两个标签的编辑距离相似度,得到两个标签的字面相似度;
[0103] 根据标签信息中包括的标签字符串的长公共子序列计算两个标签的最长公共子 串(Longest Common Subsequence,LCS)相似度。
[0104] 步骤S103:根据标签信息得到标签的向量化信息,根据标签的向量化信息和标签 信息中包括的标签路径信息,分别确定各源类目标签和各目标类目标签的语义相似度。
[0105] 该步骤主要针对标签数据进行中级或者第二层标签相似度计算,主要是基于标签 的语义相似度算法,产出各个源类目标签到目标类目标签的语义相似度。属于第二层级的 相似度确定。
[0106]通过下列方式中的至少一种确定源类目标签和目标类目标签的语义相似度:
[0107] 计算源类目标签和目标类目标签的杰卡德(Jaccard)相似度,具体包括:获取源类 目标签的向量化信息和目标类目标签的向量化信息,计算两个向量Jaccard相似度,作为所 述语义相似度;此处一般可以计算两个标签向量的直接的Jaccard相似度;
[0108] 计算源类目标签和目标类目标签的余弦相似度,具体包括:获取源类目标签的向 量化信息和目标类目标签的向量化信息,计算两个向量余弦相似度;此处一般可以计算两 个标签向量的直接的余弦相似度,作为所述语义相似度;
[0109] 计算源类目标签和目标类目标签的向量点互信息相似度(PointwiseMutual Informat ion,PMI ),作为所述语义相似度;
[0110] 基于源类目标签和目标类目标签的词向量,计算源类目标签和目标类目标签的语 义相似度;
[0111] 基于主题模型,计算源类目标签和目标类目标签的语义相似度;
[0112]基于机器学习算法,确定源类目标签和目标类目标签的语义相似度。
[0113] 步骤S104:根据标签信息中包括的标签路径信息,结合字面相似度和语义相似度, 分别确定各源类目标签和各目标类目标签的结构相似度。
[0114] 该步骤主要针对标签数据进行高级或者第三层标签相似度计算,主要是基于标签 的结构相似度算法,产出各个源类目标签到目标类目标签的结构相似度。属于第三层级的 相似度确定。结构相似度计算的可选确定方式可以通过下列结构相似度中的至少一个进行 确定:祖先节点相似度、子孙节点相似度和兄弟节点相似度。
[0115] -种可选的确定结构相似度的方案如下:
[0116] 根据源类目标签的标签路径信息和目标类目标签的标签路径信息,获取标签路径 信息中的父节点信息、子节点信息和兄弟节点信息;以及根据字面相似度和语义相似度确 定基础相似度;
[0117]基于父节点信息,根据基础相似度计算源类目标签和目标类目标签的祖先节点相 似度;
[0118]基于子节点信息,根据基础相似度计算源类目标签和目标类目标签的子孙节点相 似度;
[0119]基于兄弟节点信息,根据基础相似度计算源类目标签和目标类目标签的兄弟节点 相似度;
[0120] 根据祖先节点相似度、子孙节点相似度和兄弟节点相似度,采用设定的加权规则 或选择规则,确定源类目标签和目标类目标签的结构相似度。
[0121] 上述基础相似度可以从语义相似度和字面相似度中选择其一,例如选择较大的一 个;也可以两者加权计算得到,例如各自乘以加权系数求和。
[0122] 基于标签父节点的相似度进行加权,即标签节点对的祖先节点相似度越大,该标 签节点对相似度越大;基于标签子节点相似度进行加权,即标签节点对的子孙节点相似度 越大,该标签节点对相似度越大;基于标签兄弟节点相似度进行加权,即标签节点对的兄弟 节点相似度越大,该标签节点对相似度越大。
[0123] 上述可选方式,对祖先节点相似度、子孙节点相似度和兄弟节点相似度进行加权 处理,可以设定每个相似度的加权比例,确定一个综合的结构相似度,也可以选择其中西安 四度最大的作为结构相似度。其中设定每个相似度的加权比例时,其加权比例可以为0,比 如说兄弟节点相似度加权比例为0,此时其实意味着仅通过祖先节点相似度、子孙节点相似 度来进行加权确定标签的结构相似度。
[0124] 上述可选方式,也可以根据选择规则,选择祖先节点相似度、子孙节点相似度和兄 弟节点相似度较大的一个作为结构相似度。
[0125] 步骤S105:根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结 构相似度中的至少一个,选择出符合设定条件的源类目标签和目标类目标签,建立映射关 系。
[0126] 该步骤中,可以根据设定的选择规则,根据字面相似度、语义相似度和结构相似度 中的一个或几个选择符合条件的源类目标签和目标类目标签。较优选的,根据各源类目标 签与各目标类目标签的结构相似度,或根据结构相似度并结合字面相似度和语义相似度中 的至少一个,选择出相似度符合设定条件的源类目标签和目标类目标签,建立映射关系。
[0127] 根据该源类目标签与每个目标类目标签的字面相似度、语义相似度和结构相似度 建立标签映射关系时,可以根据设定的规则实现映射,规则可以根据需要设定筛选相似度 最好的两个标签的收敛条件,当收敛条件满足时,确定两个标签之间的映射关系。例如:可 以对字面相似度、语义相似度和结构相似度进行加权,确定综合相似度最大的标签对,也可 以设定一定的筛选规则,选择其中某一个相似度最大的标签对,等等,当然不限于该步骤中 所述的方式,具体可以根据需要设定不同的规则,实现建立映射关系。
[0128] 建立源类目标签和目标类目标签的映射关系时,具体可以采用下列过滤原理中的 一种或多种,以输出标签映射关系:
[0129] 可以根据专家知识进行标签对过滤,得到符合条件的标签对,建立映射关系;
[0130] 可以根据规则进行标签对过滤,得到符合条件的标签对,建立映射关系;
[0131] 可以根据阈值进行标签对过滤,得到符合条件的标签对,建立映射关系;
[0132] 也可以选择相似度最好的标签对作为最后映射关系的输出。
[0133] 具体实现过程中,建立映射关系的一些可选实现方式如下:
[0134] 针对每个源类目标签,获取与该源类目标签字面相似度最大的第一设定数量的目 标类目标签;从获取到的目标类目标签中获取与该源类目标签语义相似度最大的第二设定 数量的目标类目标签,第二设定数量小于第一设定数量;从获取到的目标类目标签中获取 与该源类目标签结构相似度最大的目标类目标签,并建立映射关系;或
[0135] 针对每个源类目标签,获取与该源类目标签结构相似度最大的目标类目标签,建 立映射关系;或
[0136] 获取字面相似度大于第一相似度阈值和/或语义相似度大于第二相似度阈值,且 结构相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和目标类目标签 建立映射关系;或
[0137] 获取结构相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和 目标类目标签建立映射关系。
[0138] 实施例二
[0139] 本发明实施例二提供的类目标签匹配映射方法,其流程如图3所示,包括如下步 骤。
[0140] 步骤S201:获取源类目标签的标签信息和目标类目标签的标签信息。
[0141 ]步骤S202:对获取的源类目标签的标签信息和目标类目标签的标签信息进行分词 操作,过滤掉无用词。
[0142]对获取的源类目标签的标签信息和目标类目标签的标签信息进行数据预处理,以 便减少后续的不必要处理,进一步提高后续处理的速度。对标签信息进行分词操作,将复杂 的短语结构分解为单个词级别,例如手机品牌,分解为手机、品牌两个词;对分词进行过滤, 将无用的词过滤掉,比如:一些垃圾词或无意义的词,例如"的"、"地"、"我"等都可以过滤去 掉;
[0143] 可选的,也可以在该步骤中将标签的各个节点信息提炼出来,例如将标签的父节 点信息、兄弟节点信息以及子节点信息等计算确定出来,例如图2中的标签"手机"的子节点 包括"苹果"和"小米"。
[0144] 可选的,该步骤中还可以进行其他初始化操作,比如:加载词向量词典、主题模型 等。
[0145] 步骤S203:确定源类目标签和目标类目标签的字面相似度。
[0146] 参考步骤S103,分别确定出源类目标签体系中每个源类目标签与目标类目标签体 系中每个目标类目标签的字面相似度。
[0147] 步骤S204:确定源类目标签和目标类目标签的语义相似度。
[0148] 参考步骤S104,分别确定出源类目标签体系中每个源类目标签与目标类目标签体 系中每个目标类目标签的语义相似度。
[0149]步骤S205:确定源类目标签和目标类目标签的结构相似度。
[0150]参考步骤S105,分别确定出源类目标签体系中每个源类目标签与目标类目标签体 系中每个目标类目标签的结构相似度。
[0151]确定源类目标签和目标类目标签的结构相似度时,可以根据基础相似度,建立标 签之间的相似度对应表,根据对应表中的基础相似度分别确定源类目标签和目标类目标签 的结构相似度,若计算结构相似度时,由于其父节点、子节点或兄弟节点的相似度暂时不存 在而不能得到符合收敛条件的结果时,可以在一轮结构相似度结算完毕,用已得到源类目 标签和目标类目标签的结构相似度更新对应表中的基础相似度。进行下一轮的结构相似度 计算,直到得到满足收敛条件的结果。
[0152] 例如下表1所示:
[0153] 表1
[0156]表1中,7"表示未知,数值表示基础相似度。
[0157]步骤S206:针对每个源类目标签,执行如下步骤:
[0158] 步骤S207:筛选出与该源类目标签字面相似度最大的第一设定数量的目标类目标 签。
[0159] 步骤S208:获取到的目标类目标签中获取与该源类目标签语义相似度最大的第二 设定数量的目标类目标签。
[0160]步骤S209:从获取到的目标类目标签中获取与该源类目标签结构相似度最大的目 标类目标签。
[0161 ]步骤S210:建立源类目标签和目标类目标签的映射关系。
[0162] 通过上述过程可以针对源类目标签体系中的标签和目标类目标签体系中的标签 建立起一对一或一对多的映射关系,形成若干具有映射关系的标签对。
[0163] 本发明实施例中计算标签分布式表示的一种可选方法,考虑标签语义和标签结构 化信息,其流程如图4所示,可以将标签的分布式表示结果用于语义相似度确定。该标签分 布式表示的实现过程包括如下步骤:
[0164] 步骤S301:获取源类目体系和目标类目体系中的各个标签,将各个标签向量化表 示,得到标签的向量化信息。
[0165] 该步骤获取输入数据,输入数据为两个标签类目体系中的各个标签,最终给出这 些标签的一个向量化表示,例如手机表示为向量(0.1,0.3,0.25,0.25,0.1),当计算标签的 语义相似度时,以余弦相似度为例,最终计算两个标签的语义相似度转换为计算两个向量 的余弦相似度。
[0166] 步骤S302:加载基础词语向量化词典,得到标签的基础词向量表示。
[0167] 该词典的获取可能包括下列方式之一:
[0168] 基于神经网络训练词向量模型,即w〇rd2VeCt 〇r模型;
[0169] 基于词语全局统计信息得到词向量模型,即Global2VeCt〇r;
[0170] 基于主题模型得到词语在主题上分布,也是一种向量化表示,主题模型可能基于 潜在语义索引(Latent Semantic Indexing,LSI)、概率潜在语义索引(Probabi 1 istic Latent SemanticIndexing,PLSI)或者潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)、深度学习等中的一种。
[0171] 步骤S303:生成标签的节点信息。
[0172] 根据类目标签中的标签信息,获取每个标签节点的所有父节点,可以采用深度优 先、宽度优先遍历算法获取,即标签节点表示为"【根节点、手机、苹果】"类似这样的节点信 息。
[0173] 步骤S304:计算标签的分布式表示。
[0174] 以基于祖先节点加权方式计算标签分布式表示为例,采用下列公式进行计算:
[0176] 其中,Xtag*目标类目标签的向量表示;
[0177] p表示路径信息中的一个节点;
[0178] v为标签的基础词向量表示;
[0179] 31为该标签节点的路径信息;
[0180] w为祖先节点加权值。
[0181] 步骤S305:将标签节点的分布式表示结果用于语义相似度计算。
[0182] 上述步骤最终输出各个标签节点的分布式表示结果,用于语义相似度计算,该分 布式表示优势是将语义相似度和结构相似度进行简单结合,能有效解决标签歧义问题。
[0183] 上述实施例中确定结构相似度的一种可选实现流程如图5所示,包括如下步骤:
[0184] 步骤S401:获取确定出的字面相似度和语义相似度,得到每个源类目标签和各目 标类标签的基础相似度。
[0185] 参见上表1。
[0186] 步骤S402:根据标签的父节点信息和基础相似度,计算源类目标签和目标类目标 签的祖先节点相似度。
[0187] 可选的计算思路如下,从标签路径自身节点向前追溯,分别计算两两节点标签相 似度,并加权求和。即至少追溯上一层祖先节点,根据源类目标签和目标类目标签的至少一 个祖先节点的基础相似度、该源类目标签和目标类目标签的基础相似度,加权得到祖先节 点相似度。
[0188] 以源类目标签S1和目标类目标签T2为例,两个标签的相似度计算公式如下:
[0190]其中:Sim(Sl,T2)为源类目标签S1和目标类目标签T2之间的相似度;
[0191] sim(ps,pt)为路径信息中源类目标签路径节点Ps和目标类目标签路径节点Pt之间 相似度;
[0192] w为节点之间的基础相似度加权系数;
[0193] p为源类目标签路径和目标类目标签路径的交集中的节点;
[0194] S1为源类目标签;
[0195] T2为目标类目标签;
[0196] 3T(S1)表示源类目标签的路径信息;
[0197] 3i(t2)表示目标类目标签的路径信息;
[0198] s为源类目标签节点下标,表示第s个源类目标签节点;
[0199] t为目标类目标签节点下标,表示第t个源类目标签节点。
[0200] 举例如下,两个节点标签分别为〈41,81,(:1>,^2,02,02>,则标签(:1和02的相似度 Sim(Cl,C2)为:
[0201 ] Sim(Cl,C2)=0?7*base_sim(cl,c2)+0?2*base_sim(Bl,D2)+0?l*base_sim(Al, A2)
[0202] 其中:base_sim(Cl,C2)为标签对(Cl,C2)的基础相似度 [0203] base_sim(Bl,D2)为标签对(B1,D2)的基础相似度 [0204] base_sim(Al,A2)为标签对(A1,A2)的基础相似度。
[0205]步骤S403:根据标签的子孙节点信息和基础相似度,计算源类目标签和目标类目 标签的子孙节点相似度。
[0206] 可选的计算思路如下,计算源标签每一个子孙节点到每一个目标标签子孙相似 度,取最大值作为该节点到目标子孙节点相似度,并加权求和。
[0207] 以源类目标签S1和目标类目标签T2为例,两个标签的相似度计算公式如下:
[0209]其中:Sim(Sl,T2)为源类目标签S1和目标类目标签T2的相似度;
[0210] sim(ps,pt)为路径信息中源类目标签路径节点Ps和目标类目标签路径节点Pt相似 度;
[0211] V表示遍历各个目标类目标签节点;
[0212] w为节点之间的基础相似度加权系数;
[0213] p为源类目标签节点到根节点路径节点集合;
[0214] S1为要求解的源类目标签;
[0215] T2为要求解的目标类目标签;
[0216] 3i(Sl)表示源类目标签的路径信息;
[0217] s为源类目标签节点路径下标,表示第s个源类目标签节点;
[0218] t为目标类目标签节点路径下标,表示第t个源类目标签节点。
[0219 ] 举例如下,两个节点标签C1和C2的子孙节点分别为〈A 1,B1 >,<A2,D2>,则标签C1和 C2的相似度为:
[0220] Sim(Cl,C2)=0?7*base_sim(cl,c2)+0?2*Max(base_sim(Al,A2),base_sim(Al, D2))+0?l*Max(base_sim(Bl,A2),base_sim(Bl,D2))
[0221 ]步骤S404:根据标签的兄弟节点信息和基础相似度,计算源类目标签和目标类目 标签的兄弟节点相似度。
[0222]可选的计算思路如下,计算源标签每一个兄弟节点到每一个目标标签兄弟节点相 似度,取最大值作为该节点到目标兄弟节点相似度,并加权求和,计算思路和步骤S403类 似。
[0223]步骤S405:根据祖先节点相似度、子孙节点相似度和兄弟节点相似度采用设定的 加权规则或选择规则,确定源类目标签和目标类目标签的结构相似度。
[0224] 选择规则策略可选方式:选取其中相似度值最大的一个作为结构相似度。
[0225] 加权规则策略可选方式:根据设定的加权比例,对祖先节点相似度、子孙节点相似 度和兄弟节点相似度进行加权求和,即祖先节点相似度、子孙节点相似度和兄弟节点相似 度分别乘以对应的加权比例后求和,或求和后在平均,得到结构相似度。
[0226] 基于同一发明构思,本发明实施例还提供一种类目标签匹配映射装置,该装置可 以设置在实现第三方数据处理的服务器上,也可以设置在提供数据给第三方数据处理服务 器的其他网站或企业的数据服务器上。该类目标签匹配映射装置的结构如图6所示,包括: 信息获取模块101、第一确定模块102、第二确定模块103、第三确定模块104和匹配映射模块 105〇
[0227] 信息获取模块101,用于获取源类目标签的标签信息和目标类目标签的标签信息。
[0228] 第一确定模块103,用于根据标签信息中包括的标签字符串,分别确定各源类目标 签和各目标类目标签的字面相似度.
[0229] 第二确定模块104,用于根据标签信息得到标签的向量化信息,根据标签的向量化 信息和标签信息中包括的标签路径信息,分别确定各源类目标签和各目标类目标签的语义 相似度。
[0230] 第三确定模块105,用于根据标签信息中包括的标签路径信息,结合字面相似度和 语义相似度,分别确定各该源类目标签和各目标类目标签的结构相似度。
[0231 ]匹配映射模块106,根据各源类目标签与各目标类目标签的字面相似度、语义相似 度和结构相似度中的至少一个,选择出相似度符合设定条件的源类目标签和目标类目标 签,建立映射关系。
[0232] 优选的,上述第一确定模块103,具体用于通过下列方式中的至少一种确定源类目 标签和目标类目标签的字面相似度:
[0233] 根据标签信息中包括的标签字符串是否相同或相近,确定两个标签的字面相似 度;
[0234] 根据标签信息中包括的标签字符串中的分词是否是同义词,确定两个标签的字面 相似度;
[0235] 根据标签信息中包括的标签字符串前缀的相似比例,确定两个标签的字面相似 度;
[0236] 计算两个标签字符串的N-gram相似度,得到两个标签的字面相似度;
[0237] 计算两个标签的编辑距离相似度,得到两个标签的字面相似度;
[0238] 根据标签信息中包括的标签字符串的长公共子序列计算两个标签的最长公共子 串LCS相似度。
[0239] 优选的,上述第二确定模块104,具体用于通过下列方式中的至少一种确定源类目 标签和目标类目标签的语义相似度:
[0240] 计算源类目标签和目标类目标签的杰卡德Jaccard相似度:获取源类目标签的向 量化信息和目标类目标签的向量化信息,计算两个向量Jaccard相似度,作为语义相似度; [0241 ]计算源类目标签和目标类目标签的余弦相似度:获取源类目标签的向量化信息和 目标类目标签的向量化信息,计算两个向量余弦相似度,作为语义相似度;
[0242]计算源类目标签和目标类目标签的向量点互信息相似度,作为语义相似度;
[0243] 基于源类目标签和目标类目标签的词向量,计算源类目标签和目标类目标签的语 义相似度;
[0244] 基于主题模型,计算源类目标签和目标类目标签的语义相似度;
[0245] 基于机器学习算法,确定源类目标签和目标类目标签的语义相似度。
[0246]优选的,上述第三确定模块105,具体用于:
[0247] 根据源类目标签的标签路径信息和目标类目标签的标签路径信息,获取标签路径 信息中的父节点信息、子节点信息和兄弟节点信息;以及根据字面相似度和语义相似度确 定基础相似度;
[0248] 基于父节点信息,根据基础相似度计算源类目标签和目标类目标签的祖先节点相 似度;
[0249] 基于子节点信息,根据基础相似度计算源类目标签和目标类目标签的子孙节点相 似度;
[0250] 基于兄弟节点信息,根据基础相似度计算源类目标签和目标类目标签的兄弟节点 相似度;
[0251] 根据祖先节点相似度、子孙节点相似度和兄弟节点相似度,采用设定的加权规则 或选择规则,确定源类目标签和目标类目标签的结构相似度。
[0252] 优选的,上述匹配映射模块106,具体用于针对每个源类目标签,获取与该源类目 标签字面相似度最大的第一设定数量的目标类目标签;从获取到的目标类目标签中获取与 该源类目标签语义相似度最大的第二设定数量的目标类目标签,第二设定数量小于第一设 定数量;从获取到的目标类目标签中获取与该源类目标签结构相似度最大的目标类目标 签,并建立映射关系;或
[0253] 针对每个源类目标签,获取与该源类目标签结构相似度最大的目标类目标签,建 立映射关系;或
[0254] 获取字面相似度大于第一相似度阈值和/或语义相似度大于第二相似度阈值,且 结构相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和目标类目标签 建立映射关系;或
[0255] 获取结构相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和 目标类目标签建立映射关系。
[0256] 优选的,上述信息获取模块101,还用于获取源类目标签的标签信息和目标类目标 签的标签信息之后,对获取的源类目标签的标签信息和目标类目标签的标签信息进行分词 操作,过滤掉无用词。
[0257] 本发明实施例提供的上述类目标签匹配映射方法及装置,能够基于本体对齐技术 对类目标签分布式表不并进行归一化映射,该方法是一套自动化标签归一化处理技术,完 全自动进行类目标签映射;可以基于词向量模型、主题模型等语义模型,计算标签语义分布 式表示,并基于标签语义相似度、结构相似度等本体对齐技术,进行类目标签语义层面归一 化。经过信息预处理和多层级的标签相似度计算,融合标签字面相似度、语义相似度以及结 构化相似度等多种本体对齐技术,求解标签相似度,考虑了标签结构化和语义信息,能够有 效去除歧义保证准确率,最终得到比较准确的相似度匹配结果,实现较佳的归一化映射。该 方法可以自动化实现,有效解放人力,节约人力物力财力,提高处理速度和效率。
[0258] 本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块 (illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结 合进行实现。为清楚展示硬件和软件的可替换性(丨1^6代1^1^6313;[1;^7),上述的各种说明 性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功 能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员 可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为 超出本发明实施例保护的范围。
[0259] 本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器, 数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门 或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处 理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制 器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器, 多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置 来实现。
[0260] 本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软 件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储 器、EEPR0M存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介 中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并 可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可 以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用 户终端中的不同的部件中。
[0261] 在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软 件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的 媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电 脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以 是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但 不限于1^11、1?(观、££?1?(通、^-1?(通或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任 何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理 器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例 如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双 绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的 电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、错射盘、光盘、DVD、软盘 和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合 也可以包含在电脑可读媒介中。
[0262] 以上所述的【具体实施方式】,对本发明的目的、技术方案和有益效果进行了进一步 详细说明,所应理解的是,以上所述仅为本发明的【具体实施方式】而已,并不用于限定本发明 的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含 在本发明的保护范围之内。
【主权项】
1. 一种类目标签匹配映射方法,其特征在于,包括: 获取源类目标签的标签信息和目标类目标签的标签信息; 根据标签信息中包括的标签字符串,分别确定各源类目标签和各目标类目标签的字面 相似度; 根据标签信息得到标签的向量化信息,根据标签的向量化信息和标签信息中包括的标 签路径信息,分别确定各源类目标签和各目标类目标签的语义相似度; 根据标签信息中包括的标签路径信息,结合字面相似度和语义相似度,分别确定各源 类目标签和各目标类目标签的结构相似度; 根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中的至 少一个,选择出相似度符合设定条件的源类目标签和目标类目标签,建立映射关系。2. 如权利要求1所述的方法,其特征在于,通过下列方式中的至少一种确定源类目标签 和目标类目标签的字面相似度: 根据标签信息中包括的标签字符串是否相同或相近,确定两个标签的字面相似度; 根据标签信息中包括的标签字符串中的分词是否是同义词,确定两个标签的字面相似 度; 根据标签信息中包括的标签字符串前缀的相似比例,确定两个标签的字面相似度; 计算两个标签字符串的N元文法N-gram相似度,得到两个标签的字面相似度; 计算两个标签的编辑距离相似度,得到两个标签的字面相似度; 根据标签信息中包括的标签字符串的长公共子序列计算两个标签的最长公共子串LCS 相似度。3. 如权利要求1所述的方法,其特征在于,通过下列方式中的至少一种确定源类目标签 和目标类目标签的语义相似度: 计算源类目标签和目标类目标签的杰卡德Jaccard相似度:获取源类目标签的向量化 信息和目标类目标签的向量化信息,计算两个向量Jaccard相似度,作为所述语义相似度; 计算源类目标签和目标类目标签的余弦相似度:获取源类目标签的向量化信息和目标 类目标签的向量化信息,计算两个向量余弦相似度,作为所述语义相似度; 计算源类目标签和目标类目标签的向量点互信息相似度,作为所述语义相似度; 基于源类目标签和目标类目标签的词向量,计算源类目标签和目标类目标签的语义相 似度; 基于主题模型,计算源类目标签和目标类目标签的语义相似度; 基于机器学习算法,确定源类目标签和目标类目标签的语义相似度。4. 如权利要求1所述的方法,其特征在于,确定源类目标签和目标类目标签的结构相似 度的过程,具体包括: 根据源类目标签的标签路径信息和目标类目标签的标签路径信息,获取标签路径信息 中的父节点信息、子节点信息和兄弟节点信息;以及根据字面相似度和语义相似度确定基 础相似度; 基于父节点信息,根据基础相似度计算源类目标签和目标类目标签的祖先节点相似 度; 基于子节点信息,根据基础相似度计算源类目标签和目标类目标签的子孙节点相似 度; 基于兄弟节点信息,根据基础相似度计算源类目标签和目标类目标签的兄弟节点相似 度; 根据祖先节点相似度、子孙节点相似度和兄弟节点相似度,采用设定的加权规则或选 择规则,确定源类目标签和目标类目标签的结构相似度。5. 如权利要求1所述的方法,其特征在于,根据各源类目标签与各目标类目标签的字面 相似度、语义相似度和结构相似度中的至少一个,选择出相似度符合设定条件的目标类目 标签,建立映射关系,具体包括: 针对每个源类目标签,获取与该源类目标签字面相似度最大的第一设定数量的目标类 目标签;从获取到的目标类目标签中获取与该源类目标签语义相似度最大的第二设定数量 的目标类目标签,第二设定数量小于第一设定数量;从获取到的目标类目标签中获取与该 源类目标签结构相似度最大的目标类目标签,并建立映射关系;或 针对每个源类目标签,获取与该源类目标签结构相似度最大的目标类目标签,建立映 射关系;或 获取字面相似度大于第一相似度阈值和/或语义相似度大于第二相似度阈值,且结构 相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和目标类目标签建立 映射关系;或 获取结构相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和目标 类目标签建立映射关系。6. 如权利要求1-5任一所述的方法,其特征在于,获取源类目标签的标签信息和目标类 目标签的标签信息之后,还包括: 对获取的源类目标签的标签信息和目标类目标签的标签信息进行分词操作,过滤掉无 用词。7. -种类目标签匹配映射装置,其特征在于,包括: 信息获取模块,用于获取源类目标签的标签信息和目标类目标签的标签信息; 第一确定模块,用于根据标签信息中包括的标签字符串,分别确定各源类目标签和各 目标类目标签的字面相似度; 第二确定模块,用于根据标签信息得到标签的向量化信息,根据标签的向量化信息和 标签信息中包括的标签路径信息,分别确定各源类目标签和各目标类目标签的语义相似 度; 第三确定模块,用于根据标签信息中包括的标签路径信息,结合字面相似度和语义相 似度,分别确定各源类目标签和各目标类目标签的结构相似度; 匹配映射模块,根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结 构相似度中的至少一个,选择出相似度符合设定条件的源类目标签和目标类目标签,建立 映射关系。8. 如权利要求7所述的装置,其特征在于,所述第三确定模块,具体用于: 根据源类目标签的标签路径信息和目标类目标签的标签路径信息,获取标签路径信息 中的父节点信息、子节点信息和兄弟节点信息;以及根据字面相似度和语义相似度确定基 础相似度; 基于父节点信息,根据基础相似度计算源类目标签和目标类目标签的祖先节点相似 度; 基于子节点信息,根据基础相似度计算源类目标签和目标类目标签的子孙节点相似 度; 基于兄弟节点信息,根据基础相似度计算源类目标签和目标类目标签的兄弟节点相似 度; 根据祖先节点相似度、子孙节点相似度和兄弟节点相似度,采用设定的加权规则或选 择规则,确定源类目标签和目标类目标签的结构相似度。9. 如权利要求7所述的装置,其特征在于,所述匹配映射模块,具体用于: 针对每个源类目标签,获取与该源类目标签字面相似度最大的第一设定数量的目标类 目标签;从获取到的目标类目标签中获取与该源类目标签语义相似度最大的第二设定数量 的目标类目标签,第二设定数量小于第一设定数量;从获取到的目标类目标签中获取与该 源类目标签结构相似度最大的目标类目标签,并建立映射关系;或 针对每个源类目标签,获取与该源类目标签结构相似度最大的目标类目标签,建立映 射关系;或 获取字面相似度大于第一相似度阈值和/或语义相似度大于第二相似度阈值,且结构 相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和目标类目标签建立 映射关系;或 获取结构相似度大于第三相似度阈值的标签对,为标签对中包括的源类目标签和目标 类目标签建立映射关系。10. 如权利要求7-9任一所述的方法,其特征在于,所述信息获取模块,还用于: 获取源类目标签的标签信息和目标类目标签的标签信息之后,对获取的源类目标签的 标签信息和目标类目标签的标签信息进行分词操作,过滤掉无用词。
【文档编号】G06F17/27GK105893349SQ201610195707
【公开日】2016年8月24日
【申请日】2016年3月31日
【发明人】方庆安, 范羽, 崔世起
【申请人】新浪网技术(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1