基于语义结构特征分析的异构标签融合系统的制作方法

文档序号:14396353阅读:337来源:国知局

本发明属于大数据应用技术领域,特别涉及一种基于语义结构特征分析的异构标签融合系统,通过构建标签体系,为用户行为画像奠定基础。



背景技术:

随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生,奠定了大数据时代的基石,并为企业提供了足够的信息基础。目前,用户画像技术已经广泛应用于广告营销和客户流失分析等领域,比如推荐系统、购买预测等。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌。利用标签来表示用户兴趣的优势在于不仅能反映用户行为特征,还能反映资源语义特征,这一系列的刻画用户行为的标签构成了标签体系。

标签体系的结构、粒度从一定程度上决定了用户画像的准确性,利用不准确的标签词语描述用户行为,将会造成用户画像不准确。所以标签体系的构建是很重要的,目前构建标签体系的方法主要包括协同标签系统、本体结构构建、主题模型提取等,这些方法最主要的问题是忽略标签的结构,并且可能存在标签重复。对于协同标签系统构建的标签体系,没有明显的层次结构,并且存在重复的标签;对于本体方法构建的标签体系,主要是本体构建的方法本身并不成熟,需要大量人工的参与;对于主题模型提取方法构建的标签体系,相对层次结构不明显,并且存在粗粒度的问题,即标签太宽泛,无法准确描述用户行为特性。

为了更好的描述用户行为,需要建立更全面、结构化、细粒度的标签体系。



技术实现要素:

为了克服上述现有技术的缺点,本发明着眼于各个行业网站不同标签体系的整理和融合,提供了一种基于语义结构特征分析的异构标签融合系统,旨在构建细粒度、结构化的标签体系。从用户的行为数据中抽取描述用户行为的标签需要花费大量的人力物力,但是实际上已经存在比较完备的标签体系可供使用——网站的导航标签,它是专家给出的,并且结合众多网民的用户体验进行优化调整,很大程度上反映了用户的行为偏好。为了使标签更具有说服力和代表性,本发明主要分析了各个行业主流网站的导航标签体系,通过融合不同网站标签体系来构建标签体系,最终获得具有大众性、准确性、精炼简洁的标签体系。

为了实现上述目的,本发明采用的技术方案是:

一种基于语义结构特征分析的异构标签融合系统,从多个具有代表性网站获取其导航目录作为原始标签体系,在标签体系中,第一层级标签称作根标签,每个根标签及其所有子孙标签属于同一领域,组成一个标签树,定义一个标签树为待融合标签树,另一个标签树为基准标签树,待融合标签树中的标签为待融合标签,基准标签树中的标签为基准标签,将待融合标签和基准标签一一映射找到等同关系标签对和上下位关系标签对;若为等同关系标签对,则将待融合标签与基准标签合并成一个标签;若为上下位关系标签对,则将待融合标签作为基准标签的子标签插入到基准标签树中,最终实现将待融合标签树插入到基准标签树中,实现标签树的两两合并,生成合并后的标签体系。

所述原始标签体系包括标签和标签对应的网页文本,所述网页文本描述了标签语义,用于判断标签间的语义关系,其获取方式:获取链接url对应的网页文本以及网页中的新的链接,并爬取新的链接的文本。

所述原始标签体系中,将标签树分组,分组条件有两个:

第一、两个标签树的根标签完全相同;

第二、标签树的根标签不同,但标签树的子标签内容相似,即两个标签树中重合的子标签数量占两个标签树的总标签数的百分比达到某个阈值;

当两个标签树满足以上任一条件,则将其分为一组;

根据该判断条件将原始标签体系的所有标签树分组,每个分组内的标签内容相似,用分组内的根标签表示这个分组的内容,同时作为分组名称,其中,若分组内的根标签不同,则选择排序在第一个的标签树的根标签作为分组名称。

将分在同一组的标签树两两进行合并,即第一个标签树与第二个标签树进行合并,合并结果再与第三个标签树进行合并,依次合并下去直到分组内没有标签树为止。

所述标签树分组中,对标签树进行排序,使得排序靠前的标签树作为基准标签树,排序靠后的标签树为待融合标签树,具体规则如下:

对每个分组内的标签树,按照标签树的分层排序,层数越多,排位越靠前;将层数相同的标签树,比较非叶子标签的数目,数量越多,排位越靠前;若非叶子标签的数目相同,则比较叶子标签的数量,数量越多,排位越靠前。

标签间映射关系即待融合标签在基准标签树中的合并位置,所述将融合标签和基准标签一一映射的流程为:

从待融合标签树中任取一个标签,寻找其等同关系的基准标签,若找到,则取下一个待融合标签;否则寻找其上下位关系的基准标签,若找到,则取下一个待融合标签,否则待融合标签跟随父标签进行合并,然后取下一个待融合标签,直到确定待融合标签树中所有待融合标签的合并位置;

所述等同关系即待融合标签与基准标签含义相同,待融合标签与基准标签合并;所述上下位关系,待融合标签作为基准标签的下级标签插入;若待融合标签在基准标签树中不存在,则该待融合标签跟随其父标签合并到基准标签树,合并后该待融合标签与其父标签依然保持上下位关系。

将待融合标签插入到基准标签时,自底向上从待融合标签体系中取待融合标签,将待融合标签加入到基准标签树的合并位置,然后从待融合标签体系中删除该待融合标签,在标签树两两合并过程中,首先判断分组内的标签树是否全部合并,若否,则继续合并分组内其他标签树;若是,则判断是否还有分组的标签树没有进行合并,若是,则继续合并其他分组的标签树;否则合并完毕。

与现有技术相比,本发明的有益效果是:

1.标签体系具有大众性、准确性。

本发明构建一个相对比较完备的标签体系的方法系统,以多个知名网站上的已有标签体系作为基础输入,通过对其进行融合,得到一个普适的标签体系,更大程度上反映了用户喜好。由于网站的标签体系是通过指引用户找到感兴趣的站点,提供良好的用户体验,所以网站本身的标签体系不仅很好的描述了网站的信息,更在一定程度上适应用户的兴趣和习惯,使用这样具有一定代表性的标签作为构建标签体系的基础,可使最后形成的标签体系更准确且适应性广,描述用户爱好行为更准确简洁精炼。

2.标签体系具有全面、精炼、结构化、细粒度等优点。

现在标签体系只着眼于标签本身,而并没有针对不同标签体系进行融合,所以得到的标签体系并不完善。本发明构建的标签体系由于是合并多个网站的标签体系,包含的标签类别更多,描述用户喜好更加细致,从语义和内容的角度将标签体系进行融合,去除重复语义标签并将异构标签体系的结构统一,得到精炼、结构化、细粒度的标签体系。

3.本发明提出的标签合并方法是基于语义结构分析的,由于标签体系的结构、词语表示不同,提出通过识别标签间的映射关系——等同关系和上下位关系来合并标签体系,并提出基于标签对应的网页信息的等同关系和上下位关系的识别方法。

附图说明

图1为本发明的算法结构图。

图2为本发明的融合算法流程图。

图3为本发明中标签映射模块的算法流程图。

图4为本发明中标签映射模块等同关系映射方法的算法流程图。

图5为本发明中标签映射模块上下位关系映射方法的算法流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示,本发明算法的基本思想为将标签树两两进行合并,将一个标签树(定义为待融合标签树)插入到另一个标签树(定义为基准标签树)中,通过找到待融合标签(待融合标签树中的标签称为待融合标签)与基准标签(基准标签树中的标签称为基准标签)的映射关系——等同关系和上下位关系,将待融合标签插入到基准标签树中,最终生成合并后的标签体系。

首先获得多个具有代表性网站(比如新浪、网易)的标签体系,也就是网站的导航目录:网站的导航,为用户浏览网站提供便捷,一方面帮助用户快速、方便的获得他们想要的信息,另一方面导航反映了网站的主要内容。网站导航旨在提供清晰全面的分类标签,从而带来更好的用户体验,所以网站的标签体系从一定程度上分析了用户的兴趣偏好,并且这些标签简洁准确,汲取了众多人经验而得,相比于一个人的经验更具有广度和深度;

接下来将以上获取的标签体系进行融合,形成统一的标签体系,包括:标签合并顺序确定和标签关系映射两部分。标签合并顺序确定指确定哪个标签体系是待融合标签,哪个标签体系是基准标签;标签关系映射即标签合并位置识别,通过将两个标签体系的标签一一映射,找到等同关系和上下位关系标签对,根据标签间的映射关系,将待融合标签插入到基准标签,等同标签在合并时是将待融合标签与基准标签合并成一个标签;上下位标签对合并时是将待融合标签作为基准标签的子标签插入到基准标签树中。

本发明系统主要包括三模块:数据处理、标签映射、标签合并。本系统的输入为网站的导航标签体系,输出为融合后的标签体系。

数据处理:

数据处理模块是系统的数据处理模型,包括获取网站导航标签体系以及标签对应的网页文本等基本数据,以及决定标签体系的合并顺序两部分。

标签映射:

标签映射模块是系统的核心模块,决定标签体系如何合并。包括等同关系标签映射和上下位关系标签映射两部分。

标签合并:

标签合并模块是系统的输出模块,根据标签映射模型得到的标签对信息,将标签体系进行合并,最终得到去除重复、结构统一的融合标签体系。

如图2所示为异构标签融合系统的详细合并流程图,下面将结合图1和2介绍本发明的详细步骤。

步骤1:获取原始标签体系以及网页文本;

首先通过网络爬虫等方法获取网站的导航标签,作为原始标签,例如门户网站中的新浪网、搜狐网等;金融网站中的中金在线网、东方财富网等;电商网站中的天猫、苏宁易购等。由于标签体系是由词语构成的,词语包含的语义比较少,为了补充标签的语义,需要获取标签对应的网页文本,通过网络爬虫方法,获取标签网页文本,具体方法是:标签在网站导航栏中存在相应的链接url,获取链接对应的网页文本以及网页中的新的链接(通过域名过滤不属于该网站或者该标签的网页url)并爬取新的链接的文本,这样可以获取描述标签语义的网页文本,用于判断标签间的语义关系。

步骤2:标签树分组;

本步骤将满足分组条件的标签树分组,以便后续步骤将分组内的标签树两两进行合并,最终得到合并后的标签体系。标签树的分组条件有两个:第一、当两个标签树的根标签完全相同时,这两个标签树的内容是相似的,所以能够分为一组;第二、当标签树的根标签不同时,如果标签树的子标签内容相似,即两个标签树中重合的子标签数量占两个标签树的总标签数的百分比达到某个阈值(阈值根据统计分析方法设定),则认为两个标签树的内容也相似,能够分为一组。以上两个条件只要满足一个条件,则认为两个标签树可以分为一组。根据上述判断条件将原始标签树的所有标签树分组,每个分组内的标签内容相似,可以用分组内的根标签(分组内根标签基本都是相同的,如果不同选择排序在第一个的标签树的根标签作为分组名)表示这个分组的内容,同时作为分组名称。

步骤3:标签树分组组内标签树的优先排序;

从以上分组中依次取分组,将分在同一组的标签树两两进行合并(即第一个标签树与第二个标签树进行合并,合并结果再与第三个标签树进行合并,依次合并下去直到分组内没有标签树为止)。当两个标签树合并时,其中一个作为基准标签树,另一个作为待融合标签树,将待融合标签树插入到基准标签树中,合并后的标签树的结构与基准标签树相似。所以,基准标签树的结构越分明,合并后的标签树也会结构越分明。在合并的过程中,由于每个分组中标签树的数量可能超过两个,所以需要对标签树进行排序,使得排序靠前的标签树作为基准标签树,排序靠后的标签树为待融合标签树。对每个分组内的标签树根据其结构层次数量和包含标签的数量进行排序,以决定标签树的合并顺序。标签树排序的具体做法为:按照标签树的分层排序,层数越多,说明标签的划分结构粒度越细,更完善,排位应越靠前;将层数相同的标签树再进行排序,排序方法为:比较非叶子标签的数目,数量越多,说明标签的划分粒度越细,结构更细致,排位应越靠前;若非叶子标签的数目相同,则比较叶子标签的数量,数量越多,说明标签树描述的子领域越广,结构越细致,排位越靠前。

步骤4:任取一个分组;

任意取某一个根标签分组,为下一步合并标签树做准备。

步骤5:按序取基准标签树和待融合标签树;

按照以上分组内标签树的排列顺序,依次取两个标签树进行合并。排序靠前的标签树作为基准标签树,排序在后的标签树作为待融合标签树。

步骤6:识别待融合标签和基准标签间的映射关系——等同关系和上下位

关系;

根据等同标签映射方法和上下位标签映射方法判断标签间的映射关系,即待融合标签在基准标签树中的合并位置。标签合并的位置包括三种情况:一种是等同关系,即待融合标签与基准标签含义相同,那么待融合标签其实是与基准标签合并了;第二种是待融合标签与基准标签是上下位关系,即待融合标签作为基准标签的下级标签插入;第三种是跟随其父标签合并,有些待融合标签是在基准标签树中不存在的,这种时候这个待融合标签就跟随其父标签合并到基准标签树中,合并后这个待融合标签与其父标签依然保持上下位关系。故如图3所示,标签合并位置识别方法为:从待融合标签树中任取一个标签,寻找其等同关系的基准标签,若找到了,则取下一个待融合标签;否则寻找其上下位关系的基准标签,若找到了,则取下一个待融合标签,否则待融合标签跟随父标签进行合并,然后取下一个待融合标签,直到确定待融合标签树中所有标签的合并位置。下面详细介绍等同关系映射方法和上下位关系映射方法。

等同关系映射方法

如图4所示为等同关系识别方法的流程图,标签的等同关系识别方法有两种:一种根据标签及其路径信息(即标签到根标签的路径标签)判断两个标签是否是等同关系;另一种为根据标签的网页文本内容,提取网页的向量表示,即为标签的向量表示,计算两个标签向量的cosine相似度,来判断两个标签是否为等同关系。在判断待融合标签的等同关系标签时,首先使用第一种方法确定是否能够找到相应的标签,若能找到,则判断下一个待融合标签,否则使用第二个方法寻找等同关系标签,若能找到,则判断下一个待融合标签,否则寻找该标签是否存在上下位关系标签。下面详细介绍这两种方法:

方法一:比较两个标签本身的语义相似性,同时也要保证其上级标签的语义相似(或者说不冲突)。具体方法为:

1)任取一个基准标签;

2)比较待融合标签与基准标签是否“相同”,若相同,则继续,否则比较待融合标签与下一个基准标签,转1);

判断两个标签是否“相同”的方法:有两个标签——待融合标签a和基准标签b,标签a和b分别由n和m个字组成,它们分别表示为a1a2…an和b1b2…bm,其中ai,bj(i=1,2…n;j=1,2…m)分别表示组成标签a和b的字。逐个比较标签a和b的字,标签a中的字有a个能在标签b中找到,则标签a和b的相似度为a/n,若这个相似度大于0.5,则这两个标签是“相同”的,否则,不“相同”。

3)最后比较标签的上级标签是否相同。将待融合标签的父标签、祖父标签和基准标签的父标签、祖父标签两两进行比较,存在一对“相同”时,待融合标签与基准标签是等同关系,否则,比较待融合标签与下一个基准标签,转1);

4)若没有找到等同关系的基准标签,则使用方法二继续寻找。

方法二:利用标签对应的网页信息表示标签,计算网页文本的向量表示,从而表示标签,通过计算两个标签向量的cosine相似度判断两个标签的等同关系。具体方法为:

1)根据标签对应的网页文本获得向量表示,方法为:tf-idf。输入为标签对应的所有网页文本(看做是一个文档,并且已经分词),输出为各个标签的向量表示。首先根据所有的文档构建词典(假设有n个词,那么得到的表示向量维度为n),然后计算词典中每个词在这个标签文档中的tf-dif值,这些tf-idf值构成这个标签的向量表示,维度是n。一般n的数值比较大,会进行降维,方法为lda。最后得到每个标签m维的向量表示。

2)计算待融合标签与每个基准标签的向量cosine相似度,待融合标签的向量表示α与基准标签的向量表示β的cosine相似度,即

3)根据相似度从大到小对基准标签进行排序,若最大相似度大于阈值(根据实验设定),则待融合标签与这个基准标签为等同关系。

上下位关系映射方法

上下位关系是描述两个词语之间包含与被包含的语义关系,下位词是上位词的一个特殊实例或者一个子类。如图5所示是上位关系映射方法流程图,上下位标签识别方法包括两种:一种为通过判断待融合标签对应的网页标题中包含基准标签的比例,判断上下位关系,即待融合标签是否为基准标签的下位词;另一种为基于标签对应的网页文本学习得到标签的向量,通过判断待融合标签与基准标签的子标签相关性,判断上下位关系。在识别时,首先会使用第一种方法,若不能找到则使用第二种方法,若都不能找到,则该待融合标签跟随其父标签进行合并。下面详细介绍两种方法。

方法一:根据网页标题包含比例判断上下位关系。具体方法为:

1)对所有的基准标签计算待融合标签网页title包含基准标签的比例:判断待融合标签a与基准标签b是否为上下位关系,已知待融合标签的n个网页title,若网页title中有m个title包含基准标签b,则包含比例为

2)根据包含比例从大到小进行排序,当最大的包含比例大于阈值时,则待融合标签与这个基准标签是上下位关系,否则使用方法二继续查找。

方法二:根据子标签的相关性判断上下位关系。具体方法为:

1)计算待融合标签与所有基准标签(具有子标签的)的子标签相关性:已知待融合标签a与基准标签b,以及子标签b1,b2…bn的向量表示,分别计算标签a与标签b,以及b1,b2…bn的cosine相似度c,c1,c2…cn,标签a与标签b的相关性为

2)按照相关性从大到小进行排序,若最大的相关性大于阈值,则待融合标签与这个基准标签为上下位关系,否则该待融合标签将跟随其父标签进行合并。

步骤7:根据标签间的映射关系,合并标签树;

根据上一步骤计算出的标签间映射关系,将待融合标签插入到基准标签,等同标签在合并时是将待融合标签与基准标签合并成一个标签;上下位标签对合并时是将待融合标签作为基准标签的子标签插入到基准标签树中。具体过程如下:自底向上从待融合标签体系中取待融合标签,将待融合标签加入到上一步骤计算好的基准标签树的合并位置,然后从待融合标签体系中删除该待融合标签。

步骤8:判断分组中的树是否合并完毕;

判断分组内的标签树是否全部合并,若是,则继续;否则转步骤5,继续合并分组内其他标签树。

步骤9:判断是否存在未合并的根标签分组;

判断是否还有分组的标签树没有进行合并,若是,则转步骤4,继续合并其他分组的标签树;否则继续。

步骤10:合并完毕。

经过以上步骤,获得最终的标签体系,这个标签体系中的标签来自流行网站的命名,具有精准的特点,同时融合了多个流行网站的标签体系,具有全面的特点,经过上述合并,重复的标签也被剔除,具有精简的特点,并且标签体系是结构化的、细粒度的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1