一种基于Logistic回归的多特征网络流行标签预测方法与流程

文档序号:12271578阅读:1308来源:国知局
本发明涉及数据挖掘与计算机
技术领域
:,特别是涉及一种基于Logistic回归的多特征网络流行标签预测方法。
背景技术
::网络标签(Tag)是互联网信息内容的一种组织形式,通常由一些与内容密切相关的关键词组成,它可以帮助人们方便地描述和分类内容,同时也便于信息的检索与分享。由于网络标签的便捷性,标签预测以及标签推荐近年来在众多网络平台上得到了广泛的应用,如问答网站StackExchange,照片分享网站Flickr,以及餐饮点评网站Yelp。采用合适的标签无论是对网站还是对用户而言都非常重要。对网站而言,合适的标签可以帮助网站对用户进行个性化推荐,增加用户的粘性和网站点击率;对用户而言,标签可以帮助用户快速定位到自己所需,避免浪费时间浏览无用信息。在标签选取中,如何选取潜在流行标签是十分关键的步骤,因为流行标签往往代表了大部分用户的需求。目前对信息进行标签选取的主要依据是信息与标签的文字相关程度以及信息发起者的自身属性等。但这样的选取存在各种弊端,主要表现在:1.忽略了标签的潜在流行趋势;2.忽略了标签与标签之间的相关性;3.冷门内容导致冷门标签,使得信息并不能被有效搜索到;4.只考虑到少数特征,使得部分标签的选取趋向与片面。因此,为了使用户在发布信息内容时更好地对标签进行选取,尽可能地选取潜在流行标签。本发明基于Logistic回归的多特征网络流行标签预测方法解决以下两个基本问题:(1)预测了标签的未来流行趋势;(2)应用大量的特征对标签的流行趋势进行定量刻画。技术实现要素:为了克服现有的标签选取系统忽略了标签潜在流行趋势及标签之间相关性、评价特征单一的不足,本发明提供了一种基于Logistic回归的多特征网络流行标签预测方法,不仅考虑到多个特征及标签之间的相关特征,同时也能更好地预测了标签的流行趋势。本发明解决其技术问题所采用的技术方案如下:一种基于Logistic回归的多特征网络流行标签预测方法,包括如下步骤:S1:数据预处理:收集网站的信息内容和标签数据,并将网站信息内容按时间升序排列,将比例为前α%的帖子视为标签网络稳定前的暂态数据,并删除这一部分暂态数据;从网站剩下的数据中选取前预设比例的数据作为训练数据;S2:构建标签Tag网络,对同一个信息内容中出现的Tag,使其两两之间形成连边,对所有信息遍历,得到有权无向网络的标签网络图GTag,网络的权重为两者共同出现的次数;S3:每个标签按照其在帖子中出现的频率降序排列,取前β%比例的Tag作为流行标签集合UPopularTag;S4:寻找非流行的标签集合UUnPopularTag,对每一个流行标签t∈UPopularTag,搜索标签t第一次出现的时间,并以此时间为中心,搜寻离该时间最近的,第一次出现的,同时不属于UPopularTag的标签作为非流行标签,组成对照的非流行标签集合UUnPopularTag;S5:对训练的样本标签集合U={UPopularTag,UUnPopularTag},提取其内Tag的网络特征,在有权无向网络GTag上,提取样本标签第一次出现连接的邻居节点度值、邻居节点度中心性;S6:对训练的样本标签集合U={UPopularTag,UUnPopularTag},提取其内Tag的提出者属性特征,具体包括Tag提出者提出该Tag时的以发布的信息内容的数量,信息内容的长度;S7:对训练的样本标签集合U={UPopularTag,UUnPopularTag},提取其内Tag的属性变动特征,具体包括该Tag提出后,5天内该Tag对应的帖子收到的答复数量;S8:采用Logistic多元回归,以集合U={UPopularTag,UUnPopularTag}中标签的特征作为训练数据,训练并构建标签分类器模型。进一步,所述步骤S1中,α%的确定方式为,当出现网站全部Tag标签数量的预设百分比时候,作为α%的截取点。其目的是确保标签网络不受到网站建立之初工作人员对网站标签调试造成的影响;再进一步,所述步骤S5中,采用公式(1)计算邻居i的节点度值其中,g表示网络的节点总数;如果节点i和j有连边,则xij=1,否则xij=0;采用公式(2)计算邻居i的节点度中心性本发明的有益效果为:考虑标签之间相关性,依据多特征对标签进行分类,对于预测潜在流行标签具有较高的精度。既有利于引导用户选择合理的标签,也有利于网站建设者提供更高质量的标签。附图说明图1为本发明实施例的一种基于Logistic回归的多特征标签分类方法的流程图。图2为本发明实施例的标签出现频率示意图。具体实施方式下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。参照图1和图2,一种基于Logistic回归的多特征网络流行标签预测方法,本发明使用问答网站StackExchange子网站Tex.Stackexchange.com官方公开的数据进行标签分类系统的建模分析,原始数据记录了每个帖子出现的时间,发帖人ID,帖子标签等信息。以本专利研究标签Tag为例,我们提取该标签第一次出现的时间,标签提出者ID,邻居标签ID等信息。本实施例中,一种基于Logistic回归的多特征标签分类方法,其具体步骤为:1)构建标签Tag网络:对发表过的帖子数据,做如下处理:1.1)遍历帖子数据,得到所有的Tag标签集合TI,I∈N,其中N表示标签的总数量。取数量为N×20%的标签作为网站标签稳定点所需的标签数量,其有益方式为防止网站建立之处,工作人员对网站内容的调试给模型带来噪声;1.2)将帖子按照时间顺序升序排列,再次遍历帖子数据,当得到不同标签的数量为N×20%时,记录此时遍历过的帖子数目为NInstablePosts,将此时的帖子发表时间视为网站标签稳定时间;1.3)确定其中NPosts为发表帖子的总数量;1.4)构建Tag网络:去除前α%的帖子,读取问答网站数据中前80%数据量的帖子作为训练数据。其中,Tag网络构建方式为:对同一个帖子中出现的Tag,使其两两之间形成连边。对所有信息遍历,得到有权无向网络的标签网络图GTag,网络的权重为两者共同出现的次数;2)获取流行标签集合UPopularTag:对发表过的帖子数据,做如下处理:2.1)遍历帖子数据,获取每个Tag在帖子中出现的频率;2.2)按照Tag出现频率降序排列,取前β%比例的Tag作为流行标签集合UPopularTag,这里,我们选择β%=5%;3)获取非流行标签集合UUnPopularTag,具体步骤为:3.1)对每一个标签Tag,遍历帖子,得到每一个标签的首次出现时间;3.2)对每一个流行标签t∈UPopularTag,搜索所有其余标签(其余标签不存在于流行标签内)与该标签的时间差,即其余与该标签的首次出现时间差ΔT;3.3)对该时间差ΔT进行升序排列,取ΔT最小的标签t'作为非流行标签,从而形成非流行标签集合UUnPopularTag4)提取Tag的网络特征,具体步骤为:4.1)对每一个标签t∈{UPopularTag,UUnPopularTag},采用公式(1)计算邻居i的节点度值其中,g表示网络的节点总数;如果节点i和j有连边,则xij=1,否则xij=0;4.2)采用公式(2)计算邻居i的节点度中心性4.3)归一化邻居节点度、邻居节点度中心性,归一化分母为邻居节点数值5)提取样本Tag提出者属性特征,具体步骤为:5.1)对每一个样本标签t∈{UPopularTag,UUnPopularTag},获得该标签首次提出时,提出者的ID号、标签首次出现时间;5.2)将帖子按照时间顺序升序排列,找出标签首次出现时间之前,该提出者ID总共的提问数量、答案数量,作为Tag提出者属性特征;6)提取样本Tag的属性变动特征,具体步骤为:对训练的样本标签集合U={UPopularTag,UUnPopularTag},在该Tag提出后,5天内该Tag共收到的答案数量;7)Logistic多元回归训练分类模型:将上述样本标签集合U={UPopularTag,UUnPopularTag},以及相对应的Tag的邻居节点度值、邻居节点中心度、Tag提出者提问数量、Tag提出者答案数量、Tag提出后一定时间收到的答案数量这5个特征作为输入,运用Logistics多元回归作为分类器,训练并构建标签分类器模型;如上所述为本发明在问答网站StackExchange子网站Tex.Stackexchange.com中的标签分类实施例介绍,通过构建网络的方式将标签之间的相关性纳入特征;通过考虑标签邻居特征、考虑标签提出者特征、标签时间演化特征等方式增加了标签分类的特征数据。通过训练模型最终得到标签是否流行的判定,对网站的标签推荐系统构建提供指导意义。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1