电子商务中的橙领推荐方法

文档序号:9547783阅读:348来源:国知局
电子商务中的橙领推荐方法
【技术领域】
[0001] 本发明属于信息技术领域,具体涉及一种电子商务中的橙领推荐方法。
【背景技术】
[0002] 随着Internet技术的高速发展,与社交网络一样,网络购物也得到了飞速发展, 且日益普及,已经成为人们购物行为的重要组成部分。同时,与网络购物息息相关的网购网 站也得到飞速的发展,而流量是网购网站的生存基础。为了扩源、导流、增加流量,网购网站 在社会网络中推荐自己的产品,这导致了社会化导购的产生和发展。社会化导购是指社会 个体在社会网络站点中推广产品的一种行为。
[0003] 社会化导购发展的同时诞生了橙领这个职业,橙领指的是活跃在淘宝网和文章等 SNS网络的一群人。他们有庞大的关注者或者粉丝群,通过在SNS发布关于购物消息的文章 来牟利。橙领每天的工作就是在获取商品信息之后,在社交网络例如新浪文章上发布文章 来推广该产品,而这些文章中通常包含商品的购物链接。当用户点击商品购物链接购买商 品时,橙领就会从商家那里获取一定报酬。
[0004] 社交网络飞速发展和网络购物日益普及导致了社会化导购的出现,也促使了橙领 这一职业的出现。但是由于橙领发展时间较短且每个橙领的成长模式不同,橙领自身以及 普通用户与橙领之间都存在亟待解决的问题,如何利用橙领进行产品推荐也是社会化购物 要解决的一个关键问题。通过对橙领相关技术的研究,能使我们更透彻地了解基于社会网 络的产品营销机制,也能有助于探索社会化导购的底层模式。目前尚未见针对橙领的社会 化导购相关研究。因此,研究一种电子商务中的橙领推荐方法,对网络购物的推广以及提高 网络购物的效率具有重要的意义,具有较高的学术价值和实际应用前景。

【发明内容】

[0005] 本发明的目的是提出一种由橙领定位算法、面向终端用户的橙领推荐算法和面向 商家的橙领推荐算法构成的电子商务中的橙领推荐方法。
[0006] 本发明的目的是这样实现的:
[0007] (1)输入在某社交网站上抓取文章数据,对数据中涉及到的用户进行分类并对橙 领进行定位;
[0008] (I. 1)对原始数据集划分为橙领数据集和非橙领数据集两部分:
[0009] (I. I. 1)将原始数据集初步分成两部分:橙领和非橙领两类数据集;
[0010] (I. 1. 2)然后分别将两类数据集中的文章分别按照文章的作者进行分类;
[0011] (I. 1. 3)采用迭代更新过程对橙领和非橙领数据集进行优化;每次迭代过程分 为两部分:第一部分,生成橙领数据集和非橙领数据集中每个类的加权关键字集合,使用 TFIDF技术提取加权关键字集,关键字在类中的权重为该字的tfidf值:
[0012] tfidf = tf >
[0013] 其中,tf是该关键字在类中的词频;idf是逆文档频率,为类别总数与出现该关键 字的类的总数的比值,再取对数值。
[0014] 第二部分,基于加权关键字集合,计算橙领数据集和非橙领数据集合中每条文章 分别归属于数据集中各个类的概率值,将文章归属到概率最大的类中,并从原类中删除,得 到一个更新后的橙领数据集和非橙领数据集;然后重复上述迭代过程直到收敛;文章 t归 属于橙领数据集中的第j类的概率值获得:
[0016] 其中,Icey1表示第i个关键字,1^表示文章 t中的所有关键词,Km表示橙领数据 集中第j类的文档中的所有关键词;依据朴素贝叶斯分类原理,将文章归属于文章 t归属于 橙领数据集中的第j类的概率值获得结果最大的类;计算一篇文章 t归属于非橙领数据集 中的第j类的概率值:
[0019] 其中,I1表示橙领数据集合1!。12,…},表示非橙领数据集合{u ncll, Uto12,…}。I!#表示橙领数据集中的用户类的所有文章,uMlk即为非橙领数据集中的用户 类的所有文章;
[0020] (1. 2)进行橙领识别,判断该用户类型,类型包括:橙领类、非橙领类、半橙领类:
[0021] 通过对划分后的数据集进行统计分析,得出橙领集合中橙领的购物文章最低比例 P1,非橙领购物文章最高比例β2;若用户的购物文章占总文章百分比在区间[0, β 2)上 时,判断当前用户为非橙领,在区间[β2, P1)判断当前用户为半橙领,区间[βρ?]上判断 当前用户为橙领;
[0022] (1. 3)如果用户被判定为是橙领类,对用户定位,返回其定位向量;
[0023] 首先根据产品类别将橙领的定位分成五类:衣服类,裤子类,鞋子类,裙子类和其 他类;将这五类数据集中每类数据都划分成用户子类,计算生成这五类数据集中所有子类 的加权关键字集,从而将每一类描述为一个加权关键字的二元组集合;
[0024] 将每个橙领的每篇文章进行向量定位特征;文章 t,它归属于衣服类,裤子类,鞋 子类,裙子类和其他类的概率分别为h,i2, i3, i4, i5,得到文章 t归属于五类数据集的特征 向量I = Q1, ;其中向量的每一维如下:
[0030] 其中Ptil表示文章 t归属于类u啲概率;
[0031] 对每个橙领用户所有的文章向量进行聚类,采用K-Means聚类算法,获取最大簇 的中心向量作为该橙领的定位向量;
[0032] (2)针对输入的某用户需求,面向用户进行橙领的推荐;
[0033] (2. 1)画出橙领网络、橙领间网络、橙领子网:
[0034] 橙领网络:由橙领、粉丝、橙领和其粉丝间的关注和被关注关系,以及橙领间的好 友关系构成的网络,橙色结点表示橙领,白色结点表示其粉丝;
[0035] 橙领间网络:只由橙领以及橙领之间的关系组成的网络,关系是直接好友联系或 有共同好友的间接联系;橙领间网络是通过从橙领网络中提取橙领结点和这些结点之间的 边得到的,若两个橙领之间不存边,但是连接了共同的某个粉丝节点,则在这两个橙领间添 加一条边;剔除网络中存在孤立的点;
[0036] 橙领子网络:橙领网络的子网,是单个橙领与其所有粉丝组成的网络。
[0037] (2. 2)计算橙领在橙领网络中的影响力;
[0038] (2. 2. 1)橙领在橙领子网中的影响力
[0039] 橙领子网是以橙领为中心的团体,且以橙领为中心呈星型结构发散,是一个天然 聚类结构,影响力取值为橙领每条文章能够影响粉丝数的平均值,即平均每条文章被转发 的次数;
[0040] (2. 2. 2)橙领在橙领间网络中的影响力
[0041] 使用独立级联模型计算橙领在橙领间网络中的影响力:社交网络中每个用户有两 种状态,激活状态和未激活状态,不存在中间态;用户只有处于激活态时才能影响与其有联 系的其他未激活的点,且如果被激活后将处于激活态不再被激活;每次激活过程作为一次 影响力传播,且该激活过程作为独立事件;用户a激活另外一个用户b的先验概率:
[0042] Pajb= l-(l-P〇)n
[0043] 其中,Pab表示用户a激活用户b的概率,η表示a激活用户b的历史次数;P。是介 于〇到1的一个基础概率值,取橙领间网络中b入度的倒数;
[0044] 计算用户在橙领间网络中的影响力:
[0046] 其中N(U)表示能被用户u影响的用户集合,即在橙领间网络中与u有边相连的用 户,Inf。表示u的影响力的基值,考虑到社交网络中不可能存在没有影响力的个体,所以能 保证影响力大于零。Inf u和Inf v表示用户u和V在橙领间网络中的影响力。
[0047] (2. 2. 3)计算橙领在橙领网络中的影响力
[0048] 橙领u在整个网络中的影响力计算公式为:
[0050] 其中,用户V在自身橙领子网影响力为Infpv;
[0051] (2. 3)计算橙领的自身定位和用户需求的匹配程度:
[0052] (2. 3. 1)用户需求向量化,即计算用户的产品需求分别与五类数据集的匹配值,构 成对应的向量 Iproduct -(i 1,",^3,"
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1