一种基于文字交互行为的用户特征建模方法

文档序号:9564574阅读:401来源:国知局
一种基于文字交互行为的用户特征建模方法
【技术领域】
[0001] 本发明涉及一种基于文字交互行为的用户特征建模方法,属于互联网技术领域。
【背景技术】
[0002] 现在是一个信息过剩的时代,每天用户接受的信息非常多,但是真正用户喜欢、需 要的很少。因此,出现了用户个性化推荐的技术方案,希望能向用户推荐其真正喜欢、需要 的内容。
[0003] 随着社会化网络的逐步发展,人们进行信息交流的方式也多种多样,例如:论坛、 微博、MSN、QQ等,已经深受大家的喜爱,它们为人们的沟通、信息交流提供了新的途径,是除 了手机、固话、电子邮件之外的又一种重要的信息交流方式。借助这些文字交互系统,可以 让人和人之间的交流成本大大降低,且提高了效率。目前,这些成熟的文字交互系统已得到 了迅速的发展壮大,几乎涵盖了人们生活的各个方面。但如何基于用户的文字交互行为来 挖掘用户的个性化特征,从而能利用这些特征实现个性化推荐等目标,还没有发现有相关 的解决方案。

【发明内容】

[0004] 有鉴于此,本发明的目的是提供一种基于文字交互行为的用户特征建模方法,能 基于用户的文字交互行为来挖掘用户的个性化特征。
[0005] 为了达到上述目的,本发明提供了一种基于文字交互行为的用户特征建模方法, 包括有:
[0006] 步骤一、采集每个用户发表的文字,将文字进行分词,并将每个分词转化成一个词 向量,再根据文字所包含的分词,将用户发表的文字转化成相应的文字向量,同时为每个用 户分别构建两个向量:喜好特征向量和自身特征向量;
[0007] 步骤二、根据用户之间的关注和交互记录,计算不同用户对其主动交互的其它用 户的关注强度,并为每个用户构建一个深度关注用户群,然后根据不同用户的深度关注用 户群,构建以所有用户为节点的用户深度关注网络图,所述用户深度关注网络图中,每个用 户各为一个节点,且存在有由每个用户节点指向其深度关注的用户节点的有向边,所述有 向边的权值为用户节点对其深度关注的用户的关注强度;
[0008] 步骤三、根据用户深度关注网络图中每个用户节点的有向边的权值,分别计算每 个用户的喜好特征向量和自身特征向量。
[0009] 与现有技术相比,本发明的有益效果是:本发明充分利用用户的发表文字、关注和 交互记录这些用户行为,计算出用于表征用户个性的喜好特征向量和自身特征向量,技术 方案简单易行,具有很高的易操作性和实用性;本发明进一步使用喜好特征向量和自身特 征向量这两个向量分别对每个用户的喜好和自身所具备的特征进行标识,通过多次迭代计 算来得到最终的用户向量,从而能对用户的喜好和自身特征进行精准把握;还可以基于本 发明中每个用户的喜好特征向量和自身特征向量,并通过向量之间的相似度计算,来实现 个性化推荐等目标。
【附图说明】
[0010] 图1是本发明一种基于文字交互行为的用户特征建模方法的流程图。
[0011] 图2是图1步骤二中,根据用户之间的关注和交互记录,计算任一用户Ua对其主 动交互的其它用户的关注强度,并为用户U a构建一个深度关注用户群的具体计算流程图。
[0012] 图3是用户深度关注网络图的一个实施例示意图。
[0013] 图4是图1步骤三中,根据用户深度关注网络图,分别计算每个用户的喜好特征向 量和自身特征向量的具体计算流程图。
【具体实施方式】
[0014] 为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步 的详细描述。
[0015] 如图1所示,本发明一种基于文字交互行为的用户特征建模方法,包括有:
[0016] 步骤一、采集每个用户发表的文字,将文字进行分词,并将每个分词转化成一个词 向量,再根据文字所包含的分词,将用户发表的文字转化成相应的文字向量,同时为每个用 户分别构建两个向量:喜好特征向量和自身特征向量;
[0017] 步骤二、根据用户之间的关注和交互记录,计算不同用户对其主动交互的其它用 户的关注强度,并为每个用户构建一个深度关注用户群,然后根据不同用户的深度关注用 户群,构建以所有用户为节点的用户深度关注网络图,所述用户深度关注网络图中,每个用 户各为一个节点,且存在有由每个用户节点指向其深度关注的用户节点的有向边,所述有 向边的权值为用户节点对其深度关注的用户的关注强度;
[0018] 步骤三、根据用户深度关注网络图中每个用户节点的有向边的权值,分别计算每 个用户的喜好特征向量和自身特征向量。
[0019] 所述步骤一中,可以采用现有的一些技术将文字分词、以及将分词转化成词向量, 如W〇rd2 VeC等。根据文字所包含的分词,将用户发表的文字转化成相应的文字向量的计算 公式可以如下:.
其中,X是文字向量,H1是文字所包含的第i个分词的个 数,W1是文字所包含的第i个分词对应的词向量,N是文字所包含的互不相同的分词总数, i是1到N之间的一个自然数。喜好特征向量、自身特征向量分别用于表示用户的喜好、或 自身所具有的特征,本发明可以根据两个向量的计算来挖掘用户的个性化特征。
[0020] 如图2所示,步骤二中,根据用户之间的关注和交互记录,计算任一用户Ua对其主 动交互的其它用户的关注强度,并为用户U a构建一个深度关注用户群,还可以进一步包括 有:
[0021] 步骤21、从用户Ua的关注和交互记录中,寻找用户U 3主动交互(例如评论、回复 或点赞等)的所有其他用户;
[0022] 步骤22、从用户Ua主动交互的所有其他用户中提取其中一个用户;
[0023] 步骤23、根据用户1]3对提取用户的关注时间、和每次主动交互 的发生时间距离当前日期的天数,计算用户比对提取用户的关注强度:
其中,U t是提取用户,s(ua,ut)是用 户Ua对提取用户Ut的关注强度,g(Ua,Ut)是用户U a对提取用户Ut的关注权重系数,
是用户Ua对提取用户Ut的主动交互强度,M j是用户Ua对提取用户Ut 的主动交互次数,k是主动交互系数,k是一个大于O的实数,其值根据实际需要而设定,
是用户Ua对提取用户U t的第m次主动交互的发生时间距离当前日期的天数,例 如当用户Ua对提取用户U t的第m次主动交互和当前日期是同一天时,则
m是 1到Mj之间的一个自然数;
[0024] g(Ua,Ut)的计算过程还可以进一步如下:判断用户Ua和提取用户U t所使用的文 字交互系统是否具有关注功能?如果是,则根据用户Ua对提取用户Ut的关注天数,计算
其中,P是关注权重调整系数,q是关注天数调 整系数,P、q分别是一个大于〇的实数,其值可以根据实际需要而设定,tg(Ua,U,)是用户U a 对提取用户Ut的关注天数;如果否,则g(Ua,Ut) = 1 ;
[0025] 步骤24、判断是否已提取完用户Ua主动交互的所有其他用户?如果是,则继续下 一步;如果否,则继续从用户比主动交互的所有其他用户中提取下一个用户,转向步骤23 ;
[0026] 步骤25、统计用户Ua对所有其他用户的主动交互次数之和:
其中,U,是用户U a主动交互的第j个用户,J是用户U a所有 主动交互的用户数,zj (Ua,Uj)是用户Ua对用户U j的主动交互次数,j是1到J之间的一个 自然数;
[0027] 步骤26、为用户Ua构建一个深度关注的用户群,初始化为空,并设定深度关注强度 sq为0,然后将用户Ua对其他用户的关注强度按照从大到小的次序对用
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1