一种媒体搜索词推送方法和装置与流程

文档序号:14990611发布日期:2018-07-20 22:08阅读:194来源:国知局

本发明涉及一种互联网技术领域,尤其涉及一种媒体搜索词推送方法和装置。



背景技术:

随着互联网技术的发展,人们越来越多的通过互联网获取信息,而为了缩短用户在使用各类媒体应用(例如网络音乐应用、网络新闻应用、网络视频应用或浏览器应用等)获取对应的媒体信息的过程,媒体应用往往会在搜索入口提供一些热搜词推荐,而这些热搜词通常是近一段时间内用户通过该媒体应用进行搜索的高频搜索词,未能针对当前使用者的个人习惯、偏好等推荐个性化的热搜词,导致推荐的热搜词的被使用率很低,未能有效提高用户通过该媒体应用的获取信息效率。



技术实现要素:

有鉴于此,本发明实施例提供一种媒体搜索词推送方法和装置,可基于用户的互联网用户行为数据向用户推荐媒体搜索词,可有效提高用户通过该媒体应用的获取信息效率。

为了解决上述技术问题,本发明实施例提供了一种媒体搜索词推送方法,所述方法包括:

获取第一媒体应用的当前用户的用户标识信息;

根据所述用户标识信息,获取所述用户的关联用户使用第二媒体应用的用户行为数据,所述用户行为数据包括所述关联用户使用第二媒体应用的用户行为对应的至少一个媒体信息;

根据所述至少一个媒体信息中包含的分词的分词频率统计数据,从所述至少一个媒体信息中包含的分词中提取得到至少一个媒体关键词;

根据所述至少一个媒体关键词向所述第一媒体应用推送媒体搜索词。

相应地,本发明实施例还提供了一种媒体搜索词推送装置,所述装置包括:

用户标识获取模块,用于获取第一媒体应用的当前用户的用户标识信息;

行为数据获取模块,用于根据所述用户标识信息,获取所述用户的关联用户使用第二媒体应用的用户行为数据,所述用户行为数据包括所述关联用户使用第二媒体应用的用户行为对应的至少一个媒体信息;

关键词提取模块,用于根据所述至少一个媒体信息中包含的分词的分词频率统计数据,从所述至少一个媒体信息中包含的分词中提取得到至少一个媒体关键词;

搜索词推送模块,用于根据所述至少一个媒体关键词向所述第一媒体应用推送媒体搜索词。

本发明实施例中的媒体搜索词推送装置通过分析关联用户在第二媒体应用上的用户行为数据,从其用户行为对应的媒体信息中提取得到媒体搜索词,并将所述媒体搜索词发送至所述第一媒体应用,由于这些媒体搜索词是该用户在另一媒体应用上较为关注的媒体关键词,因此也有较大可能性作为用户在第一媒体应用上使用的媒体搜索词,从而可有效提高用户通过该媒体应用的获取信息效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种媒体搜索词推送方法的实施场景结构示意图;

图2是本发明实施例中的一种媒体搜索词推送方法的实施流程示意图;

图3是本发明另一实施例中的媒体搜索词推送方法的实施场景结构示意图;

图4是本发明另一实施例中的一种媒体搜索词推送方法的实施流程示意图;

图5是本发明实施例中提取媒体关键词的流程示意图;

图6是本发明实施例中的媒体搜索词推送装置的结构示意图;

图7是本发明一实施例中关键词提取模块的结构示意图;

图8是本发明一实施例中搜索词推送模块的结构示意图;

图9是本发明实施例的媒体搜索词推送装置的一个硬件组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例中的媒体搜索词推送方法在不作出特别说明的情况下,由媒体搜索词推送装置实施,所述媒体应用可以为用于从互联网获取媒体信息的互联网客户端,可以例如网络音乐应用、网络新闻应用、网络视频应用或浏览器应用等,本发明实施例中的第一媒体应用和第二媒体应用可以不同功能的互联网客户端,例如第一媒体应用为网络音乐应用,那么第二媒体应用可以为网络新闻应用、网络视频应用或浏览器应用等,若第一媒体应用为网络视频应用,那么第二媒体应用可以为网络音乐应用、网络新闻应用或浏览器应用等,以此类推。本发明实施例中的第一媒体应用和第二媒体应用可以为用户在同一用户终端上使用的不同功能的互联网应用,也可以为用户在不同用户终端上使用的不同功能的互联网应用,分别针对的是不同的实施场景

图1是本发明实施例中的一种媒体搜索词推送方法的实施场景结构示意图,如图所示在本实施例中媒体搜索词推送装置可以实现于第一媒体应用的后台服务器中,而本实施例中的媒体搜索词推送方法流程可以如图2所示包括:

s101,媒体搜索词推送装置获取第一媒体应用的当前用户的用户标识信息。

具体的,可以是用户终端中的第一媒体应用在启动后将当前用户的用户标识信息发送至后台服务器的媒体搜索词推送装置,可以是第一媒体应用主动上报,也可以是媒体搜索词推送装置主动从第一媒体应用拉取,所述用户标识信息可以是用户登录账号或绑定的手机号码、邮箱账号等。

s102-s103,媒体搜索词推送装置根据所述用户标识信息从所述第二媒体的后台服务器获取所述用户的关联用户使用第二媒体应用的用户行为数据,所述用户行为数据包括所述关联用户使用第二媒体应用的用户行为对应的至少一个媒体信息。

在可选实施例中,第二媒体应用的后台服务器可以将用户使用第二媒体应用的用户行为数据共享给第一媒体应用的后台服务器,从而媒体搜索词推送装置可以根据所述当前用户的用户标识信息获取到该用户的关联用户使用第二媒体应用的用户行为数据。在另一可选实施方式中,媒体搜索词推送装置根据所述当前用户的用户标识信息,请求第二媒体应用的后台服务器提供该用户的关联用户的用户行为数据,例如可以通过第二媒体应用的后台服务器提供的第三方程序提供接口或双方建立的合作协议平台,例如即时通讯服务开放平台、sns开放平台等,从第二媒体应用的后台服务器获取该用户的关联用户的用户行为数据,在该实施方式下媒体搜索词推送装置只需提供所述当前用户的用户标识信息,例如openid,第二媒体应用的后台服务器即可向媒体搜索词推送装置返回所述当前用户的关联用户的用户行为数据。

本发明实施例中提及的当前用户以及当前用户的关联用户,可以分别为同一实际使用者在第一媒体应用的用户身份和在第二媒体应用的用户身份,其可以通过用户账号代表,当前用户以及当前用户的关联用户使用的用户账号可以相同,也可以不同,但均需要预先在后台服务器建立两个用户身份之间的关联关系,例如小明在使用第一媒体应用的用户登录账号是abc2005,小明在使用第二媒体应用的用户登录账号是bcd2005,而小明可以在第二媒体应用创建bcd2005账号的时候就请求建立与第一媒体应用的用户登录账号abc2005之间的关联关系,也可以是后续使用第二媒体应用过程中提交的建立这两个用户登录账号之间的关联关系的请求,第二媒体应用的后台服务器在接收到请求后向第一媒体应用的后台服务器发送关联确认询问消息,并在接收到使用abc2005的用户登录账号的第一媒体应用发送的关联确定消息后,建立这两个用户账号之间的关联关系;小明请求第一媒体应用的后台服务器建立这两个用户登录账号之间的关联关系的方式与此同理,本发明实施例中不再赘述。

在可选实施例中,媒体搜索词推送装置请求第二媒体应用的后台服务器提供该用户的关联用户的用户行为数据时,可以需要经过第二媒体应用的关联用户的用户账号的授权,在用户通过第二媒体应用向其后台服务器发起针对第一媒体应用的授权后第二媒体应用的后台服务器将一个授权令牌token下发给第一媒体应用,媒体搜索词推送装置在需要时可以将从第一媒体应用获取到的token发送至第二媒体应用的后台服务器,第二媒体应用的后台服务器根据该token将所述第一媒体应用当前用户的关联用户的用户行为数据返回给媒体搜索词推送装置,该授权token可以设置一个有效期,在有效期内不需重复进行授权过程。

所述用户行为数据可以包括所述关联用户在使用第二媒体应用的浏览行为、播放行为、收藏行为、分享行为、下载行为或评价行为等,每种行为均可以针对某一个媒体信息,即用户行为数据中每个用户行为对应的媒体信息,本发明实施例中的媒体搜索词推送装置通过获取到所述关联用户使用第二媒体应用的用户行为对应的媒体信息可以对该用户的行为习惯、喜好或关注类型进行分析,以便针对性的在第一媒体应用向用户推荐相应的媒体搜索词。所述用户行为数据可以包括所述关联用户使用第二媒体应用的所有历史用户行为记录,也可以是该关联用户最近一段时间内(例如近一个月或近一周等)的用户行为记录。

s104,媒体搜索词推送装置根据所述至少一个媒体信息中包含的分词的分词频率统计数据,从所述至少一个媒体信息中包含的分词中提取得到至少一个媒体关键词。

即媒体搜索词推送装置通过分析获取到的所述关联用户使用第二媒体应用的用户行为对应的媒体信息,从中提取媒体关键词。可以进一步拆分为以下几个环节:

1)媒体搜索词推送装置分别对获取到的媒体信息进行文本分词处理,例如可以采用全模式分词或搜索分词等文本分词处理方式,得到所述多个媒体信息中包含的文本分词。此外在分词处理之前还可以对媒体信息内容进行预处理,例如乱码过滤、标点过滤、汉字繁简转换、分词、停用词过滤等。

在可选实施例中,媒体搜索词推送装置在对获取到的媒体信息进行文本分词处理之前,还可以先对获取到的媒体信息进行相关性筛选,具体可以为根据预设的第一媒体应用的关联分词集合,在所述至少一个媒体信息中确定得到至少一个关联媒体信息,所述关联媒体信息中包含至少一个所述第一媒体应用的关联分词,从而将不包含所述关联分词的媒体信息作为不关联媒体信息排除,可以有效降低后续的分析计算量。所述预设的第一媒体应用的关联分词集合可以为第一媒体应用所处领域的词汇集合,以第一媒体应用为网络音乐应用为例,所述预设的第一媒体应用的关联分词集合可以包括歌曲名称集合、歌手名称集合、专辑名称集合、歌曲类型名称集合等。进一步可选的,在对媒体信息进行相关性筛选时,可以根据预设的第一媒体应用的关联分词集合仅针对媒体信息中的部分内容进行分词匹配,例如只判断每个媒体信息中的标题、摘要或关键词标签中是否包含所述第一媒体应用的关联分词,而不用再判断媒体信息中的其他部分,可以大幅减少相关性筛选的信息处理量。

2)获取媒体信息中包含的各个分词的分词频率统计数据。具体的,所述各个分词的分词频率统计数据可以包括词频、文本频率、文本数或逆文本频率等。分别可以表示所述各个分词在获取到的媒体信息中出现的频率、次数或者意义程度(例如“的”,“了”,“是”、“可以”等虽然出现再多,也不应该被认为是关键词)。

3)根据所述多个媒体信息中包含的各个分词的分词频率统计数据,从中提取媒体关键词。

在可选实施例中,可以通过tf-idf(termfrequency-inversedocumentfrequency,词频-逆文档频率)算法或textrank文档排名算法,从获取到的媒体信息包含的分词中提取至少一个媒体关键词。

以tf-idf算法为例,词频tf可以为某一个给定的分词在所述某个媒体信息中出现的次数除以根据所述多个媒体信息处理得到的分词总数,其中ni,j是该词在文档dj中的出现次数,而分母则是在文档dj中所有分词特征的总数。而逆文档频率idf,可以由所述多个媒体信息的总数量除以包含某个分词的媒体信息的数量,再将得到的商取对数得到,即:其中|d|为所述多个媒体信息的总数,|{j:ti∈dj}|为包含词语ti的媒体信息的数量(即nk,j≠0的媒体信息的数目)。用以评估一个词对于一个文档或者一个语料库中的一个领域文档集的重要程度。

tfi-dfi,j=tfi,j×idfi,通常某一特定文档内的高词语频率,以及该词语在整个文档集合中的低文档频率,可以产生出高权重的tf-idf。因此,通过过滤tf-idf较低的词语,可以过滤掉常见的词语,保留重要的词语。在本发明实施例中,可以将每个媒体信息的分词中,tf-idf最高的预设数量的(例如3个、5个或10个)分词确定为媒体关键词。

同样的可以通过textrank算法将某个媒体信息中出现的分词的重要性进行排序,并将重要性最高的预设数量的分词确定为媒体关键词。

在可选实施例中,在经过上述根据所述多个媒体信息中包含的各个分词的分词频率统计数据,通过tf-idf算法或textrank文档排名算法提取得到权重数值或排名最高的若干分词作为权重关键词后,媒体搜索词推送装置还可以对得到的权重关键词进行相关性筛选,具体可以为根据预设的第一媒体应用的关联分词集合,在所述至少一个权重关键词中确定得到至少一个媒体关键词,所述媒体关键词为第一媒体应用的关联分词集合中的关联分词,从而将是所述关联分词的权重关键词作为不关联分词排除,可以进一步聚焦于用户在使用第一媒体应用时可能会用到的搜索词。

s105,媒体搜索词推送装置根据所述至少一个媒体关键词向所述第一媒体应用推送媒体搜索词。

本实施例中,媒体搜索词推送装置将全部或部分确定得到的媒体关键词作为所述媒体搜索词发送至所述第一媒体应用,所述第一媒体应用将所述媒体搜索词显示在搜索栏中提供用户快速输入搜索词,由于这些媒体搜索词是该用户在另一媒体应用上较为关注的媒体关键词,因此也有较大可能性作为用户在第一媒体应用上使用的媒体搜索词,从而可有效提高用户通过该媒体应用的获取信息效率。

进而在可选实施例中,在提取得到至少一个媒体关键词后,媒体搜索词推送装置可以获取多个用户在所述第一媒体应用使用所述至少一个媒体关键词的搜索行为统计数据,进而根据所述至少一个媒体关键词在所述至少一个媒体信息中的分词频率统计数据和所述至少一个媒体关键词在所述第一媒体应用的搜索行为统计数据,在所述至少一个媒体关键词中确定媒体搜索词,从而向所述第一媒体应用推送所述确定得到的媒体搜索词。根据所述媒体关键词在所述至少一个媒体信息中的分词频率统计数据可以分析得到用户对某个媒体关键词的关注程度或感兴趣程度,而根据媒体关键词在所述第一媒体应用的搜索行为统计数据可以得到该媒体关键词在第一媒体应用的搜索热度,综合这两方面可以计算得到某个媒体关键词的推荐分值,进而将推荐分值最高的若干个媒体关键词作为媒体搜索词推送给第一媒体应用。例如基于如下公式计算推荐分值:recommscore=keyscore(i)*qv(i)/qv_max,其中keyscore(i)为第i个媒体关键词在所述至少一个媒体信息中的分词频率统计数据确定的权重分值,例如为tf-idf值,qv(i)指第i个媒体关键词在第一媒体应用一段时间内的被搜索次数;qv_max是所有qv的最大搜索次数,此处qv_max用来做归一化,为了避免推荐分值的数值过高。

图3是本发明另一实施例中的媒体搜索词推送方法的实施场景结构示意图,在本实施例中媒体搜索词推送装置、第一媒体应用以及第二媒体应用均运行于同一用户终端中,如图所示本实施例中的媒体搜索词推送方法流程可以如图4中所示包括:

s401,媒体搜索词推送装置获取第一媒体应用的当前用户的用户标识信息。

s402,根据所述用户标识信息,获取所述用户的关联用户使用第二媒体应用的用户行为数据,所述用户行为数据包括所述关联用户使用第二媒体应用的用户行为对应的至少一个媒体信息。

区别于前文图1的实施场景结构,本实施例中的媒体搜索词推送装置可以从同一用户终端中的第二媒体应用获取所述用户的关联用户使用第二媒体应用的用户行为数据,所述关联用户使用第二媒体应用的用户行为数据可以保存在第二媒体应用本地指定目录,也可以记录在第二媒体应用的后台服务器,由第二媒体应用从其后台服务器获取到后交由媒体搜索词推送装置。

本发明实施例中提及的当前用户以及当前用户的关联用户,可以分别为同一实际使用者在第一媒体应用的用户身份和在第二媒体应用的用户身份,其可以通过用户账号代表,当前用户以及当前用户的关联用户使用的用户账号可以相同,也可以不同,可以预先在其中任一媒体应用的后台服务器建立两个用户身份之间的关联关系,例如小明在使用第一媒体应用的用户登录账号是abc2005,小明在使用第二媒体应用的用户登录账号是bcd2005,而小明可以在第二媒体应用创建bcd2005账号的时候就请求建立与第一媒体应用的用户登录账号abc2005之间的关联关系,也可以是后续使用第二媒体应用过程中提交的建立这两个用户登录账号之间的关联关系的请求,第二媒体应用的后台服务器在接收到请求后向第一媒体应用的后台服务器发送关联确认询问消息,并在接收到使用abc2005的用户登录账号的第一媒体应用发送的关联确定消息后,建立这两个用户账号之间的关联关系;小明请求第一媒体应用的后台服务器建立这两个用户登录账号之间的关联关系的方式与此同理,本发明实施例中不再赘述。在本实施例中,第一媒体应用和第二媒体应用之间可以为相互触发启动的关系,或由同一第三方应用触发启动,即用户在使用第一媒体应用时触发启动第二媒体应用,或用户在使用第二媒体应用时触发启动第一媒体应用,那么第一媒体应用当前的用户账号与第二媒体应用当前的用户账号显然就是关联的,同理若用户在使用第三应用(例如为即时通讯应用或sns应用)时触发启动了第一媒体应用和第二媒体应用,那么第一媒体应用当前的用户账号与第二媒体应用当前的用户账号均与第三应用的用户账号是关联的,显然第一媒体应用当前的用户账号与第二媒体应用当前的用户账号之间也是关联的。

在其他可选实施例中,媒体搜索词推送装置可以将第一媒体应用的当前用户的用户标识信息发送给第二媒体应用,由第二媒体应用查找所述用户标识信息对应的关联用户,并将查找到的关联用户的用户行为数据发送给媒体搜索词推送装置。在另一可选实施例中,也可以是媒体搜索词推送装置根据第一媒体应用的当前用户的用户标识信息从第一媒体应用获取其关联用户的信息,从而请求第二媒体应用提供该关联用户的用户行为数据。

进而在其他实施场景结构下,若媒体搜索词推送装置不与第一媒体应用以及第二媒体应用运行在同一用户终端,例如第一媒体应用和第二媒体应用运行在同一用户终端,而媒体搜索词推送装置实现在第一媒体应用的后台服务器,那么媒体搜索词推送装置也可以通过第一媒体应用与第二媒体应用之间的进程间通信,由第一媒体应用向第二媒体应用请求获取当前用户的关联用户使用第二媒体应用的用户行为数据。

s403,根据所述至少一个媒体信息中包含的分词的分词频率统计数据,从所述至少一个媒体信息中包含的分词中提取得到至少一个媒体关键词。

本实施例中的s403如图5所示进一步可以包括:

s4031,根据预设的所述第一媒体应用的关联分词集合,在所述至少一个媒体信息中确定得到至少一个关联媒体信息,所述关联媒体信息中包含至少一个所述第一媒体应用的关联分词。

所述预设的第一媒体应用的关联分词集合可以为第一媒体应用所处领域的词汇集合,以第一媒体应用为网络音乐应用为例,所述预设的第一媒体应用的关联分词集合可以包括歌曲名称集合、歌手名称集合、专辑名称集合、歌曲类型名称集合等。

s4032,根据所述至少一个关联媒体信息中包含的分词的分词频率统计数据,从所述至少一个关联媒体信息中包含的分词中提取得到至少一个权重关键词。提取权重关键词的方式可以参考前文实施例中的s104,本实施例中不再赘述。

s4033,根据预设的所述第一媒体应用的关联分词集合,在所述至少一个权重关键词中确定得到至少一个媒体关键词,所述媒体关键词为第一媒体应用的关联分词集合中的关联分词。

s404,获取多个用户在所述第一媒体应用使用所述至少一个媒体关键词的搜索行为统计数据。

在本实施例的实施场景结构下,媒体搜索词推送装置可以从第一媒体应用的后台服务器获取一段时间内多个用户在所述第一媒体应用使用所述至少一个媒体关键词的搜索行为统计数据。

s405,根据所述至少一个媒体关键词在所述至少一个媒体信息中的分词频率统计数据和所述至少一个媒体关键词在所述第一媒体应用的搜索行为统计数据,在所述至少一个媒体关键词中确定媒体搜索词。

根据所述媒体关键词在所述至少一个媒体信息中的分词频率统计数据可以分析得到用户对某个媒体关键词的关注程度或感兴趣程度,而根据媒体关键词在所述第一媒体应用的搜索行为统计数据可以得到该媒体关键词在第一媒体应用的搜索热度,综合这两方面可以计算得到某个媒体关键词的推荐分值,进而将推荐分值最高的若干个媒体关键词作为媒体搜索词推送给第一媒体应用。例如基于如下公式计算推荐分值:recommscore=keyscore(i)*qv(i)/qv_max,其中keyscore(i)为第i个媒体关键词在所述至少一个媒体信息中的分词频率统计数据确定的权重分值,例如为tf-idf值,qv(i)指第i个媒体关键词在第一媒体应用一段时间内的被搜索次数;qv_max是所有qv的最大搜索次数,此处qv_max用来做归一化,为了避免推荐分值的数值过高。

s406,向所述第一媒体应用推送所述确定得到的媒体搜索词。

本实施例中,媒体搜索词推送装置将所述媒体搜索词发送至所述第一媒体应用,所述第一媒体应用将所述媒体搜索词显示在搜索栏中提供用户快速输入搜索词,由于这些媒体搜索词是该用户在另一媒体应用上较为关注的媒体关键词,因此也有较大可能性作为用户在第一媒体应用上使用的媒体搜索词,从而可有效提高用户通过该媒体应用的获取信息效率。

需要指出的是,以上仅是结合示例性的两种实施场景架构下媒体搜索词推送方法的实施过程,根据上述介绍,可以扩展到更多的实施场景架构中实现本发明的媒体搜索词推送方法,例如第一媒体应用和第二媒体应用运行在不同的用户终端,由第一媒体应用或媒体搜索词推送装置向第二媒体应用发送请求关联用户使用第二媒体应用的用户行为数据从而确定媒体搜索词,由此不经创造性劳动扩展得到的实施例均应属于本发明权利要求保护的技术方案。

图6是本发明实施例中的媒体搜索词推送装置的结构示意图,本发明实施例中的媒体搜索词推送装置可以与第一媒体应用实现在同一用户终端中,也可以单独实现,还可以实现在第一媒体应用的后台服务器侧,如图所示本发明实施例中的媒体搜索词推送装置至少可以包括:

用户标识获取模块610,用于获取第一媒体应用的当前用户的用户标识信息。

具体的,所述用户标识信息可以是用户登录账号或绑定的手机号码、邮箱账号等。若媒体搜索词推送装置实现在第一媒体应用的后台服务器上,则可以是用户终端中的第一媒体应用在启动后将当前用户的用户标识信息发送至媒体搜索词推送装置,可以是第一媒体应用主动上报,也可以是媒体搜索词推送装置的用户标识获取模块610主动从第一媒体应用拉取。

行为数据获取模块620,用于根据所述用户标识信息,获取所述用户的关联用户使用第二媒体应用的用户行为数据,所述用户行为数据包括所述关联用户使用第二媒体应用的用户行为对应的至少一个媒体信息。

在可选实施例中,若媒体搜索词推送装置实现在第一媒体应用的后台服务器上,第二媒体应用的后台服务器可以将用户使用第二媒体应用的用户行为数据共享给第一媒体应用的后台服务器,从而媒体搜索词推送装置可以根据所述当前用户的用户标识信息获取到该用户的关联用户使用第二媒体应用的用户行为数据。在另一可选实施方式中,媒体搜索词推送装置根据所述当前用户的用户标识信息,请求第二媒体应用的后台服务器提供该用户的关联用户的用户行为数据,例如可以通过第二媒体应用的后台服务器提供的第三方程序提供接口或双方建立的合作协议平台,例如即时通讯服务开放平台、sns开放平台等,从第二媒体应用的后台服务器获取该用户的关联用户的用户行为数据,在该实施方式下媒体搜索词推送装置只需提供所述当前用户的用户标识信息,例如openid,第二媒体应用的后台服务器即可向媒体搜索词推送装置返回所述当前用户的关联用户的用户行为数据。若媒体搜索词推送装置、第一媒体应用以及第二媒体应用实现在同一用户终端中,这媒体搜索词推送装置可以直接从第二媒体应用请求所述关联用户的用户行为数据,还可以通过第一媒体应用向第二媒体应用发送进程间请求的方式请求获取所述关联用户的用户行为数据。

本发明实施例中提及的当前用户以及当前用户的关联用户,可以分别为同一实际使用者在第一媒体应用的用户身份和在第二媒体应用的用户身份,其可以通过用户账号代表,当前用户以及当前用户的关联用户使用的用户账号可以相同,也可以不同,但均需要预先在后台服务器建立两个用户身份之间的关联关系,例如小明在使用第一媒体应用的用户登录账号是abc2005,小明在使用第二媒体应用的用户登录账号是bcd2005,而小明可以在第二媒体应用创建bcd2005账号的时候就请求建立与第一媒体应用的用户登录账号abc2005之间的关联关系,也可以是后续使用第二媒体应用过程中提交的建立这两个用户登录账号之间的关联关系的请求,第二媒体应用的后台服务器在接收到请求后向第一媒体应用的后台服务器发送关联确认询问消息,并在接收到使用abc2005的用户登录账号的第一媒体应用发送的关联确定消息后,建立这两个用户账号之间的关联关系;小明请求第一媒体应用的后台服务器建立这两个用户登录账号之间的关联关系的方式与此同理,本发明实施例中不再赘述。

在可选实施例中,媒体搜索词推送装置请求第二媒体应用的后台服务器提供该用户的关联用户的用户行为数据时,可以需要经过第二媒体应用的关联用户的用户账号的授权,在用户通过第二媒体应用向其后台服务器发起针对第一媒体应用的授权后第二媒体应用的后台服务器将一个授权令牌token下发给第一媒体应用,媒体搜索词推送装置在需要时可以将从第一媒体应用获取到的token发送至第二媒体应用的后台服务器,第二媒体应用的后台服务器根据该token将所述第一媒体应用当前用户的关联用户的用户行为数据返回给媒体搜索词推送装置,该授权token可以设置一个有效期,在有效期内不需重复进行授权过程。

所述用户行为数据可以包括所述关联用户在使用第二媒体应用的浏览行为、播放行为、收藏行为、分享行为、下载行为或评价行为等,每种行为均可以针对某一个媒体信息,即用户行为数据中每个用户行为对应的媒体信息,本发明实施例中的媒体搜索词推送装置通过获取到所述关联用户使用第二媒体应用的用户行为对应的媒体信息可以对该用户的行为习惯、喜好或关注类型进行分析,以便针对性的在第一媒体应用向用户推荐相应的媒体搜索词。所述用户行为数据可以包括所述关联用户使用第二媒体应用的所有历史用户行为记录,也可以是该关联用户最近一段时间内(例如近一个月或近一周等)的用户行为记录。

关键词提取模块630,用于根据所述至少一个媒体信息中包含的分词的分词频率统计数据,从所述至少一个媒体信息中包含的分词中提取得到至少一个媒体关键词。

即媒体搜索词推送装置通过分析获取到的所述关联用户使用第二媒体应用的用户行为对应的媒体信息,从中提取媒体关键词。可以进一步拆分为以下几个环节:

1)媒体搜索词推送装置分别对获取到的媒体信息进行文本分词处理,例如可以采用全模式分词或搜索分词等文本分词处理方式,得到所述多个媒体信息中包含的文本分词。此外在分词处理之前还可以对媒体信息内容进行预处理,例如乱码过滤、标点过滤、汉字繁简转换、分词、停用词过滤等。

2)获取媒体信息中包含的各个分词的分词频率统计数据。具体的,所述各个分词的分词频率统计数据可以包括词频、文本频率、文本数或逆文本频率等。分别可以表示所述各个分词在获取到的媒体信息中出现的频率、次数或者意义程度(例如“的”,“了”,“是”、“可以”等虽然出现再多,也不应该被认为是关键词)。

3)根据所述多个媒体信息中包含的各个分词的分词频率统计数据,从中提取媒体关键词。

在可选实施例中,可以通过tf-idf(termfrequency-inversedocumentfrequency,词频-逆文档频率)算法或textrank文档排名算法,从获取到的媒体信息包含的分词中提取至少一个媒体关键词。

以tf-idf算法为例,词频tf可以为某一个给定的分词在所述某个媒体信息中出现的次数除以根据所述多个媒体信息处理得到的分词总数,其中ni,j是该词在文档dj中的出现次数,而分母则是在文档dj中所有分词特征的总数。而逆文档频率idf,可以由所述多个媒体信息的总数量除以包含某个分词的媒体信息的数量,再将得到的商取对数得到,即:其中|d|为所述多个媒体信息的总数,|{j:ti∈dj}|为包含词语ti的媒体信息的数量(即nk,j≠0的媒体信息的数目)。用以评估一个词对于一个文档或者一个语料库中的一个领域文档集的重要程度。

tfi-dfi,j=tfi,j×idfi,通常某一特定文档内的高词语频率,以及该词语在整个文档集合中的低文档频率,可以产生出高权重的tf-idf。因此,通过过滤tf-idf较低的词语,可以过滤掉常见的词语,保留重要的词语。在本发明实施例中,可以将每个媒体信息的分词中,tf-idf最高的预设数量的(例如3个、5个或10个)分词确定为媒体关键词。

同样的可以通过textrank算法将某个媒体信息中出现的分词的重要性进行排序,并将重要性最高的预设数量的分词确定为媒体关键词。

在可选实施例中,关键词提取模块630可以如图7所示进一步包括:

关联信息过滤单元631,用于根据预设的所述第一媒体应用的关联分词集合,在所述至少一个媒体信息中确定得到至少一个关联媒体信息,所述关联媒体信息中包含至少一个所述第一媒体应用的关联分词。

即在对获取到的媒体信息进行文本分词处理之前,可以由关联信息过滤单元631先对获取到的媒体信息进行相关性筛选,具体可以为根据预设的第一媒体应用的关联分词集合,在所述至少一个媒体信息中确定得到至少一个关联媒体信息,所述关联媒体信息中包含至少一个所述第一媒体应用的关联分词,从而将不包含所述关联分词的媒体信息作为不关联媒体信息排除,可以有效降低后续的分析计算量。所述预设的第一媒体应用的关联分词集合可以为第一媒体应用所处领域的词汇集合,以第一媒体应用为网络音乐应用为例,所述预设的第一媒体应用的关联分词集合可以包括歌曲名称集合、歌手名称集合、专辑名称集合、歌曲类型名称集合等。进一步可选的,在对媒体信息进行相关性筛选时,可以根据预设的第一媒体应用的关联分词集合仅针对媒体信息中的部分内容进行分词匹配,例如只判断每个媒体信息中的标题、摘要或关键词标签中是否包含所述第一媒体应用的关联分词,而不用再判断媒体信息中的其他部分,可以大幅减少相关性筛选的信息处理量。

关键词提取单元632,用于根据所述至少一个媒体信息中包含的分词的分词频率统计数据,从所述至少一个媒体信息中包含的分词中提取得到至少一个权重关键词。

关联分词过滤单元633,用于根据预设的所述第一媒体应用的关联分词集合,在所述至少一个权重关键词中确定得到至少一个媒体关键词,所述媒体关键词为第一媒体应用的关联分词集合中的关联分词。

在经过上述根据所述多个媒体信息中包含的各个分词的分词频率统计数据,通过tf-idf算法或textrank文档排名算法提取得到权重数值或排名最高的若干分词作为权重关键词后,关联分词过滤单元633还可以对得到的权重关键词进行相关性筛选,具体可以为根据预设的第一媒体应用的关联分词集合,在所述至少一个权重关键词中确定得到至少一个媒体关键词,所述媒体关键词为第一媒体应用的关联分词集合中的关联分词,从而将是所述关联分词的权重关键词作为不关联分词排除,可以进一步聚焦于用户在使用第一媒体应用时可能会用到的搜索词。

需要指出的是,关联信息过滤单元631和关联分词过滤单元633在其他可选实施例中可以仅有其中的任意一个即可。

搜索词推送模块640,用于根据所述至少一个媒体关键词向所述第一媒体应用推送媒体搜索词。

本实施例中,搜索词推送模块640将所述媒体搜索词发送至所述第一媒体应用,所述第一媒体应用将所述媒体搜索词显示在搜索栏中提供用户快速输入搜索词,由于这些媒体搜索词是该用户在另一媒体应用上较为关注的媒体关键词,因此也有较大可能性作为用户在第一媒体应用上使用的媒体搜索词,从而可有效提高用户通过该媒体应用的获取信息效率。

进而在可选实施例中,搜索词推送模块640可以如图8所示进一步包括:

搜索数据获取单元641,用于获取多个用户在所述第一媒体应用使用所述至少一个媒体关键词的搜索行为统计数据。

搜索词确定单元642,用于根据所述至少一个媒体关键词在所述至少一个媒体信息中的分词频率统计数据和所述至少一个媒体关键词在所述第一媒体应用的搜索行为统计数据,在所述至少一个媒体关键词中确定媒体搜索词。

根据所述媒体关键词在所述至少一个媒体信息中的分词频率统计数据可以分析得到用户对某个媒体关键词的关注程度或感兴趣程度,而根据媒体关键词在所述第一媒体应用的搜索行为统计数据可以得到该媒体关键词在第一媒体应用的搜索热度,综合这两方面可以计算得到某个媒体关键词的推荐分值,进而将推荐分值最高的若干个媒体关键词作为媒体搜索词推送给第一媒体应用。

例如基于如下公式计算推荐分值:recommscore=keyscore(i)*qv(i)/qv_max,其中keyscore(i)为第i个媒体关键词在所述至少一个媒体信息中的分词频率统计数据确定的权重分值,例如为tf-idf值,qv(i)指第i个媒体关键词在第一媒体应用一段时间内的被搜索次数;qv_max是所有qv的最大搜索次数,此处qv_max用来做归一化,为了避免推荐分值的数值过高。

搜索词推送单元643,用于向所述第一媒体应用推送所述确定得到的媒体搜索词。

这里需要指出的是,上述媒体搜索词推送装置可以为pc这种电子设备,还可以为如pad,平板电脑,手提电脑这种便携电子设备,不限于这里的描述;也可以是通过集群服务器构成的,为实现各单元功能而合并为一实体或各单元功能分体设置的电子设备,媒体搜索词推送装置至少包括用于存储数据的数据库和用于数据处理的处理器,可以包括内置的存储介质或独立设置的存储介质。

其中,对于用于数据处理的处理器而言,在执行处理时,可以采用微处理器、中央处理器(cpu,centralprocessingunit)、数字信号处理器(dsp,digitalsingnalprocessor)或可编程逻辑阵列(fpga,field-programmablegatearray)实现;对于存储介质来说,包含操作指令,该操作指令可以为计算机可执行代码,通过所述操作指令来实现上述本发明实施例如图2或4-5所示的媒体搜索词推送方法流程中的各个步骤。

媒体搜索词推送装置作为硬件实体的一个示例如图9所示。所述装置包括处理器901、存储介质902以及至少一个外部通信接口903;所述处理器901、存储介质902以及通信接口903均通过总线904连接。

媒体搜索词推送装置中的处理器601可以调用存储介质602中的操作指令执行以下流程:

获取第一媒体应用的当前用户的用户标识信息;

根据所述用户标识信息,获取所述用户的关联用户使用第二媒体应用的用户行为数据,所述用户行为数据包括所述关联用户使用第二媒体应用的用户行为对应的至少一个媒体信息;

根据所述至少一个媒体信息中包含的分词的分词频率统计数据,从所述至少一个媒体信息中包含的分词中提取得到至少一个媒体关键词;

根据所述至少一个媒体关键词向所述第一媒体应用推送媒体搜索词。

这里需要指出的是:以上涉及媒体搜索词推送装置的描述,与前文媒体搜索词推送方法的描述是类似的,同方法的有益效果描述,不做赘述。对于本发明媒体搜索词推送装置实施例中未披露的技术细节,请参照本发明方法实施例的描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1