基于社交网络平台的信息更新方法及装置的制造方法_4

文档序号:9844567阅读:来源:国知局
够通过删除与已推送的信息具有重复内容的信息的方式,避免向用户使用的客户端推送重复内容,改善用户的体验,且能够降低推送的数据量,为用户节省流量。
[0109]请参阅图5,为本发明图4所示第二实施例中删除模块402的细化功能模块的结构示意图,该删除模块402包括:
[0110]第一获取模块501,用于获取待发送给客户端的第一信息集合,
[0111]第二获取模块502,用于获取预置时间段内已发送给客户端的第三信息集合;
[0112]在本发明实施例中,在接收到更新请求之后,若确定该更新请求中的账号已设置过滤重复信息的标识,则第一获取模块501获取待发送给客户端的第一信息集合,及第二获取模块502获取预置时间段内已发送给客户端的第三信息集合。
[0113]其中,第三信息集合是指预置时间段内推送给该账号的客户端的信息的集合,该预置时间段可以是当前时间点往前的一个时间段,例如:若当前时间为18:00,则预置时间段可以是12:00至18:00。或者,该预置时间段可以是当前时间点往前的任意一个时间段,例如,当前时间为18:00,则预置时间段可以是12:00-15:00。
[0114]遍历计算模块503,用于遍历第一信息集合中的每一条信息,计算遍历到的第一信息分别与第三信息集合中的每一条信息的内容相似度,并确定第一信息的内容相似度的最大值;
[Ο115]其中,遍历计算模块503包括:
[0116]提取模块5031,用于提取遍历到的第一信息中的关键字;
[0117]相似度计算模块5032、根据预置的内容相似度算法,将第一信息中的关键字分别与第三信息集合中的每条信息已提取的关键字进行相似度计算,确定第一信息分别与第三信息集合中的每条信息的内容相似度构成的相识度集合;
[0118]查找模块5033,用于从相似度集合中查找内容相似度的最大值作为第一信息的内容相似度的最大值。
[0119]在本发明实施例中,更新装置在获取第一信息集合和第三信息集合之后,遍历计算模块503将遍历该第一信息集合中的每一条信息,且在遍历到第一信息时,计算该第一信息分别与第三信息集合中的每一条信息的内容相似度,将得到多个内容相似度,且将从该多个内容相似度中确定该第一信息的内容相似度的最大值。
[0120]在本发明实施例中,可以通过关键字匹配的方式计算内容相似度,即遍历计算模块503具体可以由提取模块5031提取遍历到的第一信息中的关键字;并由相似度计算模块5032根据预置的内容相似度算法,将第一信息中的关键字分别与第三信息集合中的每条信息已提取的关键字进行相似度计算,确定第一信息分别与第三信息集合中的每条信息的内容相似度构成的相识度集合;最后由查找模块5033从相似度集合中查找内容相似度的最大值作为第一信息的内容相似度的最大值。
[0121]需要说明的是,预置的内容相似度算法可以为确定第一信息与待匹配的信息具有相同的关键字的个数,并将该个数乘以2并除以第一信息的关键字的个数与待匹配的信息的关键字的个数的和,得到的值即为第一信息与待匹配信息的内容相似度。
[0122]为了更好的理解,下面将详细以确定第一信息集合中的第一信息与第三信息集合中的第三信息的内容相似度为列,描述内容相似度的确定过程,具体的:
[0123]若第一信息为:“真正的强大就是让自己保持成长”,则第一信息提取的关键字为:真正的、强大、自己、保持、成长,若第三信息为:“妈妈告诉我:真正的强大就是让自己保持成长”,则第三信息提取的关键字为:妈妈、告诉、我、真正的、强大、自己、保持、成长。
[0124]可确定第一信息与第三信息中相同的关键字为:真正的、强大、自己、保持、成长,即有5个相同的关键字,可确定该第一信息与该第三信息的内容相似度为:2*5/(5+8)=
0.77 = 77%。
[0125]第一删除模块504,用于若第一信息的内容相似度的最大值大于预先设置的第一数值,则从第一信息集合中删除第一信息,使得在遍历完成后,得到第二信息集合。
[0126]在本发明实施例中,在得到第一信息的内容相似度的最大值之后,将判断该第一信息的内容相似度的最大值是否大于预先设置的第一数值,若该第一信息的内容相似度的最大值大于该预先设置的第一数值,则第一删除模块504从该第一信息集合中删除该第一信息。例如,第一信息的内容相似度的最大值为97%,预先设置的第一数值为95%,则可确定该第一信息在第三集合中存在相同或者相似的信息,第一删除模块504将从第一信息集合中删除该第一信息,以避免向客户端推送已经推送过的信息。
[0127]在本发明实施例中,在第一信息的内容相似度的最大值大于预先设置的第一数值时,则可确定在第三集合中存在与该第一信息重复内容的信息。
[0128]通过上述方式,能够将所述第一信息集合中,与已推送的第三信息集合中的信息内容相似度的最大值大于预先设置的第一数值的第一信息删除,使得能够避免推送重复内容的信息。
[0129]在本发明实施例中,更新装置获取待发送给客户端的第一信息集合及获取预置时间段内已发送给客户端的第三信息集合,并遍历第一信息集合中的每一条信息,计算遍历到的第一信息分别与第三信息集合中的每一条信息的内容相似度,并确定该第一信息的内容相似度的最大值,若该第一信息的内容相似度的最大值大于预先设置的第一数值,则从第一信息集合中删除第一信息,使得在遍历第一信息集合后,能够删除第一信息集合中的所有与第三信息集合中的信息具有重复内容的信息,避免将重复的内容发送给第一信息集入口 ο
[0130]请参阅图6,为本发明图5所示第一获取模块501的细化功能模块的结构示意图,该第一获取模块501包括:
[0131]集合获取模块601,用于获取从上一次推送的时间点至当前时间点之间的时间段内,账户对应的未推送信息的第四集合;
[0132]在本发明实施例中,在接收到客户端的更新请求之后,若确定该更新请求中的账号已设置过滤重复信息的标识,则集合获取模块601获取从上一次推送时间点至当前时间点之间的时间段内,账号对应的未推送信息的第四集合。
[0133]其中,服务器中在每次有用户发布或者转发信息时,其都将记录用户发布或者转发的信息及发布或者转发信息的时间,因此,更新装置可以根据信息的时间确定哪些是为推送的信息。
[0134]子集确定模块602,用于根据预置的内容相似度算法,确定第四集合中的信息子集,其中,信息子集中的每一条信息与该信息子集中的其他信息的内容相似度均大于第二数值;
[0135]在本发明实施例中,子集确定模块602将根据预置的内容相似度算法,确定第四集合中的信息子集,其中,信息子集中的每一条信息与该信息子集中的其他信息的内容相似度均大于第二数值。其中,该内容相似度算法与图2所示实施例中描述的内容相似度算法相同,此处不做赘述。
[0136]第二删除模块603,用于在信息子集中包含η条信息时,删除信息子集中的η-1条信息,以得到第一信息集合。
[0137]在本发明实施例中,在确定第四集合中的信息子集之后,第二删除模块603将对每一个信息子集进行删除,具体的:在信息子集中包含η条信息时,第二删除模块603删除该信息子集中的η-1条信息,得到待推送的信息集合,即第一信息集合。其中,每一条信息都具有发布或者转发时的时间,则对于信息子集中的η条信息,可以删除除发布或者转发时间最早的一条信息以外的其他η-1条信息,或者删除除发布或者转发时间最晚的一条信息以外的其他的η-1条信息,或者,可以随机删除η条信息中的η-1条信息。
[0138]在本发明实施例中,通过对未发送给客户端的信息进行重复内容删除处理,使得能够在进一步的删除重复内容,减少推送的数据量,达到降低流量消耗及改善用户体验的目的。
[0139]在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1