网络信息获取工具对用户生成内容的过滤方法_2

文档序号:9810589阅读:来源:国知局
[0038]性质1:该UGC的生成时间落在预定时间段内(如最近24小时);
[0039]性质2:用户在生成此UGC时或生成此UGC之前,向所述网络沟通工具声明了“不关注其他用户生成的、与此UGC具有相同CONTENT的UGC”。
[0040]当所述网络信息获取工具在收到对应网络服务器发送的UGC集合之后,在显示UGC之前,检查欲显示的UGC的CONTENT值是否已被记入了 MYJJGC中,若是的话,则不显示此UGC,否则就按照正常方式显示此UGC。
[0041]在实际使用是,由于完全的匹配比较耗时间,可以使用一个具有很低碰撞率的散列函数对UGC的CONTENT值进行散列,得到该CONTENT的特征值,并在MYJJGC中存储此类特征值,而不是具体的CONTENT值。若其他用户产生的UGC ugc的CONTENT值的特征码落在MYJJGC内,就认为这个用户曾经发送过与ugc具有相同实质内容的UGC。
[0042]说明书【附图说明】:
[0043]图1为在采用本发明对他人UGC进行信息汇总的方法时,网络信息获取工具在接收到相应网络服务器发送来的他人UGC集合后,在真正进行内容显示前,针对这个UGC集合中的每个UGC ugc,进行的与信息汇总有关的处理流程。
[0044]图2为采用本发明对他人UGC信息进行汇总的方法时,网络信息获取工具针对每个需要显示的UGC内容的显示流程。这个流程的输入是需要显示的UGC的CONTENT部分。在实际应用中,这个流程的输入也可以是UGC的CONTENT部分经过散列函数计算之后生成的特征值,此时,图2所示的流程中要增加根据此特征值查找到UGC的CONTENT的相应逻辑和数据结构。
[0045]图3为采用本发明对他人UGC进行信息汇总显示时,一种可能的最终显示效果图。在图示的情形中,当出现汇总显示时,其发送者用户头像被显示为网络信息获取工具预先设置的“汇总头像”,信息生成时间被显示为被汇总的UGC中的最早的生成时间。用户可以通过点按带下划线的名字,如Andy,来以非汇总方式查看Andy关于此内容的具体的UGC (从而导致用户可以看到其他用户针对Andy此UGC新产生的、包括点赞/评论等在内的内容)。
[0046]图4为采用本发明对他人UGC进行信息汇总显示时,一种可能的最终显示效果图。该图与图3为区别主要在于:当用户选中“展开”选项时,网络信息获取工具会依次显示原本被汇总显示的各个UGC,此时用户可以看到针对用户王五产生的UGC,用户Somebody发表了评论“太搞笑了哦”;当用户选中“折叠”选项时,恢复对这些UGC的汇总显示。
[0047]图5为采用本发明的过滤掉他人产生的、与自己产生的UGC本质上相同的UGC的方法时,网络信息获取工具在收到网络服务器传送来的UGC集合时,针对该UGC集合中的每个ugc进行的预处理流程。
[0048]图6显示了一种允许用户在生成UGC时,向网络信息获取工具声明是否应将其他用户产生的与当前UGC具有实质相同含义的UGC过滤掉的操作界面。在此操作界面,若用户使用“不看同类发送”按钮发送了当前UGC,则当前UGC的内容就会被记入MYJJGC中;而使用“发送”按钮发送的UGC的内容就不会被放入MYJJGC中。
[0049]图7为在实施“对他人产生的同质UGC进行过滤显示方法”时,采用【具体实施方式】中所述的producer_info表、ugc_detail表和临时的待显示列表时,网络信息获取工具在收到网络服务器发送来的用户生成内容集合后,对每个用户生成内容的预处理流程。
[0050]图8与图7配合使用,图8描述了网络信息获取工具为用户显示汇总后信息的流程。
【具体实施方式】
:
[0051]1.对他人产生UGC进行过滤显示的方法的典型实施方式
[0052]网络信息获取工具将UGC解析为CONTENT, PRODUCER和AUXILIARY三部分。其中CONTENT包括用户在生成内容时所输入的文字、语音、视频、图片信息;PR0DUCER为生成此UGC的用户;AUXILIARY可包括用户在生成此UGC时所直接或间接输入的生成时间、终端类型、地理位置等信息;AUXILIARY还可包括在用户生成内容后,所有用户关于本用户生成内容进一步生成的点赞、评论信息。
[0053]网络信息获取工具维护了producer_info 表和 ugc_detail 表。producer_info 表中记录项的格式为〈token, producer_set>,ugc_detail表中记录项的格式为〈token, ugc_set, earliest_time>,其中,
[0054]token为根据UGC的CONTENT,按照特定的散列算法计算获得的标识信息,通过选择合适的散列算法,可以保证不同的CONTENT具有相同的token的概率低于某预定阈值,从而可以认为:若两个UGC的CONTENT具有相同的token,那么这两个UGC具有相同的实质内容;
[0055]producer_set是一个用户的集合,它包含了当前用户所关注的用户中、所有产生了本iP,录烦所含token对应的CONTENT的UGC的用户;
[0056]ugc_set是一个UGC的集合,它包含了当前用户所关注的所有用户所生成的、所有CONTENT的散列倌为本iP,录烦所含token的UGC ;
[0057]earliest_time为本记录项所含ugc set中所有UGC所拥有的最早生成时间。
[0058]为了节省运行网络信息获取工具的终端的存储空间和提高信息检索速度,producer_info表和ugc_detail表可只保存最近一段时间(如最近48小时)的信息。
[0059]网络信息获取工具在获取和显示UGC时,内部维护一个临时性质的待显示列表,此表中记录项的格式为〈token, earliest_gen_time, view〉,其中token的含义同前,ear I i e s t_gen_t ime 为在 ugc_detail 表中、token 值对应的记录项的 earliest_time值,view标记的取值范围为{不显示,标准显示UGC,汇总显示UGC}。在每次用户主动触发更新显示UGC时、或网络信息获取工具定时触发更新显示UGC时,待显示列表都被初始为空,向待显示列表中插入记录时,被插入的记录的view域默认为“不显示”。
[0060]当用户通知网络信息获取工具刷新显示其他用户生成的UGC时,网络信息获取工具会向相关网络服务器发送信息获取请求,网络信息获取工具针对收到的相关网络服务器返回的每个UGC信息ugc,执行包含如下步骤的预处理流程:
[0061 ] PREDl 获取此 ugc 的 CONTENT 值 ugc_cont、PRODUCER 值 ugc_prod 和生成时间gtime ;
[0062]PRED2根据预定的散列算法,计算ugc_cont对应的token值tk ;
[0063]PRED3 获得 producer_info 表中、tk 对应的记录项 p_elem ;
[0064]PRED4若步骤PRED3没有找到符合条件的p_elem,则执行步骤PRED5,否则执行步骤 PRED7 ;
[0065]PRED5 在 producer_info 表中添加记录〈tk, {ugc_prod} > ;在 ugc_detail 中添加记录〈tk, {ugc}, gtime〉;在待显示列表中添加记录〈tk, gtime,不显示> ;
[0066]PRED6处理结束;
[0067]PRED7 将 ugc_prod 添加到记录 p_elem 的 producer_set 域中;
[0068]PRED8 获得 ugc_detail 表中、tk 对应的记录 d_elem ;
[0069]PRED9将Ugc添加到记录d_elem的ugc_set集合中;
[0070]PRED10 若 gtime 不晚于 d_elem 的 earliest_time,则执行步骤 PRED11,否则处理结束;
[0071]PREDll 将记录 d_elem 的 earliest_time 改为 gtime ;
[0072]PRED12获得待显示列表中tk对应的记录tk_elem ;
[0073]PRED13若
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1