规范化的标题信息展示方法及装置的制造方法_2

文档序号:9865633阅读:来源:国知局
资源页数据的标题字段即是直接来自于搜索引擎抓取到的标题。
[0063]S103:将规范化处理后的标题字段作为资源页数据的标题信息进行展示。
[0064]本实施方式响应于用户输入的触发指令,获得需推送出的一个或多个资源页数据,将所述资源页数据的标题字段进行规范化处理,将规范化处理后的标题字段作为资源页数据的标题信息进行展示,不再将抓取到的标题直接展示,而是将抓取到的标题进行规范化处理后进行展示,从而能够去除冗余的信息,使得用户能够直观地了解标题的含义,提尚了用户体验。
[0065]图2是本发明一种实施方式的规范化的标题信息展示方法的流程图;参照图2,所述方法包括:
[0066]S201:响应于用户输入的触发指令,获得需推送出的一个或多个资源页数据;
[0067]步骤S201与图1所示的实施方式的步骤SlOl相同,在此不再赘述。
[0068]S202:判断所述资源页数据的标题字段中是否重复字段,在存在重复字段时,对所述资源页数据的标题字段进行去重处理,以实现规范化处理;
[0069]为避免所述标题字段中出现重复字段,不便于用户直观地了解标题的含义,并且由于所述标题字段中存在重复字段,从而在某种程度上增加了资源页数据的数据量,对用户的数据流量造成了一定浪费,对于用户在通过2G、3G、4G或无线网卡等具有数据流量限制的通信方式浏览资源页数据时尤为明显。
[0070]以所述资源页数据的标题字段为“[丰县天气预报30天]丰县天气预报30天”为例,此时,可判断所述标题字段中存在重复字段“丰县天气预报30天”,对所述标题字段进行去重处理,去重处理后的标题字段为“丰县天气预报30天”。
[0071]步骤S202中,对资源页数据的标题字段进行去重处理为规范化处理中的一种处理策略,当然,规范化处理还可包括其他处理策略,本实施方式对此不加以限制。
[0072]S203:将规范化处理后的标题字段作为资源页数据的标题信息进行展示。
[0073]步骤S203与图1所示的实施方式的步骤S103相同,在此不再赘述。
[0074]图3是本发明一种实施方式的规范化的标题信息展示方法的流程图;参照图3,所述方法包括:
[0075]S301:响应于用户输入的触发指令,获得需推送出的一个或多个资源页数据;
[0076]步骤S301与图1所示的实施方式的步骤SlOl相同,在此不再赘述。
[0077]S302:判断所述资源页数据的标题字段中是否存在站点名,在存在站点名时,去除所述资源页数据的标题字段中的站点名,以实现规范化处理;
[0078]可理解的是,由于有些资源页数据的标题字段中存在站点名,而有些资源页数据的标题字段中又不存在站点名,会使得资源页数据的标题字段内容不一致,为避免该问题,本实施方式中,去除所述资源页数据的标题字段中的站点名。
[0079]以所述资源页数据的标题字段为“仙剑奇缘之花千骨番外有哪些_好搜问答”为例,此时,可判断所述标题字段中存在站点名“好搜问答”,去除所述站点名,去除站点名后的标题字段为“仙剑奇缘之花千骨番外有哪些”。
[0080]相应地,为便于用户看到资源页数据的站点名,可通过资源页数据的host地址确定其的站点名,并将确定的站点名添加到对应的资源页数据中。
[0081]当然,在通过资源页数据的host地址确定其的站点名时,可采用查找映射关系的方式,所述映射关系包括:host地址和站点名之间的对应关系,但需要预先建立映射关系,host地址可采用网络爬虫或网络蜘蛛来获取,对应的站点名则可采用人工标识或自动提取的方式获取。
[0082]所述自动提取的方式在实现时,通常是先获取各host地址对应页面的网站标题,再将各host地址对应页面的网站标题作为各host地址的站点名。
[0083]步骤S302中,去除资源页数据的标题字段中的站点名为规范化处理中的一种处理策略,当然,规范化处理还可包括其他处理策略,本实施方式对此不加以限制。
[0084]S303:将规范化处理后的标题字段作为资源页数据的标题信息进行展示。
[0085]步骤S303与图1所示的实施方式的步骤S103相同,在此不再赘述。
[0086]图4是本发明一种实施方式的规范化的标题信息展示方法的流程图;参照图4,所述方法包括:
[0087]S401:响应于用户输入的触发指令,获得需推送出的一个或多个资源页数据;
[0088]步骤S401与图1所示的实施方式的步骤SlOl相同,在此不再赘述。
[0089]S402:判断所述资源页数据的标题字段中是否存在频道名和/或视频类型,在存在频道名和/或视频类型时,去除所述资源页数据的标题字段中的频道名和/或视频类型,以实现规范化处理;
[0090]需要说明的是,对于用户而言,当资源页数据中包括视频时,其所关心的是资源页数据中的视频内容,而对于视频的频道名和/或视频类型本身并不关心,这些信息对于用户而言并没有价值,反而会对用户观察视频内容造成影响,同时,还会增加资源页数据的数据量。
[0091]以所述资源页数据的标题字段为“快乐大本营20140301爱情公寓专场陈赫玩坏大长腿-视频在线观看-综艺-爱奇艺”为例,此时,可判断所述标题字段中存在频道名“爱奇艺”和视频类型“综艺”,去除所述频道名和视频类别,去除频道名和视频类别后的标题字段为“快乐大本营20140301爱情公寓专场陈赫玩坏大长腿-视频在线观看”。
[0092]以所述资源页数据的标题字段为“欢乐戏剧人第一期20150425完整版-高清在线观看-PPS爱频道”为例,此时,可判断所述标题字段中存在频道名“PPS爱频道”,去除所述频道名,去除频道名后的标题字段为“欢乐戏剧人第一期20150425完整版-高清在线观看”。
[0093]步骤S402中,去除资源页数据的标题字段中的频道名和/或视频类型为规范化处理中的一种处理策略,当然,规范化处理还可包括其他处理策略,本实施方式对此不加以限制。
[0094]S403:将规范化处理后的标题字段作为资源页数据的标题信息进行展示。
[0095]步骤S403与图1所示的实施方式的步骤S103相同,在此不再赘述。
[0096]图5是本发明一种实施方式的规范化的标题信息展示方法的流程图;参照图5,所述方法包括:
[0097]S501:响应于用户输入的触发指令,获得需推送出的一个或多个资源页数据;
[0098]步骤S501与图1所示的实施方式的步骤SlOl相同,在此不再赘述。
[0099]S502:判断所述资源页数据的标题字段中是否存在视频清晰度字段,在存在视频清晰度字段时,判断所述资源页数据的视频是否采用智能摘要形式展示;在采用智能摘要形式展示时,去除所述资源页数据的标题字段中的视频清晰度字段,以实现规范化处理;
[0100]需要说明的是,由于视频在采用智能摘要形式展示时,智能摘要的本身属性已经很明显地确定了其清晰度,若在资源页数据的标题字段中仍然保留会存在冗余,本实施方式中,在所述资源页数据的标题字段中存在视频清晰度字段,并且所述资源页数据的视频采用智能摘要形式展示时,去除所述视频清晰度字段。
[0101]以所述资源页数据的标题字段为“快乐大本营20140301爱情公寓专场陈赫玩坏大长腿-视频在线观看”为例,此时,可判断所述标题字段中存在视频清晰度字段“视频在线观看”,若所述资源页数据的视频采用智能摘要形式展示时,去除所述视频清晰度字段,去除视频清晰度字段后的标题字段为“快乐大本营20140301爱情公寓专场陈赫玩坏大长腿”。
[0102]以所述资源页数据的标题字段为“欢乐戏剧人第一期20150425完整版-高清在线观看”为例,此时,可判断所述标题字段中存在视频清晰度字段“高清在线观看”,若所述资源页数据的视频采用智能摘要形式展示时,去除所述视频清晰度字段,去除视频清晰度字段后的标题字段为“欢乐戏剧人第一期20150425完整版”。
[0103]步骤S502中,去除资源页数据的标题字段中的视频清晰度字段为规范化处理中的一种处理策略,当然,规范化处理还可包括其他处理策略,本实施方式对此不加以限制。
[0104]S503:将规范化处理后的标题字段作为资源页数据的标题信息进行展示。
[0105]步骤S503与图1所示的实施方式的步骤S103相同,在此不再赘述。
[0106]图6是本发明一种实施方式的规范化的标题信息展示方法的流程图;参照图6,所述方法包括:
[0107]S601:响应于用户输入的触发指令,获得需推送出的一个或多个资源页数据;
[0108]步骤S601与图1所示的实施方式的步骤SlOl相同,在此不再赘述。
[0109]S602:判断所述资源页数据的标题字段中是否存在预设符号,在存在预设符号时,将所述预设符号替换为目标符号,以实现规范化处理;
[0110]可理解的是,由于不同资源页数据的标题字段可能存在不同的符号(例如:下划线、分隔符或括号等分割符号,当然,还可能存在如感叹号等其他分割符号),使得标题字段非常杂乱,尤其是从不同站点获取的资源页数据就更加明显,本实施方式中,为了避免该问题,将所述资源页数据的标题字段中的预设符号替换为目标符号。
[0111]以所述资源页数据的标题字段为“给大家科普一下斗鱼TV神秘代码_董小飒吧_百度贴吧”为例,此时,可判断所述标题字段中存在预设符号“ ,将所述预设符号替换为空格,替换后的标题字段为“给大家科普一
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1