一种网页标题分析的方法和系统的制作方法

文档序号:6434296阅读:195来源:国知局
专利名称:一种网页标题分析的方法和系统的制作方法
技术领域
本发明涉及互联网数据分析领域,尤其涉及网站流量数据分析领域。
背景技术
HTTP referrer =HTTP协议表头的一个字段,记录该HTTP请求的来源网页URL。当用户浏览网站时,用户在网页A通过点击超链接要进入到下一个页面B时,浏览器会发送一个HTTP请求给网站服务器,该请求中,包含了要访问的网页URL B,和referrer信息A。网页标题通常地,在网页html代码中“〈title〉”和“〈/title〉”中包含的文字即网页标题。更精确地,对于网页内容中包含有明显的加粗或大号字体的文字,且这段文字概括了整个网页内容,也被定义为网页标题。例如电子商务网站中一个商品详情页面中商品的全名即为该网页标题;一篇新闻网页中新闻的题目即为改网页标题。搜索引擎优化搜索引擎是互联网用户获取信息的重要入口,用户在搜索引擎中输入查询词找到需要的资料。为了提升网站中网页被用户找到的几率,对网页进行合理地搜索引擎优化是必不可少的。当用户搜索与某网页相关的查询词时,经过优化的网页在搜索结果页中展示并且更靠前,进而增加了该网页的浏览量。其中,网页的标题是影响搜索引擎排名的重要因素,因此,对网页标题的优化是搜索引擎优化中的重要环节。这里提到的搜索引擎,包括但不限于网页搜索引擎、商品搜索引擎、电子商务网站中站内商品搜索引擎。分词器可以自动识别句子或段落中词的边界的装置,可以将句子或段落切分成一个一个的词。目前,对网页标题的优化方法主要是根据网页的主体内容,人为或辅助以词表来判断标题中词的保留或删除,没有方法能够结合用户的搜索行为,准确且直观地对网页标题进行分析。

发明内容
针对现有技术上存在的缺陷和不足,本发明提供了一种网页标题分析的方法,能够根据该页面搜索来源关键词,对标题中的每个词进行分析并以可视化形式展示,以帮助网页内容提供者更好的对网页进行搜索引擎优化,从而提升了网页被用户找到的几率。为了达到上述目的,本发明的方法,包括以下步骤1.记录网页的每一个用户访问,将referrer信息中包含有搜索引擎关键词的部分进行提取并记录;2.使用分词器,对所有的搜索关键词或指定时间区间内的搜索关键词与网页标题进行分词;3.将每个网页下对应的指定时间区间内的搜索关键词进行归并统计,得到标题中每个词对应的搜索关键词的次数,并以直观的形式展示;上述的方法中,步骤1进一步包括11.根据预先定义的规则库,判断referrer信息类型,如果是搜索引擎查询类,则
3继续执行12,如果不是,则不记录该条信息;12.根据referrer信息匹配到的规则,提取对应的搜索关键词信息并解码、记录;上述的方法中,步骤3进一步包括31.选取指定时间内的搜索关键词的分词后的结果;32.对每个搜索关键词分词后的结果进行搜索次数归并统计;33.根据32中的统计结果,对网页标题中的每个词进行匹配,得到标题中每个词在特定时间段的搜索次数,未匹配上的词次数记作0 ;34.对33中的统计结果进行渲染,并以直观的形式展示。


图1为根据本发明的网页标题分析方法流程图;图2为根据本发明的网页标题分析系统实际效果截图。
具体实施例方式下面结合附图1对本发明做进一步详细说明1.对网页的每一个用户访问,记录该商品的URL、referrer信息及访问时间。根据预先设定一个referrer信息分类规则库,将referrer信息与规则库中规则进行匹配,如果匹配成功,将包含有搜索引擎关键词的部分进行提取、URL编码转换并记录。这里提及的 referrer信息分类规则库,可以用来判断referrer信息是否属于搜索引擎查询,如果是搜索引擎查询,并提供查询词提取规则,以供提取搜索查询词。例如,referrer信息分类规则库中包含如下规则 http//s. taobao. com/search ? q =水
http//search. 360buy. com/Search ? keyword =水
http//www. baidu. com/baidu ? word = *对于某个referrer 信息 “http //www, baidu. com/s ? wd = % CA % D6 % BB % ΕΔ”,首先将其在规则库中进行匹配,成功匹配后,提取关键词部分为“ % CA% D6% BB% FA”,进行URL编码转化,最终转换为用户实际的查询词“手机”。对于另一个referrer信息"http://www, sina. com, cn/,,,将其在规则库中进行匹配,匹配失败,说明该信息不是搜索引擎查询,则不记录。2.用分词器切分网页标题与收集到的所有搜索关键词或指定时间区间内的搜索关键词。3.将每个网页下对应的指定时间区间内的每个搜索关键词的分词后的结果进行归并统计,得到标题中每个词对应的搜索次数。例如“飞利浦快速充电器SCB3055NB”这个商品网页在2011年8月1日至2011年8月7日共有10个用户访问是来自搜索引擎的,对应的查询词分别是-“philips充电器” 4次,“飞利浦充电器” 3次,“SCB3055NB,,2 次,“飞利浦快充” 1次,经过步骤2分词后的结果分别是“philips充电器”,“飞利浦充电器”,“SCB3055NB”,“飞利浦快充”。经过归并统计,得到结果“充电器”7次,“飞利浦”4次, “philips”4次,“SCB3055NB”2次,“快充” 1次。将该结果与网页标题进行匹配,得到标题分析结果飞利浦W次]快速W次]充电器[7次]SCB3055NB[2次]。展示模块根据标题分析结果进行渲染和呈现,渲染技术包括但不限于a.网页 html 中的 ess 或 javascript 技术;b. flash 技术。呈现方式包括但不限于a.根据标题中每个词的搜索次数,次数多的词用深颜色文字,次数少的词用浅颜色文字;b.根据标题中每个词的搜索次数,次数多的词用深颜色背景,次数少的词用浅颜色背景;c.当鼠标停留在某个词上时,显示浮动框,框里显示该词的搜索次数。下面结合图2举例说明。图2是已实现系统中标题分析的结果展现截图。一个商品网页标题为“超漂亮2011丽婴房彼得兔时尚衣袖针织棉长袖T恤上衣女童”,根据本发明的网页标题分析方法,选取2011年9月1日到2011年9月7日间搜索引擎流量来源数据进行分析,分析结果如图2所示。该商品网页标题中的每个词根据分析结果数字大小,以不同背景颜色深浅来直观地表示该词的重要度。可以看到,本例中,“丽婴房”是统计值最大的词,背景颜色最深;而“超” “漂亮”是统计值最小的词,背景颜色最浅。 当用户将鼠标移到“丽婴房”上时,呈现“丽婴房”对应统计值的浮动框,如图2(a)所示;当用户将鼠标移到“漂亮”上时,呈现“漂亮”对应统计值的浮动框,如图2(b)所示。
权利要求
1.一种网页标题分析的方法,其特征在于包含如下步骤(1)记录网页的每一个用户访问,将referrer信息中包含有搜索引擎关键词的部分进行提取、解码并记录;(2)使用分词器,对所有的搜索关键词或指定时间区间内的搜索关键词与网页标题进行分词;(3)将每个网页下对应的指定时间区间内的搜索关键词的分词后的结果进行归并统计,得到标题中每个词对应的搜索次数,并以直观的形式展示。
2.根据权利要求1所述的方法,其特征在于,所述“搜索引擎”是网页搜索引擎、商品搜索引擎、电子商务网站中站内商品搜索引擎中的一种或几种。
3.根据权利要求1所述的方法,其特征在于,所述网页标题是指网页html代码中 “〈title〉”和“〈/title〉”中包含的文字
4.根据权利要求1所述的方法,其特征在于,所述网页标题是指电子商务网站中商品详情网页中所描述商品的全称
5.根据权利要求1所述的方法,其特征在于,所述步骤(1)进一步包括(11)根据预先定义的规则库,判断referrer信息类型,如果是搜索引擎查询类,则继续执行步骤(1 ;如果不是,则不记录该条信息;(12)根据referrer信息匹配到的规则,将对应的搜索关键词信息提取、解码并记录。
6.根据权利要求1所述的方法,其特征在于,所述步骤C3)进一步包括(31)选取指定时间内的搜索关键词的分词后的结果;(32)对每个搜索关键词分词后的结果进行搜索次数归并统计;(33)根据(32)中的统计结果,对网页标题中的每个词进行匹配,得到标题中每个词在特定时间段的搜索次数,未匹配上的词次数记作0 ;(34)对(33)中的统计结果进行渲染,并以直观的形式展示。
7.根据权利要求6所述的方法,其特征在于,所述“渲染”方法是通过网页技术(ess、 javascipt)或flash技术生成分析结果,分析结果的形式是以下形式的一种或几种 根据标题中每个词的搜索次数,次数多的词用深颜色文字,次数少的词用浅颜色文字 根据标题中每个词的搜索次数,次数多的词用深颜色背景,次数少的词用浅颜色背旦參当鼠标停留在某个词上时,显示浮动框,框里显示该词的搜索次数。
全文摘要
本发明公开了一种网页标题分析的方法,解决了针对网页标题的搜索引擎优化中的直观性和准确性的问题。本发明包括以下步骤1.记录网页的每一个用户访问,将referrer信息中包含有搜索引擎关键词的部分进行提取并记录;2.使用分词器,对所有的搜索关键词或指定时间区间内的搜索关键词与网页标题进行分词;3.将每个网页下对应的指定时间区间内的搜索关键词的分词后的结果进行归并统计,得到标题中每个词对应的搜索次数,并以直观的形式展示。本发明提出了一种新的基于来源搜索关键词的网页标题分析,为网页做搜索引擎优化,提供了更加直观和准确的依据。
文档编号G06F17/30GK102306201SQ201110291388
公开日2012年1月4日 申请日期2011年9月30日 优先权日2011年9月30日
发明者邢飞 申请人:邢飞
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1