一种站点资源管理方法及装置的制作方法

文档序号:6386495阅读:174来源:国知局
专利名称:一种站点资源管理方法及装置的制作方法
技术领域
本发明涉及互联网应用技术领域,特别涉及一种站点资源管理方法及装置。
背景技术
随着互联网技术,尤其是智能搜索、智能广告推荐等技术的发展,对于网站进行分析、归类的需求越来越被重视。如此一来,就需要一种将站点的网页资源自动进行分类及组织的管理方法。现有技术中,经常简单的通过网页文本标题对网页进行划分,但这一方法的准确性不高。发明内容
本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。
为此,本发明的第一个目的在于提出一种站点资源管理方法,根据网页内容等因素针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据。本发明的第二个目的在于提出一种站点资源管理装置。
为达到上述目的,本发明第一方面的实施例提出了一种站点资源管理方法,包括以下步骤:对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据;对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征;根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。
根据本发明实施例的站点资源管理方法,可以通过对网页内容进行分词、提取特征的方式针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据,使得为用户提供的网页推荐可以更加符合用户的需要,提高了用户体验。
在本发明的一个实施例中,所述站点资源管理方法进一步包括步骤:根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。
在本发明的一个实施例中,根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。
在本发明的一个实施例中,所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。
在本发明的一个实施例中,对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据的步骤包括:对所述web站点进行日志挖掘和站点挖掘,其中通过所述日志挖掘获取页面的URL数据以及所述页面的访问热度,通过所述站点挖掘获取所述站点下各个页面的URL数据以及站点结构数据。
在本发明的一个实施例中,所述访问热度用于确定页面的点击量,所述站点结构数据用于实现web站点至web app的结构转换。
在本发明的一个实施例中,对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征的步骤包括:对所述各个页面的URL数据进行切词分析以得到多个词;将所述多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。
本发明第二方面的实施例提出了一种站点资源管理装置,包括:挖掘模块,用于对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据;特征获取模块,用于对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征;权重计算模块,用于根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。
根据本发明实施例的站点资源管理装置,可以通过对网页内容进行分词、提取特征的方式针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据,使得为用户提供的网页推荐可以更加符合用户的需要,提高了用户体验。
在本发明的一个实施例中,所述站点资源管理装置进一步包括:页面分类模块,用于根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。
在本发明的一个实施例中,所述站点资源管理装置进一步包括:相似度计算模块,用于根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。
在本发明的一个实施例中,所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。
在本发明的一个实施例中,所述挖掘模块包括:日志挖掘单元,用于获取页面的URL数据以及所述页面的访问热度;站点挖掘单元,用于获取所述站点下各个页面的URL数据以及站点结构数据。
在本发明的一个实施例中,所述访问热度用于确定页面的点击量,所述站点结构数据用于实现web站点至web app的结构转换。
在本发明的一个实施例中,所述特征获取模块包括:切词分析单元,用于对所述各个页面的URL数据进行切词分析以得到多个词;匹配单元,用于将所述多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。


本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的站点资源管理方法的流程图2为根据本发明另一个实施例的站点资源管理方法的流程图3为一个待挖掘的web网页的示意图4为根据本发明实施例的一个站点资源管理装置的示意图;以及
图5为根据本发明实施例的另一个站点资源管理装置的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面分别参考图1至图3对本发明实施例的站点资源管理方法的流程进行描述。
如图1所示,根据本发明第一方面的实施例的站点资源管理方法,包括以下步骤:
SlOl:对web站点进行数据挖掘以获取web站点中各个页面的URL数据。
具体地,对站点进行数据挖掘包括日志挖掘和站点挖掘两部分。
日志挖掘:挖掘网站的url以及url对应的pattern、query、搜索结果页序号、pv等信息,提供网站内url的基本url数据以及对应的访问热度信息,访问热度用于确定页面的点击量。在一个具体的实施例中,日志挖掘可以利用hadoop平台实现。
站点挖掘:从网站首页或频道页开始,定时抓取指定站点或频道的页面以下级页面,分析页面前后连接之间的指向关系,并且补全网站站点各个页面的URL数据以及站点结构数据,站点结构数据用于实现web站点至web app (Application,应用程序)的结构转换。在一个具体的实施例中,站点挖掘可以利用站点抓取技术实现。
在本发明的一个实施例中,以站点7y7.com为例,进行日志挖掘和站点挖掘,其中,日志挖掘根据PV分析,得到站点内pv最高的3条URL及其pattern如表I所示:
权利要求
1.一种站点资源管理方法,其特征在于,包括以下步骤: 对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据; 对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征;以及 根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。
2.根据权利要求1所述的方法,其特征在于,进一步包括步骤: 根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。
3.根据权利要求1所述的方法,其特征在于,进一步包括步骤: 根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。
5.根据权利要求1至3中任一项所述的方法,其特征在于,对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据的步骤包括: 对所述web站点进行日志挖掘和站点挖掘,其中通过所述日志挖掘获取页面的URL数据以及所述页面的访问热度,通过所述站点挖掘获取所述站点下各个页面的URL数据以及站点结构数据。
6.根据权利要求5所述的方法,其特征在于,所述访问热度用于确定页面的点击量,所述站点结构数据用于实现web站点至web app的结构转换。
7.根据权利要求1至3中任一项所述的方法,其特征在于,对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征的步骤包括: 对所述各个页面的URL数据进行切词分析以得到多个词; 将所述多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的TAG特征和Mypos特征。
8.一种站点资源管理装置 ,其特征在于,包括: 挖掘模块,用于对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据; 特征获取模块,用于对所述各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征属于训练得到的多个TAG特征和多个Mypos特征;以及 权重计算模块,用于根据各个页面的TAG特征和Mypos特征得到所述各个页面在预定分类表的各个分类下的权重。
9.根据权利要求8所述的装置,其特征在于,还进一步包括: 页面分类模块,用于根据所述各个页面在预定分类表的各个分类下的权重将所述各个页面输出给对应的聚合频道。
10.根据权利要求8所述的装置,其特征在于,还进一步包括:相似度计算模块,用于根据所述各个页面在预定分类表的各个分类下的权重计算所述各个页面的相似度以进行相似页面推荐。
11.根据权利要求8至10中任一项所述的装置,其特征在于,所述预定分类表的各个分类包括篮球、足球、网球、其他体育、财经、女性、娱乐、军事、国际时事、社会、美食、汽车、旅游、科技、健康、两性、笑话、动漫或游戏。
12.根据权利要求8至10中任一项所述的装置,其特征在于,所述挖掘模块包括: 日志挖掘单元,用于获取页面的URL数据以及所述页面的访问热度; 站点挖掘单元,用于获取所述站点下各个页面的URL数据以及站点结构数据。
13.根据权利要求12所述的装置,其特征在于,所述访问热度用于确定页面的点击量,所述站点结构数据用于实现web站点至web app的结构转换。
14.根据权利要求8至10中任一项所述的装置,其特征在于,所述特征获取模块包括: 切词分析单元,用于对所述各个页面的URL数据进行切词分析以得到多个词; 匹配单元,用于将所述多个词与训练得到的多个TAG特征和多个Mypos特征进行匹配以获取各个页面的T AG特征和Mypos特征。
全文摘要
本发明提出了一种站点资源管理方法,包括以下步骤对web站点进行数据挖掘以获取web站点中各个页面的URL数据;对各个页面的URL数据进行语义分析以获取各个页面的TAG特征和Mypos特征,其中TAG特征和Mypos特征属于训练得到的多个TAG特征和多个Mypos特征;根据各个页面的TAG特征和Mypos特征得到各个页面在预定分类表的各个分类下的权重。本发明还提出了一种站点资源管理装置。本发明根据网页内容等因素针对网页的网页类型进行智能分析,为对站点网页资源进行管理、分类提供了判断依据。
文档编号G06F17/30GK103218390SQ20121059297
公开日2013年7月24日 申请日期2012年12月31日 优先权日2012年12月31日
发明者崔建伟, 王佳, 李伟刚 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1