一种移动搜索引擎优化方法

文档序号:6491819阅读:260来源:国知局
一种移动搜索引擎优化方法【专利摘要】本发明提出了一种移动搜索引擎优化方法。包括以下步骤:设计移动搜索引擎框架;建立URL列表;编辑翻译器;设计WAP接口.由于本发明针对移动搜索引擎的现状,在现有互联网搜索引擎的框架上加入移动模块,提出一种利用HTML资源建立移动搜索引擎的方式,该方式通过集中处理网络蜘蛛抓取的HTML网页,将HTML网页进行主题信息提取,再将主题信息转化成手机可以识别的WML页面,并存入WML的快照库中,当用户点击条记录察看具体网页时,系统不会直接链接互联网上的该网页,而是链接该网页相对应的WML网页快照,满足用户的移动搜索需求。在实际应用中,使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎,覆盖全国近四十个城市的餐饮、娱乐和黄页信息。【专利说明】一种移动搜索引擎优化方法【
技术领域
】[0001]本发明涉及移动互联网技术,特别是一种移动搜索引擎的优化方法。【
背景技术
】[0002]搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。当今,随着无线通讯技术的创新和手机的普及,移动上网渐渐成为发展趋势,为了满足用户随时随地查询衣食住行信息的需求,如何建立移动搜索引擎,成为移动网络应用的热点。移动上网受手机终端和传输带宽的限制,纯HTML文本只有少数智能机型可以支持,大多数手机只识别WAP协议标记的语言,如WML或xHTML。但是,网络信息主要以HTML语言表达,WAP的资源有限,单纯以爬取WAP页面作为信息来源的移动搜索引擎无法提供足够的信息。因此,如何能突破限制,使手机客户也能搜索到来源于HTML的海量信息,成为移动搜索的主要问题之一。对于使用手机浏览HTML页面,一般的方法是加入一个WAP网关,当手机发出浏览HTML网页的请求时,由网关首先读取该网页,并将其转化成相应的WML,再发送到手机。这种方式也是当前将通用搜索引擎扩展为移动搜索引擎的流行方式。但是这种实时翻译的方式,显然对网关的性能和带宽要求较高。[0003]本发明针对移动搜索引擎的现状,在现有互联网搜索引擎的框架上加入移动模块,提出一种利用HTML资源建立移动搜索引擎的方式,该方式通过集中处理网络蜘蛛抓取的HTML网页,对网络蜘蛛抓取的HTML网页进行翻译处理,将其翻译成WML形式的网页快照,生成WML语言的网页快照,满足用户的移动搜索需求。以该技术建立的移动搜索引擎,不需要实时翻译网关的支持,可以方便的扩展已有的搜索引擎系统。在实际应用中,使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎,覆盖全国近四十个城市的餐饮、娱乐和黄页信息。【
发明内容】[0004]根据移动搜索引擎的现状,提出一种移动搜索引擎优化方法,包括以下步骤:[0005]A、设计移动搜索引擎框架[0006]包括以下步骤:本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成,还具有移动模块,作为移动搜索引擎,[0007]它包括三个部分:[0008]翻译器,将蜘蛛抓取的HTML页转化为WML页;[0009]WML网页快照库,保存转化后的WML页;[0010]WAP接口,用手机访问的用户界面;[0011]B、建立URL列表[0012]将抓取到的网页存入网页库,并将网页上的所有超链接存入到URL列表中;[0013]C、编辑翻译器[0014]翻译器具有网页过滤、主题信息过滤和翻译三个部分;[0015]C.1网页过滤[0016]首先将目录页面过滤,不予翻译,根据网页的文本节点数与链接数的比例,来划分页面的性质,存入索引库;[0017]C.2主题信息过滤[0018]提取网页的主题相关部分,选择不依赖于信息源的STU-DOM的树模型,[0019]将网页的table、tr、div和tbody标签结点作为分块结点,对于一个块的取舍用局部相关度LocalCorrelativity)和上下文相关度ContextualCorrelativity来衡量;局部相关度由块内链接和内容决定,其计算公式可以表达为:[0020]【权利要求】1.一种移动搜索引擎优化方法,其特征在于:包括以下步骤:A、设计移动搜索引擎框架包括以下步骤:本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成,还具有移动模块,作为移动搜索引擎,它包括三个部分:翻译器,将蜘蛛抓取的HTML页转化为WML页;WML网页快照库,保存转化后的WML页;WAP接口,用手机访问的用户界面;B、建立URL列表将抓取到的网页存入网页库,并将网页上的所有超链接存入到URL列表中;C、编辑翻译器翻译器具有网页过滤、主题信息过滤和翻译三个部分;C.1网页过滤首先将目录页面过滤,不予翻译,根据网页的文本节点数与链接数的比例,来划分页面的性质,存入索引库;C.2主题信息过滤提取网页的主题相关部分,选择不依赖于信息源的STU-DOM的树模型,将网页的table、tr、div和tbody标签结点作为分块结点,对于一个块的取舍用局部相关度LocalCorrelativity)和上下文相关度ContextualCorrelativity来衡量;局部相关度由块内链接和内容决定,其计算公式可以表达为:【文档编号】G06F17/30GK103838797SQ201210491498【公开日】2014年6月4日申请日期:2012年11月27日优先权日:2012年11月27日【发明者】李勇,郑世超申请人:大连灵动科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1