一种移动搜索引擎优化方法

文档序号：6491819阅读：260来源：国知局

一种移动搜索引擎优化方法【专利摘要】本发明提出了一种移动搜索引擎优化方法。包括以下步骤：设计移动搜索引擎框架；建立URL列表；编辑翻译器;设计WAP接口.由于本发明针对移动搜索引擎的现状，在现有互联网搜索引擎的框架上加入移动模块，提出一种利用HTML资源建立移动搜索引擎的方式，该方式通过集中处理网络蜘蛛抓取的HTML网页，将HTML网页进行主题信息提取，再将主题信息转化成手机可以识别的WML页面，并存入WML的快照库中，当用户点击条记录察看具体网页时，系统不会直接链接互联网上的该网页，而是链接该网页相对应的WML网页快照,满足用户的移动搜索需求。在实际应用中，使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎，覆盖全国近四十个城市的餐饮、娱乐和黄页信息。【专利说明】一种移动搜索引擎优化方法【
技术领域：
】[0001]本发明涉及移动互联网技术，特别是一种移动搜索引擎的优化方法。【
背景技术：
】[0002]搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。当今，随着无线通讯技术的创新和手机的普及，移动上网渐渐成为发展趋势，为了满足用户随时随地查询衣食住行信息的需求，如何建立移动搜索引擎，成为移动网络应用的热点。移动上网受手机终端和传输带宽的限制，纯HTML文本只有少数智能机型可以支持，大多数手机只识别WAP协议标记的语言，如WML或xHTML。但是，网络信息主要以HTML语言表达，WAP的资源有限，单纯以爬取WAP页面作为信息来源的移动搜索引擎无法提供足够的信息。因此，如何能突破限制，使手机客户也能搜索到来源于HTML的海量信息，成为移动搜索的主要问题之一。对于使用手机浏览HTML页面，一般的方法是加入一个WAP网关，当手机发出浏览HTML网页的请求时，由网关首先读取该网页，并将其转化成相应的WML，再发送到手机。这种方式也是当前将通用搜索引擎扩展为移动搜索引擎的流行方式。但是这种实时翻译的方式，显然对网关的性能和带宽要求较高。[0003]本发明针对移动搜索引擎的现状，在现有互联网搜索引擎的框架上加入移动模块，提出一种利用HTML资源建立移动搜索引擎的方式，该方式通过集中处理网络蜘蛛抓取的HTML网页，对网络蜘蛛抓取的HTML网页进行翻译处理，将其翻译成WML形式的网页快照，生成WML语言的网页快照，满足用户的移动搜索需求。以该技术建立的移动搜索引擎，不需要实时翻译网关的支持，可以方便的扩展已有的搜索引擎系统。在实际应用中，使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎，覆盖全国近四十个城市的餐饮、娱乐和黄页信息。【
发明内容】[0004]根据移动搜索引擎的现状，提出一种移动搜索引擎优化方法，包括以下步骤:[0005]A、设计移动搜索引擎框架[0006]包括以下步骤:本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成，还具有移动模块，作为移动搜索引擎，[0007]它包括三个部分:[0008]翻译器，将蜘蛛抓取的HTML页转化为WML页；[0009]WML网页快照库，保存转化后的WML页；[0010]WAP接口，用手机访问的用户界面；[0011]B、建立URL列表[0012]将抓取到的网页存入网页库，并将网页上的所有超链接存入到URL列表中；[0013]C、编辑翻译器[0014]翻译器具有网页过滤、主题信息过滤和翻译三个部分；[0015]C.1网页过滤[0016]首先将目录页面过滤，不予翻译，根据网页的文本节点数与链接数的比例，来划分页面的性质，存入索引库；[0017]C.2主题信息过滤[0018]提取网页的主题相关部分，选择不依赖于信息源的STU-DOM的树模型，[0019]将网页的table、tr、div和tbody标签结点作为分块结点，对于一个块的取舍用局部相关度LocalCorrelativity)和上下文相关度ContextualCorrelativity来衡量；局部相关度由块内链接和内容决定，其计算公式可以表达为:[0020]【权利要求】1.一种移动搜索引擎优化方法，其特征在于:包括以下步骤:A、设计移动搜索引擎框架包括以下步骤:本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成，还具有移动模块，作为移动搜索引擎，它包括三个部分:翻译器，将蜘蛛抓取的HTML页转化为WML页；WML网页快照库，保存转化后的WML页；WAP接口，用手机访问的用户界面；B、建立URL列表将抓取到的网页存入网页库，并将网页上的所有超链接存入到URL列表中；C、编辑翻译器翻译器具有网页过滤、主题信息过滤和翻译三个部分；C.1网页过滤首先将目录页面过滤，不予翻译，根据网页的文本节点数与链接数的比例，来划分页面的性质，存入索引库；C.2主题信息过滤提取网页的主题相关部分，选择不依赖于信息源的STU-DOM的树模型，将网页的table、tr、div和tbody标签结点作为分块结点，对于一个块的取舍用局部相关度LocalCorrelativity)和上下文相关度ContextualCorrelativity来衡量；局部相关度由块内链接和内容决定，其计算公式可以表达为:【文档编号】G06F17/30GK103838797SQ201210491498【公开日】2014年6月4日申请日期:2012年11月27日优先权日:2012年11月27日【发明者】李勇,郑世超申请人:大连灵动科技发展有限公司

完整全部详细技术资料下载

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。