一种基于关键字搜索的移动互联网智能信息搜索引擎的制作方法

文档序号:6391730阅读:174来源:国知局
专利名称:一种基于关键字搜索的移动互联网智能信息搜索引擎的制作方法
技术领域
本发明涉及一种搜索引擎,特别是一种为移动互联网终端提供的,基于关键字搜索互联网上信息的智能搜索引擎。
背景技术
随着Internet的快速发展,网络上的信息急速增长,人们越来越依赖于从网络上去搜索需要的信息,搜索引擎是人们搜索网页和网站的工具。目前通过PC机上的浏览器可以实现比较好的信息获取,例如使用google,sohu,yahoo等搜索引擎。移动终端用户也可分别通过内置在移动终端上的wap浏览器和http浏览器来使用google等搜索引擎,使用时,根据输入命令中的关键字,搜索引擎得到和该信息有关的网络url地址链接,并返回到移动终端供用户选择访问。但由于其返回结果包含了标题、关键字和网站联接,没有对结果中的网站链接的网页中的信息元素进行分离,不适合在目前屏幕较小、计算功能较弱、网络带宽较小的移动终端的需要。
信息抽取技术原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域,网上文本信息的大量增加导致这方面的研究得到高度重视。信息抽取系统通常根据抽取规则或模式,确定需要抽取的信息。根据实际的应用情况可以有很多的信息抽取方法,本文所描述的技术是移动互联网智能信息搜索引擎,在信息抽取方面具有特定的方法。

发明内容
本发明的目的在于提供一种基于关键字搜索的移动互联网智能信息搜索引擎,以实现在移动终端上,可以在指定目标范围内的互联网站上,根据指定的信息分类栏目,进行基于关键字的信息快速搜索,同时将信息转换为满足终端特性和移动操作特性的表现形式。
本发明是这样实现的,一种基于关键字搜索的移动互联网智能信息搜索引擎,根据指定的设置栏目分类和目标网站,机器自动对目标网站进行采样和分析,生成搜索规则,并根据所述搜索规则对所述目标网站进行采集;然后,经过一个信息处理过程,将所述目标网站采集到的网元组织成特定的全文索引结构,并缓存,构成一个全文索引信息库;有一个搜索任务处理模块,对移动设备发出的搜索命令进行处理,通过设备和通道识别模块、移动互联网接入模块判断移动设备接入互联网的方式,进行移动设备的设备识别和所使用的通道的识别,将处理结果返回给移动设备。
上述搜索规则是指,利用系统自动分析目标网站结构,采集相应的具有相似布局的html网页信息,自动生成目标网站的内容连接获取表达式;并根据需要,生成确切定位的目标网元的内容匹配表达式;通过所述内容匹配表达式得到的目标网元以及目标网元和栏目分类的映射关系,形成一个网元映射图,生成一个内容获取表达式,形成所述搜索规则。
所述搜索引擎的信息处理过程是指,在上述搜索规则的驱动下,结合栏目分类,对目标网站进行采集获取的http协议数据信息,进行网页分解、匹配过滤、信息格式化、信息编码、智能句子去重环节,并结合特征码表,对信息显示做处理,删除要过滤的特征码字,最后输出一个去除了空格、标记、并且无非法字符、无其他非正文信息的纯文本信息。
所述搜索引擎的全文索引信息库内的信息在搜索规则下采集的并处理后的目标网元的文本内容组成,并以增量的方式为新录入的信息编制增量全文索引,并根据时间序列和所述栏目分类建立索引。
所述通道和设备识别模块通过通信的接入通道和协议头,识别移动终端的设备类型,从而得到该设备类型的配置信息;根据不同的移动终端,将搜索结果信息,经过一个可针对移动终端特性和移动用户操作特性的处理后,将移动协议数据输出到用户的移动终端,显示搜索的结果。
本发明通过采用以上技术方案,以人机交互的方式,设置栏目分类和目标网站,机器自动对目标网站进行采样和分析,生成搜索规则,并根据这些规则对所述目标网站进行采集;然后,经过一个信息处理流程,将所述目标网站采集到的网元组织成特定的全文索引结构,并缓存;有一个搜索任务处理模块,对移动设备发出的的搜索命令进行处理,通过判断所述移动设备接入互联网的方式,进行移动设备的设备识别和所使用的通道的识别,将处理结果经过相应的表现层处理后返回给移动设备。在目前的移动设备屏幕相对较小、计算能力较弱以及网络服务带宽的情况下,本发明填补目前移动领域该项服务的空白,并很好的满足了广大移动用户在移动信息获取方面的需要。


图1为本发明系统流程2为本发明生成搜索规则的示意3为本发明信息处理流程的示意4为本发明搜索任务处理示意5为本发明定制搜索任务示意图具体实施方式
下面结合附图对本发明做进一步详细描述如图1,总的来说,以人机交互的方式,设置栏目分类4和目标网站1,机器自动对目标网站分析2,形成搜索规则3,并根据这些规则采集引擎5对目标网站1进行采集;然后,经过一个信息处理过程6之后,将从目标网站1采集到的网元,组织成特定的全文索引结构并缓存,构成全文索引信息库7;有一个搜索任务处理模块8,对移动设备发出的搜索命令进行处理,通过设备识别和通道识别模块9、移动互联网接入模块10判断移动设备接入互联网的方式,进行移动设备的设备识别和所使用的通道的识别,将处理结果返回给移动设备。
如图2中所示,利用系统自动分析目标网站结构,采集相应的具有相似布局的html网页信息,自动生成内容网页连接获取表达式3.1,并根据人工决策,生成确切定位的目标网元的内容匹配表达式3.2,以及通过内容匹配表达式获得的目标网元,以及目标网元和栏目分类的映射关系,形成一个网元映射图,生成一个内容获取表达式3.3,构成搜索规则。
图2中,系统自动进行目标网站结构分析3.11、目标网页Tag语法结构分析3.12和目标网页内容结构分析3.13后,将从目标网站每个栏目、每个目录采集的基于tag语法的网页,按相同的布局、相同的目录进行分类,自动生成和对应目标网站相关的内容网页连接获取表达式3.1。
根据每个目标网站目录相似的布局网页Tag语法结构异同部分,网页内容结构异同部分,确定目标网页的全部目标网元位置,生成目标网页的内容匹配表达式3.2。
根据各个目标网元的信息类型的特征,通过内容匹配表达式3.2确定网页中各信息分析要素对应的目标网元,目标网元和栏目分类4的映射关系,也就是说,提供一个人工决策的方式,决定目标网元在目标网页上的位置,以及所属的栏目分类,形成一个网元映射图3.31,并生成目标网元的内容获取表达式3.3。
经过上述步骤,形成了搜索引擎完整的搜索规则3。
如图1、3所示,在搜索规则3的驱动下,结合栏目分类4,对目标网站1进行采集获取的http协议数据信息5.1经过一个信息处理过程6,进行网页分解6.1、匹配过滤6.2、信息格式化6.3、信息编码6.4、智能句子去重环节6.5,并结合特征码表6.7,对信息显示做处理6.6,删除要过滤的特征码字,最后输出的目标网元6.8是一个去除了空格、标记、并且无非法字符、无其他非正文信息的纯文本信息。此文本信息经处理后构成全文索引信息库7,以增量的方式为新录入的信息编制增量全文索引,并根据时间序列和栏目分类建立索引。
上述的智能句子去重是一种处理句子信息重复排除的方法,具体的步骤为,a)将信息按标点符号分成句,提取特征码,b)对信息进行特征码提取,每篇信息对N个自然句提取N个特征码,其余的忽略,不足的补零;c)对特征码进行排序、插入、查找、和比较,每条新信息只比较特征码和最相近的m篇信息,d)将差异在设定的值范围内的进行重复排除。
根据全文索引信息库7,如图4所示,搜索任务处理模块8接到移动终端发出搜索命令后,对任务进行处理,首先进行用户命令处理8.1,根据用户命令指定的组合搜索条件、栏目和时间范围,从全文索引信息库7中取得相应的结果集,然后进行查询结果集处理8.2,将该结果集打包;处理的结果通过通信的接入通道和协议头,对通过移动互联网接入10的移动终端的进行接入通道识别9.1和设备识别9.2,取得相应设备的信息,根据不同的移动终端,将搜索结果信息,经过一个可针对移动终端特性和移动用户操作特性的处理后,将移动协议数据输出到用户的移动终端,显示搜索的结果。
图5中,搜索任务处理模块8还可包括一个定时器8.3和一个定制器8.4,定时的检查移动终端用户定制的搜索任务,一般情况下搜索任务包括关键字组合以及所定制栏目,系统判断信息索引库中是否存在满足用户订阅条件的最新信息,若有自动将此信息推送到移动终端,若没有则继续等待定时器触发下次处理过程。
如欲在手机上通过wap的方式,对“金融栏目”的“专家分析”子栏目中搜索基于关键字“年底行情走势”有关的信息,具体的实现和实施的方式如下1、生成搜索规则这个部分是一个人机交互的方式来完成的,主要包含了如下的2个步骤A.网站分析通过对目标网站的自动分析,生成内容网页连接获取表达式、生成内容匹配表达式、生成内容获取表达式,最后生成完整的信息采集规则。
本例的匹配表达式sTitle>{.+?}<.+?<br>{.+?}<br><br></td></tr><
本例的获取表达式为ef=([\″′]|\b)*{[^<\″′]+?}(([\″′]|\b)[^>]*?>)|(>){[^<]+?}<1B.在多样化的网站中可以指定在目标网页上的任何一个网元(的文本内容)作为我们目标检索的区域,从而提高搜索的准确程度。
本例的栏目设定如下“金融栏目”编码001“专家分析”编码001001这两个步骤完成了驱动采集引擎所需要搜索规则表达式,主要的做法是对目标网站上的基于两个同一模板产生的内容网页对比的差别,分析网页结构和内容,分析网页TAG结构,确定各网元在源文件中的位置,各网元所处的Tag结构。分析各网元与数据库中定义的网元的顺序映射。并获取所有网页连接,确定内容网页,确定内容网页连接。生成连接获取表达式、内容匹配表达式、内容获取表达式。验证表达式。与其余参数组成完整的搜索规则。验证搜索规则。
确定一个对外的统一的服务栏目,按照大小栏目来分类,编码方式如下3个字符为单位,如001为第一层节点,001001为001节点下的子节点,001002为001节点下的子节点;002为第一层节点与001平级,依次类推。根据设定,搜索引擎将目标网站的信息规约到相应的服务栏目中,提供准确的内容服务。
2、信息采集和分类这个部分在设定的搜索规则的驱动下,自动完成,分如下的步骤。
A.据以上生成的搜索规则驱动,通过循环执行搜索规则,根据设定的大量目标网站群和目标栏目的采集,B.在采集过程中,按照迭代的方式只采集目标网站上出现的最新信息。
C.完成信息采集后,输出原始的网页http协议数据流。
搜索任务执行模块对任务进行分解,将搜索首先规则分成子任务。
首先取得首页栏目网页,栏目分类处理在搜索规则中有定义,执行连接获取表达式后,取得内容网页的连接,获取内容网页,将其提交信息处理,在获取下一个内容网页,并规约到“金融栏目”的“专家分析”子栏目。
对所采集的信息,根据规则规约到相应的分类栏目,就可以向用户提供一个可以管理的、统一的信息代理门户,使搜索的结果集更加精准。引擎只对新出现的信息进行采集,并以准实时更新的方式输出。
3、信息处理和缓存A.在采集获取的http协议数据信息,经过通过信息采集引擎的信息处理模块的处理。
也就是利用网站分析模块生成的搜索规则,使用内容获取表达式,进行网元提取。利用内容匹配表达式,进行网元分离,将所需的网元提取出来。为了降低内容获取表达式的复杂度,采用两级获取表达式提取,也就是二次匹配。如果内容获取表达式出错,写错误日志并返回错误代码。经过网元分解、匹配过滤、信息格式化、信息编码、信息去重处理等环节处理,最后输出一个去除空格、去除标记、无非法字符、无其他非正文信息的纯文本信息。
在过程中要对重复的信息文章进行去重的处理,具体的步骤将信息按标点符号分成句,提取特征码,每篇信息提取N个特征码,也就是取N个自然句,多余的忽略,不足的补0。两篇文章是否相似,取决于特征码重复度。特征码和,既一篇信息全部N个特征码累加和。相似的信息特征码和比较接近,不同的信息特征码累加和相差较大,利用Hash表进行特征码和排序、插入、查找。每条新信息只比较特征码和最相近的M篇信息以及最近M篇信息,就可以进行重复排除。对信息进行特征码提取,在缓存区中搜索内容相似的信息,如果有则排除重复信息,一般以自然句为单位提取特征码,目的是提高全文比较的速度。
B.按照以上的处理之后的“金融栏目”的“专家分析”的信息经由全文索引模块缓存到全文索引信息库,并以增量的方式为新录入的信息编制增量全文索引,此全文索引是编制以时间序列和栏目作为主键进行降序排列的全文索引,默认最新的信息在最前面,不同的栏目可以分别在不同的物理表以提高并发访问速度,从而可以提供更高效率的检索。
4、移动接入基于关键字的信息搜索处理有了上面描述的全文索引信息库,搜索任务处理模接到移动终端发出搜索命令后,对任务进行处理,处理的结果通过通信的接入通道和协议头,识别移动终端的设备类型,从一个管理库中取得相应设备的信息,在wap网页界面上对“金融栏目”的“专家分析”子栏目中搜索基于关键字“年底行情走势”有关的信息,将搜索结果信息,根据移动终端的不同特性,打包成wap协议数据,使得结果恰当的显示在终端上。
权利要求
1.一种基于关键字搜索的移动互联网智能信息搜索引擎,其特征是根据指定的栏目分类和目标网站,机器自动对目标网站进行采样和分析,生成搜索规则,并根据所述搜索规则对所述目标网站进行采集;然后,经过一个信息处理过程,将所述目标网站采集到的网元组织成特定的全文索引结构,并缓存,构成一个全文索引信息库;有一个搜索任务处理模块,对移动设备发出的搜索命令进行处理,通过设备识别和通道识别模块、移动互联网接入模块判断移动设备接入互联网的方式,进行移动设备的设备识别和所使用的通道的识别,将处理结果返回给移动设备。
2.根据权力要求1所述的智能信息搜索引擎,其特征在于所述搜索规则是指,利用系统自动分析目标网站结构,采集相应的具有相似布局的html网页信息,自动生成目标网站的内容连接获取表达式;并根据需要生成确切定位的目标网元的内容匹配表达式;通过所述内容匹配表达式得到的目标网元以及目标网元和栏目分类的映射关系,形成一个网元映射图,生成一个内容获取表达式,形成所述搜索规则。
3.根据权力要求1所述的智能信息搜索引擎,其特征在于所述信息处理过程是指,在搜索规则的驱动下,结合栏目分类,对目标网站进行采集获取的http协议数据信息进行网页分解、匹配过滤、信息格式化、信息编码、智能句子去重环节,并结合一个特征码表,对信息显示做处理,删除要过滤的特征码字,最后输出一个去除了空格、标记、并且无非法字符、无其他非正文信息的纯文本信息。
4.根据权力要求1所述的智能信息搜索引擎,其特征在于所述全文索引信息库内的信息由在搜索规则下采集的并处理后的目标网元的文本内容组成,并以增量的方式为新录入的信息编制增量全文索引,并根据时间序列和所述栏目分类建立索引。
5.根据权力要求1所述的智能信息搜索引擎,其特征在于所述通道和设备识别模块通过通信的接入通道和协议头,识别移动终端的设备类型,从而得到该设备类型的配置信息;根据不同的移动终端,将搜索结果信息,经过一个可针对移动终端特性和移动用户操作特性的处理后,将移动协议数据输出到用户的移动终端,显示搜索的结果。
6.根据权力要求2所述的智能信息搜索引擎,其特征在于所述的内容网页连接获取表达式是指,系统自动分析所述目标网站结构、目标网页Tag语法结构,目标网页内容结构,将从目标网站每个栏目、每个目录采集的基于tag语法的网页,按相同的布局、相同的目录进行分类,自动生成和对应目标网站相关的内容网页连接获取表达式。
7.根据权利要求2、6所述的智能信息搜索引擎,其特征在于所述内容匹配表达式为,根据每个目标网站目录相似的布局网页Tag语法结构异同部分,网页内容结构异同部分,确定所述目标网页的全部目标网元位置,生成目标网元的内容匹配表达式。
8.根据权利要求2、6所述的智能信息搜索引擎,其特征在于所述内容获取表达式为,根据各个目标网元的信息类型的特征,通过所述内容匹配表达式确定目标网页中各信息分析要素对应的目标网元,目标网元和栏目分类的映射关系形成一个网元映射图,以确定目标网元在目标网页上的位置,并生成目标网元的内容获取表达式。
9.根据权利要求7所述的智能信息搜索引擎,其特征在于所述内容获取表达式为,根据各个目标网元的信息类型的特征,通过所述内容匹配表达式确定目标网页中各信息分析要素对应的目标网元,目标网元和栏目分类的映射关系形成一个网元映射图,以确定目标网元在目标网页上的位置,并生成目标网元的内容获取表达式。
10.根据权力要求9所述的智能信息搜索引擎,其特征在于所述的智能句子去重是一种处理句子信息重复排除的方法,具体为,a)将信息按标点符号分成句,提取特征码,b)对信息进行特征码提取,每篇信息对N个自然句提取N个特征码,其余的忽略,不足的补零;c)对特征码进行排序、插入、查找、和比较,每条新信息只比较特征码和最相近的m篇信息,d)将差异在设定的值范围内的进行重复排除。
11.根据权利要求1至6所述任一智能信息搜索引擎,其特征在于搜索任务处理模块包括一个定时器和一个定制器。
12.根据权利要求8所述的智能信息搜索引擎,其特征在于搜索任务处理模块包括一个定时器和一个定制器。
13.根据权利要求10所述的智能信息搜索引擎,其特征在于搜索任务处理模块包括一个定时器和一个定制器。
全文摘要
本发明公开了一种基于关键字搜索的移动互联网智能信息搜索引擎,其特征是根据指定的栏目分类和目标网站,机器自动对目标网站进行采样和分析,生成搜索规则,并根据所述搜索规则对所述目标网站进行采集;然后,经过一个信息处理过程,将所述目标网站采集到的网元组织成特定的全文索引结构,并缓存,构成一个全文索引信息库;有一个搜索任务处理模块,对移动设备发出的搜索命令进行处理,通过设备识别和通道识别模块、移动互联网接入模块判断移动设备接入互联网的方式,进行移动设备的设备识别和所使用的通道的识别,将处理结果返回给移动设备。本发明填补目前移动领域该项服务的空白,并很好的满足了广大移动用户在移动信息获取方面的需要。
文档编号G06F17/30GK1677389SQ20041002667
公开日2005年10月5日 申请日期2004年3月31日 优先权日2004年3月31日
发明者张光强, 张炜 申请人:宇龙计算机通信科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1