基于网站自动生成和搜索引擎的信息推送系统及方法

文档序号:6557974阅读:259来源:国知局
专利名称:基于网站自动生成和搜索引擎的信息推送系统及方法
技术领域
本发明涉及一种互联网通讯信息技术领域,特别是指一种基于网站自动生成和搜索引擎的信息推送系统及方法。
背景技术
目前,互联网以及相关技术的应用与普及,已经在全世界范围内从根本上改变了人们的生活。人们从信息、通讯、娱乐和工作等各个方面已经对这种新型的媒介形成了强大的依赖。在互联网的诞生地美国,几乎所有的企业都建立了自己的网站,越来越多的营销活动在网上进行,越来越多的人利用网络寻求商业信息,或直接在网上购物。互联网已经从通讯,娱乐等领域步入了人们的日常活动中。互联网在中国国内也得到了迅猛发展。根据最新统计,中国的上网人口总数已经超过一亿,网民数量超过美国,成为世界第一的互联网大国已经指日可待。
互联网的广泛使用与搜索引擎的技术和应用有着密切的关系。当今世界上所有的搜索引擎技术,包括美国的Google、中国的百度,以及其他服务商的搜索引擎,所提供的应用方式主要是“信息求取”(Get),即搜索引擎服务商在他们自己的网站上显示搜索框,搜索者在搜索引擎公司网站上的搜索框中输入关键字,搜索引擎根据搜索者的请求抓取相关数据,并将其作为结果呈现给搜索者。其中搜索者为主动,搜索引擎为被动。
此外,当今世界上所有的搜索引擎所使用的技术都包括以下三大功能模块(1)爬网;(2)分词索引;(3)搜索。其中,爬网是将全世界的网站网页尽可能多的“抓”到自己的服务器中存起来,然后用一定的方法进行分词检索,最后还要有大量的服务器阵列来应对大量的搜索请求。这三大功能模块也是搜索引擎技术的“信息求取”(Get)应用方式所必不可少的。

发明内容
本发明的目的在于提出一种基于网站自动生成和搜索引擎的信息推送系统及方法。
传统的搜索引擎技术应用方式为“信息求取”(Get),其中用户为主动,搜索引擎为被动。本发明所提出的搜索引擎技术应用方式为“信息推进”(Push),其中搜索引擎为主动,用户为被动。
本发明是利用搜索引擎的分词技术,通过用户使用本发明所提供的“网站自动生成系统”生成的网站,从中发现用户的需求,尤其关注供求链中的上、下游关系。根据这些需求,本发明的搜索引擎就可从数据库中搜索到提供相应服务的企业,并可主动将该信息推送给用户。
本发明的技术方案是一种基于网站自动生成和搜索引擎的信息推送系统,其特征在于它包括计算机或移动设备通过互联网及路由器与模板式网站自动生成系统、专业搜索引擎系统及智能信息推送系统相连接;模板式网站自动生成系统,它包括用户信息管理子系统、网页模板维护子系统、网站自动生成子系统、网站管理子系统、搜索竞价排名系统;专业搜索引擎系统,它包括网页收集系统、海量存储系统、网页索引系统、索引检索系统;智能信息推送系统,它包括专家知识库、信息匹配及推送、订阅管理系统、文章及信息分类。
其中,所述的模板式网站自动生成系统,它包括用户信息管理子系统、网页模板维护子系统、网站自动生成子系统、网站管理子系统;A)、用户信息管理子系统负责收集用户信息;用户自管理功能;用户可以凭用户名密码登录到管理界面中增加,修改或删除用户信息。
B)、网页模板维护子系统它设有不同的网站设计模板,包括不同的行业,如计算机、IT、电子、时尚、服装、服饰、金融、投资、保险等;并且每一个模板还设有搜索功能框;C)、网站自动生成子系统1)、用户注册,然后进入网站自动生成向导系统;2)、用户选择网站模板,系统提供几十个行业,上千个事先设计好的模板供用户选择;3)、用户选择网站栏目链接选如公司简介、业务或产品介绍、产品展示、联系方式等等;4)、用户输入网页信息编辑器允许用户输入不同形式的网页内容,它包括普通文字,或文字链接,或表格式文档;且编辑器还可允许用户改变文字字体、颜色、背景颜色;5)、如果用户选择了产品展示,则上传产品图片及输入关于产品的说明文字;6)、网站发布用户可即时看到系统自动生成的真实网站,任何人在世界任何地方可即时访问。
其中,所述的网站自动生成系统,它还包括1)、客户留言允许网站的访问者输入留言和对公司服务与所销售产品的咨询,网站管理员可登录到管理界面中查询、管理留言;其中包括回复留言和将留言显示在网页上;2)、人才招聘它允许用户发布和随时更新招聘信息;并允许网站管理员登录到管理界面中查看应聘人员简历;在所述的管理系统中查询、浏览、响应所发布招聘职位的应聘简历,并与应聘人员取得联系。
D)、网站管理子系统用户可随时到管理界面中管理网站,包括1)、允许用户在线删除和修改已经建成的网页内容或增加新的网页内容,并可随时发布浏览;管理系统允许用户随时增加、删除和修改包括产品图片在内的产品信息;2)、域名管理允许用户在线注册域名或转移域名,并将其与所选用的模板式网站绑定;
3)、邮箱管理允许用户在线设立增加新邮箱;改变已有邮箱大小;设置邮件转发;改变邮箱密码或找回邮箱密码;所述的专业搜索引擎系统,是本发明与用户外部使用界面,由索引检索系统接收用户查询请求,然后经广播/汇集器发送到检索服务阵列中进行同步查询;每一个检索服务器所使用的索引段又是由网页索引系统生成;被索引的网页则来自于网页搜集系统;这样各部分协同工作,构成一个搜索引擎整体。它包括网页收集系统,海量存储系统;网页索引系统;索引检索系统,其中,A)、所述的网页收集子系统,它是一个并行工作的爬虫系统,从互联网中并行高速地抓取网页,得到网页内容后由并行网页分析器对其进行内容分析,提取新的网页链接,存入链接管理器以备抓取所用;经过一段时间的收集后,子系统内就会收集并维护一份互联网全部网页的地址;包括(1)、链接管理器它是网页收集系统的处理起点,初始时,网页链接器内需要注入一个初始的链接集合,然后根据这些初始链接指挥具体的网页抓取器进行爬网,同时链接管理器接收链接分析器的输出结果(经过网页内容分析后所得的新链接集);这样经过几轮的爬网→分析→提取链接→入库→再爬网的循环,链接管理器内最终收录互联网的全部链接(无限逼近),每个链接的相关信息也都进入链接管理器内进行维护;(2)网页抓取器链接管理器根据平衡、高效的原则把所有已知链接分割成数个链接子集,每个链接子集交给一个网页抓取器,多个网页抓取器并行工作,把各自的链接集合内的网页内容抓取回来,存放在本地的网页池内,供后续的链接分析器工作之用。网页抓取器的工作原理于网页浏览器相似,它针对不同协议的链接类型,采取不同协议模块,利用从网页链接管理器中所提取的链接相关信息,处理各种复杂的情况(认证,https,加密,javascript等),把网页内容抓取到本地;(3)链接分析器它是一个高效率的html语言解析器,它读入html流,根据html标准分析,提取所有的链接,然后根据这些链接更新链接管理器内的链接;所有的链接分析器并行工作,可以随网页抓取的速度动态调整负载,实现高效率网页分析;再把分析过的网页内容存入海量存贮系统内,以备后续的网页索引系统使用。
B)、海量存储子系统它是一个分布式的,具有良好可伸缩性的,高效率的网络文件系统,它特别针对搜索引擎的存储特性所设计,采用压缩文件集存储的方式,利用块索引节点服务器加数据节点服务器的方法,把海量信息以文件集为单位,均匀的分布在各个数据节点上,同时每个文件集都同时保存在2个以上的数据节点中,提供有效的数据备份能力;在文件提取时,文件使用端首先从块索引节点上查询到相应的文件所在的目标数据节点服务器,然后从目标数据节点服务器中直接提取文件,实现了海量存储的高效率,高可用性;包括1)、块索引节点服务器(Master)在海量存储系统中,文件被压缩到文件集中,再以32M为一块来进行存储;由块索引节点服务器来维护所有数据节点和所有数据快的对应数据,同时,服务器还动态的维护一个可用服务器列表,当有文件需要存储时,它首先找到一个在线的有空间的数据节点,然后将数据块写入,同时记录数据块的位置信息,当有三个以上的数据节点可用时,块索引节点还负责在把块数据的2份备份数据块复制到另外的2个数据节点上,实现数据的冗余保护;当客户端需要提取数据块时,服务器先查找该数据块存放在哪一台在线服务器中,然后把节点号返回给客户,由客户端直接与节点通讯,取得目标数据块;2)、数据节点服务器(Chunkserver)它是海量存储系统的实际数据存放服务器,它建立在普通的Linux文件系统之上;以文件形式存放32M的块数据;当数据节点服务器启动后,会自动在块索引服务器上进行登记,然后等待接收块索引服务器存放数据块,同时,数据节点服务器还监听客户的数据请求,发现有客户请求数据时,服务器会从本地文件系统中提取相应的数据,发送给客户端;C)、网页全文索引子系统建立网页的全文索引是提供搜索功能的前提,商务搜网页全文索引系统采用并行处理方式,各个索引服务器并行的从海量存储系统中批量的读取已经抓取回来的网页,利用中文分词功能,把网页内容分割成词序列,再根据词序列建立逆序索引结构,即按词→网页的顺序索引。同时将词汇出现在网页中的位置和次数等信息记录在索引结构中;批量网页的索引工作完成后,由索引数据管理器负责对并行索引结果进行合并,整合,统一存贮在海量存贮系统中;再把统一的网页索引按照可控的固定大小进行分割,发送到索引查询集群中,为实际的搜索提供搜索基;包括1)、中文分词词汇是构成语言的基本单位,英语类语言由于天然的使用空格作为分隔符,所以英语几乎不存在分词问题,只有词汇识别问题,但中文则不同,中文的句子是由汉字一个接一个的连在一起构成的,并无天然的分割,人要读懂一句话,大脑所要做的必不可少的一项工作就是要先分析出句子中词汇的构成。建立中文的全文索引同样也有这个问题。要针对词汇进行索引就必须先把句子分割成一个个的词汇,然后才能对每个词汇进行逆序索引,这就是中文的分词问题。商务搜的中文分词采用字典匹配(最大匹配)算法,同时结合2元分词算法来构造。字典是按照统计学的原理对数亿字节的中文进行词频统计后所得出的词汇表,加上人们日常用语中的词汇等各个渠道所能汇集的词汇而得来。力求能够覆盖中文中99.9%的使用词汇。同时对于不能使用查词典方式来处理的句子则使用二元分词方式处理,例如“乒乓球拍卖完了”这样的二义性的句子采用词典分词会有两种不同的结果,如果采用二元分词则两种意义都会覆盖。两种方式协同工作,可以保证最大限度的提高分词的准确度和可用性。
2)、全文索引引擎全文索引引擎是实现网页内容索引的核心处理模块,经过这个引擎的处理,网页内的词汇一一被索引可以直接检索的索引结构。引擎首先使用中文分词功能对网页内容进行处理,生成一个个的词汇列表,然后统计各个词汇在网页内的出现位置,频度等信息,根据这些信息建立词汇到网页的逆向索引序,存入索引文件。全文索引引擎并行工作,可以同时对数百网页进行索引。
3)、索引数据管理网页经过全文索引引擎索引后,生成的索引文件是分散的,不利于统一使用和查询,索引数据管理器负责把各个分散的索引文件进行合并及优化,然后统一存放在海量存贮系统内,同时,管理器会根据设定触发条件对所有的索引内容进行定长分割,并将分割后的索引段发送至各个索引检索服务器,由索引检索服务器缓存在内存中,再由检索阵列来实现高速,并行的查询功能。
D)、索引检索子系统索引查询系统是用户直接使用的前端系统,它由数百到数万台索引检索服务器组成的检索阵列及查询广播/合并系统和web集群系统构成;包括1)、检索服务器阵列网页经过索引后所生成的索引文件是随网页量的增长而不断增长的,到目前为止,全世界网页的数量已经超过200亿,以每个网页平均10K计算,全世界的网所生成的索引量至少在100TB以上,在如此巨大的索引集中做一次查询,不采用并行处理技术是不可想象的。检索服务器阵列由数百至数万台小型服务器组成,每台服务器上都分配一段几个G的索引子集,当接到查询请求时,所有的服务器并行工作,可以在几十个毫秒内完成各自索引子集的查询,然后上报查询结果。
2)、查询广播/合并系统查询广播/合并系统指挥数百至数万台服务器协同工作把每个查询请求发送到检索阵列中的每一台服务器中,同时迅速地把查询结果汇集起来,再把查询结果发送回相应地网络服务器。所有的操作加起来不能超过一秒钟。该子系统使用动态可伸缩架构,可以根据系统负载情况增减阵列内的服务器。不同的查询被均衡的发布到阵列之中,指派其中一台服务器负责某一个查询,各个服务器使用UDP广播功能及UDP定点发送功能进行查询广播和结果收集,结果汇集后在发送给前端的网络服务器。
3)、网页服务器(WebServer)集群搜索引擎为了能够达到每天处理上亿次查询的能力,不仅后台系统使用阵列,集群系统,在网页服务器端同样使用可扩充的负载均衡的集群系统,前置服务器由一台高性能服务器充当负载均衡器,几台至数十台服务器作为实际的网页服务器,每一台实际的网页服务器都定时把负载情况通报给均衡器。当有查询请求通过http协议到达时,前置服务器根据当时各个网页服务器的负载情况,将该请求转发到较空闲的某一台服务器中,然后继续处理下一次请求。高峰时系统可以处理每秒6000次请求。全天可以处理5亿次以上查询请求。
一种基于网站自动生成和搜索引擎的信息推送方法,它包括1)、通过用户注册收集用户基本信息填入信息资料,如姓名、地址、电话、用户名和密码以及行业等信息,该数据将被存入系统数据库中,此时用户注册成功;2)、进入网站自动生成向导系统A)、用户选择模板用户可在系统预先设置的若干个网站模板中根据其需求来进行选择;B)、选择栏目链接用户可以从系统所设置的列表中进行拦目选择,或自行输入链接文字;C)、信息填写利用全屏编辑器,输入各栏目的信息资料,该信息将是网站上被浏览的信息。本发明所述的搜索引擎技术将利用这些资料,分析用户可能感兴趣的其他信息,以便在今后向其推送此用户感兴趣的相关信息。
D)、用户产品展示发布产品图片及各种文字信息;F)、网站预览用户可以预览系统自动生成的网页;并可回到前面步骤去修改、增加、删除已输入的信息;G)、搜索功能框自动生成上述各种信息被搜索引擎自动收录;H)、网站发布用户选择直接发布网站,可在浏览器地址栏输入主页网址,则网站发布成功;I)、用户如果要更改和维护网站内容,则进入“会员登录”,可在网站管理界面中进行修改、增加、删除已输入的网站信息;K)、用户可根据需求选择“留言管理”它可直接删除和回复客户的留言;L)、用户可根据需求选择“域名管理”它可进行网站注册、转入和绑定国际域名;M)、用户可根据需求选择“邮箱管理”设置带用户自己域名后缀的邮箱。
本发明所述的“信息推进”(Push)方法,主要利用搜索引擎技术中的“网页全文索引子系统”。当用户利用所述的“网站自动生成系统”输入信息后,所填写的信息资料会被存入数据库。同时,或在今后任何时候,所述的搜索引擎的全文索引子系统会读取用户网页信息,利用中文分词功能,把网页内容分割成词序列,同时将词汇出现在网页中的位置和次数等信息汇录在索引结构中。由索引数据管理器负责对索引结果进行分析整合,统一存储在数据库中。
这种利用搜索引擎技术对用户网页进行分词索引的结果可以有多种应用。
对于一个企业用户,可以从他所输入的网页信息中分析出,他的企业是在什么行业中的,他的产品是什么,他的企业的规模,所在地区等信息。而与这些信息相关的第三方信息,就可以被推送到这个用户面前。
例如,所述“信息推进”(Push)方法在“网站自动生成系统”中的“人才招聘子系统”的应用是当企业输入人才招聘的信息时,所述的搜索引擎会立刻分析企业招聘要求,需要什么行业的人才,所在地区、经验、学历及其他要求。将分析结果与人才简历库中的简历进行比对,即时将合适的人才简历推送到招聘企业用户面前。这一应用的效应是,当企业输入招聘信息后,点击“提交”按钮,所需人才的简历就自动出现在用户面前。从而实现了招聘系统平台的智能化。
本发明还可与人工智能化的关键词数据库相连接,可达到“信息推送”(Push)的另一智能效果。例如当通过搜索引擎技术的分析,知道某家企业是生产显象管的,如果我们同时又能够建立起产业链供求关系的关键词数据词,知道生产显象管的企业有可能存在电子元器件;或闪光涂料的上游需求;以及电视机生产企业的下游需求,本发明就可以将这些上下游企业相关信息推送到生产显象管的企业面前,从而实现了电子商务平台的智能化。
本发明的优点在于1.本发明所述的“信息推进”(Push)方法是基于“网站自动生成系统”和“搜索引擎”技术之上的,它将原来相互独立的两项互联网技术有机的结合起来。同时,“搜索引擎”技术的“信息推进”(Push)方法也只有在“网站自动生成系统”配合下,才能变的有的放矢。
2.由于本发明所述的“信息推进”(Push)方法是在利用所述的“搜索引擎”技术,分析用户使用所述的“网站自动生成系统”生成的网页之后,针对用户推送其最可能感兴趣、最可能存在需求的信息,故本发明可在更大程度上满足用户的需求。此外,对用户网页资料的分析,导致了对用户全面深入的了解,有可能产生多种潜在应用。
3.本发明所述的“信息推进”(Push)方法,将使电子商务平台智能化。用户使用所述的“网站自动生成系统”建立网站,我们的电子商务平台利用所述的“搜索引擎”技术对用户的网页资料进行分析,经过这些步骤之后,我们的电子商务平台已经对用户有了深入的了解,因此,也就可能在用户主动提出请求之前,利用“信息推进”(Push)方法,向用户推荐其最感兴趣,最需要的服务。
4.本发明所述的“信息推进”(Push)方法,将使人才招聘系统智能化。用户输入“人才招聘”信息及对所招聘人员的需求,点击“提交”后,本发明“搜索引擎”技术将会对输入信息进行读取分析,并根据需求,在用户提出请求之前,自动即时地将所需人才的简历及其相关信息送到企业用户面前。
5、本发明使拥有搜索引擎技术与虚拟主机经营业务及网站建立业务三者统一为一体,它实现了“搜索引擎”技术的“信息推进”(Push)方法。


图1是本发明的系统方框图。
图2是本发明的专业搜索引擎系统流程方框图。
图3是本发明的网页收集子系统流程方框图。
图4是本发明的海量存储子系统流程方框图。
图5是本发明的的网页全文索引子系统流程方框图。
图6是本发明的的索引检索子系统流程方框图。
图7是本发明的网站自动生成系统流程图。
图8是本发明的智能信息推送系统的处理流程方框图。
具体实施例方式
下面将结合附图及实施例对本发明作进一步说明。
本发明系统方框图,如图1所示。本发明网站自动生成和搜索引擎的信息推送系统,它包括计算机10或移动设备65通过互联网11及路由器12与模板式网站自动生成系统、专业搜索引擎系统及智能信息推送子系统相联接。其中,所述的模板式网站自动生成系统,它包括用户信息管理子系统1、网页模板维护子系统2、网站自动生成子系统3、网站管理子系统4、搜索竞价排名系统5;所述的专业搜索引擎系统,它包括网页收集系统6、海量存储系统7、网页索引系统8、索引检索系统9;所述的智能信息推送系统,它包括专家知识库48、信息匹配及推送49、订阅管理系统50、文章及信息分类51。
本发明的专业搜索引擎系统流程方框图,如图2所示信息数据由网页获取服务器13获取,将其存放到缓存池14中;网页全文索引服务器15处理缓存池14中的数据,并生成全文索引,存放在索引存储池16中;检索服务器17从全文索引存储池16中读取索引数据;然后接收查询/汇集服务器18的查询请求,生成查询结果;然后把查询结果返回;web访问服务器19是最先接收用户查询请求的节点,用户请求经预处理后,发送至查询/汇集服务器18;再由查询/汇集服务器18负责把查询请求分解,广播到各个检索服务器17中,并负责把查询结果汇集;然后再返回至web访问服务器19,由web访问服务器19发送回用户浏览器端。
本发明的网页收集子系统流程方框图,如图3所示链接注入22接受域名集合20和其他外部链接集21;注入中央链接数据库23;然后由链接分割24把中央链接数据库23内的数据分割成一个个的链接子集25;每一个链接子集由一个网页爬虫26负责把子集内每一个链接抓取回来;写入本地文件系统27;链接分析器28定时启动,对存放在本地文件系统27内的网页进行分析,一方面把分析出来的新的链接回存到中央链接数据库23中,同时负责把分析过的网页写入网络存储池29中。
本发明的海量存储子系统方框图,如图4所示它特别针对搜索引擎的存储特性所设计,它采用分布式可伸缩结构,对文件集压缩存储。利用块索引服务器31加块服务器33的方法,把海量信息以压缩文件集为单位,均匀的分布在各个数据节点的文件系统34上,它是搜索引擎系统的主要存储功能单元。当客户端30需要读写数据时,首先到块索引服务器31上查询可用数据服务器;块索引服务器31根据索引数据32从可用的块服务器群中找出一个可用的块服务器33;把该服务器编号返回给客户端30;客户端30根据这个编号直接与目标块服务器33通信;块服务器33根据客户端30的请求,对文件系统34进行相应的数据读写操作,然后把读写结果再返回给客户端30。
本发明的的网页索引系统流程方框图,如图5所示全文索引引擎15参考中文分词库35对网页存储池14中的网页进行全文索引,生成索引文件36;然后发送给索引数据管理37,由索引数据管理37负责将各个索引文件36合并,存入网页全文索引存储池16中;同时对网页全文索引存储池16中的数据进行分割,生成后序所需的一个个索引段38。
本发明的索引检索系统流程方框图,如图6所示检索服务器17读入索引段38,等待查询/汇集服务器18的检索请求;网络服务器19接收到用户的查询请求后,将请求进行预处理,然后发送该请求至查询/汇集服务器18中;由查询/汇集服务器18负责把请求广播到检索服务器17中;检索服务器17完成检索后,把结果再返回到查询/汇集服务器18;由查询/汇集服务器18对各个检索服务器17的所有结果进行汇集,排序等工作后,再统一发送回网络服务器19;由网络服务器19再将搜索结果返回到用户浏览器端。
本发明的网站自动生成系统流程图,如图7所示用户首先进行注册39,注册完成后进入网站自动生成向导系统40;向导完成后进入选择模板41过程;然后进行选择栏目42;信息填写43;产品发布44;发布预览45;当用户对预览满意后,进入搜索框自动生成46操作;网站发布47。从选择模板41到网站预览45,中问过程可以随时返回上一步进行修改,方便用户提高效率。
本发明的智能信息推送系统流程方框图,如图8所示信息推送的信息来源于互联网54,它由搜索引擎57提供;经过海量信息自动分类处理60后,供信息匹配及推送49使用;网站用户52负责用户网站的内容维护55;网站内容会提交给文章及信息分类51进行分类处理;会员53使用商机订阅56的功能对自己所关注的商机信息进行订阅;其订阅信息由订阅管理系统50进行管理;信息匹配及推送49根据文章及信息分类51和订阅管理系统50所提供的信息,参照专家知识库48,进行信息相关度运算,将匹配成功的信息提取出来;然后,根据用户预定的推送渠道进行推送,如果推送终点是在互联网上,则交给互联网渠道信息推送63处理;如果是推送终点是移动设备,则交给移动终端信息推送64处理。
权利要求
1.一种基于网站自动生成和搜索引擎的信息推送系统,其特征在于它包括计算机或移动设备通过互联网及路由器与模板式网站自动生成系统、专业搜索引擎系统及智能信息推送系统相联接;其中,模板式网站自动生成系统,它包括用户信息管理子系统、网页模板维护子系统、网站自动生成子系统、网站管理子系统、搜索竞价排名系统;专业搜索引擎系统,它包括网页收集系统、海量存储系统、网页索引系统、索引检索系统。
2.根据权利要求1所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于A)、所述的用户信息管理子系统负责收集用户信息;用户自管理功能;用户可以凭用户名密码登录到管理界面中增加,修改或删除用户信息;B)、所述的网页模板维护子系统它设有不同的网站设计模板,包括不同的行业;并且每一个模板设有搜索功能框;C)、所述的网站自动生成子系统它包括1)、用户注册,然后进入网站自动生成向导系统;2)、用户根据其需求选择网站模板;3)、用户选择网站栏目链接选;4)、用户输入网页信息5)、如果用户选择了产品展示,则上传产品图片及输入关于产品的说明文字;6)、网站发布D)、所述的网站管理子系统用户可随时到管理界面中管理网站,包括在线修改网页内容,随时发布浏览。
3.根据权利要求2所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于所述的网站管理子系统,它还包括;域名管理或邮箱管理。
4.根据权利要求1或2所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于所述的网站自动生成系统,它还包括搜索竞价排名系统,可对某些关键词进行竞价,使用户网站在相应搜索结果中排名靠前。
5.根据权利要求1或2所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于所述的网站自动生成系统,它还包括A)、客户留言允许网站的访问者输入留言和对公司服务与所销售产品的咨询,网站管理员可登录到管理界面中查询、管理留言;其中包括回复留言和将留言显示在网页上;B)、人才招聘发布和随时更新招聘信息;网站管理员登录到管理界面中查看应聘人员简历;在所述的管理系统中查询、浏览、响应所发布招聘职位的应聘简历,并与应聘人员取得联系。
6.根据权利要求1所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于所述的网页收集系统,它是一个并行工作的爬虫系统,从互联网中并行高速地抓取网页,得到网页内容后由并行网页分析器对其进行内容分析,提取新的网页链接,存入链接管理器以备抓取所用;经过一段时间的收集后,子系统内就会收集并维护一份互联网全部网页的地址;包括A)、链接管理器它是网页收集系统的处理起点,初始时,网页链接器内需要注入一个初始的链接集合,然后根据这些初始链接指挥具体的网页抓取器进行爬网,同时链接管理器接收链接分析器的输出结果;B)网页抓取器链接管理器根据平衡、高效的原则把所有已知链接分割成数个链接子集,每个链接子集交给一个网页抓取器,多个网页抓取器并行工作,把各自的链接集合内的网页内容抓取回来,存放在本地的网页池内,供后续的链接分析器工作之用。网页抓取器的工作原理于网页浏览器相似,它针对不同协议的链接类型,采取不同协议模块,利用从网页链接管理器中所提取的链接相关信息,处理各种复杂的情况,把网页内容抓取到本地;C)链接分析器它是一个高效率的html语言解析器,它读入html流,根据html标准分析,提取所有的链接,然后根据这些链接更新链接管理器内的链接;所有的链接分析器并行工作,可以随网页抓取的速度动态调整负载,实现高效率网页分析;再把分析过的网页内容存入海量存贮系统内,以备后续的网页索引系统使用。
7.根据权利要求1所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于所述的海量存储系统它采用压缩文件集存储的方式,利用块索引节点服务器加数据节点服务器的方法,把海量信息以文件集为单位,均匀的分布在各个数据节点上,同时每个文件集都同时保存在至少2个以上的数据节点中,提供有效的数据备份能力;在文件提取时,文件使用端首先从块索引节点上查询到相应的文件所在的目标数据节点服务器,然后从目标数据节点服务器中直接提取文件,实现了海量存储的高效率,高可用性;包括A)、块索引节点服务器在海量存储系统中,文件被压缩到文件集中,再以32M为一块来进行存储;由块索引节点服务器来维护所有数据节点和所有数据快的对应数据,同时,服务器还动态的维护一个可用服务器列表,当有文件需要存储时,它首先找到一个在线的有空间的数据节点,然后将数据块写入,同时记录数据块的位置信息,当有三个以上的数据节点可用时,块索引节点还负责在把块数据的2份备份数据块复制到另外的2个数据节点上,实现数据的冗余保护;当客户端需要提取数据块时,服务器先查找该数据块存放在哪一台在线服务器中,然后把节点号返回给客户,由客户端直接与节点通讯,取得目标数据块;B)、数据节点服务器它是海量存储系统的实际数据存放服务器,它建立在普通的Linux文件系统之上;以文件形式存放32M的块数据;当数据节点服务器启动后,会自动在块索引服务器上进行登记,然后等待接收块索引服务器存放数据块,同时,数据节点服务器还监听客户的数据请求,发现有客户请求数据时,服务器会从本地文件系统中提取相应的数据,发送给客户端。
8.根据权利要求1所述的模板式网站自动生成系统,其特征在于所述的网页全文索引系统建立网页的全文索引是提供搜索功能的前提,搜网页全文索引系统采用并行处理方式,各个索引服务器并行的从海量存储系统中批量的读取已经抓取回来的网页,利用中文分词功能,把网页内容分割成词序列,再根据词序列建立逆序索引结构,即按词→网页的顺序索引;同时将词汇出现在网页中的位置和次数等信息记录在索引结构中;批量网页的索引工作完成后,由索引数据管理器负责对并行索引结果进行合并,整合,统一存贮在海量存贮系统中;再把统一的网页索引按照可控的固定大小进行分割,发送到索引查询集群中,为实际的搜索提供搜索基;包括A)、中文分词B)、全文索引引擎它使用中文分词功能对网页内容进行处理,生成词汇列表,然后统计各个词汇在网页内的出现位置,频度信息;根据这些信息建立词汇到网页的逆向索引序,存入索引文件;全文索引引擎并行工作,可以同时对网页进行索引;C)、索引数据管理负责把各个分散的索引文件进行合并及优化,然后统一存放在海量存贮系统内,同时,管理器会根据设定触发条件对所有的索引内容进行定长分割,并将分割后的索引段发送至各个索引检索服务器,由索引检索服务器缓存在内存中,再由检索阵列来实现高速,并行的查询功能。
9.根据权利要求1所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于所述的索引检索子系统是用户直接使用的前端系统,它由若干个索引检索服务器组成的检索阵列及查询广播/合并系统和web集群系统构成;包括A)、检索服务器阵列每台服务器上分配若干个索引子集;当接到查询请求时,所有的服务器并行工作,可在几十个毫秒内完成各自索引子集的查询;然后上报查询结果;B)、查询广播/合并系统它指挥若干个服务器协同工作把每个查询请求发送到检索阵列中的每一台服务器中,同时迅速地把查询结果汇集起来,再把查询结果发送回相应地网络服务器;所有的操作完成不超过1秒钟;它使用动态可伸缩架构,可以根据系统负载情况增减阵列内的服务器;不同的查询被均衡的发布到阵列之中,指派其中一台服务器负责某一个查询;各个服务器使用UDP广播功能及UDP定点发送功能进行查询广播和结果收集;再将结果汇集后在发送给前端的网络服务器;C)、网页服务器集群前置服务器由高性能服务器充当负载均衡器;若干个台服务器作为实际的网页服务器,每个网页服务器定时把负载情况通报给均衡器;当有查询请求通过http协议到达时,前置服务器根据当时各个网页服务器的负载情况,将该请求转发到较空闲的某一台服务器中,然后继续处理下一次请求。
10.根据权利要求1所述的基于网站自动生成和搜索引擎的信息推送系统,其特征在于所述的智能信息推送系统,它包括专家知识库、信息匹配及推送、订阅管理系统、文章及信息分类。
11.一种基于网站自动生成和搜索引擎的信息推送方法,它包括1)、通过用户注册收集其基本信息包括姓名、地址、电活、用户名和密码以及行业信息,该数据将被存入系统数据库中,此时用户注册成功;2)、进入网站自动生成向导系统它包括A)、用户根据其需求选择模板B)、选择栏目链接用户进行拦目选择或自行输入链接文字;C)、输入各栏目的信息资料,该信息将是网站上被浏览的信息。
12.根据权利要求11所述的模板式网站自动生成系统方法,其特征在于它还包括D)、用户产品展示发布产品图片及各种文字信息;F)、网站预览用户可以预览系统自动生成的网页;并可回到前面步骤去修改、增加、删除已输入的信息;G)、搜索功能框自动生成上述各种信息被搜索引擎自动收录;H)、网站发布用户选择直接发布网站,可在浏览器地址栏输入主页网址,则网站发布成功;I)、用户如果要更改和维护网站内容,则进入“会员登录”,可在网站管理界面中进行修改、增加、删除已输入的网站信息;K)、用户可根据需求选择“留言管理”它可直接删除和回复客户的留言;L)、用户可根据需求选择“域名管理”它可进行网站注册、转入和绑定国际域名;M)、用户可根据需求选择“邮箱管理”设置带用户自己域名后缀的邮箱。
13.根据权利要求11所述的模板式网站自动生成系统方法,其特征在于它包括信息推送的信息来源于互联网,它由搜索引擎提供;经过海量信息自动分类处理后,供信息匹配及推送使用;网站用户负责用户网站的内容维护;网站内容会提交给文章及信息分类进行分类处理;会员使用商机订阅的功能对自己所关注的商机信息进行订阅;其订阅信息由订阅管理系统进行管理;信息匹配及推送可根据文章及信息分类和订阅管理系统所提供的信息,并参照专家知识库,进行信息相关度运算,将匹配成功的信息提取出来;然后,根据用户预定的推送渠道进行推送;如果推送终点是在互联网上,则交给互联网渠道信息推送处理;如果是推送终点是移动设备,则交给移动终端信息推送处理。
全文摘要
本发明涉及一种基于网站自动生成和搜索引擎的信息推送系统及方法。本发明包括计算机或移动设备通过互联网及路由器与模板式网站自动生成系统、专业搜索引擎系统及智能信息推送系统相连接;模板式网站自动生成系统,它包括用户信息管理子系统、网页模板维护子系统、网站自动生成子系统、网站管理子系统、搜索竞价排名系统;专业搜索引擎系统,它包括网页收集系统、海量存储系统、网页索引系统、索引检索系统;智能信息推送系统,它包括专家知识库、信息匹配及推送、订阅管理系统、文章及信息分类。本发明使拥有搜索引擎技术与虚拟主机经营业务及网站建立业务三者统一为一体,它实现了“搜索引擎”技术的“信息推进”(Push)方法。
文档编号G06Q30/00GK1822005SQ20061007270
公开日2006年8月23日 申请日期2006年4月7日 优先权日2006年4月7日
发明者张天山 申请人:张天山
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1