一种基于网站内容搜索引擎的方法及系统与流程

文档序号:32745207发布日期:2022-12-30 21:45阅读:29来源:国知局
一种基于网站内容搜索引擎的方法及系统与流程

1.本发明属于搜索引擎技术领域,尤其涉及一种基于网站内容搜索引擎的方法及系统。


背景技术:

2.搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统。搜索引擎是工作于互联网上的一门检索技术,它指在提高人们获取搜集信息的速度,为人们提供更好的网络使用环境。搜索引擎是伴随互联网的发展而产生和发展的,互联网已成为人们学习、工作和生活中不可缺少的平台,几乎每个人上网都会使用搜索引擎。
3.现有的搜索引擎不能够根据用户的历史数据进行个性化的调整,导致进行网站内容的检索时,往往具有很多与用户需求不相关的内容,且检索结果中通常充斥着大量的广告,不仅影响用户用检索结果中确定目标内容的时间,且严重降低了用户对于这种搜索引擎使用的体验感。


技术实现要素:

4.本发明实施例的目的在于提供一种基于网站内容搜索引擎的方法及系统,旨在解决背景技术中提出的问题。
5.为实现上述目的,本发明实施例提供如下技术方案:一种基于网站内容搜索引擎的方法,所述方法具体包括以下步骤:获取用户的历史搜索数据,根据所述历史搜索数据进行相关网站的爬行和抓取,更新网站数据库;对所述网站数据库中的相关信息进行提取和组织,更新网站索引库;接收用户输入的关键词,根据所述关键词在网站索引库中进行内容检索,生成内容检索结果;对所述内容检索结果进行内容预识别,剔除所述内容检索结果中的广告内容,得到优化检索结果;根据所述优化检索结果与所述关键词的相关性进行排序,生成并展示排序检索结果。
6.作为本发明实施例技术方案进一步的限定,所述获取用户的历史搜索数据,根据所述历史搜索数据进行相关网站的爬行和抓取,更新网站数据库具体包括以下步骤:获取用户的历史搜索数据;对所述历史搜索数据进行分析,生成多个更新标签;根据多个更新标签,进行相关网站的爬行和抓取,得到多个网页信息;根据多个所述网页信息,更新网站数据库。
7.作为本发明实施例技术方案进一步的限定,所述对所述网站数据库中的相关信息
进行提取和组织,更新网站索引库具体包括以下步骤:剔除所述网站数据库中的重复网页,得到第一优化索引库;对所述第一优化索引库进行网页的相关内容提取,得到第二优化索引库;对所述第二优化索引库进行内容组织,更新生成网站索引库。
8.作为本发明实施例技术方案进一步的限定,所述接收用户输入的关键词,根据所述关键词在网站索引库中进行内容检索,生成内容检索结果具体包括以下步骤:接收用户输入的关键词;根据所述关键词在网站索引库中进行检索标记,生成检索标记数据;按照所述检索标记数据进行内容整合,生成内容检索结果。
9.作为本发明实施例技术方案进一步的限定,所述对所述内容检索结果进行内容预识别,剔除所述内容检索结果中的广告内容,得到优化检索结果具体包括以下步骤:基于大数据技术,获取广告标签数据;根据所述广告标签数据,对所述内容检索结果进行内容预识别,生成预识别结果;按照所述预识别结果,对对所述内容检索结果进行广告标记,生成广告标记数据;按照所述广告标记数据,将所述内容检索结果中的广告内容剔除,得到优化检索结果。
10.作为本发明实施例技术方案进一步的限定,所述根据所述优化检索结果与所述关键词的相关性进行排序,生成并展示排序检索结果具体包括以下步骤:基于大数据技术,获取与所述关键词相应的多个对应词;计算所述优化检索结果中每个网页内容在出现关键词或对应词的次数,生成次数统计数据;按照所述次数统计数据,计算优化检索结果中每个网页的相关性得分;按照多个所述相关性得分,对所述优化检索结果进行排序,生成并展示排序检索结果。
11.一种基于网站内容搜索引擎的系统,所述系统包括网站爬行抓取单元、信息提取组织单元、网站内容检索单元、广告识别剔除单元和相关排序展示单元,其中:网站爬行抓取单元,用于获取用户的历史搜索数据,根据所述历史搜索数据进行相关网站的爬行和抓取,更新网站数据库;信息提取组织单元,用于对所述网站数据库中的相关信息进行提取和组织,更新网站索引库;网站内容检索单元,用于接收用户输入的关键词,根据所述关键词在网站索引库中进行内容检索,生成内容检索结果;广告识别剔除单元,用于对所述内容检索结果进行内容预识别,剔除所述内容检索结果中的广告内容,得到优化检索结果;相关排序展示单元,用于根据所述优化检索结果与所述关键词的相关性进行排序,生成并展示排序检索结果。
12.作为本发明实施例技术方案进一步的限定,所述网站爬行抓取单元具体包括:历史获取模块,用于获取用户的历史搜索数据;数据分析模块,用于对所述历史搜索数据进行分析,生成多个更新标签;
爬行抓取模块,用于根据多个更新标签,进行相关网站的爬行和抓取,得到多个网页信息;数据更新模块,用于根据多个所述网页信息,更新网站数据库。
13.作为本发明实施例技术方案进一步的限定,所述信息提取组织单元具体包括:重复剔除模块,用于剔除所述网站数据库中的重复网页,得到第一优化索引库;内容提取模块,用于对所述第一优化索引库进行网页的相关内容提取,得到第二优化索引库;内容组织模块,用于对所述第二优化索引库进行内容组织,更新生成网站索引库。
14.作为本发明实施例技术方案进一步的限定,所述相关排序展示单元具体包括:对应词获取模块,用于基于大数据技术,获取与所述关键词相应的多个对应词;次数统计模块,用于计算所述优化检索结果中每个网页内容在出现关键词或对应词的次数,生成次数统计数据;相关性评价模块,用于按照所述次数统计数据,计算优化检索结果中每个网页的相关性得分;结果排序模块,用于按照多个所述相关性得分,对所述优化检索结果进行排序,生成并展示排序检索结果。
15.与现有技术相比,本发明的有益效果是:本发明实施例通过根据历史搜索数据进行相关网站的爬行和抓取,更新网站数据库;对网站数据库中的相关信息进行提取和组织,更新网站索引库;接收用户输入的关键词,进行内容检索;剔除广告内容,得到优化检索结果;根据优化检索结果与关键词的相关性进行排序,生成并展示排序检索结果。能够根据用户的历史搜索数据,对搜索引擎的网站数据库和网站索引库进行个性化的更新调整,使得内容检索结果不会出现很多无关的内容,从而更加符合用户的个性化需求,并且能够进行广告的识别与剔除,大大缩短用户从检索结果中确定目标内容的时间,且能够提升用户的使用体验感。
附图说明
16.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
17.图1示出了本发明实施例提供的方法的流程图。
18.图2示出了本发明实施例提供的方法中相关网站爬行抓取的流程图。
19.图3示出了本发明实施例提供的方法中相关信息提取组织的流程图。
20.图4示出了本发明实施例提供的方法中生成内容检索结果的流程图。
21.图5示出了本发明实施例提供的方法中广告内容识别剔除的流程图。
22.图6示出了本发明实施例提供的方法中检索结果优化排序的流程图。
23.图7示出了本发明实施例提供的系统的应用架构图。
24.图8示出了本发明实施例提供的系统中网站爬行抓取单元的结构框图。
25.图9示出了本发明实施例提供的系统中信息提取组织单元的结构框图。
26.图10示出了本发明实施例提供的系统中相关排序展示单元的结构框图。
具体实施方式
27.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
28.可以理解的是,现有技术中,搜索引擎不能够根据用户的历史数据进行个性化的调整,导致进行网站内容的检索时,往往具有很多与用户需求不相关的内容,且检索结果中通常充斥着大量的广告,不仅影响用户用检索结果中确定目标内容的时间,且严重降低了用户对于这种搜索引擎使用的体验感。
29.为解决上述问题,本发明实施例通过获取用户的历史搜索数据,根据历史搜索数据进行相关网站的爬行和抓取,更新网站数据库;对网站数据库中的相关信息进行提取和组织,更新网站索引库;接收用户输入的关键词,进行内容检索;剔除广告内容,得到优化检索结果;根据优化检索结果与关键词的相关性进行排序,生成并展示排序检索结果。能够根据用户的历史搜索数据,对搜索引擎的网站数据库和网站索引库进行个性化的更新调整,使得内容检索结果不会出现很多无关的内容,从而更加符合用户的个性化需求,并且能够进行广告的识别与剔除,大大缩短用户从检索结果中确定目标内容的时间,且能够提升用户的使用体验感。
30.图1示出了本发明实施例提供的方法的流程图。
31.具体的,一种基于网站内容搜索引擎的方法,所述方法具体包括以下步骤:步骤s101,获取用户的历史搜索数据,根据所述历史搜索数据进行相关网站的爬行和抓取,更新网站数据库。
32.在本发明实施例中,用户的历史搜索数据根据用户的搜索记录实时更新,通过获取用户的历史搜索数据,对历史搜索数据中更新增加的搜索数据进行标签分析,得到多个对应的更新标签,基于多个更新标签,在互联网上进行相关网站的爬行和抓取,从而得到多个与更新标签对应相关的网页信息,并将多个网页信息所对应的网站数据全部存入原始的网站数据库,实现对网站数据库的更新调整。
33.可以理解的是,进行相关网站的爬行和抓取过程中,首先确定与多个更新标签相关的网站页面,进而通过引擎蜘蛛先向页面提出访问请求,服务器接受其访问请求并返回html代码后,把获取的html代码存入原始页面数据库;搜索引擎使用多个蜘蛛分布爬行以提高爬行速度,搜索引擎的服务器遍布世界各地,每一台服务器都会派出多只蜘蛛同时去抓取网页。
34.具体的,图2示出了本发明实施例提供的方法中相关网站爬行抓取的流程图。
35.其中,在本发明提供的优选实施方式中,所述获取用户的历史搜索数据,根据所述历史搜索数据进行相关网站的爬行和抓取,更新网站数据库具体包括以下步骤:步骤s1011,获取用户的历史搜索数据。
36.步骤s1012,对所述历史搜索数据进行分析,生成多个更新标签。
37.步骤s1013,根据多个更新标签,进行相关网站的爬行和抓取,得到多个网页信息。
38.步骤s1014,根据多个所述网页信息,更新网站数据库。
39.进一步的,所述基于网站内容搜索引擎的方法还包括以下步骤:步骤s102,对所述网站数据库中的相关信息进行提取和组织,更新网站索引库。
40.在本发明实施例中,对网站数据库中的网站数据进行分析,识别网站数据库中存在的重复网页,进而随机保留重复网页中的一个网页,剔除重复网页中的其他网页,得到第一优化索引库,通过对更新之后的历史搜索数据进行分析,确定与用户历史搜索相关的多个专业标签,按照多个专业标签,对第一优化索引库中所有的网页内容进行分析和提取,得到第二优化索引库,从而使得第二优化索引库中所有网页的内容满足用户的个性化需求,避免太多无关的内容,进而将第二优化索引库进行内容组织,更新生成网站索引库。
41.具体的,图3示出了本发明实施例提供的方法中相关信息提取组织的流程图。
42.其中,在本发明提供的优选实施方式中,所述对所述网站数据库中的相关信息进行提取和组织,更新网站索引库具体包括以下步骤:步骤s1021,剔除所述网站数据库中的重复网页,得到第一优化索引库。
43.步骤s1022,对所述第一优化索引库进行网页的相关内容提取,得到第二优化索引库。
44.步骤s1023,对所述第二优化索引库进行内容组织,更新生成网站索引库。
45.进一步的,所述基于网站内容搜索引擎的方法还包括以下步骤:步骤s103,接收用户输入的关键词,根据所述关键词在网站索引库中进行内容检索,生成内容检索结果。
46.在本发明实施例中,用户在需要使用搜索引擎进行网站内容搜索时,可以输入搜索的关键词,通过接收用户输入的关键词,按照关键词,在网站索引库中进行相关内容的匹配,标记具有相关内容的网站,生成检索标记数据,进而按照检索标记数据,将标记的网站进行内容整合,生成内容检索结果。
47.可以理解的是,搜索引擎进行内容搜索之前,会对关键词进行以下处理:分词处理、根据情况对整合搜索是否需要启动进行判断、找出错别字和拼写中出现的错误、把停止词去掉,接着搜索引擎程序便把包含搜索词的相关网页从网站索引库中找出标记。
48.具体的,图4示出了本发明实施例提供的方法中生成内容检索结果的流程图。
49.其中,在本发明提供的优选实施方式中,所述接收用户输入的关键词,根据所述关键词在网站索引库中进行内容检索,生成内容检索结果具体包括以下步骤:步骤s1031,接收用户输入的关键词。
50.步骤s1032,根据所述关键词在网站索引库中进行检索标记,生成检索标记数据。
51.步骤s1033,按照所述检索标记数据进行内容整合,生成内容检索结果。
52.进一步的,所述基于网站内容搜索引擎的方法还包括以下步骤:步骤s104,对所述内容检索结果进行内容预识别,剔除所述内容检索结果中的广告内容,得到优化检索结果。
53.在本发明实施例中,基于大数据技术,获取互联网中的广告标签数据,按照广告标签数据,在对网站索引库中相关内容的匹配标记过程中,同时进行广告内容预识别,生成预识别结果,进而按照预识别结果,将完成网站内容整合的内容检索结果中的广告内容进行标记,生成广告标记数据,最后按照广告标记数据,将内容检索结果中的广告内容剔除,得到优化检索结果。
54.具体的,图5示出了本发明实施例提供的方法中广告内容识别剔除的流程图。
55.其中,在本发明提供的优选实施方式中,所述对所述内容检索结果进行内容预识
别,剔除所述内容检索结果中的广告内容,得到优化检索结果具体包括以下步骤:步骤s1041,基于大数据技术,获取广告标签数据。
56.步骤s1042,根据所述广告标签数据,对所述内容检索结果进行内容预识别,生成预识别结果。
57.步骤s1043,按照所述预识别结果,对对所述内容检索结果进行广告标记,生成广告标记数据。
58.步骤s1044,按照所述广告标记数据,将所述内容检索结果中的广告内容剔除,得到优化检索结果。
59.进一步的,所述基于网站内容搜索引擎的方法还包括以下步骤:步骤s105,根据所述优化检索结果与所述关键词的相关性进行排序,生成并展示排序检索结果。
60.在本发明实施例中,基于大数据技术,获取与关键词类似的多个对应词,对优化检索结果中每个网页内容的关键词或对应词进行识别,并统计每个网页内容的识别成功次数,生成次数统计数据,进而按照次数统计数据,计算优化检索结果中每个网页的相关性得分(次数越多,相对应的网页的相关性得分越高;次数越少,相对应的网页的相关性得分越低),按照多个相关性得分,将优化检索结果中的多个网页进行排序,生成排序检索结果,最后将排序检索结果进行展示,使得用户在点击排序检索结果中的多个网页时,能够更快确定用户的需求内容。
61.具体的,图6示出了本发明实施例提供的方法中检索结果优化排序的流程图。
62.其中,在本发明提供的优选实施方式中,所述根据所述优化检索结果与所述关键词的相关性进行排序,生成并展示排序检索结果具体包括以下步骤:步骤s1051,基于大数据技术,获取与所述关键词相应的多个对应词。
63.步骤s1052,计算所述优化检索结果中每个网页内容在出现关键词或对应词的次数,生成次数统计数据。
64.步骤s1053,按照所述次数统计数据,计算优化检索结果中每个网页的相关性得分。
65.步骤s1054,按照多个所述相关性得分,对所述优化检索结果进行排序,生成并展示排序检索结果。
66.进一步的,图7示出了本发明实施例提供的系统的应用架构图。
67.其中,在本发明提供的又一个优选实施方式中,一种基于网站内容搜索引擎的系统,包括:网站爬行抓取单元101,用于获取用户的历史搜索数据,根据所述历史搜索数据进行相关网站的爬行和抓取,更新网站数据库。
68.在本发明实施例中,用户的历史搜索数据根据用户的搜索记录实时更新,网站爬行抓取单元101通过获取用户的历史搜索数据,对历史搜索数据中更新增加的搜索数据进行标签分析,得到多个对应的更新标签,基于多个更新标签,在互联网上进行相关网站的爬行和抓取,从而得到多个与更新标签对应相关的网页信息,并将多个网页信息所对应的网站数据全部存入原始的网站数据库,实现对网站数据库的更新调整。
69.具体的,图8示出了本发明实施例提供的系统中网站爬行抓取单元101的结构框
图。
70.其中,在本发明提供的优选实施方式中,所述网站爬行抓取单元101具体包括:历史获取模块1011,用于获取用户的历史搜索数据。
71.数据分析模块1012,用于对所述历史搜索数据进行分析,生成多个更新标签。
72.爬行抓取模块1013,用于根据多个更新标签,进行相关网站的爬行和抓取,得到多个网页信息。
73.数据更新模块1014,用于根据多个所述网页信息,更新网站数据库。
74.进一步的,所述基于网站内容搜索引擎的系统还包括:信息提取组织单元102,用于对所述网站数据库中的相关信息进行提取和组织,更新网站索引库。
75.在本发明实施例中,信息提取组织单元102对网站数据库中的网站数据进行分析,识别网站数据库中存在的重复网页,进而随机保留重复网页中的一个网页,剔除重复网页中的其他网页,得到第一优化索引库,通过对更新之后的历史搜索数据进行分析,确定与用户历史搜索相关的多个专业标签,按照多个专业标签,对第一优化索引库中所有的网页内容进行分析和提取,得到第二优化索引库,从而使得第二优化索引库中所有网页的内容满足用户的个性化需求,避免太多无关的内容,进而将第二优化索引库进行内容组织,更新生成网站索引库。
76.具体的,图9示出了本发明实施例提供的系统中信息提取组织单元102的结构框图。
77.其中,在本发明提供的优选实施方式中,所述信息提取组织单元102具体包括:重复剔除模块1021,用于剔除所述网站数据库中的重复网页,得到第一优化索引库。
78.内容提取模块1022,用于对所述第一优化索引库进行网页的相关内容提取,得到第二优化索引库。
79.内容组织模块1023,用于对所述第二优化索引库进行内容组织,更新生成网站索引库。
80.进一步的,所述基于网站内容搜索引擎的系统还包括:网站内容检索单元103,用于接收用户输入的关键词,根据所述关键词在网站索引库中进行内容检索,生成内容检索结果。
81.在本发明实施例中,用户在需要使用搜索引擎进行网站内容搜索时,可以输入搜索的关键词,网站内容检索单元103通过接收用户输入的关键词,按照关键词,在网站索引库中进行相关内容的匹配,标记具有相关内容的网站,生成检索标记数据,进而按照检索标记数据,将标记的网站进行内容整合,生成内容检索结果。
82.广告识别剔除单元104,用于对所述内容检索结果进行内容预识别,剔除所述内容检索结果中的广告内容,得到优化检索结果。
83.在本发明实施例中,广告识别剔除单元104基于大数据技术,获取互联网中的广告标签数据,按照广告标签数据,在对网站索引库中相关内容的匹配标记过程中,同时进行广告内容预识别,生成预识别结果,进而按照预识别结果,将完成网站内容整合的内容检索结果中的广告内容进行标记,生成广告标记数据,最后按照广告标记数据,将内容检索结果中
的广告内容剔除,得到优化检索结果。
84.相关排序展示单元105,用于根据所述优化检索结果与所述关键词的相关性进行排序,生成并展示排序检索结果。
85.在本发明实施例中,相关排序展示单元105基于大数据技术,获取与关键词类似的多个对应词,对优化检索结果中每个网页内容的关键词或对应词进行识别,并统计每个网页内容的识别成功次数,生成次数统计数据,进而按照次数统计数据,计算优化检索结果中每个网页的相关性得分(次数越多,相对应的网页的相关性得分越高;次数越少,相对应的网页的相关性得分越低),按照多个相关性得分,将优化检索结果中的多个网页进行排序,生成排序检索结果,最后将排序检索结果进行展示,使得用户在点击排序检索结果中的多个网页时,能够更快确定用户的需求内容。
86.具体的,图10示出了本发明实施例提供的系统中相关排序展示单元105的结构框图。
87.其中,在本发明提供的优选实施方式中,所述相关排序展示单元105具体包括:对应词获取模块1051,用于基于大数据技术,获取与所述关键词相应的多个对应词。
88.次数统计模块1052,用于计算所述优化检索结果中每个网页内容在出现关键词或对应词的次数,生成次数统计数据。
89.相关性评价模块1053,用于按照所述次数统计数据,计算优化检索结果中每个网页的相关性得分。
90.结果排序模块1054,用于按照多个所述相关性得分,对所述优化检索结果进行排序,生成并展示排序检索结果。
91.应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
92.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink) dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
93.以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实
施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
94.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
95.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1