信息推送及搜索设备、方法和系统与流程

文档序号:12271447阅读:270来源:国知局
信息推送及搜索设备、方法和系统与流程

本发明涉及旅游信息服务技术领域,尤其涉及一种信息推送及搜索设备、方法和系统。



背景技术:

随着旅游业和商业的发展,越来越多的人喜欢在闲暇之余出去旅游。智能旅游以方便用户旅游为原则,将丰富的旅游信息整合在一起,通过智慧化的管理,让这些信息与每一位旅行者的联系更加紧密。

随着互联网的爆发式发展,网络上的信息资源从匮乏走向了另一个极端。在面临海量的信息及搜索结果时,用户往往无力进行抉择。

因此,需要一种信息推送及搜索系统,针对用户的相关搜索,可以精准地获取相关信息,将旅游线路和相关的旅游资讯关联起来,并将其推送给用户,使游客便捷地获取对自己有用的信息。



技术实现要素:

本发明的目的是提供一种信息推送及搜索设备,包括第一通信模块、第二通信模块、处理模块、存储模块和搜索模块,其中,

所述第一通信模块,用于向移动终端推送多媒体资源,接收并解析移动终端发送的数据包,获取移动终端的标识与信号强度并将其转发至所述处理模块,以及将检索结果发送给移动终端以返回给用户;

处理模块,用于接收所述第一通信模块发送的移动终端的标识与信号强度,统计人流量,并将人流量统计结果保存至存储模块;

存储模块,用于保存第二通信模块获取的多媒体资源和处理模块计算出的人流量统计结果;

第二通信模块,用于与服务器进行信息交互,从服务器下载多媒体资源,以及读取网页链接列表;

搜索模块,用于利用网络爬虫从第二通信模块读取网页链接列表,构建内部数据库,针对用户提交的查询在内部数据库中进行搜索,将检索结果通过第一通信模块返回给用户。

所述搜索模块包括信息采集单元、信息处理单元和搜索服务单元; 其中,信息采集单元利用网络爬虫从第二通信模块读取网页链接列表,并根据指定算法抓取相关网页,处理后存入网页信息数据库;信息处理单元将网页信息数据库中的相关网页文档进行分词处理,建立索引,将结果保存在索引数据库中,并对结果进行检索排序;搜索服务单元针对用户提交的查询,在内部数据库中进行搜索,从中提取相应检索页面的摘要信息,发送给第一通信模块,从而返回给用户。

所述搜索是针对旅游信息的专业信息搜索。

所述信息采集单元具体用于通过网络爬虫读取待抓取网站的根URL,提取出所有下一级URL并将其放入第一待抓取URL列表中,如果所述第一待抓取URL列表不为空则从中取出一个URL并判断是否已经访问过,若没有访问过则读取此网页,并进行内容解析,再将内容进行主题相关度判断,若与主题相关则将网页内容存入网页信息数据库,并将已访问过的URL放入已访问URL列表,否则放弃该网页;然后分析所述已访问过的URL的下一级URL,将所有下一级URL添加到第二待抓取URL列表中,依次读取所述第二待抓取URL列表并将与主题相关的网页内容存入网页信息数据库,直到所述第二待抓取URL列表为空或抓取深度等于指定深度,此时再继续读取所述第一待抓取URL列表,依次循环直到第一待抓取URL列表为空为止。

所述指定算法为首页关联算法,其中,所述信息采集单元首先访问一个网站的首页,通过基于布尔模型或向量空间模型的主题相关度算法计算该首页与主题的相关程度,如果相关度满足一预定要求,就把这个网站纳入抓取范围,如果相关度不满足所述预定要求,则直接放弃整个网站,将该 URL 放入禁止访问列表,爬虫以后再遇到这个网站内的 URL 时,直接丢弃该 URL 而不再将其放入待访问的URL列表中。

所述预定要求为预先设定的一个阈值,主题相关度低于该阈值的网页被丢弃,高于该阈值的网页将被抓取。

所述分词处理是采用基于字符串匹配的分词方法或基于统计的分词方法或基于理解的分词方法。

所述第一通信模块为WIFI模块,所述第二通信模块为3G和/或4G模块。所述处理模块将计算的客流量通过第二通信模块上传到服务器。

本发明还提供一种信息推送及搜索方法,应用于信息推送及搜索设备,所述信息推送及搜索设备包括第一通信模块、第二通信模块和搜索模块,所述搜索模块包括信息采集单元、信息处理单元和搜索服务单元,所述方法包括如下步骤:

S1. 信息采集单元利用网络爬虫从第二通信模块读取网页链接列表,并根据指定算法抓取相关网页,处理后存入网页信息数据库;

S2. 信息处理单元将网页信息数据库中的相关网页文档进行分词处理,建立索引,将结果保存在索引数据库中,并对结果进行检索排序;

S3. 搜索服务单元针对用户提交的查询,在内部数据库中进行搜索,从中提取相应检索页面的摘要信息,发送给第一通信模块,从而返回给用户。

本发明还提供一种信息推送及搜索系统,包括前述信息推送及搜索设备。

本发明的信息推送及搜索设备、方法及系统,针对用户的相关搜索,可以精准地获取相关信息,将旅游线路和相关的旅游资讯关联起来,并将其推送给用户,使游客便捷地获取对自己有用的信息。

附图说明

图1是根据本发明实施方式示出的信息推送及搜索设备结构图。

图2是根据本发明实施方式示出的信息推送及搜索方法流程图。

图3是根据本发明实施方式示出的信息推送及搜索系统构成图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

图1是根据本发明实施方式示出的信息推送及搜索设备结构图,包括第一通信模块、第二通信模块、处理模块、存储模块和搜索模块,其中,

所述第一通信模块,分别与处理模块、存储模块相连,用于向移动终端推送多媒体资源,接收并解析移动终端发送的数据包,获取移动终端的标识与信号强度并将其转发至所述处理模块。所述多媒体资源可以是景区的导览服务,例如,景点介绍、景区电子地图、附近商业信息等。所述移动终端标识为移动终端的MAC地址。所述第一通信模块为WIFI模块。

处理模块,分别与第一通信模块、存储模块相连,用于接收所述第一通信模块发送的移动终端的标识与信号强度,统计人流量,并将人流量统计结果保存至存储模块。所述处理模块还包括自动导览模块、地图服务模块、周边推荐模块。所述自动导览模块将景点介绍经第一通信模块发送至移动终端,将该游客服务管理装置所在景点通过音频、视频、动画、图片、文字等多媒体形式向游客展示和介绍。所述地图服务模块将景区电子地图经第一通信模块发送至移动终端,所述景区电子地图包括各景点、以及商业服务设施的位置,向游客提供游览线路的指引。所述周边推荐模块经第一通信模块向移动终端推送附近商业信息,例如,可以向游客推荐游客周边的特色旅游商业信息,含美食、住宿、娱乐等。所述处理模块还包括客流量统计模块、接入时长统计模块、接入次数统计模块。所述客流量统计模块根据保存的移动终端标识及对应的时间标签,计算一定时间内的客流量;所述接入时长统计模块根据保存的移动终端标识及对应的时间标签,计算一定时间内移动终端的接入时长;所述接入次数统计模块根据保存的移动终端标识及对应的时间标签,计算一定时间内相同移动终端的接入次数,并将计算的客流量、接入时长、以及接入次数通过第二通信模块传输至服务器。具体地,所述移动终端标识可以为MAC地址。以本装置接收到的所述移动终端的第一个WIFI信号为该移动终端的到达时间,以后每接收一次移动终端的WIFI信号,若接收到该信号的时间距离上一次接收到同一移动终端的WIFI信号的时间小于一预定时间,则认为该移动终端在此停留,同时刷新移动终端的接入时长;如果接收到该信号的时间距离上一次接收到同一移动终端的WIFI信号的时间大于或等于该预定时间,则认为该移动终端为新的一次接入。根据所述移动终端的MAC地址和对应的时间标签,计算所述移动终端的接入次数和接入时长,得到客流量。

存储模块,分别与处理模块、第一通信模块、第二通信模块相连,用于保存第二通信模块获取的多媒体资源和处理模块计算出的人流量统计结果;所述处理模块将计算的客流量通过第二通信模块上传到服务器。

第二通信模块,与存储模块相连,用于与服务器进行信息交互,从服务器下载多媒体资源并将其转发至所述存储模块进行存储。所述第二通信模块为3G和/或4G模块。

搜索模块,与第一通信模块和第二通信模块相连,包括信息采集单元、信息处理单元和搜索服务单元; 其中,信息采集单元利用网络爬虫从第二通信模块读取网页链接列表,并根据指定算法抓取相关网页,处理后存入网页信息数据库;信息处理单元将网页信息数据库中的相关网页文档进行分词处理,建立索引,将结果保存在索引数据库中,并对结果进行检索排序;搜索服务单元针对用户提交的查询,在内部数据库中进行搜索,从中提取相应检索页面的摘要信息,发送给第一通信模块,从而返回给用户。所述搜索是针对旅游信息的专业信息搜索。

所述信息采集单元具体用于通过网络爬虫读取待抓取网站的根URL,提取出所有下一级URL并将其放入第一待抓取URL列表中,如果所述第一待抓取URL列表不为空则从中取出一个URL并判断是否已经访问过,若没有访问过则读取此网页,并进行内容解析,再将内容进行主题相关度判断,若与主题相关则将网页内容存入网页信息数据库,并将已访问过的URL放入已访问URL列表,否则放弃该网页;然后分析所述已访问过的URL的下一级URL,将所有下一级URL添加到第二待抓取URL列表中,依次读取所述第二待抓取URL列表并将与主题相关的网页内容存入网页信息数据库,直到所述第二待抓取URL列表为空或抓取深度等于指定深度,此时再继续读取所述第一待抓取URL列表,依次循环直到第一待抓取URL列表为空为止。

所述指定算法为首页关联算法,其中,所述信息采集单元首先访问一个网站的首页,通过基于布尔模型或向量空间模型的主题相关度算法计算该首页与主题的相关程度,如果相关度满足一预定要求,就把这个网站纳入抓取范围,如果相关度不满足所述预定要求,则直接放弃整个网站,将该 URL 放入禁止访问列表,爬虫以后再遇到这个网站内的 URL 时,直接丢弃该 URL 而不再将其放入待访问的URL列表中。

所述预定要求为预先设定的一个阈值,主题相关度低于该阈值的网页被丢弃,高于该阈值的网页将被抓取。

所述分词处理是采用基于字符串匹配的分词方法或基于统计的分词方法或基于理解的分词方法。

图2是根据本发明实施方式示出的信息推送及搜索方法,应用于前述景点推荐设备,所述方法包括如下步骤:

S1. 信息采集单元利用网络爬虫从第二通信模块读取网页链接列表,并根据指定算法抓取相关网页,处理后存入网页信息数据库;

S2. 信息处理单元将网页信息数据库中的相关网页文档进行分词处理,建立索引,将结果保存在索引数据库中,并对结果进行检索排序;

S3. 搜索服务单元针对用户提交的查询,在内部数据库中进行搜索,从中提取相应检索页面的摘要信息,发送给第一通信模块,从而返回给用户。

图3是根据本发明实施方式示出的信息推送及搜索系统构成图,其包括前述信息推送及搜索设备。

本发明的信息推送及搜索设备、方法及系统,针对用户的相关搜索,可以精准地获取相关信息,将旅游线路和相关的旅游资讯关联起来,并将其推送给用户,使游客便捷地获取对自己有用的信息。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1