一种搜索引擎系统及其搜索方法与流程

文档序号:12824829阅读:275来源:国知局
一种搜索引擎系统及其搜索方法与流程

本发明属于搜索引擎技术领域,尤其涉及一种搜索引擎系统及其搜索方法。



背景技术:

二十一世纪以来,互联网技术得到了飞速地发展,人们通过互联网获得海量的信息。面对互联网提供的大量内容,如何快速准确地挑选出有意义有价值的信息,是信息化社会面临的严峻课题。随着智能手机、平板电脑等移动通信设备的普及和性能的大幅提高,以及3g/4g移动网络与wlan网络的快速普及,搜索引擎已经渐渐从计算机向移动设备转移,移动搜索作为一种新型业务,已经走进了大众的视野。

移动搜索是指用户在移动通信网络中,通过移动终端,利用sms、wap、ivr等多种特定搜索方式获取所需信息的搜索行为。在现代信息化的背景下,移动搜索引擎与传统的互联网搜索引擎相比,具有以下四个独特特点:

(1)搜索的便利性

与互联网搜索相比较,移动搜索具有更大的自由度,真正实现了随时、随地搜索。在我们的实际生活中,很多用户并不会随身携带计算机或者拥有互联网,而移动搜索技术只需要一部连接网络的手机即可实现,使用户可以不受时间、地点的限制,随时随地获取想要的信息。

(2)搜索的准确性

考虑到手机终端屏幕较小,网络接入速度较慢等特点,移动搜索引擎系统需要提供给用户更加准确的信息,因此移动搜索技术更加注重使用的简约性以及查询的时效性,另一方面,移动搜索还需具备更强的自然语言分析能力,从而为用户提供更为精确的垂直搜索结果。

(3)个性化服务

移动搜索引擎系统可以通过数据挖掘技术对用户的搜索习惯、搜索意向等个人偏好进行分析,从而为用户提供更加符合个人需求的搜索功能。与此之外,移动搜索引擎系统可以与定位服务技术相结合,为用户提供更有针对性的信息。

(4)用户终端数量巨大

移动搜索拥有庞大的用户群,移动终端的数量已经大大超过了互联网用户终端。根据“易观智库”发布的《中国移动互联网用户行为统计报告2015》中数据显示:2014年,中国移动互联网用户规模约7.29亿,近几年的中国移动互联网用户规模如图1所示,为2009-2014年中国移动互联网用户规模图。

随着移动互联网用户的快速增长,移动搜索已经变得越来越热门,然而只是将互联网通用搜索引擎移植到手机等移动终端是远远不够的。对于通用搜索引擎而言,现在的搜索引擎主要是通过robot将网页的全部或部分内容下载到自建索引库中,由于通用搜索引擎检索结果的数量庞大,下载的页面许多是无用信息或暂时性信息,与关键词匹配的所有信息都会返回给用户,其中也包含了大量的重复信息,用户需要在返回的信息中费力寻找真正想要的信息,不仅影响检索速度,还增加了用户检索负担。同时,通用搜索引擎检索结果的精度不高,任意领域或者任意主题的包含搜索关键词的信息都会返回给用户,从而导致返回信息的主题多样性,然而用户所关心的往往只是其中某一个领域或者某一个主题,其他的信息是无价值的;另外,通用搜索引擎返回的结果信息一般没有固定的格式,信息格式的多样性会给用户带来不便。

综上所述,现有的搜索引擎的缺点主要表现在:

(1)搜索引擎检索方式单一

搜索引擎检索一般都是采用关键词检索的方式,但许多情况下,用户很难用简单的关键词或关键词之间的组配,来准确地表达出真正需要的信息内容,因表达困难而导致检索困难或检索出的结果不精确。

(2)搜索引擎对网络信息的覆盖率在整体上呈下降趋势

网络信息的急剧增加,令以覆盖所有学科、所有类型信息为宗旨的综合性搜索引擎越来越难以应付,就连号称功能最为强大的搜索引擎在网络信息搜索与加工软件的升级开发上亦无法跟上网络信息的增长速度。

(3)婚庆商品等特定领域的搜索引擎功能简单

例如,在婚庆商品主题领域存在以“中国婚博会”为主的多家婚庆电商搜索引擎系统,但是这些搜索引擎系统功能简单,大部分只包含某些婚庆商店与商品的详情展示,用户从中能够得到的具有价值的信息十分有限。



技术实现要素:

本发明提供了一种搜索引擎系统及其搜索方法,旨在至少在一定程度上解决现有技术中的上述技术问题。

本发明实现方式如下,一种搜索引擎系统,包括网络爬虫模块、数据库模块、情感分析模块及后台服务器;所述网络爬虫模块用于抓取搜索目标的网页数据,并将抓取到的网页数据传输至数据库模块进行存储;所述情感分析模块用于从数据库模块存储的网页数据中读取搜索目标对应的用户评论数据,对用户评论数据进行情感分析处理后生成评论摘要,并将评论摘要传输至数据库模块进行存储;所述客户端与后台服务器连接,用于向后台服务器发送搜索请求,所述后台服务器根据搜索请求访问数据库模块,并获取对应的网页数据及评论摘要后返回给客户端。

本发明实施例采取的技术方案还包括:所述网络爬虫模块包括种子设置单元、特征提取单元、列表判断单元和数据解析单元;

所述种子设置单元用于设置网络爬虫的种子网页地址,并将种子网页地址添加到“待抓取url列表”中;

所述特征提取单元用于提取种子网页地址的特征,并将提取的种子网页地址特征存储在“已下载url特征集”中;

所述列表判断单元用于判断“待抓取url列表”是否为空:如果“待抓取url列表”不为空,则通过数据解析单元对“待抓取url列表”中的种子网页地址进行解析;如果“待抓取url列表”为空,则网络爬虫模块工作结束;

所述数据解析单元用于提取“待抓取url列表”中的种子网页地址进行解析,将种子网页地址对应的网页下载下来,并提取相关的网页数据,将提取的网页数据存储在数据库模块中。

本发明实施例采取的技术方案还包括:所述情感分析模块通过情感分析技术对评论数据进行挖掘与分析;所述情感分析模块具体包括数据获取单元、数据分类单元和数据提取单元;

所述数据获取单元用于从数据库模块中获取搜索目标对应的原始评论数据,并对原始评论数据进行分句、分词和词性标注处理;

所述数据分类单元用于根据标注结果对评论句子进行主客观分类,保留主观评论句子,过滤客观评论句子;

所述数据提取单元用于从主观评论句子中抽取情感词和评论中所描述的商家或商品的属性信息,根据情感词和属性信息生成评论摘要,并将评论摘要传输至数据库模块进行存储。

本发明实施例采取的技术方案还包括:所述后台服务器包括第一控制器、第二控制器、业务服务层和数据访问层;

所述第一控制器用于接收客户端发送的搜索请求,并将该搜索请求委托给第二控制器进行解析处理;

所述第二控制器用于对搜索请求进行解析处理,提取搜索请求中的搜索关键字或附加参数,并将搜索关键字或附加参数传输至业务服务层进行业务逻辑处理;

所述业务服务层用于接收第二控制器传输的搜索关键字或附加参数,并调用数据访问层获取网页数据;

所述数据访问层用于访问数据库模块,根据搜索关键字或附加参数获取数据库模块中的网页数据及评论摘要,并通过业务服务层将网页数据及评论摘要返回至第二控制器,所述第二控制器将网页数据及评论摘要进行封装处理后通过第一控制器返回至客户端。

本发明实施例采取的技术方案还包括:所述客户端包括搜索单元、数据接收单元与路线规划单元;

所述搜索单元用于将用户输入的搜索关键字或者附件参数封装在http请求中发送给后台服务器;

所述数据接收单元用于接收后台服务器返回的网页数据及评论摘要,并对接收数据解析处理后,将解析结果显示给用户;

所述路线规划单元用于通过位置服务技术根据用户的搜索目标或后台服务器返回的商家信息获取商家位置,并获取用户当前位置,为用户进行路径规划。

本发明实施例采取的另一技术方案为:一种搜索引擎的搜索方法,包括以下步骤:

步骤a:抓取搜索目标的网页数据,并将抓取的网页数据存储在数据库中;

步骤b:读取网页数据中该搜索目标对应的用户评论数据,通过情感分析技术对用户评论数据进行情感分析处理后生成评论摘要,并将评论摘要存储在数据库中;

步骤c:通过客户端输入搜索关键字及附加参数,并向后台服务器发送搜索请求;

步骤d:通过后台服务器接收搜索请求,根据搜索请求在数据库中获取对应的网页数据及评论摘要,并将获取的网页数据及评论摘要返回至客户端。

本发明实施例采取的技术方案还包括:在所述步骤a中,所述抓取搜索目标的网页数据的方法包括以下步骤:

步骤a1:设置网络爬虫的种子网页地址,并将种子网页地址添加到“待抓取url列表”中;

步骤a2:提取种子网页地址的特征,并将提取的种子网页地址特征存储在“已下载url特征集”中;

步骤a3:判断“待抓取url列表”是否为空,如果“待抓取url列表”不为空,提取“待抓取url列表”中的种子网页地址进行解析,将种子网页地址对应的网页下载下来,并提取相关的网页数据,将提取到的网页数据存储在数据库中;如果“待抓取url列表”为空,网络爬虫结束工作。

本发明实施例采取的技术方案还包括:在所述步骤b中,所述对用户评论数据进行情感分析的方法包括以下步骤:

步骤b1:从数据库中获取搜索目标对应的原始评论数据,并对原始评论数据进行分句、分词和词性标注处理;

步骤b2:根据标注结果对评论句子进行主客观分类,保留主观评论句子,过滤客观评论句子;

步骤b3:从主观评论句子中抽取情感词和评论中所描述的商家或商品的属性信息,根据情感词和属性信息生成评论摘要,并将评论摘要传输至数据库进行存储。

本发明实施例采取的技术方案还包括:在所述步骤d中,所述后台服务器处理搜索请求的方法具体包括以下步骤:

步骤d1:通过第一控制器接收客户端发送的搜索请求,并将该搜索请求委托给第二控制器进行解析处理;

步骤d2:对搜索请求进行解析处理,提取搜索请求中的搜索关键字或附加参数,并将搜索关键字或附加参数传输至业务服务层进行业务逻辑处理;

步骤d3:接收第二控制器传输的搜索关键字或附加参数,并调用数据访问层获取网页数据;

步骤d4:根据搜索关键字或附加参数获取数据库中的网页数据及评论摘要,并将网页数据及评论摘要进行封装处理后通过第一控制器返回至客户端。

本发明实施例采取的技术方案还包括:所述步骤d后还包括以下步骤:

步骤d5:通过客户端接收后台服务器返回的网页数据及评论摘要,并对接收数据解析处理后显示给用户;

步骤d6:通过位置服务技术根据用户的搜索目标或后台服务器返回的商家信息获取商家位置,并获取用户当前位置,为用户进行路径规划。

本发明实施例的搜索引擎系统及其搜索方法通过对搜索目标的评论信息进行挖掘与分析,并将情感分析结果显示给消费者,消费者可以了解大众对某商家的情感倾向,从而优化自己的购买决策;同时,销售商可以了解消费者对其商品和服务的反馈信息,以及消费者对自己和对竞争对手的评价,从而改进产品改善服务,为自身赢得竞争优势,无论对消费者还是销售商都有着十分积极的意义。由于本发明集成了情感分析技术,与普通的搜索引擎相比,检索结果更加准确,更加人性化;并在移动搜索引擎的基础之上集成了位置服务技术,使得消费者可以更加便捷的查询当前位置去往商家的路线,大大节约消费者时间。且本发明符合当代移动互联网迅速发展的潮流,满足用户随时随地的搜索需求。

附图说明

图1是2009-2014年中国移动互联网用户规模图;

图2是本发明实施例的搜索引擎系统的结构示意图;

图3是本发明实施例的搜索引擎的搜索方法的流程图;

图4是本发明实施例的抓取网页数据的方法的流程图;

图5是本发明实施例的对用户评论数据进行情感分析的方法的流程图;

图6是本发明实施例的后台服务器处理搜索请求的方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

请一并参阅图2,是本发明实施例的搜索引擎系统的结构示意图。本发明实施例的搜索引擎系统包括网络爬虫模块、数据库模块、情感分析模块、后台服务器及客户端;网络爬虫模块用于抓取搜索目标的网页数据,并将抓取到的网页数据传输至数据库模块;数据库模块用于存储抓取的网页数据;情感分析模块用于从数据库模块的网页数据中读取该搜索目标对应的用户评论数据,对用户评论数据进行情感分析处理后生成评论摘要,并将评论摘要传输至数据库模块进行存储;客户端与后台服务器连接,用于向后台服务器发送搜索请求,后台服务器根据搜索请求访问数据库模块,并获取对应的网页数据及评论摘要后返回给客户端进行显示。其中,所述客户端包括android客户端或ios客户端等移动终端。

具体地:网络爬虫模块包括种子设置单元、特征提取单元、列表判断单元和数据解析单元;

种子设置单元用于设置网络爬虫(网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分)的种子url(种子网页地址),并将url添加到“待抓取url列表”中;

特征提取单元用于提取url的特征,并维护一个“已下载url特征集”,将提取的url特征存储在“已下载url特征集”中;

列表判断单元用于判断“待抓取url列表”是否为空:如果“待抓取url列表”不为空,则通过数据解析单元对“待抓取url列表”中的url进行解析;如果“待抓取url列表”为空,表示数据解析单元已经将“待抓取url列表”中所有的url全部解析完毕,则网络爬虫工作结束;

数据解析单元用于提取“待抓取url列表”中的url进行解析,将url对应的网页下载下来,并提取相关的网页数据;其中,数据解析单元对网页数据的处理方式具体为:解析当前网页内容,利用正则表达式(regularexpression,在代码中常简写为regex、regexp或re,计算机科学的一个概念;正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串)将网页中有效的url提取出来,并提取该url的特征,将该url特征与“已下载url特征集”中的url特征进行匹配,判断该url是否存在,如果不存在则将该url添加到“待抓取url列表”中,否则将该url过滤,从而避免添加重复的url;并利用正则表达式提取当前网页中的网页数据,将提取到的网页数据存储在数据库模块中;其中,提取的网页数据包括搜索目标的商品信息、商家信息以及商品评论信息等。

数据库模块根据搜索目标的主题建立索引库,将提取的网页数据存储在对应主题的索引库下。

情感分析模块通过情感分析技术对评论数据进行挖掘与分析;情感分析技术(sentimentanalysis),又称评论挖掘或者意见挖掘(opinionmining),是指通过自动分析某种商品评论的文本内容,发现消费者对该商品的褒贬态度和意见。doubleclickinc曾经进行了一项针对美国服装业、计算机硬件设备业、运动与健身产品行业及旅游业网络客户的研究,发现有近一半以上的消费者在做购买决定之前会在网络上搜索相关商品的介绍信息以及其他消费者对商品的评论信息。由此可见,互联网商品评论在消费者购买过程中起着很大的作用,对于消费者的购买决策有着重要的影响。因此,对商品在线评论的进行情感分析已经变得越来越重要。

具体地,情感分析模块包括数据获取单元、数据分类单元和数据提取单元;

数据获取单元用于从数据库模块中获取搜索目标对应的原始评论数据,并对原始评论数据进行分句、分词和词性标注等处理;

数据分类单元用于根据标注结果对评论句子进行主客观分类,保留主观评论句子,过滤客观评论句子;

数据提取单元用于从主观评论句子中抽取情感词和评论中所描述的商家(商品)属性信息,根据情感词和商家属性信息生成评论摘要,并将评论摘要传输至数据库模块进行存储。具体地,本发明通过统计评论数据中出现的正面情感词及负面情感词的词频与权重,并根据该评论数据的总体情感权重值的正负属性来判断该评论数据是正面评论还是负面评论;其中,正面情感词权重值为正数,负面情感词权重值为负数;例如,在针对婚庆商家或商品的评论数据进行情感摘要提取时,首先根据已有的婚庆主题词库来筛选评论数据中出现的所有情感摘要组合,之后通过匹配已有的句法模式来确定最终较为准确的情感摘要。

后台服务器采用mvc模式进行开发,由于本发明中不包含web前端页面的开发,因此后台服务器中不包含视图(view)层,后台服务器直接与客户端进行数据交互;后台服务器具体包括第一控制器、第二控制器、业务服务层和数据访问层;

第一控制器用于接收客户端发送的搜索请求,并将该搜索请求委托给第二控制器进行解析处理;

第二控制器用于对搜索请求进行解析处理,提取搜索请求中的搜索关键字或附加参数,并将搜索关键字或附加参数传输至业务服务层进行业务逻辑处理;其中,所述附加参数包括情感条件等。

业务服务层用于接收第二控制器传输的搜索关键字或附加参数,并调用数据访问层获取网页数据;

数据访问层用于访问数据库模块,根据搜索关键字或附加参数获取数据库模块中的网页数据及评论摘要,对获取的网页数据及评论摘要进行添加、删除、修改与查询等操作,并通过业务服务层将网页数据及评论摘要返回至第二控制器,第二控制器将网页数据及评论摘要进行封装处理后通过第一控制器返回至客户端。

客户端具体包括搜索单元、数据接收单元与路线规划单元;

搜索单元用于将用户输入的搜索关键字或者其他附件参数封装在http(超文本传输协议,hypertexttransferprotocol)请求中发送给后台服务器;其中,所述附件参数包括情感倾向等附加条件;

数据接收单元用于接收后台服务器返回的网页数据及评论摘要,并对接收数据解析处理后,将解析结果显示给用户;其中,本发明利用评论摘要的情感分析结果,并将情感分析结果显示给用户,使得消费者可以了解大众对某商家或商品的主要情感倾向,从而优化自己的购买决策;另一方面,商家也可以了解消费者对其商品和服务的反馈信息,以及消费者对自己和对竞争对手的评价,从而改进产品改善服务,为自身赢得竞争优势。

路线规划单元用于通过位置服务技术根据用户的搜索目标或后台服务器返回的商家信息获取商家位置,并获取用户当前位置,为用户进行路径规划;其中,所述路径规划方式包括步行路径规划、公交路径规划及驾车路径规划等;随着移动定位技术、无线通讯网络、地理信息系统、互联网技术的飞速发展,基于位置服务(location-basedservices,lbs)的应用也得到较快发展。基于位置的信息服务是根据用户所在位置提供的一种增值业务,主要通过移动定位技术获得用户当前所在位置,在电子地图和业务平台的支持下,提供给用户位置相关的信息服务,其最大特点是在用户需要的时间、地点和环境下,为用户提供与位置关联的信息,从而更加贴近用户需求和使用场景。

请参阅图3,是本发明实施例的搜索引擎的搜索方法的流程图。本发明实施例的搜索引擎的搜索方法包括以下步骤:

步骤100:通过网络爬虫抓取搜索目标的网页数据,并将抓取的网页数据存储在数据库中;

为了清楚说明步骤100,请一并参阅图4,是本发明实施例的抓取网页数据的方法的流程图。本发明实施例的抓取网页数据的方法包括以下步骤:

步骤101:设置网络爬虫的种子url,并将url添加到“待抓取url列表”中;

步骤102:提取url的特征,并维护一个“已下载url特征集”,将提取的url特征存储在“已下载url特征集”中;

步骤103:判断“待抓取url列表”是否为空:如果“待抓取url列表”不为空,执行步骤104;如果“待抓取url列表”为空,执行步骤105;

步骤104:提取“待抓取url列表”中的url进行解析,将url对应的网页下载下来,并提取相关的网页数据,将提取到的网页数据存储在数据库中;

在步骤104中,对网页数据的处理方式具体为:解析当前网页内容,利用正则表达式将网页中有效的url提取出来,并提取该url的特征,将该url特征与“已下载url特征集”中的url特征进行匹配,判断该url是否存在,如果不存在则将该url添加到“待抓取url列表”中,否则将该url过滤,从而避免添加重复的url;并利用正则表达式提取当前网页中的网页数据,将提取到的网页数据存储在数据库中;提取的网页数据包括搜索目标的商品信息、商家信息以及商品评论信息等。

步骤105:网络爬虫工作结束。

步骤200:读取网页数据中该搜索目标对应的用户评论数据,通过情感分析技术对用户评论数据进行情感分析处理后生成评论摘要,并将评论摘要存储在数据库中;

为了清楚说明步骤200,请一并参阅图5,是本发明实施例的对用户评论数据进行情感分析的方法的流程图。本发明实施例的对用户评论数据进行情感分析的方法包括以下步骤:

步骤201:从数据库中获取搜索目标对应的原始评论数据,并对原始评论数据进行分句、分词和词性标注等处理;

步骤202:根据标注结果对评论句子进行主客观分类,保留主观评论句子,过滤客观评论句子;

步骤203:从主观评论句子中抽取情感词和评论中所描述的商家(商品)属性信息,根据情感词和商家属性信息生成评论摘要,并将评论摘要传输至数据库进行存储。

步骤300:通过数据库根据搜索目标的主题建立索引库,将提取的网页数据及评论摘要存储在对应主题的索引库下;

步骤400:通过客户端输入搜索关键字及其他附加参数,并向后台服务器发送搜索请求;

在步骤400中,所述附件参数包括情感倾向等附加条件。

步骤500:通过后台服务器接收搜索请求,根据搜索请求在数据库中获取对应的网页数据及评论摘要,并将获取的网页数据及评论摘要返回至客户端;

为了清楚说明步骤500,请一并参阅图6,是本发明实施例的后台服务器处理搜索请求的方法的流程图。本发明实施例的后台服务器处理搜索请求的方法包括以下步骤:

步骤501:通过第一控制器接收客户端发送的搜索请求,并将该搜索请求委托给第二控制器进行解析处理;

步骤502:对搜索请求进行解析处理,提取搜索请求中的搜索关键字或附加参数,并将搜索关键字或附加参数传输至业务服务层进行业务逻辑处理;

步骤503:接收第二控制器传输的搜索关键字或附加参数,并调用数据访问层获取网页数据;

步骤504:根据搜索关键字或附加参数获取数据库中的网页数据及评论摘要,对获取的网页数据及评论摘要进行添加、删除、修改与查询等操作,并将网页数据及评论摘要进行封装处理后通过第一控制器返回至客户端。

步骤600:通过客户端接收后台服务器返回的网页数据及评论摘要,并对接收数据解析处理后显示给用户;

步骤700:通过位置服务技术根据用户的搜索目标或后台服务器返回的商家信息获取商家位置,并获取用户当前位置,为用户进行路径规划;

在步骤700中,所述路径规划方式包括步行路径规划、公交路径规划及驾车路径规划等。

本发明可应用于多种领域或主题的互联网搜索引擎,例如婚庆电商搜索引擎或数码产品搜索引擎等;以婚庆电商搜索引擎为例,以“中国婚博会”及其他婚庆网站为数据来源,抓取网站中商家或商品信息,并对网站中的评论数据进行情感分析,挖掘大众对商家或商品的情感倾向,为用户提供参考价值,保证用户在使用婚庆主题搜索功能时能够获取到准确的搜索结果,为当代人们结婚庆典提供十分有效的帮助。

本发明实施例的搜索引擎系统及其搜索方法通过对搜索目标的评论信息进行挖掘与分析,并将情感分析结果显示给消费者,消费者可以了解大众对某商家的情感倾向,从而优化自己的购买决策;同时,销售商可以了解消费者对其商品和服务的反馈信息,以及消费者对自己和对竞争对手的评价,从而改进产品改善服务,为自身赢得竞争优势,无论对消费者还是销售商都有着十分积极的意义。由于本发明集成了情感分析技术,与普通的搜索引擎相比,检索结果更加准确,更加人性化;并在移动搜索引擎的基础之上集成了位置服务技术,使得消费者可以更加便捷的查询当前位置去往商家的路线,大大节约消费者时间。且本发明符合当代移动互联网迅速发展的潮流,满足用户随时随地的搜索需求。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1