一种智能垂直搜索方法和系统的制作方法

文档序号:6434815阅读:190来源:国知局
专利名称:一种智能垂直搜索方法和系统的制作方法
技术领域
本申请涉及网络技术领域,特别是涉及一种智能垂直搜索方法和系统。
背景技术
随着互联网技术的发展,互联网上的信息呈现爆炸性的发展,这导致用户如果想要在网络中寻找到自己需要的信息,必须通过搜索去获取自己需要的信息,搜索是广大网民获取信息,到达指定网站的主要渠道。现有技术中,一种是通用搜索,通过搜索引擎主动派出“蜘蛛”程序,对整个互联网的网站信息进行检索,蜘蛛爬虫在抓取一个页面后,对该页面进行分析入库,并读取页面的所有连接,然后对这些连接再进行抓取分析。通过上千蜘蛛的周期性不停抓取,实现了对整个互联网的所有网页信息的索引,并直接根据关键词匹配将所有与该关键词相关的信息以相关度排序返回给用户,其优点是搜索范围广,但缺点是用户通过关键词搜索返回的是大而全的结果,没法提供按行业特征进行分类筛选的服务,无法分类显示,然而哪些内容是用户本次搜索中想搜到的则无法进行判断,用户需要花很长时间在结果中找自己需要的信肩、ο另外一种是垂直搜索,其站内资源的深度搜索,用户在其网站上添加相应数据,系统对该数据进行检查与过滤,搜索引擎将这些数据进行中文分词建立索引,供其他用户查询,是某个网站针对其站内信息的搜索服务,其网站内的信息是由其站内用户直接将各种信息添加入该网站的各个分类中,其优点是分类清晰,但缺点是搜索范围较窄,提供的结果不够全面,用户需通过与其他搜索引擎配合使用才能了解到全面的信息。

发明内容
本申请所要解决的技术问题是提供一种垂直智能垂直搜索方法和系统,解决用户在搜索信息时无法全面、准确、快速的获取相关信息的缺点。为了解决上述问题,本申请公开了一种智能垂直搜索方法,包括获取用户端选择的一行业中输入的查询词;根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述的条目为电子商务网页中的一项或多项业务内容;其中,所述该行业已分类的各条目通过以下步骤获得获取所述行业所有网页的所有条目及相关信息;将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。优选的,所述的查询词包括
将用户的输入的关键词作为查询词;或者,将用户选择的根据该用户的输入词返回的建议词中的一个作为查询词;其中,所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。优选的,还包括以下安全检测步骤步骤A、对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类;和/或,步骤B,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除;和/或,步骤C,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。优选的,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全的过程通过以下步骤进行步骤P1,对于所述获取的待分类的每个条目所在的链接地址,将该链接地址提交给安全检查引擎检查其是否在安全等级库中存在;步骤P2,如果存在并安全,则对所述条目进行分类;步骤P3,如果存在但不安全,则发送警告信息,并过滤掉该链接地址的相关数据;步骤P4,如果不存在,则通过木马查杀引擎检查该链接地址,判断该链接是否安全,如果安全,将该链接地址存入安全等级库,并转入步骤Pl。优选的,还包括以下安全检测步骤通过包括所述条目的链接地址icp备案信息和/或网站实名认证系统对所述条目进行安全检测。优选的,在获取所述行业所有网页的所有条目及相关信息时包括自动抓取步骤,用于自动抓取所述行业所有网页的所有条目及相关信息;补充录入步骤,用于补充录入一网页的条目及相关信息。优选的,在按类别将各所述类别的条目及相关信息展现给用户端时包括将条目相关的用户行为入口直接提供给用户端。优选的,还包括智能纠错步骤,通过智能纠错引擎对于用户错误输入的查询词进行纠错。优选的,所述条目各关键词i的出现次数比率与已分类条目各关键词i的出现概率的差值,通过对数加权,计算出条目对应的分类c偏差值G(C),偏差值越小则相似度越高,取最低的偏差值所在分类来确定条目所属分类。相应的本申请还公开了一种智能垂直搜索系统,包括搜索引擎,用于获取用户端选择的一行业中输入的查询词;根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述的条目为电子商务网页中的一项或多项业务内容;分类数据库,用于存储各行业已分类数据;
数据获取模块,用于获取所述行业所有网页的所有条目及相关信息;分类器,用于将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。优选的,还包括安全检查模块,用于对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类;和/或,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除;和/或,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。优选的,还包括关键词建议引擎,用于根据用户的输入词返回建议词;所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。优选的,还包括智能纠错引擎,用于对于用户错误输入的查询词进行纠错。优选的,所述的数据获取模块包括数据抓取器,用于自动抓取所述行业所有网页的所有条目及相关信息;补充录入模块,用于补充录入一网页的条目及相关信息。优选的,还包括接口提供模块,用于在按类别将各所述类别的条目及相关信息展现给用户端时将条目相关的用户行为入口直接提供给用户端。与现有技术相比,本申请包括以下优点本申请通过以行业分类为搜索起点,获取网络中各行业的所有网站的条目,并通过将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别和/或根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别;在对一行业的所有条目进行分类后,当用户进行查询时,搜索引擎可以根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;本申请通过建立自动分类系统,实现了数据的自动分类和筛选功能,可以更精确、更全面、更快捷的展现与用户关注点相关的信息。


图1是本申请一种智能垂直搜索方法的流程示意图;图2是本申请一种智能垂直搜索方法的统计学分类法的有效性示意图;图3是本申请一种智能垂直搜索方法最佳的分类流程示意图;图4是本申请一种智能垂直搜索方法的建议词有效性示意图5是本申请一种智能垂直搜索方法优选的条目分类前安全检查流程示意图;图6是本申请一种智能垂直搜索系统的结构示意图;图7是本申请一种智能垂直搜索系统优选的结构示意图。
具体实施例方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本申请作进一步详细的说明。参照图1,示出了本申请一种智能垂直搜索方法的流程示意图,包括步骤110,获取用户端选择的一行业中输入的查询词。步骤120,根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果, 获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户; 其中,所述的条目为电子商务网页中的一项或多项业务内容。其中,业务内容不含新闻、 广告、问答等非主营业务信息,并且不包含网页上抬头、广告或者icpdnternet Content Provider,网络内容服务商)备案等左上或下方等区域的信息。其中,所述该行业已分类的各条目通过以下步骤获得步骤210,获取所述行业所有网页的所有条目及相关信息;步骤220,将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。本申请可在线下预先通过步骤210和步骤220对各行业进行进一步分类。比如说对于教育行业,可以将其分为少儿教育,中等教育,高等教育,职业教育等大类,在少儿教育中又可以分为幼儿、幼升小、一年级、二年级、三年级、四年级、五年级、六年级、小升初等类, 中等教育又可以分为初一、初二、初三、高中预科、高一、高二、高三、大学预科等类,高等教育又可以分为英语四六级、新概念、英语相关、小语种、考研英语、考研数学、考研政治、考研专业课、托福、雅思等类,职业教育又可以分为职业英语、职业小语种、财会、自考、计算机、 驾校、建筑工程、经贸/金融、医药、在职研究生、人力资源、公务员等类。其中,每个类都会含有相应的多个关键词,比如说少儿教育类中含有幼儿、幼升小、一年级、二年级、三年级、 四年级、五年级、六年级、小升初、初级英语、数学、语文、学前班、特长班等关键词。又比如说对于游戏行业,可以分为游戏类型、游戏题材和游戏画面等类,游戏类型又可以分为角色扮演、回合制、动作游戏、FPS射击、TPS射击赛、车竞速、体育运动、音乐舞蹈、格斗对战、策略等类;游戏题材又可以分为武侠、玄幻、奇幻、科幻、卡通、历史等类;游戏画面又可以分为3D、2D、2. 5D等类。其中每个类都会含有相应的多个关键词。在分类时,首先通过步骤210按行业获取网络中该行业所有网站的所有条目,所述的条目为电子商务网页中的一项或多项业务内容,其中业务内容的不含新闻、广告、问答等非主营业务信息,并且不包含网页上抬头、广告或者icp备案等左上或下方等区域的信息,比如说教育行业各教育类型网站的课程内容及其名称,比如“考研英语冲刺班”及其内容。其中,在获取所述行业所有网页的所有条目及相关信息时包括
自动抓取步骤,用于自动抓取所述行业所有网页的所有条目及相关信息。其中,自动抓取步骤过程可通过以下步骤进行步骤ml,自动搜索该行业所有网站的链接地址,生成抓取列表,并记录每次抓取时间以及抓取状态。步骤m2,采用分布式部署,根据地域分布,对不同网站进行周期性抓取。如果网站数据有变动,网站方可以采用主动通知机制,调用本申请提供的通知接口,实现对该网站数据的实时更新。网站数据有变化时只需访问本申请提供的通知地址,该地址即可触发抓取行为。步骤m3,对抓取来的数据进行安全检查和有效性检查。安全检查将地址提交给安全检查模块检查该地址是否有木马或病毒存在,从而返回提示是否收录该地址。有效性检查将检查该地址是否能正常打开,如果该地址返回不存在或者其他错误,本次抓取将不会收录该地址。步骤m4,将数据提交给分类器进行分类处理,抓取程序继续抓取新的数据。当本次抓取结束后,数据抓取器将重新开始抓取,并判断文件是否有更新从而确定是否跳过抓取下一条记录。补充录入步骤,用于补充录入一网页的条目及相关信息。可用于补充自动抓取步骤未抓取到的内容。普通的web数据是非结构化数据,如果使用传统的抓取web页面的方式则需要对数据进行结构化分析,在这个过程中,由于系统的智能识别能力有限,必将导致部分信息的丢失。为了解决这一问题,本申请结合问题的特点,与数据源提供方建立了一种合作机制, 通过由本申请制定并提供行业数据格式标准,由数据源提供方按照该标准填写数据内容, 从而达到了事半功倍的效果。可以通过如下方法建立格式标准选定需要进行垂直搜索的行业,比如教育、游戏;分析该行业的数据特点,制定格式标准。以游戏为例,当人们提到游戏时会想到游戏名称,游戏类型,游戏简介,游戏地址等相关信息,对这些信息进行归纳整理,最终形成标准接口。形成的游戏接口字段如下
权利要求
1.一种智能垂直搜索方法,其特征在于,包括 获取用户端选择的一行业中输入的查询词;根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述的条目为电子商务网页中的一项或多项业务内容;其中,所述该行业已分类的各条目通过以下步骤获得 获取所述行业所有网页的所有条目及相关信息;将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
2.根据权利要求1所述的方法,其特征在于,所述的查询词包括 将用户的输入的关键词作为查询词;或者,将用户选择的根据该用户的输入词返回的建议词中的一个作为查询词;其中,所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。
3.根据权利要求1所述的方法,其特征在于,还包括以下安全检测步骤步骤A、对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类;和/或,步骤B,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除;和/或,步骤C,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。
4.根据权利要求3所述的方法,其特征在于,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全的过程通过以下步骤进行步骤P1,对于所述获取的待分类的每个条目所在的链接地址,将该链接地址提交给安全检查引擎检查其是否在安全等级库中存在;步骤P2,如果存在并安全,则对所述条目进行分类;步骤P3,如果存在但不安全,则发送警告信息,并过滤掉该链接地址的相关数据; 步骤P4,如果不存在,则通过木马查杀引擎检查该链接地址,判断该链接是否安全,如果安全,将该链接地址存入安全等级库,并转入步骤Pl。
5.根据权利要求1所述的方法,其特征在于,还包括以下安全检测步骤通过包括所述条目的链接地址icp备案信息和/或网站实名认证系统对所述条目进行安全检测。
6.根据权利要求1所述的方法,其特征在于,在获取所述行业所有网页的所有条目及相关信息时包括自动抓取步骤,用于自动抓取所述行业所有网页的所有条目及相关信息; 补充录入步骤,用于补充录入一网页的条目及相关信息。
7.根据权利要求1所述的方法,其特征在于,在按类别将各所述类别的条目及相关信息展现给用户端时包括将条目相关的用户行为入口直接提供给用户端。
8.根据权利要求1所述的方法,其特征在于,还包括智能纠错步骤,通过智能纠错引擎对于用户错误输入的查询词进行纠错。
9.根据权利要求1所述的方法,其特征在于所述条目各关键词i的出现次数比率与已分类条目各关键词i的出现概率的差值,通过对数加权,计算出条目对应的分类c偏差值G(C),偏差值越小则相似度越高,取最低的偏差值所在分类来确定条目所属分类。
10.一种智能垂直搜索系统,其特征在于,包括搜索引擎,用于获取用户端选择的一行业中输入的查询词;根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述的条目为电子商务网页中的一项或多项业务内容;分类数据库,用于存储各行业已分类数据;数据获取模块,用于获取所述行业所有网页的所有条目及相关信息;分类器,用于将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
11.根据权利要求10所述的系统,其特征在于,还包括安全检查模块,用于对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类;和/或,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除;和/或,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。
12.根据权利要求10所述的系统,其特征在于,还包括关键词建议引擎,用于根据用户的输入词返回建议词;所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。
13.根据权利要求10所述的系统,其特征在于,还包括智能纠错引擎,用于对于用户错误输入的查询词进行纠错。
14.根据权利要求10所述的系统,其特征在于,所述的数据获取模块包括数据抓取器,用于自动抓取所述行业所有网页的所有条目及相关信息;补充录入模块,用于补充录入一网页的条目及相关信息。
15.根据权利要求10所述的系统,其特征在于,还包括接口提供模块,用于在按类别将各所述类别的条目及相关信息展现给用户端时将条目相关的用户行为入口直接提供给用户端。
全文摘要
本申请提供了一种能垂直搜索方法和系统,涉及网络技术领域。所述的方法包括根据用户端的查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述该行业已分类的各条目通过以下步骤获得获取所述行业所有网页的所有条目及相关信息;将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。通过本申请可更精确、更全面、更快捷的展现与用户关注点相关的信息。
文档编号G06F17/30GK102332025SQ20111030077
公开日2012年1月25日 申请日期2011年9月29日 优先权日2011年9月29日
发明者许小东, 赵轶 申请人:奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1