基于搜索引擎的摘要信息提取方法、装置以及搜索引擎的制作方法

文档序号:6551418阅读:310来源:国知局
基于搜索引擎的摘要信息提取方法、装置以及搜索引擎的制作方法【专利摘要】本发明公开了一种基于搜索引擎的摘要信息提取方法、装置以及搜索引擎,其中所述方法包括:基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源;识别所述网页资源的页面类型;针对所述页面类型,从所述网页资源中提取对应的摘要信息;输出所述摘要信息。本发明实施例可以减少用户频繁点击搜索结果对应的页面来查找所需信息的情况发生,进而提高了检索速度,降低了搜索引擎的交互次数,提高数据处理速率。【专利说明】基于搜索引擎的摘要信息提取方法、装置以及搜索引擎【
技术领域
】[0001]本发明涉及信息检索的【
技术领域
】,具体涉及一种基于搜索引擎的摘要信息提取方法、一种基于搜索引擎的摘要信息提取方法的装置以及一种搜索引擎。【
背景技术
】[0002]在网络信息极大丰富的当今时代,搜索引擎已经成为用户对海量资源检索的必备工具。[0003]为了增强搜索结果展示的效果,搜索引擎提供的搜索结果中,除了网页标题和URL夕卜,还可以包括提供一段来自网页的摘要。目前,搜索引擎生成摘要的方式,可以归结为如下两种:[0004]一是静态方式,即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出一些文字,例如截取网页正文的开头512个字节(对应256个汉字),或者将每一个段落的第一个句子拼起来,等等。这样形成的摘要存放在查询子系统中,一旦相关文档被选中与查询项匹配,就读出返回给用户。显然,这种方式对查询子系统来说是最轻松的,不需要做另外的处理工作。但这种方式的一个最大的缺点是摘要和查询无关。[0005]用户希望摘要中能够突出显示和查询直接对应的文字,希望摘要中出现和他关心的文字相关的句子。因此,动态摘要方式应运而生,动态摘要即在响应查询的时候,根据查询词在文档中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。[0006]虽然动态摘要的内容包含用户的查询词,但是这些句子并不能表达出整个Web文档的中心意思。也就是说,用户通过阅读搜索引擎返回的摘要并不能确定自己查找的信息是否包含在这个页面中。此时,用户需要点击搜索结果,从搜索结果对应的网页查看是否包含自己想要的信息,多次的交互过程耗费带宽资源,搜索效率低下。【
发明内容】[0007]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于搜索引擎的摘要信息提取方法和相应的一种基于搜索引擎的摘要信息提取方法以及一种搜索引擎。[0008]依据本发明的一个方面,提供了一种基于搜索引擎的摘要信息提取方法,包括:[0009]基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源;[0010]识别所述网页资源的页面类型;[0011]针对所述页面类型,从所述网页资源中提取对应的摘要信息;[0012]输出所述摘要信息。[0013]可选地,所述识别所述网页资源的页面类型的步骤包括:[0014]抽取所述网页资源的页面框架,计算页面框架ID;[0015]若相同页面框架ID的页面框架的数量大于预设阈值,计算页面框架模式;[0016]将所述页面框架模式与预先生成的数据库中的页面框架模式进行匹配,识别出页面类型。[0017]可选地,所述网页资源包括网页源代码,所述页面类型包括单一页面,所述针对所述页面类型,从所述网页资源中提取对应的摘要信息的步骤包括:[0018]针对所述单一页面,从所述网页源代码中提取一个或多个关键的元素信息,作为摘要信息。[0019]可选地,所述单一页面包括以下一种或几种的组合:下载正文页面、音视频播放页面、小说阅读页面、问答页面、新闻组图页面、专题页面。[0020]可选地,所述网页资源包括网页源代码,所述页面类型包括列表页面,所述针对所述页面类型,从所述网页资源中提取对应的摘要信息的步骤包括:[0021]针对所述列表页面,从所述网页源代码中提取所述网页资源统计出的点击率排序在前的一个或多个元素信息,作为摘要信息。[0022]可选地,所述列表页面包括音视频列表页面。[0023]可选地,所述针对所述页面类型,从所述网页资源中提取对应的摘要信息的步骤包括:[0024]针对所述页面类型,向所述网页资源对应的网站对象发送第一查询请求;[0025]接收所述网站对象发送的与所述第一查询请求对应的历史访问记录,所述历史访问记录为所述网站对象从当前终端中获得cookies信息后,依据所述cookies信息获得的记录;[0026]从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。[0027]可选地,所述针对所述页面类型,从所述网页资源中提取对应的摘要信息的步骤包括:[0028]针对所述页面类型,向当前终端的浏览器发出第二查询请求,所述第二查询请求包括所述网页资源的网站对象标识;[0029]接收所述浏览器返回的当前终端中与所述网站对象标识相关的历史访问记录,所述历史访问记录为当前终端的浏览器获取与所述网站对象相关的cookies信息后获得;[0030]从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。[0031]可选地,所述方法还包括:[0032]对所述摘要信息添加特定标记TAG。[0033]可选地,所述针对所述页面类型,从所述网页资源中提取对应的摘要信息的步骤为:[0034]针对所述页面类型,从预先生成的摘要数据库中查找与所述网页资源对应的摘要信息,所述摘要数据库存储有网页资源与对应的摘要信息。[0035]可选地,所述摘要信息至少包括如下一种或几种的组合:一个或多个元素信息的元素URL,元素标识,元素图片,元素文字描述信息。[0036]根据本发明的另一方面,提供了一种基于搜索引擎的摘要信息提取装置,包括:[0037]网页资源获取模块,适于基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源;[0038]页面类型识别模块,适于识别所述网页资源的页面类型;[0039]摘要信息提取模块,适于针对所述页面类型,从所述网页资源中提取对应的摘要信息;[0040]信息输出模块,适于输出所述摘要信息。[0041]可选地,所述页面类型识别模块还适于:[0042]抽取所述网页资源的页面框架,计算页面框架ID;[0043]若相同页面框架ID的页面框架的数量大于预设阈值,计算页面框架模式;[0044]将所述页面框架模式与预先生成的数据库中的页面框架模式进行匹配,识别出页面类型。[0045]可选地,所述网页资源包括网页源代码,所述页面类型包括单一页面,所述摘要信息提取模块还适于:[0046]针对所述单一页面,从所述网页源代码中提取一个或多个关键的元素信息,作为摘要信息。[0047]可选地,所述单一页面包括以下一种或几种的组合:下载正文页面、音视频播放页面、小说阅读页面、问答页面、新闻组图页面、专题页面。[0048]可选地,所述网页资源包括网页源代码,所述页面类型包括列表页面,所述摘要信息提取模块还适于:[0049]针对所述列表页面,从所述网页源代码中提取所述网页资源统计出的点击率排序在前的一个或多个元素信息,作为摘要信息。[0050]可选地,所述列表页面包括音视频列表页面。[0051]可选地,所述摘要信息提取模块还适于:[0052]针对所述页面类型,向所述网页资源对应的网站对象发送第一查询请求;[0053]接收所述网站对象发送的与所述第一查询请求对应的历史访问记录,所述历史访问记录为所述网站对象从当前终端中获得cookies信息后,依据所述cookies信息获得的记录;[0054]从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。[0055]可选地,所述摘要信息提取模块还适于:[0056]针对所述页面类型,向当前终端的浏览器发出第二查询请求,所述第二查询请求包括所述网页资源的网站对象标识;[0057]接收所述浏览器返回的当前终端中与所述网站对象标识相关的历史访问记录,所述历史访问记录为当前终端的浏览器获取与所述网站对象相关的cookies信息后获得;[0058]从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。[0059]可选地,所述装置还包括:[0060]标记添加模块,适于对所述摘要信息添加特定标记TAG。[0061]可选地,所述摘要信息提取模块还适于:[0062]针对所述页面类型,从预先生成的摘要数据库中查找与所述网页资源对应的摘要信息,所述摘要数据库存储有网页资源与对应的摘要信息。[0063]可选地,所述摘要信息至少包括如下一种或几种的组合:一个或多个元素信息的元素URL,元素标识,元素图片,元素文字描述信息。[0064]根据本发明的另一方面,提供了一种搜索引擎,包括:[0065]网页资源获取模块,适于基于接收的搜索字符串,获取匹配的网页资源;[0066]页面类型识别模块,适于识别所述网页资源的页面类型;[0067]摘要信息提取模块,适于针对所述页面类型,从所述网页资源中提取对应的摘要信息;[0068]信息输出模块,适于输出所述摘要信息。[0069]在本发明实施例中,搜索引擎接收到用户输入的搜索字符串后,查找所有包含搜索字符串的网页资源作为匹配的网页资源,在搜索结果中输出的摘要信息为通过识别所述网页资源的页面类型后,对不同页面类型的网页资源提取得到的。从而使得显示在搜索结果中的摘要信息表达整个页面文档的中心意思的准确性更高,提供给用户的信息更有价值,用户从摘要信息中就能获得想要的信息,减少了用户因频繁点击搜索结果对应的页面来查找所需信息的情况发生,进而提高了检索速度,降低了搜索引擎的交互次数,提高数据处理速率。[0070]另外,在本发明实施例中,获得匹配的网页资源后,依据网页资源获得对应的cookies信息,并依据cookies信息获得用户的历史访问记录,从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。从而使得显示在搜索结果中的摘要信息为针对不同用户的个性化摘要信息,提升用户体验的同时,使得摘要信息中提供给用户的信息更有价值,用户从摘要信息中就能获得想要的信息,减少了用户因频繁点击搜索结果对应的页面来查找所需信息的情况发生,进而提高了检索速度,降低了搜索引擎的交互次数,提高数据处理速率。[0071]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。【专利附图】【附图说明】[0072]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:[0073]图1示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例一的步骤流程图;[0074]图2示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例二的步骤流程图;[0075]图2_a示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例二的下载正文页面示意图;[0076]图2_b示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例二的第一输出结果示意图;[0077]图3示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例三的步骤流程图;[0078]图3_a示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例二的视频网站首页不意图;[0079]图3_b示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例三的第二输出结果示意图;[0080]图4示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例四的步骤流程图;[0081]图4_a示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例四的视频网站首页示意图;[0082]图4_b示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例四的第三输出结果示意图;[0083]图5示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例五的步骤流程图;[0084]图6示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取装置实施例的结构框图;[0085]图7示出了根据本发明一个实施例的一种搜索引擎实施例的结构框图。【具体实施方式】[0086]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。[0087]参照图1,示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例一的步骤流程图,本发明实施例可以包括如下步骤:[0088]步骤101,基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源;[0089]步骤102,识别所述网页资源的页面类型;[0090]步骤103,针对所述页面类型,从所述网页资源中提取对应的摘要信息;[0091]步骤104,输出所述摘要信息。[0092]在本发明实施例中,搜索引擎接收到用户输入的搜索字符串后,查找所有包含搜索字符串的网页资源作为匹配的网页资源,在搜索结果中输出的摘要信息为通过识别所述网页资源的页面类型后,对不同页面类型的网页资源提取得到的。从而使得显示在搜索结果中的摘要信息表达整个页面文档的中心意思的准确性更高,提供给用户的信息更有价值,用户从摘要信息中就能获得想要的信息,减少了用户因频繁点击搜索结果对应的页面来查找所需信息的情况发生,进而提高了检索速度,降低了搜索引擎的交互次数,提高数据处理速率。[0093]参照图2,示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例二的步骤流程图,本发明实施例可以包括如下步骤:[0094]步骤201,基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源,所述网页资源包括网页源代码;[0095]搜索字符串query是用户在搜索引擎界面中输入的搜索信息,用以表达用户意图,请求搜索与之相关的网页资源。[0096]搜索引擎接收到用户输入的搜索字符串后,对搜索字符串进行分词、去停止词、错别字判断等处理后,从预先建立的索引数据库中查找所有包含搜索字符串的网页资源作为匹配的网页资源。其中,网页资源可以包括网页正文、网页的URL地址、构成网页的网页源代码以及进出网页的链接等信息。[0097]步骤202,识别所述网页资源的页面类型,所述页面类型包括单一页面;[0098]获取网页资源后,可以进一步根据该网页资源识别对应的页面类型,在本发明的一种优选实施例中,所述步骤202可以包括如下子步骤:[0099]子步骤S11,抽取所述网页资源的页面框架,计算页面框架ID;[0100]在具体实现中,抽取网页资源的页面框架的方式可以为:根据网页源代码中的html语言标签抽取网页的页面框架,抽取时只保留html语言标签中的框架类标记,如framestable等,同时保留id、name、class属性,去掉其余属性。还可以按标点识别出网页正文,去除正文以得到网页的页面框架。[0101]抽取页面框架后,可以将页面内的属性根据哈希算法计算页面框架的hash值,gp为页面框架ID,例如,将框架类标记如frame、table及其id、name、class属性按哈希算法进行计算,所得结果即为页面框架ID。由于采用相同的哈希函数,相同的页面框架计算出的页面框架ID也是相同的。[0102]子步骤S12,若相同页面框架ID的页面框架的数量大于预设阈值,计算页面框架模式;[0103]在实际中,计算页面框架模式时分标题、时间、网页正文等分别计算,计算方法可以采用机器自动学习机制,如采用支持向量机SVM(SupportVectorMachine)计算页面框架模式。学习时将上述抽取的页面框架输入SVM进行学习,即对页面框架进行html语言标签关键标记的匹配,若干相同ID的页面框架中的html语言标签关键标记能够完全匹配,因此,对于相同ID的页面框架学习到上述预设阈值的的数量后,SVM便输出相应页面框架的页面框架模式。[0104]子步骤S13,将所述页面框架模式与预先生成的数据库中的页面框架模式进行匹配,识别出页面类型。[0105]其中,预先生成的数据库中存储有已知类型页面框架模式以及该模式下各网页特征的权重,对匹配上的特征按照不同的类别为页面框架增加相应权重,若对应页面的权重最高,则该页面为对应的页面类型。[0106]本发明实施例中的页面类型可以包括单一页面,和/或列表页面。其中,所述单一页面为页面元素比较单一的页面,可以包括以下一种或几种的组合:下载正文页面、音视频播放页面、小说阅读页面、问答页面、新闻组图页面、专题页面。所述页表页面可以包括音视频列表页面。[0107]步骤203,针对所述单一页面,从所述网页源代码中提取一个或多个关键的元素信息,作为摘要信息;[0108]其中,摘要信息至少可以包括如下一种或几种的组合:一个或多个元素信息的元素URL,元素标识,元素图片,元素文字描述信息。[0109]在具体实现中,如果与搜索字符串匹配的网页资源的页面类型为单一页面,可以根据网页源代码中的html语言标签中的内容来提取一个或多个关键的元素信息,而html语言标签可以包括<a>标签(定义超链接,其属性href属性指示链接的目标)、<meta>标签(可提供有关页面的元信息(meta-1nformation),比如针对搜索引擎和更新频度的描述和关键词)、〈span>标签(组合行内元素)、〈div>标签、标签、〈script〉标签、〈classs〉标签等等。例如,对于一个下载正文页面,可以从下述代码中获得对应的元素信息作为摘要信息:[0110]<divclass="toolBottom"〉[0111]<divclass="txtLogo">〈/div>[0112]<pclass=〃toolInfo〃>56.6MI更新日期2014/01/03〈/p>[0113]<pclass=〃roundIcon〃>〈ahref=〃intr0.shtml〃target=〃_blank〃class=〃link〃title=〃功能动画展示〃>功能动画展示</a>〈/p>[0114]<ahref="http://dldirl.XX.com/XXfile/XX/XX2013/XX2013SP6/9305/XX2013SP6.exe"class=〃downBtn"title=〃立即下载"onclick=〃tcssClick&&tcssClick(’downXX’)〃>立即下载</a>[0115]</div>[0116]其中,XX为对应的下载对象,则对应的元素信息或摘要信息为:56.6M|更新日期2014/01/03;下载地址为:http://dldirl.XX.com/XXfiIe/XX/XX2013/XX2013SP6/9305/XX2013SP6.exe。[0117]步骤204,输出所述摘要信息。[0118]获得网页资源对应的摘要信息后,则可以在搜索结果输出时在相应的搜索结果预设的位置中输出摘要信息。[0119]例如,如图2-a所示的下载正文页面示意图,下载正文页面200中具有下载对象标识210、下载对象描述220、下载地址1230以及下载地址2240等信息,其中,下载对象标识可以为XX软件正式版等,下载对象描述可以包括软件大小、更新时间、软件语言、提供商、软件授权、软件评级、应用平台、软件功能简介等信息。在该下载正文页面200中,用户主需求是下载地址,所以可以通过步骤203把页面中的下载地址链接提取出来,展现在搜索结果的摘要信息,这样用户直接从摘要信息中就可以获得下载地址进行下载对象的下载,无需进入该搜索结果所在的页面来查找下载地址,输出的摘要信息如图2-b的第一输出结果示意图所示。[0120]在本发明实施例中,搜索引擎接收到用户输入的搜索字符串后,查找所有包含搜索字符串的网页资源作为匹配的网页资源,识别所述网页资源的页面类型后,针对单一页面的网页资源,从源代码中提取对应的摘要信息。从而使得显示在搜索结果中的摘要信息表达整个页面文档的中心意思的准确性更高,提供给用户的信息更有价值,用户从摘要信息中就能获得想要的信息,减少了用户因频繁点击搜索结果对应的页面来查找所需信息的情况发生,进而提高了检索速度,降低了搜索引擎的交互次数,提高数据处理速率。[0121]参照图3,示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例三的步骤流程图,本发明实施例可以包括如下步骤:[0122]步骤301,基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源,所述网页资源包括网页源代码;[0123]步骤302,识别所述网页资源的页面类型,所述页面类型包括列表页面;[0124]在本发明的一种优选实施例中,所述步骤302可以包括如下子步骤:[0125]子步骤S21,抽取所述网页资源的页面框架,计算页面框架ID;[0126]子步骤S22,若相同页面框架ID的页面框架的数量大于预设阈值,计算页面框架模式;[0127]子步骤S23,将所述页面框架模式与预先生成的数据库中的页面框架模式进行匹配,识别出页面类型。[0128]本发明实施例中的页面类型可以包括单一页面,和/或列表页面。其中,所述列表页面为页面元素比较多的页面,可以包括音视频首页等列表页面。[0129]步骤303,针对所述列表页面,从所述网页源代码中提取所述网页资源统计出的点击率排序在前的一个或多个元素信息,作为摘要信息;[0130]其中,摘要信息至少可以包括如下一种或几种的组合:一个或多个元素信息的元素URL,元素标识,元素图片,元素文字描述信息。[0131]在具体实现中,如果与搜索字符串匹配的网页资源的页面类型为列表页面,可以根据网页源代码中的html语言标签中的内容来获得网页统计出的点击率数据(如视频排行榜等),然后从点击率数据中提取一个或多个排序在前的元素信息作为摘要信息,而html语言标签可以包括<a>标签(定义超链接,其属性href属性指示链接的目标)、<meta>标签(可提供有关页面的元信息(meta-1nformat1n),比如针对搜索引擎和更新频度的描述和关键词)、〈span〉标签(组合行内元素)、<div>标签、标签、〈script〉标签、〈classs〉标签等等。例如,对于视频网站首页页面,可以从下述代码中获得对应的元素信息作为摘要信息:[0132]<divclass="item"〉[0133]〈labelclass="hot">l〈/label>[0134]<aclass="name^target="jDlanfhref=^http://v.youku.com/v_show/id_XNzIxNzcONTUy.html〃data-from=〃1_1〃>犀利XXDVD版</a>[0135]</div>[0136]则摘要信息中显示排在第一位的元素信息是犀利XXDVD版。在实际中,每个元素信息至少可以包括如下属性中的一种或多种:元素URL,元素标识,元素图片,元素文字描述信息。因此,针对上例,在摘要信息中可以给出犀利XXDVD版的播放URL、名称、图片等信息。[0137]步骤304,输出所述摘要信息。[0138]需要说明的是,在输出摘要信息时,所述一个或多个元素信息可以以以轮播的形式展示在搜索结果中。[0139]例如,如图3-a所示的视频网站首页示意图,在视频网站首页300中,可以包括视频类目列表310、各个视频类目的视频以及对应的排行榜(如类目I排行榜320)等信息,其中,视频类目列表可以包括电视剧、电影、综艺、音乐、动漫、旅游等等,如类目1330为电视剧,则视频A至视频F为各电视剧节目,类目I排行榜可以为顺次为视频A、视频B、视频D、视频F等等。则可以通过步骤303把该视频网站300中各类目节目在排行榜前η个(如前2个,具体个数可以按需设定,本发明实施例对此无需加以限制)视频展现在摘要中,如图3-b的第二输出结果示意图所示,其中展示在摘要信息中的视频A、视频B等可以包括对应视频的名称、播放URL、图片、和/或,文字描述等。[0140]在本发明实施例中,搜索引擎接收到用户输入的搜索字符串后,查找所有包含搜索字符串的网页资源作为匹配的网页资源,识别所述网页资源的页面类型后,针对列表页面的网页资源,从源代码中提取对应的摘要信息。从而使得显示在搜索结果中的摘要信息表达整个页面文档的中心意思的准确性更高,提供给用户的信息更有价值,用户从摘要信息中就能获得想要的信息,减少了用户因频繁点击搜索结果对应的页面来查找所需信息的情况发生,进而提高了检索速度,降低了搜索引擎的交互次数,提高数据处理速率。[0141]参照图4,示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例四的步骤流程图,本发明实施例可以包括如下步骤:[0142]步骤401,基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源;[0143]步骤402,识别所述网页资源的页面类型;[0144]在本发明的一种优选实施例中,所述步骤402可以包括如下子步骤:[0145]子步骤S31,抽取所述网页资源的页面框架,计算页面框架ID;[0146]子步骤S32,若相同页面框架ID的页面框架的数量大于预设阈值,计算页面框架模式;[0147]子步骤S33,将所述页面框架模式与预先生成的数据库中的页面框架模式进行匹配,识别出页面类型。[0148]步骤403,针对所述页面类型,从所述网页资源中提取对应的摘要信息;[0149]本发明实施例可以根据用户对匹配的网页资源的历史访问记录,在摘要信息中展现与历史访问记录相关的元素信息,具体可以为:[0150]在本发明的一种优选实施例中,步骤403可以包括如下子步骤:[0151]子步骤S41,针对所述页面类型,向所述网页资源对应的网站对象发送第一查询请求;[0152]子步骤S42,接收所述网站对象发送的与所述第一查询请求对应的历史访问记录,所述历史访问记录为所述网站对象从当前终端中获得cookies信息后,依据所述cookies信息获得的记录;[0153]子步骤S43,从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。[0154]具体的,若与搜索字符串query匹配的网页资源属于某个网站对象,则搜索引擎可以向该网站对象发出第一查询请求,所述第一查询请求为告知该网站对象有用户查询的请求。网站对象接收到第一查询请求后,从当前终端中获得对应的cookies信息,并依据该cookies信息获得当前用户的历史访问记录,反馈给搜索引擎,搜索弓I擎依据接收到的历史访问记录,获取所述网页资源中访问次数大于第一阈值的元素信息作为摘要信息,从而为用户提供个性化的摘要信息。其中,第一阈值可以为I或其他整数值,本发明实施例对此无需加以限制。[0155]在本发明的另一种优选实施例中,步骤403可以包括如下子步骤:[0156]子步骤S51,针对所述页面类型,向当前终端的浏览器发出第二查询请求,所述第二查询请求包括所述网页资源的网站对象标识;[0157]子步骤S52,接收所述浏览器返回的当前终端中与所述网站对象标识相关的历史访问记录,所述历史访问记录为当前终端的浏览器获取与所述网站对象相关的cookies信息后获得;[0158]子步骤S53,从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。[0159]具体的,若与搜索字符串query匹配的网页资源属于某个网站对象,则搜索引擎可以向当前终端的浏览器发出第二查询请求,以请求当前终端的浏览器调取用户访问该网站对象的cookies信息。当前终端的浏览器接收到第二查询请求后,从当前终端中获得与网站对象的标识对应的cookies信息,并依据该cookies信息获得当前用户的历史访问记录,反馈给搜索引擎,搜索引擎依据接收到的历史访问记录,获取所述网页资源中访问次数大于第一阈值的元素信息作为摘要信息,从而为用户提供个性化的摘要信息。[0160]步骤404,对所述摘要信息添加特定标记TAG;[0161]在本发明实施例中,根据用户的历史访问记录提取个性化的摘要信息后,还可以对该个性化的摘要信息添加特定标记TAG,如为该个性化的摘要信息打上推荐标记。[0162]步骤405,输出所述添加了特定标记TAG的摘要信息。[0163]在具体实现中,摘要信息至少包括如下一种或几种的组合:一个或多个元素信息的元素URL,元素标识,元素图片,元素文字描述信息。[0164]例如,如图4-a所示的视频网站首页示意图,在视频网站首页400中,可以包括视频类目列表410、各个视频类目的视频以及对应的排行榜(如类目I排行榜420)等信息,其中,视频类目列表可以包括电视剧、电影、综艺、音乐、动漫、旅游等等,如类目1430为电视剧,则视频A至视频F为各电视剧节目,类目I排行榜可以为顺次为视频A、视频B、视频D、视频F等等。通过步骤403可以获得用户对该视频网站400的历史访问记录,如获得用户查看过该视频网站的视频有视频E、视频F,则把用户查看过的视频打上“优”等标记(具体的标记内容可以按需设定,本发明实施例对此无需加以限制),展现在摘要中,如图4-b的第三输出结果示意图所示。其中展示在摘要信息中的视频A、视频B等可以包括对应视频的名称、播放URL、图片、和/或,文字描述等。[0165]在本发明实施例中,搜索引擎接收到用户输入的搜索字符串后,查找所有包含搜索字符串的网页资源作为匹配的网页资源,识别所述网页资源的页面类型后,针对不同的页面类型,依据网页资源获得对应的cookies信息,并依据cookies信息获得用户的历史访问记录,从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。从而使得显示在搜索结果中的摘要信息为针对不同用户的个性化摘要信息,提供给用户的信息更有价值,用户从摘要信息中就能获得想要的信息,减少了用户因频繁点击搜索结果对应的页面来查找所需信息的情况发生,进而提高了检索速度,降低了搜索引擎的交互次数,提高数据处理速率。[0166]参照图5,示出了根据本发明一个实施例的一种基于搜索引擎的摘要信息提取方法实施例五的步骤流程图,本发明实施例可以包括如下步骤:[0167]步骤501,基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源;[0168]步骤502,识别所述网页资源的页面类型;[0169]在本发明的一种优选实施例中,所述步骤502可以包括如下子步骤:[0170]子步骤S61,抽取所述网页资源的页面框架,计算页面框架ID;[0171]子步骤S62,若相同页面框架ID的页面框架的数量大于预设阈值,计算页面框架模式;[0172]子步骤S63,将所述页面框架模式与预先生成的数据库中的页面框架模式进行匹配,识别出页面类型。[0173]步骤503,针对所述页面类型,从预先生成的摘要数据库中查找与所述网页资源对应的摘要信息,所述摘要数据库存储有网页资源与对应的摘要信息;[0174]具体而言,除了如上述实施例一至四所述的实时获取每个命中的网页资源的摘要信息外,本发明实施例还可以在蜘蛛抓取网页时预先提取每个网页资源的摘要信息,存储在摘要数据库中,并每隔预设时间段更新摘要数据库中的摘要信息,当命中某个网页资源时,从摘要数据库中获取与所述网页资源对应的摘要信息。[0175]步骤504,输出所述摘要信息。[0176]其中,所述摘要信息至少包括如下一种或几种的组合:一个或多个元素信息的元素URL,元素标识,元素图片,元素文字描述信息。[0177]在本发明实施例中,搜索引擎接收到用户输入的搜索字符串后,查找所有包含搜索字符串的网页资源作为匹配的网页资源,并通过预先生成的摘要数据库中查找与所述网页资源对应的摘要信息输出在搜索结果中,提高搜索速度,并且使得显示在搜索结果中的摘要信息表达整个页面文档的中心意思的准确性更高,提供给用户的信息更有价值,用户从摘要信息中就能获得想要的信息,减少了用户因频繁点击搜索结果对应的页面来查找所需信息的情况发生,进而降低了搜索引擎的交互次数,提高数据处理速率。[0178]对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。[0179]参照图6,示出了本发明一个实施例的一种基于搜索引擎的摘要信息提取装置实施例的结构框图,所述装置可以包括如下模块[0180]网页资源获取模块601,适于基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源;[0181]页面类型识别模块602,适于识别所述网页资源的页面类型;[0182]摘要信息提取模块603,适于针对所述页面类型,从所述网页资源中提取对应的摘要信息;[0183]信息输出模块604,适于输出所述摘要信息。[0184]在本发明的一种优选实施例中,所述页面类型识别模块602还适于:[0185]抽取所述网页资源的页面框架,计算页面框架ID;[0186]若相同页面框架ID的页面框架的数量大于预设阈值,计算页面框架模式;[0187]将所述页面框架模式与预先生成的数据库中的页面框架模式进行匹配,识别出页面类型。[0188]在本发明的一种优选实施例中,所述网页资源包括网页源代码,所述页面类型包括单一页面,所述摘要信息提取模块603还适于:[0189]针对所述单一页面,从所述网页源代码中提取一个或多个关键的元素信息,作为摘要信息。[0190]作为本发明实施例的一种优选示例,所述单一页面可以包括以下一种或几种的组合:下载正文页面、音视频播放页面、小说阅读页面、问答页面、新闻组图页面、专题页面。[0191]在本发明的一种优选实施例中,所述网页资源包括网页源代码,所述页面类型包括列表页面,所述摘要信息提取模块603还适于:[0192]针对所述列表页面,从所述网页源代码中提取所述网页资源统计出的点击率排序在前的一个或多个元素信息,作为摘要信息。[0193]作为本发明实施例的一种优选示例,所述列表页面可以包括音视频列表页面。[0194]在本发明的一种优选实施例中,所述摘要信息提取模块603还适于:[0195]针对所述页面类型,向所述网页资源对应的网站对象发送第一查询请求;[0196]接收所述网站对象发送的与所述第一查询请求对应的历史访问记录,所述历史访问记录为所述网站对象从当前终端中获得cookies信息后,依据所述cookies信息获得的记录;[0197]从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。[0198]在本发明的一种优选实施例中,所述摘要信息提取模块603还适于:[0199]针对所述页面类型,向当前终端的浏览器发出第二查询请求,所述第二查询请求包括所述网页资源的网站对象标识;[0200]接收所述浏览器返回的当前终端中与所述网站对象标识相关的历史访问记录,所述历史访问记录为当前终端的浏览器获取与所述网站对象相关的cookies信息后获得;[0201]从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。[0202]在本发明的一种优选实施例中,本发明实施例还可以包括:[0203]标记添加模块,适于对所述摘要信息添加特定标记TAG。[0204]在本发明的一种优选实施例中,所述摘要信息提取模块603还适于:[0205]针对所述页面类型,从预先生成的摘要数据库中查找与所述网页资源对应的摘要信息,所述摘要数据库存储有网页资源与对应的摘要信息。[0206]作为本发明实施例的一种优选示例,所述摘要信息至少可以包括如下一种或几种的组合:一个或多个元素信息的元素URL,元素标识,元素图片,元素文字描述信息。[0207]参照图7,示出了本发明一个实施例的一种搜索引擎实施例的结构框图,所述搜索引擎可以包括如下模块[0208]网页资源获取模块701,适于基于接收的搜索字符串,获取匹配的网页资源;[0209]页面类型识别模块702,适于识别所述网页资源的页面类型;[0210]摘要信息提取模块703,适于针对所述页面类型,从所述网页资源中提取对应的摘要信息;[0211]信息输出模块704,适于输出所述摘要信息。[0212]在本发明的一种优选实施例中,所述页面类型识别模块702还适于:[0213]抽取所述网页资源的页面框架,计算页面框架ID;[0214]若相同页面框架ID的页面框架的数量大于预设阈值,计算页面框架模式;[0215]将所述页面框架模式与预先生成的数据库中的页面框架模式进行匹配,识别出页面类型。[0216]在本发明的一种优选实施例中,所述网页资源包括网页源代码,所述页面类型包括单一页面,所述摘要信息提取模块703还适于:[0217]针对所述单一页面,从所述网页源代码中提取一个或多个关键的元素信息,作为摘要信息。[0218]作为本发明实施例的一种优选示例,所述单一页面可以包括以下一种或几种的组合:下载正文页面、音视频播放页面、小说阅读页面、问答页面、新闻组图页面、专题页面。[0219]在本发明的一种优选实施例中,所述网页资源包括网页源代码,所述页面类型包括列表页面,所述摘要信息提取模块703还适于:[0220]针对所述列表页面,从所述网页源代码中提取所述网页资源统计出的点击率排序在前的一个或多个元素信息,作为摘要信息。[0221]作为本发明实施例的一种优选示例,所述列表页面可以包括音视频列表页面。[0222]在本发明的一种优选实施例中,所述摘要信息提取模块703还适于:[0223]针对所述页面类型,向所述网页资源对应的网站对象发送第一查询请求;[0224]接收所述网站对象发送的与所述第一查询请求对应的历史访问记录,所述历史访问记录为所述网站对象从当前终端中获得cookies信息后,依据所述cookies信息获得的记录;[0225]从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。[0226]在本发明的一种优选实施例中,所述摘要信息提取模块703还适于:[0227]针对所述页面类型,向当前终端的浏览器发出第二查询请求,所述第二查询请求包括所述网页资源的网站对象标识;[0228]接收所述浏览器返回的当前终端中与所述网站对象标识相关的历史访问记录,所述历史访问记录为当前终端的浏览器获取与所述网站对象相关的cookies信息后获得;[0229]从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。[0230]在本发明的一种优选实施例中,本发明实施例还可以包括:[0231]标记添加模块,适于对所述摘要信息添加特定标记TAG。[0232]在本发明的一种优选实施例中,所述摘要信息提取模块703还适于:[0233]针对所述页面类型,从预先生成的摘要数据库中查找与所述网页资源对应的摘要信息,所述摘要数据库存储有网页资源与对应的摘要信息。[0234]作为本发明实施例的一种优选示例,所述摘要信息至少可以包括如下一种或几种的组合:一个或多个元素信息的元素URL,元素标识,元素图片,元素文字描述信息。[0235]本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置或搜索引擎实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。[0236]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。[0237]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。[0238]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。[0239]本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。[0240]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。[0241]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于搜索引擎的摘要信息提取的处理设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。[0242]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。【权利要求】1.一种基于搜索引擎的摘要信息提取方法,包括:基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源;识别所述网页资源的页面类型;针对所述页面类型,从所述网页资源中提取对应的摘要信息;输出所述摘要信息。2.如权利要求1所述的方法,其特征在于,所述识别所述网页资源的页面类型的步骤包括:抽取所述网页资源的页面框架,计算页面框架ID;若相同页面框架ID的页面框架的数量大于预设阈值,计算页面框架模式;将所述页面框架模式与预先生成的数据库中的页面框架模式进行匹配,识别出页面类型。3.如权利要求1或2所述的方法,其特征在于,所述网页资源包括网页源代码,所述页面类型包括单一页面,所述针对所述页面类型,从所述网页资源中提取对应的摘要信息的步骤包括:针对所述单一页面,从所述网页源代码中提取一个或多个关键的元素信息,作为摘要信息。4.如权利要求1-3任一项所述的方法,其特征在于,所述单一页面包括以下一种或几种的组合:下载正文页面、音视频播放页面、小说阅读页面、问答页面、新闻组图页面、专题页面。5.如权利要求1-4任一项所述的方法,其特征在于,所述网页资源包括网页源代码,所述页面类型包括列表页面,所述针对所述页面类型,从所述网页资源中提取对应的摘要信息的步骤包括:针对所述列表页面,从所述网页源代码中提取所述网页资源统计出的点击率排序在前的一个或多个元素信息,作为摘要信息。6.一种基于搜索引擎的摘要信息提取装置,包括:网页资源获取模块,适于基于在搜索引擎中接收的搜索字符串,获取匹配的网页资源;页面类型识别模块,适于识别所述网页资源的页面类型;摘要信息提取模块,适于针对所述页面类型,从所述网页资源中提取对应的摘要信息;信息输出模块,适于输出所述摘要信息。7.如权利要求6所述的装置,其特征在于,所述页面类型识别模块还适于:抽取所述网页资源的页面框架,计算页面框架ID;若相同页面框架ID的页面框架的数量大于预设阈值,计算页面框架模式;将所述页面框架模式与预先生成的数据库中的页面框架模式进行匹配,识别出页面类型。8.如权利要求6或7所述的装置,其特征在于,所述网页资源包括网页源代码,所述页面类型包括单一页面,所述摘要信息提取模块还适于:针对所述单一页面,从所述网页源代码中提取一个或多个关键的元素信息,作为摘要信息。9.如权利要求6-8任一项所述的装置,其特征在于,所述摘要信息提取模块还适于:针对所述页面类型,向所述网页资源对应的网站对象发送第一查询请求;接收所述网站对象发送的与所述第一查询请求对应的历史访问记录,所述历史访问记录为所述网站对象从当前终端中获得cookies信息后,依据所述cookies信息获得的记录;从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。10.如权利要求6-9任一项所述的装置,其特征在于,所述摘要信息提取模块还适于:针对所述页面类型,向当前终端的浏览器发出第二查询请求,所述第二查询请求包括所述网页资源的网站对象标识;接收所述浏览器返回的当前终端中与所述网站对象标识相关的历史访问记录,所述历史访问记录为当前终端的浏览器获取与所述网站对象相关的cookies信息后获得;从所述历史访问记录中获取所述网页资源中访问次数大于第一阈值的元素信息,作为摘要信息。【文档编号】G06F17/30GK104077388SQ201410302674【公开日】2014年10月1日申请日期:2014年6月27日优先权日:2014年6月27日【发明者】董毅,张前川,陈营营,张川申请人:北京奇虎科技有限公司,奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1