摘要式网络搜索引擎系统及其搜索方法与应用的制作方法

文档序号:6467517阅读:257来源:国知局
专利名称:摘要式网络搜索引擎系统及其搜索方法与应用的制作方法
技术领域
本发明属于计算机信息处理领域,特别涉及一种摘要式网络搜索引擎 系统及其搜索方法与应用。
背景技术
近年来互联网技术的飞速发展深刻的影响了人类的信息获取和决策模 式。为了帮助用户在互联网上数以百亿计的网页中精确而迅速地获得他们 所需的信息,传统的搜索引擎公司,如百度、雅虎和谷歌等开发出有效的 搜索引擎并且赢得了可观的商业利润。然而,传统的搜索引擎存在以下缺 陷 '
搜索结果为目录式,即返回成千上万个网页标题和链接,而不是用 户所需的答案。
搜索结果通常包含大量重复的网页内容,用户需要自己去分析、判
断并排除这些重复的信息。
所需的答案往往分散在不同的网页上,用户需要自己将这些分散的
信息收集和总结。
对许多的热门话题,除了使用搜索引擎以外,人们还可以从网上百科 全书,如百度百科、维基百科等,获得准确翔实的信息。然而,这些百科 全书的内容都为手工编辑,而且对大多数的话题很难做到实时更新。
新的搜索引擎技术也层出不穷。各种优化排序的方法,比如申请号为
US5864845和US5864846的美国专利申请最早提出了 Meta Search的想法, 将多个搜索引擎的搜索结果以一定的方式整合起来,提供"最优"的排序 方案。典型的Meta Search类搜索引擎包括DogPile.com, A9.com, searchmash. com等。这些优化排序的方法更专注于在目录式的基础上如何 提高搜索结果的相关性,而不是如何解决上述缺陷。
在本发明之前,确有研究涉及到使用某些"摘要"形式来捕捉单个网 页的信息。比如,申请号为US6581057的美国专利申请提出,在生成索引 的同时为每个网页产生一个主题描述,并在网页被回溯时显示出来。更进
6一步地,申请号为US20020078019的美国专利申请对每个网页产生两级描 述 一个主题描述和一个更详细的描述。图形信息也被考虑跟每个相关网 页关联起来,比如Michael Wynblatt和Dan Benson的文章"Web Page Caricatures: Multimedia Summaries for WWW Documents"(工CMCS, 1998 年)中提到用网页图标,Allison Woodruff等的文章"Using Thumbnails to Search the Web" (CHFCS, 2001年)中提到用图像小样,以及申请号为 US6643641的美国专利申请提出的使用图像快照。上述这些"摘要"形式都 只应用于单个网页。
还有一些技术使用一个信息集合来代表多个相关网页的内容。特别是 申请号为US20060155728的美国专利申请,提出可以把多个网址整理成一
个单一的特殊网址,当用户点击这个特殊网址时,它所代表的那些网页将 被传入浏览模块中。然而,该技术并不涉及任何摘要形式。另有一类技术, 如申请号为US6862586的美国专利申请,使用聚类和主题词来代表所有相 关网页。在这种基于网页聚类的搜索引擎,例如Clusty. com,的搜索结果 中网页还是被排序并单独呈现。本发明也使用了聚类技术,但主要是用于 生成子话题的摘要,而不是为生成网页的聚类。
专利申请号为US6591261的美国专利申请提出根据网页间的超链接来 确定相关网页。用户因此可以从一个网页链接到它的相关网页。但是,这 些相关网页往往含有大量重复信息,并且没有帮助用户从大量的搜索结果 中解放出来。
总的来讲,现有这些搜索引擎技术仍存在下面主要缺陷(1)传统的 搜索引擎,也称作"基于关键字的搜索引擎",是依靠关键字来匹配相关内 容。这种技术的瓶颈在于,单纯依靠关键字匹配并不能真正理解内容的含 义。这也是为什么传统搜索引擎的结果常常含有大量似是而非的无关网页。 (2)传统搜索引擎的另一大弊端是其索引方式页面索引。用户搜索的目 的是要相关内容或答案;而页面索引只能提供大量网页,用户往往需要阅 读多个网页,并在搜索结果和页面之间不停地切换,来自己判断、整理和 总结相关内容。所以,现存的这些缺陷有待克服和解决。

发明内容
本发明的首要目的在于针对现有搜索引擎存在的的缺陷,致力于提供 给用户更简洁、更翔实、更相关、更人性化的搜索结果的摘要式网络搜索
7引擎系统。
本发明的另一目的在于提供由上述系统实现的摘要式网络搜索方法。 本发明的再一目的在于提供由上述系统实现的摘要式网络搜索方法的 应用。
本发明的目的通过下述技术方案实现 一种摘要式网络搜索引擎系统, 包括如下组成部分
(1) 接收用户査询请求和显示摘要式搜索结果的用户界面;
(2) 负责抓取网页的网页抓取模块; 其特征在于还包括如下组成部分
(3) 对抓取的网页进行深层次的语法和语义分析,并基于语法和语义 的分析结果建立语句索引的语句索引模块;
(4) 从语句索引模块中提取与用户查询请求相关的内容,将相关的内
容中进行聚类处理,对聚类处理的结果再进行摘要处理并产生摘要式搜索 结果的摘要式搜索模块。
组成部分(3)中,所述的语句索引模块,包括
(3.1) 从网络抓取模块抓取下来的网页中提取有效网页内容,即句法 正确的文字段落、图像、视频以及音频信息的网页内容过滤模块;
(3.2) 对有效网页内容中的文字段落进行语句划分,并对每个语句进 行语法和语义分析及注释的语法语义注释模块;
同时,语句索引模块的特征还可包括
(3.3) 根据有效网页内容的语法和语义分析结果,来识别语句的语义 是否重复的重复语句识别模块;
(3.4) 根据有效网页内容的语法和语义分析结果,来删除语句非重要 成分的语句压縮模块;
(3.5) 建立基于语句(而不是网页)的语句索引生成模块;
(3.6) 以及将每个图像、视频和音频信息同语句关联起来的多媒体关 联模块。
(3.2)中,所述的语法语义注释模块包括语句划分模块、分词模块、 词性分析模块、语义成分分析模块、实体抽取模块、实体关系分析模块和 情感分析模块。
组成部分(4)中,所述的摘要式搜索模块包括语句检索模块、语句聚 类模块和摘要生成模块;其特征包括
8语句检索模块从语句索引模块中提取与用户査询请求相关的语句,简 称相关语句;
语句聚类模块根据这些相关语句所描述的主题将相关语句进行分类,
每个类包含一个主题及描述该主题的所有相关语句;
摘要生成模块对每个类所包含的相关语句进行摘要处理,生成摘要式 搜索结果;所述摘要式搜索结果,是指以下述一种或多种形式来概括和总 结相关内容段落、条目、表格和图形。
所述段落或条目,由部分相关语句的部分语法和语义成分、以及与这 些相关语句关联的图像、视频和音频信息组成,这些图像、视频以及音频 信息由所述的多媒体关联模块提供。
所述表格,由段落或条目中所包含的实体组成,这些实体由所述的实 体抽取模块和实体关系分析模块提供。
所述图形,由段落或条目中所包含的数量型实体组成,这些数量型实 体由所述的实体抽取模块和实体关系分析模块提供。
组成部分(4)中,所述"与用户查询请求相关的内容",简称相关内 容,是指在段落索引模块中索引的语法和语义的分析结果,并与用户查询 请求相关。这个相关内容包含文字、图像、视频以及音频信息。
一种由上述系统实现的摘要式网络搜索方法,其特征在于包括以下步 骤 .
(1) 抓取网络上的网页,并生成语句索引;
(2) 生成摘要式搜索结果;
步骤(1)中,所述生成语句索引,包括以下具体步骤
(1.1) 从抓取的网页中提取有效网页内容,即句法正确的文字段落、 图像、视频以及音频信息;
(1.2) 对有效网页内容的文字段落进行深层次的语法和语义分析,包 括语句划分、分词、词性分析、语义成分分析、实体抽取、实体关系分析 和情感分析;
所述生成语句索引,其特征体现在以下步骤
(1.3) 识别重复语句,即把含有相同或相近语义成分的语句列为重复
语句;
(1.4) 压縮语句,即删除语句中非重要的语法和语义成分;
(1.5) 建立语句索引(而不是网页索引);(1.6)将步骤(1)中提到的网页中的每个图像、视频和音频信息同该 网页中的语句关联起来;这种关联性取决于下述方法之一或全部
(1.6.1) 图像、视频和音频信息所附属的文字性信息,即标题、文件 名、标签等,同语句的相似性;
(1.6.2) 图像和视频内的物体及物体的行为,同语句所描述的事物的 相似性。
步骤(2)中,所述的生成摘要式搜索结果,其特征体现在以下步骤
(2.1) 语句检索,即从语句索引中提取相关语句;
(2.2) 语句聚类分析,即根据这些相关语句所描述的主题将相关语句 进行分类,每个类包含一个主题及描述该主题的所有相关语句;
(2.3) 对每个类所包含的相关语句进行摘要处理,生成摘要式搜索结果。
步骤(2.3)中,所述的摘要处理,其特征体现在以下步骤
(2.3.1) 生成摘要式搜索结果段落或条目,包含以下步骤 (2.3丄1)在每个类所包含的相关语句中,按照所描述内容的时间、空
间、逻辑关系、语言表述习惯、语句的连贯性和可读性,依次挑选出一组 语句;
(2.3丄2)删除这组语句中重复的语句。重复语句识别方法如步骤(1.3)
所述;
(2.3丄3)根据语句间主题的相关性将这组语句划分段落或条目; (2.3丄4)多媒体信息关联,即提取与这组语句中每个语句所关联的图
像、视频和音频信息,并将这些信息插入到所关联的语句的位置。语句与
图像、视频和音频信息的关联方法如步骤(1.6)所述。
(2.3.2) 生成摘要式搜索结果表格,即将步骤(2.3.1)所述的摘要式 搜索结果段落或条目所包含的实体,放在一个或多个表格中,同一类实体 为同一行或同一列。
(2.3.3) 生成摘要式搜索结果图形,即将步骤(2.3.1)所述的摘要式 搜索结果段落或条目所包含的数量型实体,以一个或多个统计性图形(包 括并且不限于柱状图、饼状图、折线图、曲线图和趋势线图)表示。
上述系统实现的摘要式网络搜索方法的应用,其特征在于-系统将被配置成通用搜索引擎系统,为不依赖于特定领域的用户查询 请求提供摘要式搜索结果。系统将被配置成专业搜索引擎系统,即为不同专业领域用户的査询请 求提供不同形式和内容的摘要式搜索结果。
系统将被配置成为特定用户或用户群提供摘要式搜索服务的桌面系统 或远程服务系统。上述的用户或用户群将以付费的方式获得上述服务。
由于摘要式搜索结果简明扼要的特征,系统将被配置成适用于手机等 移动通讯设备的信息搜索平台。
本发明相对于现有技术具有如下的优点及有益效果不同于传统的搜 索引擎,在收到用户的査询请求之后,摘要式网络搜索引擎在对网络上的 相关信息进行实时的综合分析,剔除大量冗余的信息,并提炼归纳出一个 更易于用户使用和理解的摘要文章。这种的摘要式的搜索结果会包含自动 产生的文字段落、条目、表格和图形,并且会自动更新,而不依赖于人工 产生。与传统的搜索引擎相比,本发明具有以下优点
返回的摘要式结果可读性更好,更易于理解,包含更少不相关的信息。
自动将分散在不同页面上的信息收集、分类和总结,并生成概括性的摘 要文章。
用户能够用更少的点击找到他们想要的页面。 一方面用户能够在摘要中
找到他们想要的结果,另一方面摘要里各语句的上下文信息能够帮助用
户更加自信准确地决策。
我们产生的摘要具有层次结构,包括一个针对用户査询的主摘要和一系
列针对相关话题的子摘要。它们能够帮助用户快速去除问题中的歧义,
縮小查询范围或重新组织查询。
在摘要中自然地嵌入了多媒体信息,视频,音频和图像等等。它比单纯
的文本搜索界面更友好,包含的信息量也更大。
摘要式搜索更适合手机搜索,因为它可以把成千上万相关网页的内容以
摘要的形式简洁地呈现给用户,而且摘要的长短可由用户指定。
在用户査询阶段,摘要式搜索引擎和传统的搜索引擎没有区别用户可
以输入任何关键字。也就是说,当用户从传统搜索引擎转换到摘要式搜
索时,没有任何使用习惯上的改变,所以适用性较好。


图1是本发明方框流程图。
图2是网页内容过滤模块的流程图。
11图3是语法语义注释模块的流程图。 图4是摘要生成模块的流程图。
图5是一个摘要式搜索结果的例子。
具体实施例方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实 施方式不限于此。
象其它搜索引擎一样,本发明摘要式网络搜索引擎系统也由三个部分
组成网页抓取、索引和搜索,如图1所示。
网页抓取程序在网络上获取网页。网页抓取模块10从开放目录,比如
Open Directory Project (http:〃dmoz.org)中的网络链接,以及其它预先准备 的网络链接入手下载网页ll。
索引部分由语句索引模块来实现。语句索引模块分析网页11,并将分 析结果加入到语句索引19中,以供搜索部分来査询。语句索引模块包含以 下部分
1、 网页内容过滤模块12将网页上的文字段落13及其它多媒体信息17, 如图像、音频和视频等,通过下述步骤提取出来网页内容分离模块34将 JavaScript、 Applet、 CSS、字符和颜色设置等从网页原代码中分离出去;段 落和多媒体目标识别模块36将剩余代码中的文字段落13和多媒体信息17 提取出来;格式不符的段落,如太短或者没有标点符号等,将被段落过滤 模块38删除。
2、 文字段落13通过语法语义注释模块14进行语法和语义的分析并声 称分析结果15。不同于传统的搜索引擎的索引系统,我们搜索引擎的语法 语义注释模块14分析页面中语句的语法和语义结构。首先,语句识别模块 40将段落分割成语句。格式不符的语句,例如太短、没有合适的标点符号 或首字母没有大写(针对某些语言)等,将会被语句过滤模块42删除。其 次,每个语句中的词性和词组分别由词类标注模块44和词组识别模块46 分析识别出来。词类和词组识别是自然语言处理中常见的任务,通常可以 通过一系列的语言规则实现。最后,每个语句的语言成分结构由语义规则 标识模块48识别。语义规则标识模块通常包括一系列的语言规则来识别主 语、谓语、宾语、定语、状语、补语等语言成分。语法语义注释模块14最 终产生上述的分析结果15。
123、 分析结果15中的语义重复语句由重复语句识别模块16识别出来。
重复语句识别模块16可以识别含有相同主谓宾结构的语句。对于一组冗余 的语句,我们只将信息量最大的一个语句保留在索引19中,例如最长或词 组最多的语句;另一种方法是保留所有的语句,由搜索子系统在生成摘要 是来决定选择哪个语句。
4、 语句压縮模块18将分析结果15中的语句的不必要成分及符号删除, 例如在某些情况下的时间状语、连词、括号中的部分。
5、 多媒体关联模块22将分析结果15中的每个语句与同一页面中最相 关的多媒体目标(如果存在的话)联系起来。相关性的衡量标准1)语句 和多媒体目标之间的距离;2)语句和多媒体目标的文字信息,例如标题、 名称、标签等,的相关性。
6、 语句索引生成模块20将分析结果15中的语句及其压縮结果加入到 索引19中。不同于传统的索引方式,语句索引生成模块20将对网页中的 语句做索引,以便在搜索子系统中实现进一步的自然语言分析。
系统的搜索部分由摘要式搜索模块实现。摘要式搜索模块通过用户截 面24接受用户的査询请求25后,语句检索模块26在数据库中提取相关语 句27,然后由摘要生成模块30分析相关语句27和相关多媒体信息17,并 生成摘要。
由于用户的查询通常概念模糊或不够确切,相关语句27很可能包含诸 多话题。因此,我们通过语句聚类模块28分析相关语句27中的常见词组, 并根据这些词组将相关语句27分类。每个词组为一个类,类中的语句29 包含该词组。用户的査询请求24也包含在常见词组中,同时也是最终生成 的摘要的主话题。
摘要生成模块30为每个类(即主话题或子话题)生成一个摘要。摘要 的生成步骤如下
1、第一句选择模块50选择摘要的第一句话。选择的优先权如下所示 (顺序从高到低) 没有介词 有状态系动词
在原始网页中是文章的第一句话 在原始网页中是段落的第一句话
包含的信息量大(例如词组多) 、 选定的语句要从保留的语句中删除。
2、 下一句话从保留下来的语句中依次重复地选择。语句连贯性检测模
块52计算已选的n个语句和保留下来的语句中的每一句话的连贯性,例如
相似的名词词组数目。语句所描述内容的时间、空间、逻辑关系、语言表
述习惯、介词指代也将是重要的连贯性计算依据。下一句选择模块54挑选 连贯性最强的语句为下一句话。同时,与被选择语句重复的语句将从保留 下来的语句中删除。当一定量或所有的语句被选取后,这个重复过程将停 止。
3、 段落连贯性检测模块56根据语句间的连贯性将这些排好序的语句 55分成段落或条目,即摘要式搜索结果的文字部分31。
4、 提取与摘要式搜索结果的文字部分31中的每个语句相关联的图像、 视频和音频信息,并将这些信息插入到摘要式搜索结果的文字部分31中所 关联的语句的位置。
5、 生成摘要式搜索结果中的表格,即将摘要式搜索结果的文字部分31 所包含的实体,放在一个或多个表格中,同一类实体为同一行或同一列。
10.3生成摘要式搜索结果的图形,即将摘要式搜索结果的文字部分 31所包含的数量型实体,以一个或多个统计性图形(包括并且不限于柱 状图、饼状图、折线图、曲线图和趋势线图)表示。
最后,摘要页面生成模块32为摘要式搜索结果生成页面。摘要式搜索 结果中的每个语句包含原始网页的链接。与每个语句相关的多媒体信息(如 果存在)也将显示在该句话附近合适的位置。
图5显示了 "全球定位系统"在摘要式搜索引擎中的搜索结果。图中 右栏为主话题"全球定位系统"的摘要;左栏上部为子话题列表,每个子 话题链接到该子话题的摘要页。另一种搜索结果的表现形式为将所有话题 的摘要显示在一个页面上。
以上介绍的是摘要式搜索引擎的优选方案,显然这些概念也可以有很 多不同的表现形式。
特别值得一提的是本专利实现的另一种形式是索答移动搜索平台。在 这种情况下,摘要生成模块30和摘要页面生成模块32允许用户选择摘要 式搜索结果的长度以适应移动设备上的小屏幕的限制。与传统的返回多链 接的搜索引擎相比,以简明扼要为特点的摘要搜索技术在移动搜索有着天 然的优势。本发明除了能用于通用搜索之外,它的其他实现形式也包括索答技术
在各个特定领域的应用。在这种情况下,网页抓取模块io将只下载某个特
定领域的网页。另外,语句聚类模块28也将应用跟特定领域相关的本体或 词典来识别跟此领域相关的名词短语,并给出相应的处理。除此以外,取 决于特定领域的要求,生成的摘要式搜索结果也可能会以跟通用搜索完全 不一样的形式呈现出来。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上 述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改 变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明 的保护范围之内。
权利要求
1、一种摘要式网络搜索引擎系统,包括如下组成部分(1)接收用户查询请求和显示摘要式搜索结果的用户界面;(2)负责抓取网页的网页抓取模块;其特征在于还包括如下组成部分(3)对抓取的网页进行深层次的语法和语义分析,并基于语法和语义的分析结果建立语句索引的语句索引模块;(4)从语句索引模块中提取与用户查询请求相关的内容,将相关的内容中进行聚类处理,对聚类处理的结果再进行摘要处理并产生摘要式搜索结果的摘要式搜索模块。
2、 根据权利要求l所述的摘要式网络搜索引擎系统,其特征在于组 成部分(3)中,所述的语句索引模块,包括(3.1) 从网络抓取模块抓取下来的网页中提取有效网页内容,即句法 正确的文字段落、图像、视频以及音频信息的网页内容过滤模块;(3.2) 对有效网页内容中的文字段落进行语句划分,并对每个语句进 行语法和语义分析及注释的语法语义注释模块;(3.3) 根据有效网页内容的语法和语义分析结果,来识别语句的语义 是否重复的重复语句识别模块;(3.4) 根据有效网页内容的语法和语义分析结果,来删除语句非重要 成分的语句压縮模块;(3.5) 建立基于语句的语句索引生成模块;(3.6) 以及将每个图像、视频和音频信息同语句关联起来的多媒体关 联模块。
3、 根据权利要求2所述的摘要式网络搜索引擎系统,其特征在于 (3.2)中,所述的语法语义注释模块包括语句划分模块、分词模块、词性分析模块、语义成分分析模块、实体抽取模块、实体关系分析模块和 情感分析模块。
4、 根据权利要求1所述的摘要式网络搜索引擎系统,其特征在于组成部分(4)中,所述的摘要式搜索模块包括语句检索模块、语句聚类模块 和摘要生成模块;语句检索模块从语句索引模块中提取与用户查询请求相关的语句,简称相关语句;语句聚类模块根据这些相关语句所描述的主题将相关语句进行分类, 每个类包含一个主题及描述该主题的所有相关语句;摘要生成模块对每个类所包含的相关语句进行摘要处理,生成摘要式 搜索结果;所述摘要式搜索结果,是指以下述一种或多种形式来概括和总 结相关内容段落、条目、表格和图形;所述"与用户查询请求相关的内容",是指在段落索引模块中索引的语 法和语义的分析结果,并与用户査询请求相关;这个相关内容包含文字、 图像、视频以及音频信息。
5、 根据权利要求4所述的摘要式网络搜索引擎系统,其特征在于所 述段落或条目,由部分相关语句的部分语法和语义成分、以及与这些相关 语句关联的图像、视频和音频信息组成,这些图像、视频以及音频信息由 所述的多媒体关联模块提供;所述表格,由段落或条目中所包含的实体组成,这些实体由所述的实 体抽取模块和实体关系分析模块提供;所述图形,由段落或条目中所包含的数量型实体组成,这些数量型实 体由所述的实体抽取模块和实体关系分析模块提供。
6、 一种摘要式网络搜索方法,其特征在于包括以下步骤(1) 抓取网络上的网页,并生成语句索引;(2) 生成摘要式搜索结果;步骤(1)中,所述生成语句索引,包括以下具体步骤(1.1) 从抓取的网页中提取有效网页内容,即句法正确的文字段落、 图像、视频以及音频信息;(1.2) 对有效网页内容的文字段落进行深层次的语法和语义分析,包 括语句划分、分词、词性分析、语义成分分析、实体抽取、实体关系分析 和情感分析;(1.3) 识别重复语句,即把含有相同或相近语义成分的语句列为重复语句;(1.4) 压縮语句,即删除语句中非重要的语法和语义成分;(1.5) 建立语句索引;(1.6) 将步骤(1)中提到的网页中的每个图像、视频和音频信息同该 网页中的语句关联起来;这种关联性取决于下述方法之一或全部(1.6.1) 图像、视频和音频信息所附属的文字性信息,即标题、文件 名、标签等,同语句的相似性;(1.6.2) 图像和视频内的物体及物体的行为,同语句所描述的事物的 相似性。
7、 根据权利要求6所述的摘要式网络搜索方法,其特征在于步骤(2)中,所述的生成摘要式搜索结果,其特征体现在以下步骤(2.1) 语句检索,即从语句索引中提取相关语句;(2.2) 语句聚类分析,即根据这些相关语句所描述的主题将相关语句 进行分类,每个类包含一个主题及描述该主题的所有相关语句;(2.3) 对每个类所包含的相关语句进行摘要处理,生成摘要式搜索结果。
8、 根据权利要求7所述的摘要式网络搜索方法,其特征在于 步骤(2.3)中,所述的摘要处理包括以下步骤(2.3.1) 生成摘要式搜索结果段落或条目,具体包含以下步骤 (2.3丄1)在每个类所包含的相关语句中,按照所描述内容的时间、空间、逻辑关系、语言表述习惯、语句的连贯性和可读性,依次挑选出一组 语句;(2.3丄2)删除这组语句中重复的语句;(2.3丄3)根据语句间主题的相关性将这组语句划分段落或条目; (2.3丄4)多媒体信息关联,即提取与这组语句中每个语句所关联的图 像、视频和音频信息,并将这些信息插入到所关联的语句的位置;(2.3.2) 生成摘要式搜索结果表格,即将步骤(2.3.1)所述的摘要式 搜索结果段落或条目所包含的实体,放在一个或多个表格中,同一类实体 为同一行或同一列;(2.3.3) 生成摘要式搜索结果图形,即将步骤(2.3.1)所述的摘要式 搜索结果段落或条目所包含的数量型实体,以一个或多个统计性图形,包 括并且不限于柱状图、饼状图、,折线图、曲线图和趋势线图表示。
9、 根据权利要求l一5任一项所述摘要式网络搜索引擎系统实现的摘 要式网络搜索方法的应用,其特征在于-系统被配置成通用搜索引擎系统,为不依赖于特定领域的用户查询请 求提供摘要式搜索结果;系统被配置成专业搜索引擎系统,即为不同专业领域用户的査询请求提供不同形式和内容的摘要式搜索结果;系统被配置成为特定用户或用户群提供摘要式搜索服务的桌面系统或 远程服务系统。上述的用户或用户群将以付费的方式获得上述服务;系统被配置成适用于手机等移动通讯设备的信息搜索平台。
全文摘要
本发明提供一种摘要式网络搜索引擎系统及其搜索方法与应用,其系统主要包括用户界面、网页抓取模块、语句索引模块、摘要式搜索模块等;其搜索方法主要包括以下步骤(1)抓取网络上的网页,并生成语句索引;(2)生成摘要式搜索结果。本系统可应用为通用搜索引擎系统或专业搜索引擎系统,亦可配置成为特定用户或用户群提供摘要式搜索服务的桌面系统或远程服务系统或配置成适用于手机等移动通讯设备的信息搜索平台等。相对于现有技术,本发明可给用户更简洁、更翔实、更相关、更人性化的搜索结果。
文档编号G06F17/30GK101452470SQ20081017085
公开日2009年6月10日 申请日期2008年10月17日 优先权日2007年10月18日
发明者徐亚波, 石忠民 申请人:石忠民;徐亚波
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1