搜索引擎提供结构化查询的方法

文档序号:6353441阅读:1067来源:国知局
专利名称:搜索引擎提供结构化查询的方法
技术领域
本发明专利涉及一种信息领域的数据查询方法,尤其涉及一种用于利用搜索引擎 来提供结构化查询的方法,其利用通用的搜索引擎来进行结构化数据服务,使得结构化应 用开发对非结构化数据进行挖掘成为可能。
背景技术
一般来说,搜索引擎提供非结构化文本的查询服务,数据库引擎提供结构化数据 的查询服务。因此结构化应用和利用数据库实现的数据挖掘过程难以拓展到非结构化数据 上。比如搜索引擎对一个公开站点进行索引后,如果试图利用结构化数据分析方法来对网 站的注册用户行为进行分析,通常来说是不太可能的。比如BBS、博客和微博的顶贴人分析, 哪些是假冒的明星粉丝,哪些人是托,对于一些商业化公司是有用的,特别是广告公司。目 前缺乏有效的手段来进行来进行跨越站点的综合分析,一般是针对特定网站进行设计分析 程序。如果能够用搜索引擎来提供结构化查询的方法,很多标准的结构化分析程序将可以 派上用场。

发明内容
利用搜索引擎将网页等文本信息进行结构化解析,如果需要高速访问就按照数据 库的方式建索引,然后利用数据库访问中间件来模拟数据库引擎的动作。结构化应用程序 通过访问数据库访问中间件驱动搜索引擎来访问文本中的结构化信息。通过将文本属性分类,把一个很小的分类作为表来进行处理,比如我们可以把网 站类型划分为包括但不限于博客、微博、论坛、新闻、视频等等小分类属性。在一些应用场合 比如ICP的内部,邮件信息也可以拿来作为一个分类。按照不同的分类提供一些通用的数据表,这些表将大多数热门网络应用的相同信 息如博客的作者相关信息的所有字段拿过来作为一个超集;对于不同的数据可以定义不同 的表和字段;维护一个超集到不同网站字段名称映射的大表。如对于博客,有作者名称等作 者信息作为作者信息表,可以通过网站名称、字段名等找到超集里通用字段来表述;发表的 博文等有博文标题、博文发表的时间、博文发表的站点和板块等也如此做相应的处理。同样可以对BBS、新闻等的评论、电子邮件等不同分类的非结构化数据做相同的事 情,用相同的通用表去描述所有网络上属于这个分类的相同属性(如博客作者相关信息、 顶贴人相关信息等)的非结构化数据;用不同的通用表去描述不同分类的不同属性。这种跨越数据集和网站的通用表的好处是可以让结构化应用、挖掘和分析过程变 得更容易。如果使用不同网络来源(如不同站点)的每一个分类的相同属性使用不同的表, 挖掘的时候转换的开销会比较大。当然本专利也支持不同网络来源的每一个分类的相同属 性使用不同的表,以保证兼容性。通过将非结构化数据中可以结构化信息进行字段化处理后,就可以利用成熟的信 息提取技术来从非结构化数据中提取结构化的信息。提取后的结构化数据入常规的数据库(如MysqLoracle等)并建立索引,由常规数据库提供数据查询服务。也可以由搜索引擎 自己建立索引并维护查询、存储管理的工作。搜索引擎利用上述数据对外提供服务的语法符合标准的SQL语法。下面给出一个 例子进行说明,但这个例子不代表最终的专利实现方式select TITTLE from BLOG where WEBSITE =' blog. sina. com' and AUTHOR =,Xu,;上面的SQL语句是查询BLOG类别里面站点’ blog. sina. com’里叫,Xu,的作者的 所有博文的标题。在搜索引擎的API里集成了对常规搜索引擎检索的支持和结构化查询的支持。通 过标准SQL查询语法,可以利用数据访问中间件来访问搜索引擎的API来为结构化应用程 序提供直接访问非结构化文本数据的能力,同时也拓展了搜索引擎的服务功能。在搜索引擎的界面上提供高级搜索功能,利用从界面上的字段选项选择来拼装字 段后利用搜索引擎API直接查询从搜索引擎里解析出来的结构化数据。基于结构化数据的分析程序能够利用上述引擎来无缝访问非结构化文本来完成 数据的分析,不用进行复杂的移植和调整。


具体实施例方式实施方式如下1、收集和构造一些热门网络应用如博客、论坛、微博、评论等类别(包括但不限于 这些类型的网络应用)的文本文档的结构化信息字段;2、构造这些字段的超集,并维护字段超集到每个类别信息的字段映射;3、然后利用信息提取工具将抓取或者接收到的上述文本信息中的结构化信息提 取出来作为结构化数据,入常规数据库或者由搜索引擎自己建立索引、管理这些结构化数 据的存储;4、搜索引擎利用上述数据进行处理,使用搜索引擎的API对外提供标准SQL语法 的结构化查询服务通过上述步骤后,结构化数据分析程序就可以通过搜索引擎来访问非结构化的 WEB页面之类的文本数据。进一步地通过数据访问中间件来屏蔽数据源的结构化和非结构 化差异,利用上述搜索引擎和其他的数据库引擎作为混合数据源,对结构化数据和非结构 化数据的混合查询,综合提供搜索引擎和数据库查询服务。
权利要求
1. 一种利用搜索引擎来提供结构化查询的方法,其特征在于1)通过对热门的网络应 用各类属性进行整理成通用的超集;幻将这些涉及到的页面信息进行结构化提取后入数 据库,同时可以建立索引以加快检索速度;3)搜索引擎通过API对外提供SQL驱动的结构 化数据访问。
全文摘要
本发明公开一种利用搜索引擎来提供结构化查询的方法,通过对热门的网络应用各类属性进行整理成通用的超集,并将其页面信息进行结构化提取后入数据库,同时可以建立索引以加快检索速度。搜索引擎通过支持SQL语言的API来提供结构化数据检索服务,以此来对外提供统一的全文检索和结构化数据检索服务。这样结构化数据分析应用就可以充分利用搜索引擎的海量文本信息而不用进行复杂的程序移植和中文信息处理。
文档编号G06F17/30GK102073734SQ201110022749
公开日2011年5月25日 申请日期2011年1月20日 优先权日2011年1月20日
发明者凌世播, 廖闻剑, 彭艳兵, 汪洋 申请人:南京烽火星空通信发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1