异构信息知识挖掘与可视化分析系统及方法

文档序号:6364281阅读:135来源:国知局
专利名称:异构信息知识挖掘与可视化分析系统及方法
技术领域
本发明涉及异构信息检索领域,特别涉及一种基于领域本体(Domain ontology) 和知识挖掘的智能检索与分析方法,以及包含该方法的可视化分析系统。
背景技术
信息检索技术作为获取信息的方法和手段,其出现是网络发展史上的里程碑,它为网络用户带来了极大的便利,提高了各类信息的利用率。Google、百度是这个领域的典型代表。用户只要输入检索词或检索语句,信息检索系统就会按照一定的排序规则、为用户快速地返回包含该检索词或检索语句的所有网页。然而,现有的通用搜索引擎无法准确地理解和处理各类专业领域知识,经常检索不到、甚至返回大量无关信息。主要原因在于一方面,采取关键字匹配方式理解用户检索语句。信息检索系统并不关注用户输入的专业领域词汇的概念和语义,只是将分词后的关键词与索引库中的索引词按照字面形式进行直接匹配。另一方面,按照检索相关度对结果进行排序处理,即按照检索词和索引词之间相同的字或词的多少进行排序。为了提高信息检索效率,一些信息检索系统提出了 “相关搜索”等改进技术,然而, 这些技术仍没有脱离字面匹配的本质。在人工智能(Al)等领域,领域本体、知识挖掘的引入为相关问题的解决带来了契机。“本体”(Ontology)最初是哲学领域的术语,是关于事物存在及其本质规律的学说。20世纪末,随着信息技术的发展,本体被引入人工智能、知识工程、图书情报等领域,用于构建大型集成的知识库系统,解决知识概念表示和知识组织体系方面的问题。在新的技术领域,本体被赋予更为具体的定义一共享概念模型的、明确的、形式化的规范说明。本体一般由概念(Concepts)、概念间关系(Relations)和规则(Rules)构成。(I)本体的目标是捕获相关领域的知识,确定该领域共同认可的词汇,并明确定义这些词汇及词汇间的相互关系,提供对该领域知识的共同理解,并以规范化的形式在计算机中加以存储。(2)规定了论域。领域本体以一个特定的领域为描述对象,提供该特定领域的概念定义和概念之间的关系、主要理论、基本原理,以及领域中发生的活动等。(3)知识表示、共享和重用。共享知识体系的表示是“机器可处理”的语义,它以 RDF为基础,以URI作为命名机制、以XML为语法,将不同的应用集成在一起,对Web上的数据进行抽象表示。本体通过这种通用框架的表示方式,允许跨越不同应用程序、企业和团体的边界进行数据的共享和重用。(4)信息交流的语义基础。由本体所提供的领域内共同认可的知识体系包括术语集、关系集和规则集,会为不同主体提供一种共识,为不同背景和领域下的人、机器、软件系统等进行信息交流提供了可能。正是由于以上的特点和优势,所以本体为语义理解、智能检索等提供了可能。本体在人工智能、知识工程、图书情报、搜索引擎、信息系统以及计算机辅助设计等众多领域都有广泛的应用空间,并取得了一定的成果。但是,目前真正投入使用的本体及相关科研成果还很少。数据库技术的发展以及数据应用的普及使得数据库中存储的数据量急剧增加,在这些数据中蕴含着许多重要的信息和知识,可供人们利用。目前数据库系统所能做到的只是对数据库中的数据进行存取、查询和简单统计等操作,而不能获得数据属性的内在关系和隐含的信息。若采用传统的数据分析手段,如统计等也不能对这些数据进行有效的分析、 处理,因此,我们希望能够对这些数据进行较高层次的处理和分析以得到关于数据总体特征和发展趋势的预测。知识挖掘技术的出现,在许多领域得到应用,显示出强大的生命力。知识挖掘是信息处理新技术,又是涉及数据库技术、人工智能、统计学等多学科领域的边缘学科。所谓知识挖掘,就是按照某种既定目标,从大量的、不完全的、有噪声的、模糊的、随机的数据中抽取隐含在其中的、事先未知的但又具有潜在应用价值的信息和知识的过程。知识挖掘与传统分析工具不同的是知识挖掘使用的是基于发现的方法,运用模式匹配和其它算法,发现数据之间的重要联系,甚至利用已有的数据对未来的活动进行预测。 知识挖掘的目标是将大量非结构化的多媒体信息融合成有序的、分层次的、易于理解的信息,并进一步转换成可用于预测与决策的知识。在信息检索中应用知识挖掘技术,可大大提高检全率和检准率,提高信息检索的效率和性能。信息可视化是“利用计算机支撑的、交互的、对抽象数据的可视表示,来增强人们对这些抽象信息的认知”的方法与技术。在这个信息数量呈几何级增长的信息时代里,信息可视化对于信息资源的开发利用具有重要的意义。信息可视化技术是将数据信息和资源转化为一种视觉形式,结合了科学可视化、人机交互、数据挖掘、知识发现、图像技术、图形学和认知科学等诸多学科的理论和方法,将人脑和现代计算机这两个强大的信息处理系统联系在一起。有效的可视化界面使得人们能够观察、操纵、研究、浏览、探索、过滤、发现和理解大规模信息,并与之进行方便的交互,从而可以极其有效地发现隐藏在信息内部的特征和规律。信息可视化作为人机交互的界面技术,是将抽象数据通过可视化的方式表示出来,可促进用户对信息的感知、认知,有利于分析数据、发现规律和决策制定。信息可视化应用于信息检索中,不仅可实现用图形、图像来显示多维的非空间数据,加深用户对数据含义及数据间关系的理解,而且可用形象直观的图形、图像来指引检索过程,加快检索速度。可视化技术的研究和应用开发已经开始改变人们表示和理解大型复杂数据的方式,在层次信息、多维信息的分析和显示等方面已具有较为广泛的应用,并取得了很好的应用效果。目前,相关智能检索技术中尚不存在采用领域本体与知识挖掘技术来实现用户输入的句型模式匹配、语义距离测量的结果优化排序以及基于智能分词的领域概念识别等方法,且尚不存在包含该方法的异构信息智能检索系统,无法实现检索结果的可视化分析和动态显示。导致智能检索系统面临一系列技术问题,并未如预期一样在检索性能上比传统检索系统有明显的提闻和改善。

发明内容
本发明的主要目的在于提供一种基于领域本体和知识挖掘的异构信息智能检索与可视化分析的系统。旨在正确理解用户需求,通过对专业领域进行知识挖掘,获取领域概念、关系和实例等重要知识,构建语义索引库,提供高效的专业领域信息服务,改进现有信息检索系统的不足,提闻 目息检索的效率,实现知识的动态显不。本发明的另一目的还在于通过将知识挖掘技术与可视化分析技术相结合,在降低特征维度、提高运算速度的同时提高分类挖掘精度,优化重组现有的知识挖掘算法,并探索新的获取数据中隐含知识的各类算法,以提高知识挖掘技术对相关知识的准确获取,为知识挖掘在其他领域的应用提供技术支撑。通过利用句型模式匹配方法和结果优化排序等方法,正确理解用户输入的自然查询语句,对查询结果进行语义相关度的计算,为用户返回最相关的专业领域信息。为达到上述发明目的,本发明是通过下述技术方案实现的本发明实施例公开了一种异构信息知识挖掘与可视化分析系统,其特征在于,该系统包括用于提供丰富的人机交互接口的用户层,用于分析预料、挖掘知识和可视化分析的系统工具层,用于存储和提供最初语料、中间产物和分析结果的数据资源层,其中系统工具层包括用于接收和处理用户提供相关资料的语料预处理子系统、用于分析和挖掘语料中相关知识的知识挖掘子系统和用于动态显示和统计分析检索结果的可视化分析子系统;其中,用户层包括信息检索和动态知识展示。其中信息检索包括目录导航、语义查询、相关资源、相关概念和扩展概念;动态知识展示包括本体知识图、资源分布图、Web知识图、文档知识图和统计分析图;目录导航,用于显示系统自动聚类的某一领域的层次结构信息,每个节点后显示节点下的网页资源个数;语义查询,用于支持用户对关键词、词组和简单语句的查询,并通过本体推理查询,形成语义查询检索式,返回语义索引库中的相关信息,支持对查询结果中各条信息的语义关系图形化预览;相关资源,用于显示每一个查询结果的相关资源,根据用户最终选择查看的网页特点,进行聚类,并向用户推荐相同类别的网页资源;相关概念,用于提供语义查询中形成的查询语义向量中各维概念的同义词和相关词汇列表,有利于用户发散思维,提供更全的视角和更相关的检索结果;扩展概念,用于显示用户输入关键词在本体中的上下位概念;本体知识图,用于图形化显示领域本体的概念、概念间关系、属性、实例等知识体资源分布图,用于图形化显示系统自动聚类的某领域层次结构信息每个节点的网页资源个数,以及与用户输入检索内容相关资源的分布情况;Web知识图,用于图形化预览检索结果中各网页的知识结构图,并可以查看相关网页所在网站的整体知识网络图;文档知识图,用于图形化显示用户上传文档的知识结构图,显示文档中核心概念以及概念之间关系;统计分析图,用于采用饼状图、柱状图和折线图显示系统聚类体系中各节点资源比例、系统新增资源比例、查询结果中各节点资源比例等等。语料预处理子系统包括语料管理模块、网络爬虫模块、信息抽取模块、信息去噪模块;
语料管理模块,用于管理网络抓取资料和用户上传的各类语料资源,包括对上传语料的添加、删除、分类,并实现对单篇、多篇、单文件夹、多文件夹以及全部资源的选择,以便进行下一步的分析处理;网络爬虫模块,用于对网页抓取引擎的设置和对网页抓取资源的监控,并实现对与用户设置的初始网址、前缀、关键词等相关的网页的镜像抓取和定期更新;信息抽取模块,用于对选中的多种格式(包括pdf、word、ppt、txt、xls和网页等)的文档文件中的信息进行抽取,解决Pdf文件内容为扫描格式或软件识别格式时出错问题,提高文档内容为分栏或有插图、插表时提取结果的准确性;信息去噪模块,用于去除各类文件中的无用信息(包括乱码、标签、页眉、页脚等),并确保有用 目息完整保留。知识挖掘子系统包括核心概念识别、概念关系抽取、摘要关键词和信息分类聚类;核心概念识别,用于基于智能分词中扩展词性标识,识别领域概念,记录包含领域概念的句子,用于统计语料中的单词概念和组合概念的权重和领域相关性,最终识别和确定领域的核心概念,形成领域相关概念集;概念关系抽取,用于抽取核心语句中有用的、领域相关的概念间关系,具体包括上下位继承关系、同义关系、属性关系和实例关系等;摘要关键词,用于基于领域概念识别结果,参考统计等关键词抽取算法,提取2至 4个最能体现文档主题的词语;基于分词结果和领域概念识别结果,以句为单位计算每句中领域概念出现次数,选择2至4句出现领域概念最多的句子作为文档摘要;信息分类聚类,用于基于文档中识别出的领域词汇并重点考虑文档的关键词,根据词汇出现频率,设置一定的权重,映射到导航目录体系中,每篇文档可以映射体系中多个节点。可视化分析子系统包括层次信息模块、网状信息模块、多维信息模块和统计信息模块;层次信息模块,用于将目录导航的层次结构信息转化为层次结构图,通过概念图、 起泡图、受力图等可视化模型,显示资源所涉及的领域内概念以及概念的上下位概念、同义概念等,并以线条的粗细以及颜色的深浅表示概念在资源中出现的次数(即重要程度);网状信息模块,用于本体继承关系和网页概念关系等网状信息图形化显示,是层次信息模块的扩充,当用户指向系统的“图形预览”时,读取记录该条文档信息中描述概念及关系的xml文档,调用信息可视化工具,显示该条记录的概念关系图;多维信息模块,用于同界面内显示3维及以上信息的图示化显示;统计信息模块,用于使用饼状图、柱状图、折线图展示系统中相关统计信息,如目录导航体系中各节点资源数量、用户查询命中数量,以及其他与系统实际应用中相关的统计信息。数据资源层包括领域词典、领域本体、互联网资源、知识提取库和语义索引库;领域词典,用于记录通过调研收集的相关词汇,并通过系统分析挖掘不断更新的领域相关概念集,作为系统分词、词汇统计分析的领域词典,以提高系统分析的准确率;领域本体,用于记录某一领域(如仪器仪表、汽车)普遍认可的概念、概念间关
8系、属性、规则和实例等知识;互联网资源,用于存储通过调研收集的互联网上领域相关的门户网站信息,用于网络爬虫信息抓取来源;知识提取库,用于记录网络爬虫、信息提取、信息去噪、智能分词、领域概念识别、 概念间关系抽取、文档关键词抽取、文档自动摘要、文档自动分类等模块处理的结果信息;语义索引库,用于利用知识提取库提取的网页蕴含的知识建立语义索引,提高信息检索速度。本发明实施例还公开了一种基于领域本体(Domain ontology)和知识挖掘的智能检索与可视化分析方法,其特征在于,该方法包括下述步骤A.接收用户输入、提交和上传的符合一定格式要求的本体名称、核心概念、主题词表等信息,构建初步的领域本体和领域词典。B.接收用户上传的语料库资源。如果提交了领域门户网站的网址,则调用网络爬虫工具,根据用户设置,获取相关页面资源,加入用户上传的语料库。C.对语料库资源信息进行预处理,具体包括语料信息抽取和信息去重去噪等工作。D.对预处理后的语料信息进行知识挖掘。具体包括对领域资源进行智能分词、领域概念的识别、领域概念间关系抽取、文档摘要关键词抽取以及文档自动分类聚类等的知识挖掘。E.对知识挖掘结果进行处理,形成知识提取库,并建立语义索引库。通过本体推理查询,形成语义查询检索式,完成基于领域本体和知识挖掘的智能检索,并通过可视化工具,实现查询检索结果中各条信息语义图形化显示预览和统计分析。本发明实施例提供的异构信息知识挖掘与可视化分析系统和基于领域本体 (Domain ontology)和知识挖掘的智能检索与分析方法,具有以下的优点本发明所述的异构信息知识挖掘与可视化分析系统充分利用了领域本体中的概念及其相互关系,能够正确理解用户需求,自动聚类某一领域的层次结构信息,支持用户对关键词、词组和简单语句的查询,优化检索结果,并通过本体推理,找出相关概念和扩展概念,支持对查询结果中各条信息语义的图形化显示预览,显著提高专业领域信息检索的性能,实现知识的动态显示。


根据下述附图及实施例的描述,可以充分说明本发明的特征及优点。在附图中图I是本发明实施例的异构信息知识挖掘与可视化分析系统的结构图;图2是本发明实施例的异构信息知识挖掘与可视化分析系统主要模块间关系图;图3是本发明实施例的异构信息知识挖掘与可视化分析系统结构简图;图4是本发明实施例的语义索引库构建流程图;图5是本发明实施例的信息检索数据流程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,以下参照附图以及实施例,对本发明作进一步详细描述。应当理解,下述所举的实施例仅被用作解释本发明,并不用于限制本发明,即本发明的保护范围不限于下述的实施例,相反,根据本发明的发明构思,本领域普通技术人员可以进行适当改变,这些改变可以落入权利要求书所限定的发明范围之内。本发明的基本思想是本发明的一个实施例基于领域本体和知识挖掘提供了一种智能检索和可视化分析的技术方案。如图3所示,包括领域资料收集302、语料资源处理 303、知识挖掘304和可视化分析305。首先通过用户上传和互联网信息抓取等多种途径获取领域资料;第二,对所获得的领域资料进行预处理,去除标签、乱码、页眉和页脚等无用信息,同时确保有用信息被完整保留;第三,对经过预处理的语料信息进行知识挖掘,包括领域概念的识别、领域关系抽取、摘要关键词抽取和信息分类聚类等;最后,对知识挖掘获得的概念、属性、关系和实例等进行处理,形成知识提取库,并建立语义索引库,通过本体推理,找出相关概念和扩展概念,将查询结果中各条信息语义以图形化的形式返回最终用户。图I示出了本发明提供的异构信息知识挖掘与可视化分析系统包括用户层103、 系统工具层118和数据资源层137。图I中的用户层103中的信息检索模块101,包括目录导航104、语义查询105、相关资源106、相关概念107和扩展概念108。该模块接收用户提交的信息资料,通过统一用户接口 114传入系统工具层118,由预料预处理子系统115中的语料管理模块119对用户所上传的领域资料进行修改、个别文件删除或重新上传等,最终选择和该领域相关性较强的资料进行下一步信息抽取处理。信息抽取模块121能够实现对用户上传和网络抓取的语料库中的Web页面、pdf、 doc、ppt、html、excel、txt等常见的文档文件中信息进行抽取。信息去噪模块122能够将抽取的信息进行去噪处理,并保存为经统一命名的文本文件。例如信息抽取模块121抽取出如下信息(在“〈抽取信息〉”与“〈/抽取信息〉”之间部分)〈抽取信息>〈p>该工艺对COD的去除率均达到70Y 以上,色度去除率为99%, 盐度达1000mg/L以下,硬度达220mg/L以下,出水水质达到印染废水的回用水质标准。〈/ P〉</div><h4> 关键词〈/h4〈p>〈a href = " javascript: SearchByValue (3,'微电解反应器');" > 微电解反应器〈/aXa href = " javascript: SearchByValue (3,'印染废水');" >印染废水〈/aXa href = " javascript: SearchByValue (3,'深度处
理');" >深度处理〈/^>〈/^>〈/抽取信息>。经去噪处理后的结果如下(在“〈去噪结果〉”与“〈/去噪结果〉”之间部分)<去噪结果 > 该工艺对COD的去除率均达到70以上,色度去除率为99%,盐度达 1000mg/L以下,硬度达220mg/L以下,出水水质达到印染废水的回用水质标准。关键词微电解反应器印染废水深度处理〈/去噪结果>。知识挖掘子系统116中的核心概念识别123实现对经预处理后的语料中的词汇进行分词、词汇统计分析,将分析计算结果存入领域词典132,最终找出领域的简单词概念和组合概念,同时记录语料中包含领域概念的语句并更新领域本体133,具体实现方法下文中详述。概念关系抽取124基于规则抽取核心语句中领域概念间的关系,包括主谓、动宾、 本体层次关系等,形成概念知识关系网,并保存为Aiax支持的xml语法格式,通过统一数据访问接口 131保存到知识提取库135。摘要关键词125对识别的领域概念和核心语句进行精炼,提取出文档的关键词 (1-3个)和摘要信息(3句左右);信息分类聚类126基于关键词和摘要信息对文档进行自动分类,并在今后信息更新时,保持聚类结果的相对稳定。分析完整个网站的资料后,生成整个网站的概念知识网,并将挖掘出的知识建立语义索引库136。可视化分析子系统117中的层次信息模块、网状信息模块、多维信息模块和统计信息模块,通过调用信息可视化工具,读取索引库中描述文档概念间关系的字段内容,并通过统一用户接口 114返回到用户层103。用户通过用户层103中的动态知识展示模块102 中的本体知识图109、资源分布图110、Web知识图111、文档知识图112和统计分析图113 实现文档信息的动态查看。图4示出了本发明实施例的语义索引库构建流程图。具体步骤如下(I)互联网401,用于获取专业领域内的系统数据资源,此处文档可以包括pdf、 doc、txt、excel、ppt、ps、图片、网页等多种格式,Web页面信息的获取是通过网络爬虫402 进行抓取的。本发明的实施例采用heritrix爬虫框架,根据用户设定的种子去请求一个页面, 并将有效的URL添加到队列中等候处理,然后提取队列中等候的第一个链接对其进行页面解析,并根据user-defined-extractor自定义的抽取器提取出有效的文本信息,以镜像存储结构存储到本地。同时将页面中有效的URL再次加入队列等候处理,如此不断地分析下去,直到最后一个链接无任何有效链接为止,完成一次任务的抓取,如此不断循环往复,直至抓取完所需的预定网上资源。(2)信息提取403,基于已有的分词、句法分析工具,记录对语料库进行分析时得到的所有一个和连续两个ATT修饰结构的词语组合,排除含有“的”等常用虚词的词语组合,进行统计归纳,将连续出现两次以上的两个或多个词组认定为组合词术语。句法分析即调用句法分析工具,获取每个句子中词与词之间的句法修饰关系, 对满足独立句子结构块且符合 “ / noun+/noun ”、“ / ad j +/noun ”、“ / ad j +/noun+/noun ”、“ / V+/noun ”、“ / noun+/ v,,、“ / noun+/noun+/noun ”、“ / v+/noun+/noun ”、“ /adi +/ v+/noun ”、“ / noun+/v+/noun"等组合词结构的词组,标记为备选组合概念。作为备选组合概念字数也有一定限制,一般在3个与8个汉字之间。如“金融危机”、“次级贷款”、“贷款人”、“中国移动”、 “个人信用公司”、“抵押贷款公司”、“专业融资公司”、“贷款担保公司”等。独立句子结构块即在一个句子中,该结构块内的多个词中有且仅有一个词(被看作该句子结构块的中心词)依存于该结构块外句子的其它词,该结构块内的其他词直接或间接依存于该句子结构块的中心词。如“抵押贷款公司是一家独立法人机构。”句法分析结果为“抵押/O/v/1/ATT 贷款/l/n/2/ATT 公司/2/n/3/SBV 是/3/v/R00T/HED — /4/m/5/QUN 家/5/q/8/ATT 独立/6/a/8/ATT 法人/7/n/8/ATT 机构/8/n/3/V0B。/9/ wp/_l,,。由斜杠“/”分开的各部分所代表的含义为“词/词序/词性/依存词/依存关系”。其中v、n、m、q、a和wp分别代表动词、名词、数词、量词、形容词和标点符合,ATT、SBV、HED、QUN、VOB分别代表定语修饰语关系、主谓关系、句子中心词、数量关系和动宾关系。在该例句中抵押贷款公司和独立法人机构符合独立句子结构块要求,且有相应的组合词结构模版,因此标记为备选组合概念。(3)信息去噪404,通过编写一个涵盖pdf、doc等文件,解决标题与下一行粘接、一个句子被分为多个部分、乱码、数字等问题的识别规则函数集,用以识别处理,梳理出完整规范的句子结构。具体编写时可以总结各种类型的特点,并将特点进行量化。(4)智能分词405,调用分词工具,对经过信息去噪后的文档进行分词和词性标注。分词和词性标注在下文中详述。(5)概念识别406,该步骤主要完成包括领域单词概念和领域组合概念在内的领域专有概念的识别。具体识别方法如下a)领域单词概念,如果一个词C的频率f i大于一定值Fmin,出现的标准文档篇数大于一定值T,且在语料库词汇统计中属于领域专有词的可以认定为词C为该领域的领域单词概念。一般用户上传的核心概念和主题词表则可直接认定为领域概念。b)领域组合概念,如果一个备选组合概念C的频率fi大于一定值Fmin',出现的标准文档篇数大于一定值T,且在语料库词汇统计中不属于一般组合概念的可以认定备选组合概念C为该领域的组合概念。(6)关键词抽取407和摘要抽取408,基于步骤4和步骤5的结果,采用统计关键词抽取算法,提取2至4个最能体现文档主题的词语;以句为单位计算每句中领域概念出现次数,选择2至4句出现领域概念最多的句子作为文档摘要。(7)关系抽取409,通过设定继承关系、同义词关系、属性关系和实例关系等各类概念间关系和相关的模式匹配规则,对网络抓取资料进行处理,提取各网页中蕴含的概念关系。抽取的知识和关系具体包括层次继承关系、同义词关系、属性关系和实例关系等。相关例句如下继承关系〈核心语句〉某些项目成果,如专利、论文、专著、标准、新产品、新技术
等〈/核心语句>。提取结果〈关系 > 专利is-a项目成果;论文is_a项目成果;专著is_a项目成果;标准is-a项目成果;新广品is-a项目成果;新技术is-a项目成果〈/关系〉。同义词关系〈核心语句 > 项目进度管理也称为项目时间管理,工作分解结构即 WBS</核心语句>。提取结果〈关系 > 项目进度管理same-as项目时间管理;工作分解结构same-as WBS</ 关系 >。表达同义关系的模版还有“简称I又称I又称为I亦称I又叫I也称I也称为参见I见I亦作I全名I古之I今之I习称I俗称I称之为I即为I故称I原名I又名即I谓之”等。(8)自动分类410,基于领域词汇识别结果和关键词提取结果,采用高效遍历和映射算法,为词汇出现的频率设置一定的权重,并映射到目录导航体系中。(9)知识提取库411,将网络爬虫、信息提取、信息去噪、智能分词、概念识别、关键词抽取、摘要抽取、关系抽取、自动分类等模块处理的结果信息进行记录,形成知识提取库。(10)语义索引库412,对提取的知识建立语义索引,基于领域本体知识库,建立语义索引。图5示出了本发明实施例的信息检索数据流程图。具体处理流程如下(I)用户输入检索语句501,接收用户提交的检索语句。(2)分词、词性标注502,通过系统的分词工具对文档中词汇进行分割,并标注出各个词汇的词性,特别是针对专业领域词汇的分词做了特定的处理。其中名词、动词、数词、 形容词、前置词、助词、连词、标点等词性标记分别为n、v、m、a、p、u、c、wp等符号。例如,针对以下文档内容“双金属温度计是利用两种不同金属在温度改变时膨胀程度不同的原理工作的。工业用双金属温度计主要的元件是一个用两种或多种金属片叠压在一起组成的多层金属片。”进行分词和词性的标注,最后的处理结果是“双金属温度计/ n/是/V利用/V两种/m不同/a金属/n在/p温度/n改变/v时/n膨胀程度/n不同/a的/u原理/n工作/V的/u 。/wp工业/n用/p双金属温度计 /n主要/b的/u元件/n是/V—个/m用/p两种/m或/c多种/m金属片 /n叠压/V在/p —起/nl组成/V的/u多/a层/q金属片/n。/wp”。对语料库中各技术领域的语料进行分析,统计出所有单词词汇和备选组合概念在各技术领域出现的频率和总频率,并转化为每百万字节的标准频率fi和总标准频率Σ fi。(3)领域词汇识别503,通过对用户所上传的语料中单词概念和组合概念的有用性和领域相关性的统计计算,最终识别和确定领域的相关概念,形成领域相关概念集。(4)本体概念关系标注504,对词汇在本体中概念关系进行分析并标注,如本体类概念(Class)标记为C、对象属性(Object Property)标记为0P、数据属性(Datatype Property)标记为DP、本体实例(Individuals)标记为I等的标注。另外,根据需要也可以进行更详细标注,如仪表实例(yb_Individuals)标记为yb_I、标准实例(bz_Individuals) 标记为bz_I等。例如,将上述步骤(2)的结果进一步进行本体概念关系的判断,最后标注为“双金属温度计/n/yb_C是/v/null利用/v/OP两种/m/null不同/a/null金属/n/ C 在/p/null 温度/n/DP 改变/v/null 时/n/null 膨胀程度/n/DP 不同/a/null 的/u/null 原理/n/DP 工作/v/null 的/u/null。/wp/null 工业/n/null 用/p/ null 双金属温度计/n/yb_C 主要/b/null 的/u/null 元件/n/C 是/v/null — 个/m/null 用/p/null 两种/m/null 或/c/null 多种/m/null 金属片/n/C 叠压 / v/null 在/p/null —起/nl/null 组成/ν/0Ρ 的/u/null 多/a/null 层/q/null 金属片 /n/C 。/wp/null”。通过用户输入检索语句501->本体概念关系标注504的流程处理后,得到标有词性和概念关系的分词词汇集合。例如,用户输入自然查询语句“能够测量人体温的仪表及生产厂家”,经过分词、 词性及本体概念关系标注等过程处理后的结果是{能够,V, null}、{测量,V, Object Property}、{人,η, X} {体温,η, X}、{的,u, X}、{仪表,n, yb_Class}、{及,c, null}、{生产厂商,n, Object Property} (5) 3本体角色非空项505对标注后的强语义词汇集进行分析,判断其词汇集合中是否含有本体概念。如果用户输入的词汇中不包含本体概念,则进行全文检索;否则结合领域本体对用户输入的自然查询语句进行句型模式匹配处理。
a)如果本体角色均为空,则利用分词的词汇集合访问提取核心词汇506,将其中的本体角色为空的词汇去除,保留本体角色为非空词汇,然后利用核心词汇访问语义索引库507进行全文检索匹配处理。例如,“儿童的营养健康问题”,分词的词汇集合为“儿童/的/营养/健康/问题 /”,提取核心词汇为“儿童/营养/健康/”,利用此核心词汇集访问语义索引库进行全文检索处理。b)如果查询语句中含有一个或一个以上的本体概念,则进行提取强语义词汇处理,并访问句型模式匹配508。例如,对“温度计的种类有哪些”分词后“温度计/n的/u种类/n有/V哪些/r”,对其进一步进行本体角色标注并提取强语义词汇,最后得到“温度计/n/C”。其中, 需要注意的是,句型模式是根据领域本体知识库中的概念和各概念之间的相互关系以及推理规则等事先建立的一种自定义的句型模式,该句型模式的建立在一定程度上,还必须根据用户需求分析以及在领域专家的指导下制定和定义。句型模式建立的越丰富,智能查询的效果越好。bl)如果含有本体概念的强语义词汇集与句型模式M匹配成功,则执行此步骤,最后形成查询检索式513 ;下述是一个匹配成功的实施例例如,用户输入“能够测量人体温的仪表及生产厂家”,经过分词和提取核心词汇最后得到的词汇集是“测量/人/体温/仪表/生产厂家”。该检索语句与句型模式M1相匹配。句型模式M1被定义为“本体属性PJX+本体类概念C+本体属性P2”,且存在如下关系C拥有属性Pp P2,其中“X”为任意成分,强语义词汇集与句型模式匹配的具体对应关系为“测量/ (本体属性P1)人/ (X)体温/ (X)仪表/ (本体类概念C)生产厂家/ (本体属性 P2) ”。结合上述的实施例,符合模式M1的处理规则是将仪表(本体类C)下测量(属性 P1)的值包含“人体温”(X)的所有仪表(本体类C)实例及该仪表(本体类C)实例的生产厂家(属性P2)的对应值按照一定格式返回,简单地说就是将满足测量人体温的仪表实例及其生产厂家按照规定格式输出。当句型模式匹配成功后,根据既定模式下的处理规则,访问领域本体库,经过本体推理,形成符合系统索引格式要求的智能语义检索式。检索式应为·· ·,Fm)]U[R2U(F1, · · ·,Fn) ]U,· · ·,U[RiU(F1, F2, · · ·,Fk)]。 其中,m ^ I, η彡l,k^ I, R表不满足条件的仪表,F表不仪表R对应的一个或多个生产厂家。例如,当 i = 1,k = 3 时的检索式应为=R1U (F1, F2, F3),即,R1F1UR1F2UR1F30b2)如果含有本体概念的强语义词汇集与句型模式匹配失败,则执行此步骤,最后形成扩展检索式。例如,“温度计的种类有哪些”,经分词后的词汇中含有本体概念“温度计”,但是在句型模式中没有定义;同理,当用户输入“光谱仪”,经分词后的词汇“光谱仪”属于本体概念,但是在句型模式中也没有定义。当模式匹配失败后,访问领域本体库509,进行语义扩展,形成扩展查询检索式。并通过相关概念511和扩展概念512,显示与用户查询输入关键词相关的概念和在本体中的
14上下位概念。具体处理过程是将查询语句中的强语义词汇X,I与领域本体库509中的相关概念X,Y进行映射,并根据本体概念间的上下级关系、同义关系,以及其它关系进行适当的查询扩展处理。(X,X1,. . .,Xa)U(Y,Y1,. . .,Yb),其中a,b为正整数,例如,X1为X的同义词,Y”Y2为概念Y的下位概念,即,a = 1,b = 2时,那么查询的检索式为(X, X1) U (Y, Y1, Y2),即 XYUXY1UXY2UX1Y1UX1Y2tjb3)通过上述步骤bl)和b2)之后,形成查询检索式513,具体为形成对应的语义查询检索式和扩展查询检索式。利用查询检索式513访问语义索引库514,进行相应的语义查询或扩展查询处理。(6)结果优化排序515a)语义距离测量al)句型模式匹配成功时的语义距离测量算法实施例参照步骤(5)中的bl)所述,对检索式中的每一项RF的相关“语义距离”进行计算,Drf为本体中R和F两概念间的最短语义距离,其中Drt为正整数,其取值是将R和F联系起来经过最少本体概念节点时,概念连接线的条数。如图5所示,有多条语义关系线可以将A、B连接起来,最短只经过两条连接线、一个本体节点即可将二者连接起来,即Drt = 2。drf为索引库中每条记录的语义向量中的维差,如文档语义向量K = (a1; a2, a3, a4, a5, a6, a7),其中a3 = R, a6 = F,贝丨J drf = 3。当 R或F没有在文档语义向量中出现时,则语义距离无限远,实际计算时计为103,当均没出现时,此项drf不做任何计算。a2)句型模式匹配失败时的语义距离测量算法当用户输入的检索式中含有本体概念,但是,其强语义词汇集与本体句型模式匹配失败时,语义距离测量采用下述的方式。 实施例参照步骤(5)中的b2)所述,强语义词汇集可能包含I个或多个本体概念词汇,当本体概念数量为I时,查询检索式应为=XUX1U. . . UXm,其中,X1. . . Xm为X的扩展概念。此时不涉及语义距离问题,这种情况下,设定Drf = drt= I。当本体核心概念数量为多个时,返回的查询检索式的形式如前面所述为(X,X1, ...,Xa) U (Y, Y1,... ,Yb)U, ... ,U(Z, Z1,... , Zb), 此时,Drf, drf的值为任意组合检索式的概念之间距离的平均值。b)根据语义距离进行排序计算排序计算的公式为Z= Σ KqiAi, B)+q2*f2 Cg1 (Drf),g2 (drf))。其中A为一个检索式形成的多个检索向量组成的矩阵,A1为A中一个检索向量,Σ 是在i为不同值时所有的和,B为文档语义向量,^qiAi, B)表示Ap B两向量的相关函数,Qi为查询扩展系数,Qi e (0,I],如果为原概念,则qi = I,如果为同义词或下位概念等, 则根据查询扩展策略中不同的相似度设定查询扩展系数Qi,如B) = qi*(ai+a2+. . . + Bj) * (bi+b;,+. . . +bk),其中aj; bk分别为Ai, B两向量维数为i时的概念,当且仅当a」与bk为同一概念时,f(A, B)自增f2(g1; g2)为 g1; g2 的相似函数,如,f2(g17 g2) = Σ Qi/ (I gi (Drf) -g2 (drf) |+1)。其中1为与距离Drf对应的语义向量的查询扩展系数,gl (Drf)为同一检索式中不同向量的本体语义距离标准化函数,如gl (Drt) = 1/Drf0 g2(drf)与gl (Drt)含义雷同,Σ是对不同的qi; Drf, drf下式子求和。q1; q2分别为f1; f2两函数的权值。可以通过对qi,Q2大小的设定以及f1; f2,gl, g2等函数的修改实现排序方法的调整。另外可以以此排序算法为内核,结合其它常用的排序方法,能够达到更好的效果。
注全文检索结果排序根据事先对标题、摘要、全文等不同匹配区域设定的权值,以及关键词命中个数等信息计算相似度并排序。具体排序算法不再详细叙述。(7)将上述处理后的排序结果返回给用户,当用户查看一条检索结果516时,可选择是否查看“知识图”预览517。a)如果不选择“知识图”预览517,则显示文档的内容521,并显示基于该条结果的关键词组查询索引库522和相关资源523。b)如果选择“知识图”预览517,则调用可视化分析工具518和索引库中描述文档概念间关系的字段内容519,以网状知识结构图520的形式动态显示该文档。尽管上述已经详细地描述了本发明,应当理解本发明的实施例仅仅是示范性地图解了本发明的原理,在不脱离本发明构思和范围的情况下,本发明的实施例还有各种变化, 替代和修改。这些改变都应该包含在本发明的范围内,不应被看作与本发明的精神和范围的脱离。
权利要求
1.一种异构信息知识挖掘与可视化分析系统,包括用于提供丰富的人机交互接口的用户层,用于分析语料、挖掘知识和可视化分析的系统工具层,用于存储和提供最初语料、中间产物和分析结果的数据资源层;其中系统工具层包括用于接收和处理用户提供相关资料的语料预处理子系统、用于分析和挖掘语料中相关知识的知识挖掘子系统和用于动态显示和统计分析检索结果的可视化分析子系统。
2.根据权利要求I所述的异构信息知识挖掘与可视化分析系统,其特征在于,所述的用户层包括信息检索和动态知识展示。其中信息检索包括目录导航、语义查询、相关资源、 相关概念和扩展概念;动态知识展示包括本体知识图、资源分布图、Web知识图、文档知识图和统计分析图。所述的目录导航,用于显示系统自动聚类的某一领域的层次结构信息,每个节点后显示节点下的网页资源个数。所述的语义查询,用于支持用户对关键词、词组和简单语句的查询,并通过本体推理查询,形成语义查询检索式,返回语义索引库中的相关信息,支持对查询结果中各条信息的语义关系图形化预览。所述的相关资源,用于显示每一个查询结果的相关资源,根据用户最终选择查看的网页特点,进行聚类,并向用户推荐相同类别的网页资源。所述的相关概念,用于提供语义查询中形成的查询语义向量中各维概念的同义词和相关词汇列表,有利于用户发散思维,提供更全的视角和更相关的检索结果。所述的扩展概念,用于显示用户输入关键词在本体中的上下位概念。所述的本体知识图,用于图形化显示领域本体的概念、概念间关系、属性、实例等知识体系。所述的资源分布图,用于图形化显示系统自动聚类的某领域层次结构信息每个节点的网页资源个数,以及与用户输入检索内容相关资源的分布情况。所述的Web知识图,用于图形化预览检索结果中各网页的知识结构图,并可以查看相关网页所在网站的整体知识网络图。所述的文档知识图,用于图形化显示用户上传文档的知识结构图,显示文档中核心概念以及概念之间关系。所述的统计分析图,用于采用饼状图、柱状图和折线图显示系统聚类体系中各节点资源比例、系统新增资源比例、查询结果中各节点资源比例等等。
3.根据权利要求I所述的异构信息知识挖掘与可视化分析系统,其特征在于,所述的语料预处理子系统包括语料管理模块、网络爬虫模块、信息抽取模块、信息去噪模块。所述的语料管理模块,用于管理网络抓取资料和用户上传的各类语料资源,包括对上传语料的添加、删除、分类,并实现对单篇、多篇、单文件夹、多文件夹以及全部资源的选择, 以便进行下一步的分析处理。所述的网络爬虫模块,用于对网页抓取引擎的设置和对网页抓取资源的监控,并实现对与用户设置的初始网址、前缀、关键词等相关的网页的镜像抓取和定期更新。所述的信息抽取模块,用于对选中的多种格式(包括pdf、word、ppt、txt、xls和网页等)的文档文件中的信息进行抽取,解决Pdf文件内容为扫描格式或软件识别格式时出错问题,提高文档内容为分栏或有插图、插表时提取结果的准确性。所述的信息去噪模块,用于去除各类文件中的无用信息(包括乱码、标签、页眉、页脚等),并确保有用 目息完整保留。
4.根据权利要求I所述的异构信息知识挖掘与可视化分析系统,其特征在于,所述的知识挖掘子系统包括核心概念识别、概念关系抽取、摘要关键词和信息分类聚类。所述的核心概念识别,用于基于智能分词中扩展词性标识,识别领域概念,记录包含领域概念的句子,用于统计语料中的单词概念和组合概念的权重和领域相关性,最终识别和确定领域的核心概念,形成领域相关概念集。所述的概念关系抽取,用于抽取核心语句中有用的、领域相关的概念间关系,具体包括上下位继承关系、同义关系、属性关系和实例关系等。所述的摘要关键词,用于基于领域概念识别结果,参考统计等关键词抽取算法,提取2 至4个最能体现文档主题的词语;基于分词结果和领域概念识别结果,以句为单位计算每句中领域概念出现次数,选择2至4句出现领域概念最多的句子作为文档摘要。所述的信息分类聚类,用于基于文档中识别出的领域词汇并重点考虑文档的关键词, 根据词汇出现频率,设置一定的权重,映射到导航目录体系中,每篇文档可以映射体系中多个节点。
5.根据权利要求I所述的异构信息知识挖掘与可视化分析系统,其特征在于,所述的可视化分析子系统包括层次信息模块、网状信息模块、多维信息模块和统计信息模块。所述的层次信息模块,用于将目录导航的层次结构信息转化为层次结构图,通过概念图、起泡图、受力图等可视化模型,显示资源所涉及的领域内概念以及概念的上下位概念、 同义概念等,并以线条的粗细以及颜色的深浅表示概念在资源中出现的次数(即重要程度)。所述的网状信息模块,用于本体继承关系和网页概念关系等网状信息图形化显示,是层次信息模块的扩充,当用户指向系统的“图形预览”时,读取记录该条文档信息中描述概念及关系的xml文档,调用信息可视化工具,显示该条记录的概念关系图。所述的多维信息模块,用于同界面内显示3维及以上信息的图示化显示。所述的统计信息模块,用于使用饼状图、柱状图、折线图展示系统中相关统计信息,如目录导航体系中各节点资源数量、用户查询命中数量,以及其他与系统实际应用中相关的统计信息。
6.根据权利要求I所述的异构信息知识挖掘与可视化分析系统,其特征在于,所述的数据资源层包括领域词典、领域本体、互联网资源、知识提取库和语义索引库。所述的领域词典,用于记录通过调研收集的相关词汇,并通过系统分析挖掘不断更新的领域相关概念集,作为系统分词、词汇统计分析的领域词典,以提高系统分析的准确率。所述的领域本体,用于记录某一领域(如仪器仪表、汽车)普遍认可的概念、概念间关系、属性、规则和实例等知识。所述的互联网资源,用于存储通过调研收集的互联网上领域相关的门户网站信息,用于网络爬虫信息抓取来源。所述的知识提取库,用于记录网络爬虫、信息提取、信息去噪、智能分词、领域概念识别、概念间关系抽取、文档关键词抽取、文档自动摘要、文档自动分类等模块处理的结果信所述的语义索引库,用于利用知识提取库提取的网页蕴含的知识建立语义索引,提高信息检索速度。
7.—种如权利要求I所述基于领域本体(Domain ontology)和知识挖掘的智能检索与分析方法,其特征在于,所述的方法包括以下步骤A.接收用户输入、提交和上传的符合一定格式要求的本体名称、核心概念、主题词表等信息,构建初步的领域本体和领域词典。B.接收用户上传的语料库资源。如果提交了领域门户网站的网址,则调用网络爬虫工具,根据用户设置,获取相关页面资源,加入用户上传的语料库。C.对语料库资源信息进行预处理,具体包括语料信息抽取和信息去重去噪等工作。D.对预处理后的语料信息进行知识挖掘。具体包括对领域资源进行智能分词、领域概念的识别、领域概念间关系抽取、文档摘要关键词抽取以及文档自动分类聚类等的知识挖掘。E.对知识挖掘结果进行处理,形成知识提取库,并建立语义索引库。通过本体推理查询,形成语义查询检索式,完成基于领域本体和知识挖掘的智能检索,并通过可视化工具, 实现查询检索结果中各条信息语义图形化显示预览和统计分析。
全文摘要
本发明涉及异构信息检索领域,特别涉及一种基于领域本体(Domain ontology)和知识挖掘的智能检索与分析方法,以及包含该方法的可视化分析系统。其中该系统主要包括用于网络抓取和本地上传获取资料的领域资料收集子系统、用于预处理领域相关资料的语料资源处理子系统、用于分析和挖掘语料中相关知识的知识挖掘子系统和用于动态显示和统计分析检索结果的可视化分析子系统。本发明所述的异构信息知识挖掘与可视化分析系统充分利用了领域本体库中的概念及其相互关系,能够正确理解用户需求,自动聚类某一领域的层次结构信息,支持用户对关键词、词组和简单语句的查询,优化检索结果,并通过本体推理,找出相关概念和扩展概念,支持对查询结果中各条信息语义的图形化显示预览,显著提高专业领域信息检索的性能,实现知识的动态显示。
文档编号G06F17/30GK102609512SQ201210025598
公开日2012年7月25日 申请日期2012年2月7日 优先权日2012年2月7日
发明者张志朋, 李春梅, 李艾丹, 杨思维, 桑道静, 薛中玉, 郭秋梅 申请人:北京中机科海科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1