基于智能本体的知识搜索引擎及其实现方法

文档序号:6609037阅读:167来源:国知局

专利名称::基于智能本体的知识搜索引擎及其实现方法
技术领域
:本发明涉及网页搜索引擎,更具体地说,涉及一种基于智能本体的知识搜索引擎及其实现方法。
背景技术
:万维网(WorldwideWeb,简称WWW)提供了大量可利用的信息。很多网页站点以不同的格式发表许多不同种类的信息。但是,万维网存在两个明显的不足(1)计算机不能理解网页内容的语义;(2)网上有用信息难找,即使借助功能强大的搜索引擎,查准率也比较低,它在帮助网民得到成批相关网页的同时,也夹杂了许多用户不需要的信息垃圾。因此,对于用户来说,查找自己想要的信息是一件相当困难而且花时间的任务。目前,许多网页站点利用搜索引擎去帮助用户查找信息,但是这些搜索引擎常常不返回与用户需求相关的搜索结果。这是因为大多数流行的搜索引擎,例如Google和Yahoo,都是基于关键字(keywords),需要将文本的上下文和语义都考虑进去,结果必然会引起曲解的。文本语义是机器学习中面临的主要挑战,因为他们是通过自然语言所产生,而不能被机器可理解的。基于传统网页的信息报告系统的另一个问题就是缺乏自动地为用户提供信息这个智能特征。例如,大多数传统的报告系统是基于拉动(pull-based)的方式,要求用户对信息建造一个特殊的请求。而与本发明相关联的两个发明(l)"智能电子导游系统及方法(申请号:200610060707.7)已于2006年5月19日向国家专利局提出专利申请;(2)"基于智能代理的开发平台"(申请号200610061542.5)已于2006年7月5日向国家专利局提出专利申请。
发明内容本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于智能本体的知识搜索引擎,可以自动地寻找与用户相关的信息,并且告诉用户这些信息是怎样相关的。本发明解决其技术问题所采用的技术方案是构造一种基于智能本体(agentontology)的知识搜索引擎,包括本体模块(OntologyModule),用于对网页文章进行分析和注释处理;智能特征模块(IntelligentFeaturesModule),用于将从互联网中获取到的信息进行智能特征处理;语义网页模块(SemanticWebModule),用于将机器的可读数据增加到网页上。本发明中,所述本体模块具体包括文章本体(Article-ontology),包括文章数据和语义数据,用于以机器可理解的格式对文章进行注释处理;主题本体(Topic-ontok)gy),用于以等级关系揭示主题范围,并用于识别文正主题;词汇本体(Lexicon-ontology),用于通过知网的方式分析中文文本文章并以中文自然语言文本形式去理解语义。本发明中,所述本体模块还包括特征选择模块,用于选择相应义素,并表示在主题本体中所定义的主题类;特征向量处理模块,用于将主题实体映射到义素中;特征权重模块,用于根据特征因素产生算法计算义素的权重,并获得所有主题类的向量。'本发明中,所述智能特征模块具体包括获取信息模块,用于获取互联网中的信息源中有用的文章;信息分析处理模块,用于査找、分析和理解搜索来自网页站点的文章的语义内容;信息注释处理模块,用于将信息内容注释到基于语义本体格式,所述基于本体的格式为RDF格式;信息推荐处理模块,用于提供相关的或有兴趣的文章给用户,包括提供个性化内容和类似消息文章内容给用户。本发明中,所述信息分析处理模块具体包括文本分析模块,用于对文本进行分割,并通过预设算法匹配到所述分割出的单词;义素摘录模块,用于从文章单词中摘录相关义素清单;实体本体匹配模块,用于进行义素匹配并映射到摘录内容;'义素权重模块,用于根据文本计算义素的权重;主题识别模块,用于找出一组与文章相关的主题。本发明中,还包括新闻阅读器(IAToNews),用于提供基于本体、基于个性化的RSS新闻阅读平台。本发明中,所述新闻阅读器具体包括本体概念树(ontologytree),其包含了超过20000个中文概念和知识点(IATOLOGY-20000),用于提供给新闻阅读器使用;5维知识轮(5-DKnowledgeWheel),用于提供人物、组织、事件、对象以及地方的知识搜查功能;多级文章分析器(Multi-levelArticleAnalyzer),用于根据消息文章的分类为用户提供了链接到更远的相关文章的搜索;个性化处理模块(PersonalizedIAToKnowledgeSeeker),用于为用户从两个方面将自己的新闻阅读器在阅读和搜索平台上变得个性化,具体包括个性化消息分类配置和优先消息和自动分类配置。本发明还同时公开了一种基于智能本体的知识搜索引擎的实现方法,包括以下步骤a.获取HTML格式的网页来源,并从所述HTML网页上摘录语义内容;b.通过使用本体知识获取文本语义对所述语义内容作进一步的分析,并将所述语义内容以RDF格式进行注释,并通过网页界面想用户进行显示。本发明中,所述步骤b具体包括M.获取信息过程的步骤;b2.信息分析处理的步骤;b3.信息注释处理的步骤;b4.信息推荐处理的步骤。本发明所述基于智能本体的知识搜索引擎(IATOPIAKnowledgeSeeker)提供了适合査找自己想要的信息的解决方案,帮助用户准确地查找网页站点信息,使所收集到的信息更完整,并且将其报告和推荐给用户。同时,通过使用各种机器智能技术去获取、处理、分析和推荐基于网页的文章。尤其是,重点在于信息领域的中文网页消息文章。为了应用于中文本体,本发明包含了超过20000个中文概念和知识的本体树,也就是所谓的"IATOLOGY-20000",解决了互联网上中文文章和信息的复杂语义和知识搜索的问题。下面将结合附图及实施例对本发明作进一步说明,附图中图1是本发明所述基于智能本体的知识搜索引擎的系统结构示意图2是本发明所述文章本体分类的本体表示的示意图3是本发明以HowNet方式揭示中文单词语义关系的示意图4是本发明主题实体映射到义素的示意图5是本发明在不同子过程之间的信息流的示意图6是本发明适合信息分析子系统的文本分析处理的主要处理流程图7是本发明在文章文本与词汇本体之间的链接的示意图8是本发明RDF存储和注释数据的示意图9是本发明IAToNews的示意图10是本发明的IATOLOGY-20000最初两层的示意图11是本发明的5-DKnowledgeWheel的示意图12是本发明具有5-DKnowledgeWheel的IAToNews的示意图;.图13是本发明多级文章分析器的示意图;图14是本发明具有多级文章分析器的IAToNews的示意图;图15是本发明IAToNews中个性化消息推荐的示意图。具体实施例方式l.本发明技术本发明通过使用本体方法去执行信息搜索任务。本段描述了基于智能本体的知识搜索引擎(IATOPIAKnowledgeSeeker)的结构设计,所述本体包括被定义的、不同智能特征的详细执行设计以及语义网页界面。IATOPIAKnowledgeSeeker主要包括三个模块本体模块(ontologymodule)、智能特征模块(intelligentfeaturesmodule)以及语义网页f莫块(semanticwebmodule)。l丄系统结构IATOPIAKnowledgeSeeker的系统结构示意图如图1所示。系统首先获取HTML格式的网页来源,然后从该HTML网页摘录语义内容。此后,通过使用本体知识获取文本语义对所述语义内容作进一步分析,所述语义内容以RDF格式进行注释,所述RDF为知识存储的本体数据格式。语义网页与文章数据建立在这些注释数据上,并且通过网页界面向用户显示内容。以下将对所述本体作进一步的详细说明。1.2.知识表示的本体模块系统主要定义了三个本体模块去分析和注释网页文章(例如新闻,文章)。它们是文章本体、主题本体以及词汇本体。1.2.1.文章本体(Article-ontology)本体分类用于文章注释处理。每篇文章作为分类文章的实例以机器可理解的格式通过注释表示其语义内容。图2是文章本体分类的本体表示的示意图,如图所示。本体属性主要包括两种类型文章数据和语义数据。文章数据表示关于文章的基本文本内容,例如标题,摘要以及正文等等。而语义数据表示包含在文章文本中的语义内容和知识,可称为语义实体。本发明优选实施例定义了6个能够覆盖文本中所有语义内容的语义实体,即主题,人物,组织,事件,地方以及对象。1丄2.主题本体(Topic-ontology)主题本体用于以等级关系揭示主题范围,并且用于识别文章主题。主题分类的实例是一组便于机器处理、共享和交换的控制词汇。分类由等级语义关系来定义,有点像主题分类层次,只不过以详细点、可理解点来定义并保持语义关系。1.2.3.词汇本体(Lexicon-ontology)词汇本体产生和来源于知网(HowNet),是一本中、英双语词典。HowNet揭示概念与概念之间以及中文术语之间的关系,并且也定义了属性与属性之间的关系。IATOPIAKnowledgeSeeker通过自身的结构去分析中文文本文章并以中文自然语言文本形式去理解语义。HowNet定义词汇本体的主要部分是义素定义。义素通过描述他们的物理、精神、理论或者抽象的含义揭示中文术语的概念。图3示出的是以HowNet方式揭示中文单词语义关系的示意图。1.2.4.利用本体特征选择处理来识别主题特征选择模块用于选择相应义素,能够典型地表示在主题本体中所定义的主题类。每个主题类选择少量义素(通常2-10),表示主题类的每个义素都分配有一个权重,用来描述在表示该主题实体时该义素有多重要。1.2.5.产生特征向量的处理(特征向量featurevectors处理模块)在主题本体中的每个主题类是由一组术语或短语组成的。类进一步与少量义素链接形成特征向量。由于义素网络中的义素不断增加,主题和文章分析都依赖于义素网络,而不是直接的术语匹配。因此,少量的特征向量充分表示了主题类的意思。图4示出的是主题实体映射到义素的示意图。1.2.6.特征权重(特征权重featureweighting模块)特征向量中的义素入口是根据主题节点特征的重要程度作进一步衡量的。在信息査找系统中,以类似于使用tfidf权重算法的方式来实现的。首先,语料库(即人工处理好的文字数据库)包括N个文档,该文档作为训练例子能够覆盖已获取到的所有义素。然后,文档中的术语通过HowNet中的义素网络进行摘录并链接到其它义素。此后,义素频率(fj)视为术语频率(tfj),并且也能够获得文档频率(dfj)。最后,权重Si,j定义为<formula>formulaseeoriginaldocumentpage11</formula>特征因素产生算法假设一组主题类为,C2,C3……}i从1至ljn义素Ci的摘录清单(a,/;),c^,/2)……j从1到K标准化"力=/y/ww(/;/;)权重W力=/;x'g/^0;)返回特征向量Cj:V,.二〈0"W,),02,W/2)……(&,W力)〉获得所有主题类的向量{、,V2,V3…..V}1.3.智能特征模块(IntelligentComponentsModule)本发明优选实施例中定义了不同的子过程(子模块)来处理不同的任务。图5示出的是在不同子过程之间的信息流的示意图。1.3丄获取信息过程(获取信息Info-Retrieval模块)获取信息过程就是将互联网中的信息聚集到一起处理。通过连接到互联网获取网页,从而获得信息源中有用的文章。这些文章主要来自热点国际新闻发布的网页站点,例如BBC,CNN等。这是使用在本发明的一个消息来源。1.3.2.信息分析处理(信息分析Info-Analysis处理模块)信息分析子系统查找、分析和理解搜集来自网页站点的文章的语义内容。由于所有文章都是以自然语言的中文文本格式,因此使用有效和准确的文本分析方法是有必要的。本体方法也使用了一个开发的算法去处理主题识别过程。图6示出的是适合信息分析子系统的文本分析处理的主要处理流程。文本分析模块(TextualAnalysisModule)文本分析模块的首要任务就是文本分割。适合分析处理的文本分割器使用的是最大匹配算法这个版本。当查找到已分割的单词时,该算法尽可能地匹配到最长的单词,这是简单有效的分割算法。义素摘录模块(SememeExtractionModule)义素摘录模块的目的在于从文章单词中摘录相关义素清单。义素是摘录词汇本体中有用部分。每个单词能够映射到基于HowNet定义的一个或多个义素。在义素摘录处理之后,文章文本在内容上和语义上链接到HowNet词汇。该链接是文章文本与HowNet词汇本体之间的语义桥,而该语义桥是由一组相关的义素来定义,如图7所示。实体本体匹配模块(EntityOntologyMatchingModule)义素匹配并映射到摘录内容。在实体本体中定义了摘录内容。使用和匹配五种不同类型的摘要内容,即人物、组织、地方、事件以及对象。如果超过预设阈值,就会计算摘要内容的频率。这步骤进一步对该义素进行处理以便于找出其相关的内容。义素权重模块(SememeWeightingModule)根据文本计算义素的权重。义素包含5个向量以及每个向量包括一列具有相应权重的义素实体。语义匹配能够用来形成文章语义实例表示。文章语义表示是定义在本体模块中的文章本体实例。主题识别模块(TopicIdentificationModule)主题识别模块的主要处理就是找出一组与文章相关的主题。这些主题能够作为本章的分类,但是识别复杂的主题优于仅仅在正常分类处理中的对一个分类进行分类。被识别的主题术语受限于主题本体结构中的主题类。识别相关主题的处理包括对主题本体树的每个主题节点进行计算并给出一个得分(或者权重)。得分处理是主题识别的主要部分。首先,从文章的语义表示摘录出义素。其次,将所述义素匹配到主题本体中相应的每个主题节点的每个特征向量。在前面步骤中文章的义素已进行过权重处理,但是在特征选择步骤中特征向量需进行权重处理,因此在计算中有两种权重得分都可以用来表示。假设一组本体主题节点是(Cl,c2,Cl......cn},不考虑等级水平的关系。然后获得特征向量U,V2,Vl......Vn},对于每个类Ci,有、=<(Sl,wf\),(S2,Wf2)......(Sk,Wfk)>当wfi,j是在向量Vi中义素Sj的权重得分。然后,文章的义素序列定义为vm=<(Sl,wf,),(s2,wf2)......(sk,wfk)〉文章m,并且wfm,n是在向量vm中义素sn的权重得分。对于文章am的类Ci的得分定义为Score(am,c》=Swfi,j.wfm,nforeveryj=n(2)提取每个类的等级得分是有可能的。通过简单的相加将父级的主题得分乘以子级的主题。如果Score(am,c》>0,那么Score(am,q)=Swfi,j.wfm,n+Score(am,parent(cx))(3)1.3.3.信息注释处理(信息注释Info-Annotation处理模块)信息注释处理将信息内容注释到基于语义本体格式。基于本体的格式使用RDF,也就是本体模块定义和构造的方案(schema)。RDF注释也能够对语义网页中的语义进行査询。语义查询是用于构造对以RDF格式存储的信息进行查询。通过查询基于以RDFS或者存储在RDF(S)输入本体所定义的类、特征以及属性以提高了语义搜索速度。图8示出的是RDF存储和注释数据的示意图。1.3.4.信息推荐处理(信息推荐Info-Recommendation处理模块)IATOPIAKnowledgeSeeker采用基于开发推荐处理的推荐的本体。推荐系统的目标是提供相关的或有兴趣的文章给用户。这里有两种不同类型的推荐处理。第一种类型就是基于推荐的个性化内容,该推荐是基于用户的优先选择。当用户在线时,其提供一系列个性化的文章给用户。第二种类型就是类似内容推荐,即推荐类似消息文章内容的推荐。它会马上向用户推荐基于当前用户浏览得文章的相关文章。基于推荐的个性化内容(PersonalizedContent-basedRecommendation)推荐处理能够记录读行为或基于用户读历史和目前浏览行为的习惯。基于用户的模板(profile)为目标用户保留本体,然后尽量查找出对用户有用的相关主题和消息内容。然后分析所有与用户阅读有用的类似消息内容,以便于能够将潜在的有用信息推荐并反映给目标用户。推荐处理为用户保留了基于Profile的本体内容,有效函数u(c,s)定义了向用户C查找内容S的得分up(c,s)=score(OntologyContentBasedProfile(c),Content(s))(4)通过使用Profile向量,系统即可计算出用户c的Profile和内容s之间的类似本体up(c,s)-similarity("^",ws)=2wfc,j.wfs,nforeveryj=n(5)类似内容推荐(SimilarContentRecommendation)推荐处理的第二种类型就是类似于基于推荐的内容。当用户浏览特殊新闻文章时候使用的,同时系统能够通过衡量语义实体(例如主题、人物、地方、事件)的类似之处査找与当前文章类似内容的新文章。计算得分的实体函数的目标是识别内容m和内容n的类似程度,定义为Uc(m,n)-similarity(^,《)。特殊语义实体可以要求不同的权重。例如,在查找语义类似内容方面,主题可以是最关键的。然而,它可以基于不同用户的解释有所变化,并且也可以来自不同文章内容而有所变化。1.4.语义网页模块(SemanticWebModule)语义网页模块是指用户的界面设计和以语义方式表示信息的版面。这是用户浏览所有从系统模块获得的信息的主要界面。服务器从系统处理收集响应信息,包括网页中的结果和显示信息。语义网页模块是根据W3C语义网页(SemanticWeb)架构的数据层进行开发的。创建这个语义网页的目的在于将机器的可读数据增加到网页内容以便于机器理解。此外,语义网页上的内容得到数据层所要求的巨大的本体词汇的支持。这也提供了利用语义关系组织信息的能力,以及这也是开发语义网页模块的主要原因。2.应用程序(新闻阅读器"IAToNews")基于上述IATOPIAKnowledgeSeeker主要模块和技术的描述,首先,基于最重要的智能本体RSS新闻阅读器之一是"IAToNews",它提供了一个完全自动、基于本体、基于个性化的RSS消息阅读平台。图9示出的是IAToNews的实例。新闻阅读器(IAToNews)的核心功能和特征包括(1)本体概念树(IATOLOGY-20000);(2)5维知识轮(5-DKnowledgeWheel);(3)多级文章分析器(Multi-levelArticleAnalyzer);(4)个性化IAToNews。2.1.IATOLOGY-20000IATOLOGY-20000是一棵可理解的中国本体树,包含了超过20000个中文概念和知识点。IATOLOGY-20000的第一层(核心层)包含17个多数是流行的有趣主题,这些主题作为IAToNews中的基本种类。实际上,那些种类的编排可以根据用户的偏爱而改变,在以下那段将会描述个性化IAToNews的编排。图10描述IATOLOGY-20000使用在IAToNews的最初两层,其将消息文章中的主要种类使用在IAToNews中。2.2.5-DKnowledgeWheel5-DKnowledgeWhed通过采用上述的多本体分类技术提供5维知识搜査功能。在IAToNews中,这5-DKnowledgeWhed包括人物、组织、事件、对象以及地方(如图11、12所示)。换句话说,根据这5种不同的角度将每篇消息文章进行分类。用户跟踪任何这5种不同的目标就能够进一步搜索相关的文章,而不是扩充猜测相关关键词来做进一步搜索。2.3.多级文章分析器(Multi-levelArticleAnalyzer)随着IATOLOGY-20000和智能知识分析技术的结合,IAToNews提供一个消息文章的深入分析,称为多级文章分析器。图13描述关于SaddamHussein的审判的典型的国际消息分析,属于主要的本体有"罪行,法律和司法";具有子分类审判(90%),监狱(70%),司法(69%),法律(65%)以及国际法(61%)。更重要的是,该分析工具根据这些子分类为用户提供了链接到更远的相关文章的搜索。图14提供原始消息文章和多级文章分析器以及5-DKnowledgeWheel的截屏。2.4.个性化IAToNews(个性化Personalization处理模块)随着采用ONTOLOGY-20000和智能文章分类以及分析技术,IAToNews提供了一个创新并突破了文章搜索的阅读平台,该阅读平台允许用户从两个方面将自己的IAToNews阅读和搜索平台变得个性化a.个性化消息分类酉己置(PersonalizedNewsCategorizationScheme,"PNCS,,);b.优先消息和自动分类配置(PersonalizedNewsandAutomaticCategorizationScheme,"PNACS")。除了标准消息分类配置(根据IATOLOGY-20000本体)之外,PNCS允许用户通过增加任何有趣的消息主题(TopicsofInterests,"Tols")来定义自己的分类配置。更重要的是,所有消息输入分类和分析都是根据这些Tols。而且,IAToNews中消息文章的特殊Tols的阅读习惯能够将新的Tols自动地增加到个性化IATo消息主页。此外,通过采用模糊逻辑,PNACS允许用户将其喜欢的消息文章(以及Tols)的阅读程度进行排序。然后,IAToNews将优先搜索并提供所有相关的、更喜的消息。图15描述个性化IAToNews的截屏。3.系统性能3丄主题识别准确主题识别处理通过使用中国文本语料库进行评价。该语料库分类成5个主题,因此在主题本体中的这相应的5个一级的主题分类被选作为评价。平均主题识别准确率大约为87%。对于文本分类系统这是一个较高的可接收的比率。衡量有效的目标是衡量主题识别处理的速度。在文本分类中存在许多种算法,例如人工神经网络(ANNs)和Rocchio-TFIDF。来自其它研究人员的在先结果表明TFIDF算法的执行速度比ANN算法的快,并且相比于许多其它的算法对于文本分类这是一个十分快的算法。因此,该测试的重点在于比较IATOPIAKnowledgeSeeker的识别主题的速度和传统Rocchio-TFIDF算法。3.2.主题识别处理速度该测试由在测试文档语料库中选择的三个不同文档装置来处理。每个文档包含写进中文文本具有类似数量特征的3000篇文章。结果(见表1)表示IATOPIAKnowledgeSeeker的速度比TFIDF方法的速度更快,平均花费小于一秒的时间去处理文档。而且,多重主题在花费的时间内已被识别完毕。表1树形文档装置的识别主题的花费时间比较<table>tableseeoriginaldocumentpage17</column></row><table>4.结论和潜在的应用程序IATOPIAKnowledgeSeeker为用户有效地实现知识搜索任务。通过使用不同的本体,系统能够更准确地理解文章的内容和识别每篇文章相关的主题。语义注释用于从产生推荐内容的大量文本语料库中提供语义类似文章快速査找的有利条件。这些基于类似语义的语义关系以一种许多现有系统不能够做的方式自动产生。使用个性化文件能够保持对用户有趣的事情进行跟踪,意味着用户不要求意识到他们感兴趣的东西。这种关系能够委托给系统,由系统自动进行处理。这对用户来说是有效的,因为他们不必要得知他们近来已经阅读过那些类型的主题,就能够自动发现那些有趣的主题范围。因此,用户基于其个性化的文件能够获取所有推荐文章。从应用程序这点来看,本发明详细描述了IATOPIAKnowledgeSeeker技术的最重要的应用程序,即"IAToNews",—个基于智能本体的创新RSS消息搜索和阅读平台,具有多级消息分析器,5-DKnowledgeWheel,IATOLOGY-20000和基于用户界面的个性化技术。实际上,IATOPIAKnowledgeSeeker能够应用到许多其它领域,例如(但不限于)-1)基于本体内容管理系统(ContentManagementSystems,"IAToCMS")及知识搜寻器(KnowledgeSeeker),例如(但不限于)-健康知识网及知识搜寻系统(IAToHealth)-医疗知识网及知识搜寻系统(IAToMedical)-财经知识网及知识搜寻系统(IAToFinance)-法律知识网及知识搜寻系统(IAToLaw)-旅游知识网及知识搜寻系统(IAToTravel)-音乐知识网及知识搜寻系统(IAToMusic)-科学知识网及知识搜寻系统(IAToScience)-艺术知识网及知识搜寻系统(IAToArts)-生活知识网及知识搜寻系统(IAToLiving)-美容知识网及知识搜寻系统(IAToBeauty)-体育运动知识网及知识搜寻系统(IAToSports)-职位空缺网及知识搜寻系统(IAToJobSeeker)-电影信息网及知识搜寻系统(IAToMovie)-天气信息网及知识搜寻系统(IAToWeather)-购物信息网及知识搜寻系统(IAToShopping)-饮食信息网及知识搜寻系统(IAToFood)2)基于智能本体广播系统及知识搜寻系统(IAToBroadcaster);3)基于智能本体电子杂志阅读器及知识搜寻系统(IAToMagazine)。权利要求1、一种基于智能本体的知识搜索引擎,其特征在于,包括本体模块,用于对网页文章进行分析和注释处理;智能特征模块,用于将从互联网中获取到的信息进行智能特征处理;语义网页模块,用于将机器的可读数据增加到网页上。2、根据权利要求1所述的基于智能本体的知识搜索引擎,其特征在于,所述本体模块具体包括文章本体Article-ontology,包括文章数据和语义数据,用于以机器可理解的格式对文章进行注释处理;主题本体Topic-ontology,用于以等级关系揭示主题范围,并用于识别文正主题;词汇本体Lexicon-ontology,用于通过知网的方式分析中文文本文章并以中文自然语言文本形式去理解语义。3、根据权利要求2所述的基于智能本体的知识搜索引擎,其特征在于,所述本体模块还包括特征选择模块,用于选择相应义素,并表示在主题本体中所定义的主题类;特征向量处理模块,用于将主题实体映射到义素中;特征权重模块,用于根据特征因素产生算法计算义素的权重,并获得所有主题类的向量。4、根据权利要求1所述的基于智能本体的知识搜索引擎,其特征在于,所述智能特征模块具体包括获取信息模块,用于获取互联网中的信息源中有用的文章;信息分析处理模块,用于査找、分析和理解搜索来自网页站点的文章的语义内容;信息注释处理模块,用于将信息内容注释到基于语义本体格式,所述基于本体的格式为RDF格式;信息推荐处理模块,用于提供相关的或有兴趣的文章给用户,包括提供个性化内容和类似消息文章内容给用户。5、根据权利要求4所述的基于智能本体的知识搜索引擎,其特征在于,所述信息分析处理模块具体包括文本分析模块,用于对文本进行分割,并通过预设算法匹配到所述分割出的单词;义素摘录模块,用于从文章单词中摘录相关义素清单;实体本体匹配模块,用于进行义素匹配并映射到摘录内容;义素权重模块,用于根据文本计算义素的权重;主题识别模块,用于找出一组与文章相关的主题。6、根据权利要求1-5任一项所述的基于智能本体的知识搜索引擎,其特征在于,还包括新闻阅读器,用于提供基于本体、基于个性化的RSS新闻阅读平台。7、根据权利要求6所述的基于智能本体的知识搜索引擎,其特征在于,所述新闻阅读器具体包括本体概念树,其包含了超过20000个中文概念和知识点IATOLOGY-20000,用于提供给新闻阅读器使用;5维知识轮,用于提供人物、组织、事件、对象以及地方的知识搜查功能;多级文章分析器,用于根据消息文章的分类为用户提供了链接到更远的相关文章的搜索;个性化处理模块,用于为用户从两个方面将自己的新闻阅读器在阅读和搜索平台上变得个性化,具体包括个性化消息分类配置和优先消息和自动分类配置。8、一种基于智能本体的知识搜索引擎的实现方法,其特征在于,包括以下步骤a.获取HTML格式的网页来源,并从所述HTML网页上摘录语义内容;b.通过使用本体知识获取文本语义对所述语义内容作进一步的分析,并将所述语义内容以RDF格式进行注释,并通过网页界面想用户进行显示。9、根据权利要求8所述的一种基于智能本体的知识搜索引擎的实现方法,其特征在于,所述步骤b具体包括:bl.获取信息过程的步骤;b2.信息分析处理的步骤;b3.信息注释处理的步骤;b4.信息推荐处理的步骤。全文摘要本发明涉及一种基于智能本体的知识搜索引擎,本发明所述的“IATOPIAKnowledgeSeeker”,是一个基于智能本体的系统,该系统用于帮助网页用户去查找、获取和分析任何网页信息,例如互联网中的消息文章,并在语义网页中提供该消息文章的内容。本发明介绍了利用本体去分析中文文本语义的好处,并且也介绍了利用语义网页去组织语义信息的优点,同时也论证了利用本体去识别主题的优点,并通过使用中文语料库去评价,与其它方法比较得出测试结果发现识别中文网页文章的主题的准确性高于87%。也论证了每篇文章的快速处理速度少于1秒,而且也可以灵活地组织内容和准确地理解知识,不像利用现有流行的搜索引擎的传统文本分类系统,例如Google和Yahoo。文档编号G06F17/30GK101295303SQ20071010296公开日2008年10月29日申请日期2007年4月28日优先权日2007年4月28日发明者李树德申请人:李树德
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1