一种自然语言搜索的方法和装置的制作方法

文档序号:6470958阅读:149来源:国知局

专利名称::一种自然语言搜索的方法和装置的制作方法
技术领域
:本发明涉及自然语言搜索
技术领域
,特别是关于一种自然语言的搜索方法和装置。
背景技术
:在现有技术中常用的搜索技术主要是基于关键字匹配或主题分类,但是由于缺乏语义信息,缺乏知识理解和推理能力,存在搜索返回信息包括大量的无关信息,并且返回信息还存在质量低及信息丢失、查准率的精度不够等问题,其主要原因是因特网在信息表达和检索方面存在的缺陷,没有提供给计算机足够的可读信息,限制了计算才/M^险索中的自动分析能力。现有技术中采用的方法是,首先对用户的搜索输入进行语义分析,配合词性标注,找出对搜索引擎有意义的关键词。然后再对业务数据的索引文件进行检索。如在搜索中输入"从包头怎么去五台山?,,,可以依据汉语词典对句子进行语义的拆分,即分词成"包头"、"怎么去"、"五台山"这些正是语义的主体,也是自然语言搜索需要的关键词。因为对于搜索而言,被搜索内容事先已经按词典里的词条进行索引的创建。所以,在搜索时返回的答案可能是包头的相关信息、五台山的相关信息、同时也包括用户需要查询的从包头怎么去五台在返回的信息时,不能及时准确的反馈用户所需要的信息。
发明内容本发明提供一种自然语言的搜索方法和装置,用于解决现有技术进行自然语言搜索时,只是为查询用户返回大量的相关网页的问题。一种自然语言4叟索的方法,包括A、构建汉语框架知识库CFN和专业领域知识本体库,所述汉语框架知识库中保存具有相同语义的多个词元、框架以及构成框架的框架元素,其中所述框架用于表述所述相同语义;B、针对查询用户输入的搜索语句,将所述搜索语句中的至少一个动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架,并根据所述才匡架中包含的框架元素对所述4叟索语句进4亍标注;C、选择所述动词中的一个作为语义谓词,并根据所述标注从所述搜索语句中提取出所述语义谓词以及该语义谓词的主体和/或客体生成三元组;D、将所述三元组作为查询输入,利用所述专业领域知识本体库生成候选答案集。其中,所述汉语框架知识库中的内容由语义Web标记语言描述。所述汉语知识框架库包括框架库、句子库和词元库所述框架库是以框架为单位,保存框架的定义、构成框架的框架元素以及框架和框架之间的关系;所述句子库记录带有框架语义标注信息的句子,所述带有框架语义标注信息的句子是按照框架库所提供的框架和框架元素标注句子的框架语义信息和句法信息;所述词元库保存每个框架所涉及到的词元。其中,构建专业领域知识本体库,具体步骤包括参照与专业领域相关的分类体系标准构建该领域的本体模型;通it^体编辑工具把本体库内M口识条目的概念、M口识条目的关系以及实例用语义Web标记语言表示,并存储为计算机可读的文档格式。所述步骤B之后,进一步包括当搜索语句中有多个动词时,将每个动词与本体库中的条目关系进行比对得到所述动词的语义指数,并根据所述语义指数选择动词作为所述语句的语义谓词,所述语义指数用于tf量动词的重要性。其中,所述步骤D,包括根据所述标注从所述搜索语句中提取具有语义信息的三元组;根据所述三元组生成查询语句,在本体库中查找与该三元组匹配的相关内容;如果查找成功则生成候选答案集;如果查找失败,则利用相应的查询夫见则创建推理机进行推理,并生成相应的数据一莫型进行查询,查询成功后生成相应的候选答案集。所述生成候选答案集^^后,进一步包括对候选答案集中的答案进行排序,并将排序后的答案返回给查询用户。进一步,当用户输入的搜索语句为问句时,在生成三元组之后,包括进行问句分析,提取所述问句的疑问词和疑问意向词,得到该问句的询问信自'-将所述询问信息和三元组作为查询输入,利用所述专业领域本体库生成候选答案集。根据上述方法,本发明还提供一种自然语言搜索装置,包括存储模块,用于存储汉语框架知识库CFN和专业领域知识本体库,所述汉语框架知识库中保存具有相同语义的多个词元、框架以及构成框架的框架元素,其中所述框架用于表述所述相同语义;分析才莫块,用于当查询用户输入搜索语句时,将所述搜索语句中的至少一个动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架,并才艮据所述框架中包含的框架元素对所述搜索语句进行标注;语义谓词4莫块,用于选择所迷动词中的一个作为语义谓词,并4艮据所迷标注从所述搜索语句中提取出所述语义谓词以及该语义谓词的主体和/或客体生成三元组;答案生成模块,用于将所述三元组作为查询输入,利用所述专业领域知识本体库生成候选答案集。其中,所述存储才莫块还用于利用语义Web标记语言描述汉语框架知识库中的内容。进一步,所述分析才莫块包括框架确定单元,用于当查询用户输入搜索语句时,将搜索语句中的动词与汉语框架知识库中的词元it;f亍匹配,找到所述动词所属的框架;标注单元,用于才艮据所述框架中包含的框架元素对所述搜索语句进行标注。所述语义谓词才莫块包括选择单元,用于,人搜索语句的动词中选择一个动词作为语义谓词;提取单元,用于并根据所述标注从所述搜索语句中提取出所述语义谓词以及该语义谓词的主体和/或客体生成三元组。所述答案生^t块包4舌查询单元,用于将所述三元组作为查询搜索输入,利用所述专业领域知识本体库生成候选答案集;推理单元,用于当查询模块查找失败时,利用相应的查询规则创建推理机进行推理,并生成相应的数据模型进行查询生成候选答案集。排序单元,用于对候选答案集中的答案进行排序,并根据该排序将答案返回给用户。进一步,所述选择单元还用于当搜索语句中有多个动词时,将每个动词与本体库中的条目关系进行比对得到所述动词的语义指数,并根据所述语义指数选择一个动词作为所述语句的语义谓词,所述语义指数用于衡量动词的重要性。该装置还包括问句模块,用于当用户输入的搜索语句为问句时,进行问句分析,提取所述问句的疑问词和疑问意向词,得到该问句的询问信息;则所述答案生成4莫块还用于将所述询问信息和三元组作为查询输入,利用所述专业领域本体库生成候选答案集。本发明利用CFN对查询用户输入的自然搜索语句进行自动标注,然后提:取具有语义信息的三元组,将所述三元组作为查询输入在本体库中进行答案的搜索。因为在进行本体库搜索之前已经进行了语义分析并标注所以能快速而且高效的搜寻到确切的答案。图1为本发明实施例一种自然语言搜索的方法的流程图;图2为本发明实施例中汉语框架语义知识库中各子库的连接关系图;图2A为本发明实施例中汉语框架知识库中各框架构成的框架网络图;图3为本发明实施例^M4叟索语句中提取三元组的流程图;图3A为本发明实施例利用汉语框架知识库对查询语句进行语义角色标注的流程图4为本发明实施例利用本体库进行答案的提取的流程图;图4A为推理机的工作原理图5为本发明实施例一种针对简单搜索语句的查询方法流程图;图6为利用本发明方法应用于旅游领域的流程图6A为景点、住宿、交通工具、娱乐、#^大及购物6类(概念)之间的关系模型图7为本发明实施例对问句进行三元组提取的流程图8为本发明实施例一种自然语言搜索装置的装置图9为本发明实施例一种自然语言搜索装置中分析^t块装置图10为本发明实施例一种自然语言搜索装置语中语义谓词模块装置图11为本发明实施例一种自然语言搜索装置语中答案生成模块装置图。具体实施例方式本发明实施例中,构建汉i吾4匡架知识库CFN和专业领域知识本体库,然后利用汉语框架知识库对自然语言4臾索输入的查询语句进行标注,并根据所述标注从查询语句中的提取具有语义信息的三元组,最后将所述三元组作为查询输入,利用所述本体库生成查询答案。下面结合说明书附图对本发明的具体实施方式进行详细说明,如图1所示,本发明实施例一种自然语言搜索的方法,包括步骤步骤101、构建汉语框架知识库(ChineseFrameNet,CFN)。本发明实施例首先构建了一个以有限词语集合为描述对象的汉语框架知识库,并用语义Web标记语言(可扩展标记语言(XML,ExtensibleMarkupLanguage)、资源描述框架(RDF,ResourceDescriptionFramework)、Web本体标记语言(OWL,WebOntologyLanguage))表示了该语义知识库的各种资源。(1)汉语框架知识库主要由框架库、句子库和词元库组成,具体内容包括A、词元库主要存放词元,所迷词元是具有相同语义的一类词语,其中所述相同的语义即框架。例如表述"陈述"语义的词元,如表l所示包括:<table>tableseeoriginaldocumentpage11</column></row><table>表1B、框架库是以框架为单位,明确给出框架的定义以及框架的框架元素(也称为语义角色),并描述该框架和其他框架之间的概念关系。框架库中主要存放①框架的定义;②框架元素(构成框架的不同组成元素充当不同的角色,称之为语义角色也称作框架元素。其中包括核心框架元素和非核心框架元素);③框架的关系。以下是"陈述,,框架的相关内容包括包括框架的定义、核心框架元素(核心语义角色)如表1所示、非核心框架元素(非核心语义角色)如表2和表3所示。"陈述',的框架定义此框架表达的是说话者用语言向听话者传达信息的行为。<table>tableseeoriginaldocumentpage12</column></row><table>表3C、句子库记录带有框架语义标注信息的句子,标注的原则是"t妄照框架库框架下的句子标注实例,并且是分框架,分词无存放的。CFN为每一个词元的每一个义项提供了带有框架语义标注信息的句子,这些句子来自真实的自然语言语料库,而不是由语言学家或者词典编辑者创造的。在选取句子上,力求尽可能地显示出该词元的所有可能的句法语义结合方式。这使得CFN的数据为概括词语的句法语义组合性质提供了丰富的材料,为自动语义标注技术的研究提供了训练数据。"陈述"框架的一个句子实例英方面作为报复措施也宣布4名俄罗斯大使馆的外交官为不受欢迎的人。<spkr-np-subj英jn方面n>4乍为v才艮复v4普施n也d<tgt宣布v><msg-dj-obj4m名qj我罗斯nsy大<吏馆n的u夕卜交官n为v不d受v欢迎v的u人n>。(2)汉语框架知识库中各元素之间的联系如图2所示,在本发明实施例中词元库、句子库和框架库三者的关系包括词元库依附于框架库,即特定的词语隶属于特定的框架(虽然有一对多的现象,即一个词元可隶属于几个框架),由于同一个词元在不同的框架下,其语义搭配模式和句法实现形式不同,所以句子库又依附于词元库和框架库。框架和框架之间还存在多种联系,构成一个知识网络如图2A所示,其中各框架之间的4关系包括继承关系、总分关系、总域/分域关系、参照关系、因果关系、后继关系。同时一个框架涉及多个词元,用同一个框架的框架元素集合进行标注;反过来,一个多义词代表多个词元,属于几个不同的框架,即用不同的框架元素进行表示,有了这样的信息,一个应用系统就有可能区分出同一个词形在不同的使用环境中的不同意义。步骤102、构建专业领域知识本体库,具体包括首先参照分类体系标准确定本体的领域和范围,并列出本体中的重要术语,所述术语大致表明建模过程所有涉及到的事物,以及这些事物所具有的属性以及这些属性之间的关系等。然后定义类和类的支撑、属性、属性之间的关系、属性的限制,最后得到该本体的本体才莫型。通过本体编辑工具(其中较为常见的本体编辑工具包括Ontolingua、OntoEdit、Ontosaurus和Pro&g6等)把本体模型中各知识条目的概念、关系和实例(即三元组)用Web标记语言表示出来,并存储为计算机可读的文档形式。本体的建立严格定义了类之间的逆关系(InverseOf)、传递关系(TranstiveProperty)、函H关系(FunctionalProperty)、对称关系(SymmetricProperty)、逆函凄史关系(InverseFunctionalProperty)以及对属性的限制。步骤103、搜索语句的三元组抽取。当接收到用户输入的搜索语句后,首先进ff预处理,即进行分词和标注所有词语的词性。然后才是取出所述搜索语句中的所有动词,并将每个动词与汉语框架知识库中的词元进行匹配,找到每个动词所属的框架,根据所述框架中的框架元素对所述搜索语句进行标注。最后选择动词中的一个作为所述搜索语句的语义谓词并提取该语义谓词的主体和客体生成具有语义信息的三元组,所述主体和J^体是查询语句中与语义谓词相邻的前一个名词和后一个名词,所述三元组表达了询问语句的语义信息以及各框架元素之间的连接关系。其中,三元组中可以缺少主体或者^_客体,即三元组是由语义谓词加上所述语义谓词的主体和/^^体形成的。进一步,如果搜索语句中没有动词,则所述语义谓词则是能够表示该语句搜索意图的词语。如果所述搜索语句为不包含动词的问句,则所述语义谓词为疑问词,主体和客体则为与疑问词相邻的名词。如图3所示,以动词三元组为例,对三元组的抽取进行进一步的说明,具体包括步骤S301、才艮据汉语框架知识库对查询语句进4亍语义角色标注。如图3A所示,具体包括步骤S3A01、对查询用户输入的搜索语句进行预处理,提取出该搜索语句中的所有动词。S3A02、将所述动词与汉语框架知识库中的词元进行匹配,从而得到该动词所属的框架。S3A03、根据该框架中所包含的框架元素对所述搜索语句进行标注。具体包括三层第一层框架元素标注,框架元素是框架中的各种参与者,框架元素分为核心框架元素和非核心框架元素。核心框架元素是一个框架在概念理解上的必有成分,它们在不同的框架中类型和数量不同,显示出才匡架的个性。非核心框架元素并不显示框架的个性,表达时间、空间、环境^f牛、原因、目的等外围语义成分。第二层短语类型标注。第三层句法功能标注。5302、选择所述搜索语句的语义谓词,所述语义谓词是能可以表述真个搜索语句最主要的搜索目的的词语。1、当用户输入的搜索语句中只有一个动词时,则该动词为所述搜索语句的语义谓词。2、如果用户输入的搜索语句中有多个动词时,则##个动词与本体库中的条目关系(条目关系包4舌才莫型中的扭克念,以及概念之间的关系以及概念的实例,例如交通工具中有汽车类,汽车和景点类之间有关系,而景点和汽车都有各自的具体实例)进行比对得到每个动词的语义指数,所述语义指数用于衡量语义谓词的重要f生。然后根据语义指数选择一个动词作为该搜索语句的语义谓词。5303、三元组的^由取。根据标注提取所述语义谓词的主体和客体生成能够表达该搜索语句的语义信息的三元组。所述三元组中可以缺少语义谓词的主体或者客体。由于用户输入的语句中存在大量的口语,所以根据受限领域中词汇对应的口语词汇词典对查询语句的语义进行理解。步骤104,利用本体库进行答案的提取。如图4所示,具体包括步骤S401、利用所述三元组生成查询语句在本体库中查找与该三元组相匹配的相关信息。5402、如果查找成功,则生成候选答案集后转入S405,若查找失败,则转入S403。5403、利用相应的查询规则(推理机中的自定义规则以及推理机中存放的本体库中的全部关系)创建推理机,进行推理,并生成相应的数据模型,再次进行查询。5404、如果查询成功,则生成相应的答案集,并转入S405;若查询再次失败,则转至S406。5405、对答案集中的答案进行排序,并将排序后的答案返回给用户。5406、为查询用户返回所查内容不能找到。在本发明实施例中,将提取的三元组与本体库中的相关信息进行匹配时,釆用能够解析和查询RDF模型的工具包一Jena。Jena本体解析器可以对RDF进行解析,并对RDQL的查询支撑和对OWL的解析。Jena同时提供基于规则的推理机。Jena提供基于规则的推理机(如RDFSReasoner、OWLReasoner等),此外用户还可以根据需要自定义推理规则,也可以注册使用第三方推理引擎。如图4A所示,推理机的工作原理是推理机注册机制根据基本RDF向量描述(信息资源)和Ontology创建出推理机,由此推理机可以生成包含推理机制的模型对象(InferenceGraph,InfGraph),在Jena中,图(Graph)也被称为模型(Model),而表现形式为才莫型界面(ModelInterface),然后可以使用模型应用编程接口(ModelAPI,ModelApplicationProgrammingInterface)和^^体应用參扁禾呈4矣口(OntologyAPI,OntologyApplicationProgrammingInterface)对此才莫型进4亍才喿作和处理,从而实现语义层面的信息检索。如图5所示,本发明实施例还提供一种针对简单搜索语句的查询方法,具体包括步骤步骤501、构建专业领域知识本体库。面向受限领域构建专业领域知识本体,参照《中国分类主题词表》、专业领域相关标准,并根据专业领域的勤出术语以及专业领域内各组成元素之间的关系等等一切可知的与该专业领i或相关的信息,构建该领域的本体模型。然后采用OWL对本^f莫型进行编码,最后通过美国斯坦福大学的本体编辑工具Prot6g6,把本体库内各条目的概念、关系和实例用OWL和RDF表示出来,并存储为OWL文档。本体的建立严格定义了类之间的逆关系(InverseOf)、传递关系(TranstiveProperty)、函凌丈关系(FunctionalProperty)、对称关系(SymmetricProperty)、逆函凄史关系(InverseFunctionalProperty)以W于属性的卩艮制。步骤502、首先对搜索语句进行预处理,提取搜索语句中的三元组,然后利用所述三元组生成SPARQL查询语句,在本体库中进行查找与该三元组相匹配的相关信息,如果查找成功,则转入步骤504,若查找失败,则转入步骤503。步骤503、利用相应的查询规则创建推理机,进行推理,并生成相应的数据模型,再次进行查询,如果查询成功,则转入步骤504;若查询再次失败,则返回所查询内容不能找到。步骤504、对候选答案进行排序,并将排序后的答案返回给查询用户。如图6所示,下面结合旅游领域查询用户所提出的相关问句,对本发明实施例做进一步的说明。因为用户在查询相关内容时候大部分都是以问句的形式输入,所以在本实施例中特别针对查询问句做了优化的处理,具体步骤包括步骤601、构建汉语框架知识库(CFN)。步骤602、构建旅游领域知识本体库。面向某地的旅游信息,选取有特色的旅游景点,针对每个景点都建立语料库,构建旅游领域的本体库。在景点语料库的基础上,根据旅游六要素即游、购、娱、食、住、行,对文档进行了术语的抽取,并参照《中国分类主题词表》及《旅游服务^f出术语》(gb/t16766-1997)、《旅游规划通则》(gb/t18971-2003)、旅游业各学科在中国图书馆分类法中所属类别、《旅游业标准体系表》、《旅行社国内旅游服务质量要求》(lb/t004-1997)、《导游服务质量》(gb/15971-1995)、中国国家标准网(www.chinagb.org)、旅游规划通则(gb/t18971-2003)、旅游资源分类调查与评价(gb/t18972-2003)、旅游服务彭出术语(gb/t16766-1997)等进4亍了》良游本体模型的初步构建。图6A为景点、住宿、交通工具、娱乐、餐饮及购物6类(概念)之间的关系模型图。系统采用OWLLite进行本体模型的编码,并使用了美国斯坦福大学的本体编辑工具Prot6g6。本体的建立严才各定义了类之间的逆关系(InverseOf)、传递关系(TranstiveProperty)、函凄t关系(FunctionalProperty)、只十《尔关系(SymmetricProperty)、逆函凄t关系(InverseFunctionalProperty)以力寸属性的限制。通iiProMg6,把与数据库相关的概念、关系和实例用OWL和RDF表示出来,存储为OWL文档。步骤603、对用户搜索输入的查询语句进行问题分类。对问题进行分类时,从不同的角度可以有不同的问题分类。本系统釆取了多角度分类形式,在TRECCTextRetrievalConference)分类的彭出上,利用本体的思想,对问题分类。根据问句库的统计,目前对于旅游领域查询用户所提的问句类型分为以下三类(1)简单的问本体的主体,客体。包括特指疑问句和是非疑问句中询问人物、时间、#:字、实体。如五台山的气候怎么样?五台山附近有没有旅馆?(2)询问方法,属于描述。如开车从北京出发去五台山、怎么去?(3)原因、定义类的问题。步骤604、利用汉语框架知识库对用户搜索输入的查询语句提取具有语义信息的三元组,具体步骤如图7所示,包括S701、利用汉语框架知识库对查询语句进行语义角色标注。标注共有三层,第一层为框架元素,框架元素分为核心框架元素和非核心框<table>tableseeoriginaldocumentpage19</column></row><table>表4架元素。核心框架元素是一个框架在概念理解上的必有成分,它们在不同的框架中类型和数量不同,显示出框架的个性。非核心框架元素并不显示框架的个性,表达时间、空间、环境条件、原因、目的等外围语义成分。第二层为短语类型标注,第三层为句法功能标注。表4中给出了"到达"框架的框架描述。例句"驾车从;U^到五台山怎样走最近?"进4亍CFN标注后为〈mot-vp-va驾车><src-pp-adva从;^^>〈tg1^到达到><goal-sp~obj五台山>怎样走最近?5702、问句分析。获取疑问词和疑问意向词。由于问句可以通过疑问词和疑问意向词确定查询用户的查询目的。5703、三元组的抽取。首先从问句的动词中获取语义谓词,并将获取到的语义谓词与本体库中的条目关系进行比对。通过语义指数来衡量语义谓词的重要、基于规则评分后提取语义谓词的主体和客体。例句驾车从;U^到五台山怎样走最近?首先经过预处理,通过CFN标注的信息直接提取框架元素〈mot-vp-va驾车>、〈src-pp-adva从太原〉、〈tgt^到达到>、<goal-sp"Obj五台山>,经过问题类型识别、判断属于TREC分类中的第二大类描述中的方法类,同时分析出比4交成分即路线属性值。满足<自驾车?,出发点,iof、>,<自驾车?,目的地,五台山〉的汽车子类自驾车的实例,然后对所有实例的路线属性值进行比较。例如本发明实施例利用"到达"、"穿越"、"出发"、"位移"、"存在,,等框架,对询问交通^各线或者交通工具的问句进行问句分析,同时利用冲匡架中的词元对动词进4亍了同义扩展。CFN第一层可以把交通工具以及出发点和目的;^艮快的识别出。表5为旅游交通领域的部分问句标注示例。<table>tableseeoriginaldocumentpage21</column></row><table>步骤605、答案的提取。将所述三元组和查询用户的查询目的作为查询输入,生成SPARQL查询语言和Jena推理机在所述旅游领域知识本体库中进行答案的查找,具体的查询流程包括当用户输入一个查询"从包头怎么去五台山?",则系统通过上述步骤从中抽取出发点、动词和目的地<包头,去,五台山>,并问句分析得到用户的查询目的为询问线路怎么走。根据三元组和查询目的信息生成SPARQL查询语句,在本体库中查找与询问内斜目匹配的相关信息。如果查找成功,则直接生成候选答案集;如果查找失败,则生成相应的查询头见则,并创建推理4几,进行推理,然后生成相应的数据模型,再次进行查询,查找成功则生成相应的候选答案集,并对候选答案集中的答案进行排序。最后将排序后的结果返回给用户。如果生成相应的查询MJ'j之后仍然失败,则给查询用户返回空答案。例子的返回答案为1,火车1674/1675:包头——忻州火车2462/2463:包头——忻州大巴忻州2,飞机MU5690:包头机场-i^f、武宿机场大巴;bf-i台山3,大巴包头——;U^、大巴A^、——i台山。如图8所示,本发明实施例还提供一种自然语言搜索装置包括存储才莫块801、分析模块802、问句模块803、语义谓词模块804、答案生成模块805:存储模块801,用于构建汉语框架知识库CFN和专业领域知识本体库,所述汉语框架知识库中保存具有相同语义的多个词元、框架以及构成框架的框架元素,其中所述框架用于表述所述相同语义,其中所述汉语框架知识库中的所有内容都由语义Web标记语言描述。分析模块802,用于当查询用户输入搜索语句时,将所述搜索语句中的至少一个动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架,并根据所述框架中包含的框架元素对所述搜索语句进行标注。'如图9所示,所述分析模块包括框架确定单元和标注单元框架确定单元901,用于当查询用户输入搜索语句时,将搜索语句中的动词与汉语框架知识库中的词元进;f亍匹配,找到所述动词所属的框架。标注单元902,用于根据所述框架中包含的框架元素对所述搜索语句进行标注。问句模块803,用于当用户输入的搜索语句为问句时,进行问句分析,提取所述问句的疑问词和#是问意向词,得到该问句的询问信息;语义谓词模块804,用于选择所述动词中的一个作为语义谓词,并根据所述标注从所述搜索语句中提取出所述语义谓词以及该语义谓词的主体和/或客体生成三元组。如图10所示,所述语义谓词模块包括选择单元1001和提取单元1002,其中所述选择单元1001,用于当用户输入的搜索语句中只有一个动词时,则该动词为所述搜索语句的语义谓词。如果用户输入的搜索语句中有多个动词时,则将每个动词与本体库中的条目关系(即属性)进行比对得到每个动词的语义指数,所述语义指数用于衡量语义谓词的重要性。然后根据语义指数选择一个动词作为该搜索语句的语义谓词。所述提取单元1002,用于并根据所述标注从所述搜索语句中提取出所述语义谓词以及该语义谓词的主体和/或^:体生成三元组。答案生成模块805,用于根据所述标注从所述搜索语句中提取出具有语义信息的三元组,所述三元组包才舌动词以及动词的主体和/或^体,并将所述三元组作为查询搜索输入,利用所述专业领域知识本体库生成候选答案集。当所述搜索语句为问句时,则该答案生成沖莫块还用于将所述询问信息和三元组作为查询输入,利用所述专业领域本体库生成候选答案集。如图ll所示,所述答案生成模块包括查询单元1101、推理单元1102、排序单元1103:查询单元1101,用于将所述三元组作为查询搜索输入,利用所述专业领域知识本体库生成候选答案集。推理单元1102,用于当查询模块查找失败时,利用相应的查询规则创建推理才;ui行推理,并生成相应的数据模型进行查询生成候选答案集。排序单元1103,用于对候选答案集中的答案进行排序,并根据该排序将答案返回给用户。因为汉语框架知识库中的所有内容都用语义Web进行描述,所以为计算才几应用可读、可理解的语义词典,为实现语义Web中的语义知识共享以及智能化、个性化的Web服务提供基础资源。并且,汉语框架知识库中的句子库记录语义角色与短语类型、句法功能之间的对应关系,代替了从直觉出发对角色的选择限制的描述,比人工描述的结果更具体、更准确,也更有实用价值。员根据本发明的技术方案得出其它的实施方式,同样属于本发明的技术创新范围。明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求1、一种自然语言搜索的方法,其特征在于,包括A、构建汉语框架知识库CFN和专业领域知识本体库,所述汉语框架知识库中保存具有相同语义的多个词元、框架以及构成框架的框架元素,其中所述框架用于表述所述相同语义;B、针对查询用户输入的搜索语句,将所述搜索语句中的至少一个动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架,并根据所述框架中包含的框架元素对所述搜索语句进行标注;C、选择所述动词中的一个作为语义谓词,并根据所述标注从所述搜索语句中提取出所述语义谓词以及该语义谓词的主体和/或客体生成三元组;D、将所述三元组作为查询输入,利用所述专业领域知识本体库生成候选答案集。2、如权利要求l所述的方法,其特征在于,所述汉语框架知识库中的内容由i吾义Web才示i己i吾言4翁述。3、如权利要求2所述的方法,其特征在于,所述语义Web标记语言包括可扩展标记语言XML、资源描述框架RDF、本体标记语言OWL。4、如权利要求1所述的方法,其特征在于,所述汉语知识框架库包括框架库、句子库和词元库所述框架库是以框架为单位,保存框架的定义、构成框架的框架元素以及框架和框架之间的关系;所述句子库记录带有框架语义标注信息的句子,所述带有框架语义标注信息的句子是按照框架库所提供的框架和框架元素标注句子的框架语义信息和句法信息;所述词元库保存每个框架所涉及到的词元。5、如权利要求1所述的方法,其特征在于,构建专业领域知识本体库,包括参照与专业领域相关的分类体系标准构建该领域的本体模型;通过本体编辑工具把本体库内^口识条目的概念、各知识条目的关系以及实例用语义Web标记语言表示,并存储为计算机可读的文档格式。6、如权利要求l所述的方法,其特征在于,所述步骤B之后,进一步包括当搜索语句中有多个动词时,将每个动词与本体库中的条目关系进行比对得到所述动词的语义指数,并根据所述语义指数选择动词作为所述语句的语义谓词,所述语义指数用于衡量动词的重要性。7、如权利要求l所述的方法,其特征在于,所述步骤D,包括根据所述标注从所述搜索语句中提取具有语义信息的三元组;根据所述三元组生成查询语句,在本体库中查找与该三元组匹配的相关内容;如果查找成功则生成l矣选答案集;如果查找失败,则利用相应的查询MJ'J创建推理4几进行推理,并生成相应的数据模型进行查询,查询成功后生成相应的候选答案集。8、如权利要求1或7所述的方法,其特征在于,所述生成候选答案集之后,进一步包括对候选答案集中的答案进行排序,并将排序后的答案返回给查询用户。9、如权利要求l所述的方法,其特44于,当用户输入的搜索语句为问句时,在生成三元组之后,进一步包才舌进行问句分析,提取所述问句的疑问词和疑问意向词,得到该问句的询问信息;将所述询问信息和三元组作为查询输入,利用所述专业领域本体库生成候选答案集。10、一种自然语言搜索装置,其特征在于,包括存储模块,用于存储汉语框架知识库CFN和专业领域知识本体库,所述汉语框架知识库中保存具有相同语义的多个词元、框架以及构成框架的框架元素,其中所述框架用于表述所述相同语义;分析模块,用于当查询用户输入搜索语句时,将所述搜索语句中的至少一个动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架,并根据所述框架中包含的框架元素对所述搜索语句进行标注;语义谓词才莫块,用于选择所述动词中的一个作为语义谓词,并才艮据所述标注组;答案生成模块,用于将所述三元组作为查询输入,利用所述专业领域知识本体库生成候选答案集。11、如权利要求IO所述的装置,其特征在于,所述存储模块还用于利用语义Web标记语言描述汉语框架知识库中的内容。12、如权利要求10所述的装置,其特征在于,所述分析模块包括框架确定单元,用于当查询用户输入搜索语句时,将搜索语句中的动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架;标注单元,用于根据所述框架中包含的框架元素对所述搜索语句进行标注。13、如权利要求IO所述的装置,其特征在于,所述语义谓词模块包括选择单元,用于从搜索语句的动词中选择一个动词作为语义谓词;提取单元,用于并根据所述标注从所述搜索语句中提取出所述语义谓词以及该-i吾义谓词的主体和/或客体生成三元纟且。14、如权利10所述的装置,其特征在于,所述答案生成才莫块包括查询单元,用于将所述三元组作为查询4叟索输入,利用所述专业领域知识本体库生成候选答案集;推理单元,用于当查询模块查找失败时,利用相应的查询规则创建推理机进行推理,并生成相应的#史据才莫型进4于查询生成候选答案集。15、如权利要求14所述的装置,其特征在于,所述答案生成纟莫块还包括排序单元,用于对候选答案集中的答案进行排序,并根据该排序将答案返回给用户。16、如权利要求13所述的装置,其特征在于,所iii^择单元还用于当搜索语句中有多个动词时,将每个动词与本体库中的条目关系进行比对得到所述动词的语义指lt,并根据所述语义指数选择一个动词作为所述语句的语义谓词,所述语义指数用于衡量动词的重要性。17、如权利要求10所述的装置,其特征在于,该装置还包括问句才莫块,用于当用户输入的4叟索语句为问句时,进行问句分析,提取所述问句的疑问词和疑问意向词,得到该问句的询问信息;则所述答案生成才莫块还用于将所述询问信息和三元组作为查询输入,利用所述专业领域本体库生成候选答案集。全文摘要本发明公开了一种自然语言的搜索方法和装置,该方法为构建汉语框架知识库CFN和专业领域知识本体库,然后利用汉语框架知识库对自然语言搜索输入的查询语句进行汉语框架语义角色自动标注,并根据所述标注从查询语句中提取具有语义信息的三元组,最后将所述三元组作为查询输入,利用所述本体库生成查询答案。应用本发明,能够识别用户自然语言输入的搜索语句。并且在答案提取时,不需要大量的答案库进行匹配。文档编号G06F17/30GK101414310SQ20081022434公开日2009年4月22日申请日期2008年10月17日优先权日2008年10月17日发明者刘开瑛,刘海静,吕国英,孙占虎,宋小香,彭洪宝,茹李,李双红,王文晶,王瑞波,由丽萍,波谷,欣邢,郭海旭,郭韦昱,钟立军,陈雪艳,高俊杰申请人:山西大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1