旅游领域faq中文问答系统实现方法

文档序号:6460339阅读:346来源:国知局

专利名称::旅游领域faq中文问答系统实现方法
技术领域
:本发明涉及一种旅游领域FAQ中文问答系统实现方法,尤其是一种基于旅游领域常问问题库(FAQ)的问答系统实现方法,属于人工智能领域。
背景技术
:常问问题FAQ(Frequently-askedQuestion)是当前网络上提供在线帮助的主要手段,通过事先组织好一些可能的常问问答对,发布在网页上为用户提供咨询服务。FAQ知识组织简单、维护方便,但是,随着常问问题集的逐渐积累,问题数量日益增多,逐页浏览式的知识获取途径将越来越难于满足用户的实际需求,将会浪费用户大量的宝贵时间,甚至当用户访问了所有链接时才发现根本没有自己真正需要的信息,耗时费力。
发明内容本发明的目的正是为解决上述问题而提供一种旅游领域FAQ中文问答系统实现方法,以高效,快速、准确地为用户提供咨询服务。本发明通过下列技术方案完成一种旅游领域FAQ中文问答系统实现方法,其特征在于包括(1)FAQ收集与组织结合人工或半自动方式从互联网上提取旅游问答对,并整理进入旅游问答库,形成旅游FAQ库;(2)旅游领域知识库构建构建并维护旅游领域知识结构及关系,形成旅游领域知识库;(3)用户査询在互联网上,用户通过自然语言问题进行旅游信息査询;(4)问题分析对用户输入的问题进行分析,提取表征问题的关键词、扩展词、句法依存对、问题类型等信息;(5)答案提取根据问题分析结果,从常问问题库(FAQ)中提检索侯选问题,采用领域问题相似度计算方法,计算用户问题与侯选问题相似度,提取相似度最大的问题答案作为侯选答案,并提供给用户,返回最终用户查询答案;用户可以提供面向文本的自然语言问题,系统直接返回答案,而不是和问题相关的大量网页。所述步骤(1)FAQ收集与组织方法具体为第一种通过网络爬虫从互联网上自动爬取,并通过人工筛选进入FAQ库;第二种是通过人工收集与整理获得,针对旅游领域,专门收集地方、景点、风土人情、酒店等相关介绍、门票、交通等相关问题,分类整理和组织FAQ问答对并进入FAQ库;第三种则是由系统自动记录用户输入但在问句库中不存在的新问句,并把这类问句统一保存到问答历史库中,定期由人工审核整理,把对应的答案和问句一起入FAQ库。所述FAQ的问答对的存储通过建立问题(question)和答案(answer)两个关系表,分别通过主键(Questionid,Answerid)进行答案索引;问题表的存储,为了便于快速检索,采用倒排索引方式进行存储,建立词与问句之间的倒排索引文档,候选问题集的选择从索引文档中提取,而最终答案则根据问题表中存放的答案answerid从数据库中直接输出。所述步骤(2)主要利用了本体论的思想,借助现有的中科院院语言信息中心董振东先生的"知网"进行领域术语的扩展。所述步骤(2)具体为借助本体论的思想对云南旅游领域资源的概念进行精确描述,以"知网"为基础,采用"知网"的概念描述语言KDML规则,建立了专门的云南旅游领域本体,形成云南旅游领域资源本体库领域知网体系,并实现了云南旅游知识库"领域知网"与常识知识库"知网"的融合。目前共对云南旅游景点介绍、风土民情、旅游交通等旅游相关2012个概念进行了定义和描述,形成了云南旅游领域"知网"。因为相对于开放域来说,受限域具有一定的领域知识特点,借助于领域知识关系能够降低自然语言处理的难度。本体论(Ontology)是一种对概念的精确描述,特别是对领域概念的描述,是一种很好的领域知识表示方式。本体通过对概念、术语及其相互关系的规范化描述,勾画出某一特定领域的基本知识体系结构。"知网"HowNet是一部通用常识资源,其描述了汉语和英语的词语所代表的概念,揭示概念与概念之间以及概念所具有的属性和属性之间的关系。借助本体论的思想对旅游领域资源的概念进行精确描述,以"知网"为基础,采用"知网"的概念描述语言KDML规则,建立了专门的旅游领域本体,形成旅游领域资源本体库领域知网体系,并实现了旅游知识库"领域知网"与常识知识库"知网"的融合。目前共对云南旅游景点介绍、风土民情、宾馆酒店、旅游交通等旅游相关2012个概念进行了定义和描述,形成旅游领域知识库。所述步骤(3)具体为用户可以通过互联网进行相关旅游领域问题査询,采用自然语言方式进行査询,并直接得到问题的答案。所述步骤(4)具体为通过问句分析模块对用户输入的问题进行分析,主要包括词法分析、句法分析及语义分析,词法分析主要对问题进行分词,过滤停用词,提取査询核心词及借助"知网"进行关键词扩展;句法分析主要对提取问句的核心词干,借助哈工大句法分析器,提取问句句法依存对;语义分析主要分析问句语义信息,根据旅游领域特点,定义并提取旅游领域问题类型特征句模规则,并通过规则匹配方式实现问句类型的识别,具体是A、问题关键词、扩展词提取问题关键词和扩展词是表征问题的基本要素,也是候选问题集检索和答案提取的基础。通过加载领域知识库,在对问句分词后再进行一次领域术语切分,实现领域术语切分与词性标注,并利用"知网",对关键词进行同义扩展,形成关键词扩展词。B、问句句法依存对提取由于一个完整的汉语句子是由句子的主干成分和修饰成分所构成,而人们往往从主干成分就可以了解一个句子的大概意思,由于目前完全句法分析存在很多困难,所以在进行句子相似度计算时,可以通过句子之间有效搭配对的相似度来体现句子之间相似度。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动词、名词以及形容词,它是由分词后的词性标注决定的。并通过哈工大的共享语言技术平台LTP接口获取句子有效搭配对。C、旅游领域问句分类问题类型是定位答案及制定析取答案策略的关键因素,在问句分析时,判断两个问题是否相似,首先得判断两个问题的问题类型是否一致,如果一致,才能进行进一步的相似度计算判断,否则两个问题不可能相似。在特定领域内,由于业务相对固定,因此问句询问内容形式相对受限,因此可以针对问答业务对问题进行分类,以此来提高相似问句检索及答案抽取的准确率,在旅游领域,提取构建了各种问题类型的构成规则,并通过这些特征识别问题类型。所述步骤(5)答案提取方法具体为根据问题分获取的问题类型、问题关键词、问题扩展词等问句关系信息,采用lucene从常问问题库(FAQ)中检索侯选问题集,借助领域问题相似度计算方法,提取相似度最大的侯选问题答案作为答案,并返回给用户,具体是A、候选问题集的选择与问句索引建立候选问题集的目的是縮小査找范围,使后续的相似度计算等较为复杂的过程都在候选问题集这个相对较小的范围内进行,从而提高系统的检索效率。在旅游(FAQ)问答系统中采用Lucene检索系统实现候选问题检索和问句索引。B、旅游领域问句相似度计算问句相似度计算是FAQ中相似问句查找的基础,同时也是答案提取的关键,其直接影响答案提取的准确程度,当前已有多种中文句子相似度计算方法,通常分为三个等级语法相似度、语义相似度和语用相似度。但这些相似度计算方法在领域(FAQ)问答系统中都有不同的缺陷。在此结合旅游领域问句特点,综合考虑词的语义距离、句法依存关系及领域概念语义关系因素,提出了一种问句相似度计算方法,该方法首先利用领域问题特点,根据问题类别进行相似问题过滤,然后以"知网"及"领域知网"知识库为基础,采用句法分析提取问句有效依存对,并利用依存对和概念语义关系,实现旅游领域问句之间相似度计算。计算关键步骤如下(1)词的语义相似度计算词是组成句子的基础,句子相似度必须通过句子包含词之间的相似度来表现,计算方法参照刘群基于"知网"的词语语义相似度计算方法,计算过程如下&m(C',C2)=XAitS(c,,C2)(1)其中,&'((^^2)为概念的第一个独立义原相似度、S/^(q,C2)为其他独立义原的相似度、s^3(G,e2)为关系义原相似度、和s—(q,c:2)为符号义原相似度,ei(i《i《4)为可调节的参数,且A+A+A+A=l,A2A^A^A,A^0.5。(2)问句句法依存对相似度计算根据问题句法分析可提取问句的句法依存对,在提取获得了两个问句的有效搭配对后,必须比较两个问句有效搭配对之间的相似度,为了计算问句间有效搭配对相似度,首先必须计算两个有效搭配对之间对应词之间的相似关系,根据知网消歧标注结果,采用基于"知网"词语相似度计算方法(A步骤),分别计算依存对上两个对应词语的相似度,然后取两个相似平均值得到两个有效依存对的相似度。然后根据依存对的相似度计算问句之间相似度,对于任意两个问句A和B,A包含的问句句子依存对为Ai,A2,...,Am,B包含的问句句子依存对为Bi,B2,…,Bn,首先以问句A中的依存对为基准,计算依存对Ai(l^i^n)和Bj(l^^n)之间的相似度S(Ai,Bj),根据式(2)依次挑选S(Ai,Bj)最大的依存对,直到A句子中的依存对为空,挑选出一个句子有效依存对集合{"'},同样以B有效句子依存对为基准,计算句子依存对Bj(l3'^i)与Ai(凶^n)之间的相似度表示为S(Bj,Ai),根据式(3)依次挑选S(Bj,Aj)最大的依存对,直到B句子中的依存对为空,挑选出一个句子有效依存对集合{~}。a,=max(S(4,A),S(4,£2),A,S(4,B))②~=ma,,4賜,4),A,S(5"4J)(3)(3)旅游领域问句相似度计算在进行问句类型判断和问句依存对提取后,就可以根据依存对相似度计算获得的两个依存对集合{a,},{~}进行问句相似度计算,计算公式如下<formula>formulaseeoriginaldocumentpage8</formula>采用有效句法依存对进行问句相似度计算,大大降低算法的复杂度,准确率会得到一定程度的提高。这种方法从浅层句法进行考虑,考虑到了词与词之间的依存关系,对句子的理解更加充分,从而能够更准确的得到句子相似度的值。C、相似问题的检索与答案提取确定候选问题集后,进一步就是从候选集中挑选出与目标问句最为相似的问句。相似问句检索的思想是计算候选问题集中每个问句与目标问句之间的相似度,取相似度大于系统指定阈值X的问句作为相似问句,并根据该问句对应的答案编号(Answerld),从数据库中自动抽取出有关答案作为输出结果返回给用户。根据旅游领域问句特点,结合词语义信息、问句句法依存关系及领域概念关系进行相似度计算,具体方法见前述旅游领域问句相似度计算方法内容,最终实现中文问句的相似度计算。所述答案提取方法依据领域问句相似度计算方法提取用户最相关问题,领域问句相似度计算方法融合了领域知识概念及关系(旅游领域术语及关系)、句法结构(句法依存对及关系)及语义(问题类型)等多特征进行句子相似度计算。本发明具有下列优点和效果本发明借助于本体论的思想,以"知网"常识库为基础,采用KDML描述语言,定义和描述了旅游领域术语与关系,扩展旅游领域术语描述,构建旅游领域知识库-领域知网,实现了"旅游领域知网"与常识库"知网"的融合。通过词法、句法和语义分析用户自然语言问题,提取识别问题关键词、扩展词、问题类别、问句主干、句法依存对等问句表征,并结合领域知识、句法依存关系、语义关系,实现问句相似度计算,并以相似度计算为基础,从侯选问题集中检索相关问句,提取问题答案,使旅游领域常问问题(FAQ)中文问答系统能够实现,且具有高效,快速、准确。云南旅游FAQ问答系统测试结果表明该方法可行,有较好的效果。图1是旅游FAQ问答系统结构图。具体实施例方式实施例如图l,本发明提供的旅游领域FAQ中文问答系统实现方法,具体步骤如下步骤一,FAQ收集与组织FAQ库是问答的核心资源,主要通过三种途径获得第一种通过网络爬虫从互联网上自动爬取,并通过人工筛选进入FAQ库;第二种是通过人工收集与整理获得,针对旅游领域,专门收集地方、景点、风土人情、酒店等相关介绍、门票、交通等相关问题,分类整理和组织FAQ问答对;第三种则是由系统自动记录用户输入但在问句库中不存在的新问句,并把这类问句统一保存到问答历史库中,定期由人工审核整理,把对应的答案和问句一起入库。FAQ通过数据库方式存储,为提高存取速度,定义了问题(Question)和答案(Answer)两个关系表,其中问题表(Question)主要存储问题及答案索引信息,包括问题编号(Questionld)、问题(Question)、问题类型(QuestionType)及答案编号(Answerld),答案表(Answerld)存储答案信息,包括答案编号(Answerld)及答案(Answer)。由于关系表仅仅用于FAQ的数据存储和答案的定位提取,为便于候选问题快速检索,对所有的问句都以分词后的词为索引、建立词-问句倒排索引文挡,候选问题集的选择从索引文档中提取,而最终答案则根据问题表中存放的答案编号(Answerld)从答案表中直接定位输出。由于人们经常有新的问题加入,因此,需要经常扩展新的问题到FAQ中,扩展和更新问题首先必须判断新输入的问题是否在FAQ中有相同或相似问题,判断依据是计算用户输入的目标问句与候选问题集中每个问句的相似度,设定一个阈值,如果两个问句之间相似度不小于指定的阈值,则认为FAQ中该问句与输入问句在语义上等同,是同一个问题的两种说法,不需要扩展相关问题。如果两个问句相似度小于指定阈值,就表示现有的FAQ库中没有用户所问的问题。对于这类情况,系统首先把该问句记录到问答历史库中,并定期由计算机辅助人工整理,把历史库中的新问题和对应的答案加入FAQ库中并建立增量索引,从而实现FAQ数据的更新。步骤二,领域知识库构建借助本体论的思想对旅游领域资源的概念进行精确描述,以"知网"为基础,采用"知网"的概念描述语言KDML规则,建立了专门的旅游领域本体,形成旅游领域资源本体库领域知网体系,并实现了旅游知识库"领域知网"与常识知识库"知网"的融合。目前共对云南旅游景点介绍、风土民情、宾馆酒店、旅游交通等旅游相关2012个概念进行了定义和描述,如概念"香格里拉"和"丽江古城"的精确描述如下N0.=130001w一c-香格里拉GONE—C=是个美丽的地方W—E=xigelilaG_E=NE—E=~isabeautiftilplaceDEF=placel地方,cityl市,ProperNamel专,(Diqingl迪庆州),(Yunnanl云南省),(Chinal中国)NO.=130002W一CHl江古城G_C=NE—C-很特别W—E=01dTownofLijiangG—E=NE—E=~isveryspecialDEF二placel地方,ProperNamel专,cityl市,pastl昔,(scenel景区),(lijiangl丽江),(Yunnanl云南)步骤三,用户查询在互联网上,实现基于Web方式的问答查询接口,用户可以通过自然语言问题方式进行旅游相关信息查询;步骤四,问题分析问题分析是对用户输入的自然语言问题进行分析,提取表征问题的关键词、扩展词、句法依存对、问题类型等信息,具体是1)问题关键词、扩展词提取问题关键词和扩展词是表征问题的基本要素,也是候选问题集检索和答案提取的基础。因此,对问题进行分词和词性标记,但对于特定领域,由于领域词汇可能在通用词库中未能现过,因此分词系统不能很好的识别领域词汇,导致一个领域词汇可能会被切分成多个通用词汇,为此,通过加载领域知识库,在对问句初切分后再进行一次领域术语切分,从而很好的实现了领域术语切分与词性标注,在进行词语切分后,去除停用词,提取名词、动词、形容词、限定性副词构成问题关键词,并利用"知网",对关键词进行同义扩展,形成关键词扩展词。2)问句句法依存对提取由于一个完整的汉语句子是由句子的主干成分和修饰成分所构成,而人们往往从主干成分就可以了解一个句子的大概意思,由于目前完全句法分析存在很多困难,所以在进行句子相似度计算时,可以通过句子之间有效搭配对的相似度来体现句子之间相似度。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动词、名词以及形容词,它是由分词后的词性标注决定的。全句核心词即为依存树的根结点。例如问题Q1:傣族有哪些特色节日?和问题Q2:云南的少数民族有些什么节日?,其中问句1的有效搭配对为有-节日、有-傣族;问句2的有效搭配对为有-节日、有-少数民族。只要比较这些搭配对之间的相似程度即可,句子依存对采用哈工大的共享语言技术平台LTP接口获取。3)旅游领域问句分类问题类型是定位答案及制定析取答案策略的关键因素,比如问"景点介绍"类型的问题,就不能用"风味特色"问题类型的内容进行回答,问题类型在相似问句检索和答案提取方面有着非常重要的地位,在问句分析时,判断两个问题是否相似,首先得判断两个问题的问题类型是否一致,如果一致,才能进行进一步的相似度计算判断,否则两个问题不可能相似。在特定领域内,由于业务相对固定,因此问句询问内容形式相对受限,因此可以针对问答业务对问题进行分类,以此来提高相似问句检索及答案抽取的准确率,在旅游领域,将常问问题分为景点介绍、景点位置,景点门票价格,风味小吃、特产介绍,风俗节曰等23细类型,并根据这些问题类型的特点提取各种点问题类型的特征规则,比如景点位置类型,其相关问题形式为****景点在哪里?,****景点位于什么地方?,***景点地处何处等,其类型构成规则为***(景点)+地处/位于/在+疑问词(哪里)。提取构建了各种问题类型的构成规则,并通过这些特征识别问题类型。步骤五,答案提取答案提取方法主要包括以下几个步骤1)候选问题集的选择与问句索引建立候选问题集的目的是縮小査找范围,使后续的相似度计算等较为复杂的过程都在候选问题集这个相对较小的范围内进行,从而提高系统的检索效率。由于候选问题集的作用是从大规模问句集中快速取出一个模糊相关、但相对较小的子集合,因此,可以选择成熟稳定的检索系统来实现候选问题检索,Lucene作为一个功能强大、跨平台的检索系统,已经得到了广泛应用,如Sogou新闻部分的检索,JiveWEB论坛、Cocoon、Eclipse的帮助部分等。选择开源Lucene用于候选问题集检索,该模块检索的效率和准确率能得到有效保证。Lucene在为文件建立索引时,首先需要将其转换为能够识别的文档(Document)对象,每个文档则由一个或者多个的字段(Field)对象组成,字段又包含有一个名称和对应的值,如同散列表中的一个项目。在实际应用中,字段一般都对应于与査询或者检索结果相关的一段信息,例如,网页标题需要出现在搜索结果里,所以可以把它作为一个字段添加到文档对象中。字段既可以被索引,也可以不被索引而直接保存到文档中,如对于唯一的ID,就无需索引,只要保存即可。由于汉语与英文不同,词语之间缺少分割标记,以词为处理单位的Lucene无法解析中文文本,因此,增加了以下3个关键处理过程,用于实现对中文文本的索引:首先,对输入句子进行分词处理,从而获取问句中的每一个词语。其次过滤问句中的无用信息,主要指停用词的过滤,如过滤句子中的"的"、"儿"、"啊"等、标点符号等。最后根据获得的词建立索引。在构建索引时,首先创建一个索引构建模块,其中索引文件的存储位置和索引内容的分析器在其构造函数中指定,然后顺序读取FAQ库中问句表的每一条记录,并以问句为索引内容,问句ID、问句对应的答案ID为索引关键字建立一个Lucene文档对象,并把生成的文档对象加入到索构建模块中,如此循环直到把所有问句都加入到索引文档。对通过检索获得的问题,再根据目标问题问题类型进行过滤,从检索召回的问题集合中去除与目标问题问题类型不相符的问题形成答案提取的候选问题集。2)旅游领域问句相似度计算问句相似度计算是FAQ中相似问句査找的基础,同时也是答案提取的关键,其直接影响答案提取的准确程度,当前已有多种中文句子相似度计算方法,通常分为三个等级语法相似度、语义相似度和语用相似度。语用相似度具有相当的难度,目前效果不理想。而在一般的应用中,计算句子的语义相似度就基本能够满足需求。目前对句子语义相似度计算的研究方法主要有基于相同词汇的方法、基于语义词典的方法、基于依存树的方法,以及基于编辑距离的方法等。其中,基于相同词汇的方法有很明显的局限性,对于同义词之间的替换则无能为力。而使用语义词典的方法,可以很好的解决这一问题,但是单纯的使用语义词典的方法,并没有考虑到句子内部的结构和词语之间的相互作用关系,准确率不高。基于依存树的方法利用句子之间句法依存关系进行相似度计算,考虑了句子的句法结构关系,但面临完全句法分析的精度问题,且没有考虑句法结构中词汇的同义近义替换。编辑距离方法通常被用于句子的快速模糊匹配领域,但是其规定的编辑操作不够灵活,也没有考虑词语的同义替换。在分析句子相似度计算存在问题基础上,结合旅游领域问句特点,综合考虑词的语义距离、句法依存关系及领域概念语义关系因素,提出了一种问句相似度计算方法,该方法首先利用领域问题特点,根据问题类别进行相似问题过滤,然后以"知网"及"领域知网"知识库为基础,采用句法分析提取问句有效依存对,并利用依存对和概念语义关系,实现旅游领域问句之间相似度计算。计算关键步骤如下A.词的语义相似度计算词是组成句子的基础,句子相似度必须通过句子包含词之间的相似度来表现,在实际应用中,往往会出现两个问句意思完全一样,但其表达形式却不一样,比如,问题Q3:香格里拉有啥景点?与问题Q4:中甸有那些好玩的地方?,其主要原因是由于词的同义和相关关系导致的,在一个问句中出现的词存在一定的同义词和相关词,因此,在计算词语相似度时必须考虑词的同义和相关关系,而不能只根据词本身表层特征进行判断,利用"知网"及在领域内扩展的"领域知网"进行问句的词语级的相似度的计算,通过对问句进行知网消歧,并利用问句中出现的概念计算问句之间的相似度,概念之间的语义距离定义为两个概念对应的义原在义原树中的最短距离,计算方法参照刘群基于"知网"的词语语义相似度计算方法,计算过程如下5V/n(C"CJ=2AllS(C',C2)(1)其中,S^,(C"C2)为概念的第一个独立义原相似度、^V"2(C"C2)为其他独立义原的相似度、S^3(e',q)为关系义原相似度、和^^G,C》为符号义原相似度,Pi(l《i《4)为可调节的参数,且A+A+A+A=l,A^A2A^A,A》0.5。B.问句句法依存对相似度计算根据问题句法分析可提取问句的句法依存对,在提取获得了两个问句的有效搭配对后,必须比较两个问句有效搭配对之间的相似度,为了计算问句间有效搭配对相似度,首先必须计算两个有效搭配对之间对应词之间的相似关系,根据知网消歧标注结果,采用基于"知网"词语相似度计算方法(A步骤),分别计算依存对上两个对应词语的相似度,比如依存对"有-傣族"与"有-少数民族"的相似度分别计算动词"有"与"有"的相似度,"傣族"与"少数民族"之间的相似度,然后取两个相似平均值得到两个有效依存对的相似度。然后根据依存对的相似度计算问句之间相似度,对于任意两个问句A和B,A包含的问句句子依存对为AuA2,...,Am,8包含的问句句子依存对为81,82,...,811,首先以问句A中的依存对为基准,计算依存对Ai(l^^n)和Bj(l^^n)之间的相似度S(Ai,Bj),根据式(2)依次挑选S(Ai,Bj)最大的依存对,直到A句子中的依存对为空,挑选出一个句子有效依存对集合{"'},同样以B有效句子依存对为基准,计算句子依存对Bj(l5j^n)与Ai(lSi5m)之间的相似度表示为S(Bj,Ai),根据式(3)依次挑选S(Bj,Ai)最大的依存对,直到B句子中的依存对为空,挑选出一个句子有效依存对集合{~}。a,=max),s(4,52),A,S04,,5"))("~=maX(S(57,4),S(A,4),A,,乂,4J)(3)C.旅游领域问句相似度计算在进行问句类型判断和问句依存对提取后,就可以根据依存对相似度计算获得的两个依存对集合{^},{~}进行问句相似度计算,计算公式如下(艺",)/斜(狄)/".'=1户l,/2(4)采用有效句法依存对进行问句相似度计算,大大降低算法的复杂度,准确率会得到一定程度的提高。这种方法从浅层句法进行考虑,考虑到了词与词之间的依存关系,对句子的理解更加充分,从而能够更准确的得到句子相似度的值。但是,现有的句法分析技术还不够成熟,还无法将所有的句法信息特征全部考虑进来,因此计算会产生了一定的误差。3)相似问题的检索与答案提取确定候选问题集后,进一步就是从候选集中挑选出与目标问句最为相似的问句。相似问句检索的思想是计算候选问题集中每个问句与目标问句之间的相似度,取相似度大于系统指定阈值A的问句作为相似问句,并根据该问句对应的答案编号(Answerfd),从数据库中自动抽取出有关答案作为输出结果返回给用户。根据旅游领域问句特点,结合词语义信息、问句句法依存关系及领域概念关系进行相似度计算,具体方法见前述旅游领域问句相似度计算方法内容,最终实现中文问句的相似度计算。考虑到相似度的计算误差,系统在给出最优答案的同时,还可以给出了前4条次优记录,供用户选择,如果最优答案并不真正相关,用户还可以进一步从这些候选答案中查找。从用户的角度来说,通过把相关问题快速确定到一个较小的集合之中,系统的实用价值就体现出来了。云南旅游FAQ问答系统实验针对云南旅游领域,构建了旅游领域知识库,通过"知网"扩展了2012个领域概念得到"领域知网",釆用检索方式与人工和自动抽取方式收集和组织了23335个问答对,提取了188个不同问句类型特征规则,采用Web方式实现了云南旅游FAQ问答系统。目前,对该系统进行了两个方面的测试一方面是面向问句语料库的问答测试,其中问句语料库中共收集了关于云南旅游的23335个问答对,在FAQ中存储,从问句语料库中任意选取600个问句进行测试;另一方面是面向实际用户现场测试,组织了10位游客随机询问问题。实验结果如表l所示。表1:云南旅游FAQ问答原型系统测试结果<table>tableseeoriginaldocumentpage15</column></row><table>从实际实验结果看,通过这种从实际实验结果看,通过这种方法设计的云南旅游FAQ问答系统是可实用的。权利要求1.一种旅游领域FAQ中文问答系统实现方法,其特征在于包括(1)FAQ收集与组织结合人工或半自动方式从互联网上提取旅游问答对,并整理进入旅游问答库,形成旅游FAQ库;(2)旅游领域知识库构建构建并维护旅游领域知识结构及关系,形成旅游领域知识库;(3)用户查询在互联网上,用户通过自然语言问题进行旅游信息查询;(4)问题分析对用户输入的问题进行分析,提取表征问题的关键词、扩展词、句法依存对、问题类型等信息;(5)答案提取根据问题分析结果,从常问问题库FAQ中提检索侯选问题,采用领域问题相似度计算方法,计算用户问题与侯选问题相似度,提取相似度最大的问题答案作为侯选答案,并提供给用户,返回最终用户查询答案。2.根据权利要求1所述的旅游领域FAQ中文问答系统实现方法,其特征在于,用户可以提供面向文本的自然语言问题,系统直接返回答案,而不是和问题相关的大量网页。3.根据权利要求1所述的旅游领域FAQ中文问答系统实现方法,其特征在于,所述步骤(1)FAQ收集与组织方法具体为第一种通过网络爬虫从互联网上自动爬取,并通过人工筛选进入FAQ库;第二种是通过人工收集与整理获得,针对旅游领域,专门收集地方、景点、风土人情、酒店等相关介绍、门票、交通等相关问题,分类整理和组织FAQ问答对并进入FAQ库;第三种则是由系统自动记录用户输入但在问句库中不存在的新问句,并把这类问句统一保存到问答历史库中,定期由人工审核整理,把对应的答案和问句一起入FAQ库。4.根据权利要求3所述的旅游领域FAQ中文问答系统实现方法,其特征在于,FAQ的问答对的存储通过建立问题question和答案answer两个关系表,分别通过主键Questionid,Answerid进行答案索引;问题表的存储,为了便于快速检索,采用倒排索引方式进行存储,建立词与问句之间的倒排索引文档,候选问题集的选择从索引文档中提取,而最终答案则根据问题表中存放的答案answerid从数据库中直接输出。5.根据权利要求1所述的旅游领域FAQ中文问答系统实现方法,其特征在于,所述步骤(2)主要利用了本体论的思想,借助现有的中科院院语言信息中心董振东先生的"知网"进行领域术语的扩展。6.根据权利要求1所述的旅游领域FAQ中文问答系统实现方法,其特征在于,所述步骤(2)具体为借助本体论的思想对云南旅游领域资源的概念进行精确描述,以"知网"为基础,采用"知网"的概念描述语言KDML规则,建立了专门的云南旅游领域本体,形成云南旅游领域资源本体库领域知网体系,并实现了云南旅游知识库"领域知网"与常识知识库"知网"的融合。目前共对云南旅游景点介绍、风土民情、旅游交通等旅游相关2012个概念进行了定义和描述,形成了云南旅游领域"知网"。7.根据权利要求1所述的旅游领域FAQ中文问答系统实现方法,其特征在于,所述步骤(3)具体为用户查询提供用户与自然语言方式进行提问,用户可以通过互联网进行相关旅游领域问题査询。8.根据权利要求1所述的旅游领域FAQ中文问答系统实现方法,其特征在于,所述步骤(4)具体为通过问句分析模块对用户输入的问题进行分析,主要包括词法分析、句法分析及语义分析,词法分析主要对问题进行分词,过滤停用词,提取查询核心词及借助"知网"进行关键词扩展;句法分析主要对提取问句的核心词干,借助哈工大句法分析器,提取问句句法依存对;语义分析主要分析问句语义信息,根据旅游领域特点,定义并提取旅游领域问题类型特征句模规则,并通过规则匹配方式实现问句类型的识别。9.根据权利要求1所述的旅游领域FAQ中文问答系统实现方法,其特征在于,所述步骤(5)答案提取方法具体为根据问题分获取的问题类型、问题关键词、问题扩展词等问句关系信息,采用lucene从常问问题库FAQ中检索侯选问题集,借助领域问题相似度计算方法,提取相似度最大的侯选问题答案作为答案,并返回给用户。10.根据权利要求9所述的旅游领域FAQ中文问答系统实现方法,其特征在于答案提取方法依据领域问句相似度计算方法提取用户最相关问题,领域问句相似度计算方法融合了领域知识概念及关系即旅游领域术语及关系、句法结构即句法依存对及关系及语义即问题类型等多特征进行句子相似度计算。全文摘要本发明提供一种旅游领域FAQ中文问答系统实现方法,包括FAQ收集与组织、旅游领域知识库构建、用户查询、问题分析、答案提取等步骤,使旅游领域常问问题FAQ中文问答系统能够实现。本发明借助于本体论的思想,构建了旅游领域知识库-领域知网,利用KDML语言定义和描述了旅游领域术语与关系,并实现了“旅游领域知网”与常识库“知网”的融合。在此基础上,提出了一种旅游问句相似度的计算方法,该方法借助旅游领域问句所具有的特点,结合问句中的词法关系、句法依存关系及领域概念语义关系,实现问句相似度计算,并以相似度计算为基础,从候选问题集中检索相关问句,提取问题答案。云南旅游FAQ问答系统测试结果表明该方法可行,有较好的效果。文档编号G06F17/30GK101373532SQ200810058660公开日2009年2月25日申请日期2008年7月10日优先权日2008年7月10日发明者余正涛,孟祥燕,张志坤,毛存礼,车文刚,郭剑毅,露韩申请人:昆明理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1