一种基于结构化文本知识提取的问答系统构建方法

文档序号:9766035阅读:702来源:国知局
一种基于结构化文本知识提取的问答系统构建方法
【技术领域】
[0001] 本发明属于计算机自然语言处理技术领域,具体设及一种基于结构化文本知识提 取的问答系统构建方法。
【背景技术】
[0002] 随着计算机技术的快速发展,基于自然语言处理的问答系统领域也得到了长足的 发展。目前,问答系统领域主要涵盖了医疗、教育、旅游等方面,并在各个方面都有不错的表 现。但现今的问答系统主要还是针对于某个方面而存在例如医疗,或者是基于资源描述框 架而现实,但工程繁琐。
[0003] 问答系统是信息检索系统的一种高级形式,它被用于准确地回答用户用自然语言 提出的问题。随着人们对快速、准确地获取信息的需求日益升溫,基于捜索引擎的百度、谷 歌等捜索应用已经无法完全满足人们的运种需求,运些应用只能给出一些涵盖关键词的信 息,并且量很多,而运些并不是人们屯、中所期望的答案。为了满足快速、准确地获取信息的 需求,伴随人工智能和自然语言处理领域快速地发展,问答系统成为了其中一个备受关注 的研究方向。
[0004] 目前,最为著名的问答系统要属IBM的Watson,其采用DeepQA技术读取百万页文本 数据,利用深度自然语言处理技术产生候选答案,其中还设及了 "嵌套分解"等诸多算法,相 当的复杂;同时,与Watson所采用的技术相对应的硬件也是极其昂贵和高端,其主要由90台 IBM服务器、360个计算机忍片驱动组成,拥有15TB内存W及2880个处理器。总体来说,难W 让人快速并简单地构建运样一个问答系统。除了Watson,目前相当多的问答系统都只是专 业领域问答系统,只提供该领域范围内的知识问答,例如公开号为CN 101436206A的中国专 利公开了一种基于本体推理的旅游问答系统答案抽取方法,其首先定义领域中的语义规 贝1J,进行人工本体知识库的构建,并对用户问句进行分析;然后将基于语义规则推理与信息 检索相结合进行答案抽取,而不是简单地进行匹配;最后再根据不同的问句类型设计相应 的答案抽取算法。该方法将本体的思想引入问答系统知识库的构建,把旅游领域的概念、属 性和关系用OWL本体描述语言清晰明确地表示出来,更加有效地组织知识;但是该方法只提 供了旅游本体知识库,只能够回答旅游范围内的知识问答,同时本体知识库构建过程较为 复杂。可W说,至今还未出现一个通用并简便的问答系统构建方法。

【发明内容】

[0005] 针对现有技术所存在的上述技术问题,本发明提供了一种基于结构化文本知识提 取的问答系统构建方法,可适用于多种不同领域,针对各个领域的问题进行解答,且系统构 建方法比较简便易于实现。
[0006] -种基于结构化文本知识提取的问答系统构建方法,包括如下步骤:
[0007] (1)对于任一领域,收集关于该领域的所有名词组成词库,同时收集该领域范围内 的所有文本主题及其对应的结构化文本;
[0008] (2)将词库里的所有名词进行同义词归类,将所有具有相同含义的名词映射为一 个本体;
[0009] (3)对文本主题的结构化文本进行分词,每个文本主题的结构化文本通过分词均 对应得到若干个关键词,进而确定每个关键词和每个文本主题各自对应的本体;
[0010] (4)基于结构化文本关键词与文本主题的关联性,建立一个涵盖所有结构化文本 关键词本体与文本主题本体关联的网状知识模型;
[0011] (5)基于上述网状知识模型,W关键词本体为特征,W文本主题本体为结果,根据 所有结构化文本的关键词本体和文本主题本体构建该领域的决策树模型;
[0012] (6)对用户关于该领域所输入的问句进行分词,得到若干个关键词;将该问句各关 键词所对应的本体输入至该领域的决策树模型中,得到相关的文本主题本体及其结构化文 本作为输出呈现给用户。
[0013] 所述的步骤(1)中通过互联网收集关于该领域的所有名词组成词库,同时收集该 领域范围内的所有文本主题及其对应的结构化文本。
[0014] 每个文本主题均对应一组结构化文本。
[0015] 所述的词库、所有文本主题及其对应的结构化文本、网状知识模型W及决策树模 型均存储于知识库中。
[0016] 所述的步骤(2)中通过人工将词库里的所有名词进行同义词归类整合。
[0017] 所述的步骤(3)中基于词库采用正向减字最大匹配法结合逆向减字最大匹配法对 文本主题的结构化文本进行分词。
[001引所述的网状知识模型W表格形式存储,表格W各文本主题本体对应每行,各关键 词本体对应每列,第i行第j列的数值为0或1,0表示第i行所对应的文本主题本体与第j列所 对应的关键词本体无关,1表示第i行所对应的文本主题本体与第j列所对应的关键词本体 相关,i为行序号,j为列序号。
[0019] 所述的步骤(5)中基于网状知识模型,将所有结构化文本的关键词本体和文本主 题本体作为数据集通过决策树算法进行训练,得到一个W关键词本体为分支,文本主题本 体为叶节点的树形模型即决策树模型。
[0020] 对于新增的文本主题及其结构化文本,通过步骤(3)进行分词,将新增结构化文本 的关键词本体W及文本主题本体纳入网状知识模型中,进而丰富决策树模型的知识内容。
[0021] 所述的步骤(6)中基于词库采用正向减字最大匹配法结合逆向减字最大匹配法对 用户关于该领域所输入的问句进行分词。
[0022] 所述的步骤(6)中将问句各关键词所对应的本体输入至该领域的决策树模型中, 通过关键词本体进行分支捜索,直到获取相关的文本主题本体,最后基于知识库获取对应 的结构化文本呈现给用户。
[0023] 本发明提供了一种通用并简便的问答系统构建方法,可适用于多种不同领域,针 对各个领域的问题进行解答;本发明中提及的结构化文本W及词库易于收集;本发明虽然 需要人工将同义词映射为本体,但能够自动化构建网状知识模型W建立文本主题本体和关 键词本体之间的关联,同时该模型基于新增的结构化文本能够自动化地丰富知识内容,相 对于人工构建本体知识库或人工整理语义网数据而言,构建更为简便,本体之间的关联更 为直接;本发明所使用的决策树方法相对于语义网或本体知识库,在检索上更为直观,容易 理解,有益于使用。
【附图说明】
[0024] 图1为本发明问答系统的框架示意图。
[0025] 图2为本发明问答系统构建方法的步骤流程示意图。
[0026] 图3为本发明基于旅游案例的网状知识模型示意图。
[0027] 图4为本发明基于旅游案例的决策树模型示意图。
【具体实施方式】
[0028] 为了更为具体地描述本发明,下面结合附图及【具体实施方式】对本发明的技术方案 进行详细说明。
[0029] 图1为本发明基于问答系统构建流程所对应的问答系统框架图。图中主要包含了 知识库模块、分词模块、决策树模块W及一些相关的交互。知识库模块对应于知识库,和分 词模块相关联,为分词模块的分词提供词库,并与决策树模块相关,提供决策树构建所需的 网状知识模型,存储决策树W及提供文本内容;分词模块对应于分词方法,与知识库模块相 关联,基于知识库模块中的词库进行分词操作,并为丰富知识库中的网状知识模型提供本 体数据,与决策树模块相关,为决策树捜索提供关键词本体;决策树模块对应于决策树方 法,与分词模块相关联,基于分词模块提供的本体数据进行决策树捜索,并与知识库相关 联,基于网状知识模型构建决策树,基于存储在知识库中的决策树模型,通过关键词本体数 据进行分支捜索,直到获取相关文本主题本体,最后基于知识库获取对应文本内容。
[0030] 图2为本发明问答系统构建方法的流程图,该方法首先针对某一领域的结构化文 本数据,采用分词方法提取与文本主题相关的关键词,然后,基于知识库中的词库与本体的 映射关系,根据上述关键字W及文本主题,获取关键词本体数据和文本主题本体,并将其添 加至文本主题本体和关键词本体关联的网状知识模型中,同时将结构化文本数据W文本主 题本体为索引存入知识库中;之后,基于网状知识模型,W模型中的关键词本体数据为特 征,W模型中的文本主题本体为结果,采用决策树算法,构建在问答系统中用于决策支持的 决策树,并将其存入知识库中。当用户进行查询时,首先将用户输入语句进行分词,提取查 询关键词;然后,基于知识库中的词库,将查询关键词与相应本体进行关联,从而获取查询 关键词本体;最后,基于运些关键词本体,通过上述构建的决策树,可捜索至相关文本主题 本体,同时可基于文本主题本体和知识库获取对应结构化文本数据。
[0031] 接下来,本实施方式将W在旅游领域的应用为案例对本发明问答系统构建方法的 流程进行详细说明,具体步骤包括:
[0032] (1)结构化文本的构建。基于旅游领域,此处W西湖为一文本案例,将文本命名为 西湖,即西湖就为该文本的主题,同时在文本中填充有关于西湖描述的内容,包含地域,最 佳旅游时节等信息。
[0033] (2)知识库中的词库与相应本体的构建。基于旅游领域,此处词库主要W旅游领域 的名词为主,例如,临安、武林、杭州、杭州市、苏州、北京等地域名,春季、夏季、秋季等季节 名。对于本体构建而言,实
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1