知识库的构建方法及其装置、电子设备、计算机可读介质与流程

文档序号:17091750发布日期:2019-03-13 23:33阅读:147来源:国知局
知识库的构建方法及其装置、电子设备、计算机可读介质与流程

本申请涉及互联网领域,尤其涉及一种知识库的构建方法及其装置、电子设备、计算机可读介质。



背景技术:

通过问题和对该问题的回答是人们获取现实世界信息的一种有效方式。与此同时,随着互联网技术的发展及互联网应用的快速发展,人们越来越多地依赖于互联网网络获取信息。目前通过搜索平台搜索相关的信息来实现该通过问答方式获取信息,尤其在问答社区内搜索问题、提出问题、回答问题、浏览问题或追加问题等,这已成为用户间进行互动信息交流的重要方式。其中,常见的智能问答社区有百度知道、搜搜问问、新浪爱问等。

如何满足用户需求并展现给用户,是智能问答社区的核心问题之一。

通常,智能问答社区内各问题下回答内容的展示顺序主要基于某一个评价维度,比如常见的有如下两种方式:

1)仅按照回答问题的时间进行排序,即排名靠前展示的回答在时间上更靠近当前搜索的时间;

2)按照回答获得的好评数进行排序,即同一问题下的回答获得用户的赞同数越多,其越靠前展示在问答社区。

但是,这两种方式各有其不足,对于第一种方式而言,由于靠前展示的回答不一定是最匹配该问题的回答,因此,用户通常需要花费较长时间寻找所需要的回答,并且,这种方式随着回答个数的递增,其不足越明显;对于第二种方式而言,基于赞同数对回答进行排序,这很容易遭到spam(电子垃圾)用户的攻击,使得那些对spam用户直接有益的广告内广告内容顶到靠前的展示位置,从而造成对浏览该回答的用户的误导。

综上,现有技术的解决方案并未将真正优质的答案展现给用户。



技术实现要素:

本申请的目的在于提出一种知识库的构建方法及其装置、电子设备、计算机可读介质,用于解决现有技术中上述技术问题。

第一方面,本申请实施例提供一种知识库的构建方法,其包括:

确定样本问题及其对应的基础答案;

根据设定的答案扩展规则,对所述基础答案进行扩展确定多个延展答案;

根据所述样本问题、所述基础答案以及所述延展答案的对应关系,构建知识库。

第二方面,本申请实施例提供一种答案的确定方法,其包括:

获取当前在线提出的实时问题;

从离线建立的知识库中确定与所述实时问题匹配的样本问题;

根据所述样本问题、所述基础答案以及所述延展答案的对应关系,获取与所述样本问题对应基础答案以及所述延展答案;

从基础答案以及所述延展答案中筛选出针对所述实时问题的答案。

第三方面,本申请实施例提供一种知识库的构建装置,其包括:

答案确定单元,用于确定问题及其对应的基础答案;

答案扩展单元,用于根据设定的答案扩展规则,对所述基础答案进行扩展确定多个延展答案;

构建单元,用于根据所述问题、所述基础答案以及所述延展答案的对应关系,构建知识库。

第四方面,本申请实施例提供一种答案的确定装置,其特征在于,包括:

实时问题获取单元,用于获取当前在线提出的实时问题;

样本问题匹配单元,用于从离线建立的知识库中确定与所述实时问题匹配的样本问题;

答案获取单元,用于根据所述样本问题、所述基础答案以及所述延展答案的对应关系,获取与所述样本问题对应基础答案以及所述延展答案;

答案筛选单元,从基础答案以及所述延展答案中筛选出针对所述实时问题的答案。

第五方面,本申请实施例提供一种电子设备,包括:

一个或多个处理器;

计算机可读介质,配置为存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如任一实施例中所述的方法。

第六方面,本申请实施例提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如任一实施例中所述的方法。

本申请提供的知识库的构建方法及其装置、电子设备、计算机可读介质中,通过确定样本问题及其对应的基础答案;根据设定的答案扩展规则,对所述基础答案进行扩展确定多个延展答案;根据所述样本问题、所述基础答案以及所述延展答案的对应关系,构建知识库,实现了在线向用户提供答案时,可以提供多维度的答案以进行优质展示。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1本申请实施例一知识库的构建方法结构示意图;

图2本申请实施例二知识库的构建方法结构示意图;

图3为本申请实施例三中答案的确定方法流程示意图;

图4为本申请实施例四中知识库的构建装置结构示意图;

图5为本申请实施例五中知识库的构建装置结构示意图;

图6为本申请实施例六中知识库的构建装置结构示意图;

图7为本申请实施例七中知识库的构建装置结构示意图;

图8为本申请实施例八中答案的确定装置结构示意图;

图9为本申请实施例九中电子设备的结构示意图;

图10为本申请实施例十中电子设备的硬件结构。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1本申请实施例一知识库的构建方法结构示意图;如图1所示,其包括:

s101、确定样本问题及其对应的基础答案;

本实施例中,知识库的构架可以离线完成。在离线构建时,由于构建的知识库的数据既包括样本问题及样本问题的答案两个实体,与此同时,为了在线使用时,给用户提供满足要求的答复,还需要包括样本问题与答案的关联关系。进一步地,在具体应用场景中,知识库中包括问答数据对,一个问答数据对包括一个问题与其对应的一个或者多个答案,且包括该问题与这些答案的索引关系。

本实施例中,样本问题和基础答案可以通过智能问答社区的后台服务器实时收集,并存储在后台服务器上,或者其他数据服务器上。进一步地,还可以基于知识库中已有的样本问题和基础答案生成样本问题和基础答案,或者又称为通过知识库的推理得到推理样本问题以及推理基础答案。具体地,可以通过rdfs和owl规则集的推理引擎进行上述推理。换言之,样本问题包括收集的样本问题,又包括基于收集的样本问题进行推理得到的推理样本问题,对应地,基础答案包括收集的基础答案,又包括基于收集的基础答案推理得到的推理基础答案。

本实施例中,基础答案是可以满足绝大部分用户的问答需求的全面性的、概括性的回答。

s102、根据设定的答案扩展规则,对所述基础答案进行扩展确定多个延展答案;

本实施例中,答案的扩展规则定义了基础答案的扩展角度,即从不同的角度对基础答案进行扩展。

进一步地,在本实施例中,步骤s102中具体可以包括根据设定的答案扩展规则,从多个不同的扩展角度对所述基础答案进行扩展生成多个延展答案。每个延展答案包括基础延展答案以及对应于所述基础延展答案的多个相似延展答案。

在具体实施时,步骤s102中或者步骤s102之后,建立基础延展答案层以及相似延展答案层,所述基础延展答案组成所述基础延展答案层,所述基础延展答案对应的多个相似延展答案组成所述相似延展答案层。

比如有关“刘翔”的样本问题:刘翔是谁,或者谁是刘翔。其基础答案“刘翔是跨栏运动员”,如果从“刘翔”所指代的用户属性角度去扩展,可以得到延展答案“刘翔是一个男跨栏运动员”,“刘翔是中国的跨栏运动员”,“刘翔是中国上海的男跨栏运动员”,“刘翔,号称亚洲飞人”等等基础延展答案,在每个基础延展答案之下,又有多个相似延展答案,比如对于“刘翔是一个男跨栏运动员”这一延展答案,存在多个近似延展答案:“刘翔出生地在上海,是一个男跨栏运动员”,“刘翔1983年出生在上海,是一个男跨栏运动员”,“刘翔1983年出生在上海,是一个男跨栏运动员,属于田径项目”等等。

s103、根据所述样本问题、所述基础答案以及所述延展答案的对应关系,构建知识库。

本实施例中,如前所述,由于知识库的作用是为了在线使用时,可以提供满足用户提问的答案,除了要建立所述样本问题与所述基础答案的对应关系即关联关系,还要建立所述样本问题与所述延展答案的对应关系。而本实施例中,由于延展答案是通过对基础答案进行扩展处理得到的,因此,通过直接建立基础答案与延展答案的对应关系,即间接建立了样本问题与延展答案的对应关系即关联关系。

本实施例中,基础答案-基础延展答案-显示延展答案,实质上构成了递进的上下位的关联关系。

当然,需要说明的是,本实施例中,基础答案、延展答案不绝对限定答案的正确性。

图2本申请实施例二知识库的构建方法结构示意图;如图2所示,其包括:

s201、确定样本问题及其对应的基础答案;

s202、根据设定的答案扩展规则,对所述基础答案进行扩展确定多个延展答案;

本实施例中,步骤s201、步骤202类似上述图1中的步骤s101、s102,详细不再赘述。

s203、根据设定的质量评价规则,计算多个基础答案和/或延展答案的质量指数。

但是,基础答案和延展答案的区别并非绝对,在某些应用场景下,部分延展答案也可以转换为基础答案,从而形成多个基础答案;或者,在步骤s201中确定基础答案时,把从多个角度对同一问题进行答复且可满足绝大数使用提问需求的多个答案作为多个基础答案。

如前所述,知识库的构建,主要用于从中匹配答案对用户的在线提问进行答复,由于知识库中可选择的答案数量级较高,且不同的答案千差万别,因此,通过给每个基础答案、延展答案(包括基础延展答案和相似延展答案)配置一个质量指数,用于精确的匹配用户的在线问题。或者,又称之为从数据库中选择一个最优的答案作为在线问题的答复。

比如,质量指数具体比如与用户权威等级(用户认证体系的相关评分),用户社区行为等级(社区内回答率,贡献率)等成正比关系。当然,在具体实施时,可以同时考虑用户权威等级,用户社区行为等级,并给用户权威等级和用户社区行为等级赋予不同的计算权重,从而计算基础答案、延展答案的质量指数。

s204、按照质量指数的大小,对每个样本问题对应的多个基础答案、延展答案进行排序分别生成基础答案队列、延展答案队列。

s205、根据所述样本问题、所述基础答案以及所述延展答案的对应关系,构建知识库。

本实施例中,在步骤s204中所述样本问题、所述基础答案以及所述延展答案的对应关系具体参照基础答案队列、延展答案队列进行设置,对于基础答案来说,质量指数越高,在基础答案队列的位置越靠前,在线向用户推荐时优先推荐。类似地,对于延展答案(基础延展答案、相似延展答案)来说,质量指数越高,在延展答案队列的位置越靠前,在线向用户推荐时优先推荐。

本实施例中,质量指数直接关联与推荐的优先级,其也可以称之为推荐指数。

由于在线使用,将答案(基础答案或者延展答案)推荐给用户,由此可产生后续的用户行为,因此,进一步地,可以根据后续的用户行为,更新所述延展答案的质量指数。比如,该答案获得大量用户的点赞行为,则对应地提高其质量指数,并调整其答案队列中的位置更靠前。相反,如果获得大量用户的点踩行为,则对应地降低其质量指数,并调整其答案队列中的位置更靠后。

图3为本申请实施例三中答案的确定方法流程示意图;如图3所示,其包括:

s301、获取当前在线提出的实时问题;

本实施例中,实时问题通过只能问答社区提供的用户输入接口进行捕获,比如输入框等。

s302、从离线建立的知识库中确定与所述实时问题匹配的样本问题;

本实施例中,可以首选对实时问题进行解析,获取其关键词,再与知识库中样本问题的关键词进行比对,以完成实时问题与样本问题的匹配。

s303、根据所述样本问题、所述基础答案以及所述延展答案的对应关系,获取与所述样本问题对应基础答案以及所述延展答案;

s304、从基础答案以及所述延展答案中筛选出针对所述实时问题的答案。

可选地,在本申请的一实施例中,从基础答案以及所述延展答案中筛选出针对所述实时问题的答案,包括:从基础答案以及所述延展答案中筛选出具有最高质量指数的所述基础答案和/或延展答案并将其作为针对所述实时问题的答案。

图4为本申请实施例四中知识库的构建装置结构示意图;如图4所示,其包括:

答案确定单元401,用于确定问题及其对应的基础答案;

答案扩展单元402,用于根据设定的答案扩展规则,对所述基础答案进行扩展确定多个延展答案;

构建单元403,用于根据所述问题、所述基础答案以及所述延展答案的对应关系,构建知识库。

图5为本申请实施例五中知识库的构建装置结构示意图;如图5所示,其包括上述图4实施例中的答案确定单元401、答案扩展单元402、构建单元403,还包括:质量评价单元404,用于根据设定的质量评价规则,计算多个基础答案、延展答案的质量指数。

可选地,在本申请的一实施例中,所述答案扩展单元402进一步用于按照质量指数的大小,对每个问题对应的多个延展答案进行排序生成延展答案队列。

图6为本申请实施例六中知识库的构建装置结构示意图;如图6所示,其包括上述图4实施例中的答案确定单元401、答案扩展单元402、构建单元403,还包括:更新单元405,用于根据针对所述基础答案、延展答案的用户行为,更新所述基础答案和延展答案的质量指数。

可选地,在本申请的一实施例中,所述答案扩展单元402进一步用于根据设定的答案扩展规则,从多个不同的扩展角度对所述基础答案进行扩展生成多个延展答案。

可选地,在本申请的一实施例中,每个延展答案包括基础延展答案以及对应于所述基础延展答案的多个相似延展答案。

图7为本申请实施例七中知识库的构建装置结构示意图;如图7所示,其包括上述图4实施例中的答案确定单元401、答案扩展单元402、构建单元403,还包括:答案层建立单元406,用于建立基础延展答案层以及相似延展答案层,所述基础延展答案组成所述基础延展答案层,所述基础延展答案对应的多个相似延展答案组成所述相似延展答案层。

图8为本申请实施例八中答案的确定装置结构示意图;如图8所示,其包括:

实时问题获取单元801,用于获取当前在线提出的实时问题;

样本问题匹配单元802,用于从离线建立的知识库中确定与所述实时问题匹配的样本问题;

答案获取单元803,用于根据所述样本问题、所述基础答案以及所述延展答案的对应关系,获取与所述样本问题对应基础答案以及所述延展答案;

答案筛选单元804,从基础答案以及所述延展答案中筛选出针对所述实时问题的答案。

可选地,在本申请的一实施例中,所述答案筛选单元804进一步用于从基础答案以及所述延展答案中筛选出具有最高质量指数的所述基础答案和/或延展答案并将其作为针对所述实时问题的答案。

图9为本申请实施例九中电子设备的结构示意图;该电子设备可以包括:

一个或多个处理器901;

计算机可读介质902,可以配置为存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例中所述的方法。

图10为本申请实施例十中电子设备的硬件结构;如图10所示,该电子设备的硬件结构可以包括:处理器1001,通信接口1002,计算机可读介质1003和通信总线1004;

其中处理器1001、通信接口1002、计算机可读介质1003通过通信总线1004完成相互间的通信;

可选的,通信接口1002可以为通信模块的接口,如gsm模块的接口;

其中,处理器1001具体可以配置为:确定样本问题及其对应的基础答案;根据设定的答案扩展规则,对所述基础答案进行扩展确定多个延展答案;根据所述样本问题、所述基础答案以及所述延展答案的对应关系,构建知识库。或者,

处理器1001具体可以配置为:获取当前在线提出的实时问题;从离线建立的知识库中确定与所述实时问题匹配的样本问题;根据所述样本问题、所述基础答案以及所述延展答案的对应关系,获取与所述样本问题对应基础答案以及所述延展答案;从基础答案以及所述延展答案中筛选出针对所述实时问题的答案。

处理器1001可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(ram)、只读存储介质(rom)、可擦式可编程只读存储介质(eprom或闪存)、光纤、便携式紧凑磁盘只读存储介质(cd-rom)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括答案确定单元,用于确定问题及其对应的基础答案;答案扩展单元,用于根据设定的答案扩展规则,对所述基础答案进行扩展确定多个延展答案;构建单元,用于根据所述问题、所述基础答案以及所述延展答案的对应关系,构建知识库。或者,一种处理器包括:实时问题获取单元,用于获取当前在线提出的实时问题;样本问题匹配单元,用于从离线建立的知识库中确定与所述实时问题匹配的样本问题;答案获取单元,用于根据所述样本问题、所述基础答案以及所述延展答案的对应关系,获取与所述样本问题对应基础答案以及所述延展答案;答案筛选单元,从基础答案以及所述延展答案中筛选出针对所述实时问题的答案。

其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,答案确定单元还可以被描述为“用于确定问题及其对应的基础答案的单元”。

作为另一方面,本申请还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一实施例中所描述的方法。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:确定样本问题及其对应的基础答案;根据设定的答案扩展规则,对所述基础答案进行扩展确定多个延展答案;根据所述样本问题、所述基础答案以及所述延展答案的对应关系,构建知识库;或者,

获取当前在线提出的实时问题;从离线建立的知识库中确定与所述实时问题匹配的样本问题;根据所述样本问题、所述基础答案以及所述延展答案的对应关系,获取与所述样本问题对应基础答案以及所述延展答案;从基础答案以及所述延展答案中筛选出针对所述实时问题的答案。

另外,上述实施例中,答案确定单元、答案扩展单元、构建单元,又可以分别称为第一程序单元、第二程序单元、第三程序单元。

上述实施例中,实时问题获取单元、样本问题匹配单元、答案获取单元、答案筛选单元,又可以分别称之为第三程序单元、第四程序单元、第五程序单元、第六程序单元。

在本申请的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如,第一用户设备和第二用户设备表示不同的用户设备,虽然两者均是用户设备。例如,在不背离本申请的范围的前提下,第一元件可称作第二元件,类似地,第二元件可称作第一元件。

当一个元件(例如,第一元件)称为与另一元件(例如,第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如,第二元件)或“连接至”另一元件(例如,第二元件)时,应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如,第三元件)间接连接至该另一个元件。相反,可理解,当元件(例如,第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时,则没有元件(例如,第三元件)插入在这两者之间。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1