一种基于用户监督反馈的知识自动采集与更新系统及其工作方法与流程

文档序号:22627752发布日期:2020-10-23 19:36阅读:243来源:国知局
一种基于用户监督反馈的知识自动采集与更新系统及其工作方法与流程

本发明属于智能问答的技术领域,更具体涉及一种基于监督反馈的知识自动采集与更新系统及其工作方法。



背景技术:

随着自然语言理解技术、人机交互技术和智能计算技术的日趋完善,智能问答技术得到迅速发展,进而智能问答系统得以融入人们的日常生活中,智能问答系统是以人为中心的计算系统,该计算系统通过对用户问题和知识库的理解,代替人工向用户提供相关服务。

理想的知识库应该是覆盖所有问题,而且一次录入无需修改,但在实际的智能问答应用中,我们不可能穷尽列举出所有的问题,而且知识具有时效性,因此需要定时更新,该工程将会消耗大量的人力成本;在智能对话的过程中会产生很多问答日志及少量的用户反馈信息,没有合理充分地利用起来;此外,知识来源多种多样,由于其来源的不同,其质量也参差不齐,进而导致知识处理的复杂性增加。

现有的知识采集系统大多采用人工录入,并且知识更新不及时;同时对智能对话中产生的问答日志、用户反馈信息,仅仅进行展示与统计,没有充分考虑客户的需求合理地利用起来;对于不同来源的知识没有做区分,一般采用相同的处理方法,其效果不好。因此如何完善知识采集与更新系统,降低人工成本,提高用户体验性,成为智能问答技术中面临的挑战。



技术实现要素:

针对现有技术的不足,本发明提供一种基于用户监督反馈的知识自动采集与更新系统;

一种基于用户监督反馈的知识自动采集与更新系统,包括:

知识来源、采集模块,负责通过各个途径采集原始知识,并将知识发送到所述知识构建、问答模块;

知识构建、问答模块,负责对来自知识来源、采集模块的原始知识进行处理,形成知识库,产生问答日志并发送到日志分析、学习模块;

日志分析、学习模块,负责对问答日志进行分析,查找、处理高频、未回答上来的问题与存在用户负反馈的问题并发送至知识来源、采集模块;

所述知识来源、采集模块,知识构建、问答模块,日志分析、学习模块,知识来源、采集模块依次首尾相连。

优选的,所述知识来源、采集模块还包括:

网页爬虫单元,负责爬取相关行业的原始知识,并将原始知识发送到知识构建、问答模块;

客户提供单元,负责由客户提供相关原始知识,按照知识模板调整格式,批量导入/录入知识库;

前期积累单元,负责进行同一行业前期积累常见通用知识,批量导入/录入数据库。

优选的,所述知识构建、问答模块还包括:

知识库构建单元,负责将知识来源、采集模块采集来的原始知识按照知识库模板中建模方式进行建模,形成问答知识库;

知识问答单元,通过语义理解服务对所述知识构建单元构建的知识库进行问答,产生问答日志;

问答日志单元,负责记录所述知识问答单元产生的问答日志并发送到日志分析、学习模块,所述问答日志包括用户提问问题和服务返回答案以及用户反馈信息。

优选的,所述日志分析、学习模块还包括:

未答问题单元,负责找出上述有效日志中没有答案的问题,将没有答案的有效问题发送给高频问题单元;

高频问题单元,负责找出上述没有答案的有效问题中的高频问题,并将高频问题发送给所述知识来源、采集模块;

用户反馈单元,负责分析问答日志存在的用户反馈信息。

一种基于用户监督反馈的知识自动采集与更新的工作方法,其特征在于,步骤包括:

s01.外部知识爬取

知识来源、采集模块在官网和相关网站爬取某一行业原始知识,所述原始知识为知识问答对或问题、相关文档,所述问答对是指问题、答案的形式,所述问题、相关文档是指针对具体问题爬取相关文档的形式;

s02.判断爬取的知识是问答对还是相关文档

若是相关文档,则跳转到步骤s03;

若是问答对,则跳转到步骤s04;

s03.阅读理解找到对应答案

通过调用神经网络阅读理解算法从相关文档中找到问题对应的具体答案;

s04.自动/人工审批

采用自动审批或人工审批方法对问答对进行处理,所述自动审批将所有知识全部更新到知识库,所述人工审批采用人工判断爬取的原始知识是否符合要求,符合要求审批通过,否则不做处理;

s05.知识构建

知识构建、问答模块将经过审批的原始知识与知识来源、采集模块中手动录入或批量导入的知识按照知识库中的建模方式进行建模,并存储到知识库中,其建模模式为“知识类型+知识数据+知识来源知识精度+知识时效性”;

s06.知识问答

知识构建、问答模块通过调用语义服务对构建的知识库数据进行问答,为用户提供相关服务,并将问答过程中产生的问答日志存储到知识库中;

s07.问答日志分析

日志分析、学习模块对问答日志进行筛选,找出没有回答上来的问题,通过统计找出没有回答上来的问题中出现次数较多的问题,计算未答多次出现问题与数据库中该行业问题的相关度筛选出非噪音问题,以备后续完善知识库使用;

所述问答日志包括用户的问答情况与用户反馈信息;

s08.内部日志学习

日志分析、学习模块通过日志学习算法在知识库内部寻找与高频未答问题相似度最高的标准问题,将该标准问题的答案作为该高频未答问题的答案存储到知识库中进行知识构建;

s09.判断通过知识库内部日志学习是否找到高频未答问题的答案

若找到答案,则跳转到步骤s05;

若没有找到答案,则跳转到步骤s01;

s10.手动录入/批量导入/更新

知识库的来源包括用户提供、前期积累的相关结构化知识,采用手动录入或批量导入方式录入或更新到知识库中,所述结构化知识根据知识的时效性对知识进行更新,时效性越短的更新速度越快;

s11.判断问题来源

知识库更新时首先判断该条知识是否是自用户提供或前期积累的,若该知识是用户提供或前期积累的,则跳转到步骤s10;

若该知识不是用户提供或前期积累的,则跳转至步骤s01;

s12.根据用户反馈评估知识库质量

当用户反馈积累到一定程度时,进行知识库质量评估,评估公式为:

知识库质量指标=用户正反馈数/用户总反馈数;

当知识库质量指标小于阈值时,则需重构知识库,若知识库质量指标大于阈值时,跳转至步骤s13;

s13:判断是否存在用户负反馈

判断某一条问答日志是否存在负反馈日志,即是否存在用户认为该该问题对应的答案不准确;

若存在负反馈,则跳转到步骤s11;

若不存在,则跳转到步骤s14;

s14:不作处理。

本发明的有益效果为:

增强用户体验,通过对问答日志进行分析,充分利用用户问答日志完善知识库,增加客户体验性;

节约人工成本,系统自动批量处理问答日志、定时自动更新知识库,节约人工成本;

时效性,定时自动更新知识库,增强知识的时效性;

高可靠性,采用自动审批与用户监督反馈相结合的机制,增加采集知识的可靠性与知识采集的便捷性;

灵活性,通过对不同来源的知识进行标注,后期针对知识来源的不同,采取灵活方式对其进行处理与更新。

附图说明

图1是本发明所述系统的系统框图;

图2是本发明所述方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种基于用户监督反馈的知识自动采集与更新系统,包括:

知识来源、采集模块,负责通过各个途径采集原始知识,并将知识发送到所述知识构建、问答模块;

知识构建、问答模块,负责对来自知识来源、采集模块的原始知识进行处理,形成知识库,产生问答日志并发送到日志分析、学习模块;

日志分析、学习模块,负责对问答日志进行分析,查找、处理高频、未回答上来的问题与存在用户负反馈的问题并发送至知识来源、采集模块;

上述知识来源、采集模块,知识构建、问答模块,日志分析、学习模块,知识来源、采集模块依次首尾相连。

其中,知识来源、采集模块还包括:

网页爬虫单元,负责爬取相关行业的原始知识,并将原始知识发送到知识构建、问答模块的知识库构建单元,例如税务相关知识;

客户提供单元:客户提供相关原始知识(结构化数据),按照知识模板调整格式,批量导入/录入知识库,例如税务机关客户税务相关结构化数据;

前期积累单元:同一行业前期积累常见通用知识(结构化数据),批量导入/录入数据库,例如前期积累税务相关结构化数据。

知识构建、问答模块还包括:

知识库构建单元,负责将知识来源、采集模块采集来的原始知识按照知识库模板中建模方式进行建模,形成问答知识库,建模方式为“知识类型+知识数据+知识来源+知识精度+知识时效性”;

知识问答单元,通过语义理解服务对所述知识构建单元构建的知识库进行问答,产生问答日志;

问答日志单元,负责记录所述知识问答单元产生的问答日志并将问答日志发送到日志分析、学习模块。

日志分析、学习模块还包括:

未答问题单元,负责找出上述有效日志中没有答案的问题,将没有答案的有效问题发送给高频问题单元;

高频问题单元,负责找出上述没有答案的有效问题中的高频问题,并将高频问题发送给所述知识来源、采集模块;

用户反馈单元,负责分析问答日志存在的用户反馈信息。

利用上述系统,存在一种基于用户监督反馈的知识自动采集与更新的工作方法如图2所示,以智能问答的典型场景—税务智能问答为例,步骤包括:

s01.外部知识爬取

在官网和相关网站爬取某一行业原始知识,所述原始知识为知识问答对或问题、相关文档,所述问答对是指问题、答案的形式,所述问题、相关文档是指针对具体问题爬取相关文档的形式;

s02.判断爬取的知识是问答对还是相关文档

若是相关文档,则跳转到步骤s03;

若是问答对,则跳转到步骤s04;

s03.阅读理解找到对应答案

通过调用神经网络阅读理解算法从相关问档中找到问题对应的具体答案,例如针对问题“小规模纳税人有什么优化政策”,则从税务官网爬取的与税务相关的文档;

s04.自动/人工审批

采用自动审批或人工审批方法对问答对进行处理,所述自动审批将所有知识全部更新到知识库,所述人工审批采用人工判断爬取的原始知识是否符合要求,符合要求审批通过,否则不做处理;

无特殊情况一般采用自动审批机制;

s05.知识构建

知识库构建单元将经过审批的原始知识与知识来源、采集模块中手动录入或批量导入的知识按照知识库中的建模方式进行建模,并存储到知识库中,其建模模式为“知识类型+知识数据+知识来源知识精度+知识时效性”,知识类型为知识数据的分类,知识数据为各来源采集来的知识;知识精度为知识的质量;知识时效性为知识更新的速度的快慢等级;例如“个人所得税(知识类型)+个人所得税税率最低是多少,##个人所得税税率最低为3%。(知识数据)+网页(知识来源)+90%(知识精度)+时效一级(知识时效性)”;

s06.知识问答

通过调用语义服务对构建的知识库数据进行问答,为用户提供相关服务,并将问答过程中产生的问答日志存储到知识库中;

s07.问答日志分析

对问答日志进行筛选,找出没有回答上来的问题,通过统计找出没有回答上来的问题中出现次数较多的问题,计算未答多次出现问题与数据库中该行业问题的相关度筛选出非噪音问题,以备后续完善知识库使用;

所述问答日志包括用户的问答情况与用户反馈信息;

s08.内部日志学习

通过日志学习算法(k最邻近分类算法)在知识库内部寻找与高频未答问题相似度最高的标准问题,将该标准问题的答案作为该高频未答问题的答案存储到知识库中进行知识构建,例如问题“税款交晚了,可以补交吗”,属于高频未答问题,通过日志学习算法可以找到知识库内与该问题最为相似的标准问题“税款延迟缴纳,怎么办”,将后者的答案作为前者的答案存储于知识库;

s09.判断通过知识库内部日志学习是否找到高频未答问题的答案

若找到答案,则跳转到步骤s05;

若没有找到答案,则跳转到步骤s01;

s10.手动录入/批量导入/更新

知识库的来源包括用户提供、前期积累的相关结构化知识,采用手动录入或批量导入方式录入或更新到知识库中,所述结构化知识根据知识的时效性对知识进行更新,时效性越短的更新速度越快;

s11.判断问题来源

知识库更新时首先判断该条知识是否是自用户提供或前期积累的,若该知识是用户提供或前期积累的,则跳转到步骤s10;

若该知识不是用户提供或前期积累的,则跳转至步骤s01;

根据用户反馈评估知识库质量

当用户反馈积累到一定程度时,进行知识库质量评估,评估公式为:

知识库质量指标=用户正反馈数/用户总反馈数;

当知识库质量指标小于阈值时,则需重构知识库,若知识库质量指标大于阈值时,跳转至步骤s13;

s13:判断是否存在用户负反馈

判断某一条问答日志是否存在负反馈日志,即是否存在用户认为该该问题对应的答案不准确;

若存在负反馈,则跳转到步骤s11;

若不存在,则跳转到步骤s14;

s14:不作处理。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1