1.一种基于用户监督反馈的知识自动采集与更新系统,其特征在于,包括:
知识来源、采集模块,负责通过各个途径采集原始知识,并将知识发送到所述知识构建、问答模块;
知识构建、问答模块,负责对来自知识来源、采集模块的原始知识进行处理,形成知识库,产生问答日志并发送到日志分析、学习模块;
日志分析、学习模块,负责对问答日志进行分析,查找、处理高频、未回答上来的问题与存在用户负反馈的问题并发送至知识来源、采集模块;
所述知识来源、采集模块,知识构建、问答模块,日志分析、学习模块,知识来源、采集模块依次首尾相连。
2.根据权利要求1所述的基于用户监督反馈的知识自动采集与更新系统,其特征在于,所述知识来源、采集模块还包括:
网页爬虫单元,负责爬取相关行业的原始知识,并将原始知识发送到知识构建、问答模块;
客户提供单元,负责由客户提供相关原始知识,按照知识模板调整格式,批量导入/录入知识库;
前期积累单元,负责进行同一行业前期积累常见通用知识,批量导入/录入数据库。
3.根据权利要求1所述的基于用户监督反馈的知识自动采集与更新系统,其特征在于,所述知识构建、问答模块包括:
知识库构建单元,负责将知识来源、采集模块采集来的原始知识按照知识库模板中建模方式进行建模,形成问答知识库;
知识问答单元,通过语义理解服务对所述知识构建单元构建的知识库进行问答,产生问答日志;
问答日志单元,负责记录所述知识问答单元产生的问答日志并发送到日志分析、学习模块,所述问答日志包括用户提问问题、服务返回答案和用户反馈信息。
4.根据权利要求1所述的基于用户监督反馈的知识自动采集与更新系统,其特征在于,所述日志分析、学习模块包括:
未答问题单元,负责找出问答日志中没有答案的问题,将没有答案的有效问题发送给高频问题单元;
高频问题单元,负责找出上述没有答案的有效问题中的高频问题,并将高频问题发送给所述知识来源、采集模块;
用户反馈单元,负责分析问答日志存在的用户反馈信息。
5.一种基于用户监督反馈的知识自动采集与更新的工作方法,其特征在于,步骤包括:
s01外部知识爬取
在官网和相关网站爬取行业原始知识,所述原始知识为知识问答对或问题、相关文档,所述问答对是指问题、答案的形式,所述问题、相关文档是指针对具体问题爬取相关文档的形式;
s02判断爬取的知识是问答对还是相关文档
若是相关文档,则跳转到步骤s03;
若是问答对,则跳转到步骤s04;
s03阅读理解找到对应答案
通过调用神经网络阅读理解算法从相关文档中找到问题对应的具体答案;
s04自动/人工审批
采用自动审批或人工审批方法对问答对进行处理,所述自动审批将所有知识全部更新到知识库,所述人工审批采用人工判断爬取的原始知识是否符合要求,符合要求审批通过,否则不做处理;
s05知识构建
将经过审批的原始知识与知识来源、采集模块中手动录入或批量导入的知识按照知识库中的建模方式进行建模,并存储到知识库中,其建模模式为“知识类型+知识数据+知识来源知识精度+知识时效性”;
s06知识问答
通过调用语义服务对构建的知识库数据进行问答,为用户提供相关服务,并将问答过程中产生的问答日志存储到知识库中;
s07问答日志分析
对问答日志进行筛选,找出没有回答上来的问题,通过统计找出没有回答上来的问题中出现次数较多的问题,计算未答多次出现问题与数据库中该行业问题的相关度筛选出非噪音问题,以备后续完善知识库使用;
所述问答日志包括用户的问答情况与用户反馈信息;
s08内部日志学习
通过日志学习算法在知识库内部寻找与高频未答问题相似度最高的标准问题,将该标准问题的答案作为该高频未答问题的答案存储到知识库中进行知识构建;
s09判断通过知识库内部日志学习是否找到高频未答问题的答案
若找到答案,则跳转到步骤s05;
若没有找到答案,则跳转到步骤s01;
s10手动录入/批量导入/更新
知识库的来源包括用户提供、前期积累的相关结构化知识,采用手动录入或批量导入方式录入或更新到知识库中,所述结构化知识根据知识的时效性对知识进行更新,时效性越短的更新速度越快;
s11判断问题来源
知识库更新时首先判断该条知识是否是自用户提供或前期积累的,若该知识是用户提供或前期积累的,则跳转到步骤s10;
若该知识不是用户提供或前期积累的,则跳转至步骤s01;
s12根据用户反馈评估知识库质量
当用户反馈积累到一定程度时,进行知识库质量评估,评估公式为:
知识库质量指标=用户正反馈数/用户总反馈数;
当知识库质量指标小于阈值时,则需重构知识库,若知识库质量指标大于阈值时,跳转至步骤s13;
s13判断是否存在用户负反馈
判断某一条问答日志是否存在负反馈日志,即是否存在用户认为该该问题对应的答案不准确;
若存在负反馈,则跳转到步骤s11;
若不存在,则跳转到步骤s14;
s14不作处理。