基于自然语义问答系统的答案合成与匹配的方法和系统的制作方法

文档序号：9524309阅读：608来源：国知局

基于自然语义问答系统的答案合成与匹配的方法和系统的制作方法
【技术领域】
[0001] 本发明设及一种基于自然语义问答系统的答案合成与匹配的方法和系统。
【背景技术】
[0002] 答案合成是人工智能问答系统中的关键。在传统的人工智能问答系统中，通常只能针对限定的问题范围做出指定的固定回答。然而，对于快速变化的电子商务领域，人工智能问答系统所要服务的对象大多是购买商品的消费者，普通消费者大多希望对商品信息有更全面的了解，如果回答的信息不准确，则可能会导致销售商品失败。普通消费者在问答系统中提出的问题，是更接近于自然语言的。因此，能否准确的回答来应对多变的自然语言，运就给自然语义问答系统的答案的合成准确性带来了巨大的挑战。
[0003] 对问题的回答，现有的技术方案通常利用对问题提取关键字和分类后直接进行答案的生成。
[0004]例如，在图1中示出了现有技术的典型系统的框图。
[0005] 图1的系统主要由问题分析模块、答案处理模块组成，其利用从问题分析出的分类直接来进行答案的生成。
[0006]问题分析模块负责对语句进行分类、实体提取等操作。当问话被输入问答系统后，首先会对问题进行一次分类，分类是在系统预先设定好的一些固定的类别，用W回答用户可能提出的运一类别的问题，然后生成需要的实体特征和分类信息，最后再保存商品里提取出来的信息，并提供给答案处理模块处理。
[0007]答案处理模块负责捜索当前保存的分类信息，找到对应的处理模块，根据设定好的规则直接生成答案并返回。
[0008] 直接合成答案方法通过问题分析得到特定的一个分类，针对运个分类回答的都是固定的一个或多个答案。
[0009]现有技术首先由问题分析模块进行分类并提取的分类传给答案处理模块，答案处理模块在答案的合成上只是机械的一一对应，一旦问题分析模块出现分类错误时，便只能回答错误的答案，对于问题表现形式不同而意思相同的问题，答案处理模块无法进行优化反馈。
[0010] 现有技术方案的主要缺点是当有提问方式发生变化时，现有的回答不能自动地进行变化和调整，也不能检测出分类错误，回答准确度不理想。
[0011] 自然语言的提问表现形式多种多样，可能同一个问题有多种含义，或者不同的问题有同一个含义，传统的答案合成技术通常只是提取出问题的关键字来进行答案的匹配，而没有对答案本身的特征进行分析，答案与问题的匹配度也没有进行过优化调整，只是线性地从问题出发，然后回答对应答案。运样会导致问题一旦发生改变W后，用户真实的意图不能通过多次的交互回答得到反馈积累，从而也不能提高回答的准确性。
[0012] 人类自然语言的多变性必然会导致问题特征的频繁变化，加之电子商务行业商品数量动辄W百万计数，越来越多的用户在购买前和购买后都需要咨询商品相关信息。因此，问答系统采用单一静态的答案合成方法必然造成问题分类偏差增大，引发答案回答准确性的降低，降低用户满意度。
[0013] 因此，期望提供一种基于自然语义问答系统的答案合成与匹配的方法和系统。

【发明内容】

[0014] 为了解决现有技术中的上述缺点和问题中的至少一个而提出本发明。基于现有技术存在的缺点，本发明提供了一种的方法和系统。
[0015] 基于现有技术存在的缺点，本发明提出了一种改进的基于自然语义问答系统的答案合成与匹配的方法和系统，一方面可W在问题特征发生变化时进行分类的动态适配，而不是在分类错误已经发生时才进行分类选择和答案特征参数调优，减小答案选择的滞后性；另一方面，通过对当前的问题特征匹配最合适的答案分类特征，也可W大大提高答案合成结果的精度。本发明弥补了基于自然语义分析中答案合成方法的不足，针对电子商务行业的特点更准确的回答用户提问的相关信息，对于降低人工服务的成本也起到了促进作用。
[0016] 根据一个方面，提供了一种基于自然语义问答系统的答案合成与匹配的方法，包括：从问题确定问题特征数据；对所确定的问题特征数据进行筛选；对问题特征数据中的答案分类进行评估；如果答案分类的评分大于评估表的分值，则直接进行答案融合；如果答案分类的评分不大于评估表的分值，则对问题特征数据进行分类；通过逻辑回归算法来获得答案的规范特征；W及对所获得的答案进行评分和数据处理。
[0017] 可选地，通过确定所确定的问题特征数据的支持度和置信度来进行筛选。
[0018] 可选地，评估表初始地被设置为空，并且在训练或使用期间不断更新。
[0019] 可选地，直接进行答案融合包括：首先确定与答案类型相对应的所有答案，对所确定的答案进行排序，然后选择出最适当的答案。
[0020] 可选地，通过决策树来对问题特征数据进行重新分类。
[0021] 根据另一个方面，提供了一种基于自然语义问答系统的答案合成与匹配的系统，包括：用于从问题确定问题特征数据的装置；用于对所确定的问题特征数据进行筛选的装置；用于对问题特征数据中的答案分类进行评估的装置；用于如果答案分类的评分大于评估表的分值，则直接进行答案融合的装置；用于如果答案分类的评分不大于评估表的分值，则对问题特征数据进行分类的装置；用于通过逻辑回归算法来获得答案的规范特征的装置；W及用于对所获得的答案进行评分和数据处理的装置。
[0022] 可选地，通过确定所确定的问题特征数据的支持度和置信度来进行筛选。
[0023] 可选地，评估表初始地被设置为空，并且在训练或使用期间不断更新。
[0024] 可选地，用于直接进行答案融合的装置包括：用于首先确定与答案类型相对应的所有答案，对所确定的答案进行排序，然后选择出最适当的答案的装置。
[00巧]可选地，通过决策树来对问题特征数据进行重新分类。
【附图说明】
[00%] 通过下面结合附图进行的描述，本发明一些示范性实施例的上述和其他方面、特征和优点对于本领域技术人员来说将变得显而易见，其中：
[0027] 图1示出了现有技术的典型系统的框图；W及
[0028]图2是根据本发明的一个实施例的基于自然语义问答系统的答案合成与匹配的方法的流程图。
【具体实施方式】
[0029]提供参考附图的下面描述W帮助全面理解本发明的示范性实施例。其包括各种细节W助于理解，而应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识至IJ，可W对运里描述的实施例做出各种改变和修改而不会背离本发明的范围和精神。同样，为了清楚和简明，省略了对公知功能和结构的描述。
[0030]图2是根据本发明的一个实施例的基于自然语义问答系统的答案合成与匹配的方法的流程图。
[0031] 在步骤S110中，对问题进行预处理W生成问题特征数据和商品标识。
[0032]例如，当一用户输入的问题是：我想买Ξ星s6手机。可W对该问题进行分词，例如可W将上面的问题分词为[我]-[想买]-[Ξ星]-[S6]-[手机]。然后，可W通过所分的词确定商品标识或商品ID，例如可W将所分的词依次在数据库中（商品数据库中）进行匹配查找来确定商品标识或商品ID。例如，在上面示例的问题中，可W根据所分的词"S6"来确定商品标识或商品ID为35的商品。最后，可预定格式来输出预处理的结果。例如，可W格式{data:[我：0]-[想买：1]-[;星：2]-做:引-[手机：2]，id:35}，其中，0代表指代词，1代表动词，3代表商品，2代表名词，id代表商品的ID号。当然，上面仅仅是一个示例，可W任何其它适当的格式来输出预处理的结果。
[0033]在步骤S120中，对所确定的问题特征数据进行筛选。例如，可W对在步骤S110中确定的问题特征数据和商品标识进行关联性规则检查，即采用关联规则算法，W获得置信度和支持度，关联规则算法的原理如下。设I= {II，12…，Im}为所有问题特征的集合，设A 是一个由问题特征构成的集合，称为问题特征集。事务T是一个问题特征子集，每一个事务具有唯一的事务标识Tid。事务T包含问题特征集A，当且仅当AT。如果问题特征集A中包含k个问题特征，则称其为k个问题特征集。D为事务数据库，问题特征集A在事务数据库D 中出现的次数占D中总事务的百分比叫做问题特征集的支持度（suppod)。关联规则就是形如XY的逻辑蕴含关系，其中XI，YI且XY=Φ，X称作规则的前件，Y是结果，对于关联规则XY，存在支持度和置信度。支持度是指规则中所出现模式的频率，如果事务数据库有S% 的事务包含XY，则称关联规则XY在D中的支持度为S%，实际上，可W表示为概率P狂巧，即 support狂巧=Ρ〇(Υ)。置信度是指蕴含的强度，即事务D中C%的包含X的交易同时包含 ΧΥ。若X的支持度是support(X)，规则的置信度为即为：suppo;rt(XY)/support狂），运是一个条件概率P灯I讶，即confidence狂Y) =P灯I讶。由于通过关联规则算法来计算支持度和置信度在本领域是已知的，在此不再进行详细描述。
[0034]然后可W将支持度和置信度进行比较来对对所确定的问题特征数据进行筛选。例如，如果支持度和置信度都大于相应的阔值，则可W确定所确定的问题特征数据符合要求。如果支持度和置信度中的至少一个不大于相应的阔值，则可W确定所确定的问题特征数据不符合要求。阔值可W根据经验适当地进行设置。作为一个示例，支持度的阔值可W设为 95%，置信度的阔值可W设为80%。当然可W将阔值设置为任意其它适当值。
[0035] 在步骤S130中，对问题特征数据的答案分类进行评估。例如，可W通过确定该答案分类的评分，然后将该评分与评估表的分值进行比较。
[0036] 评估表可W初始地被设置为空，并且在训练或使用期间不断更新。
[0037] 例如，如果所确定的评分大于评估表的分值，则可W输出{data:[我：0]-[想买：l]-[Ξ星：2]-[S6:3]-[手机：2]，id:35-[80%,95%]，pg:t;rue}，其中pg:t;rue代表所确定的评分大于评估表的分值，如果不大于则为化Ise。
[0038] 在步骤S140中，如果答案分类的评分大于评估表的分值，则直接进行答案融合。
[0039] 例如，首先确定与答案类型相对应的所有答案，对所确定的答案进行排序，然后选择出最适当的答案。 W40] 例如，（1)可W通过直接融合生成的答案：{id:35-[80 %，95 %]，pg:true,answerid:80,answer:[运款：0][手机：1][有货 4][哦：5][top: 1]},其中top: 1 代表排序结果；（2)通过重新分类获得的答案：{id:35-[80%，95%]，pg:false，newAns

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄靖锋;
技术所有人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。