问答语料的收集方法及装置与流程

文档序号：11432244阅读：386来源：国知局

本申请涉及计算机技术领域，尤其涉及一种问答语料的收集方法及装置。

背景技术：

随着互联网的迅速发展，越来越多的用户通过互联网获取信息或进行相互通讯，如，问答平台作为一种网络中获取信息和进行信息交流的平台普遍流行起来，然而随着问答平台的普遍流行，尤其是自动问答平台的普遍流行，用户对自动问答平台回答问题的准确性要求也越来越高。而本领域技术人员公知，自动问答平台主要是通过具有即时通讯功能的问答机器人来对用户的问题进行解答，其中，问答机器人是在对大量预先收集的问答语料学习的基础上来对实时接收的用户问题进行解答的，此处的问答语料是指用户的问题以及对应的答案的一个问答对。因此，预先收集的问答语料的质量和数量对提高自动问答平台回答问题的准确性起着关键性的作用。

现有技术中，主要是通过人工来收集问答语料，之后再通过人工将收集的问答语料标记为准确语料和不准确语料来供问答机器人进行学习，然而该方法会耗费大量的人力资源，这增加了问答机器人学习的成本；此外，通过人工收集问答语料会极大的影响问答语料收集的效率，且人工收集的问答语料比较有限，从而影响问答机器人学习的问答语料的全面性，进而会影响自动问答平台解答用户问题的准确性。

技术实现要素：

本申请实施例提供了一种问答语料的收集方法及装置，可以提高问答语料收集的效率和全面性。

第一方面，提供了一种问答语料的收集方法，该方法包括：

在问答平台根据接收的用户的文本问题，输出与所述文本问题对应的至少一个答案时，判断是否接收到用于从所述至少一个答案中选取目标答案的选择指令；

若接收到所述选择指令，则将所述文本问题与所述目标答案收集为第一语料，并为所述第一语料添加第一标识信息，其中，所述第一标识信息用于标识所述文本问题与所述目标答案为正确问答对；

若未接收到所述选择指令，则将所述文本问题与所述至少一个答案收集为第二语料，并为所述第二语料添加第二标识信息，其中，所述第二标识信息用于标识所述文本问题与所述至少一个答案中的每个答案为不正确问答对。

第二方面，提供了一种问答语料的收集装置，该装置包括：判断单元和收集单元；

所述判断单元，用于在问答平台根据接收的用户的文本问题，输出与所述文本问题对应的至少一个答案时，判断是否接收到用于从所述至少一个答案中选取目标答案的选择指令；

所述收集单元，用于若所述判断单元判断接收到所述选择指令，则将所述文本问题与所述目标答案收集为第一语料，并为所述第一语料添加第一标识信息，其中，所述第一标识信息用于标识所述文本问题与所述目标答案为正确问答对；

所述收集单元，还用于若所述判断单元判断未接收到所述选择指令，则将所述文本问题与所述至少一个答案收集为第二语料，并为所述第二语料添加第二标识信息，其中，所述第二标识信息用于标识所述文本问题与所述至少一个答案中的每个答案为不正确问答对。

本申请提供的问答语料的收集方法及装置，是在机器人辅助问答平台实时对用户的文本问题进行解答的过程中来自动收集问答语料的，从而避免了现有技术中通过人工收集问答语料而带来的收集效率低以及成本高的问题；此外，由于用户实时提问的问题多种多样，因此，通过对用户实时提问的文本问题以及对应答案进行收集，可以提高问答语料收集的全面性；根据收集的问答语料对问答模型进行训练之后，从而可以进一步提高自动问答平台解答问题的准确性。

附图说明

图1为本申请一种实施例提供的问答语料的收集方法流程图；

图2为本申请提供的问答处理方法示意图；

图3为本申请另一种实施例提供的问答语料的收集装置示意图。

具体实施方式

下面结合附图，对本发明的实施例进行描述。

本申请实施例提供的问答语料的收集方法及装置，适用于各种需要为用户提供答案或解决方案的场景，例如，网络中的问答平台等，尤其适用于有客服人员参与的问答平台，也即尤其适用于半自动化的问答平台。

本申请的半自动化的问答平台可以包括人机交互模块和机器人核心模块，其中，人机交互模块也可以称为人机交互界面，用于与用户或者客服人员(也称客服小二)进行互动，如，问答平台通过人机交互模块可以接收用户所提问的原始问题，并可以接收客服人员在对用户所提问的原始问题进行规范化描述后得到的文本问题；此外，还可以接收当用户确定规范化描述的文本问题符合其原始问题的语义后输入的确认指令；人机交互模块在接收到用户输入的确认指令之后，就可以将规范化描述的文本问题发送给机器人核心模块。机器人核心模块用于对规范化描述的文本问题进行解答。具体地，可以预先收集问答语料，此处的问答语料是指用户的问题以及对应的答案的一个问答对；之后通过对上述预先收集的问答语料进行学习来构建问答模型 (也称问答机器人)；在构建好上述问答模型之后，当接收到用户的新的文本问题时，就可以将该新的文本问题输入到问答模型中，并将问答模型输出的结果作为上述新的文本问题对应的答案。

在实际应用中，用户在使用产品或服务而遇到问题时，一般会先通过自动问答平台(如，支付宝自助服务渠道)寻求解答，当上述问题通过自动问答平台得不到解答时，则通过在线人工服务进行咨询。需要说明的是，虽然客服人员在交互中能快速识别用户的问题，且在语义理解和定位用户的问题上优于机器，但是客服人员在已知用户的问题后，在答案检索能力以及快速输出能力上远远不如机器，因此，本申请提出了人机互相吸纳对方优点的思想，即将人与机器进行了结合(即人在确认问题后，可以通过问答平台上机器人是助手实时推送答案，进行点选确认指令)，从而实现了半自动化的问答平台。也即当用户的问题通过自动问答平台等不到解决时，通过本申请提出的半自动化的问答平台进行解决。

以下将通过实施例的方式来介绍本申请的半自动化的问答平台解决用户的问题的具体过程，以及在解决用户的问题的过程中如何对问答语料进行自动化收集，以提高问答语料收集的效率和全面性。

图1为本申请一种实施例提供的问答语料的收集方法流程图。所述方法的执行主体可以为具有处理能力的设备：服务器或者系统或者装置，如图1所示，所述方法具体可以包括：

步骤110，在问答平台根据接收的用户的文本问题，输出与所述文本问题对应的至少一个答案时，判断是否接收到用于从所述至少一个答案中选取目标答案的选择指令。

此处的文本问题是对所述用户所提问的原始问题的规范化描述。

在本申请中，当用户的问题在通过自动问答平台得不到解答时，其通过本申请的半自动化的问答平台寻求解答。参见图2所示的本申请提供的问答处理方法示意图，图2中，在进入本申请的半自动化的问答平台之后，客服人员可以先与用户进行交流，以确定用户所提问的原始问题的语义，即先利用客服人员在交互中能快速识别问题、定位问题的优点；之后在理解用户所提问的原始问题的语义的基础上对用户的原始问题进行规范化描述，以形成用户的文本问题；当用户确认形成的文本问题符合其语义时，问答平台中的人机交互模块就可以接收到用户输入的确认指令。

举例来说，用户所提问的原始问题为“从支付宝账户导出来一笔钱到中国银行银行卡收费吗？”，客服人员可以将用户的语义定位为想了解支付包跨行转账的收费情况，因此，可以将上述原始问题规范化描述为“您是想了解支付宝跨行转账(到中国银行)的收费情况吗？”，在用户输入“是，是的，对，ok”等类似的答案时，则可以解释为接收到了用户输入的确认指令。当然，在实际应用中，用户所提问的原始问题可能语义更模糊，客服人员需要与用户进行多次会话才能最终确定用户的语义。

在人机交互模块接收到用户输入的确认指令之后，就可以将上述规范化描述的问题(即文本问题)推送给机器人核心模块，机器人核心模块包括了五个处理单元：基础搜索、问答搜索、交互式机器人、闲聊以及精准推荐，其中，基础搜索也可以称为关键词搜索，用于将从文本问题中提取的关键词与问答库中的文本进行匹配搜索，以确定文本问题的答案，此处，问答库中的文本是由人工预先搜集的；问答搜索用于将接收的文本问题与预先收集的问答语料中的每个问答对进行匹配，将相匹配的问答对的答案作为文本问题对应的答案，此处的问答语料是在客服人员对用户的问题进行解答的过程中记录的；交互式机器人用于在具有问答平台的功能的系统(如，支付宝系统)与其它应用程序(如，滴滴打车)相结合时，根据上下文语义向用户反向提问相应的问题，比如，用户打车到“××大厦”，交互式机器人可以提问：请问起点和时间是什么；闲聊用于与用户进行业务无关的日常聊天；精准推荐用于结合用户当前环境信息，向用户推荐与用户当前操作相关的信息，如，在用户多次输入密码错误的情况下，可以向用户推荐密码忘记的情况的相关处理步骤。

综上，机器人核心模块中的五个处理单元是并行的，在机器人核心模块接收到用户的文本问题之后，五个处理单元均可以对用户的文本问题进行解答，只是在不同的场景下，五个处理单元的优先级可能不相同。如，在本申请实施例的场景下，“问答搜索”具有较高的优先级，从而该处理单元输出的答案的分值权重也会较高，也即在五个处理单元均输出答案的情况下，“问答搜索”输出的答案可能排在最前面。

以“问答搜索”对用户的文本问题进行解答为例来说，问答搜索”在接收到规范化描述的问题之后，也即在接收到用户的文本问题之后，可以将用户的文本问题输入预设模型，并将预设模型输出的至少一个结果作为与文本问题对应的至少一个答案。此处，预设模型是预定的用于根据输入的问题输出该问题对应的答案的机器学习模型，其可以是通过对预先收集的问答语料进行学习后构建的。在一个例子中，该预设模型可以是任一用于计算输入的文本问题与预先收集的问答语料中的样本问题的相似度的算法；当预设模型是用于计算相似度的算法时，可以将排名靠前的n个相似度值对应的样本问题的答案输出，从而得到n个答案。

将五个处理单元输出的全部答案进行融合排序，其中，融合排序的过程即为：过滤全部的答案中相同的答案，将过滤后的答案按照分值进行排序；就可以得到文本问题对应的至少一个答案。

当然，在实际应用中，也可以通过其它方式获得至少一个答案，本申请对此不作限定。总之，机器人核心模块的设计是为了利用机器超强的答案检索能力以及快速的输出能力的优点。

机器人核心模块在得到上述至少一个答案之后，可以将该至少一个答案返回给人机交互模块，从而由人机交互模块向客服人员展示该至少一个答案。因为客服人员在与用户交流的过程中已经理解了用户所提问的原始问题的语义，因此，可以直接判断至少一个答案中是否有对应的正确答案(也称目标答案)，若有，则由客服人员直接选取目标答案，否则客服人员输入正确答案，也即输入除至少一个答案中的其它答案。也即本申请是由客服人员来确定目标答案，从而提高了目标答案推送的准确性，也进一步提高了收集的问答语料的准确性。

需要说明的是，上述客服人员直接选取目标答案的操作相当于人机交互模块接收到用于从至少一个答案中选取目标答案的选择指令。因此，通过判断人机交互模块是否接收到选择指令来判断至少一个答案中是否有目标答案。

综上，本申请的半自动化的问答平台既客服了自动化问答平台中的问答机器人不能准确理解用户的问题的语义的缺点，也客服了在线人工服务中客服人员回答问题速度慢的缺点。

步骤120，若接收到所述选择指令，则将所述文本问题与所述目标答案收集为第一语料，并为所述第一语料添加第一标识信息，其中，所述第一标识信息用于标识所述文本问题与所述目标答案为正确问答对。

若接收到选择指令，则说明机器人核心模块返回的至少一个答案中有目标答案，从而可以将用户的文本问题以及目标答案收集为第一语料，此处的第一语料即为正确语料。

举例来说，假设用户的文本问题为：“了解支付宝跨行转账的收费情况”，而机器人核心模块返回了两个答案，且该两个答案分别为：“中国银行跨行转账按1％收费”和“支付宝内部转账不收费”；且假设接收到了客服人员将“中国银行跨行转账按1％收费”选取为目标答案的选择指令，则收集的第一语料可以如表1所示。

表1

表1中，在记录问题与答案的对应关系之后，还可以为每一问答对添加标识信息，如，第一标识信息，该第一标识信息用于标识该问答对为正确问答对。在一个例子中，第一标识信息可以为“goodcase”。

当然，在实际应用中，也可以将收集的第一语料以日志的形式进行存储，本申请对此不作限定。此外，上述表1或者日志中还可以记录用户提问的原始问题，以增加问答语料的全面性。

本申请中，对于上述标记为第一标识信息的第一语料，可以有如下两方面的作用：第一，可以将其添加到自动问答平台的后台数据库中，以便当有其它用户在提问问答对中的问题时，可以直接进行解答，而不需要再通过本申请的半自动化的问答平台进行解答；第二，可以将其作为测试样本来测试优化后的预设模型，即将标记为第一标识信息的问题输入优化后的预设模型之后，判断其输出是否为该问题对应的答案，若是，则预设模型优化成功，否则预设模型优化失败。

步骤130，若未接收到所述选择指令，则将所述文本问题与所述至少一个答案收集为第二语料，并为所述第二语料添加第二标识信息，其中，所述第二标识信息用于标识所述文本问题与所述至少一个答案中的每个答案为不正确问答对。

即若未接收到选择指令，则说明机器人核心模块返回的至少一个答案中没有目标答案，从而可以将用户的文本问题以及至少一个答案收集为第二语料。

如前述例子中的文本问题，假设机器人核心模块返回了两个答案，且该两个答案分别为：“支付宝可以向四大银行转账”和“支付宝内部转账不收费”；则因为该两个答案均未对用户的文本问题作出准确回答，所以客服人员不从该两个答案中选择目标答案，也即未接收到客服人员输入的选择指令，则收集的第二语料可以如表2所示。

表2

表2中，在记录问题与答案的对应关系之后，还可以为每一问答对添加标识信息，如，第二标识信息，该第二标识信息用于标识该问答对为不正确问答对。在一个例子中，第二标识信息可以为“badcase”。

当然，在实际应用中，也可以将收集的第二语料以日志的形式进行存储，本申请对此不作限定。

此外，还需要说明的是，在未接收到客服人员输入的选择指令时，则接收客服人员输入的其它答案，如，可以接收“中国银行跨行转账按1％收费”，并将上述其它答案记录到表2所示的内容中，也即可以记录其它答案与文本问题、至少一个答案的对应关系。可以理解的是，上述其它答案即为至少一个答案中每个答案的修正答案。如，记录其它答案后的表2可以如表3所示。

表3

可以理解的是，也可以将上述表3中的问题与修正答案收集为第一语料，即其具有与上文中第一语料相同的作用。

需要说明的是，上述表1和表2的内容也可以存储在同一张表或者同一个日志文件中，本申请对此不作限定。

本申请中，对于上述标记为第二标识信息的第二语料，可以有如下两方面的作用：第一，可以用于对优化后的预设模型进行评价，如，当“问答搜索”通过优化前的预设模型对用户的文本问题进行解答时，标记为第二标识信息的第二语料的个数100个，而“问答搜索”通过优化后的预设模型对用户的文本问题进行解答时，标记为第二标识信息的第二语料的个数下降到50个，则可以评价预设模型优化成功；第二，可以用于开发人员进行技术挖掘，如，假设问答平台为支付宝系统中的平台，则当支付宝系统中新增功能(如“花呗”)时，则收集的第二语料中可能就包含了有关该新增功能的词汇，开发人员通过对第二语料的分析，就可以提炼到新词汇，之后就可以向自动问答平台的后台数据库中补充关于新词汇的文本，从而提高自动问答平台回答问题的准确性。

此外，本申请的第一语料与第二语料可以被更新到挖掘知识库中，以用于对上述提到的预设模型进行优化，以提高“问答搜索”对用户的文本问题回答的准确性。

本申请提供的问答语料的收集方法及装置，是在问答平台实时对用户的文本问题进行解答的过程中来自动收集问答语料的，从而避免了现有技术中通过人工收集问答语料而带来的收集效率低以及成本高的问题；此外，由于用户实时提问的问题多种多样，因此，通过对用户实时提问的文本问题以及对应答案进行收集，可以提高问答语料收集的全面性，从而进一步可以提高自动问答平台解答问题的准确性。

与上述问答语料的收集方法对应地，本申请实施例还提供的一种问答语料的收集装置，如图3所示，该装置包括：判断单元301和收集单元302。

判断单元301，用于在问答平台根据接收的用户的文本问题，输出与所述文本问题对应的至少一个答案时，判断是否接收到用于从所述至少一个答案中选取目标答案的选择指令。

其中，该文本问题是对所述用户所提问的原始问题的规范化描述。

其中，所述问答平台根据接收的用户的文本问题，输出与所述文本问题对应的至少一个答案，具体为：

所述问答平台将所述用户的文本问题输入预设模型，其中，所述预设模型是预定的用于根据输入的问题输出该问题对应的答案的机器学习模型；

将所述预设模型输出的至少一个结果作为与所述文本问题对应的至少一个答案。

收集单元302，用于若判断单元301判断接收到所述选择指令，则将所述文本问题与所述目标答案收集为第一语料，并为所述第一语料添加第一标识信息，其中，所述第一标识信息用于标识所述文本问题与所述目标答案为正确问答对；

收集单元302，还用于若判断单元301判断未接收到所述选择指令，则将所述文本问题与所述至少一个答案收集为第二语料，并为所述第二语料添加第二标识信息，其中，所述第二标识信息用于标识所述文本问题与所述至少一个答案中的每个答案为不正确问答对。

可选地，所述装置还包括：接收单元303和记录单元304。

接收单元303，用于若未接收到所述选择指令，则接收客服人员输入的其它答案。

记录单元304，用于记录接收单元303接收的所述其它答案与所述文本问题、所述至少一个答案的对应关系，其中，所述其它答案为所述至少一个答案中每个答案的修正答案。

可选地，所述装置还包括：优化单元305。

优化单元305，用于当满足模型优化条件时，根据收集的所述第一语料以及第二语料，对所述预设模型进行优化，以获得优化后的预设模型。

本申请实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本申请提供的装置的具体工作过程，在此不复赘述。

本申请提供的问答语料的收集装置，判断单元301在问答平台根据接收的用户的文本问题，输出与所述文本问题对应的至少一个答案时，判断是否接收到用于从所述至少一个答案中选取目标答案的选择指令；若接收到所述选择指令，则收集单元302将所述文本问题与所述目标答案收集为第一语料，并为所述第一语料添加第一标识信息；若未接收到所述选择指令，则收集单元302将所述文本问题与所述至少一个答案收集为第二语料，并为所述第二语料添加第二标识信息。由此，可以提高问答语料收集的效率和全面性。

本申请实施例提供的问答语料的收集装置可以与前述自动化问答平台、在线人工服务或者半自动化的问答平台相结合使用，以便能够提高问答语料收集的效率和全面性。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的对象及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏洪平;阮征
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：信息发送方法和装置与流程
上一篇：网页中的数据处理方法、装置及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。