数据处理方法以及装置与流程

文档序号：32658336发布日期：2022-12-23 22:34阅读：22来源：国知局

1.本说明书实施例涉及计算机技术领域，特别涉及一种数据处理方法。

背景技术：

2.对于机器学习，尤其是深度学习而言，大多数算法的运行均需要以大量的样本数据为基础。样本数据的丰富程度及准确性对于机器学习具有非常重要的意义。
3.目前的模型训练过程中，由于样本标注存在人为标注的主观因素，并且训练样本数量多，无法做到通过人工一一筛选掉部分劣质样本，影响模型训练效果，使训练后的模型精准度不高，因此，如何在降低人工标注成本的条件下，对模型输出的答案进行精准度调整，成为亟需解决的问题。

技术实现要素：

4.有鉴于此，本说明书实施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置，一种问答处理方法，一种问答处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。
5.根据本说明书实施例的第一方面，提供了一种数据处理方法，包括：
6.获取用户针对目标对象提交的待查询问题，并获取初始文档，其中，所述初始文档中包含所述待查询问题对应的初始答案；
7.将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始答案；
8.将所述待查询问题及所述初始答案发送至对象提供方，并获取所述对象提供方针对所述初始答案生成的答案使用信息；
9.根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案。
10.根据本说明书实施例的第二方面，提供了一种数据处理装置，包括：
11.获取模块，被配置为获取用户针对目标对象提交的待查询问题，并获取初始文档，其中，所述初始文档中包含所述待查询问题对应的初始答案；
12.处理模块，被配置为将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始答案；
13.发送模块，被配置为将所述待查询问题及所述初始答案发送至对象提供方，并获取所述对象提供方针对所述初始答案生成的答案使用信息；
14.确定模块，被配置为根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案。
15.根据本说明书实施例的第三方面，提供了一种问答处理方法，包括：
16.获取用户通过对话交互界面针对目标商品提交的待查询问题；
17.获取初始文档，并将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始文档中包含的所述待查询问题的初始答案；
18.将所述待查询问题及所述初始答案发送至商品提供方，并获取所述商品提供方针对所述初始答案生成的答案使用信息；
19.根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案。
20.根据本说明书实施例的第三方面，提供了一种问答处理装置，包括：
21.获取模块，被配置为获取用户通过对话交互界面针对目标商品提交的待查询问题；
22.输入模块，被配置为获取初始文档，并将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始文档中包含的所述待查询问题的初始答案；
23.发送模块，被配置为将所述待查询问题及所述初始答案发送至商品提供方，并获取所述商品提供方针对所述初始答案生成的答案使用信息；
24.确定模块，被配置为根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案。
25.根据本说明书实施例的第五方面，提供了一种计算设备，包括：
26.存储器和处理器；
27.所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令实现任意一项所述数据处理方法的步骤。
28.根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现任意一项所述数据处理方法的步骤。
29.根据本说明书实施例的第七方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据处理方法的步骤。
30.本说明书一个实施例通过获取用户针对目标对象提交的待查询问题，并获取初始文档，其中，所述初始文档中包含所述待查询问题对应的初始答案，将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始答案，将所述待查询问题及所述初始答案发送至对象提供方，并获取所述对象提供方针对所述初始答案生成的答案使用信息，根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案。
31.本说明书实施例通过项目提供方针对答案检测模型输出的初始答案的使用信息，优化抽取式阅读理解数据集的生产方式，即实现通过对象提供方对答案检测模输出的问答对进行辅助审核，以对象提供方对初始答案的使用信息作为反馈，对答案检测模型输出的初始答案进行调整，而减少了人工标注的过程，既有利于降低人工审核成本，有利于提高答案调整结果的准确性。
附图说明
32.图1是本说明书一个实施例提供的一种数据处理过程的示意图；
33.图2是本说明书一个实施例提供的一种数据处理方法的流程图；
34.图3是本说明书一个实施例提供的另一种数据处理过程的示意图；
35.图4是本说明书一个实施例提供的一种数据处理方法的处理过程流程图；
36.图5是本说明书一个实施例提供的一种数据处理装置的结构示意图；
37.图6是本说明书一个实施例提供的一种问答处理方法的示意图；
38.图7是本说明书一个实施例提供的一种问答处理装置的结构示意图；
39.图8是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
40.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。
41.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
42.应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
43.首先，对本说明书一个或多个实施例涉及的名词术语进行解释。
44.faq：frequently asked question，经常被询问的问题。
45.mrc：machine reading comprehension，机器阅读理解。
46.问答对：由一个问题和一个答案组成。
47.query：机器阅读理解中，所需要解决的问题，即待查询问题。
48.document：机器阅读理解中，针对所需要解决问题的参考文本，即初始文档。
49.span：答案范围，即答案在document的中的起始位置到结束位置之间的范围。
50.bert：bidirectional encoder representations from transformers，基于变换器的双向编码器标识技术。
51.pagerank算法：一种预测某链接点击概率的算法。
52.在本说明书中，提供了一种数据处理方法，本说明书同时涉及一种数据处理装置，一种问答处理方法，一种问答处理装置，一种计算设备，一种计算机可读存储介质，以及一种计算机程序，在下面的实施例中逐一进行详细说明。
53.机器阅读理解模型作为人工智能领域的突出研究成果，已经发展了多年。常见的机器阅读理解任务有完形填空、多项选择、答案跨度抽取、自由问答。其中，抽取式任务，由于其能够生产较长的答案以及所生产的答案严格来源于给定的文档document，因此，可将其应用于交互式智能问答场景，例如智能客服。在给定文档document以及待查询问题query的情况下，机器阅读理解模型可以根据待查询问题在document找出对应答案的跨度。此任务的训练样本数据的特点是：除了需要query以及document以外，还需要标注出当前query的答案在document中的起始位置以及结束位置(或者是答案的起始位置以及对应的答案文本)，在更为复杂的任务中还需要标注当前query对应的答案在document中是否能被找到，即“无法回答标志”，如果能被找到，该标志则为1，不能被找到，该标志则为0。
54.在机器阅读理解领域中，squad在不包含“无法回答标志”的标注流程可以被总结
为：
55.1.使用维基百科的自带pagerank算法，去除维基百科文章中点击概率较高的10000篇文章。
56.2.从上述文章中均匀随机采样选择536篇作为最终的目标文章。
57.3.对采样的得到的文章进行去除图片、表格等操作，并舍弃小于500个字符的段落，最终得到526篇文章和23215个段落。
58.4.接下来通过标注人员，并且要求标注人员在每个段落当中花费4分钟来对其进行至少五个问题的询问，并且把对应的答案标注在相应位置。
59.为了解决一些模型在document当中没有正确答案的时候进行错误的答案抽取，squad2.0数据集引入了“无法回答标识”。具体做法是在上述数据集产生之外，又额外让标注人员对于每个段落提出5个问题，且这些问题的干扰答案(即看起来是答案但其实并未真正回答问题的部分)在该段落中能够被找到，以此又增加了5w+的无法回答答案。
60.目前的公开机器阅读理解数据集很大程度上都是通过这种人工打标的方式来构建，但上述方案的问题在于：
61.1.需要大量的人工标注，标注成本较高。
62.2.所标注的文章相对固定，使得其训练出来的模型无法处理较新的数据。
63.3.数据质量极大的取决于标注人员的水平，虽然可以使用交叉检验的方式一定程度下降低这一干扰，但此问题仍然存在，且进一步增加了人力成本。
64.4.使用的文章及其答案较为通用，无法直接进行垂直领域的迁移。
65.5.无法以模型表现较差的部分数据进行处理，针对性的优化模型。
66.基于此，本说明书实施例通过获取用户针对目标对象提交的待查询问题，并获取初始文档，其中，所述初始文档中包含所述待查询问题对应的初始答案，将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始答案，将所述待查询问题及所述初始答案发送至对象提供方，并获取所述对象提供方针对所述初始答案生成的答案使用信息，根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案。
67.本说明书实施例通过项目提供方针对答案检测模型输出的初始答案的使用信息，优化抽取式阅读理解数据集的生产方式，即实现通过对象提供方对答案检测模输出的问答对进行辅助审核，以对象提供方对初始答案的使用信息作为反馈，对答案检测模型输出的初始答案进行调整，而减少了人工标注的过程，既有利于降低人工审核成本，有利于提高答案调整结果的准确性。
68.图1示出了根据本说明书一个实施例提供的一种数据处理过程的示意图，如图1所示，用户通过用户终端输入待查询问题，用户终端将该待查询问题发送至对象处理平台，由对象处理平台获取初始文档，再将初始文档和待查询问题输入至答案检测模型进行处理，输出对应的初始答案，该初始答案可以是一个或至少两个，例如，初始答案为答案1、答案2和答案3，然后将初始答案发送至对象处理方，由对象处理方确定是否使用其中一个或至少两个初始答案作为待查询问题的回复进行回复，而对象处理平台可以获取对象提供方对各初始答案的答案使用信息，例如使用或未使用等，并可根据答案使用信息对初始答案进行调整，以通过对象提供方对答案检测模输出的问答对进行辅助审核，将对象提供方对初始答案的使用信息作为反馈，对答案检测模型输出的初始答案进行调整，而减少了人工标注
的过程，既有利于降低人工审核成本，有利于提高答案调整结果的准确性。
69.图2示出了根据本说明书一个实施例提供的一种数据处理方法的流程图，具体包括以下步骤。
70.步骤202，获取用户针对目标对象提交的待查询问题，并获取初始文档，其中，所述初始文档中包含所述待查询问题对应的初始答案。
71.具体的，对象提供方可为用户提供不同的对象，目标对象即为对象提供方所提供的多个对象中的任意一个，且对象提供方包括但不限于商品销售方(即商家)、保险公司、物流公司等，在对象提供方为商家的情况下，目标对象即可以是商品；在对象提供方为保险公司的情况下，目标对象即可以是理财产品；在对象提供方为物流公司的情况下，目标对象即可以是订单号等。
72.对象提供方在接收到用户针对目标对象提交的待查询问题时，可获取预先存储的一个或至少两个初始文档，该一个或至少两个初始文档中存在至少一个初始文档，该至少一个初始文档中包含待查询问题对应的初始答案，使得对象提供方可在该一个或至少两个初始文档中确定待查询问题对应的答案，并基于该答案对用户的待查询问题进行回复。
73.步骤204，将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始答案。
74.具体的，在接收到用户的待查询问题，并获得初始文档后，可将该待查询问题和初始文档输入答案检测模型进行处理，处理过程中，该答案检测模型可在初始文档中查找该待查询问题对应的至少一个初始答案并输出。
75.其中，答案检测模型除可输出待查询问题对应的初始答案外，还可输出初始答案在初始文档中的位置信息，该位置信息可以是初始答案在初始文档中的起始位置和结束位置，或者可以是初始答案在文档中的起始位置以及该初始答案的答案长度。
76.步骤206，将所述待查询问题及所述初始答案发送至对象提供方，并获取所述对象提供方针对所述初始答案生成的答案使用信息。
77.具体的，答案检测模型输出待查询问题对应的初始答案后，可将该初始答案发送至对象提供方，以由对象提供方根据待查询问题以及初始答案的内容，确定是否使用或者使用哪个初始答案作为待查询问题的答案进行回复。
78.其中，答案使用信息，包括但不限于使用或未使用，而使用又可能包含两种情况，直接使用和修改后使用，直接使用，即对象提供方在至少一个初始答案中选择一个目标初始答案后，未对该目标初始答案进行修改，并直接将该目标初始答案作为回复内容，向用户进行回复；修改后使用，即对象提供方在至少一个初始答案中选择一个目标初始答案后，对该目标初始答案进行修改，并将修改结果作为回复内容，向用户进行回复；未使用，即对象提供方未使用至少一个初始答案中的任意一个初始答案作为回复内容，而是重新编辑了新的回复内容，以针对待查询问题向用户进行回复。
79.步骤208，根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案。
80.具体的，在获取对象提供方针对初始答案生成的答案使用信息后，即可根据该答案使用信息，确定是否需要对初始答案进行调整，以生成目标答案，从而根据目标答案构建答案检测模型的训练样本数据，以实现通过训练样本数据对答案检测模型进行迭代更新。
81.具体实施时，将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始答案在所述初始文档中的位置信息；
82.相应地，确定所述待查询问题的目标答案之后，还包括：
83.根据所述待查询问题、所述目标答案、所述初始文档及所述位置信息构建所述答案检测模型的训练样本数据；
84.通过所述训练样本数据对所述答案检测模型进行迭代训练。
85.具体的，将待查询问题和初始文档输入答案检测模型后，答案检测模型除输出初始文档中包含的待查询问题的初始答案外，还可输出初始答案在初始文档中的位置信息，因此，在确定对象提供方针对初始答案生成的答案使用信息，并根据答案使用信息及初始答案确定待查询问题的目标答案后，即可根据待查询问题、目标答案、初始文档及位置信息构建训练样本数据，并通过训练样本数据对答案检测模型进行迭代训练。
86.具体实施时，根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案，包括：
87.在确定所述答案使用信息为使用的情况下，将所述初始答案确定为所述待查询问题的目标答案；
88.相应地，根据所述待查询问题、所述目标答案、所述初始文档及所述位置信息构建所述答案检测模型的训练样本数据，包括：
89.将所述待查询问题、所述目标答案、所述初始文档及所述位置信息作为训练样本，将有答案作为样本标签，以构建所述答案检测模型的训练样本数据。
90.具体的，如前所述，答案使用信息可以包括使用或未使用，而使用又可能包含两种情况，直接使用和修改后使用。
91.本说明书实施例中，在答案使用信息为使用，且为直接使用的情况下，表示对象提供方在至少一个初始答案中选择一个目标初始答案后，未对该目标初始答案进行修改，并直接将该目标初始答案作为回复内容，向用户进行回复，因此，可将该目标初始答案作为待查询问题的目标答案，将待查询问题、目标答案、初始文档及目标初始答案(目标答案)在初始文档中的位置信息作为训练样本，并为该训练样本添加有答案的样本标签，以构建答案检测模型的训练样本数据。
92.或者，根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案，包括：
93.在确定所述答案使用信息为使用的情况下，获取所述对象提供方使用的中间答案，并判断所述中间答案与所述初始答案是否一致；
94.若否，则将所述中间答案确定为所述待查询问题的目标答案；
95.相应地，所述根据所述待查询问题、所述目标答案、所述初始文档及所述位置信息构建所述答案检测模型的训练样本数据，包括：
96.将所述待查询问题、所述目标答案、所述初始文档及所述位置信息作为训练样本，将有答案作为样本标签，以构建所述答案检测模型的训练样本数据。
97.具体的，如前所述，答案使用信息可以包括使用或未使用，而使用又可能包含两种情况，直接使用和修改后使用。
98.本说明书实施例中，答案使用信息中除包含答案使用结果，即使用或未使用这两
种信息外，还可包含对象提供方所使用答案的答案内容，即对象提供方针对待查询问题进行回复的回复内容。
99.基于此，在答案使用信息为使用，且为修改后使用的情况下，表示对象提供方在至少一个初始答案中选择一个目标初始答案后，对该目标初始答案进行修改，并将修改结果作为回复内容，向用户进行回复，因此，在确定答案使用信息为使用的情况下，可先从答案使用信息中获取对象提供方所使用的中间答案，然后判断中间答案与至少一个初始答案中的任意一个初始答案是否一致，若不一致，则表示用户对初始答案进行修改后，生成中间答案，并将中间答案作为回复内容进行回复，这种情况下，可将该中间答案确定为待查询问题的目标答案，并将待查询问题、目标答案、初始文档及中间答案(目标答案)在初始文档中的位置信息作为训练样本，并为该训练样本添加有答案的样本标签，以构建答案检测模型的训练样本数据。
100.通过对象提供方对答案检测模输出的问答对进行辅助审核，以对象提供方对初始答案的使用信息作为反馈，对答案检测模型输出的初始答案进行调整，而减少了人工标注的过程，既有利于降低人工审核成本，有利于提高答案调整结果的准确性。
101.具体实施时，所述位置信息包括所述初始答案在所述初始文档中的第一起始位置以及第一结束位置；
102.相应的，所述根据所述待查询问题、所述目标答案、所述初始文档及所述位置信息构建所述答案检测模型的训练样本数据，包括：
103.根据所述第一起始位置及所述第一结束位置确定所述初始答案对应的第一答案长度，并确定所述目标答案对应的第二答案长度；
104.判断所述第一答案长度与所述第二答案长度是否相等；
105.若是，则根据所述待查询问题、所述目标答案、所述初始文档及所述位置信息构建所述答案检测模型的训练样本数据；
106.若否，则将所述第一起始位置确定为所述目标答案在所述初始文档中的第二起始位置；
107.根据所述第二起始位置及所述第二答案长度，确定所述目标答案在所述初始文档中的第二结束位置；
108.根据所述待查询问题、所述目标答案、所述初始文档、所述第二起始位置及所述第二结束位置，构建所述答案检测模型的训练样本数据。
109.具体的，如前所述，将待查询问题和初始文档输入答案检测模型后，答案检测模型除输出初始文档中包含的待查询问题的初始答案外，还可输出初始答案在初始文档中的位置信息，而位置信息即可以包括初始答案在初始文档中的第一起始位置以及第一结束位置。
110.因此，在根据待查询问题、目标答案、初始文档及位置信息构建训练样本数据时，可先根据第一起始位置和第一结束位置确定初始答案的第一答案长度，该第一答案长度可以是初始答案对应的字数，然后由于答案使用信息中可包含对象提供方所使用答案的答案内容，即目标答案的答案内容，因此，可根据答案使用信息中包含的目标答案的答案内容，确定目标答案对应的第二答案长度(目标答案的字数)，然后将第一答案长度与第二答案长度进行比对，以判断目标答案与初始答案的答案长度是否一致。
111.若比对一致，则可将待查询问题、目标答案、初始文档及初始答案(目标答案与初始答案可能相同，也可能不同)在初始文档中的位置信息作为训练样本，并为该训练样本添加有答案的样本标签，以构建答案检测模型的训练样本数据，其中，由于目标答案与初始答案的答案长度一致，因此，初始答案在初始文档中的位置信息同样可以作为目标答案在初始文档中的位置信息。
112.另外，在目标答案与初始答案的答案长度不一致的情况下，则表示对象提供方可能在至少一个初始答案中选择一个目标初始答案后，对该目标初始答案进行修改，并将修改结果作为回复内容，向用户进行回复。
113.这种情况下，由于需要利用目标答案在初始文档中的位置信息构建训练样本数据，因此，可先将目标初始答案在初始文档中的第一起始位置确定为目标答案在初始文档中的第二起始位置，然后根据目标答案的答案长度，确定目标答案在初始文档中的第二结束位置，以将第二起始位置和第二结束位置作为目标答案在初始文档中的位置信息，然后将待查询问题、目标答案、初始文档及目标答案在初始文档中的位置信息(第二起始位置和第二结束位置)作为训练样本，并为该训练样本添加有答案的样本标签，以构建答案检测模型的训练样本数据。
114.通过对象提供方对答案检测模输出的问答对进行辅助审核，以对象提供方对初始答案的使用信息作为反馈，对答案检测模型输出的初始答案进行调整，而减少了人工标注的过程，既有利于降低人工审核成本，有利于提高答案调整结果的准确性。
115.其中，根据所述待查询问题、所述目标答案、所述初始文档、所述第二起始位置及所述第二结束位置，构建所述答案检测模型的训练样本数据，包括：
116.根据所述第二起始位置及所述第二结束位置，将所述初始文档中的所述初始答案替换为所述目标答案，生成目标文档；
117.将所述待查询问题、所述目标答案、所述目标文档、所述第二起始位置及所述第二结束位置作为训练样本，将有答案作为样本标签，以构建所述答案检测模型的训练样本数据。
118.具体的，在目标答案与初始答案的答案长度不一致的情况下，即表示目标答案与初始答案的答案内容不一致，这种情况下，在根据待查询问题、目标答案和初始文档构建训练样本数据时，由于初始文档中可能未包含目标答案的答案内容，因此，可先将初始文档中初始答案的答案内容替换为目标答案的答案内容，即先将初始文档中初始答案的答案内容删除，然后从初始答案的起始位置开始，插入目标答案的答案内容，以生成目标文档，再将待查询问题、目标答案、初始文档及目标答案在初始文档中的位置信息(第二起始位置和第二结束位置)作为训练样本，并为该训练样本添加有答案的样本标签，以构建答案检测模型的训练样本数据。
119.通过对象提供方对答案检测模输出的问答对进行辅助审核，以对象提供方对初始答案的使用信息作为反馈，对答案检测模型输出的初始答案进行调整，而减少了人工标注的过程，既有利于降低人工审核成本，有利于提高答案调整结果的准确性。
120.具体实施时，在确定所述答案使用信息为未使用的情况下，判断所述初始答案的准确度是否大于预设准确度阈值；
121.若是，则确定所述初始答案在所述初始文档中的位置信息，并将所述待查询问题、
所述初始答案、所述初始文档及所述位置信息作为训练样本，将有答案作为样本标签，以构建训练样本数据；
122.若否，则将所述待查询问题及所述初始文档作为训练样本，将无答案作为样本标签，以构建训练样本数据。
123.具体的，如前所述，答案使用信息可以包括使用或未使用。
124.本说明书实施例中，在答案使用信息为未使用的情况下，构建训练样本数据时，由于需要为训练样本添加有答案或无答案的标签，而对象提供方在未使用初始答案时，可能是初始文档中包含正确的答案范围，但答案检测模型挖掘到了错误的答案范围，或者可能是初始文档中没有正确的答案范围，但答案检测模型错误的挖掘出了答案，导致展示给对象提供方错误的问答对，再或者，可能是初始文档中包含正确的答案范围，答案检测模型也挖掘了较为正确的答案范围，而在将该答案范围对应的初始答案展示给对象提供方后，对象提供方确定该初始答案的准确度较低，因此未使用该初始答案。
125.因此，在确定答案使用信息为未使用的情况下，可先根据待查询问题及初始答案的内容，确定初始答案的准确度，并确定该准确度是否大于预设准确度阈值，若大于，则表示初始文档中包含待查询问题的答案，构建训练样本数据时，即可先确定初始答案在初始文档中的位置信息，并将待查询问题、初始答案、初始文档及所述位置信息作为训练样本，将有答案作为样本标签，以构建训练样本数据。
126.或者，在确定该准确度小于等于预设准确度阈值的情况下，则表示答案检测模型输出了错误的答案，这种情况下，一种可能即是初始文档中没有正确的答案范围，但答案检测模型错误的挖掘出了答案，导致展示给对象提供方错误的问答对，因此，构建训练样本数据时，即可将待查询问题及初始文档作为训练样本，将无答案作为样本标签，以构建训练样本数据。
127.再或者，初始文档中包含正确的答案范围，但答案检测模型挖掘到了错误的答案范围，这种情况下，可重新确定初始文档中包含的该待查询问题的答案，并将待查询问题、答案、初始文档及答案在初始文档中的位置信息作为训练样本，将有答案作为样本标签，以构建训练样本数据。
128.通过对象提供方对答案检测模输出的问答对进行辅助审核，以对象提供方对初始答案的使用信息作为反馈，对答案检测模型输出的初始答案进行调整，而减少了人工标注的过程，既有利于降低人工审核成本，有利于提高答案调整结果的准确性。
129.具体实施时，根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案，包括：
130.在确定所述答案使用信息为使用的情况下，获取所述对象提供方使用的中间答案，并判断所述中间答案与所述初始答案是否一致；
131.若否，则确定所述初始文档中每个文本片段与所述中间答案间的语义相似度，并将语义相似度大于预设相似度阈值的目标文本片段确定为所述待查询问题的目标答案。
132.具体的，如前所述，答案使用信息可以包括使用或未使用，而使用又可能包含两种情况，直接使用和修改后使用。
133.本说明书实施例中，在确定答案使用信息为使用的情况下，可进一步判断对象提供方所使用的中间答案与初始答案是否一致，若不一致，则表示对象提供方对初始答案进
行修改后，将修改结果作为回复内容进行回复。
134.基于此，在答案使用信息为使用，且为修改后使用的情况下，由于构建训练样本数据需使用目标答案(中间答案)在初始文档中的位置信息，而初始文档中可能未包含该中间答案，因此，可先确定初始文档中每个文本片段与该中间答案间的语义相似度，并将语义相似度大于预设相似度阈值的目标文本片段确定为待查询问题的目标答案，再将待查询问题、目标文本片段、初始文档及目标文本片段在初始文档中的位置信息作为训练样本，将有答案作为样本标签，以构建训练样本数据。
135.另外，在确定所述答案使用信息为未使用的情况下，判断所述初始答案的准确度是否大于预设准确度阈值；
136.若是，则根据所述待查询问题对所述初始答案进行调整，生成目标答案；
137.确定所述初始答案在所述初始文档中的位置信息，并根据所述待查询问题、所述目标答案、所述初始文档及所述位置信息构建所述答案检测模型的训练样本数据。
138.具体的，在对象提供方未使用初始答案，但该初始答案的准确度相对较高的情况下，可根据待查询问题对该初始答案进行进一步调整，使得调整生成的目标答案，其准确度更高，以增加该目标答案的使用率，基于此构建训练样本数据，即可将待查询问题、目标答案、初始文档及目标答案在初始文档中位置信息作为训练样本，并为该训练样本添加有答案的样本标签，从而构建训练样本数据。
139.本说明书实施例提供的另一种数据处理过程的示意图如图3所示，其应用场景是智能客服的问答对挖掘，通过将人工客服的临近回复作为初始文档，将消费者的提问作为待查询问题，以通过答案检测模型从人工客服的回复中抽取到相关的精准回复。但由于在智能问答场景中，对话内容涉及大量的电商领域知识，以及人工客服回复数据存在的噪声较多(例如：与问题无关的营销内容，客服无回复，客服回复过长，客服重复解释)，可能无法依据现存的公共数据集训练一个效果较好的答案检测模型。而如果采用前述的人工客服标注方式，则会产生较大的人工标注成本，并且由于问答内容更新较快，无法做到数据集的持续产出。
140.基于此，本说明书实施例利用商家对答案检测模型产出的问答对进行辅助审核这一产品形态，以商家的采纳、修改采纳、删除动作作为反馈，生成了一套低成本的数据集构造方式，具体的实现步骤如下：
141.1.将答案检测模型输出的结果展示给商家后，商家会进行采纳、修改采纳、删除等三个操作；
142.2.若商家进行采纳，则将该问答对对应的初始文档、待查询问题、以及初始答案在初始文档的位置存入“有答案数据集”；
143.3.若商家进行修改采纳操作，则可将初始文档中初始答案所在的部分替换为商家修改的答案，并将新文档、待查询问题以及修改的答案在新文档中的位置存入“有答案数据集”；
144.4.若商家进行删除操作，则可根据初始文档和待查询问题重新进行答案标注。若确定该问题在初始文档中可以找到答案，则将新的改正数据存入“有答案数据集”，若确定该问题在初始文档中无法找到答案，则将初始文档、待查询问题和“无法回答标识”存入“无答案数据集”。
145.本说明书实施例提供的数据处理方法了应用于电商领域的智能客服。智能客服的主要功能是自动、快速、准确的解决消费者在进行购买时的相关问题。机器阅读理解作为人工智能领域的突出研究成果，被广泛的用于智能问答的对话以及问题-答案生产中。举例来说，可以通过机器阅读理解模型，根据消费者的实时问题，高亮答案中最相关的部分，减少消费者的理解成本。同时又可以将阅读理解模型作为一个答案生产工具，让其从消费者和人工客服的对话当中，提取出问题-答案对，自动的提升智能客服的问题解决能力。然而，上述的应用都离不开一个依赖于大量有效训练样本数据的高质量阅读理解模型。
146.基于此，本说明书实施例提供的数据处理方法，在于尽可能降低人工标注成本和标注误差的情况下，依托于商家对答案检测模型产出结果的反馈，生成智能客服场景中高质量的阅读理解数据集，用于答案检测模型的迭代优化以及标准评测。
147.由于本说明书实施例使用商家对模型输出结果的采纳以及修改采纳操作，可以得到较多的“可回答”数据，且由于各个商家对于其各自商品相关问题的答案较为熟悉，且具有专业的背景知识，其采纳操作是通常是较为可靠的。而且由于所采纳的问答对通过智能客服在线上合适情况下给出答案，即使存在采纳错误的情况，后续也可通过对线上的日常筛查发现。
148.另外，由于向对象提供方进行前端展示的问答对来源于答案检测模型实时输出的挖掘结果，通过本说明书实施例产出的数据能够对答案检测模型的效果进行直接的干预以及提升，即对模型产出的错误部分在下一批数据中进行修正。
149.本说明书实施例通过前端的商家采纳动作，优化抽取式阅读理解数据集的生产方式，不断以优化模型为目标产出新数据集合，形成数据闭环并且降低人工审核成本。
150.本说明书一个实施例通过获取用户针对目标对象提交的待查询问题，并获取初始文档，其中，所述初始文档中包含所述待查询问题对应的初始答案，将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始答案，将所述待查询问题及所述初始答案发送至对象提供方，并获取所述对象提供方针对所述初始答案生成的答案使用信息，根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案。
151.本说明书实施例通过项目提供方针对答案检测模型输出的初始答案的使用信息，优化抽取式阅读理解数据集的生产方式，即实现通过对象提供方对答案检测模输出的问答对进行辅助审核，以对象提供方对初始答案的使用信息作为反馈，对答案检测模型输出的初始答案进行调整，而减少了人工标注的过程，既有利于降低人工审核成本，有利于提高答案调整结果的准确性。
152.下述结合附图4，以本说明书提供的数据处理方法在电商领域的应用为例，对所述数据处理方法进行进一步说明。其中，图4示出了本说明书一个实施例提供的一种数据处理方法的处理过程流程图，具体包括以下步骤。
153.步骤402，获取用户针对目标商品提交的待查询问题，并获取初始文档，其中，初始文档中包含待查询问题对应的初始答案。
154.步骤404，将待查询问题以及初始文档输入答案检测模型进行处理，获得初始答案及初始答案在初始文档中的位置信息。
155.步骤406，将待查询问题及初始答案发送至商家，并获取商家针对初始答案生成的采纳结果。
156.步骤408，在确定采纳结果为采纳的情况下，将初始答案确定为待查询问题的目标答案。
157.步骤410，将待查询问题、目标答案、初始文档及初始答案在初始文档中的位置信息作为训练样本，将有答案作为样本标签，以构建答案检测模型的训练样本数据。
158.步骤412，在确定采纳结果为修改采纳的情况下，获取商家使用的中间答案，并将中间答案确定为待查询问题的目标答案。
159.步骤414，将初始文档中的初始答案替换为目标答案，生成目标文档。
160.步骤416，将待查询问题、目标答案、目标文档、中间答案在目标文档中的位置信息作为训练样本，将有答案作为样本标签，以构建答案检测模型的训练样本数据。
161.步骤418，在确定采纳结果为未采纳的情况下，确定初始答案的准确度是否大于预设准确度阈值。
162.步骤420，若初始答案的准确度大于预设准确度阈值，则确定初始答案在初始文档中的位置信息，并将待查询问题、初始答案、初始文档及初始答案在初始文档中的位置信息作为训练样本，将有答案作为样本标签，以构建训练样本数据。
163.步骤422，若初始答案的准确度小于等于预设准确度阈值，则将待查询问题及初始文档作为训练样本，将无答案作为样本标签，以构建训练样本数据。
164.步骤424，通过训练样本数据对答案检测模型进行迭代训练。
165.本说明书实施例通过商家针对答案检测模型输出的初始答案的使用信息，优化抽取式阅读理解数据集的生产方式，即实现通过商家对答案检测模输出的问答对进行辅助审核，以商家对初始答案的使用信息作为反馈，对答案检测模型输出的初始答案进行调整，而减少了人工标注的过程，既有利于降低人工审核成本，有利于提高答案调整结果的准确性。
166.与上述方法实施例相对应，本说明书还提供了数据处理装置实施例，图5示出了本说明书一个实施例提供的一种数据处理装置的结构示意图。如图5所示，该装置包括：
167.获取模块502，被配置为获取用户针对目标对象提交的待查询问题，并获取初始文档，其中，所述初始文档中包含所述待查询问题对应的初始答案；
168.处理模块504，被配置为将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始答案；
169.发送模块506，被配置为将所述待查询问题及所述初始答案发送至对象提供方，并获取所述对象提供方针对所述初始答案生成的答案使用信息；
170.确定模块508，被配置为根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案。
171.可选地，所述数据处理装置，还包括：
172.输入模块，被配置为将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始答案在所述初始文档中的位置信息；
173.训练模块，被配置为根据所述待查询问题、所述目标答案、所述初始文档及所述位置信息构建所述答案检测模型的训练样本数据，通过所述训练样本数据对所述答案检测模型进行迭代训练。
174.可选地，所述确定模块508，进一步被配置为：
175.在确定所述答案使用信息为使用的情况下，将所述初始答案确定为所述待查询问
题的目标答案；
176.相应地，所述训练模块，进一步被配置为：
177.将所述待查询问题、所述目标答案、所述初始文档及所述位置信息作为训练样本，将有答案作为样本标签，以构建所述答案检测模型的训练样本数据。
178.可选地，所述确定模块508，进一步被配置为：
179.在确定所述答案使用信息为使用的情况下，获取所述对象提供方使用的中间答案，并判断所述中间答案与所述初始答案是否一致；
180.若否，则将所述中间答案确定为所述待查询问题的目标答案；
181.相应地，所述训练模块，进一步被配置为：
182.将所述待查询问题、所述目标答案、所述初始文档及所述位置信息作为训练样本，将有答案作为样本标签，以构建所述答案检测模型的训练样本数据。
183.可选地，所述位置信息包括所述初始答案在所述初始文档中的第一起始位置以及第一结束位置；
184.相应的，所述训练模块，进一步被配置为：
185.根据所述第一起始位置及所述第一结束位置确定所述初始答案对应的第一答案长度，并确定所述目标答案对应的第二答案长度；
186.判断所述第一答案长度与所述第二答案长度是否相等；
187.若是，则根据所述待查询问题、所述目标答案、所述初始文档及所述位置信息构建所述答案检测模型的训练样本数据。
188.可选地，在所述判断所述第一答案长度与所述第二答案长度是否相等的执行结果为否的情况下，所述装置还包括构建模块，被配置为：
189.将所述第一起始位置确定为所述目标答案在所述初始文档中的第二起始位置；
190.根据所述第二起始位置及所述第二答案长度，确定所述目标答案在所述初始文档中的第二结束位置；
191.根据所述待查询问题、所述目标答案、所述初始文档、所述第二起始位置及所述第二结束位置，构建所述答案检测模型的训练样本数据。
192.可选地，所述构建模块，进一步被配置为：
193.根据所述第二起始位置及所述第二结束位置，将所述初始文档中的所述初始答案替换为所述目标答案，生成目标文档；
194.将所述待查询问题、所述目标答案、所述目标文档、所述第二起始位置及所述第二结束位置作为训练样本，将有答案作为样本标签，以构建所述答案检测模型的训练样本数据。
195.可选地，所述数据处理装置，还包括判断模块，被配置为：
196.在确定所述答案使用信息为未使用的情况下，判断所述初始答案的准确度是否大于预设准确度阈值；
197.若是，则确定所述初始答案在所述初始文档中的位置信息，并所述待查询问题、所述初始答案、所述初始文档及所述位置信息作为训练样本，将有答案作为样本标签，以构建训练样本数据；
198.若否，则将所述待查询问题及所述初始文档作为训练样本，将无答案作为样本标
签，以构建训练样本数据。
199.可选地，所述确定模块508，进一步被配置为：
200.在确定所述答案使用信息为使用的情况下，获取所述对象提供方使用的中间答案，并判断所述中间答案与所述初始答案是否一致；
201.若否，则确定所述初始文档中每个文本片段与所述中间答案间的语义相似度，并将语义相似度大于预设相似度阈值的目标文本片段确定为所述待查询问题的目标答案。
202.可选地，所述数据处理装置，还包括调整模块，被配置为：
203.在确定所述答案使用信息为未使用的情况下，判断所述初始答案的准确度是否大于预设准确度阈值；
204.若是，则根据所述待查询问题对所述初始答案进行调整，生成目标答案；
205.确定所述初始答案在所述初始文档中的位置信息，并根据所述待查询问题、所述目标答案、所述初始文档及所述位置信息构建所述答案检测模型的训练样本数据。
206.上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。
207.图6示出了根据本说明书一个实施例提供的一种问答处理方法的示意图，如图6所示，用户通过对话交互界面向交易处理平台发送待查询问题，交易处理平台接收该待查询问题后，获取初始文档，再将初始文档和待查询问题输入至答案检测模型进行答案检测处理，输出对应的初始答案，该初始答案可以是一个或至少两个，例如，初始答案为答案1、答案2和答案3，然后将初始答案发送至商品提供方(例如，商家或商家的客服)，由商品提供方确定是否使用其中一个或至少两个初始答案作为待查询问题的回复内容进行回复。
208.若商品提供方选择将答案1作为待查询问题的回复内容，则可继续在对话交互界面展示答案1。
209.另外，商品交易平台可以获取商品提供方对各初始答案的答案使用信息，例如使用或未使用等，并可根据答案使用信息对初始答案进行调整，以实现通过商品提供方对答案检测模输出的问答对进行辅助审核，以商品提供方对初始答案的使用信息作为反馈，对答案检测模型输出的初始答案进行调整，而减少了人工标注的过程，既有利于降低人工审核成本，有利于提高答案调整结果的准确性。
210.本说明书实施例通过商品提供方针对答案检测模型输出的初始答案的使用信息，优化抽取式阅读理解数据集的生产方式，即实现通过商品提供方对答案检测模输出的问答对进行辅助审核，以商品提供方对初始答案的使用信息作为反馈，对答案检测模型输出的初始答案进行调整，而减少了人工标注的过程，既有利于降低人工审核成本，有利于提高答案调整结果的准确性。
211.上述为本实施例的一种问答处理方法的示意性方案。需要说明的是，该问答处理方法的技术方案与上述的数据处理方法的技术方案属于同一构思，问答处理方法的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。
212.与上述方法实施例相对应，本说明书还提供了问答处理装置实施例，图7示出了本说明书一个实施例提供的一种问答处理装置的结构示意图。如图7所示，该装置包括：
213.获取模块702，被配置为获取用户通过对话交互界面针对目标商品提交的待查询
问题；
214.输入模块704，被配置为获取初始文档，并将所述待查询问题以及所述初始文档输入答案检测模型进行处理，获得所述初始文档中包含的所述待查询问题的初始答案；
215.发送模块706，被配置为将所述待查询问题及所述初始答案发送至商品提供方，并获取所述商品提供方针对所述初始答案生成的答案使用信息；
216.确定模块708，被配置为根据所述答案使用信息及所述初始答案，确定所述待查询问题的目标答案。
217.上述为本实施例的一种问答处理装置的示意性方案。需要说明的是，该问答处理装置的技术方案与上述的问答处理方法的技术方案属于同一构思，问答处理装置的技术方案未详细描述的细节内容，均可以参见上述问答处理方法的技术方案的描述。
218.图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。
219.计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic))中的一个或多个，诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口，等等。
220.在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
221.计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
222.其中，处理器820用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法或上述问答处理方法的步骤。
223.上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据处理方法或上述问答处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法或上述问答处理方法的技术方案的描述。
224.本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法或上述问答处理方法的步骤。
225.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法或上述问答处理方法的技术方案属于同一构思，
存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法或上述问答处理方法的技术方案的描述。
226.本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据处理方法或上述问答处理方法的步骤。
227.上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的数据处理方法或上述问答处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述数据处理方法或上述问答处理方法的技术方案的描述。
228.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
229.所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
230.需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。
231.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
232.以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹昊亮
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。