会话标注方法、装置、存储介质及电子设备与流程

文档序号：20030073发布日期：2020-02-28 10:16阅读：127来源：国知局

本发明涉及计算机
技术领域：
，具体而言，涉及一种会话标注方法、装置、存储介质及电子设备。
背景技术：
：随着人工智能的发展，越来越多的智能产品应用在我们的生活中，比如公司门口的“刷脸打卡”设备，用的是人工智能的图像处理技术，自动驾驶用的是强化学习技术，电商网站的智能客服或智能音箱用的是人工智能领域的自然语言处理nlp技术，在这些技术的背后，都是深度学习在进行模型训练，模型背后需要大量的人工标注数据，标注工程是基础且重要的底层工作，它决定着模型的认知能力，指导模型的预测方向，现有的标注技术是靠很多人力逐条标注，为了保证质量，还需要人工抽样检验。现有技术用户与智能客户或者智能音箱之间进行会话时，例如，进行自然语言处理(naturallanguageprocessing，nlp)时，需要靠人工对用户输入的语音或文本逐条标注，比如，应用在nlp业务中，单轮会话比较简单，多轮会话标注逻辑就很复杂，靠大量人力堆积标注，大量时间检查标注，缺点有以下两点：(1)人工成本投入大，且都是重复劳动力，标注人员感到枯燥，容易疲劳，标注出现低级错误；(2)用户的输入文本或图片等被标注对象种类多样，人工标注可以部分解决问题，但是不能穷尽所有可能。因此需要一种新的会话标注方法、装置、存储介质及电子设备，能够实现对会话的自动标注，不仅减轻了人工成本，而且提升会话标注效率。在所述
背景技术：
部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。技术实现要素：有鉴于此，本发明提供一种会话标注方法、装置、存储介质及电子设备，对第一词组和第二词组的自动标注，提升会话标注的效率以及准确率，降低了人工成本。本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。根据本发明的第一方面，提供一种会话标注方法，其中，所述方法包括：获取用户输入文本；基于构建的第一模型标注出所述文本中的第一词组，基于构建的第二模型标注出所述文本中的第二词组。根据一些实施例，获取用户输入文本之后，所述方法还包括：筛选出所述文本中的首句文本；利用正则表达式对所述首句文本进行正则匹配，以对所述首句文本进行筛选；基于构建的第一模型标注出筛选后的所述首句文本中的第一词组，基于构建的第二模型标注出筛选后的所述首句文本中的第二词组。根据一些实施例，所述方法包括：基于品牌词库、产品词库以及结巴分词构建第一模型。根据一些实施例，基于构建的第一模型标注出所述文本中的第一词组，包括：基于结巴分词、产品词库以及品牌词库对所述文本进行分词；基于所述产品词库以及所述品牌词库对所述分词进行匹配，以标注出所述第一词组。根据一些实施例，所述第一词组包括：品牌词、产品词。根据一些实施例，所述方法包括：利用文本样本进行深度学习，以得到预测结果；利用所述文本样本已标注出的第二词组对所述预测结果进行校验，基于校验结果对进行深度学习的模型进行修正，以构建第二模型。根据一些实施例，所述方法还包括：利用k折交叉验证对文本样本进行深度学习，以构建第二模型。根据一些实施例，所述第二词组包括：意图分类词。根据一些实施例，所述方法还包括：通过将所述第一词组映射到bio格式的训练数据对所述第一词组进行校验。根据本发明的第二方面，提供一种会话标注装置，其中，所述装置包括：获取模块，用于获取用户输入文本；标注模块，用于基于构建的第一模型标注出所述文本中的第一词组，基于构建的第二模型标注出所述文本中的第二词组。根据一些实施例，所述装置还包括：预处理模块，用于筛选出所述文本中的首句文本，利用正则表达式对所述首句文本进行正则匹配，以对所述首句文本进行筛选；所述标准模块，配置为基于构建的第一模型标注出筛选后的所述首句文本中的第一词组，基于构建的第二模型标注出筛选后的所述首句文本中的第二词组。根据本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如第一方面所述的方法步骤。根据本发明的第四方面，提供一种电子设备，其中，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面所述的方法步骤。本发明实施例中，通过构建的第一模型和第二模型对会话进行标注，实现了对第一词组和第二词组的自动标注，提升会话标注的效率以及准确率，降低了人工成本。附图说明通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。图1是根据一示例性实施例示出的一种应用nlp会话标注方法的流程图；图2是表1的数据对应的柱状图；图3是根据一示例性实施例示出的一种基于本发明实施提出的nlp会话标注方法的端对端的深度学习框架图；图4是根据一示例性实施例示出的一种nlp会话标注装置的结构示意图；图5是根据一示例性实施例示出的一种电子设备的结构示意图。具体实施方式现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。nlp是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。下面以nlp会话为例对实施例对本发明提出的会话标注方法进行详细的说明。图1是根据一示例性实施例示出的一种应用nlp会话标注方法的流程图。如图1所示，在s110中，获取用户输入文本。需要指出的是，用户也可以输入语音，在进行会话标注时，将该语音转换为文本。根据本发明实施例，在获取用户输入文本之后，可以对于该文本进行无效语料的预处理，如可以筛选出所述文本中的首句文本，利用正则表达式对所述首句文本进行正则匹配，以对所述首句文本进行筛选，以便后续可以基于构建的第一模型标注出筛选后的所述首句文本中的第一词组，基于构建的第二模型标注出筛选后的所述首句文本中的第二词组。需要说明的是，在一些智能助理项目中，用户和助理小机器人的对话，最需要识别的可能是用户对话的首句，所以可以出筛选用户每次会话的第一句。本发明实施例中，可以为用户提供话术模板，例如，智能助理频道的话术中可以包括：“我要买***”，“帮我查一下，我买的***品牌的***到哪里了？”等，其中“***”的位置填充产品词和品牌词，若用户输入类似文本，则标注概率和准确率很高。本发明实施例中，话术模板可以利用产品提前给到的6000条数据，模型预测在测试机上发现badcase，找出规律，然后用斯坦福得corenlp批量产生正确的数据，提升训练集上话术模板的丰富程度。本发明实施例中，为了更准确的对nlp会话标注，可以首先统计出不同业务场景下的用户输入文本的数据分布。例如，表1是本发明实施例提供的一种智能助理在不同业务场景下的用户输入文本的数据分布表。图2是表1的数据对应的柱状图。需要说明的是，表1中的数据基本符合线上真实数据的。act_commodity2436act_order1015act_after_sales779act_discount597act_specify_discount690act_short501表1在筛选出首句文本后，利用正则表达式对首句文本进行正则匹配，以对所述首句文本进行筛选。经过正则匹配，可以去除首句文本中垃圾的、没有信息含量的用户输入，从而筛选出可能需要标注出的词组，如产品词、品牌词、修饰词等，表2为本发明实施例提供的一种首句文本以及正则匹配后筛选出的词组的对照表：input_textproductbrandwanted_deco潮伊曼的三件套我要退款三件套潮伊曼我要退货美的电风扇电风扇美的我三星手机坏了屏幕有的换吗手机屏幕三星金利来雕花皮鞋皮鞋金利来雕花表2在s120中，基于构建的第一模型标注出所述文本中的第一词组，基于构建的第二模型标注出所述文本中的第二词组。根据本发明实施例，可以基于品牌词库、产品词库以及结巴分词构建第一模型。需要说明的是，本发明实施例维护一个品牌词库，品牌词库表中可以有两个字段，第一个字段是品牌名称，第二个字段是品牌来源，本发明实施例中的品牌来源可以分为下面5个：(1)大数据部人工维护的一份品牌词库；(2)购物网站的品牌词库；(3)外部爬虫得到的品牌词；(4)运营维护的优质品牌词；(5)英文品牌词。需要说明的是，本发明实施例维护一个产品词库，产品词库表中可以有两个字段，第一个字段是产品词的名称，第二个字段是产品来源，本发明实施例中的产品来源可以分为下面2个：(1)大数据部人工维护的一份产品词；(2)购物网站的产品词库。基于结巴分词、产品词库以及品牌词库可以将文本精确分词和全分词，可以得到各个分词。进一步的，基于所述产品词库以及所述品牌词库对所述分词进行匹配，以标注出所述第一词组。需要说明的是，本发明实施例中还可以维护品牌—产品词配对词库，例如，从商品详情表中，提取配对的品牌词和产品词。从而利用该配对词库对文本进行精确的分词和全分词，以及在基于品牌—产品词配对词库对分词进行匹配，标注出第一词组。本发明实施例中，第一词组可以包括但不限于：品牌名、产品名。以维护的品牌词库为依据，对文本中的分词进行匹配，可以标注出文本中的品牌词，以维护的产品词库为依据，对文本中的分词进行匹配，可以标注出文本中的产品词。根据本发明实施例，通过两种方式构建第二模型：第一种方式：可以利用文本样本进行深度学习，以得到预测结果；利用所述文本样本已标注出的第二词组对所述预测结果进行校验，基于校验结果对进行深度学习的模型进行修正，以构建第二模型。第二种方式：可以利用k折交叉验证对文本样本进行深度学习，以构建第二模型。需要指出的是，文本样本是指已经标注出第二词组的文本，该文本样本的数量越多，构建的第二模型越准确。利用第一种方式构建第二模型时，利用深度学习模型对文本样本的第二词组进行预测，并利用这些样本已经标注出的第二词组对深度学习的预测的第二词组进行比对，不断地修正该深度学习模型，最终得到第二模型。在利用第二种方式构建第二模型时，可以将文本样本划分为k份，选取不同的k-1份的文本样本做深度学习，一共可以构建k个第二模型，利用每个k-1份文本样本对应的第k份的文本样本对每个第二模型进行验证，可以得到每个第二模型对应的第k份文本样本的预测结果，利用该预测结果与标注出的这些文本样本对应的实际第二词组，可以得到每个第二模型的正确率，选择正确率最高的第二模型为最终构建的第二模型。另外，还可以把该第二模型对第k份文本样本的预测结果中错误的进行累积，对这些文本样本做规律总结，逐步修正构建的第二模型。需要说明的是，为了进一步提升标注第二词组的准确率，还可以把对第k份文本样本的预测结果中错误的进行累积，返回给标注人员，并基于标注需求发出方对badcase做规律总结，逐步修正标注人员的认知，使其更熟悉标注的工作逐步修正标注人员的认知，使其更熟悉标注的工作，提升标注人员标注第二词组的准确率。根据本发明实施例，第二词组可以包括但不限于：意图分类词。本发明实施例中，通过构建的第一模型和第二模型对nlp会话进行标注，实现了对第一词组和第二词组的自动标注，提升会话标注的效率以及准确率，降低了人工成本。需要指出的是，在进行nlp会话标注时，有时需要标注出修饰词，例如，表1中的“金利来雕花皮鞋”中的“雕花”，该修饰词可以由标注人员标注。根据本发明实施例，在标注出第一词组以及第二词组后，还可以对标注的第一词组和第二词组进行校验。本发明实施例中，可以通过将所述第一词组映射到bio格式的训练数据对所述第一词组进行校验。例如，维护一张将用户输入的文本与bio格式数据的对应关系的映射表，基于该映射表，将本次用户输入的文本映射到“bio”格式训练数据，得到用户输入文本中的每个分词的标签，如“product”、“brand”。记录用户输入文本中的每个分词的位置，将该位置和标签对应的分词对应起来，形成“bio”格式训练数据后再按照映射表映射回用户输入文本的格式，若能成功映射回用户输入文本的格式，则验证第一词组标注正确，否则验证第一词组标注失败。需要指出的是，这种验证方式只能对第一模块标注的第一词组进行校验。若在标注人员较多的情况下，可以由多个标注人员对由第一模型和第二模型标注的第一词组和第二词组进行校验后，从中选择标注相同的第一词组和第二词组的、人数最多的标注人员所标注的第一词组和第二词组为正确，其他则认为标注错误。例如，让三个标注人员同时对第一模块和第二模块标注的词组进行校验，如果有两个人校验后标注的第一词组和第二词组相同，则该第一词组和第二词组标注正确，否则不予采用。图3是根据一示例性实施例示出的一种基于本发明实施提出的nlp会话标注方法的端对端的深度学习框架图。如图3所示，在自然语言理解nlu阶段中进行场景意图分类时需要调用第二模型，进行曹植填充时调用第一模型。其中，对话状态跟踪是nlp对话管理重要的组成部分，需要定义会话状态并且随着时间更新。本发明中dm会话管理参与子模块标注设计如下：规则rules：从某种品类的商品做起，定义必要槽位是品牌和价格，可选槽位可以是该商品的属性信息，例如，对于手机而言，可以是屏幕、摄像头、内存等，根据有向图的思路，槽位满足一定的条件，就触发相应的action。评估指标：本发明实施例中的评估指标可以设计为混淆矩阵，包括测试集上整体的准确率，预测样本的精确率，召回率和f1值。其中，准确率：在各个标签中预测正确的样本数量占总体的比例；召回率：预测正确的样本数量占真实为该标签的样本数量的比例；f1值：是精确率和召回率的调和平均数。多轮会话数据集：多轮会话数据来自于智能助理的对话数据，每一轮对话包括日志log.json和标注label.json。其中log.json包含每一个会话中的信息。会话编号：智能助理每一个会话独特的编号；会话日期：智能助理每一个会话的日期，格式为yyyy-mm-dd；会话时间：智能助理会话开始时间，格式是hh:mm:ss；用户编号：用户唯一标识符。语料信息：包括：用户输入信息索引：会话语句的文本语料索引，从0开始；说话者：信息的发出者，包括智能助理机器人和用户；文本记录：就是用户和智能助理对话的内容，可能有错别字或其它噪声；状态空间信息。其中，状态空间信息包括：业务场景：用户输入信息所属的业务场景类别，包括“具体商品查询”、“订单查询”、“售后服务”、“模糊优惠查询”、“具体优惠查询”和“特定业务查询”；标签bio格式：槽位值的标注数据，如果话语中的词语是槽值开头就在前面加b，不是槽值开头就加i，其它加o；智能助理采取的action：根据对话状态空间，智能助理的action包括“反问”、“搜索”、“结束对话”等；数据初始化：用户需要初始化进入智能助理频道。label.json是标签，标签的格式如下：会话编号：多轮会话唯一id标识；语料信息：包括：标注语句索引：输入文本话语的编号id；语义标注，智能助理action以及语义标签取值。其中，语义标注包括：槽位slot：[槽值的字符串列表]；智能助理action。智能助理action包括：action：动作的类别；属性：属性值的列表。本发明实施例中，对每一个槽位候选值，不仅考虑了槽值本身的语义，也考虑上下文的语境，以及对推进整个会话的价值。基于图3所示的基于本发明实施提出的nlp会话标注方法的端对端的深度学习框架图，可以完成多轮会话的流程，然后把有向图的模板改进为rnn的深度学习算法，特征构造为word2vector字符级别的特征，bagofwords词语级别的特征，场景意图特征和槽值特征，通过搭建多层神经网络rnn和dense、softmax等激活层网络，基本把会话管理dm模块实现了自动化。后面的自然语言生成模块nlg，是基于斯坦福corenlp写的正则话术，生成语句反馈给用户。需要指出的是，本发明实施例中提出的槽值选取，可以是其它槽位，本发明实施例中选取的槽位只是基于智能助理业务选取的经验值；不同业务场景标注数据的分布，可以是其它比例，本发明的比例是只是基于经验值提供的符合线上真实数据分布的数据。本发明实施例提出的nlp会话标注方法，在深度学习的模型中起到了很大的作用，使抽象工具是以标注为依据，丰富标签数据。应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施例。下述为本发明装置实施例，可以用于执行本发明方法实施例。在下文对装置的描述中，与前述方法相同的部分，将不再赘述。图4是根据一示例性实施例示出的一种nlp会话标注装置的结构示意图。如图4所示，所述装置400包括：获取模块410，用于获取用户输入文本；标注模块420，用于基于构建的第一模型标注出所述文本中的第一词组，基于构建的第二模型标注出所述文本中的第二词组。根据本发明实施例，所述装置400还包括：预处理模块430，用于筛选出所述文本中的首句文本，利用正则表达式对所述首句文本进行正则匹配，以对所述首句文本进行筛选；所述标注模块420，配置为基于构建的第一模型标注出筛选后的所述首句文本中的第一词组，基于构建的第二模型标注出筛选后的所述首句文本中的第二词组。本发明实施例中，通过构建的第一模型和第二模型对nlp会话进行标注，实现了对第一词组和第二词组的自动标注，提升nlp会话标注的效率以及准确率，降低了人工成本。作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备可以执行：获取用户输入文本；基于构建的第一模型标注出所述文本中的第一词组，基于构建的第二模型标注出所述文本中的第二词组。图5是根据一示例性实施例示出的一种电子设备的结构示意图。需要说明的是，图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。如图5所示，计算机系统500包括中央处理单元(cpu)501，其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram503中，还存储有系统500操作所需的各种程序和数据。cpu501、rom502以及ram503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。以下部件连接至i/o接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(cpu)501执行时，执行本申请的终端中限定的上述功能。需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、标注模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。以上具体示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王颖帅;李晓霞;苗诗雨
技术所有人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。