需求匹配方法及装置、存储介质、终端与流程

文档序号：15558065发布日期：2018-09-29 01:35阅读：152来源：国知局

本发明涉及数据流通技术领域，尤其涉及一种需求匹配方法及装置、存储介质、终端。

背景技术：

目前数据流通平台的交易大厅提供交易品名称检索功能。需求方需要获取数据时，可以根据交易品名称进行查询匹配，并可以与查询命中的供应方进行数据交易。

但是，现有技术中匹配方式要求需求方的输入的关键词与供应方提供的交易品名称完全一致。而由于交易品的命名尚未形成标准认知，不同供应方对于互联对象的描述也存在文字表达上的差异，需求方通过检索很难准确查找到需要订购的互联对象。

技术实现要素：

本发明解决的技术问题是如何提高需求方与供应方之间的需求匹配效率。

为解决上述技术问题，本发明实施例提供一种需求匹配方法，需求匹配方法包括：离线训练文本匹配模型和需求匹配模型；接收需求方输入的需求信息，所述需求信息包括多种类别的关键字；至少利用所述文本匹配模型计算所述需求信息与每一供应数据的多个语义相似度，所述多个语义相似度与多个类别相对应；利用所述需求匹配模型和所述多个语义相似度计算所述需求信息与每一供应数据的匹配相似度，以用于确定提供给所述需求方的最终供应数据。

可选的，所述需求信息包括以下一种或多种关键字：交易品名称、交易品分类、描述信息、应用场景、数据标识或约束条件，所述约束条件包括以下一种或多种：流通限制条件、供应时间和计价方式。

可选的，所述需求匹配模型包括针对所述多个类别的权重；所述利用所述需求匹配模型和所述多个语义相似度计算所述需求信息与每一供应数据的匹配相似度包括：将所述多个语义相似度与对应的权重进行加权计算，得到所述匹配相似度。

可选的，所述接收需求方输入的需求信息之后还包括：对所述需求信息进行空格分词，并进行同义词替换，以形成第一关键字词组；对所述需求信息进行结巴全模式分词，以形成第二关键字词组；所述至少利用所述文本匹配模型计算所述需求信息与每一供应方提供的供应数据的多个语义相似度包括：采用模糊匹配算法对所述第一关键字词组与所述供应数据的信息进行匹配，并得到匹配结果；在所述匹配结果表明所述第一关键字词组与所述供应数据的信息均不匹配时，利用所述文本匹配模型对所述第二关键字词组与所述供应数据的信息进行匹配，以得到所述多个语义相似度。

可选的，所述供应数据的信息包括以下一种或多种：交易品名称、描述信息和所述供应数据所属类别的上级目录。

可选的，所述需求匹配方还包括：按照所述匹配相似度的高低顺序向所述需求方推送供应数据；将所述需求方选取的最终供应数据作为训练样本，对所述需求匹配模型进行训练。

为解决上述技术问题，本发明实施例还提供了一种需求匹配装置，需求匹配装置包括：离线训练模块，适于离线训练文本匹配模型和需求匹配模型；需求信息接收模块，适于接收需求方输入的需求信息，所述需求信息包括多种类别的关键字；语义相似度计算模块，适于至少利用所述文本匹配模型计算所述需求信息与每一供应数据的多个语义相似度，所述多个语义相似度与多个类别相对应；匹配相似度计算模块，适于利用所述需求匹配模型和所述多个语义相似度计算所述需求信息与每一供应数据的匹配相似度。

可选的，所述需求匹配模型包括针对所述多个类别的权重；所述匹配相似度计算模块将所述多个语义相似度与对应的权重进行加权计算，得到所述匹配相似度。

可选的，所述需求匹配装置还包括：替换模块，适于对所述需求信息进行空格分词，并进行同义词替换，以形成第一关键字词组；结巴分词模块，适于对所述需求信息进行结巴全模式分词，以形成第二关键字词组；所述语义相似度计算模块包括：第一匹配单元，适于采用模糊匹配算法对所述第一关键字词组与所述供应数据的信息进行匹配，并得到匹配结果；第二匹配单元，适于在所述匹配结果表明所述第一关键字词组与所述供应数据的信息均不匹配时，利用所述文本匹配模型对所述第二关键字词组与所述供应数据的信息进行匹配，以得到所述多个语义相似度。

可选的，所述供应数据的信息包括以下一种或多种：交易品名称、描述信息和所述供应数据所属类别的上级目录。

可选的，所述需求匹配装置还包括：数据推送模块，适于按照所述匹配相似度的高低顺序向所述需求方推送供应数据；训练模块，适于将所述需求方选取的最终供应数据作为训练样本，对所述需求匹配模型进行训练。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述需求匹配方法的步骤。

本发明实施例还公开了一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述需求匹配方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明技术方案离线训练文本匹配模型和需求匹配模型；接收需求方输入的需求信息，所述需求信息包括多种类别的关键字；至少利用所述文本匹配模型计算所述需求信息与每一供应数据的多个语义相似度，所述多个语义相似度与多个类别相对应；利用所述需求匹配模型和所述多个语义相似度计算所述需求信息与每一供应数据的匹配相似度。本发明技术方案中，需求方输入的需求信息可以包括多种类别的关键字，每一关键字与供应数据之间具备语义相似度，综合多个关键字的语义相似度可以确定需求信息的匹配相似度；避免了现有技术中需求信息须与供应数据完全一致导致的需求方获取不到需要订购的互联对象的问题，在需求信息与供应数据的描述存在差异的情况下，也可以获取到最终供应数据，并保证获取到的最终供应数据的准确性，提高需求方与供应方之间的需求匹配效率，提高用户体验。

进一步地，所述需求信息包括以下一种或多种关键字：交易品名称、交易品分类、描述信息、应用场景、数据标识或约束条件，所述约束条件包括以下一种或多种：流通限制条件、供应时间和计价方式。本发明技术方案提供上述多种标准化的结构化描述或非结构化描述，从而可以在此基础上结合量化的匹配相似度计算方式，实现需求方的需求信息与已挂牌供应数据(也可称为互联对象)间的查询匹配，进一步提高了需求方与供应方之间的需求匹配效率。

进一步地，按照所述匹配相似度的高低顺序向所述需求方推送供应数据；将所述需求方选取的最终供应数据作为训练样本，对所述需求匹配模型进行训练。本发明技术方案中，通过需求方确定的最终供应数据对需求匹配模型进行训练，实现了利用需求方的反馈强化需求匹配模型，从而提高了需求匹配的精准度。

附图说明

图1是本发明实施例一种需求匹配方法的流程图；

图2是本发明实施例另一种需求匹配方法的流程图；

图3是本发明实施例一种需求匹配方法的具体应用场景示意图；

图4是本发明实施例一种需求匹配装置的结构示意图；

具体实施方式

如背景技术中所述，现有技术中匹配方式要求需求方的输入的关键词与供应方提供的交易品名称完全一致。而由于交易品的命名尚未形成标准认知，不同供应方对于互联对象的描述也存在文字表达上的差异，需求方通过检索很难准确查找到需要订购的互联对象。

本发明技术方案中，需求方输入的需求信息可以包括多种类别的关键字，每一关键字与供应数据之间具备语义相似度，综合多个关键字的语义相似度可以确定需求信息的匹配相似度；避免了现有技术中需求信息须与供应数据完全一致导致的需求方获取不到需要订购的互联对象的问题，在需求信息与供应数据的描述存在差异的情况下，也可以获取到最终供应数据，并保证获取到的最终供应数据的准确性，提高需求方与供应方之间的需求匹配效率，提高用户体验。

此外，现有技术中，不同供应方所提供的同一交易品的标识(identity,id)类型、覆盖地域、更新频率、统计周期也各不相同，自由定价；上述事项未必能够完全满足需求方的需求。由此，需求方在根据交易品名称查询命中后，还需要一项项查看上述事项，费时费力。

进一步地，本发明技术方案中，所述需求信息包括以下一种或多种关键字：交易品名称、交易品分类、描述信息、应用场景、数据标识或约束条件，所述约束条件包括以下一种或多种：流通限制条件、供应时间和计价方式。本发明技术方案提供上述多种标准化的结构化描述或非结构化描述，从而可以在此基础上结合量化的匹配相似度计算方式，实现需求方的需求信息与已挂牌供应数据(也可称为互联对象)间的查询匹配，进一步提高了需求方与供应方之间的需求匹配效率。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种需求匹配方法的流程图。

图1所示需求匹配方法可以用于数据交易平台。所述需求匹配方法可以包括以下步骤：

步骤s101：离线训练文本匹配模型和需求匹配模型；

步骤s102：接收需求方输入的需求信息，所述需求信息包括多种类别的关键字；

步骤s103：至少利用所述文本匹配模型计算所述需求信息与每一供应数据的多个语义相似度，所述多个语义相似度与多个类别相对应；

步骤s104：利用所述需求匹配模型和所述多个语义相似度计算所述需求信息与每一供应数据的匹配相似度。

本实施例中，可以预先构建文本匹配模型和需求匹配模型，并预先选取样本数据。具体地，文本匹配模型使用的训练数据为多个具备相似度的词语；需求匹配模型使用的训练数据为多个语义相似度及其匹配相似度。例如，可以从网页中抓取中英文语料；构建数据流通领域的自定义词库；构建同义词库等。

可以理解的是，训练数据越多，文本匹配模型和需求匹配模型的训练效果越好。

在步骤s101的具体实施中，可以利用所述样本数据离线训练文本匹配模型和需求匹配模型。训练完成的文本匹配模型可以对文本进行语义相似度计算。训练完成的需求匹配模型可以根据多个语义相似度确定匹配相似度。

本领域技术人员可以理解的是，文本匹配模型可以采用任意可实施的语义相似度计算算法来构建；需求匹配模型可以采用任意可实施的运算算法来构建。例如，可以采用3层反向传播(backpropagation,bp)神经网络构建需求匹配模型。

需求方需要获取数据时，可以形成需求信息。需求信息可以表示需求方对所需数据的要求。在步骤s102的具体实施中，数据交易平台可以接收需求方输入的需求信息。进一步地，所述需求信息包括多种类别的关键字，以更加全面和准确的表示需求方的需求。

具体而言，数据交易平台可以预先定义多种类别；需求方可以根据预先定义的多种类别填写所述多种类别的关键字。

在步骤s103的具体实施中，利用文本匹配模型计算需求信息与供应数据的多个语义相似度时，可以是计算多个关键字与每一供应数据的语义相似度，从而得到针对多个关键字的语义相似度。

具体地，供应方在数据交易平台挂牌数据时，可以按照预先定义的多种类别填写对供应数据的描述。由此，在计算需求信息与供应数据的语义相似度时，可以计算关键字与其同类别的供应数据的描述的语义相似度。例如，关键字为交易品名称，供应数据的描述中也有交易品名称，则可以计算两者的语义相似度，该语义相似度与交易品名称相对应。

由于步骤103计算得到的是需求信息与供应数据在多个类别下的语义相似度，因此，在步骤s104的具体实施中，可以利用需求匹配模型将多个语义相似度计算得到匹配相似度。需求信息与每一供应数据之间具备匹配相似度。故而，通过比较匹配相似度可以确定提供给所述需求方的最终供应数据。换言之，最终供应数据可以满足需求方的需求。

具体而言，训练完成的需求匹配模型可以确定针对多个类别的权重。在计算匹配相似度时，可以利用多个类别对应的语义相似度与多个类别对应的权重来计算匹配相似度。

本发明实施例中，需求方输入的需求信息可以包括多种类别的关键字，每一关键字与供应数据之间具备语义相似度，综合多个关键字的语义相似度可以确定需求信息的匹配相似度；避免了现有技术中需求信息须与供应数据完全一致导致的需求方获取不到需要订购的互联对象的问题，在需求信息与供应数据的描述存在差异的情况下，也可以获取到最终供应数据，并保证获取到的最终供应数据的准确性，提高需求方与供应方之间的需求匹配效率，提高用户体验。

本发明一个优选实施例中，所述需求信息包括以下一种或多种关键字：交易品名称、交易品分类、描述信息、应用场景、数据标识或约束条件，所述约束条件包括以下一种或多种：流通限制条件、供应时间和计价方式。

本实施例中，上述关键字可以由数据交易平台预先定义。例如，交易品名称、交易品分类、描述信息和应用场景为必填字段；数据标识和约束条件为选填字段。需求信息中关键字的类别越多，其匹配相似度的准确性越高。在实际的应用中，需求方可以根据其实际的应用需求形成需求信息。

具体地，应用场景可以选自营销数据、征信数据、智慧城市和其他；交易品名称、交易品分类和描述信息可以是文本输入；数据标识可以从预先定义的id列表中选取。优选地，供应时间可以是更新频率、统计周期，流通限制条件可以是覆盖地域，计价方式可以是期望价格。更新频率、统计周期和覆盖地域可以从对应的下拉列表中选取；期望价格可以是文本输入。

相对应地，供应数据也可以包括以下一种或多种关键字：交易品名称、交易品分类、描述信息、应用场景、数据标识或约束条件。供应方在挂牌供应数据时，供应方可以按照数据交易平台定义的格式填写上述关键字。

供应数据还可以包括供应数据所属类别的上级目录。例如，供应数据所属类别为兴趣，其上级目录可以是行为记录。

在计算需求信息中交易品分类的语义相似度时，还可以计算需求信息中交易品分类与供应数据中的上级目录的语义相似度。

本发明一个具体实施例中，所述需求匹配模型包括针对所述多个类别的权重；图1所示步骤s104可以包括以下步骤：将所述多个语义相似度与对应的权重进行加权计算，得到所述匹配相似度。

本实施例中，匹配相似度是利用多个语义相似度加权得到的。其中，类别的权重可以表示该类别的重要性程度。例如，关键字“交易品名称”的权重最高，表示在匹配过程中，将会侧重确定与需求信息中交易品名称相似度较高的最终供应数据。

本发明另一个具体实施例中，请参照图2，步骤s102之后还可以包括以下步骤：步骤s201：对所述需求信息进行空格分词，并进行同义词替换，以形成第一关键字词组；步骤s202：对所述需求信息进行结巴全模式分词，以形成第二关键字词组。

本发明实施例为了提高匹配的准确性，对需求信息采用了两种分词方式，形成了两组关键词组。例如，需求信息为“人脸身份证识别”，则第一关键词组可以为词“人脸+身份证识别”，第二关键字词组可以为“人脸+身份+身份证+识别”。

结巴全模式分词是在专用词库的基础上进行分词的；相对于空格分词，结巴全模式分词的分词准确性更高。第一关键词组和第二关键字词组可以作为文本匹配模型的输入。

图1所示步骤s103可以包括以下步骤：步骤s203：采用模糊匹配算法对所述第一关键字词组与所述供应数据的信息进行匹配，并得到匹配结果；

步骤s204：在所述匹配结果表明所述第一关键字词组与所述供应数据的信息均不匹配时，利用所述文本匹配模型对所述第二关键字词组与所述供应数据的信息进行匹配，以得到所述多个语义相似度。

本实施例中，对两种关键词组采用不同的算法计算语义相似度，保证了匹配的准确性。

在步骤s203的具体实施中，如果匹配结果表明第一关键字词组中的关键字与所述供应数据的信息相匹配，则该关键字对应的类别的语义相似度为1。

第一关键字词组与所述供应数据的信息均不匹配时，利用第二关键词组与所述供应数据的信息进行匹配，以得到针对多个类别的多个语义相似度。

本发明一个具体应用场景中，第一关键词组包括交易品名称、交易品分类和描述信息。利用文本模糊匹配算法将第一关键词组中各个关键字与供应数据进行匹配，匹配结果表示未匹配到与第一关键词组中交易品名称、交易品分类和描述信息一致的供应数据。在这种情况下，表示没有供应数据完全满足需求方的需求。

第二关键词组包括交易品名称、交易品分类和描述信息。则利用文本匹配模型计算第二关键词组与供应数据的语义相似度。例如，得到交易品名称与供应数据a的语义相似度为0.6，交易品分类与供应数据a的语义相似度为0.9，描述信息与供应数据a的语义相似度为0.7。

进一步地，第二关键词组还可以包括应用场景、数据标识、流通限制条件、供应时间和计价方式。第二关键词组与供应数据的语义相似度中任一项不为0的情况下，还可以利用文本匹配模型计算应用场景与供应数据a的语义相似度、数据标识与供应数据a的语义相似度、流通限制条件与供应数据a的语义相似度、供应时间与供应数据a的语义相似度和计价方式与供应数据a的语义相似度。

将上述语义相似度输入需求匹配模型，可以得到需求信息与供应数据a的匹配相似度。

本发明另一个优选实施例中，图1所示需求匹配方法还可以包括以下步骤：按照所述匹配相似度的高低顺序向所述需求方推送供应数据；将所述需求方选取的最终供应数据作为训练样本，对所述需求匹配模型进行训练。

本发明实施例中，通过需求方确定的最终供应数据对需求匹配模型进行训练，实现了利用需求方的反馈强化需求匹配模型，从而提高了需求匹配的精准度。

请参照图3，在本发明的应用场景中，需求方输入的需求信息包括：关键词1(图3中301)、关键词2(图3中302)、关键词3(图3中303)和描述信息304。

关键词1可以是交易品名称、关键词2可以是交易品描述、关键词3可以是交易品类别，关键词4可以是其他描述信息。

进而在步骤305、步骤306、步骤307和步骤308中，分别进行针对交易品名称的关键字匹配、针对交易品描述的关键字匹配、针对交易品类别(对应供应数据的上级目录)的关键字匹配，以及针对描述信息的短文本匹配。

在步骤309中，判断上述匹配过程得到的语义相似度是否均为0，如果是，则结束需求匹配过程，表示不存在与需求信息相匹配的供应数据。否则，获取需求方输入的应用场景310、期望价格311、覆盖地域312和输入项313。

进而在步骤314、步骤315、步骤316和步骤317中，分别针对应用场景和覆盖地域进行多项匹配计算，针对挂牌价格进行单项匹配计算，对输入项(也即文本)进行语义匹配。对于单项匹配，命中为1，不命中为0。对于多项匹配，是在输入为多选项时，每项分别匹配已挂牌供应数据(命中为1，不命中为0)，加总单项匹配结果/匹配项数量。例如，需求方输入imei、银行卡、微信号3项数据标识，供应数据a的数据标识为imei、银行卡，则数据标识的匹配结果为2/3；需求方输入北京、上海2项，供应数据a的覆盖地域为全国，则覆盖地域的匹配结果为1；其中，全国包含所有区域。

如果输入为自然数，例如统计周期、期望价格，则落在已挂牌供应数据的统计周期或期望价格的数值范围内则为命中(命中为1，不命中为0)。

具体地，执行上述步骤时，是从数据交易平台的数据库319中调取供应数据信息318的。

进而在步骤321中，利用步骤305至步骤308以及步骤314至步骤317的计算结果，也即多个语义相似度，计算得到匹配相似度。

进一步地，供应方在将供应数据信息放入数据库319中时，数据交易平台可以对供应数据信息进行预处理320。例如可以是分词、去停用词、同义词替代等。

请参照图4，需求匹配装置40还可以包括离线训练模块401、需求信息接收模块402、语义相似度计算模块403和匹配相似度计算模块404。

离线训练模块401，适于离线训练文本匹配模型和需求匹配模型；

需求信息接收模块402，适于接收需求方输入的需求信息，所述需求信息包括多种类别的关键字；

语义相似度计算模块403，适于至少利用所述文本匹配模型计算所述需求信息与每一供应数据的多个语义相似度，所述多个语义相似度与多个类别相对应；

匹配相似度计算模块404，适于利用所述需求匹配模型和所述多个语义相似度计算所述需求信息与每一供应数据的匹配相似度。

优选地，所述需求信息包括以下一种或多种关键字：交易品名称、交易品分类、描述信息、应用场景、数据标识或约束条件，所述约束条件包括以下一种或多种：流通限制条件、供应时间和计价方式。

本发明一个具体实施例中，需求匹配模型包括针对所述多个类别的权重；所述匹配相似度计算模块404可以将所述多个语义相似度与对应的权重进行加权计算，得到所述匹配相似度。

本发明一个优选实施例中，图4所示需求匹配装置40还可以包括替换模块(图未示)，适于对所述需求信息进行空格分词，并进行同义词替换，以形成第一关键字词组；结巴分词模块(图未示)，适于对所述需求信息进行结巴全模式分词，以形成第二关键字词组；

进一步地，所述语义相似度计算模块403可以包括第一匹配单元(图未示)，适于采用模糊匹配算法对所述第一关键字词组与所述供应数据的信息进行匹配，并得到匹配结果；第二匹配单元(图未示)，适于在所述匹配结果表明所述第一关键字词组与所述供应数据的信息均不匹配时，利用所述文本匹配模型对所述第二关键字词组与所述供应数据的信息进行匹配，以得到所述多个语义相似度。

本发明另一个优选实施例中，图4所示需求匹配装置40还可以包括数据推送模块(图未示)，适于按照所述匹配相似度的高低顺序向所述需求方推送供应数据；训练模块(图未示)，适于将所述需求方选取的最终供应数据作为训练样本，对所述需求匹配模型进行训练。

关于所述需求匹配装置40的工作原理、工作方式的更多内容，可以参照图1至图2中的相关描述，这里不再赘述。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时可以执行图1、图2或图3中所示的需求匹配方法的步骤。所述存储介质可以包括rom、ram、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还公开了一种终端，所述终端可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1、图2或图3中所示的需求匹配方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汤奇峰;朱颖
技术所有人：上海数据交易中心有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。