分类模型的训练方法、店铺分类的方法及装置与流程

文档序号:16250772发布日期:2018-12-12 00:01阅读:298来源:国知局
分类模型的训练方法、店铺分类的方法及装置与流程

本说明书一个或多个实施例涉及计算机技术领域,尤其涉及通过计算机分类模型的训练方法、店铺分类的方法和装置。

背景技术

随着计算机和互联网技术的发展,人们生活中接触的网络平台或应用越来越多,例如交友应用、购物应用、订餐应用、地图应用等等。其中,用户在使用一些可以推荐店铺的应用(如订餐应用、地图应用等)时,这些应用对店铺的营业状态(如是否停业)的描述十分重要。例如,如果用户想吃麻辣烫,按照地图搜索附近有一家麻辣烫的店铺,按照地图走过去却发现店铺已停业,将会给用户造成不好的体验。

因此,需要充分利用互联网数据,通过提取有效的训练特征,训练准确度较高的分类模型,确定出哪些是停业店铺,从而提高店铺分类的有效性。



技术实现要素:

本说明书一个或多个实施例描述了一种方法和装置,可以充分利用互联网数据,通过提取有效的训练特征,训练准确度较高的分类模型,在店铺分类时,准确确定出哪些是停业店铺,从而提高店铺分类的有效性。

根据第一方面,提供了一种分类模型的训练方法,所述分类模型用于判断店铺当前是否为真实存在的店铺,包括:选择预定数量的店铺样本,所述店铺样本对应有店铺信息和分类标签,所述分类标签包括真实存在店铺标签和非真实存在店铺标签,所述店铺信息包括评论信息;基于所述店铺信息提取所述店铺样本的特征,其中,所述特征至少包括第一特征和第二特征,所述第一特征至少基于所述评论信息的时间相关属性而获取,所述第二特征基于所述评论信息中包含的与店铺真实性相关的语义描述而确定;基于各个店铺样本的所述特征和所述分类标签训练所述分类模型。

在一个实施例中,选择预定数量的店铺样本包括:选择预定期限内具有以下至少一项行为的店铺作为正样本:销售代金券、团购活动、促销活动、订座服务、问答互动、广告投放、接收到顾客在客户端的签到,其中,所述正样本对应有真实存在店铺标签。

在一个实施例中,选择预定数量的店铺样本包括:选择满足以下条件的店铺作为负样本:在电子地图上被标注为永久停业,其中,所述负样本对应有非真实存在店铺标签。

在一个可能的实施例中,所述第一特征包括以下中的一项或多项:最新评论的时间、最新评论距离当前时间的时长、预定时间段内的评论数增量。

根据一种可能的设计,所述第二特征通过以下方法提取:获取与第一店铺样本对应的所述第一评论信息;利用预先训练的语义模型确定所述第一评论信息中各条评论数据分别对应的语义标签,其中,所述语义标签包括具有停业语义或不具有停业语义;按照各个语义标签确定所述第一店铺样本的第二特征。

进一步地,在一种实现中,所述按照各个语义标签确定所述第一店铺样本的第二特征包括:在各个语义标签中包含具有停业语义的标签的情况下,确定所述第一店铺样本的第二特征为,包含店铺为非真实存在店铺的语义。

在一个实施例中,所述语义模型包括,通过标注的评论数据集训练的监督模型。

在一个可能的实施例中,利用预先训练的语义模型确定所述第一评论信息中各条评论数据分别对应的语义标签包括:针对所述第一评论信息中的第一评论数据,通过无监督词向量模型将所述第一评论数据中的各个词分别表示成各个词向量;基于所述各个词向量,确定所述第一评论数据对应的第一评论向量;将所述第一评论向量输入所述语义模型,以获取所述语义模型的输出结果;按照所述输出结果为所述第一评论数据添加语义标签。

在一种实施方式中,所述特征还包括以下至少一个特征:评论数量特征、基本信息完备度特征、预定标识特征、店铺经营类别特征、消费者打分特征。

根据一个可能的实施例,所述店铺样本还包括测试样本,以及,所述方法还包括:检测所述分类模型针对各个测试样本的各个输出结果的准确性,以根据各个输出结果的准确性获得对所述分类模型的检测结果;根据所述检测结果调整所述分类模型,直至所述检测结果满足预设条件。

根据第二方面,提供一种店铺分类的方法,利用第一方面任一方法训练的分类模型,判断店铺当前是否为真实存在的店铺,所述方法包括:获取待分类店铺的店铺信息,其中,所述店铺信息包括评论信息;基于所述店铺信息提取所述待分类店铺的特征,其中,所述特征至少包括第一特征和第二特征,所述第一特征至少基于所述评论信息的时间相关属性而获取,所述第二特征基于所述评论信息中包含的与店铺真实性相关的语义描述而确定;将所述待分类店铺的所述特征输入所述分类模型,以获取所述分类模型的输出结果;根据所述输出结果确定所述待分类店铺当前是否为真实存在的店铺。

根据第三方面,提供一种分类模型的训练装置,所述分类模型用于判断店铺当前是否为真实存在的店铺,所述装置包括:选择单元,配置为选择预定数量的店铺样本,所述店铺样本对应有店铺信息和分类标签,所述分类标签包括真实存在店铺标签和非真实存在店铺标签,所述店铺信息包括评论信息;提取单元,配置为基于所述店铺信息提取所述店铺样本的特征,其中,所述特征至少包括第一特征和第二特征,所述第一特征至少基于所述评论信息的时间相关属性而获取,所述第二特征基于所述评论信息中包含的与店铺真实性相关的语义描述而确定;训练单元,配置为基于各个店铺样本的所述特征和所述分类标签训练所述分类模型。

根据第四方面,提供一种店铺分类的装置,利用第三方面的训练装置训练的分类模型,判断店铺当前是否为真实存在的店铺,所述装置包括:获取单元,配置为获取待分类店铺的对应有店铺信息,其中,所述店铺信息包括评论信息;提取单元,配置为基于所述店铺信息提取所述待分类店铺的特征,其中,所述特征至少包括第一特征和第二特征,所述第一特征至少基于所述评论信息的时间相关属性而获取,所述第二特征基于所述评论信息中包含的与店铺真实性相关的语义描述而确定;分类单元,配置为将所述待分类店铺的所述特征输入所述分类模型,以获取所述分类模型的输出结果;确定单元,配置为根据所述输出结果确定所述待分类店铺当前是否为真实存在的店铺。

根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。

根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。

通过本说明书实施例提供的方法和装置,在训练分类模型时,所选择的店铺样本对应的店铺信息包括评论信息,通过店铺信息提取店铺样本的特征包括至少基于评论信息的时间相关属性而获取的第一特征,以及基于评论信息中包含的与店铺真实性相关的语义描述而确定的第二特征,如此,可以充分利用互联网数据,提取有效的训练特征,训练准确度较高的分类模型。在利用训练的分类模型对店铺分类时,所提取的待分类店铺的特征同样包括上述第一特征和第二特征,如此,可以充分利用互联网数据,提高店铺分类的准确度,进而提高店铺分类的有效性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1示出本说明书披露的一个实施例的实施场景示意图;

图2示出根据一个实施例的分类模型的训练方法的流程图;

图3示出第二特征提取的一个具体例子;

图4示出模型训练过程的一个具体例子;

图5示出根据一个实施例的店铺分类方法的流程图;

图6示出根据一个实施例的分类模型的训练装置的示意性框图;

图7示出根据一个实施例的店铺分类装置的示意性框图。

具体实施方式

下面结合附图,对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。如图所示,用户可以通过客户端应用,例如地图应用、购物应用、订餐应用等等,查看店铺信息。这里的客户端应用可以运行在具有数据处理能力的各种终端设备上,例如智能手机、平板电脑、台式计算机、智能手表等等。客户端应用上展示的店铺信息通过服务器提供。服务器可以是具有一定数据处理能力的处理设备,也可以是处理设备集群。计算平台训练出分类模型,服务器利用该分类模型对店铺进行分类,确定店铺是否为真实存在的店铺,并通过客户端应用展示给用户。可以理解,这里的真实存在,是指店铺为真实店铺,而且没有永久停业、破产等状况,其不包括短暂(如两天)停止营业的情况。

值得说明的是,计算平台可以设置在服务器中,也可以是独立于服务器的处理设备,本申请对此不作限定。计算平台训练出的分类模型可以被服务器重复利用。服务器通过分类模型对店铺进行分类的结果也可以重复利用。

计算平台可以首先选择预定数量的店铺样本、对店铺样本进行特征提取,然后根据提取的特征和已知的分类结果,训练分类模型。其中,所选择的店铺样本对应的店铺信息可以包括评论信息,从而在提取特征时可以利用评论信息,至少基于评论信息的时间相关属性而获取到第一特征,以及基于评论信息中包含的与店铺真实性相关的语义描述而确定第二特征。如此,可以充分利用互联网数据,提取有效的训练特征,训练准确度较高的分类模型。

服务器利用计算平台训练的分类模型,可以针对待分类店铺进行分类。服务器可以先获取待分类店铺的对应店铺信息,其中,店铺信息包括评论信息,然后,基于店铺信息提取待分类店铺的特征,以输入通过计算平台训练的上述训练模型,获取分类模型的输出结果,并根据输出结果确定待分类店铺当前是否为真实存在的店铺。相应地,服务器对待分类店铺提取的特征也包括上述从评论信息中提取的第一特征和第二特征。如此,可以充分利用互联网数据,提取有效的特征,提高店铺分类的准确度,从而使店铺分类结果更有效。

当用户通过客户端应用,例如地图应用、购物应用、订餐应用等等,查看店铺信息时,服务器向客户端发送的店铺信息可以只包括未停业店铺的店铺信息,也可以包括所有店铺的店铺信息。当服务器向客户端发送的店铺信息包括所有店铺的店铺信息时,店铺信息中还可以包括店铺是否停业的信息。

值得说明的是,图1只示出了本说明书披露的一个实施例的一个具体实施场景,但并不以此限定本说明书实施例的实施场景范围,例如,在另一个实施场景中,可以不包括图1中的客户端,等等。

下面描述上述场景的具体执行过程。

图2示出根据一个实施例的分类模型的训练方法流程图。该方法的执行主体可以是具有一定计算、数据处理能力的系统、设备、装置、平台或服务器,例如图1所示的计算平台。该方法涉及的分类模型可以用于判断店铺当前是否为真实存在的店铺。

如图2所示,该方法包括以下步骤:步骤21,选择预定数量的店铺样本,店铺样本对应有店铺信息和分类标签,分类标签包括真实存在店铺标签和非真实存在店铺标签,店铺信息包括评论信息;步骤22,基于店铺信息提取店铺样本的特征,其中,上述特征至少包括第一特征和第二特征,第一特征至少基于上述评论信息的时间相关属性而获取,第二特征基于评论信息中包含的与店铺真实性相关的语义描述而确定;步骤23,基于各个店铺样本的特征和分类标签训练分类模型。

首先,在步骤21,选择预定数量的店铺样本,店铺样本对应有店铺信息和分类标签。这里,分类标签包括真实存在店铺标签和非真实存在店铺标签。可以理解,用户评论往往是用户通过对店铺的直观、真实体验形成的感受,真实存在店铺和非真实存在店铺,他们的评论信息差距可能非常明显,例如,非真实店铺可能没有评论或者评论较少。因此,评论信息对于店铺的分类的判断可能具有较大影响。如此,店铺样本对应的店铺信息至少可以包括评论信息。其中,评论信息可以包括评论内容、评论时间、评论数量等等。

在一个实施例中,可以通过网络爬虫(如python等)从预定网站(例如××点评等)爬取店铺信息。例如,可以爬取该预定网站中的用户注册信息,或者内容发布信息。然后,可以通过用户注册信息中的注册用户类型(如店铺或消费者)、内容发布信息中所发布内容的类型(如出售或求购等)等,来获取店铺信息。如所发布内容的类型为出售信息,则发布信息的用户可能是店铺方,可以从中获取店铺名、店铺位置、评论信息等。实践中,还可以根据店铺名、店铺位置等信息在电子地图上进行搜索,以确定店铺的分类标签,例如在电子地图上搜索不到的店铺为非真实存在的店铺等。

在另一个实施例中,也可以通过线下人工收集店铺样本,例如通过人工对网站或地图中的店铺门址一一实地核查,确定其分类标签,同时,还可以通过电话、搜索引擎、行政管理部门登记信息等等中的至少一项,获取相应店铺的店铺信息。其中,店铺信息中的评论信息例如可以通过电话、搜索引擎中的“问答”等来获取。

在更多实施例中,还可以通过包含更多方面的获取渠道获取已知分类标签的店铺样本,在此不在一一赘述。

可以理解,对于所获取的店铺样本,需要对其初步筛选,从中选择出预定数量的店铺样本。店铺样本可以包括正样本和负样本。其中,正样本可以对应有真实存在店铺标签,负样本可以对应有非真实存在店铺标签。

在可能的实施例中,可以选择预定期限(如一个月)内具有以下至少一项行为的店铺作为正样本:销售代金券、团购活动、促销活动(如打折等)、订座服务、问答互动、广告投放、接收到顾客在客户端的签到,等等。实践中,店铺运营中可能采用一些销售手段,例如销售代金券、组织团购活动、组织促销活动等,一些店铺(如酒店、饭店等)可以提供订座服务,还有一些店铺会在相关网站(如旅游攻略网站等)对消费者或潜在消费者进行一些问答互动,还有一些店铺会和一些网站合作,投放广告以增加浏览量或搜索排名等。另外有一些店铺可以通过应用(如某美食点评网站)客户端接收顾客在店铺的签到,如果顾客点击客户端店铺页面中的签到,在签到位置和店铺位置偏差在设定距离范围(如80米)内的情况下,签到成功。一般地,提供签到的店铺可能是真实存在店铺,当顾客到店消费时,进行签到。因此,可以将当前或预定期限内具有上述行为之一的店铺确定为正样本,并给这些作为正样本的店铺样本分配真实存在店铺标签。

在可能的实施例中,可以选择满足以下条件的店铺作为负样本:在电子地图上被标注为永久停业。在一些地图应用中,当店铺永久停业,则会在地图中将店铺删除,或标注为永久停业。因此,可以利用店铺名称和店铺位置进行搜索,针对电子地图类应用标记为永久停业的店铺,通过电子地图确认店铺位置无误后,作为负样本,并给这些作为负样本的店铺样本分配非真实存在店铺标签。

在获取店铺样本的同时,还可以获取店铺样本对应的店铺信息。店铺信息除了前述评论信息外,例如还可以包括店铺名、店铺地址等。在一些实施例中,店铺信息还可以包括但不限于以下至少一项:店铺基本信息,如电话、营业时间、是否提供无线网络连接(如wifi连接等);店铺品牌名,如××包子铺等;网站或行政监管部门给定的店铺标签,如海外美食精选、当地旅游局推荐等等;店铺分类,如美食、购物、酒店等。

可以理解,非真实存在的店铺是已经永久停业的店铺,其数量往往小于真实存在的店铺。根据一个可能的设计,可以对所获取的具有真实存在店铺标签的店铺样本进行下采样,使具有真实存在店铺标签的店铺样本和具有非真实存在店铺标签的店铺样本数量大致相等,例如都是45000个。

接着,在步骤22,基于上述店铺信息提取店铺样本的特征。在本实施例中,上述特征至少包括第一特征和第二特征,第一特征至少基于评论信息中的时间相关属性而获取,第二特征基于评论信息中包含的与店铺真实性相关的语义描述而确定。值得说明的是,“第一特征”、“第二特征”中的“第一”、“第二”仅用于区分两个不同的特征,而不表示顺序限定。

其中,评论信息的时间相关属性例如可以包括但不限于以下至少一项:评论发表时间(如2018年5月1日等)、评论距当前时间的时长(如10小时、20天等)、预定时间段内(如2天)的评论数(如100条)等等。可以理解,一个真实存在的店铺,可能会不断有新的消费者消费并进行评论,因此,最新评论时间往往较晚,评论距当前时间的时长较小,同时,预定时间段内评论数增多的可能性较大;而非真实存在的店铺,因为不再有新的消费者,所以评论时间较早,评论距当前时间的时长较大,预定时间段内评论增多的可能性较小。

相应地,第一特征可以包括但不限于以下中的一项或多项:最新评论的时间、最新评论距离当前时间的时长、预定时间段内的评论数增量。这里,最新评论时间可以是距当前时间最近一次评论的时间,如某个店铺样本的评论信息中,在2015年3月2日20时的一条评论后,没有其他评论,则该店铺样本的最新评论时间为2015年3月2日20时。最新评论距离当前时间的时长可以是当前时间和最新评论时间之间的时间差,如30天等。预定时间段内的评论数增量,即每间隔预定时间段,评论总数的变化量。举例而言,假设预定时间段是3个月,按照评论时间,从当前时间每隔3个月统计一个评论总数,并计算评论数增量,如最近3个月的评论总数为1000,则最近3个月的评论增量为1000。如此,可以充分利用店铺样本在互联网的评论信息的与时间相关属性数据。

评论信息中包含的与店铺真实性相关的语义描述,可以是包含店铺停业或者营业状况良好的语义的描述。例如“该店已经关门大吉不存在了”,可能是店铺已经永久停业的语义的描述。而对于同样的评论语句,发布时间等信息的不同,也可能是表达不同的意思,例如,对于一个饭店,一条评论“大老远跑过来,已经停业了”,发布在晚上12点表达的可能是饭店打烊的意思,而发布在中午12点表达的可能是饭店停业的意思。而对于一个店铺来说,极少量(如1条)包含表达店铺停业的语义的评论就有可能表示这个店铺已经永久停业。因此,可以在特征中包含可以体现评论信息中是否具有店铺永久停业语义描述的第二特征。

第二特征可以用文字表示,例如:具有店铺永久停业语义描述或包含与店铺真实性相关的语义描述,不具有店铺永久停业语义描述或不包含与店铺真实性相关的语义描述,等等。第二特征还可以用数值表示,例如在具有店铺永久停业语义描述的情况下第二特征为1,不具有店铺永久停业语义描述的情况下第二特征为0,等等。

如图3所示,根据一个可能的设计,第二特征可以通过以下方法提取:步骤31,获取与第一店铺样本对应的第一评论信息;步骤32,利用预先训练的语义模型确定第一评论信息中各条评论数据分别对应的的语义标签,其中,语义标签包括具有停业语义或不具有停业语义;步骤33,按照各个语义标签确定第一店铺样本的第二特征。值得说明的是,这里所称的“第一店铺样本”、“第一评论信息”中的“第一”,表示“某个”、“其中一个”、“任意一个”,以及店铺样本和评论信息的对应关系,而不表示顺序,或者对店铺样本之间的区分。

对任意一个店铺样本,在步骤31中,可以先获取该店铺样本的评论信息。一个店铺样本的评论信息,可以对应一条或多条评论数据,每条评论数据可以包括一条评论的评论内容、评论时间,还可以包括例如发布评论的用户id之类的数据。

接着,在步骤32中利用预先训练的语义模型确定评论信息中各条评论数据分别对应的语义标签。可以理解,每条评论数据可以对应一个语义标签。可以将各条评论数据分别输入预先训练的语义模型,根据语义模型的输出确定某条评论数据的语义标签。其中,语义模型可以通过预先标注的评论集进行训练。

作为一个示例,可以从多个店铺样本的评论数据中选出一些评论加入评论集,尤其针对包含“关门”、“停业”等等之类评论语句的评论数据优先挑选,通过人工识别、标注确定这些评论数据的语义标签作为已知语义标签,训练出一个监督模型,例如逻辑回归lr(logisticsregression)模型。模型训练是已知输入(如评论语句)和输出(如已知语义标签),确定模型参数的过程,在此不再赘述。其中,评论数据的语义标签可以包括具有停业语义或不具有停业语义。

语义模型的输出可以直接是语义标签中的一个,也可以是数值,例如1,0等等。其中,语义模型的输出是两个可能的数值(如1、0等)中的一个,其中每一个数值对应一个语义标签,如1对应具有停业语义标签。语义模型的输出也可以是多个可能的数值(如0-1之间的任意小数等)中的一个,可以设定阈值,用以判断所输出的数值更偏向哪种语义标签,如大于0.6偏向具有停业语义标签。

根据一种实施方式,针对评论信息中的每一条评论数据,可以先通过无监督词向量模型(如word2vec模型)将该评论数据中的各个词分别表示成各个词向量;基于各个词向量,确定该评论数据对应的评论向量;将所确定的评论向量输入语义模型,以获取语义模型的输出结果;按照输出结果为该评论数据添加语义标签。其中,基于各个词向量,确定该评论数据对应的评论向量,例如可以是对各个词向量的不同维度求平均,或者对不同维度求加权平均,等等。

举例而言,对于评论数据“该店已经关门大吉不存在了”,可以先对其进行切词、过滤虚词等,得到词汇“该店”、“关门大吉”、“不存在”,假设词向量模型有3个维度a、b、c,将各个词汇表示成词向量分别为:在一个实现中,基于各个词向量确定的该评论数据对应的评论向量可以为:在另一个实现中,还可以将各个词汇的出现次数作为权重,对各个词向量的不同纬度求加权平均得到评论向量为:其中,各个参数前面的1为相应词汇出现的次数,分母中为各个词汇出现的次数和,在该示例中各个词汇出现的次数都是1次,在实际中还可以是其他值。

进一步地,可以将评论向量输入语义模型,从而获取语义模型的输出结果。可以理解,评论向量还可以表示为其中每项作为一个特征输入语义模型。然后,可以按照语义模型的输出结果为该评论数据添加语义标签。例如,语义模型的输出是1,为该评论数据添加“具有停业语义”的语义标签等。

如此,可以对一个店铺样本的评论信息中每条评论数据都添加一个语义标签。

步骤33,按照店铺样本对应的各个语义标签确定相应店铺样本的第二特征。可以将第二特征确定为,具有店铺永久停业语义描述或包含与店铺真实性相关的语义描述,不具有店铺永久停业语义描述或不包含与店铺真实性相关的语义描述,数值1、0等等。

进一步地,在一个实施例中,在第一店铺样本对应的各个语义标签中,任意一个语义标签为具有停业语义的标签的情况下,确定店铺样本的第二特征为,包含店铺为非真实存在店铺的语义。

对于一些特殊情况,例如用户发泄情绪,发布评论为“这店早该关门了”,也可能会被添加具有停业语义的标签。因此,在另一个实施例中,还可以设定一个个数阈值,当具有停业语义的标签的评论数据条数超过该个数阈值(如10条等)时,才确定店铺样本的第二特征为,包含店铺为非真实存在店铺的语义。

如此,可以充分利用互联网中店铺样本的评论信息中与店铺真实性相关的语义描述数据。

在一个实施例中,店铺样本的特征除了第一特征和第二特征外,还可以包括评论数量特征,例如评论总条数,好评条数、中评条数、差评条数的比值、评论中的图片数量等。可以理解,对于差评比重较大的店铺,为非真实存在的店铺的可能性较大;对于评论总条数较多,或者评论中的图片数量较多的店铺,为真实存在的店铺的可能性较大。由此,评论数量特征可以作为影响对店铺进行当前是否为真实存在的店铺分类的一个因素。

在一个实施例中,店铺样本的特征还可以包括基本信息完备度特征。基本信息例如电话、营业时间、是否提供无线网络连接(如wifi等)、服务设施等等。基本信息越完备的店铺,为真实存在的店铺的可能性越大。可选地,基本信息完备度可以与基本信息项数成正比。由此,基本信息完备度特征可以作为影响对店铺进行当前是否为真实存在的店铺分类的一个因素。

在一个实施例中,店铺样本的特征还可以包括预定标识特征。预定标识例如可以是品牌店铺、连锁店铺、网站或行政管理机构给出的优选标签(如当地旅游局推荐标签)等等。可以理解,品牌店铺或连锁店铺往往是指知名度、市场认可度较高的店铺,这些店铺是真实存在店铺的可能性较大。网站或行政管理机构给出优选标签的店铺往往是通过审核、检测的店铺,这些店铺是真实存在店铺的可能性也较大。由此,预定标识特征可以作为影响对店铺进行当前是否为真实存在的店铺分类的一个因素。

在一个实施例中,店铺样本的特征还可以包括店铺经营类别特征。店铺经营类别例如可以是美食、酒店、服装,等等。在一些网站中,对于美食店铺,评论较多,如果仅通过评论数量进行分类,准确度较低,因此,还可以将不同经营类别的店铺区别对待,对评论数较少的店铺经营类别的店铺,给予较大权重。

在一个实施例中,店铺样本的特征还可以包括消费者打分特征。消费者打分可以是分值,也可以是评星等。值得说明的是,如果店铺样本从同一个网站获取,消费者打分具有同一的标准,则可以将消费者的打分直接作为消费者打分特征。如果店铺样本不是从同一个网站获取,打分标准也可能不同,则可以将消费者打分与满分的比例作为消费者打分特征。消费者评分高低会影响店铺的客流量,如果客流量很低,则成为非真实存在的店铺的可能性较大,由此,消费者打分特征可以作为影响对店铺进行当前是否为真实存在的店铺分类的一个因素。

在更多的实施例中,店铺样本的特征还可以包括更多的特征,在此不再一一例举。

步骤23,基于各个店铺样本的特征和分类标签训练上述分类模型。可以理解,模型训练的过程就是已知输入特征和分类结果,确定模型参数的过程。在本说明书中,输入特征就是店铺样本的特征,其中特征包括多个输入特征,分类结果根据店铺样本的分类标签确定,例如输出结果包括0、1,0表示真实存在店铺标签,1表示非真实存在店铺标签,等等。一个店铺样本对应一组已知输入特征和分类结果。

如图4所示,在训练分类模型过程中,在输入层42输入的已知输入特征是各个店铺样本的特征,输出层43的输出结果可以与相应店铺样本的分类标签相比较。根据比较结果调整中间层44的各个参数,以及,输入层42的特征与中间层44之间、中间层44与输出层43之间各个箭头连线代表的权重参数。

在图4中,输入层42输入的已知输入特征,包括第一特征421和第二特征422,第一特征421和第二特征422分别通过店铺信息41中的评论信息411相关数据获取。

在一个可能的设计中,可以将店铺样本分为训练样本和测试样本。在分类模型的训练过程中,依次将各个训练样本的特征作为输入,根据分类模型的输出结果与分类标签的对比调整分类模型的各个分类参数使分类模型的输出结果与当前输入的训练样本的分类标签更一致,以训练分类模型。接着,将各个测试样本的特征输入通过训练样本训练过的分类模型,用测试样本对应的分类标签检测分类模型的各个输出结果的准确性,以获得对分类模型的检测结果。例如,如果分类标签和分类模型的输出结果一致,则确定分类模型的输出结果正确。由此,可以获得分类模型对测试样本整体的检测结果,如准确度等。

在所得到的检测结果不满足预定条件的情况下,可以进一步根据检测结果调整分类模型。例如调整分类模型的网格结构、调换分类模型等等。例如当分类模型是梯度提升决策树gbdt模型时,可以调节树的数目、每棵树的深度、学习率等。调整好分类模型后,重新用训练样本训练分类模型,并用测试样本获得对分类模型的检测结果。直至测试样本对检测结果满足预设条件。

其中,这里的预设条件可以是对分类模型的检测结果设定的条件。例如当分类模型是梯度提升决策树gbdt模型时,检测结果可以包括曲线下面积auc、精度、召回率、f1分数等等的值。例如预设条件是精度和召回率都大于0.7等等。在根据本说明书实施例的一次实验中,可以达到auc=0.868,精度=0.767,召回率=0.803,f1为0.784。

回顾以上过程,所选择的店铺样本对应的店铺信息中包括有评论信息,由此,根据店铺信息提取的特征中可以至少包括:基于评论信息的时间相关属性而获取的第一特征,基于评论信息中包含的与店铺真实性相关的语义描述而确定的第二特征。如此,基于包含第一特征和第二特征的特征训练分类模型,可以充分利用互联网数据,训练准确度较高的分类模型,从而提高店铺分类的有效性。

根据另一方面的实施例,还提供一种店铺分类的方法。用于通过分类模型判断店铺当前是否为真实存在的店铺。该方法适用于具有一定数据处理能力的电子设备,例如图1中的服务器。

如图5所示,该店铺分类的方法以实施例的流程包括:步骤51,获取待分类店铺的店铺信息,其中,店铺信息包括评论信息;步骤52,基于店铺信息提取待分类店铺的特征,其中,该特征至少包括第一特征和第二特征,第一特征至少基于评论信息的时间相关属性而获取,第二特征基于评论信息中包含的与店铺真实性相关的语义描述而确定;步骤53,将待分类店铺的特征输入分类模型,以获取分类模型的输出结果;步骤54,根据输出结果确定待分类店铺当前是否为真实存在的店铺。

首先,在步骤51中,获取待分类店铺的店铺信息。其中,店铺信息中至少包括有评论信息,例如评论内容、评论时间、评论数量等等。店铺信息还可以包括但不限于以下至少一项:店铺基本信息、店铺品牌名、网站或行政监管部门给定的店铺标签、店铺分类等。可以通过网络爬虫(如python)等从预定网站(例如××点评等)爬取店铺信息。

接着,通过步骤52,基于店铺信息提取待分类店铺的特征。这里的特征和分类模型的输入特征相对应。其中,该特征至少包括第一特征和第二特征,第一特征至少基于评论信息的时间相关属性而获取,第二特征基于评论信息中包含的与店铺真实性相关的语义描述而确定。值得说明的是,“第一特征”、“第二特征”中的“第一”、“第二”仅用于区分两个不同的特征,而不表示顺序限定。

其中,评论信息的与时间相关属性例如可以包括但不限于以下至少一项:评论发表时间、评论距当前时间的时长、预定时间段内的评论数等等。相应地,第一特征可以包括但不限于以下中的一项或多项:最新评论的时间、最新评论距离当前时间的时长、预定时间段内的评论数增量。如此,可以充分利用店铺样本在互联网的评论信息的与时间相关属性数据。

评论信息中包含的与店铺真实性相关的语义描述,可以是包含店铺停业或者营业状况良好的语义的描述。对于一个店铺来说,极少量(如1条)包含表达店铺永久停业的语义的评论就有可能表示这个店铺已经永久停业。因此,可以通过评论信息中是否具有店铺永久停业语义描述的第二特征,来为店铺分类。第二特征可以用文字表示,也可以用数值表示。

根据一个可能的设计,第二特征可以通过以下方法提取:获取待分类店铺的评论信息;利用预先训练的语义模型确定评论信息中各条评论数据分别对应的语义标签,其中,语义标签包括具有停业语义或不具有停业语义;按照待分类店铺对应的各个语义标签确定待分类店铺的第二特征。

容易理解,一个待分类店铺的评论信息,可以对应一条或多条评论数据,每条评论数据可以包括一条评论的评论内容、评论时间,还可以包括例如发布评论的用户id之类的数据。可以将各条评论数据分别输入预先训练的语义模型,根据语义模型的输出确定每条评论数据的语义标签。然后,根据这些语义标签确定待分类店铺的第二特征。根据一种实施方式,针对评论信息中的每一条评论数据,可以先通过无监督词向量模型(如word2vec模型)将该评论数据中的各个词分别表示成各个词向量;基于各个词向量,确定该评论数据对应的评论向量;将所确定的评论向量输入语义模型,以获取语义模型的输出结果;按照输出结果为该评论数据添加语义标签。

在一个实施例中,在待分类店铺对应的各个语义标签中,任意一个语义标签为具有停业语义的标签的情况下,确定待分类店铺的第二特征为,包含店铺为非真实存在店铺的语义。在另一个实施例中,还可以设定一个个数阈值,当具有停业语义的标签的评论数据条数超过该个数阈值时,才确定店铺样本的第二特征为,包含店铺为非真实存在店铺的语义。

如此,可以充分利用互联网中店铺样本的评论信息中与店铺真实性相关的语义描述数据。

在一些可能的设计中,待分类店铺的特征除了第一特征和第二特征,还可以包括但不限于以下至少一项:评论数量特征、基本信息完备度特征、预定标识特征、店铺经营类别特征、消费者打分特征等等。

步骤53,将待分类店铺的特征输入分类模型,以获取分类模型的输出结果。其中,分类模型的输出结果可以是数值、也可以是分类标签。当分类模型的输出结果是分类标签时,分类标签可以包括真实存在店铺标签和非真实存在店铺标签。

如图4所示,从店铺41中提取到的待分类店铺的特征输入到输入层42,其中,特征包括了通过评论信息411提取的第一特征421和第二特征422。经过中间层44后,从输出层43得到输出结果。

步骤54,根据输出结果确定待分类店铺当前是否为真实存在的店铺。当输出结果是分类标签时,直接按照分类标签确定待分类店铺是否为真实存在店铺,具有真实存在店铺标签的待分类店铺为真实存在店铺,否则为非真实存在店铺。当输出结果是数值时,如果数值是二选一,例如只有1和0两种情况,则根据相应数值对应到待分类店铺是否为真实存在的店铺的分类标签。如果是多个可能是数值,例如0-1之间的任意数值时,可以根据数值偏向哪一端确定待分类店铺是否为真实存在的店铺的分类标签。至于数值偏向哪一端,可以根据设定阈值确定,例如设定偏向1的阈值为0.6,则大于0.6的数值都是偏向1的数值,可以对应非真实存在的店铺的分类标签。

值得说明的是,由于图5示出的方法实施例中,为店铺分类的方法是通过图2的实施例训练的分类模型进行的,因此,图2所示的实施例中,关于店铺样本的相关描述,也适应于图5所示实施例中提到的对待分类店铺的相应内容,在此不再赘述。

根据另一方面的实施例,还提供一种分类模型的训练装置。图6示出根据一个实施例的用于分类模型的训练装置的示意性框图。如图6所示,用于分类模型的训练的装置600包括:选择单元61,配置为选择预定数量的店铺样本,店铺样本对应有店铺信息和分类标签,分类标签包括真实存在店铺标签和非真实存在店铺标签,店铺信息包括评论信息;提取单元62,配置为基于店铺信息提取店铺样本的特征,其中,上述特征至少包括第一特征和第二特征,第一特征至少基于评论信息的时间相关属性而获取,第二特征基于评论信息中包含的与店铺真实性相关的语义描述而确定;训练单元63,配置为基于各个店铺样本的特征和分类标签训练分类模型。

可以理解,店铺样本可以包括正样本和负样本,其中正样本对应有真实存在店铺标签,负样本对应有非真实存在店铺标签。进一步地,在一个实施例中,选择单元61可以配置为:选择预定期限内具有以下至少一项行为的店铺作为正样本:销售代金券、团购活动、促销活动、订座服务、问答互动、广告投放、接收顾客在客户端的签到。在另一个实施例中,选择单元61还可以配置为:选择满足以下条件的店铺作为负样本:在电子地图上被标注为永久停业。

根据一方面的实施例,第一特征可以包括以下中的一项或多项:最新评论的时间、最新评论距离当前时间的时长、预定时间段内的评论数增量。

根据另一方面的实施例,提取第二特征时,提取单元62还可以包括:评论信息获取模块,配置为获取第一店铺样本的第一评论信息;语义标签确定模块,配置为利用预先训练的语义模型确定第一评论信息中各条评论数据分别对应的语义标签,其中,语义标签包括具有停业语义或不具有停业语义;第二特征确定模块,配置为按照各个语义标签确定第一店铺样本的第二特征。值得说明的是,“第一特征”、“第二特征”中的“第一”、“第二”仅用于区分两个不同的特征,而不表示顺序限定。

进一步地,第二特征确定模块进一步还可以配置为:在第一店铺样本对应的各个语义标签中包含具有停业语义的标签的情况下,确定第一店铺样本的第二特征为,包含店铺为非真实存在店铺的语义。这里所称的“第一店铺样本”、“第一评论信息”中的“第一”,表示“某个”、“其中一个”、“任意一个”,以及店铺样本和评论信息的对应关系,而不表示顺序,或者对店铺样本之间的区分。

语义标签确定模块进一步还可以配置为:针对第一评论信息中的第一评论数据,通过无监督词向量模型将第一评论数据中的各个词分别表示成各个词向量;基于各个词向量,确定第一评论数据对应的第一评论向量;将第一评论向量输入语义模型,以获取语义模型的输出结果;按照输出结果为第一评论数据添加语义标签。

在可能的实施方式中,上述特征还可以包括但不限于以下至少一个特征:评论数量特征、基本信息完备度特征、预定标识特征、店铺经营类别特征、消费者打分特征。

根据一个可能的设计,店铺样本包括训练样本和测试样本,以及,训练单元63可以包括:训练模块,配置为将各个训练样本的特征作为输入,根据所述分类模型的输出结果与所述分类标签的对比,调整分类模型的各个分类参数,以训练分类模型;测试模块,配置为将各个测试样本的特征输入通过所述训练样本训练过的所述分类模型,用测试样本对应的分类标签检测分类模型的各个输出结果的准确性,以获得对分类模型的检测结果;调整模块,配置为在检测结果不满足预设条件的情况下,根据所述检测结果调整分类模型。例如调整分类模型的网格结构、调换分类模型等等。其中,这里的预设条件可以是对分类模型的评价参数条件。例如当分类模型是梯度提升决策树gbdt模型时,模型评价参数可以包括曲线下面积auc、精度、召回率、f1分数等等。

通过以上装置,可以充分利用互联网数据,训练准确度较高的分类模型,从而提高店铺分类的有效性。

值得说明的是,图6所示的装置600与图2所示的方法相对应,因此,针对图2中的相关描述同样适用于装置600,在此不再赘述。

根据再一方面的实施例,还提供一种店铺分类的装置。图7示出根据一个实施例的用于店铺分类装置的示意性框图。如图7所示,用于店铺分类的装置700包括:获取单元71,配置为获取待分类店铺的店铺信息,其中,店铺信息包括评论信息;提取单元72,配置为基于店铺信息提取待分类店铺的特征,其中,特征至少包括第一特征和第二特征,第一特征至少基于评论信息的时间相关属性而获取,第二特征基于评论信息中包含的与店铺真实性相关的语义描述而确定;分类单元73,配置为将待分类店铺的特征输入所述模型,以获取分类模型的输出结果;确定单元74,配置为根据输出结果确定待分类店铺当前是否为真实存在的店铺。

在一个可能的设计中,第一特征可以包括以下中的一项或多项:最新评论的时间、最新评论距离当前时间的时长、预定时间段内的评论数增量。

根据一个实施方式,第二特征可以通过以下方法提取:获取第一店铺样本的第一评论信息;利用预先训练的语义模型确定第一所述评论信息中各条评论数据分别对应的语义标签,其中,语义标签包括具有停业语义或不具有停业语义;按照各个语义标签确定第一店铺样本的第二特征。进一步地,在一个实施例中,在第一店铺样本对应的各个语义标签中包含具有停业语义的标签的情况下,确定第一店铺样本的第二特征为,包含店铺为非真实存在店铺的语义。

在一个可能的实施例中,利用预先训练的语义模型确定评论信息中各条评论数据的语义标签包括:针对第一评论信息中的第一评论数据,通过无监督词向量模型将第一评论数据中的各个词分别表示成各个词向量;基于各个词向量,确定第一评论数据对应的第一评论向量;将第一评论向量输入语义模型,以获取所义模型的输出结果;按照输出结果为第一评论数据添加语义标签。

在一个实施例中,上述特征还可以包括以下至少一个特征:评论数量特征、基本信息完备度特征、预定标识特征、店铺经营类别特征、消费者打分特征。

通过以上装置,可以充分利用互联网数据,提取有效的分类特征,从而提高店铺分类的有效性。

值得说明的是,图7所示的装置700与图5所示的方法相对应,因此,针对图5中的相关描述同样适用于装置700,在此不再赘述。

根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图5所描述的方法。

根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图5所述的方法。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1