日志分类模型的建立、行为日志分类方法及装置制造方法

文档序号:6506844阅读:174来源:国知局
日志分类模型的建立、行为日志分类方法及装置制造方法
【专利摘要】本发明提供一种日志分类模型的建立、行为日志分类方法及装置。一方面,本发明实施例通过根据每个Session段中所包括的行为日志的检索关键词、题目和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题,进而根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题,使得能够将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。
【专利说明】日志分类模型的建立、行为日志分类方法及装置
【【技术领域】】
[0001]本发明涉及数据挖掘技术,尤其涉及一种日志分类模型的建立、行为日志分类方法及装置。
【【背景技术】】
[0002]随着通信技术的发展,终端集成了越来越多的功能,从而使得终端的系统功能列表中包含了越来越多相应的应用程序,例如,电脑中安装的应用程序,第三方智能手机中安装的应用程序(AppliCation,APP)等。这些应用程序每天都会产生大量的用户的行为日志,对这些行为日志进行分析,能够确定用户的兴趣变化、突发热点事情、产品优缺点等重要信息。现有技术中,在对用户的行为日志进行分析的过程中,可以通过对检索关键词(Query)或题目(Title)等字段,进行基于主题的分类,例如,体育类、娱乐类、游戏类或医疗类等,实现对Query或Title等字段所属的行为日志进行统计。基于统计之后的行为日志进行分析,会使得分析结果更加准确。
[0003]然而,由于行为日志的多样性,因此,有很多行为日志可能会缺少Query或Title等字段,使得无法对Query或Title等字段,进行基于主题的分类,这样,则无法对行为日志进行统计,从而导致了行为日志的分析的准确性的降低。

【发明内容】

[0004]本发明的多个方面提供一种日志分类模型的建立、行为日志分类方法及装置,用以提高行为日志的分析的准确性。
[0005]本发明的一方面,提供一种日志分类模型的建立方法,包括:`[0006]从至少一个数据源中,获取指定用户的行为日志;
[0007]对所述行为日志进行划分,以获得至少一个Session段;
[0008]根据每个所述Session段中所包括的行为日志的检索关键词、题目和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题;
[0009]根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题;
[0010]将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据;
[0011]利用所述至少一个第一候选主题和所述目标训练数据,训练日志分类模型,所述日志分类模型用于将待分类的行为日志映射到对应主题。
[0012]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据每个所述Session段中所包括的行为日志的Query、Title和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题,包括:
[0013]利用每个所述Session段中所包括的行为日志的Query作为第一输入参数,运行Query分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;
[0014]利用每个所述Session段中所包括的行为日志的Title作为第二输入参数,运行Title分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;以及
[0015]利用每个所述Session段中所包括的行为日志的URL作为第三输入参数,运行URL分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题。
[0016]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述至少一个第一候选主题和所述目标训练数据,训练日志分类模型,所述日志分类模型用于将待分类的行为日志映射到对应主题,包括:
[0017]根据所述至少一个第一候选主题,生成训练主题特征;
[0018]利用所述训练主题特征和所述目标训练数据,训练所述日志分类模型。
[0019]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少一个第一候选主题,生成训练主题特征,包括:
[0020]根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第三候选主题;
[0021]根据所述至少一个第一候选主题和所述至少一个第三候选主题,生成所述训练主题特征。
[0022]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据,包括:
[0023]将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以生成候选训练数据;
[0024]对所述候选训练数据,进行有效性验证;
[0025]将通过所述有效性验证的候选训练数据,作为所述目标训练数据
[0026]本发明的另一方面,提供一种基于日志分类模型的行为日志分类方法,所述分类模型为采用如上所述的日志分类模型的建立方法建立;所述方法包括:
[0027]获取待识别的行为日志;
[0028]根据所述行为日志的Query、Title和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题;
[0029]根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题。
[0030]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述行为日志的Query、Title和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题,包括:
[0031]利用所述行为日志的Query作为第一输入参数,运行Query分类模型,以获得所述行为日志的对应字段所属的第一候选主题;
[0032]利用所述行为日志的Title作为第二输入参数,运行Title分类模型,以获得所述行为日志的对应字段所属的第一候选主题;以及
[0033]利用所述行为日志的URL作为第三输入参数,运行URL分类模型,以获得所述行为日志的对应字段所属的第一候选主题。
[0034]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题,包括:
[0035]根据所述至少一个第一候选主题,生成匹配主题特征;
[0036]利用所述匹配主题特征作为第四输入参数,运行所述日志分类模型,以将所述行为日志映射到对应主题。
[0037]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少一个第一候选主题,生成匹配主题特征,包括:
[0038]根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第二候选主题;
[0039]根据所述至少一个第一候选主题和所述至少一个第二候选主题,生成所述匹配主题特征。
[0040]本发明的另一方面,提供一种日志分类模型的建立装置,包括:
[0041]获取单元,用于从至少一个数据源中,获取指定用户的行为日志;
[0042]划分单元,用于对所述行为日志进行划分,以获得至少一个Session段;
[0043]匹配单元,用于根据每个所述Session段中所包括的行为日志的Query、Title和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题;
[0044]确定单元,用于根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题;
[0045]准备单元,用于将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据;
[0046]训练单元,用于利用所述至少一个第一候选主题和所述目标训练数据,训练日志分类模型,所述日志分类模型用于将待分类的行为日志映射到对应主题。
[0047]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述匹配单元,具体用于
[0048]利用每个所述Session段中所包括的行为日志的Query作为第一输入参数,运行Query分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;
[0049]利用每个所述Session段中所包括的行为日志的Title作为第二输入参数,运行Title分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;以及
[0050]利用每个所述Session段中所包括的行为日志的URL作为第三输入参数,运行URL分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题。
[0051]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述训练单元,具体用于
[0052]根据所述至少一个第一候选主题,生成训练主题特征;
[0053]利用所述训练主题特征和所述目标训练数据,训练所述日志分类模型。
[0054]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述训练单元,具体用于
[0055]根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第三候选主题;
[0056]根据所述至少一个第一候选主题和所述至少一个第三候选主题,生成所述训练主题特征。
[0057]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述准备单元,具体用于
[0058]将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以生成候选训练数据;
[0059]对所述候选训练数据,进行有效性验证;
[0060]将通过所述有效性验证的候选训练数据,作为所述目标训练数据
[0061]本发明的另一方面,提供一种基于日志分类模型的行为日志分类装置,所述分类模型为采用如上所述的日志分类模型的建立方法建立;所述装置包括:
[0062]获取单元,用于获取待识别的行为日志;
[0063]匹配单元,用于根据所述行为日志的QUery、Title和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题;
[0064]分类单元,用于根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题。
[0065]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述匹配单元,具体用于
[0066]利用所述行为日志的Query作为第一输入参数,运行Query分类模型,以获得所述行为日志的对应字段所属的第一候选主题;
[0067]利用所述行为日志的Title作为第二输入参数,运行Title分类模型,以获得所述行为日志的对应字段所属的第一候选主题;以及
[0068]利用所述行为日志的URL作为第三输入参数,运行URL分类模型,以获得所述行为日志的对应字段所属的第一候选主题。
[0069]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述分类单元,具体用于
[0070]根据所述至少一个第一候选主题,生成匹配主题特征;
[0071]利用所述匹配主题特征作为第四输入参数,运行所述日志分类模型,以将所述行为日志映射到对应主题。
[0072]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述分类单元,具体用于
[0073]根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第二候选主题;
[0074]根据所述至少一个第一候选主题和所述至少一个第二候选主题,生成所述匹配主题特征。
[0075]由上述技术方案可知,一方面,本发明实施例通过根据每个Session段中所包括的行为日志的检索关键词、题目和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题,进而根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题,使得能够将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。
[0076]由上述技术方案可知,另一方面,本发明实施例通过根据所述行为日志的Query、Title和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题,进而根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。
【【专利附图】

【附图说明】】
[0077]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通 技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0078]图1为本发明一实施例提供的日志分类模型的建立方法的流程示意图;
[0079]图2为本发明另一实施例提供的基于日志分类模型的行为日志分类方法的流程示意图;
[0080]图3为本发明另一实施例提供的日志分类模型的建立装置的结构示意图;
[0081]图4为本发明另一实施例提供的基于日志分类模型的行为日志分类装置的结构示意图。
【【具体实施方式】】
[0082]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0083]需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant, PDA)、无线手持装置、无线上网本、个人电脑、便携电脑、MP3播放器、MP4播放器等。
[0084]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0085]图1为本发明一实施例提供的日志分类模型的建立方法的流程示意图,如图1所
/Jn o
[0086]101、从至少一个数据源中,获取指定用户的行为日志。[0087]102、对所述行为日志进行划分,以获得至少一个用户意图(Session)段。
[0088]103、根据每个所述Session段中所包括的行为日志的检索关键词(Query)、题目(Title)和统一资源定位符(Uniform Resource Locator, URL),获得每个所述 Session 段中每个行为日志的对应字段所属的至少一个第一候选主题。
[0089]104、根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题。
[0090]105、将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据。
[0091]106、利用所述至少一个第一候选主题和所述目标训练数据,训练日志分类模型,所述日志分类模型用于将待分类的行为日志映射到对应主题。
[0092]需要说明的是,101?106的执行主体可以是建模装置。
[0093]这样,通过根据每个Session段中所包括的行为日志的检索关键词、题目和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题,进而根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题,使得能够将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。
[0094]具体地,在全网的数据源中,用户的一个行为日志可以为如下格式:[uid URLsource query title date time ip actid actname actattr unifyUrl PtNumbercommonQuery]。其中,共包括14个字段,各字段的含义如下所述:
[0095]用户标识(User ID, uid):baiduid映射出来的用户id,由若干数字组成;
[0096]统一资源定位符(Uniform Resource Locator, URL):可能为空,或可能不以“http” 开头;
[0097]数据源(source):产品线的数据来源,例如,百度百科(baike)、百度论坛(forum)或百度地图(map);
[0098]检索关键词(query):可能为空;
[0099]题目(title):网页名称;
[0100]日期(date):例如,2013年6月3日,其格式一般可以为“20120603”。
[0101]时间(time):例如,12点34分02秒,其格式一般可以为12:34:02。
[0102]ip:1P 地址
[0103]动作标识(actid):网页动作的标识;
[0104]动作名称(actname):网页动作的名称;
[0105]动作属性(actattr):网页动作的属性;
[0106]归一化URL (unifyUrl) =URL 的归一化结果;
[0107]URL资源类型(PtNumber):整数显示,默认‘-’(即‘O,);
[0108]通用Query (commonQuery):URL 最常用的 query。
[0109]可选地,在本实施例的一个可能的实现方式中,在103中,具体可以包括如下操作:[0110]利用每个所述Session段中所包括的行为日志的Query作为第一输入参数,运行Query分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;
[0111]利用每个所述Session段中所包括的行为日志的Title作为第二输入参数,运行Title分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;以及
[0112]利用每个所述Session段中所包括的行为日志的URL作为第三输入参数,运行URL分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题。
[0113]可以理解的是,每一种操作的详细描述可以参见现有技术中的相关内容,此处不再赘述。
[0114]需要说明的是,利用测试样本中的行为日志的Query对所述Query分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行为日志的Title对所述Title分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行为日志的URL对所述URL分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述。
[0115]可选地,在本实施例的一个可能的实现方式中,在106中,具体可以根据所述至少一个第一候选主题,生成训练主题特征。然后,则可以利用所述训练主题特征和所述目标训练数据,训练所述日志分类模型。
[0116]具体地,具体可以根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第三候选主题。然后,则可以根据所述至少一个第一候选主题和所述至少一个第三候选主题,生成所述训练主题特征。
[0117]例如,具体可以将所述至少一个第一候选主题中,两两进行组合,生成所述训练主题特征。
[0118]或者,再例如,具体还可以将所述至少一个第一候选主题中,三三进行组合,生成所述训练主题特征。
[0119]可选地,在本实施例的一个可能的实现方式中,在105中,具体可以将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以生成候选训练数据。然后,对所述候选训练数据,进行有效性验证,并将通过所述有效性验证的候选训练数据,作为所述目标训练数据。
[0120]其中,所述有效性验证可以包括但不限于以下验证:
[0121]对Session段中每个行为日志对应的候选训练数据的数量进行验证,若大于或等于预先设置的数量阈值,则确定该候选训练数据通过所述有效性验证;
[0122]对相同的Query、Title或URL是否在两个或两个以上行为日志中出现,如果是,则确定两条或两条以上行为日志中的一个行为日志对应的候选训练数据通过所述有效性验证;以及
[0123]对Session段中每个行为日志的Query、Ti tie和URL中的至少一个字段参与投票的情况,若参与投票的字段占字段总和的比例大于或等于预先设置的比例阈值,则确定该候选训练数据通过所述有效性验证。
[0124]本实施例中,通过根据每个Session段中所包括的行为日志的检索关键词、题目和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题,进而根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题,使得能够将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。
[0125]图2为本发明另一实施例提供的基于日志分类模型的行为日志分类方法的流程示意图,如图2所示。
[0126]201、获取待识别的行为日志。
[0127]202、根据所述行为日志的Query、Title和URL,获得所述行为日志的对应字段所
属的至少一个第一候选主题。
[0128]203、根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题。
[0129]其中,所述日志分类模型为采用图1对应的实施例提供的日志分类模型的建立方法建立,详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
[0130]需要说明的是,201?203的执行主体可以是数据挖掘工具,例如,日志分析软件等,可以位于本地的客户端中,以进行离线服务,或者还可以位于网络侧的服务器中,以进行在线服务,本实施例对此不进行限定。
[0131]可以理解的是,所述客户端可以是安装在终端上的应用程序,或者还可以是浏览器的一个网页,只要能够实现用户的行为日志的挖掘,以提供相应服务的客观存在形式都可以,本实施例对此不进行限定。
[0132]这样,通过根据行为日志的QueryJitle和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题,进而根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。
[0133]具体地,在全网的数据源中,用户的一个行为日志可以为如下格式:[uid URLsource query title date time ip actid actname actattr unifyUrl PtNumbercommonQuery]。其中,共包括14个字段,各字段的含义如下所述:
[0134]用户标识(User ID, uid):baiduid映射出来的用户id,由若干数字组成;
[0135]统一资源定位符(Uniform Resource Locator, URL):可能为空,或可能不以“http” 开头;
[0136]数据源(source):产品线的数据来源,例如,百度百科(baike)、百度论坛(forum)或百度地图(map);
[0137]检索关键词(query):可能为空;
[0138]题目(title):网页名称;
[0139]日期(date):例如,2013年6月3日,其格式一般可以为“20120603”。[0140]时间(time):例如,12点34分02秒,其格式一般可以为12:34:02。
[0141]ip:1P 地址
[0142]动作标识(actid):网页动作的标识;
[0143]动作名称(actname):网页动作的名称;
[0144]动作属性(actattr):网页动作的属性;
[0145]归一化URL (unifyUrl) =URL 的归一化结果;
[0146]URL资源类型(PtNumber):整数显示,默认‘-’(即‘O,);
[0147]通用Query (commonQuery):URL 最常用的 query。
[0148]可选地,在本实施例的一个可能的实现方式中,在202中,具体可以包括如下操作:
[0149]利用所述行为日志的Query作为第一输入参数,运行Query分类模型,以获得所述行为日志的对应字段所属的第一候选主题;
[0150]利用所述行为日志的Title作为第二输入参数,运行Title分类模型,以获得所述行为日志的对应字段所属的第一候选主题;以及
[0151 ] 利用所述行为日志的URL作为第三输入参数,运行URL分类模型,以获得所述行为日志的对应字段所属的第一候选主题。
[0152]可以理解的是,每一种操作的详细描述可以参见现有技术中的相关内容,此处不再赘述。
[0153]需要说明的是,利用测试样本中的行为日志的Query对所述Query分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行为日志的Title对所述Title分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行为日志的URL对所述URL分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述。
[0154]可选地,在本实施例的一个可能的实现方式中,在203中,具体可以根据所述至少一个第一候选主题,生成匹配主题特征。然后,则可以利用所述匹配主题特征作为第四输入参数,运行所述日志分类模型,以将所述行为日志映射到对应主题。
[0155]具体地,具体可以根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第二候选主题。然后,则可以根据所述至少一个第一候选主题和所述至少一个第二候选主题,生成所述匹配主题特征。
[0156]例如,具体可以将所述至少一个第一候选主题中,两两进行组合,生成所述训练主题特征。
[0157]或者,再例如,具体还可以将所述至少一个第一候选主题中,三三进行组合,生成所述训练主题特征。
[0158]本实施例中,通过根据行为日志的Query、Title和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题,进而根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。[0159]需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0160]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0161]图3为本发明另一实施例提供的日志分类模型的建立装置的结构示意图,如图3所示。本实施例的日志分类模型的建立装置可以包括获取单元31、划分单元32、匹配单元33、确定单元34、准备单元35和训练单元36。其中,获取单元31,用于从至少一个数据源中,获取指定用户的行为日志;划分单元32,用于对所述行为日志进行划分,以获得至少一个Session段;匹配单元33,用于根据每个所述Session段中所包括的行为日志的Query、Title和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题;确定单元34,用于根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题;准备单元35,用于将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据;以及训练单元36,用于利用所述至少一个第一候选主题和所述目标训练数据,训练日志分类模型,所述日志分类模型用于将待分类的行为日志映射到对应主题。
[0162]需要说明的是,本实施例提供的装置可以是建模装置。
[0163]这样,通过匹配单元根据划分单元所划分的每个Session段中所包括的行为日志的检索关键词、题目和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题,进而由确定单元根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题,使得准备单元能够将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。
[0164]具体地,在全网的数据源中,用户的一个行为日志可以为如下格式:[uid URLsource query title date time ip actid actname actattr unifyUrl PtNumbercommonQuery]。其中,共包括14个字段,各字段的含义如下所述:
[0165]用户标识(User ID, uid):baiduid映射出来的用户id,由若干数字组成;
[0166]统一资源定位符(Uniform Resource Locator, URL):可能为空,或可能不以“http” 开头;
[0167]数据源(source):产品线的数据来源,例如,百度百科(baike)、百度论坛(forum)或百度地图(map);
[0168]检索关键词(query):可能为空;
[0169]题目(title):网页名称;
[0170]日期(date):例如,2013年6月3日,其格式一般可以为“20120603”。
[0171]时间(time):例如,12点34分02秒,其格式一般可以为12:34:02。[0172]ip:1P 地址
[0173]动作标识(actid):网页动作的标识;
[0174]动作名称(actname):网页动作的名称;
[0175]动作属性(actattr):网页动作的属性;
[0176]归一化URL (unifyUrl) =URL 的归一化结果;
[0177]URL资源类型(PtNumber):整数显示,默认‘-’(即‘O,);
[0178]通用Query (commonQuery):URL 最常用的 query。
[0179]可选地,在本实施例的一个可能的实现方式中,所述匹配单元33,具体可以用于执行如下操作:
[0180]利用每个所述Session段中所包括的行为日志的Query作为第一输入参数,运行Query分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;
[0181]利用每个所述Session段中所包括的行为日志的Title作为第二输入参数,运行Title分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;以及
[0182]利用每个所述Session段中所包括的行为日志的URL作为第三输入参数,运行URL分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题。
[0183]可以理解的是,每一种操作的详细描述可以参见现有技术中的相关内容,此处不再赘述。
[0184]需要说明的是,利用测试样本中的行为日志的Query对所述Query分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行为日志的Title对所述Title分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行为日志的URL对所述URL分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述。
[0185]可选地,在本实施例的一个可能的实现方式中,所述训练单元36,具体可以用于根据所述至少一个第一候选主题,生成训练主题特征;然后,则可以利用所述训练主题特征和所述目标训练数据,训练所述日志分类模型。
[0186]具体地,所述训练单元36,具体可以用于根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第三候选主题;然后,则可以根据所述至少一个第一候选主题和所述至少一个第三候选主题,生成所述训练主题特征。
[0187]例如,所述训练单元36具体可以将所述至少一个第一候选主题中,两两进行组合,生成所述训练主题特征。
[0188]或者,再例如,所述训练单元36具体还可以将所述至少一个第一候选主题中,三三进行组合,生成所述训练主题特征。
[0189]可选地,在本实施例的一个可能的实现方式中,所述准备单元35,具体可以用于将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以生成候选训练数据;然后,对所述候选训练数据,进行有效性验证,并将通过所述有效性验证的候选训练数据,作为所述目标训练数据。
[0190]其中,所述有效性验证可以包括但不限于以下验证:[0191]所述准备单元35对Session段中每个行为日志对应的候选训练数据的数量进行验证,若大于或等于预先设置的数量阈值,则确定该候选训练数据通过所述有效性验证;
[0192]所述准备单元35对相同的Query、Title或URL是否在两个或两个以上行为日志中出现,如果是,则确定两条或两条以上行为日志中的一个行为日志对应的候选训练数据通过所述有效性验证;以及
[0193]所述准备单元35对Session段中每个行为日志的Query、Title和URL中的至少一个字段参与投票的情况,若参与投票的字段占字段总和的比例大于或等于预先设置的比例阈值,则确定该候选训练数据通过所述有效性验证。
[0194]本实施例中,通过匹配单元根据划分单元所划分的每个Session段中所包括的行为日志的检索关键词、题目和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题,进而由确定单元根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题,使得准备单元能够将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。
[0195]图4为本发明另一实施例提供的基于日志分类模型的行为日志分类装置的结构示意图,如图4所示。本实施例的基于日志分类模型的行为日志分类装置可以包括获取单元41、匹配单元42和分类单元43。其中,获取单元41,用于获取待识别的行为日志;匹配单元42,用于根据所述行为日志的QueryJitle和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题;分类单元43,用于根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题。
[0196]其中,所述日志分类模型为采用图1对应的实施例提供的日志分类模型的建立方法建立,详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
[0197]需要说明的是,本实施例提供的装置可以是数据挖掘工具,例如,日志分析软件等,可以位于本地的客户端中,以进行离线服务,或者还可以位于网络侧的服务器中,以进行在线服务,本实施例对此不进行限定。
[0198]可以理解的是,所述客户端可以是安装在终端上的应用程序,或者还可以是浏览器的一个网页,只要能够实现用户的行为日志的挖掘,以提供相应服务的客观存在形式都可以,本实施例对此不进行限定。
[0199]这样,通过匹配单元根据获取单元所获取的行为日志的QueryJitle和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题,进而由分类单元根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。
[0200]具体地,在全网的数据源中,用户的一个行为日志可以为如下格式:[uid URLsource query title date time ip actid actname actattr unifyUrl PtNumbercommonQuery]。其中,共包括14个字段,各字段的含义如下所述:[0201]用户标识(User ID, uid):baiduid映射出来的用户id,由若干数字组成;
[0202]统一资源定位符(Uniform Resource Locator, URL):可能为空,或可能不以“http” 开头;
[0203]数据源(source):产品线的数据来源,例如,百度百科(baike)、百度论坛(forum)或百度地图(map);
[0204]检索关键词(query):可能为空;
[0205]题目(title):网页名称;
[0206]日期(date):例如,2013年6月3日,其格式一般可以为“20120603”。
[0207]时间(time):例如,12点34分02秒,其格式一般可以为12:34:02。
[0208]ip:1P 地址
[0209]动作标识(actid):网页动作的标识;
[0210]动作名称(actname):网页动作的名称;
[0211]动作属性(actattr):网页动作的属性;
[0212]归一化URL (unifyUrl) =URL 的归一化结果;
[0213]URL资源类型(PtNumber):整数显示,默认‘-’(即‘O,);
[0214]通用Query (commonQuery):URL 最常用的 query。
[0215]可选地,在本实施例的一个可能的实现方式中,所述匹配单元42,具体可以用于执行以下操作:
[0216]利用所述行为日志的Query作为第一输入参数,运行Query分类模型,以获得所述行为日志的对应字段所属的第一候选主题;
[0217]利用所述行为日志的Title作为第二输入参数,运行Title分类模型,以获得所述行为日志的对应字段所属的第一候选主题;以及
[0218]利用所述行为日志的URL作为第三输入参数,运行URL分类模型,以获得所述行为日志的对应字段所属的第一候选主题。
[0219]可以理解的是,每一种操作的详细描述可以参见现有技术中的相关内容,此处不再赘述。
[0220]需要说明的是,利用测试样本中的行为日志的Query对所述Query分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行为日志的Title对所述Title分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述;利用测试样本中的行为日志的URL对所述URL分类模型进行训练的训练方法,可以采用现有技术中的相关内容,此处不再赘述。
[0221]可选地,在本实施例的一个可能的实现方式中,所述分类单元43,具体可以用于根据所述至少一个第一候选主题,生成匹配主题特征;然后,则可以利用所述匹配主题特征作为第四输入参数,运行所述日志分类模型,以将所述行为日志映射到对应主题。
[0222]具体地,所述分类单元43,具体可以用于根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第二候选主题;然后则可以根据所述至少一个第一候选主题和所述至少一个第二候选主题,生成所述匹配主题特征。
[0223]例如,所述分类单元43具体可以将所述至少一个第一候选主题中,两两进行组合,生成所述训练主题特征。[0224]或者,再例如,所述分类单元43具体还可以将所述至少一个第一候选主题中,三三进行组合,生成所述训练主题特征。
[0225]本实施例中,通过匹配单元根据获取单元所获取的行为日志的Query、Title和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题,进而由分类单元根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题,由于通过对行为日志进行基于主题的分类,实现对该行为日志的统计,能够避免现有技术中由于很多行为日志缺少Query或Title等字段而导致的无法对行为日志进行统计的问题,从而提高了行为日志的分析的准确性。
[0226]所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0227]在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0228]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0229]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0230]上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory, RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0231]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【权利要求】
1.一种日志分类模型的建立方法,其特征在于,包括: 从至少一个数据源中,获取指定用户的行为日志; 对所述行为日志进行划分,以获得至少一个Session段; 根据每个所述Session段中所包括的行为日志的检索关键词、题目和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题; 根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题; 将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据; 利用所述至少一个第一候选主题和所述目标训练数据,训练日志分类模型,所述日志分类模型用于将待分类的行为日志映射到对应主题。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述Session段中所包括的行为日志的Query、Title和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题,包括: 利用每个所述Session段中所包括的行为日志的Query作为第一输入参数,运行Query分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;利用每个所述Session段中所包括的行为日志的Title作为第二输入参数,运行Title分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;以及 利用每个所述Session段中所包括的行为日志的URL作为第三输入参数,运行URL分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题。
3.根据权利要求1或2所述的方法,其特征在于,所述利用所述至少一个第一候选主题和所述目标训练数据,训练日志分类模型,所述日志分类模型用于将待分类的行为日志映射到对应主题,包括: 根据所述至少一个第一候选主题,生成训练主题特征; 利用所述训练主题特征和所述目标训练数据,训练所述日志分类模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述至少一个第一候选主题,生成训练主题特征,包括: 根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第三候选主题; 根据所述至少一个第一候选主题和所述至少一个第三候选主题,生成所述训练主题特征。
5.根据权利要求1-4任一权利要求所述的方法,其特征在于,所述将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据,包括: 将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以生成候选训练数据; 对所述候选训练数据,进行有效性验证; 将通过所述有效性验证的候选训练数据,作为所述目标训练数据。
6.一种基于日志分类模型的行为日志分类方法,其特征在于,所述分类模型为采用如权利要求1-5任一权利要求所述的日志分类模型的建立方法建立;所述方法包括: 获取待识别的行为日志; 根据所述行为日志的Query、Title和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题; 根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题。
7.根据权利要求6所述的方法,其特征在于,所述根据所述行为日志的Query、Title和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题,包括: 利用所述行为日志的Query作为第一输入参数,运行Query分类模型,以获得所述行为日志的对应字段所属的第一候选主题; 利用所述行为日志的Title作为第二输入参数,运行Title分类模型,以获得所述行为日志的对应字段所属的第一候选主题;以及 利用所述行为日志 的URL作为第三输入参数,运行URL分类模型,以获得所述行为日志的对应字段所属的第一候选主题。
8.根据权利要求6或7所述的方法,其特征在于,所述根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题,包括: 根据所述至少一个第一候选主题,生成匹配主题特征; 利用所述匹配主题特征作为第四输入参数,运行所述日志分类模型,以将所述行为日志映射到对应主题。
9.根据权利要求8所述的方法,其特征在于,所述根据所述至少一个第一候选主题,生成匹配主题特征,包括: 根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第二候选主题; 根据所述至少一个第一候选主题和所述至少一个第二候选主题,生成所述匹配主题特征。
10.一种日志分类模型的建立装置,其特征在于,包括: 获取单元,用于从至少一个数据源中,获取指定用户的行为日志; 划分单元,用于对所述行为日志进行划分,以获得至少一个Session段; 匹配单元,用于根据每个所述Session段中所包括的行为日志的Query、Title和URL,获得每个所述Session段中每个行为日志的对应字段所属的至少一个第一候选主题; 确定单元,用于根据所述至少一个第一候选主题,利用投票方法,确定每个所述Session段所属的第二候选主题; 准备单元,用于将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以作为目标训练数据; 训练单元,用于利用所述至少一个第一候选主题和所述目标训练数据,训练日志分类模型,所述日志分类模型用于将待分类的行为日志映射到对应主题。
11.根据权利要求10所述的装置,其特征在于,所述匹配单元,具体用于利用每个所述Session段中所包括的行为日志的Query作为第一输入参数,运行Query分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;利用每个所述Session段中所包括的行为日志的Title作为第二输入参数,运行Title分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题;以及 利用每个所述Session段中所包括的行为日志的URL作为第三输入参数,运行URL分类模型,以获得每个所述Session段中每个行为日志的对应字段所属的第一候选主题。
12.根据权利要求10或11所述的装置,其特征在于,所述训练单元,具体用于 根据所述至少一个第一候选主题,生成训练主题特征; 利用所述训练主题特征和所述目标训练数据,训练所述日志分类模型。
13.根据权利要求12所述的装置,其特征在于,所述训练单元,具体用于 根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第三候选主题; 根据所述至少一个第一候选主题和所述至少一个第三候选主题,生成所述训练主题特征。
14.根据权利要求10-13任一权利要求所述的装置,其特征在于,所述准备单元,具体用于 将每个所述Session段所属的第二候选主题,作为每个所述Session段中每个行为日志所属的主题,以生成候选训练数据; 对所述候选训练数据,进行有效性验证; 将通过所述有效性验证的候选训练数据,作为所述目标训练数据。
15.一种基于日志分类模型的行为日志分类装置,其特征在于,所述分类模型为采用如权利要求10-14任一权利要求所述的日志分类模型的建立方法建立;所述装置包括: 获取单元,用于获取待识别的行为日志; 匹配单元,用于根据所述行为日志的Query、Title和URL,获得所述行为日志的对应字段所属的至少一个第一候选主题; 分类单元,用于根据所述至少一个第一候选主题,利用所述日志分类模型,对所述行为日志进行分类,以将所述行为日志映射到对应主题。
16.根据权利要求15所述的装置,其特征在于,所述匹配单元,具体用于 利用所述行为日志的Query作为第一输入参数,运行Query分类模型,以获得所述行为日志的对应字段所属的第一候选主题; 利用所述行为日志的Title作为第二输入参数,运行Title分类模型,以获得所述行为日志的对应字段所属的第一候选主题;以及 利用所述行为日志的URL作为第三输入参数,运行URL分类模型,以获得所述行为日志的对应字段所属的第一候选主题。
17.根据权利要求15或16所述的装置,其特征在于,所述分类单元,具体用于 根据所述至少一个第一候选主题,生成匹配主题特征; 利用所述匹配主题特征作为第四输入参数,运行所述日志分类模型,以将所述行为日志映射到对应主题。
18.根据权利要求17所述的装置,其特征在于,所述分类单元,具体用于 根据所述至少一个第一候选主题中每个所述第一候选主题,生成至少一个第二候选主题; 根据所述至少一个第一候选主题和所述至少一个第二候选主题,生成所述匹配主题特征。
【文档编号】G06F11/34GK103455411SQ201310331868
【公开日】2013年12月18日 申请日期:2013年8月1日 优先权日:2013年8月1日
【发明者】黄世维, 黄硕, 徐倩, 向伟 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1