一种关键词库更新方法及装置与流程

文档序号:18464734发布日期:2019-08-17 02:21阅读:206来源:国知局
一种关键词库更新方法及装置与流程

本申请涉及数据处理技术领域,具体而言,涉及一种关键词库更新方法及装置。



背景技术:

用户通过服务平台推送的资讯,可以获取大量的信息,进而便利和丰富自己的生活。服务平台为了更好的服务用户,根据用户浏览资讯的方式,来制定为该用户推送资讯的策略,使得用户体验度高。

通常,监测平台的服务器接收到用户浏览资讯后产生的监测数据(即资讯的流量信息),将监测数据与预先建立的网页web关键字库中的关键字、应用程序app关键字库中的关键字进行匹配,进而确定该监测数据的来源类型(即为web流量数据或为app流量数据),以使得服务平台可以根据该监测数据的来源类型制定推送资讯的策略。

但是,上述web关键字库和app关键字库中的关键字全部为人为收集,难以根据新的关键字更新web关键字库和app关键字库,耗时耗力,并且使得确定该监测数据的来源类型时,准确率低。



技术实现要素:

有鉴于此,本申请实施例的目的在于提供一种关键词库更新方法及装置,能够自动更新web关键字库和app关键字库,减少人工干预,进而提高识别目标监测数据为web流量数据或app流量数据的准确率。

第一方面,本申请实施例提供了一种关键词库更新方法,其中,包括:

获取目标监测数据,并从所述目标监测数据中提取出目标用户代理ua的信息;

从所述目标ua的信息中提取所述目标ua的类型对应的目标关键字;

判断所述目标关键字中是否存在预设字符;

若存在,则确定所述目标监测数据为网页web流量数据,并利用所述目标关键字更新web关键字库;

若不存在,则确定所述目标监测数据为应用程序app流量数据,并利用所述目标关键字更新app关键字库。

结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,还包括:

从所述目标ua的信息中查找是否存在web关键字库中的任一关键字;

若存在,则确定所述目标监测数据为web流量数据。

结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述从所述目标ua的信息中提取所述目标ua的类型对应的目标关键字,包括:

将所述目标ua的信息包括的字符串转换成小写形式;

根据正则表达式对小写形式的字符串进行切割,得到多个第一候选关键字;

按照空格对每个第一候选关键字进行切割,得到多个第二候选关键字;

从所述多个第二候选关键字中,删除与所述目标ua的类型特征无关的候选关键字之后,得到所述目标ua的类型对应的目标关键字。

结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,还包括:

将更新后的web关键字库展示给后台工作人员,以使所述后台工作人员进行校验。

第二方面,本申请实施例还提供了一种关键词库更新装置,其中,包括:

获取模块,用于获取目标监测数据,并从所述目标监测数据中提取出目标用户代理ua的信息;

提取模块,用于从所述目标ua的信息中提取所述目标ua的类型对应的目标关键字;

判断模块,用于判断所述目标关键字中是否存在预设字符;

第一更新模块,用于若存在,则确定所述目标监测数据为网页web流量数据,并利用所述目标关键字更新web关键字库;

第二更新模块,用于若不存在,则确定所述目标监测数据为应用程序app流量数据,并利用所述目标关键字更新app关键字库。

结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,还包括:

查找模块,用于从所述目标ua的信息中查找是否存在web关键字库中的任一关键字;

若存在,则确定所述目标监测数据为web流量数据。

结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中,包括:

所述提取模块,具体用于将所述目标ua的信息包括的字符串转换成小写形式;

根据正则表达式对小写形式的字符串进行切割,得到多个第一候选关键字;

按照空格对每个第一候选关键字进行切割,得到多个第二候选关键字;

从所述多个第二候选关键字中,删除与所述目标ua的类型特征无关的候选关键字之后,得到所述目标ua的类型对应的目标关键字。

结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中,还包括:

校验模块,用于将更新后的web关键字库展示给后台工作人员,以使所述后台工作人员进行校验。

第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的第一种可能的实施方式至第一方面的的第三种可能的实施方式中任一种可能的实施方式中的步骤。

第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的第一种可能的实施方式至第一方面的的第三种可能的实施方式中任一种可能的实施方式中的步骤。

本申请实施例提供的一种关键词库更新方法及装置,其中,该关键词库更新方法包括获取目标监测数据,并从目标监测数据中提取出目标用户代理ua的信息;从目标ua的信息中提取目标ua对应的目标关键字;判断目标关键字中是否存在预设字符;若存在,则确定目标监测数据为web流量数据,并利用该目标关键字更新web关键字库;若不存在,则确定目标监测数据为应用程序app流量数据。本申请实施例利用目标监测数据中目标ua的信息,来确定该目标监测数据为web流量数据,还是为app流量数据,能够自动更新web关键字库和app关键字库,减少人工干预,进而提高识别目标监测数据为web流量数据或app流量数据的准确率。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种关键词库更新方法的流程图;

图2示出了本申请实施例所提供的另一种关键词库更新方法的流程图;

图3示出了本申请实施例所提供的一种关键词库更新装置的结构示意图;

图4示出了本申请实施例所提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

目前,监测平台的服务器接收到用户浏览资讯后产生的监测数据(即资讯的流量信息),将监测数据与预先建立的网页web关键字库中的关键字、应用程序app关键字库中的关键字进行匹配,进而确定该监测数据的来源类型(即为web流量数据或为app流量数据)。但是,web关键字库和app关键字库中的关键字全部为人为收集,难以根据新的关键字更新web关键字库和app关键字库,使得确定该监测数据的来源类型时,准确率低,耗时耗力。针对上述问题,本申请实施例提供的一种关键词库更新方法及装置,能够自动更新web关键字库和app关键字库,减少人工干预,进而提高识别目标监测数据为web流量数据或app流量数据的准确率。

为便于对本申请实施例进行理解,首先对本申请实施例所公开的一种关键词库更新方法进行详细介绍。

如图1所示,为本申请实施例以服务器为执行主体时关键词库更新方法的流程图,具体步骤如下:

s101,获取目标监测数据,并从目标监测数据中提取出目标用户代理ua的信息。

在具体实施中,设备播放资讯信息之后,将向服务器发送监测数据,以便于服务器记录该设备产生的流量。

服务器实时获取设备发送的目标监测数据,并从目标监测数据中提取出目标用户代理(useragent,ua)的信息

其中,目标ua的信息可以包括硬件平台、系统软件、应用软件等。

s102,从目标ua的信息中提取目标ua的类型对应的目标关键字。

在具体实施中,从目标ua的信息中提取目标ua对应的目标关键字,该目标关键字指示了该目标ua的类型,目标ua的类型可以包括百度浏览器、360浏览器、ie浏览器等。

具体的提取目标ua对应的目标关键字的方法,在下文中详细阐述,在此不做过多赘述。

在从目标ua的信息中提取目标ua对应的目标关键字之前,可以从目标ua的信息中查找是否存在网页web关键字库中的任一关键字;若存在,则确定目标监测数据为web流量数据。

目标ua的信息中会携带有指示目标ua的类型的信息,可以直接与预先建立的web关键字库进行匹配,若匹配到了web关键字库中的任一关键字,则可以直接确定目标监测数据为web流量数据。

若目标ua的信息中不存在web关键字库中的任一关键字,则进行步骤102,提取目标ua对应的目标关键字。

其中,web关键字库为预先构建的,可以包括360browser、360aphonebrowser、xiaomibrowser、baidubrowser、sogoubrowser等关键字。

s103,判断目标关键字中是否存在预设字符。

在具体实施中,存在普及率较低的浏览器,以及用户不经常使用的浏览器,用户利用上述浏览器浏览网页,产生的目标监测数据中的目标ua的信息,与web关键字库进行匹配,难以匹配出上述浏览器对应的关键字。因此,从目标ua的信息中提取目标ua对应的目标关键字,进一步查找目标关键字中是否存在预设字符。

其中,该预设字符可以包括explorer、115browser、wifibrowser等。

s104,若存在,则确定目标监测数据为网页web流量数据,并利用所述目标关键字更新web关键字库。

在确定目标监测数据为web流量数据之后,服务器利用目标关键字自动更新web关键字库。

服务器还可以将更新后的web关键字库展示给后台工作人员,以使后台工作人员进行校验。

通过更新后的web关键字库,可以提高识别目标监测数据为web流量数据的准确率。

s105,若不存在,则确定目标监测数据为应用程序app流量数据,并利用所述目标关键字更新app关键字库。

在具体实施中,若目标ua的信息中不存在web关键字库中的任一关键字,并且目标ua对应的目标关键字中也不存在预设字符,则确定目标监测数据为应用程序app流量数据。

由于app的数量远多于浏览器的数量,因此,app关键字库中的关键字的数量比较大,为了避免目标关键字与app关键字库进行匹配时,浪费时间与资源的问题,在确定目标ua的信息中不存在web关键字库中的任一关键字,且目标关键字中不存在预设字符时,确定目标监测数据为应用程序app流量数据。

其中,app关键字库可以包括micromessenger/、qq/、baiduboxapp、mmbang、weibo、alipayclient等。

值得说明的是,在确定目标监测数据为应用程序app流量数据之后,也可以直接利用目标关键字更新app关键字库。

本申请实施例利用目标监测数据中目标ua的信息,来确定该目标监测数据为web流量数据,还是为app流量数据,能够提高识别目标监测数据为web流量数据或app流量数据的准确率,自动更新web关键字库、app关键字库,减少人工干预。随着识别次数的增加,每次对web关键字库的更新,可以不断提高准确率,所需要校正的关键字也会越来越少,从而减少人力的浪费。

值得说明的是,在从目标ua的信息中提取目标ua对应的目标关键字时,若未提取到目标关键字,则确定该目标监测数据为未知流量,即,不属于web流量数据,也不属于app流量数据。进一步的,可以将该目标监测数据发送至后台工作人员的客户端,以使得后台工作人员对该未知流量进行判断。

在确定目标监测数据为web流量数据或app流量数据之后,可以根据判断结果对该用户的资讯信息进行精准推送,即通过web进行推送,还是通过app进行推送。

按照图2所示的方法从目标ua的信息中提取目标ua的类型对应的目标关键字,其中,具体步骤如下:

s201,将目标ua的信息包括的字符串转换成小写形式;

s202,根据正则表达式对小写形式的字符串进行切割,得到多个第一候选关键字;

s203,按照空格对每个第一候选关键字进行切割和重组,得到多个第二候选关键字;

s204,从多个第二候选关键字中,删除与目标ua的类型特征无关的候选关键字之后,得到目标ua的类型对应的目标关键字。

在具体实施中,首先将目标ua的信息包括的字符串转换成小写形式,根据正则表达式对小写形式的字符串进行切割,具体的,根据正则表达式“\\((.*?)\\)|[0-9]+x[0-9]+”替换小写形式的字符串中所有括号内的信息以及分辨率信息,接着根据正则表达式“/[^]*”对整个小写形式的字符串进行切割,得到第一候选关键字;其中,第一候选关键字中携带所有可能有效的关键字。

然后,按照空格对候选关键字进行切割和重组,具体的,重组第一候选关键字的每个部分时剔除所有可以匹配上正则表达式“.*[~!@#$%^&*(),?;"|<>{}=+_\-\[\]].*”的子关键字,最后将所有重组后的非空关键字返回作为第二候选关键字。

通过步骤201-203,可以去除目标ua的信息中包括的设备信息对应的关键字和系统信息对应的关键字,如“(linux;u;android2.2.1;zh-cn;htc_wildfire_a3333build/frg83d)”,以及携带的类似“/533.1”浏览器或app的版本信息对应的关键字等。

最后,从第二候选关键字中,删除与目标ua的特征无关的候选关键字,得到目标ua对应的目标关键字。

其中,与目标ua的特征无关的候选关键字为无法指示目标ua的类型的关键字,例如“mozilla”,“applewebkit”等关键字,既存在于常见的web流量数据的ua信息中,又存在于多数app流量数据的ua信息中。

另外,还包括chorme、mbbms、symbianos、cfnetwork、build等。

通过上述方法,提取目标ua对应的目标关键字,可以去除设备信息对应的关键字、系统信息对应的关键字、版本信息对应的关键字、与目标ua的特征无关的候选关键字等,提高目标关键字与预设字符、wen关键字库匹配的准确率,同时节省服务器资源。

基于同一发明构思,本申请实施例还提供了与关键词库更新方法对应的关键词库更新装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述关键词库更新方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

参见图3所示,本申请又一实施例所提供的关键词库更新装置包括:

获取模块301,用于获取目标监测数据,并从所述目标监测数据中提取出目标用户代理ua的信息;

提取模块302,用于从所述目标ua的信息中提取所述目标ua的类型对应的目标关键字;

判断模块303,用于判断所述目标关键字中是否存在预设字符;

第一更新模块304,用于若存在,则确定所述目标监测数据为网页web流量数据,并利用所述目标关键字更新web关键字库;

第二更新模块305,用于若不存在,则确定所述目标监测数据为应用程序app流量数据,并利用所述目标关键字更新app关键字库。

在一种实施方式中,上述关键词库更新装置还包括:

查找模块306,用于从所述目标ua的信息中查找是否存在web关键字库中的任一关键字;

若存在,则确定所述目标监测数据为web流量数据。

在另一种实施方式中,上述提取模块302,具体用于:

将所述目标ua的信息包括的字符串转换成小写形式;

根据正则表达式对小写形式的字符串进行切割,得到多个第一候选关键字;

按照空格对每个第一候选关键字进行切割,得到多个第二候选关键字;

从所述多个第二候选关键字中,删除与所述目标ua的类型特征无关的候选关键字之后,得到所述目标ua的类型对应的目标关键字。

在又一种实施方式中,上述关键词库更新装置还包括:

校验模块307,用于将更新后的web关键字库展示给后台工作人员,以使所述后台工作人员进行校验。

图4描述了本发明实施例提供的一种电子设备400的结构,该电子设备400包括:至少一个处理器401,至少一个网络接口404或者其他用户接口403,存储器405,至少一个通信总线402。通信总线402用于实现这些组件之间的连接通信。该电子设备400可选的包含用户接口403,包括显示器(例如,触摸屏、lcd、crt、全息成像(holographic)或者投影(projector)等),键盘或者点击设备(例如,鼠标,轨迹球(trackball),触感板或者触摸屏等)。

存储器405可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器405的一部分还可以包括非易失性随机存取存储器(nvram)。

在一些实施方式中,存储器405存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:

操作系统4051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;

应用程序模块4052,包含各种应用程序,例如桌面(launcher)、媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。

在本发明实施例中,通过调用存储器405存储的程序或指令,处理器401用于:获取目标监测数据,并从所述目标监测数据中提取出目标用户代理ua的信息;

从所述目标ua的信息中提取所述目标ua的类型对应的目标关键字;

判断所述目标关键字中是否存在预设字符;

若存在,则确定所述目标监测数据为网页web流量数据,并利用所述目标关键字更新web关键字库;

若不存在,则确定所述目标监测数据为应用程序app流量数据,并利用所述目标关键字更新app关键字库。

可选地,处理器401执行的方法中,还包括:

从所述目标ua的信息中查找是否存在web关键字库中的任一关键字;

若存在,则确定所述目标监测数据为web流量数据。

可选地,处理器401执行的方法中,所述从所述目标ua的信息中提取所述目标ua的类型对应的目标关键字,包括:

将所述目标ua的信息包括的字符串转换成小写形式;

根据正则表达式对小写形式的字符串进行切割,得到多个第一候选关键字;

按照空格对每个第一候选关键字进行切割,得到多个第二候选关键字;

从所述多个第二候选关键字中,删除与所述目标ua的类型特征无关的候选关键字之后,得到所述目标ua的类型对应的目标关键字。

可选地,处理器401执行的方法中,还包括:

将更新后的web关键字库展示给后台工作人员,以使所述后台工作人员进行校验。

本申请实施例所提供的关键词库更新方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。

具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述关键词库更新方法,从而能够自动更新web关键字库和app关键字库,减少人工干预,进而提高识别目标监测数据为web流量数据或app流量数据的准确率。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1