年龄标注方法及系统与流程

文档序号:19892836发布日期:2020-02-11 12:54阅读:406来源:国知局
年龄标注方法及系统与流程

本申请涉及互联网技术领域,尤其是一种年龄标注方法及系统。



背景技术:

随着网络的迅猛发展,人们已经进入了信息和网络经济时代,这对企业的发展和个人生活都产生了极大影响。为了提高服务质量,很多网站或媒体都需要对用户身份进行识别,依据群体的特性提供有针对性的服务。因此,年龄作为用户身份中的重要因素为提供有针对性的服务提供重要依据,如何识别和标注用户年龄对提高网络服务质量至关重要。

相关技术中,通过在互联网社交媒体平台中,根据收集到的用户的历史行为特征如历史发文、评价、关注等进行年龄推断以实现对未知年龄的用户进行年龄标注。然而一般成熟的互联网社交媒体平台动辄就会有上亿的用户规模,收集全部用户的历史行为数据非常困难,历史行为数据缺失或不足严重影响了平台年龄标注结果。



技术实现要素:

为至少在一定程度上克服相关技术中,通过在互联网社交媒体平台中,根据收集到的用户的历史行为特征如历史发文、评价、关注等进行年龄推断以为实现对未知年龄的用户进行年龄标注,然而一般成熟的互联网社交媒体平台动辄就会有上亿的用户规模,收集全部用户的历史行为数据非常困难,历史行为数据缺失或不足严重影响了平台年龄标注结果的问题,本申请提供一种年龄标注方法及系统。

第一方面,本申请提供一种年龄标注方法,包括:

识别特征用户;

对所述特征用户进行年龄标注;

根据特征用户的年龄标注对未标注年龄的用户进行年龄标注。

进一步的,所述识别特征用户包括:

获取用户信息;

根据所述用户信息对所述用户的特征数据进行判断;

若所述用户的特征数据大于预设阈值,则识别为所述特征用户。

进一步的,所述特征数据包括:粉丝量、关注量和互动量中的一种或多种。

进一步的,所述识别特征用户还包括:

若所述用户的特征数据小于或等于预设阈值,则识别为普通用户。

进一步的,所述对所述特征用户进行年龄标注包括:

根据已知用户的年龄对所述特征用户进行年龄标注。

进一步的,所述根据已知用户的年龄对所述特征用户进行年龄标注包括:

获取与所述已知年龄的用户进行关注和/或互动的特征用户;

根据所述已知年龄的用户的年龄对所述特征用户进行年龄标注。

进一步的,所述根据特征用户的年龄标注对未标注年龄的用户进行年龄标注包括:

建立特征用户数据库;

遍历所述特征用户数据库中的特征用户,获取与所述特征用户有关注和/或互动行为的用户;

根据特征用户的年龄标注对与所述特征用户有关注和/或互动行为的未标注年龄的用户进行年龄标注。

第二方面,本申请提供一种年龄标注系统,包括:

识别模块,用于识别特征用户;

第一标注模块,用于对所述特征用户进行年龄标注;

第二标注模块,用于根据所述特征用户的年龄标注对未标注年龄的用户进行年龄标注。

进一步的,所述系统还包括:

特征数据判断模块,用于根据所述用户信息对所述用户的特征数据进行判断。

进一步的,所述系统还包括:

特征用户数据库建立模块,用于建立特征用户数据库。

本申请的实施例提供的技术方案可以包括以下有益效果:

本申请通过识别特征用户,对特征用户进行年龄标注,可以大幅减少数据获取工作量,并且根据特征用户的年龄标注对未标注年龄的用户进行年龄标注,可以提升年龄标注结果的置信度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

图1是本申请一个实施例提供的一种年龄标注方法的流程图。

图2是本申请另一个实施例提供的一种年龄标注方法的流程图。

图3是本申请另一个实施例提供的一种年龄标注方法的流程图。

图4是本申请一个实施例提供的一种年龄标注系统的结构图。

图5是本申请一个实施例提供的一种年龄标注实验结果图。

图6是本申请一个实施例提供的另一种年龄标注实验结果图。

图7是本申请一个实施例提供的另一种年龄标注实验结果图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

图1是本申请一个实施例提供的年龄标注方法的流程图。

为克服在互联网社交媒体平台中对未知年龄的用户进行年龄标注数据量大,难获取,因为数据缺失或不足影响年龄标注结果的问题,本申请提供一种年龄标注系统,该系统通过识别特征用户,对特征用户进行年龄标注,可以大幅减少数据获取工作量,并且根据特征用户的年龄标注对未标注年龄的用户进行年龄标注,可以提升年龄标注结果的置信度。

如图1所示,本实施例提供的年龄标注方法,包括:

s11:识别特征用户;

s12:对特征用户进行年龄标注;

s13:根据特征用户的年龄标注对未标注年龄的用户进行年龄标注。

目前对未知年龄用户进行年龄标注主要通过在互联网社交媒体平台中,根据收集到的用户的历史行为特征如历史发文、评价、关注等进行年龄推断以实现对未知年龄的用户进行年龄标注。然而一般成熟的互联网社交媒体平台动辄就会有上亿的用户规模,收集全部用户的历史行为数据非常困难,历史行为数据缺失或不足严重影响了平台年龄标注结果。

以微博平台举例,总用户量有将近10亿,如果获取每个用户的10条行为数据,也需要获取:10亿*10=100亿的数据量。假设只提取活跃度靠前的半数用户的用户信息,也需要抓取100亿/2=50亿的数据量。由于数据量巨大,易造成数据稀疏和维度等问题,从而影响年龄推测及标注结果。

特征用户是指每个社交网络平台上的意见领袖kol(keyopinionleader),每个平台上的特征用户的数量占比较小,甚至小于1%,特征用户在社交网络平台中占比一般在万分之一的量级。而这万分之一的特征用户群体的粉丝用户总量往往超越当前平台的用户总量的50%。同样拿微博平台举例,特征用户数量为10亿用户的万分之一,大约有10万的特征用户。与每个特征用户有关注和互动行为的粉丝量有平均5千左右;则10万*5千=5亿的用户量可以通过抓取与特征用户有过互动和关注行为的用户进行覆盖,从而大幅减少了数据获取量。

在获取到每个特征用户的关注或互动数据后,可以根据特征用户的年龄对没有年龄信息,但与特征用户进行过关注和互动行为的普通用户,给出合理的年龄推断,不仅覆盖的用户范围广,并且年龄推断的准确度明显提升。

本实施例中,通过识别特征用户,对特征用户进行年龄标注,可以大幅减少数据获取工作量,并且根据特征用户的年龄标注对未标注年龄的用户进行年龄标注,可以提升年龄标注结果的置信度。

图2是本申请另一个实施例提供的一种年龄标注方法的流程图。

如图2所示,本实施例的方法包括:

s21:获取用户信息;

s22:根据用户信息对用户的特征数据进行判断;

特征数据包括但不限于粉丝量、关注量和互动量中的一种或多种。

s23:若用户的特征数据大于预设阈值,则识别为特征用户。

s24:若用户的特征数据小于或等于预设阈值,则识别为普通用户。

通过在平台数据中抓取日常数据以获取用户信息,根据用户信息对用户的特征数据进行判断,例如根据用户的个人信息对用户的粉丝量进行判断,需要说明的是,在平台数据中,用户个人信息包含粉丝量数据量,因此,粉丝量数据可以直接获取,判断其粉丝量是否达到预设阈值例如阈值为5000,若粉丝量超出5000,则识别为特征用户,否则识别为普通用户。可以理解的是,粉丝量越多说明该特征用户的影响力越大,数据可靠性越高。

本实施例中,通过获取用户信息,根据用户信息对用户的特征数据进行判断以识别特征用户,可以大幅减少数据获取工作量,提升工作效率。

图3是本申请另一个实施例提供的一种年龄标注方法的流程图。

如图3所示,本实施例的方法包括:

s31:获取与已知年龄的用户进行关注和/或互动的特征用户;

s32:根据已知年龄的用户的年龄对特征用户进行年龄标注;

s33:建立特征用户数据库;

s34:遍历特征用户数据库中的特征用户,获取与特征用户有关注和/或互动行为的用户;

遍历特征用户数据库中的特征用户,获取每个特征用户的新增粉丝的用户信息,以及对特征用户的日常发文有过转、评、赞等互动行为的用户信息。建立互动用户数据库,将新增粉丝的用户信息,以及对特征用户的日常发文有过转、评、赞等互动行为的用户信息保存至互动用户数据库。以方便对每个特征用户的粉丝和与特征用户有过互动行为的用户进行信息维护。

s35:根据特征用户的年龄标注对与特征用户有关注和/或互动行为的未标注年龄的用户进行年龄标注。

根据历史积累的已知年龄的用户对各个特征用户的关注和互动频次,可以统计出各个特征用户所代表的年龄特征。例如,对一些初高中教育类、小鲜肉明星类的特征用户,高频与其互动的大多是20岁不到的青少年,则这些特征用户所代表的就是90后的年龄特征;而对一些中老年养生类的特征用户,其对应的年龄特征大多是60后和70后。

根据特征用户的分类及年龄特征可以判断出普通用户的年龄特征,例如:85后的用户更倾向于关注“母婴”类的特征用户,90后的用户更倾向于关注“考研”类的特征用户,95后的用户有关注“高考”类特征用户的倾向,00后有关注“小鲜肉”类明星的倾向。根据对特征用户的关注和互动行为,对没有年龄信息的普通用户进行年龄标注,根据关注和互动过的特征用户,以及这些特征用户们的年龄特征,可以为这些普通用户标注上高置信度的年龄信息。

本实施例中,通过根据特征用户的年龄标注对与特征用户有关注和/或互动行为的未标注年龄的用户进行年龄标注,可以为普通用户标注上高置信度的年龄信息。

图4是本申请一个实施例提供的一种年龄标注系统的结构图。

如图4所示,本实施例提供的一种年龄标注系统,包括:

识别模块41,用于识别特征用户;

第一标注模块42,用于对特征用户进行年龄标注;

第二标注模块43,用于根据特征用户的年龄标注对未标注年龄的用户进行年龄标注。

作为本发明可选的一种实现方式,所述系统还包括:

特征数据判断模块44,用于根据所述用户信息对所述用户的特征数据进行判断。

作为本发明可选的一种实现方式,所述系统还包括:

特征用户数据库建立模块45,用于建立特征用户数据库。

通过特征数据判断模块44根据用户信息对用户的特征数据进行判断,识别模块41识别特征用户,第一标注模块42对特征用户进行年龄标注第二标注模块43根据特征用户的年龄标注对未标注年龄的用户进行年龄标注,特征用户数据库建立模块45建立特征用户数据库,可以实现对未知年龄的用户进行年龄标注,从而丰富用户信息。

参见图5~图7,通过实验数据可以看出,通过该方法标注的用户年龄分布数据,与用户自填的年龄分布数据进行比较,在分布比例保持基本一致并更趋合理的情况下,每个年龄段的用户量也有了大幅提升,提高了年龄标注数据的置信度。

本实施例中,通过识别特征用户,对特征用户进行年龄标注,可以大幅减少数据获取工作量,并且根据特征用户的年龄标注对未标注年龄的用户进行年龄标注,可以提升年龄标注结果的置信度。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

需要说明的是,本发明不局限于上述最佳实施方式,本领域技术人员在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1