用户画像标签的确定方法、装置和电子设备与流程

文档序号:32998738发布日期:2023-01-18 00:40阅读:34来源:国知局
用户画像标签的确定方法、装置和电子设备与流程

1.本技术涉及数据处理技术领域,尤其涉及一种用户画像标签的确定方法、装置和电子设备。


背景技术:

2.随着互联网和社交媒体的发展,产生了海量的社交媒体数据,而大数据技术可以发现用户与社交媒体数据之间的相关性,目前已经广泛应用于广告推送、用户个性化服务与改善等较多领域。
3.用户画像标签作为大数据技术的重要应用,它是基于用户的社交媒体数据构建用户画像,从而确定用户画像标签。在确定出用户画像标签后,就可以根据用户画像标签,有针对性地进行广告推送、用户个性化服务与改善等。
4.因此,如何准确地确定用户画像标签,是本领域技术人员亟待解决的技术问题。


技术实现要素:

5.本技术提供一种用户画像标签的确定方法、装置和电子设备,可以准确地确定用户画像标签,从而提高了确定出的用户画像标签的准确度。
6.本技术提供一种用户画像标签的确定方法,包括:获取目标用户对应的多个描述文本,并从所述多个描述文本中提取多个关键词。
7.将所述多个关键词和所述多个关键词中各字均输入至命名实体识别模型中,得到多个第一命名实体。
8.将所述描述文本与预设的命名实体词典进行匹配,从所述描述文本中确定多个第二命名实体。
9.基于所述多个第一命名实体和所述多个第二命名实体,确定所述目标用户对应的用户画像标签。
10.根据本技术提供的一种用户画像标签的确定方法,所述命名实体识别模型包括嵌入层网络、中间层网络以及条件随机场网络,所述将所述多个关键词和所述多个关键词中各字均输入至命名实体识别模型中,得到多个第一命名实体,包括:将所述多个关键词和所述多个关键词中各字均输入至所述嵌入层网络中,得到所述多个关键词对应的第一特征向量和所述各字对应的第二特征向量。
11.将所述第一特征向量和所述第二特征向量输入至所述中间层网络,得到多个目标字对应的第三特征向量,所述多个目标字属于所述多个关键词。
12.将所述多个目标字对应的第三特征向量输入至所述条件随机场网络中,得到所述多个第一命名实体。
13.根据本技术提供的一种用户画像标签的确定方法,所述中间层网络包括自注意力层网络、前向长短期记忆网络以及后向长短期记忆网络,所述将所述第一特征向量和所述第二特征向量输入至所述中间层网络,得到多个目标字对应的第三特征向量,包括:
将所述第一特征向量输入至所述自注意力层网络中,得到对应的第四特征向量。
14.将所述第四特征向量和所述第二特征向量输入至前向长短期记忆网络中,得到对应的第五特征向量。
15.将所述第五特征向量输入至所述后向长短期记忆网络中,得到所述第三特征向量。
16.根据本技术提供的一种用户画像标签的确定方法,所述基于所述多个第一命名实体和所述多个第二命名实体,确定所述目标用户对应的用户画像标签,包括:对所述多个第一命名实体和所述多个第二命名实体进行去重处理,得到多个第三命名实体。
17.根据所述多个第三命名实体所属的实体类型,确定所述目标用户对应的所述用户画像标签。
18.根据本技术提供的一种用户画像标签的确定方法,所述根据所述多个第三命名实体所属的实体类型,确定所述目标用户对应的所述用户画像标签,包括:针对所述多个第三命名实体,将实体类型为通用实体类型的第三命名实体确定为第一用户画像标签。
19.将实体类型为自定义专用名词类型的第三命名实体确定为第二用户画像标签。
20.对其他实体类型的第三命名实体进行正则表达式转化,得到第三用户画像标签,所述第一用户画像标签、所述第二用户画像标签及所述第三用户画像标签构成所述用户画像标签。
21.根据本技术提供的一种用户画像标签的确定方法,所述方法还包括:从多个描述文本语料中提取多个候选分词。
22.基于远程监督的短语质量评估方法对所述多个候选分词进行打分处理,并根据第一打分结果从所述多个候选分词中确定多个第一候选分词。
23.基于深度语义网络的短语质量评估模型对所述多个第一候选分词进行打分处理,并根据第二打分结果从所述多个第一候选分词中确定多个第二候选分词。
24.基于所述多个第二候选分词构建所述命名实体词典。
25.根据本技术提供的一种用户画像标签的确定方法,所述从所述多个描述文本中提取多个关键词,包括:对所述多个描述文本进行分词处理,得到多个分词。
26.针对各分词,根据所述分词在多个第一描述文本中出现的次数,确定所述分词对应的频率,并根据所述多个描述文本的数量和所述第一描述文本的数量,确定所述分词对应的逆文件频率,所述多个第一描述文本为所述多个描述文本中包括所述分词的描述文本。
27.根据所述各分词对应的频率和逆文件频率,从所述多个分词中确定所述多个关键词。
28.本技术还提供一种用户画像标签的确定装置,包括:获取单元,用于获取目标用户对应的多个描述文本,并从所述多个描述文本中提取多个关键词。
29.第一处理单元,用于将所述多个关键词和所述多个关键词中各字均输入至命名实
体识别模型中,得到多个第一命名实体。
30.匹配单元,用于将所述描述文本与预设的命名实体词典进行匹配,从所述描述文本中确定多个第二命名实体。
31.确定单元,用于基于所述多个第一命名实体和所述多个第二命名实体,确定所述目标用户对应的用户画像标签。
32.根据本技术提供的一种用户画像标签的确定装置,所述命名实体识别模型包括嵌入层网络、中间层网络以及条件随机场网络,所述处理单元,具体用于:将所述多个关键词和所述多个关键词中各字均输入至所述嵌入层网络中,得到所述多个关键词对应的第一特征向量和所述各字对应的第二特征向量;将所述第一特征向量和所述第二特征向量输入至所述中间层网络,得到多个目标字对应的第三特征向量,所述多个目标字属于所述多个关键词;将所述多个目标字对应的第三特征向量输入至所述条件随机场网络中,得到所述多个第一命名实体。
33.根据本技术提供的一种用户画像标签的确定装置,所述中间层网络包括自注意力层网络、前向长短期记忆网络以及后向长短期记忆网络,所述第一处理单元,具体用于:将所述第一特征向量输入至所述自注意力层网络中,得到对应的第四特征向量;将所述第四特征向量和所述第二特征向量输入至前向长短期记忆网络中,得到对应的第五特征向量;将所述第五特征向量输入至所述后向长短期记忆网络中,得到所述第三特征向量。
34.根据本技术提供的一种用户画像标签的确定装置,所述确定单元,具体用于对所述多个第一命名实体和所述多个第二命名实体进行去重处理,得到多个第三命名实体;根据所述多个第三命名实体所属的实体类型,确定所述目标用户对应的所述用户画像标签。
35.根据本技术提供的一种用户画像标签的确定装置,所述确定单元,具体用于针对所述多个第三命名实体,将实体类型为通用实体类型的第三命名实体确定为第一用户画像标签;将实体类型为自定义专用名词类型的第三命名实体确定为第二用户画像标签;对其他实体类型的第三命名实体进行正则表达式转化,得到第三用户画像标签,所述第一用户画像标签、所述第二用户画像标签及所述第三用户画像标签构成所述用户画像标签。
36.根据本技术提供的一种用户画像标签的确定装置,所述装置还包括提取单元、第二处理单元、第三处理单元、以及构建单元;所述提取单元,用于从多个描述文本语料中提取多个候选分词。
37.所述第二处理单元,用于基于远程监督的短语质量评估方法对所述多个候选分词进行打分处理,并根据第一打分结果从所述多个候选分词中确定多个第一候选分词。
38.所述第三处理单元,用于基于深度语义网络的短语质量评估模型对所述多个第一候选分词进行打分处理,并根据第二打分结果从所述多个第一候选分词中确定多个第二候选分词。
39.所述构建单元,用于基于所述多个第二候选分词构建所述命名实体词典。
40.根据本技术提供的一种用户画像标签的确定装置,所述获取单元,具体用于对所述多个描述文本进行分词处理,得到多个分词;针对各分词,根据所述分词在多个第一描述文本中出现的次数,确定所述分词对应的频率,并根据所述多个描述文本的数量和所述第一描述文本的数量,确定所述分词对应的逆文件频率,所述多个第一描述文本为所述多个
描述文本中包括所述分词的描述文本;根据所述各分词对应的频率和逆文件频率,从所述多个分词中确定所述多个关键词。
41.本技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的用户画像标签的确定方法。
42.本技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的用户画像标签的确定方法。
43.本技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的用户画像标签的确定方法。
44.本技术提供的用户画像标签的确定方法、装置和电子设备,通过获取目标用户对应的多个描述文本,并从多个描述文本中提取多个关键词;将多个关键词和多个关键词中各字均输入至命名实体识别模型中,得到多个第一命名实体;并将描述文本与预设的命名实体词典进行匹配,从描述文本中确定多个第二命名实体;基于多个第一命名实体和多个第二命名实体,确定目标用户对应的用户画像标签。这样结合命名实体识别模型和命名实体词典,共同确定用户对应的命名实体,并基于命名实体确定用户画像标签,可以准确地确定用户画像标签,从而提高了确定出的用户画像标签的准确度。
附图说明
45.为了更清楚地说明本技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
46.图1为本技术实施例提供的一种确定用户画像标签的框架示意图;图2为本技术实施例提供的一种用户画像标签的确定方法的流程示意图;图3为本技术实施例提供的一种命名实体识别模型的结构示意图;图4为本技术实施例提供的一种构建预设的命名实体词典的示意图;图5为本技术实施例提供的一种用户画像标签的确定装置的结构示意图;图6为本技术实施例提供的一种电子设备的实体结构示意图。
具体实施方式
47.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术中的附图,对本技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
48.在本技术的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况,其中a,b可以是单数或者复数。在本技术的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。
49.本技术实施例提供的技术方案可以应用于广告推送、用户个性化服务与改善等较
多场景中。以应用于用户个性化服务与改善场景中的专属推荐场景为例,若可以准确地确定出用户画像标签,则可以基于用户画像标签有针对性地进行专属推荐,因此,如何准确地确定用户画像标签是至关重要的。
50.现有技术中,确定用户画像标签时,主要是通过获取目标用户对应的对话文本,并基于对话文本构建用户画像,从而根据用户画像确定用户画像标签。但是,对话文本中的非结构化信息较为发散,导致无法准确地从对话文本中确定用户画像标签,因此,采用现有的方法,会导致确定用户画像标签的准确度较低。
51.为了可以准确地确定用户画像标签,本技术实施例提供了一种用户画像标签的确定方法,可以考虑结合命名实体识别模型和命名实体词典,共同确定用户对应的命名实体,并基于命名实体确定用户画像标签,示例地,可参见图1所示,图1为本技术实施例提供的一种确定用户画像标签的框架示意图,可以获取目标用户对应的多个描述文本,并从多个描述文本中提取多个关键词;将多个关键词和多个关键词中各字均输入至命名实体识别模型中,得到多个第一命名实体;并将描述文本与预设的命名实体词典进行匹配,从描述文本中确定多个第二命名实体;基于多个第一命名实体和多个第二命名实体,确定目标用户对应的用户画像标签。
52.其中,命名实体识别模型为离线训练得到的,在离线状态,可以基于开源标注数据集和历史已标记文本共同训练命名实体识别模型;命名实体词典为预先构建的,可以基于海量描述文本预料和知识库共同构建命名实体词典。
53.结合上述描述,上述在用户画像标签时,是结合命名实体识别模型和命名实体词典,共同确定用户对应的命名实体,并基于命名实体确定用户画像标签,这样可以准确地确定用户画像标签,从而提高了确定出的用户画像标签的准确度。
54.下面,将通过下述几个具体的实施例对本技术提供的用户画像标签的确定方法进行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
55.图2为本技术实施例提供的一种用户画像标签的确定方法的流程示意图,该用户画像标签的确定方法可以由软件和/或硬件装置执行。示例的,请参见图2所示,该用户画像标签的确定方法可以包括:s201、获取目标用户对应的多个描述文本,并从多个描述文本中提取多个关键词。
56.示例的,多个描述文本可以包括词序列数据的描述文本和字序列数据的描述文本。
57.示例的,获取多个描述文本时,在一种方式中,可以从开源标注数据集中获取多个描述文本,例如,开源标注数据集可以为ontonotes 5.0数据集、pku数据集、bakeoff-4数据集、e-commeree-ner数据集或者ccks-2017 task2 benchmark数据集等。其中,ontonotes 5.0数据集通常是从杂志、新闻、网络博客、通话记录中获取描述文本,数据集大小为900k字符;pku数据集通常是从比赛数据中获取描述文本,数据集大小为587k字符;bakeoff-4数据集通常是从新闻专线文本中获取描述文本,大约有27817条句子;e-commeree-ner数据集通常是覆盖了淘宝的产品目录;ccks-2017 task2 benchmark数据集通常是从云医院平台的真实电子病历中获取描述文本,大约有10024条句子。在另一种方式中,可以将历史已标注文本确定为多个描述文本,具体可以根据实际需要进行设置,在此,本技术实施例只是以这
两种方式为例进行说明,但并不代表本技术实施例仅局限于此。
58.示例的,获取到目标用户对应的多个描述文本之后,可以从多个描述文本中提取多个关键词。示例的,从多个描述文本中提取多个关键词时,可以先对多个描述文本进行分词处理,得到多个分词;针对各分词,根据分词在多个第一描述文本中出现的次数,确定分词对应的频率,多个第一描述文本为多个描述文本中包括分词的描述文本;并根据多个描述文本的数量和第一描述文本的数量,确定分词对应的逆文件频率;再根据各分词对应的频率和逆文件频率,从多个分词中确定多个关键词。
59.示例的,根据分词在多个第一描述文本中出现的次数,确定分词对应的频率。采用tf-idf(term frequency

inverse document frequency)算法统计词频,统计出该分词在各第一描述文本中出现的次数,并根据分词在多个第一描述文本中出现的次数,确定分词对应的频率,可参见下述公式(1)所示。
60.(1)其中,表示第个分词对应的频率,表示第个分词在多个第一描述文本中的第个描述文本中出现的次数,表示第个描述文本中包括的分词数量,表示个分词各自在第个描述文本中出现的次数之和。
61.示例的,根据多个描述文本的数量和第一描述文本的数量,确定分词对应的逆文件频率,可参见下述公式公式(2)所示。其中,逆文件频率表示该分词在描述文本中出现的逆频率,分词越常见,越不能作为关键词来描述文本,逆频率值越小。
62.(2)其中,表示第个分词对应的逆文件频率,d表示多个描述文本的数量,m表示包含多个第一描述文本的数量,表示第m个第一描述文本,第个分词在多个描述文本中出现的数量越多,的值越小。
63.示例的,根据各分词对应的频率和逆文件频率,从多个分词中确定多个关键词时,针对各分词,可以先计算分词对应的频率与逆文件频率的乘积,可参见下述公式(3),确定分词对应的tf-idf值,并根据各分词对应的tf-idf值,从多个分词中选取多个关键词,例如,可以从多个分词中选择tf-idf值最大的前n个分词作为关键词,从而确定出多个关键词。其中,n的取值可以根据实际需要进行设置,例如,多个分词的5%。
64.(3)在从多个描述文本中提取多个关键词后,就可以将多个关键词和多个关键词中各字均输入至命名实体识别模型中,即执行下述s202:s202、将多个关键词和多个关键词中各字均输入至命名实体识别模型中,得到多个第一命名实体。
65.示例地,在本技术实施例中,命名实体识别模型可以为字词联合的bilstm-crf
(bi-directional long short term memory-conditional random fields)模型,也可以为其他字词联合模型,具体可以根据实际需要进行设置,在此,本技术实施例只是以bilstm-crf模型为例进行说明,但并不代表本技术实施例仅局限于此。
66.示例的,在本技术实施例中,命名实体识别模型包括嵌入层网络、中间层网络以及条件随机场crf(conditional random field)网络,可参见图3所示,图3为本技术实施例提供的一种命名实体识别模型的结构示意图,可以先将多个关键词和多个关键词中各字均输入至嵌入层网络中,得到多个关键词对应的第一特征向量和各字对应的第二特征向量;再将第一特征向量和第二特征向量输入至中间层网络,得到多个目标字对应的第三特征向量,多个目标字为多个关键词中的字;最后,将多个目标字对应的第三特征向量输入至条件随机场网络中,得到多个第一命名实体,从而通过命名实体识别模型,从多个描述文本中提取出多个第一命名实体。
67.示例的,在本技术实施例中,中间层网络包括自注意力层网络、前向长短期记忆网络以及后向长短期记忆网络,可结合上述图3所示,将第一特征向量输入至自注意力层网络中,得到对应的第四特征向量,其中,第四特征向量为多个关键词对应的第一特征向量调节权重后的特征向量;再将词向量调节权重后的第四特征向量和各字对应的第二特征向量输入至前向长短期记忆网络中,编码从前到后特征信息,得到对应的第五特征向量;将第五特征向量输入至后向长短期记忆网络中,再编码从后向前的特征信息,得到第三特征向量,使用双向长短期记忆网络,可以更加充分的编码特征信息,第三特征向量为中间层网络编码的特征信息,也是多个目标字对应的特征向量。
68.将多个目标字对应的第三特征向量输入至条件随机场网络中,条件随机场网络输出的每一个目标字在其对应的第一命名实体中的位置,若输出的某一个目标字对应的位置为b-loc,则表示该目标字为第一命名实体中的首个字,若输出的某一个目标字对应的位置为m-loc,则表示该目标字为第一命名实体中的中间字,若输出的某一个目标字对应的位置为e-loc,则表示该目标字为第一命名实体中的尾个字。
69.例如,结合图3所示,假设多个关键词包括“北京”和“某大楼”,则可以将关键词“北京”和“某大楼”、以及关键词包括的各字“北”、“京”、“某”、“大”、“楼”输入至命名实体识别模型中的嵌入层网络中、得到填充的词“pad”、关键词“北京”和“某大楼”各自对应的第一特征向量x11、x12、x13、x14以及x15、其中,pad用于填充空位,以及各字“北”、“京”、“某”、“大”、“楼”各自对应的第二特征向量,分别为x1、x2、x3、x4以及x5;将第一特征向量x11、x12、x13、x14以及x15输入至自注意力网络中,得到对应的第四特征向量,分别为x21、x22、x23、x24以及x25;将第四特征向量x21、x22、x23、x24和x25、以及第二特征向量x1、x2、x3、x4和x5输入至前向长短期记忆网络中,编码从前到后特征信息,得到对应的第五特征向量,分别为c1、c2、c3、c4和c5,并将第五特征向量c1、c2、c3、c4和c5输入至后向长短期记忆网络中,得到对应的第三特征向量,分别为h11、h12、h13、h14以及h15;再将第三特征向量h11、h12、h13、h14以及h15输入至条件随机场网络中,得到“北”、“京”、“某”、“大”、“楼”各自在其对应的第一命名实体中的位置,即“北”对应的位置为b-loc,表示其为第一命名实体“北京”中的首个字,“京”对应的位置为e-loc,表示其为第一命名实体“北京”中的尾个字,“某”对应的位置为b-loc,表示其为第一命名实体“某大楼”中的首个字,“大”对应的位置为m-loc,表示其为第一命名实体“某大楼”中的中间字,“楼”对应的位置为e-loc,表示其为第一命名
实体“某大楼”中的尾个字,从而确定出目标用户对应的第一命名实体。
70.需要说明的是,在本技术实施例中,在命名实体识别模型中部署条件随机场网络,其原因在于:若直接基于双向长短期记忆网络层输出第一命名实体,则输出的第一命名实体可能与实际的用户画像标签之间的关联性较小,而进一步部署条件随机场网络,可以通过条件随机场网络学习第一命名实体与用户画像标签之间的转移概率,赋予与用户画像标签关联性较小的第一命名实体一个较小的概率,而赋予与用户画像标签关联性较大的第一命名实体一个较大的概率,从而修正双向长短期记忆网络模型输出第一命名实体,进一步保证确定的用户画像标签的准确度。
71.在本技术实施例中,在基于命名实体确定目标用户对应的用户画像标签时,除了采用上述命名实体识别模型从目标用户对应的多个描述文本中提取第一命名实体,还可以采用预设的命名实体词典,从目标用户对应的多个描述文本中提取第二命名实体,即执行下述s203,从而结合命名实体识别模型和命名实体词典共同确定出的命名实体,确定用户画像标签。
72.s203、将描述文本与预设的命名实体词典进行匹配,从描述文本中确定多个第二命名实体。
73.其中,命名实体词典中包括预设的基准命名实体,将其作为匹配依据,将描述文本中与命名实体词典中包括预设的基准命名实体进行匹配,以从描述文本中确定出目标用户对应的多个第二命名实体。
74.示例的,构建预设的命名实体词典时,可以先从多个描述文本语料中提取多个候选分词;基于远程监督的短语质量评估方法对多个候选分词进行打分处理,并根据第一打分结果从多个候选分词中确定多个第一候选分词;再基于深度语义网络的短语质量评估模型对多个第一候选分词进行打分处理,并根据第二打分结果从多个第一候选分词中确定多个第二候选分词;从而基于多个第二候选分词构建命名实体词典。
75.示例地,多个描述文本预料可以包括结构化的用户信息库、百科词条、半结构化的搜索日志以及非结构化的用户留言等,具体可以根据实际需要进行设置。
76.可以理解的是,上述在构建预设的命名实体词典时,基于远程监督的短语质量评估方法,从多个候选分词中确定多个第一候选分词的过程,可以理解为一次粗略打分筛选候选分词的过程;基于深度语义网络的短语质量评估模型从多个第一候选分词中确定多个第二候选分词的过程,可以理解为以粗略打分筛选的多个第一候选分词为基准,所执行的一次精细打分筛选候选分词的过程,这样结合粗略打分筛选操作和粗略打分筛选操作,可以从多个描述文本语料中筛选出多个第二候选分词,并基于筛选出的多个第二候选分词构建命名实体词典。
77.示例地,可结合图4所示,图4为本技术实施例提供的一种构建预设的命名实体词典的示意图,在构建预设的命名实体词典时,可以先获取多个描述文本语料,输入至候选序列生成器,通过候选序列生成器提取多个候选分词;并将多个候选分词输入至基于远程监督的短语质量评估模型中,通过远程监督的短语质量评估模型对多个候选分词进行打分处理。示例地,通过远程监督的短语质量评估模型对多个候选分词进行打分处理时,可以先确定训练二元分类器的正例样本和负例样本,将多个候选分词中与基准命名实体的交集作为训练二元分类器的正例样本,同时,采用负采样方式确定训练二元分类器的负例样本;其
次,经过远程监督的方式训练二元分类器,再根据二元分类器评估多个候选分词的质量,对多个候选分词进行打分,生成第一打分结果;最后,根据多个候选分词的第一打分结果,更新正例样本和负例样本,通过集成多个弱分类器的方式来调整正例样本和负例样本,将得分超过一定阈值的训练样本划分到正例样本中,将得分没有超过一定阈值的训练样本划分到负例样本中,通过调整正例样本和负例样本来提高候选分词的第一打分结果,从而根据第一打分结果确定多个第一候选分词。
78.示例的,基于深度语义网络的短语质量评估模型对多个第一候选分词进行打分处理,并根据第二打分结果从多个第一候选分词中确定多个第二候选分词时,可以先将有大量搜索词条作为搜索的关键词;将正例样本中与搜索词条重合的部分作为模型正例样本,而将负例样本中减去搜索词条的部分作为模型负例样本,以提高用于训练bootstrapping方法评估模型的训练样本的质量;模型正例样本和模型负例样本作为精选正负样本,采用bootstrapping方法评估模型对精选正负样本进行打分处理,生成第二打分结果,并根据第二打分结果确定多个第二候选分词,从而基于多个第二候选分词构建命名实体词典。
79.需要说明的是,在本技术实施例中,s202和s203之间并无先后顺序,可以先执行s202,再执行s203,也可以先执行s203,再执行s202;当然,也可以同时执行s202和s203,具体可以根据实际需要进行设置,在此,本技术实施例只是以先执行s202,再执行s203为例进行说明,但并不代表本技术实施例仅局限于此。
80.在结合命名实体识别模型和命名实体词典分别获取用户对应的第一命名实体和第二命名实体后,就可以执行下述s204:s204、基于多个第一命名实体和多个第二命名实体,确定目标用户对应的用户画像标签。
81.示例的,基于多个第一命名实体和多个第二命名实体,确定目标用户对应的用户画像标签时,可以先对多个第一命名实体和多个第二命名实体进行去重处理,得到多个第三命名实体;再根据多个第三命名实体所属的实体类型,确定目标用户对应的用户画像标签。
82.示例的,根据多个第三命名实体所属的实体类型,确定目标用户对应的用户画像标签时,针对多个第三命名实体,可以将实体类型为通用实体类型的第三命名实体直接转换为第一用户画像标签;示例地,通用实体类型可以包括人名、城市、生日、性别、地址、组织机构等;将实体类型为自定义专用名词类型的第三命名实体直接转换为第二用户画像标签;示例地,自定义专用名词类型可以包括消费偏好、用户兴趣、用户行业、收入等;对其他实体类型的第三命名实体进行正则表达式转化,将其转化为专用名词类型的第三命名实体,再转换为第三用户画像标签;示例地,其他实体类型可以包括生日、手机号等;第一用户画像标签、第二用户画像标签及第三用户画像标签构成用户画像标签。
83.可以看出,本技术实施例中,通过获取目标用户对应的多个描述文本,并从多个描述文本中提取多个关键词;将多个关键词和多个关键词中各字均输入至命名实体识别模型中,得到多个第一命名实体;并将描述文本与预设的命名实体词典进行匹配,从描述文本中确定多个第二命名实体;基于多个第一命名实体和多个第二命名实体,确定目标用户对应的用户画像标签。这样结合命名实体识别模型和命名实体词典,共同确定用户对应的命名实体,并基于共同确定出的命名实体确定用户画像标签,可以准确地确定用户画像标签,从
而提高了确定出的用户画像标签的准确度。
84.下面对本技术提供的用户画像标签的确定装置进行描述,下文描述的用户画像标签的确定装置与上文描述的用户画像标签的确定方法可相互对应参照。
85.图5为本技术实施例提供的一种用户画像标签的确定装置的结构示意图,示例的,请参见图5所示,该用户画像标签的确定装置50可以包括:获取单元501,用于获取目标用户对应的多个描述文本,并从多个描述文本中提取多个关键词。
86.第一处理单元502,用于将多个关键词和多个关键词中各字均输入至命名实体识别模型中,得到多个第一命名实体。
87.匹配单元503,用于将描述文本与预设的命名实体词典进行匹配,从描述文本中确定多个第二命名实体。
88.确定单元504,用于基于多个第一命名实体和多个第二命名实体,确定目标用户对应的用户画像标签。
89.可选地,命名实体识别模型包括嵌入层网络、中间层网络以及条件随机场网络,处理单元,具体用于:将多个关键词和多个关键词中各字均输入至嵌入层网络中,得到多个关键词对应的第一特征向量和各字对应的第二特征向量;将第一特征向量和第二特征向量输入至中间层网络,得到多个目标字对应的第三特征向量,多个目标字属于多个关键词;将多个目标字对应的第三特征向量输入至条件随机场网络中,得到多个第一命名实体。
90.可选地,中间层网络包括自注意力层网络、前向长短期记忆网络以及后向长短期记忆网络,第一处理单元502,具体用于:将第一特征向量输入至自注意力层网络中,得到对应的第四特征向量;将第四特征向量和第二特征向量输入至前向长短期记忆网络中,得到对应的第五特征向量;将第五特征向量输入至后向长短期记忆网络中,得到第三特征向量。
91.可选地,确定单元504,具体用于对多个第一命名实体和多个第二命名实体进行去重处理,得到多个第三命名实体;根据多个第三命名实体所属的实体类型,确定目标用户对应的用户画像标签。
92.可选地,确定单元504,具体用于针对多个第三命名实体,将实体类型为通用实体类型的第三命名实体确定为第一用户画像标签;将实体类型为自定义专用名词类型的第三命名实体确定为第二用户画像标签;对其他实体类型的第三命名实体进行正则表达式转化,得到第三用户画像标签,第一用户画像标签、第二用户画像标签及第三用户画像标签构成用户画像标签。
93.可选地,用户画像标签的确定装置50还包括提取单元、第二处理单元、第三处理单元、以及构建单元。
94.提取单元,用于从多个描述文本语料中提取多个候选分词。
95.第二处理单元,用于基于远程监督的短语质量评估方法对多个候选分词进行打分处理,并根据第一打分结果从多个候选分词中确定多个第一候选分词。
96.第三处理单元,用于基于深度语义网络的短语质量评估模型对多个第一候选分词进行打分处理,并根据第二打分结果从多个第一候选分词中确定多个第二候选分词。
97.构建单元,用于基于多个第二候选分词构建命名实体词典。
98.可选地,获取单元501,具体用于对多个描述文本进行分词处理,得到多个分词;针对各分词,根据分词在多个第一描述文本中出现的次数,确定分词对应的频率,并根据多个描述文本的数量和第一描述文本的数量,确定分词对应的逆文件频率,多个第一描述文本为多个描述文本中包括分词的描述文本;根据各分词对应的频率和逆文件频率,从多个分词中确定多个关键词。
99.本技术实施例提供的用户画像标签的确定装置50,可以执行上述任一实施例中用户画像标签的确定方法的技术方案,其实现原理以及有益效果与用户画像标签的确定方法的实现原理及有益效果类似,可参见用户画像标签的确定方法的实现原理及有益效果,此处不再进行赘述。
100.图6为本技术实施例提供的一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(communications interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行用户画像标签的确定方法,该方法包括:获取目标用户对应的多个描述文本,并从多个描述文本中提取多个关键词;将多个关键词和多个关键词中各字均输入至命名实体识别模型中,得到多个第一命名实体;将描述文本与预设的命名实体词典进行匹配,从描述文本中确定多个第二命名实体;基于多个第一命名实体和多个第二命名实体,确定目标用户对应的用户画像标签。
101.此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
102.另一方面,本技术还提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,计算机程序被处理器执行时,计算机能够执行上述各方法所提供的用户画像标签的确定方法,该方法包括:获取目标用户对应的多个描述文本,并从多个描述文本中提取多个关键词;将多个关键词和多个关键词中各字均输入至命名实体识别模型中,得到多个第一命名实体;将描述文本与预设的命名实体词典进行匹配,从描述文本中确定多个第二命名实体;基于多个第一命名实体和多个第二命名实体,确定目标用户对应的用户画像标签。
103.又一方面,本技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的用户画像标签的确定方法,该方法包括:获取目标用户对应的多个描述文本,并从多个描述文本中提取多个关键词;将多个关键词和多个关键词中各字均输入至命名实体识别模型中,得到多个第一命名实体;将描述文本与预设的命名实体词典进行匹配,从描述文本中确定多个第二命名实体;基于多个第一命名实体和多个第二命名实体,确定目标用户对应的用户画像标签。
104.以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
105.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
106.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1