一种内容热度标签生成方法、智能终端及存储介质与流程

文档序号:28688801发布日期:2022-01-29 11:07阅读:69来源:国知局
一种内容热度标签生成方法、智能终端及存储介质与流程

1.本发明涉及通信技术领域,尤其涉及的是一种内容热度标签生成方法、智能终端及存储介质。


背景技术:

2.随着互联网技术的飞速发展,越来越多用户选择在微博、论坛等社交网站上分享自己的购物体验以及对产品的评价,这些在线的产品评价不仅是企业了解用户需求的重要信息资源,也是用户选择所需产品的重要参考依据。但现有用户评论数据通常按照发表时间进行排序,用户查看用户评论数据时需要按照时间顺序一条条进行查看,无法从海量的用户评论中获得热门评论内容,企业面对大量用户评论数据,如何更好地从中挖掘用户对产品的重要需求和反馈进而辅助决策也是难题之一。
3.因此,现有技术还有待改进和发展。


技术实现要素:

4.本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种内容热度标签生成方法、智能终端及存储介质,旨在解决现有用户评论数据通常按照发表时间进行排序,用户无法从海量的用户评论数据中获得热门评论内容的问题。
5.本发明解决问题所采用的技术方案如下:
6.第一方面,本发明实施例提供一种内容热度标签生成方法,其中,所述方法包括:
7.获取用户评论数据,从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签;
8.对所述若干内容实体标签进行聚类,确定所述用户评论数据对应的若干聚类簇;
9.根据所述若干聚类簇,生成所述用户评论数据对应的内容热度标签。
10.所述的内容热度标签生成方法,其中,所述从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签的步骤包括:
11.对所述用户评论数据进行预处理,得到预处理后的用户评论数据;
12.对所述预处理后的用户评论数据进行分析,从所述预处理后的用户评论数据中提取所述用户评论数据对应的若干内容实体标签。
13.所述的内容热度标签生成方法,其中,所述对所述若干内容实体标签进行聚类,确定所述用户评论数据对应的若干聚类簇的步骤包括:
14.对所述若干内容实体标签进行向量化,得到若干向量化标签;
15.对所述若干向量化标签进行聚类,确定所述用户评论数据对应的若干聚类簇。
16.所述的内容热度标签生成方法,其中,所述对所述若干向量化标签进行聚类,确定所述用户评论数据对应的若干聚类簇的步骤包括:
17.获取预先设置的邻域参数,根据所述若干向量化标签和所述领域参数确定核心对象样本集合;
18.根据所述核心对象样本集合和所述邻域参数,确定所述用户评论数据对应的若干聚类簇。
19.所述的内容热度标签生成方法,其中,所述邻域参数包括邻域距离阈值和邻域数量阈值,所述根据所述若干向量化标签和所述领域参数确定核心对象样本集合的步骤包括:
20.根据所述若干向量化标签和所述邻域距离阈值,确定各个向量化标签对应的邻域子样本集合;
21.根据所述各个向量化标签对应的邻域子样本集合,确定核心对象样本集合。
22.所述的内容热度标签生成方法,其中,所述根据所述核心对象样本集合和所述邻域参数,确定所述用户评论数据对应的若干聚类簇的步骤包括:
23.从所述核心对象样本集合中选取目标核心对象,根据所述目标核心对象和所述邻域参数确定所述目标核心对象对应的聚类簇以及更新所述核心对象集合;
24.当所述核心对象集合不满足预设第一条件时,继续执行从所述核心对象样本集合中选取目标核心对象,根据所述目标核心对象和所述邻域参数确定所述目标核心对象对应的聚类簇以及更新所述核心对象集合的步骤,直至所述核心对象集合满足预设第一条件;
25.将各个所述目标核心对象对应的聚类簇,确定为所述用户评论数据对应的若干聚类簇。
26.所述的内容热度标签生成方法,其中,所述根据所述目标核心对象和所述邻域参数确定所述目标核心对象对应的聚类簇的步骤包括:
27.根据所述目标核心对象初始化当前簇核心对象队列,并根据所述当前簇核心对象队列和所述邻域参数,对当前簇样本集合和当前簇核心对象队列进行更新;
28.当更新后的当前簇核心对象队列不满足预设第二条件时,继续执行根据所述当前簇核心对象队列和所述邻域参数,对当前簇样本集合和当前簇核心对象队列进行更新的步骤,直至所述当前簇核心对象队列满足预设第二条件;
29.将更新后的当前簇样本集合,确定为所述目标核心对象对应的聚类簇。
30.所述的内容热度标签生成方法,其中,所述根据所述若干聚类簇,生成所述用户评论数据对应的内容热度标签的步骤包括:
31.获取所述若干聚类簇中各个聚类簇的聚类标签数量和聚类中心标签,根据所述聚类标签数量对所述聚类中心标签进行排序;
32.根据排序后的所述聚类中心标签,生成所述用户评论数据对应的内容热度标签。
33.第二方面,本发明实施例还提供一种内容热度标签生成装置,其中,所述装置包括:
34.数据获取模块,用于获取用户评论数据,从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签;
35.数据聚类模块,用于对所述若干内容实体标签进行聚类,确定所述用户评论数据对应的若干聚类簇;
36.标签生成模块,用于根据所述若干聚类簇,生成所述用户评论数据对应的内容热度标签。
37.第三方面,本发明实施例提供一种智能终端,包括有存储器,以及一个或者一个以
上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上述任意一项所述的内容热度标签生成方法的步骤。
38.第四方面,本发明实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述中任意一项所述的内容热度标签生成方法的步骤。
39.本发明的有益效果:本发明实施例首先获取用户评论数据,从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签,然后对所述若干内容实体标签进行聚类,确定所述用户评论数据对应的若干聚类簇,最后根据所述若干聚类簇,生成所述用户评论数据对应的内容热度标签,因此,通过从用户评论数据中提取若干内容实体标签,并根据聚类后的若干内容实体标签生成内容热度标签,可以精确获取用户评论数据中的内容热度标签。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本发明实施例提供的内容热度标签生成方法的流程示意图;
42.图2是本发明实施例提供的内容热度标签生成装置的原理框图;
43.图3是本发明实施例提供的智能终端的内部结构原理框图。
具体实施方式
44.为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
45.需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后
……
),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
46.用户评论数据不仅是企业了解用户需求的重要信息资源,也是用户选择所需产品的重要参考依据。但现有用户评论数据通常按照发表时间进行排序,用户查看用户评论数据时需要按照时间顺序一条条进行查看,无法从海量的用户评论中获得热门评论内容,企业面对大量用户评论数据,如何更好地从中挖掘用户对产品的重要需求和反馈进而辅助决策也是难题之一。
47.为了解决现有技术的问题,本实施例提供了一种内容热度标签生成方法,通过所述方法可以精确获取用户评论数据中的内容热度标签,解决现有无法从海量的用户评论数据中获得热门评论内容的问题。具体实施时,首先获取用户评论数据,从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签,然后,对所述若干内容实体标签进行聚类,确定所述用户评论数据对应的若干聚类簇,最后,根据所述若干聚类簇,生成所述用
户评论数据对应的内容热度标签,因此,通过从用户评论数据中提取若干内容实体标签,并根据聚类后的若干内容实体标签生成内容热度标签,可以精确获取用户评论数据中的内容热度标签。
48.示例性方法
49.本实施例提供一种内容热度标签生成方法,该方法可以应用于智能终端。具体如图1中所示,所述方法包括:
50.步骤s100、获取用户评论数据,从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签。
51.具体地,所述用户评论数据为用户购买或使用商品或服务后的评论数据,其可从现有的各大电商网站平台上获得,所述若干内容实体标签为从所述用户评论数据中提取的特定结构的组合。本实施例为了生成海量用户评论数据对应的内容热度标签,首先获取用户评论数据,然后利用开源的依存句法分析模型从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签,以便后续步骤中根据所述若干内容实体标签生成内容热度标签。本实施例中利用依存句法分析模型提取内容实体标签,相较于传统分词提取方法,提取的内容更加准确和丰富。
52.在一具体实施方式中,步骤s100中所述从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签的步骤包括:
53.步骤s110、对所述用户评论数据进行预处理,得到预处理后的用户评论数据;
54.步骤s120、对所述预处理后的用户评论数据进行分析,从所述预处理后的用户评论数据中提取所述用户评论数据对应的若干内容实体标签。
55.考虑到海量评论数据中会包含不符合常理的数据,如广告或与主题无关的评论数据,本实施例中获取到用户评论数据后,首先对所述用户评论数据进行预处理,对所述用户评论数据中明显不符合常理的数据进行剔除。其中,剔除不符合常理的数据主要包括:短句删除即对判断无意义的短句进行删除,机械压缩即对句内重复词语或信息进行去除,文本去除即对重复的文本数据进行去重操作。
56.对用户评论数据进行预处理后,利用开源的依存句法分析模型对预处理后的用户评论数据进行分析,从预处理后的用户评论数据中提取若干特定结构的组合作为所述用户评论数据对应的若干内容实体标签。其中,开源的依存句法分析模型包括stanfordcorenlp、hanlp、哈工大ltp、fudannlp等,其可以根据实际业务需求,从属词的词性、支配词的词性、从属词和支配词之间的依存关系对预处理后的用户评论数据进行分析,获得所述用户评论数据对应的若干内容实体标签。
57.步骤s200、对所述若干内容实体标签进行聚类,确定所述用户评论数据对应的若干聚类簇。
58.考虑到从海量的用户评论数据中提取的若干内容实体标签的数据量庞大且存在较多相似的内容实体标签,本实施例中获取所述用户评论数据对应的若干内容实体标签后,利用聚类算法对所述若干内容实体标签进行聚类,将语义相似的内容实体标签聚类在一起,以确定所述用户评论数据对应的若干聚类簇。
59.在一具体实施方式中,步骤s200具体包括:
60.步骤s210、对所述若干内容实体标签进行向量化,得到若干向量化标签;
61.步骤s220、对所述若干向量化标签进行聚类,确定所述用户评论数据对应的若干聚类簇。
62.所述聚类簇由所述若干向量化标签中语义相似的标签聚类在一起形成,即每个聚类簇由若干语义相似的向量化标签组成,考虑到若干内容实体标签无法直接应用于聚类算法进行聚类,本实施例中首先利用预先训练的词向量模型对所述若干内容实体标签进行向量化,得到若干向量化标签,其中,词向量模型可以使用现有的词向量模型如word2vec,然后利用聚类算法对所述若干向量化标签进行聚类,确定所述用户评论数据对应的若干聚类簇。本实施例中利用词向量模型和聚类算法结合方式对若干内容实体标签进行聚类,相较于传统词库匹配方法,丰富了语义表达,且方便同义内容实体标签进行融合。
63.在一具体实施方式中,步骤s220具体包括:
64.步骤s221、获取预先设置的邻域参数,根据所述若干向量化标签和所述领域参数确定核心对象样本集合;
65.步骤s222、根据所述核心对象样本集合和所述邻域参数,确定所述用户评论数据对应的若干聚类簇。
66.为了衡量所述若干向量化标签的语义相似性,本实施例中预先设置邻域参数,所述邻域参数包括邻域距离阈值∈和邻域数量阈值minpts,对若干向量化标签进行聚类时,首先获取预先设置的邻域参数,根据所述若干向量化标签和所述领域参数确定核心对象样本集合,然后根据所述核心对象样本集合和所述邻域参数,确定所述用户评论数据对应的若干聚类簇。
67.在一具体实施方式中,步骤s221具体包括:
68.步骤s2211、根据所述若干向量化标签和所述邻域距离阈值,确定各个向量化标签对应的邻域子样本集合;
69.步骤s2212、根据所述各个向量化标签对应的邻域子样本集合,确定核心对象样本集合。
70.在一具体实施方式中,确定核心对象样本集合时,首先通过预设距离度量方式计算所述若干向量化标签中各个向量化标签之间的距离值,并根据各个向量化标签之间的距离值确定各个向量化标签对应的邻域子样本集n∈(xj)。其中,邻域子样本集n∈(xj)由若干向量化标签组成,邻域子样本集n∈(xj)中的每个向量化标签与该邻域子样本集n∈(xj)对应的向量化标签之间的距离值满足不大于邻域距离阈值∈。其中,所述距离度量方式包括欧式距离、马哈顿距离、切比雪夫距离、夹角余弦等。
71.获取到各个向量化标签对应的邻域子样本集n∈(xj)后,将邻域子样本集n∈(xj) 中的子样本数与邻域数量阈值minpts进行比较,并将子样本数不小于邻域数量阈值minpts的邻域子样本集n∈(xj)对应的若干向量化标签组成的集合,确定为核心对象样本集合。
72.在一具体实施方式中,步骤s222具体包括:
73.步骤s2221、从所述核心对象样本集合中选取目标核心对象,根据所述目标核心对象和所述邻域参数确定所述目标核心对象对应的聚类簇以及更新所述核心对象集合;
74.步骤s2222、当所述核心对象集合不满足预设第一条件时,继续执行从所述核心对象样本集合中选取目标核心对象,根据所述目标核心对象和所述邻域参数确定所述目标核心对象对应的聚类簇以及更新所述核心对象集合的步骤,直至所述核心对象集合满足预设
第一条件;
75.步骤s2223、将各个所述目标核心对象对应的聚类簇,确定为所述用户评论数据对应的若干聚类簇。
76.在根据核心对象样本集合确定若干聚类簇时,本实施例首先初始化核心对象集合初始化聚类簇数k=0,初始化未访问样本集合γ=d,簇划分然后从所述核心对象样本集合中随机选取一个目标核心对象o,根据所述目标核心对象o和所述邻域参数确定所述目标核心对象o对应的聚类簇以及更新所述核心对象集合ω。当所述核心对象集合ω不满足预设第一条件时,继续执行从所述核心对象样本集合ω中选取目标核心对象,根据所述目标核心对象和所述邻域参数确定所述目标核心对象对应的聚类簇以及更新所述核心对象集合的步骤,直至所述核心对象集合满足预设第一条件,将各个所述目标核心对象对应的聚类簇,确定为所述用户评论数据对应的若干聚类簇。其中,预设第一条件为
77.在一具体实施方式中,步骤s2221中所述根据所述目标核心对象和所述邻域参数确定所述目标核心对象对应的聚类簇的步骤包括:
78.步骤s22211、根据所述目标核心对象初始化当前簇核心对象队列,并根据所述当前簇核心对象队列和所述邻域参数,对当前簇样本集合和当前簇核心对象队列进行更新;
79.步骤s22212、当更新后的当前簇核心对象队列不满足预设第二条件时,继续执行根据所述当前簇核心对象队列和所述邻域参数,对当前簇样本集合和当前簇核心对象队列进行更新的步骤,直至所述当前簇核心对象队列满足预设第二条件;
80.步骤s22213、将更新后的当前簇样本集合,确定为所述目标核心对象对应的聚类簇。
81.本实施例在确定目标核心对象对应的聚类簇时,首先初始化当前簇核心对象队列ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合ck={o},更新未访问样本集合γ=γ-{o},并根据当前簇核心对象队列ωcur和所述邻域参数对当前簇样本集合和当前簇核心对象队列进行更新。然后将更新后的当前簇核心对象队列ωcur与预设第二条件进行比较,当更新后的当前簇核心对象队列ωcur不满足预设第二条件时,继续执行根据所述当前簇核心对象队列和所述邻域参数,对当前簇样本集合和当前簇核心对象队列进行更新的步骤,直至更新后的当前簇核心对象队列ωcur满足预设第二条件,并将更新后的当前簇样本集合确定为目标核心对象对应的聚类簇。其中,预设第二条件为
82.在一具体实施方式中,当前簇样本集合和当前簇核心对象队列的更新过程具体为:在当前簇核心对象队列ωcur中随机选取一个核心对象o

,通过邻域距离阈值∈找出核心对象o

对应的邻域子样本集n∈(o

),另δ=n∈(o

)∩γ,根据公式ck=ck∪δ更新当前簇样本集合,根据公式γ=γ-δ更新未访问样本集合, 根据公式ωcur=ωcur∪(δ∩ω)-o

更新当前簇核心对象队列。
83.步骤s300、根据所述若干聚类簇,生成所述用户评论数据对应的内容热度标签。
84.所述内容热度标签为所述若干内容实体标签中热度最高的标签,所述聚类标签数量为组成各个聚类簇的内容实体标签数量,一般来说,组成各个聚类簇的内容实体标签数量越多,说明组成该聚类簇的内容实体标签越热门,所述聚类中心标签为各个聚类簇的聚类中心的标签。本实施例确定所述用户评论数据对应的若干聚类簇后,进一步获取所述若
干聚类簇中各个聚类簇的聚类标签数量和聚类中心标签,根据所述聚类标签数量对各个聚类簇的聚类中心标签进行排序,并根据排序后的所述聚类中心标签,生成所述用户评论数据对应的内容热度标签。所述排序方式可以为降序排列或升序排列,例如,根据所述聚类标签数量对各个聚类簇的聚类中心标签进行升序排列,并取排序前k个聚类中心标签,生成topk个用户评论内容热度标签
85.由此可见,本发明实施例首先获取用户评论数据,从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签,然后,对所述若干内容实体标签进行聚类,确定所述用户评论数据对应的若干聚类簇,最后,根据所述若干聚类簇,生成所述用户评论数据对应的内容热度标签,因此,通过从用户评论数据中提取若干内容实体标签,并根据聚类后的若干内容实体标签生成内容热度标签,可以精确获取用户评论数据中的内容热度标签。
86.示例性设备
87.如图2中所示,本发明实施例提供一种内容热度标签生成装置,该装置包括:数据获取模块210、数据聚类模块220、标签生成模块230。具体地,所述数据获取模块210,用于获取用户评论数据,从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签。所述数据聚类模块220,用于对所述若干内容实体标签进行聚类,确定所述用户评论数据对应的若干聚类簇。所述标签生成模块230,用于根据所述若干聚类簇,生成所述用户评论数据对应的内容热度标签。
88.基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图3 所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种内容热度标签生成方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
89.本领域技术人员可以理解,图3中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
90.在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
91.获取用户评论数据,从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签;
92.对所述若干内容实体标签进行聚类,确定所述用户评论数据对应的若干聚类簇;
93.根据所述若干聚类簇,生成所述用户评论数据对应的内容热度标签。
94.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可
包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom (eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink) dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
95.综上所述,本发明公开了一种内容热度标签生成方法、智能终端及存储介质,包括:获取用户评论数据,从所述用户评论数据中提取所述用户评论数据对应的若干内容实体标签;对所述若干内容实体标签进行聚类,确定所述用户评论数据对应的若干聚类簇;根据所述若干聚类簇,生成所述用户评论数据对应的内容热度标签。本发明通过从用户评论数据中提取若干内容实体标签,并根据聚类后的若干内容实体标签生成内容热度标签,可以精确获取用户评论数据中的内容热度标签。
96.应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
97.应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1