基于文本评论的线上品牌评估方法

文档序号:9708971阅读:246来源:国知局
基于文本评论的线上品牌评估方法
【技术领域】
[0001 ]本发明涉及一种基于文本评论的线上品牌评估方法。
【背景技术】
[0002] 近年来,互联网电子商务蓬勃发展,大量网络卖家经过多年积累,很多都走上了原 创品牌的道路,比如淘宝等平台已经涌现了不少著名服装品牌。线上品牌的经营时间短,经 营范围仅限于线上,对于普通消费者来说,信息太少,了解困难。
[0003] -套准确高效的线上品牌评估方案,可以使用户快速了解品牌价值,节约购物时 间,准确作出决定。也能迅速识别互联网上滥竽充数的品牌,提高电子商务安全性。然而,现 有技术中,并没有解决线上品牌的信息收集问题,也很难准确评估一个品牌的价值和持续 性。
[0004] 因此,一种基于文本评论的线上品牌评估方法,是当前急需解决的问题。

【发明内容】

[0005] 本发明的目的在于提供一种基于文本评论的线上品牌评估方法,解决如何收集品 牌信息和利用品牌产品相关评论进行识别评估的问题。
[0006] 为了实现上述目的,本发明采用的技术方案如下: 基于文本评论的线上品牌评估方法,包括以下步骤: (1) 通过网络爬虫程序,收集目标品牌在各大电商网站上商品的相关评论文本; (2) 随机选择部分评论数据分词,并进行标注; (3) 将标注完成的评论数据作为隐马尔可夫算法模型的训练集数据; (4) 通过训练集数据train.csv训练出隐马尔可夫算法模型的参数,并由隐马尔可夫算 法来识别商品评论数据,得到结构化的情感描述语料。
[0007] (5)进一步处理情感描述语料,保留其中跟商品本身和品牌文化相关的评价性描 述; (6) 基于目标品牌旗下商品的评价数据向量化,利用机器学习算法,给予目标品牌登记 分类和量化评分; (7) 存储目标品牌评估结果,按时间线定期更新品牌评估。
[0008] 进一步地,所述步骤(1)的具体方法如下: (11) 分析电商网站网页结构; (12) 按时间爬取目标品牌对应的产品的所有评论信息。
[0009] 再进一步地,所述步骤(4)中识别评论数据的算法模型的具体方法如下: (41) 调用隐马尔可夫算法模型,输入评论数据的文本语料; (42) 通过隐马尔可夫算法识别出预料中的不同实体词及其对应形容词; (43) 结构化实体词对,作为下一步算法的输入。
[0010] 进一步地,所述步骤(6)的具体方法如下: (61) 将每一个评价指标作为特征; (62) 每个评价指标的好中差评量化为分值; (63) 目标品牌数据以特征和分值做向量化; (64) 用机器学习算法,得到品牌等级分类; (65 )加权计算品牌每个特征对应的数值,得到量化评分。
[0011] 本发明与现有技术相比,具有以下优点及有益效果: 本发明解决了线上品牌的信息收集问题,也能准确评估一个品牌的价值和持续性;应 用本发明,可以使用户快速了解品牌价值,提升购物体验,准确作出决定;也能迅速识别互 联网上滥竽充数的品牌,提高电子商务安全性。
【附图说明】
[0012] 图1为本发明整体流程图。
[0013] 图2为本发明中数据采集的流程示意图。
[0014] 图3为本发明中建立隐马尔可夫算法模型的流程示意图。
[0015] 图4为本发明中用户评论语料识别方法的流程示意图。
[0016] 图5为本发明中品牌数据向量化和分类方法的流程示意图。
[0017] 图6为本发明中品牌评分按时间线更新方法的流程示意图。
【具体实施方式】
[0018] 下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于 下列实施例。 实施例
[0019 ]如图1~6所示,基于文本评论的线上品牌评估方法,包括以下步骤: 一、根据目标品牌,进行数据采集。主要集中于淘宝、天猫、京东等大型电商网站商品评 论。
[0020] 如图2所示,数据采集方法如下: 根据品牌分类,确定爬取目标网站; 分析网站http连接,找到数据接口api ; 定制多线程爬虫程序,通过对应的api接口获取数据。
[0021] 二、随机选择部分用户评论数据分词并进行标注: 根据商品品类的标注规则,将该品类的一句商品标题的句子,通过人工识别来标记句 子的不同tag的词性。需要注意的是,分词器完成的分词并不完全规范为表示一个完整意思 的最小单元,即不是一个tag,若一个tag被分成了两个词,例如: "洗发水"是一个tag,而分词器分成了"洗"、"发"和"7K"。因此,为了将一个分开的tag 拼在一起,规则xl,x2,x3分别为tag头、tag中、tag尾,其中X为不同词性的标注编号。
[0022] 具体,句子的词性包括:实体词,差评在前,差评独立,差评在后,中评在前,中评独 立,中评在后,好评在前,好评独立,好评在后,无关词。
[0023]标注后的数据样例-1如下表1: 表1
以下是对标注样例-1的解释说明: "包装"是一个实体名词,词性为被描述实体,标注编号为"η" ; "很好"为描述"包装"的 评价性词语,好评,而且在实体词后面,标注编号为"9" ; "很好用"是描述实体词的评价性词 语,而且是独立于实体词分布,标注编号为"8" ; "第二次买了"是描述对这个商品的感受,不 是直接描述"包装"这个实体名词,标注编号为"0"。
[0024] 标注后的数据样例-2如下表2:
以下是对标注样例-2的解释说明: "护发素"是一个实体名词,词性为被描述实体,标注编号为"η" ; "很一般"是描述"护发 素"的评价性词语,为中评,而且在实体词后面,标注编号为"6" ; "洗发"和"露"组合起来是 一个实体名词,分别标注编号为"ηΓ,"η3" ; "不错"是描述"洗发露"的评价性词语,为好评, 而且在实体词后面,标注编号为"9" ; "沐浴乳"是一个实体名词,词性为被描述实体,标注编 号为"η" ; "洗完很"和"光"组合起来是描述"沐浴乳"的评价性词语,为中评,而且在实体词 后面,标准编号为"61"和"63";"价钱"是一个实体名词,词性为被描述实体,标注编号为 "η" ; "贵"是描述"价钱"的评价性词语,为差评,而且在实体词后面,标注编号为"3"。
[0025]如图3所示,算法模型的建立(训练模型的准确): 三、 将标注的用户评论数据作为隐马尔可夫算法模型的训练集数据train.csv; 四、 通过训练集数据训练出隐马尔可夫算法模型的参数,建立隐马尔可夫算法模型,并 由隐马尔可夫算法识别用户评论数据,根据词性整理,得到结果数据实体词-情感词对; 五、 过滤实体词-情感词对数据,从中提取直接描述商品本身和品牌映像的词对; 数据离子如下表3:
' 六、基于目标品牌旗下商品的评价数据向量化,利用机器学习算法,给予目标品牌等级^ 分类和量化评分。如图5所示具体方法如下: 将每一个评价指标的实体词作为特征,即向量的维度,实体词的数量即为向量的维度 数量; 每个实体词-情感词对的好中差评量化为分值,分别为1,〇,-1分,相同实体词不同情感 评价累加计算总分; 目标品牌数据以特征和分值做向量化,每个品牌用一条整数数值向量表示; 数据举例如下衷4:
用机器字 >」算法中的逻辑回归算法,得到品牌等级分类; 加权计算品牌每个特征对应的数值,得到量化评分。
[0026] 七、存储目标品牌评估结果,按时间线定期更新品牌评估。如图6所示,具体步骤如 下: 按时间周期收集目标品牌数据; 调用上述步骤四、五、六,得到新的时间段品牌评估结果; 分析品牌价值变化,合理化品牌评估。
[0027] 按照上述实施例,便可很好地实现本发明。值得说明的是,基于上述结构设计的前 提下,为解决同样的技术问题,即使在本发明上做出的一些无实质性的改动或润色,所采用 的技术方案的实质仍然与本发明一样,故其也应当在本发明的保护范围内。
【主权项】
1. 基于文本评论的线上品牌评估方法,其特征在于,包括以下步骤: (1) 收集目标品牌在电商网站上商品的相关评论文本; (2) 选择评论数据分词,并进行标注;将标注完成的评论数据作为隐马尔可夫算法模型 的训练集数据; (3) 通过训练集数据训练出隐马尔可夫算法模型的参数,并识别商品评论数据,得到结 构化的情感描述语料; (4) 处理情感描述语料,保留其中跟商品本身和品牌文化相关的评价性描述; (5) 基于目标品牌旗下商品的评价数据向量化,利用机器学习算法,给予目标品牌等级 分类和量化评分; (6) 存储目标品牌评估结果,按时间线定期更新品牌评估。2. 根据权利要求1所述的基于文本评论的线上品牌评估方法,其特征在于,所述步骤 (1)的具体方法如下: (11) 分析电商网站网页结构; (12) 按时间爬取目标品牌对应的产品的所有评论信息。3. 根据权利要求1所述的基于文本评论的线上品牌评估方法,其特征在于,所述步骤 (3)中识别商品评论数据的具体方法如下: (31) 调用隐马尔可夫算法模型,输入评论数据的文本语料; (32) 通过隐马尔可夫算法识别出语料中不同实体词及其对应形容词; (33) 结构化实体词对,作为下一步算法的输入。4. 根据权利要求1所述的基于文本评论的线上品牌评估方法,其特征在于,所述步骤 (5)的具体方法如下: (51) 将每一个评价指标作为特征; (52) 每个评价指标的好中差评量化为分值; (53) 目标品牌数据以特征和分值做向量化; (54 )用机器学习算法,得到品牌等级分类; (55 )加权计算品牌每个特征对应的数值,得到量化评分。
【专利摘要】本发明公开了一种基于文本评论的线上品牌评估方法,解决了现有技术中如何收集品牌信息和利用品牌产品相关评论进行识别评估的问题。本发明包括①收集目标品牌在各大电商网站上商品的相关评论文本;②随机选择评论数据分词,并进行标注;③将标注完成的评论数据作为隐马尔可夫算法模型的训练集数据;④训练出隐马尔可夫算法模型的参数,识别商品评论数据,得到结构化的情感描述语料;⑤处理情感描述语料,保留跟商品本身和品牌文化相关的评价性描述;⑥利用机器学习算法,给予目标品牌登记分类和量化评分;⑦存储目标品牌评估结果,按时间线定期更新品牌评估。本发明解决了线上品牌的信息收集问题,也能准确评估一个品牌的价值和持续性。
【IPC分类】G06F17/27, G06Q30/02
【公开号】CN105469282
【申请号】CN201510866411
【发明人】王军, 甘骏, 彭中正, 王磊, 张迪, 肖琴
【申请人】成都知数科技有限公司
【公开日】2016年4月6日
【申请日】2015年12月1日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1