基于酒店点评的用户标签和酒店标签匹配方法及装置的制造方法

文档序号:9453659阅读:621来源:国知局
基于酒店点评的用户标签和酒店标签匹配方法及装置的制造方法
【技术领域】
[0001] 本发明涉及一种互联网信息处理方法,特别涉及一种用户画像生成方法及装置。
【背景技术】
[0002] 时代的变迀,不可避免会带来诸多社会变化。在互联网逐渐步入大数据时代后,不 可避免的为企业及消费者行为带来一系列改变与重塑。互联网唯快不破的节奏,打乱了原 有商业演变的逻辑,使得商业的参与方不得不面临着前所未有的变革,加速适应时代的变 化。如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴 随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管 理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广 泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供 了足够的数据基础。伴随着对人的了解逐步深入,"用户画像"的概念应运而生,它完美地抽 象出一个用户的信息全貌,可以看作企业应用大数据的根基。
[0003] 用户画像是真实用户的虚拟代表,是在深刻理解真实数据的基础上得出的一个虚 拟用户。企业通过收集与分析消费者社会属性、生活习惯、消费行为、观点差异等主要信息 的数据之后,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予一个名字、 一张照片、一些人口统计学要素、场景等描述,就形成了一个用户画像,这是用户的商业全 貌,可以看作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础, 能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。
[0004] 大数据处理,离不开计算机的运算,用户画像可以用标签集合来表示,标签是某一 种用户特征的符号表示,用户信息标签化提供了一种便捷的方式,使得计算机能够程序化 处理与人相关的信息,甚至通过算法、模型能够"理解"人。
[0005] -个标签通常是预先定义的高度精炼的特征标识,如年龄段标签:25~35岁,地 域标签:北京,标签呈现出两个重要特征:(1)语义化,人能很方便地理解每个标签含义,这 也使得用户画像模型具备实际意义,能够较好的满足业务需求,如判断用户偏好;(2)短文 本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利 用机器提取标准化信息提供了便利。
[0006] 用户画像标签具体来说包括两方面:标签及其权重。标签,表征了内容,用户对该 内容有兴趣、偏好、需求等等。权重,表征了指数,用户的兴趣、偏好指数,也可能表征用户的 需求度,可以简单的理解为置信度。
[0007] 为用户画像的焦点工作就是为用户打"标签",而一个标签通常是人为规定的高度 精炼的特征标识,如年龄、性别、地域、用户偏好等,最后将用户的所有标签综合来看,基本 就可以勾勒出该用户的立体"画像"了。
[0008] 具体来讲,当为用户画像时,需要收集数据、分析标签两个步骤。
[0009] 首先,收集到用户所有的相关数据并将用户数据划分为静态信息数据、动态信息 数据两大类,静态数据就是用户相对稳定的信息,如性别、年龄、地域、职业等,动态数据就 是用户不停变化的行为信息,如浏览网页、搜索商品、发表点评、接触渠道等。
[0010] 其次,通过剖析数据为用户贴上相应的标签及指数,标签代表用户对该内容有兴 趣、偏好、需求等,指数代表用户的兴趣程度、需求程度、购买概率等。
[0011] 如中国专利申请公开第104750731A号揭示的一种获取完整用户画像的方法,包 括:获取残缺的用户画像矩阵,以及随机生成用户参数矩阵P和标签矩阵Q;计算第一部分 用户的画像误差,更新用户参数矩阵和标签参数矩阵,其中,选择的第一部分用户的第一变 化差值大于第一剩余用户的第一变化差值,第一剩余用户为多个用户中的除第一部分用户 之外的用户,第一变化差值为用户第r-1次更新的第一预测值与用户第r-2次更新的第一 预测值之间的差值;在第R次更新用户参数矩阵P和标签参数矩阵Q之后,根据矩阵分解的 结果,获取完整的用户画像矩阵。
[0012] 又如中国专利申请公开第104268292A号揭示的一种画像系统的标签词库更新方 法,其包括:获取用户的画像数据,所述画像数据包括用于描述所述用户的标签和所述用户 发表的原始文本;当标签的数量与原始文本的数量的比值小于预设的第一阈值时,对所述 用户发表的所有原始文本进行分词处理,以得到多个标签候选词,并将标签候选词发送至 推荐系统;推荐系统计算每一个标签候选词与预设的词向量模型文件中每一个词的向量距 离,将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中,将不存在向量 距离大于第二阈值的标签候选词删除。
[0013] 再如中国专利申请公开第103577549A号揭示的一种基于微博标签的人群画像系 统和方法,包含微博标签推荐和标签主题聚类两大模块,其中第一模块中采用一个涵盖三 个步骤的标签推荐算法。第一步为同质性标签推荐,第二步为共现性标签扩展;第三步则是 以中文知识图谱为基础建立语义网络,利用网络拓扑特性来度量标签之间的语义相似度, 从而去除语义相同或相似的标签,保证用来刻画用户的标签精炼性。
[0014] 然而,上述三篇专利文献公开的用户画像技术的应用领域均不属于本发明所涉及 的酒店行业。
[0015] 在酒店行业中,目前的用户画像标签化分析的研究和应用主要集中在用户属性 和用户行为等数据上,用户属性数据包括年龄、性别、地域等,用户行为数据包括用户在官 网或者移动应用端的访问历史、点击历史、消费历史等数据,基于点评数据的研究和应用较 少。这方面的主要问题在于点评文本的分析理解很难,需要借助自然语言处理等技术,将非 结构化的数据转化为结构化的数据,常见的用户标签分析算法才可以加以应用。
[0016] 因此,提供一种基于酒店点评的用户标签和酒店标签匹配方法成为业内急需解决 的问题。

【发明内容】

[0017] 本发明的目的是提供一种基于酒店点评的用户标签和酒店标签匹配方法及装置, 其通过标签为酒店和用户建模,从而更好地在酒店和用户之间建立关联。
[0018] 常见的用户点评分析方法都是基于结构化数据,如用户属性数据,包括年龄、性 另IJ、地域等,或者用户行为数据包括用户在官网或者移动应用端的访问历史、点击历史、消 费历史等。本发明针对研究和应用较少的酒店点评数据,不仅能分析出用户对酒店的评价 是好评还是差评,还可以挖掘出维度,基于此构建酒店和用户的标签。
[0019]本发明首先通过聚焦爬虫从各大主流点评(OnlineTravelAgent,OTA)网站获取 在线点评数据。然后针对大规模点评,通过自动/半自动方式整理酒店业情感词库以及领 域知识库。最后,针对点评中的每个句子,进行分词、词性标注、短语结构句法分析等自然语 言处理技术等分析,在此基础上提取关键词或关键句式作为特征,通过最大熵分类器实现 情感分类。对于表达情感的句子,进一步根据领域关键词及知识库推理得到维度。每个维 度都反映了人们观察、认识和描述酒店或用户的一个角度。
[0020] 本发明通过维度详细描述酒店业酒店和用户双方关注的焦点,并以此作为标签 集。用户标签反映了用户在意的方面,而酒店标签反映了酒店擅长的方面。以向用户推荐 酒店这样的场景为例,当用户在意的标签与酒店擅长的标签越相似,或者匹配程度越高,则 越适合推荐给用户。有了标签集合,下一步就是针对某个用户的所有点评或者某家酒店的 所有点评,计算标签权重。权重计算主要基于标签在点评中出现的频次。酒店标签与用户 标签的差异在于,为了反映酒店某方面的擅长程度,需要考虑标签对应点评点情感极性。在 某个标签上,好的评价越多,则认为酒店这方面越擅长,做得越好。
[0021] 本发明中所指的维度是指能够表达对酒店某一方面评价的语句情感类型,比如酒 店的卫生级别、交通便利度、周边环境指数、房间空间大小等等方面,具体可以包括若干个 维度,例如维度1表示卫生级别为A级;……维度12表示交通便利度为B级;……维度53 表示周边环境指数为C级;……维度104表示房间空间大小为D级等等。
[0022] 本发明中所指的词汇的不同属性是指将词汇分为评价对象词、评价属性词以及情 感词等属性。
[0023]根据本发明的一个方面,提供一种基于酒店点评的用户标签和酒店标签匹配方 法,包括:(1)、准备酒店业情感语句模板库,酒店业情感语句模板库包括至少100个情感语 句模板;(2)、准备至少三个酒店的最终酒店标签;(3)、从互联网获取特定用户针对同一酒 店或不同酒店的至少两条用户点评;(4)、将特定用户的所有用户点评的情感语句逐一与至 少100个情感语句模板进行比对,筛选出与至少100个情感语句模板相匹配的情感语句,并 将所筛选出的情感语句根据所表达的情感类型识别为不同的维度,再以所识别的所有维度 形成特定用户的用户标签集合;(5)、分别计算特定用户的用户标签集合中的每个用户标签 的权重,其中,在特定用户的全部用户点评中出现的频率越高且在所有用户针对所有酒店 的所有用户点评中出现的频率越低则用户标签权重越高;(6)、从特定用户的用户标签集合 中选择权重大于第一设定阈值的用户标签作为特定用户的最终用户标签;以及(7)、至少 将最终酒店标签与特定用户的最终用户标签匹配率位于前三名的酒店推荐给特定用户。
[0024]其中,根据具体使用条件,准备至少三个酒店的最终酒店标签可为准备至少10个、至少100个或者至少500个最终酒店标签。
[0025]可选择地,可以事先通过其它装置或通过人工从点评网站获取点评数据备用。
[0026]可选择地,可以事先通过其它装置或通过人工整理出酒店业语义词典备用。
[0027]可选择地,可以事先通过其它装置或通过人工整理出酒店业情感语句模板库备 用。
[0028]可选择地,可以事先通过其它装置或通过人工整理出种子语义词典备用。
[0029] 可选择地,步骤(2)中准备至少三个酒店的最终酒店标签包括:(2. 1)、从互联网 获取分别针对至少三个酒店的用户点评,其中针对每个酒店包括至少三个用户的用户点 评;(2. 2)、将针对特定酒店的所有用户点评的情感语句逐一与至少100个情感语句模板进 行比对,筛选出与至少100个情感语句模板相匹配的情感语句,并将所筛选出的情感语句 根据所表达的情感类型识别为不同的维度,再以所识别的所有维度形成
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1