产品特征标签的提取方法及装置的制造方法

文档序号：9235407阅读：303来源：国知局

产品特征标签的提取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及一种产品特征标签的提取方法及装置。
【背景技术】
[0002] 目前，一般通过人工对用户发出的评论进行搜索后，整理并提取中间的某些短语作为产品的特征标签，该样的做法耗时较长，由于人工筛选通常带有较强的主观性，使得特征标签往往难WW最客观的形式来描述产品的特性。
[0003] 有的方案采用直接使用文本挖掘技术提取标签，即通过词频等指标筛选出文本中的短语或词语作为产品的特征标签。但该样的方式往往噪声很高，使得特征标签的短语并非最优。

【发明内容】

[0004] 本发明要解决的技术问题是为了克服现有技术的产品的特征标签噪声较大、主观性较强的缺陷，提供一种噪声更小、更客观的产品特征标签的提取方法及装置。
[0005] 本发明是通过下述技术方案来解决上述技术问题：
[0006] -种产品特征标签的提取方法，其特点在于，其包括有W下步骤：
[0007] S1、抓取一产品类型的所有评论，所述评论预设有若干个主题；
[0008] S2、将同一主题的全部所述评论的内容合并为一文本；
[0009] S3、从每一所述文本抽取出现次数最多的若干词语，W构成一常用词集合。
[0010] 此处，分别从不同主题所对应的文本中抽取出现次数最多的若干词语后构成常用词集合，相对于直接将所有评论合并后抽取出现次数最多的词语所形成的词语的集合，上述常用词集合噪音（也就是说起干扰作用的词）更少。
[0011] S4、生成一 TF-IDF矩阵，所述TF-IDF矩阵的行对应每一所述文本，列对应全部所述文本中的每一词语，所述TF-IDF矩阵中的每一元素的取值根据W下公式计算：
[0012] 其中，e为TF-IDF矩阵中的元素的取值，n为该元素对应的所述词语在对应的所述文本中的出现次数，k为该元素对应的所述文本中的总词语数，a为所述TF-IDF矩阵的行数，b为所述TF-IDF矩阵中该元素对应的词语数不为0的行数。
[0013] TF-IDF矩阵的行数可W理解为文本的总数，即预设的主题数目。而TF-IDF矩阵中该元素对应的词语数不为0的行数可W理解为包含有元素对应的词语的文本的数量。
[0014] 此处，TF-IDF矩阵中的元素的取值（即TF-IDF值）等于标准化词频乘W逆文档频率，标准化词频的定义为某个词在文章中出现的次数除W该文章的总词数，而逆文档频率则为log(文章总数/包含该词的文章数）。
[0015] 通过计算得出的元素取值所对应的词语在文本通常为一句话所修饰和描述的对象（例如，学术论文的关键词等）。
[0016] S5、从所述TF-IDF矩阵的每一行中抽取值最大的若干元素对应的所述词语；
[0017] S6、将从所述TF-IDF矩阵中抽取所得的全部所述词语集合在一起形成一关键词集合。
[0018] 此处，S5和S6与S3中一样，由于区分了主题（每个主题对应的文本均对应TF-IDF 中的一行），因此噪声也相应的减小了。
[0019] S7、从一单独产品的全部评论中抽取包含有所述关键词集合中的词语的一短语作为所述单独产品的特征标签，所述短语为文本中由分隔符分隔形成的文字段。
[0020] 较佳的，所述S7分为W下步骤：
[0021] S701、将所述产品类型中的每一产品的所有评论分别合并成一第二文本；
[0022] S702、生成一第二词频矩阵，所述第二词频矩阵的行对应每一所述第二文本，列对应全部所述常用词集合中的词语，元素的取值为每一列所对应的词语在每一行所对应的所述第二文本中的出现次数；
[0023] S703、生成一第二TF-IDF矩阵，所述第二TF-IDF矩阵的行对应每一所述第二文本，列对应全部所述第二文本中的每一词语，所述第二TF-IDF矩阵中的每一元素的取值根据W下公式计算
[0024] 其中，62为第二TF-IDF矩阵中的元素的取值，ri2为该元素对应的所述词语在对应的所述第二文本中的出现次数，k2为该元素对应的所述第二文本中的总词语数，32为所述第二TF-IDF矩阵的行数，b2为所述第二TF-IDF矩阵中该元素对应的词语数不为0的行数。 [00巧]也就是说，第二词频矩阵和第二TF-IDF矩阵的行和列与前面第一 TF-IDF矩阵是不同的，因为第二文本对应的是不同产品的评论，而S2中的文本对应的是不同主题的评论。
[0026] S704、从所述单独产品所对应的所述第二词频矩阵和所述第二TF-IDF矩阵的行中，分别抽取对应的元素取值最大且属于所述关键词集合的若干个词语，并将抽取的所有词语合并形成一产品关键词集合。
[0027] 此处，该样的方案是为了进一步减少噪声。
[0028] S705、将所述单独产品所对应的所述第二文本按照分隔符拆分成若干个短语。
[0029] 此处，分隔符是指的逗号句号等可W分断语义的标点符号。
[0030] S706、从所述产品关键词集合中选取一个词语作为关键词，从所述若干个短语中筛选出包含有所述关键词的短语，从筛选出的所述短语中选出一与其余短语共有词语最多的短语作为所述关键词对应的特征标签。
[0031] 也就是说，经过前面的步骤，关键词集合中的词语已经具有较强代表性。而含有关键词集合中词语的短语逐个对比，所得出的共有词语最多的短语往往为短语中能较好描述单独产品特征的短语。
[0032] S707、重复S706得出所有关键词所对应的特征标签；
[0033] S708、将所述特征标签存储至数据库。
[0034] 较佳的，所述S706为：
[0035] 从所述产品关键词集合中选取一个词语作为关键词，从所述若干个短语中筛选出包含有所述关键词的短语，将筛选出的所述短语组成一短语词频矩阵，所述短语词频矩阵的行对应每一所述短语，且列对应全部所述短语中的每一词语，元素的取值为全部所述短语中的每一词语的出现次数，根据所述短语词频矩阵的每一行的元素值的平方和，得出一与其余短语的余弦相似性之和最小的短语作为所述关键词对应的特征标签。
[0036] 此处，利用短语与短语之间的余弦相似性，更为精确的选择出了更具代表性的短语。余弦相似性是一种统计方法，W下结合S706中的方法，举例说明余弦相似性的计算方法：
[0037] 从产品关键词集合中选取"风格"一词作为关键词，从由第二文本按分隔符拆分成若干个短语中筛选出H个包含有"风格"一词的短语（X、y、Z)，列出短语词频矩阵对应的列表如下：
[0038] 表1短语词频矩阵对应的列表
[0039]
[0040] 根据短语X和短语y在每一行的元素值的平方和得：
[0043] sin(X, y)=0. 8164966
[0044] distance(x,y)=1-sin(x,y)=0. 1835034
[004引其中，distance (X，y)为短语X与短语y的余弦相似性。
[0046] 依次类推得出短语X、y、z之间的余弦相似性如下表：
[0047] 表2短语X、y、Z之间的余弦相似性
[0048]
[0049] 最终得出余弦相似性之和最小的为y短语，再将y短语作为该单独产品的特征标签。W上仅为举例，在数据量更为鹿大的情况下采用矩阵的方式进行余弦相似性的计算，可 W使得计算过程更为直观和方便。

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：严紫丹;
技术所有人：携程计算机技术（上海）有限公司;
我是此专利的发明人

上一篇：一种安卓智能终端网页业务识别方法
上一篇：版式电子文档的页眉页脚识别方法及装置的制造方法

该领域下的技术专家

如您需求助技术专家，请点此查看客服电话进行咨询。

1、李老师：1.计算力学 2.无损检测

2、毕老师：机构动力学与控制

3、袁老师：1.计算机视觉 2.无线网络及物联网

4、王老师：1.计算机网络安全 2.计算机仿真技术

5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用

如您是高校老师，可以点此联系我们加入专家库。

相关技术

版式电子文档的页眉页脚识别方...
用户意图识别方法及装置的制造...
以矩阵为中心的分布式计算框架...
一种拍照分类处理的方法、装置...
一种基于深度学习的云服务性能...
一种具有多处理器和共用外存储...
一种多功能触摸屏数学式计算器...
基于fpga的uart字节同...
一种串行总线通信设备的自动编...
安全退出装置及安全退出方法

网友询问留言已有0条留言

还没有人留言评论。精彩留言会获得点赞！

1

精彩留言，会给你点赞！

特征提取相关技术
电商平台展示图片颜色信息采集方法与流程
一种基于拉普拉斯嵌入的图像分类词典学习方法和装置与流程
基于协同深度学习的医学图像分类方法与流程
一种基于手机加速度传感器的交通模式识别方法与流程
一种面向复杂模式分类的特征选择方法与流程
一种基于网格特征提取的证件照曝光方向检测算法的制造方法与工艺
一种基于扩展非线性核残差网络的手写字符识别方法与流程
基于FCN‑CRF主从网络的极化SAR目标检测方法与流程
基于超像素分割及深度特征定位的显著性目标检测方法与流程
一种基于层次分析的脑电信号特征分类的二分类方法与流程
图像特征提取相关技术
基于HOG特征和FAST算法的双眼定位方法与流程
一种命名人脸图像的方法、装置及计算机可读存储介质与流程
人脸图像降噪方法、装置、存储介质及计算机设备与流程
一种提取图像特征的方法及装置与流程
基于协作模糊均值鉴别分析的多姿态人脸识别方法与流程
实现人脸图像融合的方法及装置与流程
一种从胸部CT图像中提取肺叶的方法及装置与流程
一种复杂光照下图像特征提取方法与流程
一种红外图像9/7小波变换硬件加速电路的制造方法与工艺
一种考虑用户分布的空域流量特征提取方法与制造工艺
特征提取与图像处理相关技术
基于lrr?lda的图像特征提取方法
从图像中提取特征的方法和装置的制造方法
一种基于图像处理的散杂货堆体积测量方法及实现所述方法的系统的制作方法
脸部特征提取装置、脸部特征提取方法、图像处理设备和图像处理方法
一种基于所需方向结构特征统计的mrf样图像修复方法
图像特征提取方法及系统的制作方法
一种基于工业相机特征提取的润后水渍烟叶识别方法
一种基于多特征的肺部ct图像关联规则方法
评价服装穿着起皱程度的图像处理及特征提取方法
图像处理装置的制造方法
特征参数提取相关技术
流注-先导转换过程的特征参数的测量系统及方法
评价服装穿着起皱程度的图像处理及特征提取方法
语音识别方法、装置及终端的制作方法
一种噪声环境下声纹识别的语音特征处理方法
一种监控视频特征帧在线提取方法
进动目标结构参数提取方法
一种通话过程中提取特征信息的方法及装置的制造方法
一种锂离子电池健康状态的特征参数评价方法
一种水声目标信号声纹特征提取装置和方法
一种影像质量评价系统及方法
人脸特征提取相关技术
非约束环境下的有效人脸特征提取方法
一种基于人脸检测的网络视频缩略图提取及映射方法
用于从人脸图像的数据提取人脸特征的方法和系统的制作方法
一种人脸图像识别的双向鉴别特征提取方法
基于神经网络的人脸特征提取建模、人脸识别方法及装置的制造方法
一种快速的人脸特征点初始化方法
一种基于视频数据的人脸特定区域提取方法
自动化面部识别系统的制作方法
一种基于面部特征的脸谱的人脸投影方法
一种自动化面部识别系统的使用方法