产品特征标签的提取方法及装置的制造方法

文档序号:9235407阅读:303来源:国知局
产品特征标签的提取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及一种产品特征标签的提取方法及装置。
【背景技术】
[0002] 目前,一般通过人工对用户发出的评论进行搜索后,整理并提取中间的某些短语 作为产品的特征标签,该样的做法耗时较长,由于人工筛选通常带有较强的主观性,使得特 征标签往往难WW最客观的形式来描述产品的特性。
[0003] 有的方案采用直接使用文本挖掘技术提取标签,即通过词频等指标筛选出文本中 的短语或词语作为产品的特征标签。但该样的方式往往噪声很高,使得特征标签的短语并 非最优。

【发明内容】

[0004] 本发明要解决的技术问题是为了克服现有技术的产品的特征标签噪声较大、主观 性较强的缺陷,提供一种噪声更小、更客观的产品特征标签的提取方法及装置。
[0005] 本发明是通过下述技术方案来解决上述技术问题:
[0006] -种产品特征标签的提取方法,其特点在于,其包括有W下步骤:
[0007] S1、抓取一产品类型的所有评论,所述评论预设有若干个主题;
[0008] S2、将同一主题的全部所述评论的内容合并为一文本;
[0009] S3、从每一所述文本抽取出现次数最多的若干词语,W构成一常用词集合。
[0010] 此处,分别从不同主题所对应的文本中抽取出现次数最多的若干词语后构成常用 词集合,相对于直接将所有评论合并后抽取出现次数最多的词语所形成的词语的集合,上 述常用词集合噪音(也就是说起干扰作用的词)更少。
[0011] S4、生成一 TF-IDF矩阵,所述TF-IDF矩阵的行对应每一所述文本,列对应全 部所述文本中的每一词语,所述TF-IDF矩阵中的每一元素的取值根据W下公式计算:
[0012] 其中,e为TF-IDF矩阵中的元素的取值,n为该元素对应的所述词语在对应的所述 文本中的出现次数,k为该元素对应的所述文本中的总词语数,a为所述TF-IDF矩阵的行 数,b为所述TF-IDF矩阵中该元素对应的词语数不为0的行数。
[0013] TF-IDF矩阵的行数可W理解为文本的总数,即预设的主题数目。而TF-IDF矩阵中 该元素对应的词语数不为0的行数可W理解为包含有元素对应的词语的文本的数量。
[0014] 此处,TF-IDF矩阵中的元素的取值(即TF-IDF值)等于标准化词频乘W逆文档 频率,标准化词频的定义为某个词在文章中出现的次数除W该文章的总词数,而逆文档频 率则为log(文章总数/包含该词的文章数)。
[0015] 通过计算得出的元素取值所对应的词语在文本通常为一句话所修饰和描述的对 象(例如,学术论文的关键词等)。
[0016] S5、从所述TF-IDF矩阵的每一行中抽取值最大的若干元素对应的所述词语;
[0017] S6、将从所述TF-IDF矩阵中抽取所得的全部所述词语集合在一起形成一关键词 集合。
[0018] 此处,S5和S6与S3中一样,由于区分了主题(每个主题对应的文本均对应TF-IDF 中的一行),因此噪声也相应的减小了。
[0019] S7、从一单独产品的全部评论中抽取包含有所述关键词集合中的词语的一短语作 为所述单独产品的特征标签,所述短语为文本中由分隔符分隔形成的文字段。
[0020] 较佳的,所述S7分为W下步骤:
[0021] S701、将所述产品类型中的每一产品的所有评论分别合并成一第二文本;
[0022] S702、生成一第二词频矩阵,所述第二词频矩阵的行对应每一所述第二文本,列对 应全部所述常用词集合中的词语,元素的取值为每一列所对应的词语在每一行所对应的所 述第二文本中的出现次数;
[0023] S703、生成一第二TF-IDF矩阵,所述第二TF-IDF矩阵的行对应每一所述第二文 本,列对应全部所述第二文本中的每一词语,所述第二TF-IDF矩阵中的每一元素的取值根 据W下公式计算
[0024] 其中,62为第二TF-IDF矩阵中的元素的取值,ri2为该元素对应的所述词语在对应 的所述第二文本中的出现次数,k2为该元素对应的所述第二文本中的总词语数,32为所述 第二TF-IDF矩阵的行数,b2为所述第二TF-IDF矩阵中该元素对应的词语数不为0的行数。 [00巧]也就是说,第二词频矩阵和第二TF-IDF矩阵的行和列与前面第一 TF-IDF矩阵是 不同的,因为第二文本对应的是不同产品的评论,而S2中的文本对应的是不同主题的评 论。
[0026] S704、从所述单独产品所对应的所述第二词频矩阵和所述第二TF-IDF矩阵的行 中,分别抽取对应的元素取值最大且属于所述关键词集合的若干个词语,并将抽取的所有 词语合并形成一产品关键词集合。
[0027] 此处,该样的方案是为了进一步减少噪声。
[0028] S705、将所述单独产品所对应的所述第二文本按照分隔符拆分成若干个短语。
[0029] 此处,分隔符是指的逗号句号等可W分断语义的标点符号。
[0030] S706、从所述产品关键词集合中选取一个词语作为关键词,从所述若干个短语中 筛选出包含有所述关键词的短语,从筛选出的所述短语中选出一与其余短语共有词语最多 的短语作为所述关键词对应的特征标签。
[0031] 也就是说,经过前面的步骤,关键词集合中的词语已经具有较强代表性。而含有关 键词集合中词语的短语逐个对比,所得出的共有词语最多的短语往往为短语中能较好描述 单独产品特征的短语。
[0032] S707、重复S706得出所有关键词所对应的特征标签;
[0033] S708、将所述特征标签存储至数据库。
[0034] 较佳的,所述S706为:
[0035] 从所述产品关键词集合中选取一个词语作为关键词,从所述若干个短语中筛选出 包含有所述关键词的短语,将筛选出的所述短语组成一短语词频矩阵,所述短语词频矩阵 的行对应每一所述短语,且列对应全部所述短语中的每一词语,元素的取值为全部所述短 语中的每一词语的出现次数,根据所述短语词频矩阵的每一行的元素值的平方和,得出一 与其余短语的余弦相似性之和最小的短语作为所述关键词对应的特征标签。
[0036] 此处,利用短语与短语之间的余弦相似性,更为精确的选择出了更具代表性的短 语。余弦相似性是一种统计方法,W下结合S706中的方法,举例说明余弦相似性的计算方 法:
[0037] 从产品关键词集合中选取"风格"一词作为关键词,从由第二文本按分隔符拆分成 若干个短语中筛选出H个包含有"风格"一词的短语(X、y、Z),列出短语词频矩阵对应的列 表如下:
[0038] 表1短语词频矩阵对应的列表
[0039]
[0040] 根据短语X和短语y在每一行的元素值的平方和得:
[0043] sin(X, y)=0. 8164966
[0044] distance(x,y)=1-sin(x,y)=0. 1835034
[004引其中,distance (X,y)为短语X与短语y的余弦相似性。
[0046] 依次类推得出短语X、y、z之间的余弦相似性如下表:
[0047] 表2短语X、y、Z之间的余弦相似性
[0048]
[0049] 最终得出余弦相似性之和最小的为y短语,再将y短语作为该单独产品的特征标 签。W上仅为举例,在数据量更为鹿大的情况下采用矩阵的方式进行余弦相似性的计算,可 W使得计算过程更为直观和方便。
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1