数据分析方法及数据分析装置的制造方法

文档序号:9375676阅读:412来源:国知局
数据分析方法及数据分析装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术,尤其涉及一种数据分析方法及数据分析装置。
【背景技术】
[0002]目前,某些企业搜集某产品的用户反馈以后,根据文本内容进行人工归类,判断评论内容提及的是产品的具体哪一方面(如功能、bug(漏洞))以及评论的情感极性(正面、负面)。
[0003]也就是说,人工判断产品口碑和归纳好评、差评集中点。通过人工一条条阅读评论,判断此条评论表达的情感属于正面、负面或是中性,同时判断评论中评价对象属于产品哪一个维度(比如是性能、功能还是价格类)。然后进行人工归类,最后统计和排序,得出产品的好评、差评主要集中在那些维度。
[0004]然而,在数据量的大情况下,过多人工参与造成重复劳动和低效率,分类和归纳缺乏系统性和一致性,导致人力消耗成本高,缺乏实时性。
[0005]为此,现有技术中还出现一种淘宝属性对归类,例如,通过预先设定好的属性词和情感词进行逐条匹配,统计归纳结果。
[0006]然而,淘宝属性对归类的缺陷包括:第一、对数据的归类缺乏全面性;第二、未能结合分析口碑状况,只能看到某一方面评论归纳。
[0007]为此,需要一种能够实时全面进行数据分析的方法。

【发明内容】

[0008]为解决现有技术中的缺陷,本发明提供一种数据分析方法及数据分析装置,用于实时全面的收集评论内容,且简化现有的数据分析方式,提高数据分析的准确性。
[0009]第一方面,本发明实施例提供一种数据分析方法,包括:
[0010]根据输入的文本内容建立产品标签库;
[0011 ] 根据所述文本内容获取口碑词修饰的主语,所述口碑词是对所述文本内容进行分词处理,以及通过预存的词库对分词处理后达到预设频次的词语进行筛选得到的;
[0012]将所述主语与所述产品标签库中的标签进行匹配;
[0013]根据与所述主语相匹配的标签,生成反映所述文本内容中共性问题的结果标签树。
[0014]结合第一方面,在第一种可能的实现方式中,所述根据输入的文本内容建立产品标签库,包括:
[0015]根据输入的文本内容建立动态标签库;
[0016]根据所述文本内容对应的产品类别建立专用标签库;
[0017]将所述动态标签库、专用标签库和预设的通用标签库生成所述产品标签库。
[0018]结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据输入的文本内容建立动态标签库,包括:
[0019]获取所述文本内容中的名词;
[0020]判断所述名词出现的频率次数是否大于预设阈值;
[0021]若所述名词出现的频率次数大于预设阈值,确定所述名词与所述专用标签库中的标签、通用标签库中的标签是否重复;
[0022]若所述名词与所述专用标签库中的标签、通用标签库中的标签不重复时,所述名词作为标签生成所述动态标签库。
[0023]结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,根据所述文本内容对应的产品类别建立专用标签库;
[0024]根据所述文本内容对应的产品类别获取所述产品所属的自定义标签;
[0025]查找所述自定义标签的同义词、近义词;
[0026]将所述自定义标签、所述自定义标签的同义词、近义词生成所述文本内容的所述专用标签库。
[0027]结合第一方面的第二种可能的实现方式,在第四种可能的实现方式中,所述获取所述文本内容中的名词,包括:
[0028]根据自定义词库对所述文本内容进行分词处理,得到所述文本内容的名词。
[0029]结合第一方面及第一方面的上述可能的实现方式,在第五种可能的实现方式中,根据所述文本内容获取口碑词修饰的主语,包括:
[0030]在所述文本内容中获取口碑词修饰的主语和/或隐含主语;
[0031]将所述主语与所述产品标签库中的标签进行匹配,包括:
[0032]将所述主语和/或隐含主语分别与所述产品标签库中的标签进行匹配。
[0033]结合第一方面及第一方面的第一至第四种可能的实现方式,在第六种可能的实现方式中,所述根据与所述主语相匹配的标签,生成反映所述文本内容中共性问题的结果标签树的步骤之前,所述方法还包括:
[0034]获取所述产品标签库中标签的扩展口碑词;
[0035]将所述扩展口碑词和与所述扩展口碑词对应的标签在所述文本内容中进行匹配;
[0036]根据与所述主语相匹配的标签,生成反映所述文本内容中共性问题的结果标签树,包括:
[0037]根据与所述主语相匹配的标签,以及所述扩展口碑词和所述扩展口碑词对应的标签的匹配结果,生成反映所述文本内容中共性问题的结果标签树。
[0038]结合第一方面及第一方面的第一至第四种可能的实现方式,在第七种可能的实现方式中,所述根据输入的文件内容建立产品标签库的步骤之后,还包括:
[0039]根据所述广品标签库中各标签之间的隶属关系,建立多层级标签树;
[0040]将所述主语与所述产品标签库中的标签进行匹配,包括:
[0041]将所述主语与所述多层级标签树中的底层标签进行匹配。
[0042]结合第一方面的第七种可能的实现方式,在第八种可能的实现方式中,
[0043]所述根据与所述主语相匹配的标签,生成反映所述文本内容中共性问题的结果标签树,包括:
[0044]若所述主语与所述底层标签相匹配,则在所述底层标签所属的位置进行记录;
[0045]将所述底层标签的记录结果反向拉取在所述多层级标签树中的上层标签所属的位置,得到反映所述文本中共性问题的结果标签树。
[0046]结合第一方面的第一种可能的实现方式,在第九种可能的实现方式中,所述方法还包括:
[0047]若所述主语和所述标签不匹配,根据所述语义相似度和重要度计算规则获取所述主语的相似度和重要度;
[0048]若所述主语的相似度大于等于第一预设值,和/或所述主语的重要度大于等于第二预设值,将所述主语作为标签加入所述动态标签库。
[0049]第二方面,本发明实施例提供一种数据分析装置,包括:
[0050]产品标签库建立单元,用于根据输入的文本内容建立产品标签库;
[0051]主语获取单元,用于根据所述文本内容获取口碑词修饰的主语,所述口碑词是对所述文本内容进行分词处理,以及通过预存的词库对分词处理后达到预设频次的词语进行筛选得到的;
[0052]匹配单元,用于将所述主语获取单元获取的主语与所述产品标签库建立单元建立的产品标签库中的标签进行匹配;
[0053]结果标签树生成单元,用于根据所述匹配单元中与所述主语相匹配的标签,生成反映所述文本内容中共性问题的结果标签树。
[0054]结合第二方面,在第一种可能的实现方式中,所述产品标签库建立单元,用于
[0055]根据输入的文本内容建立动态标签库;
[0056]根据所述文本内容对应的产品类别建立专用标签库;
[0057]将所述动态标签库、专用标签库和预设的通用标签库生成所述产品标签库。
[0058]结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述产品标签库建立单元,用于
[0059]获取所述文本内容中的名词;
[0060]判断所述名词出现的频率次数是否大于预设阈值;
[0061]若所述名词出现的频率次数大于预设阈值,确定所述名词与所述专用标签库中的标签、通用标签库中的标签是否重复;
[0062]若所述名词与所述专用标签库中的标签、通用标签库中的标签不重复,将所述名词作为标签生成所述动态标签库。
[0063]结合第二方面的第一种可能的实现方式,在第三种可能的实现方式中,所述产品标签库建立单元,用于
[0064]根据所述文本内容对应的产品类别获取所述产品所属的自定义标签;
[0065]查找所述自定义标签的同义词、近义词;
[0066]将所述自定义标签、所述自定义标签的同义词、近义词生成
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1