数据分析方法及数据分析装置的制造方法_5

文档序号:9375676阅读:来源:国知局
离本发明各实施例技术方案的范围。
【主权项】
1.一种数据分析方法,其特征在于,包括: 根据输入的文本内容建立产品标签库; 根据所述文本内容获取口碑词修饰的主语,所述口碑词是对所述文本内容进行分词处理,以及通过预存的词库对分词处理后达到预设频次的词语进行筛选得到的; 将所述主语与所述产品标签库中的标签进行匹配; 根据与所述主语相匹配的标签,生成反映所述文本内容中共性问题的结果标签树。2.根据权利要求1所述的方法,其特征在于,所述根据输入的文本内容建立产品标签库,包括: 根据输入的文本内容建立动态标签库; 根据所述文本内容对应的产品类别建立专用标签库; 将所述动态标签库、专用标签库和预设的通用标签库生成所述产品标签库。3.根据权利要求2所述的方法,其特征在于,所述根据输入的文本内容建立动态标签库,包括: 获取所述文本内容中的名词; 判断所述名词出现的频率次数是否大于预设阈值; 若所述名词出现的频率次数大于预设阈值,确定所述名词与所述专用标签库中的标签、通用标签库中的标签是否重复; 若所述名词与所述专用标签库中的标签、通用标签库中的标签不重复,将所述名词作为标签生成所述动态标签库。4.根据权利要求2所述的方法,其特征在于,根据所述文本内容对应的产品类别建立专用标签库; 根据所述文本内容对应的产品类别获取所述产品所属的自定义标签; 查找所述自定义标签的同义词、近义词; 将所述自定义标签、所述自定义标签的同义词、近义词生成所述文本内容的所述专用标签库。5.根据权利要求3所述的方法,其特征在于,所述获取所述文本内容中的名词,包括: 根据自定义词库对所述文本内容进行分词处理,得到所述文本内容的名词。6.根据权利要求1至5任一项所述的方法,其特征在于,根据所述文本内容获取口碑词修饰的主语,包括: 在所述文本内容中获取口碑词修饰的主语和/或隐含主语; 将所述主语与所述产品标签库中的标签进行匹配,包括: 将所述主语和/或隐含主语分别与所述产品标签库中的标签进行匹配。7.根据权利要求1至5任一项所述的方法,其特征在于,所述根据与所述主语相匹配的标签,生成反映所述文本内容中共性问题的结果标签树的步骤之前,所述方法还包括: 获取所述产品标签库中标签的扩展口碑词; 将所述扩展口碑词和与所述扩展口碑词对应的标签在所述文本内容中进行匹配; 根据与所述主语相匹配的标签,生成反映所述文本内容中共性问题的结果标签树,包括: 根据与所述主语相匹配的标签,以及所述扩展口碑词和所述扩展口碑词对应的标签的匹配结果,生成反映所述文本内容中共性问题的结果标签树。8.根据权利要求1至5任一项所述的方法,其特征在于,所述根据输入的文件内容建立产品标签库的步骤之后,还包括: 根据所述产品标签库中各标签之间的隶属关系,建立多层级标签树; 将所述主语与所述产品标签库中的标签进行匹配,包括: 将所述主语与所述多层级标签树中的底层标签进行匹配。9.根据权利要求8所述的方法,其特征在于,所述根据与所述主语相匹配的标签,生成反映所述文本内容中共性问题的结果标签树,包括: 若所述主语与所述底层标签相匹配,则在所述底层标签所属的位置进行记录; 将所述底层标签的记录结果反向拉取在所述多层级标签树中的上层标签所属的位置,得到反映所述文本中共性问题的结果标签树。10.根据权利要求2所述的方法,其特征在于,所述方法还包括: 若所述主语和所述标签不匹配,根据所述语义相似度和重要度计算规则获取所述主语的相似度和重要度; 若所述主语的相似度大于等于第一预设值,和/或所述主语的重要度大于等于第二预设值,将所述主语作为标签加入所述动态标签库。11.一种数据分析装置,其特征在于,包括: 产品标签库建立单元,用于根据输入的文本内容建立产品标签库; 主语获取单元,用于根据所述文本内容获取口碑词修饰的主语,所述口碑词是对所述文本内容进行分词处理,以及通过预存的词库对分词处理后达到预设频次的词语进行筛选得到的; 匹配单元,用于将所述主语获取单元获取的主语与所述产品标签库建立单元建立的产品标签库中的标签进行匹配; 结果标签树生成单元,用于根据所述匹配单元中与所述主语相匹配的标签,生成反映所述文本内容中共性问题的结果标签树。12.根据权利要求11所述的装置,其特征在于,所述产品标签库建立单元,用于 根据输入的文本内容建立动态标签库; 根据所述文本内容对应的产品类别建立专用标签库; 将所述动态标签库、专用标签库和预设的通用标签库生成所述产品标签库。13.根据权利要求12所述的装置,其特征在于,所述产品标签库建立单元,用于 获取所述文本内容中的名词; 判断所述名词出现的频率次数是否大于预设阈值; 若所述名词出现的频率次数大于预设阈值,确定所述名词与所述专用标签库中的标签、通用标签库中的标签是否重复; 若所述名词与所述专用标签库中的标签、通用标签库中的标签不重复,将所述名词作为标签生成所述动态标签库。14.根据权利要求12所述的装置,其特征在于,所述产品标签库建立单元,用于 根据所述文本内容对应的产品类别获取所述产品所属的自定义标签; 查找所述自定义标签的同义词、近义词; 将所述自定义标签、所述自定义标签的同义词、近义词生成所述文本内容的所述专用标签库。15.根据权利要求13所述的装置,其特征在于,所述产品标签库建立单元,用于 根据自定义词库对所述文本内容进行分词处理,得到所述文本内容的名词。16.根据权利要求11至15任一项所述的装置,其特征在于,所述主语获取单元,用于 在所述文本内容中获取口碑词修饰的主语和/或隐含主语; 所述匹配单元,用于 将所述主语获取单元获取的主语和/或隐含主语分别与所述产品标签库建立单元建立的产品标签库中的标签进行匹配。17.根据权利要求11至15任一项所述的装置,其特征在于,所述装置还包括: 扩展口碑词获取单元,用于获取所述产品标签库建立单元建立的产品标签库中的标签的扩展口碑词; 所述匹配单元,还用于将所述扩展口碑词获取单元获取的扩展口碑词和与所述扩展口碑词对应的标签在所述文本内容中进行匹配; 结果标签树生成单元,用于 根据与所述主语相匹配的标签,以及所述扩展口碑词和所述扩展口碑词对应的标签的匹配结果,生成反映所述文本内容中共性问题的结果标签树。18.根据权利要求11至15任一项所述的装置,其特征在于,所述装置还包括: 多层级标签树建立单元,用于根据所述产品标签库建立单元建立的产品标签库中各标签之间的隶属关系,建立多层级标签树; 所述匹配单元,用于将所述主语获取单元获取的主语与所述多层级标签树建立单元建立的多层级标签树中的底层标签进行匹配。19.根据权利要求18所述的装置,其特征在于,所述结果标签树生成单元,用于 若所述主语与所述底层标签相匹配,则在所述底层标签所属的位置进行记录; 将所述底层标签的记录结果反向拉取在所述多层级标签树中的上层标签所属的位置,得到反映所述文本中共性问题的结果标签树。20.根据权利要求12所述的装置,其特征在于,所述装置还包括: 主语相似度获取单元,用于根据所述匹配单元的匹配结果,在所述主语和所述标签不匹配时,根据所述语义相似度和重要度计算规则获取所述主语的相似度和重要度; 主语处理单元,用于在所述主语相似度获取单元获取的所述主语的相似度大于等于第一预设值,和/或所述主语的重要度大于等于第二预设值时,将所述主语作为标签加入所述动态标签库。
【专利摘要】本发明提供一种数据分析方法及数据分析装置,所述方法包括:根据输入的文本内容建立产品标签库;根据所述文本内容获取口碑词修饰的主语,所述口碑词为是对所述文本内容进行分词处理,以及通过预存的词库对分词处理后达到预设频次的词语进行筛选得到的;将所述主语与所述产品标签库中的标签进行匹配;根据与所述主语相匹配的标签,生成反映所述文本内容中共性问题的结果标签树。上述方法实时全面的收集评论内容,且简化现有的数据分析方式,提高数据分析的准确性。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105095288
【申请号】CN201410204300
【发明人】温春龙, 陈妍, 梁璟彪, 骆玘, 黄利贤, 樊中一, 吕虹, 刘敏
【申请人】腾讯科技(深圳)有限公司
【公开日】2015年11月25日
【申请日】2014年5月14日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1