数据分析方法及数据分析装置的制造方法_4

文档序号:9375676阅读:来源:国知局
本内容中遍历匹配,成功则与扩展口碑词对应的标签+1。
[0163]通常,多层级标签树匹配的过程是由标签树的底层而向上进行统计的,但是用户查看结果标签树的时候是自上而下即底层查看的,例如,查看“XX视频”一“性能”一“播放速度卡”,如图4B所示,此时用户需要查看此模块下具体的文本信息,就需要“拉取”匹配的结果(即为反向拉取)。
[0164]在本实施例中,系统可拉取匹配成功记录,标记文本位置,并做加亮或加重处理,在反向拉取之后,进而得到包含匹配结果的结果标签树。
[0165]在图4B中,各层标签后面的数字匹配成功的数目,即为此模块下共性问题的条数。可以看到XX视频负面反馈中,吐槽最集中的是功能(300)、设计(250)和性能(240)方面,详细分类结果也清晰可读。
[0166]应说明的是,底层标签可为各个分支的最下面的标签,如图4B中的速度、网速、联网、连网、加载等。若活动与广告下面不再有标签,则活动与广告也属于底层标签。
[0167]在本实施例中一负面口碑的共性问题进行举例说明。在其他实施例中,也可以通过上面流程,得到正面口碑下共性问题自动归类,本实施例不再详细说明。
[0168]可选地,在所述主语和所述标签不匹配时,根据所述语义相似度和重要度计算规则计算所述主语的相似度和重要度;
[0169]在所述主语的相似度大于等于第一预设值,和/或所述主语的重要度大于等于第二预设值时,将所述主语作为标签加入动态标签库。
[0170]也就是说,分析完负面口碑词修饰的主语之后,将主语与动态标签库进行匹配,记录匹配结果。若有主语未能匹配,则根据语义相似度和重要度计算规则,择优进入动态标签库。
[0171]上述实施例中的数据分析方法,可根据匹配结果,将同一类标签的结果归类合并,去重并统计结果。根据标签树逐层向上归类统计,直至全部标签完成,得到最后的结果标签树。
[0172]图5示出了本发明一实施例提供的数据分析装置的结构示意图,如图5所示,本实施例中的数据分析装置包括:产品标签库建立单元51、主语获取单元52、匹配单元53和结果标签树生成单元54 ;
[0173]其中,产品标签库建立单元51用于根据输入的批量文本内容建立产品标签库;
[0174]主语获取单元52用于根据所述批量文本内容获取口碑词修饰的主语,所述口碑词是对所述批量文本内容进行分词处理,以及通过预存的词库对分词处理后达到预设频次的词语进行筛选得到的;
[0175]匹配单元53用于将所述主语获取单元52获取的主语与所述产品标签库建立单元建立的产品标签库中的标签进行匹配;
[0176]结果标签树生成单元54用于根据所述匹配单元53中与所述主语相匹配的标签,生成反映所述批量文本内容中共性问题的结果标签树。
[0177]举例来说,前述的产品标签库建立单元51用于
[0178]根据输入的批量文本内容建立动态标签库;
[0179]根据所述批量文本内容对应的产品类别建立专用标签库;
[0180]将所述动态标签库、专用标签库和预设的通用标签库生成所述产品标签库。
[0181]在一种可选的应用场景中,前述的产品标签库建立单兀51用于
[0182]获取所述批量文本内容中的名词;例如,根据自定义词库对所述批量文本内容进行分词处理,得到所述批量文本内容的名词。
[0183]判断所述名词出现的频率次数是否大于预设阈值;
[0184]若所述名词出现的频率次数大于预设阈值,确定所述名词与所述专用标签库中的标签、通用标签库中的标签是否重复;
[0185]若所述名词与所述专用标签库中的标签、通用标签库中的标签不重复,将所述名词作为标签生成动态标签库。
[0186]在第二种可选的应用场景中,前述的产品标签库建立单元51还可用于
[0187]根据所述批量文本内容对应的产品类别获取所述产品所属的自定义标签;
[0188]查找所述自定义标签的同义词、近义词;
[0189]将所述自定义标签、所述自定义标签的同义词、近义词生成所述批量文本内容的专用标签库。
[0190]在第三种可选的应用场景中,所述主语获取单元52用于
[0191]在所述批量文本内容中获取口碑词修饰的主语和/或隐含主语;
[0192]所述匹配单元53用于
[0193]将所述主语获取单元获取的主语和/或隐含主语分别与所述产品标签库建立单元建立的产品标签库中的标签进行匹配。
[0194]在第四种可选的应用场景中,所述装置还可包括图6A中示出的扩展口碑词获取单元55:
[0195]扩展口碑词获取单元55用于获取所述产品标签库建立单元51建立的产品标签库中的标签的扩展口碑词;
[0196]所述匹配单元53还用于,将所述扩展口碑词获取单元55获取的扩展口碑词和与所述扩展口碑词对应的标签在所述批量文本内容中进行匹配;
[0197]结果标签树生成单元54用于
[0198]根据与所述主语相匹配的标签,以及所述扩展口碑词和所述扩展口碑词对应的标签的匹配结果,生成反映所述批量文本内容中共性问题的结果标签树。
[0199]在第五种可选的应用场景中,所述装置还可包括多层级标签树建立单元56,如图6B所示:
[0200]多层级标签树建立单元56用于根据所述产品标签库建立单元51建立的产品标签库中各标签之间的隶属关系,建立多层级标签树;
[0201]所述匹配单元53用于
[0202]用于将所述主语获取单元获取的主语与所述多层级标签树建立单元建立的多层级标签树中的底层标签进行匹配。
[0203]在第六种可选的应用场景中,所述结果标签树生成单元54用于
[0204]若所述主语与所述底层标签相匹配,则在所述底层标签所属的位置进行记录;
[0205]将所述底层标签的记录结果反向拉取在所述多层级标签树中的上层标签所属的位置,得到反映所述批量文本中共性问题的结果标签树。
[0206]也就是说,结果标签树生成单元54用于根据所述匹配单元53的匹配结果,在所述主语和所述标签匹配正确时,将匹配结果记录在所述多层级标签树中对应的底层标签的位置,以及
[0207]将所述底层标签的匹配成功结果反向拉取在所述多层级标签树中的上层标签的位置,得到反映所述批量文本中共性问题的结果标签树。
[0208]在第七种可选的应用场景中,所述装置还包括图中未示出的主语相似度获取单元57和主语处理单元58:
[0209]主语相似度获取单元57用于根据所述匹配单元53的匹配结果,在所述主语和所述标签不匹配时,根据所述语义相似度和重要度计算规则获取所述主语的相似度和重要度;
[0210]主语处理单元58,用于在所述主语相似度获取单元57获取的所述主语的相似度大于等于第一预设值,和/或所述主语的重要度大于等于第二预设值时,将所述主语作为标签加入动态标签库。
[0211]上述数据分析装置可以执行前述的图1至图3任一所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
[0212]上述实施例中的数据分析装置可体现了数据处理的智能化:根据数据特征自动判断数据的情感极性,并自动归类好评、差评的集中维度;高效率:一次配置定制后,所有流程都可自动化完成,大幅减少人力消耗;系统性:解决数据归类中,不同执行者主观标准差异和框架不全面的问题;即时性:敏锐的反馈产品的最新动态,支持实时结果展示。
[0213]本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:R0M、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0214]最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1