数据分析方法及数据分析装置的制造方法_2

文档序号：9375676阅读：来源：国知局

所述文本内容的所述专用标签库。
[0067]结合第二方面的第二种可能的实现方式，在第四种可能的实现方式中，所述产品标签库建立单元，用于
[0068]根据自定义词库对所述文本内容进行分词处理，得到所述文本内容的名词。
[0069]结合第二方面及第二方面的上述可能的实现方式，在第五种可能的实现方式中，所述主语获取单元，用于
[0070]在所述文本内容中获取口碑词修饰的主语和/或隐含主语；
[0071]所述匹配单元，用于
[0072]将所述主语获取单元获取的主语和/或隐含主语分别与所述产品标签库建立单元建立的产品标签库中的标签进行匹配。
[0073]结合第二方面及第二方面的第一至第四种可能的实现方式，在第六种可能的实现方式中，所述装置还包括:
[0074]扩展口碑词获取单元，用于获取所述产品标签库建立单元建立的产品标签库中的标签的扩展口碑词；
[0075]所述匹配单元，还用于
[0076]将所述扩展口碑词获取单元获取的扩展口碑词和与所述扩展口碑词对应的标签在所述文本内容中进行匹配；
[0077]结果标签树生成单元，用于
[0078]根据与所述主语相匹配的标签，以及所述扩展口碑词和所述扩展口碑词对应的标签的匹配结果，生成反映所述文本内容中共性问题的结果标签树。
[0079]结合第二方面及第二方面的第一至第四种可能的实现方式，在第七种可能的实现方式中，所述装置还包括:
[0080]多层级标签树建立单元，用于根据所述产品标签库建立单元建立的产品标签库中各标签之间的隶属关系，建立多层级标签树；
[0081]所述匹配单元，用于
[0082]用于将所述主语获取单元获取的主语与所述多层级标签树建立单元建立的多层级标签树中的底层标签进行匹配。
[0083]结合第二方面的第七种可能的实现方式，在第八种可能的实现方式中，所述结果标签树生成单元，用于
[0084]若所述主语与所述底层标签相匹配，则在所述底层标签所属的位置进行记录；
[0085]将所述底层标签的记录结果反向拉取在所述多层级标签树中的上层标签所属的位置，得到反映所述文本中共性问题的结果标签树。
[0086]结合第二方面的第一种可能的实现方式，在第九种可能的实现方式中，所述装置还包括:
[0087]主语相似度获取单元，用于根据所述匹配单元的匹配结果，在所述主语和所述标签不匹配时，根据所述语义相似度和重要度计算规则获取所述主语的相似度和重要度；
[0088]主语处理单元，用于在所述主语相似度获取单元获取的所述主语的相似度大于等于第一预设值，和/或所述主语的重要度大于等于第二预设值时，将所述主语作为标签加入所述动态标签库。
[0089]由上述技术方案可知，本发明实施例的数据分析方法及数据分析装置，通过建立全面的产品标签库，进而获取口碑词修饰的主语，将主语与产品标签库中的标签进行匹配，在所述主语与所述标签向匹配时，生成反映共性问题的结果标签树，可以实现实时全面的收集文本内容中的评论内容，且简化现有的数据分析方式，且提高数据分析的准确性。
【附图说明】
[0090]图1为本发明一实施例提供的数据分析方法的流程示意图；
[0091]图2为本发明另一实施例提供的数据分析方法的流程示意图；
[0092]图3为本发明一实施例提供的多层级标签树生成的示意图；
[0093]图4A为本发明一实施例提供的多层级标签树的示意图；
[0094]图4B为本发明一实施例提供的结果标签树的示意图；
[0095]图5为本发明一实施例提供的数据分析装置的结构示意图；
[0096]图6A和图6B为本发明另一实施例提供的数据分析装置的结构示意图。
【具体实施方式】
[0097]在本发明实施例中，标签是指用户在评论该产品时的具体评论对象。如“XX视频的新版界面很垃圾”，用户的具体评论对象为“界面”，“界面” 一词构成一个标签。
[0098]本发明实施例提供一种自动化定位产品正负面口碑集中维度的数据分析方法及数据分析装置，主要解决以下问题:判断用户评论的情感极性(正面、负面、中性)，动态地将不同情感极性下的共性问题自动归类，统计并排序，分主次和多层次展示用户反馈的好评、差评、讨论热点集中在产品哪些方面，并追踪变化趋势。举例来说，本发明实施例的数据分析方法可实现如下:
[0099]第一、定位影响口碑的主要维度:通过获取大量的用户反馈(微博、第三方应用市场、论坛)和正负面口碑词，自动、实时、全面地分析出产品正负面口碑集中在哪些维度，通过语义分析深度挖掘影响用户口碑的深层原因，帮助产品快速定位主要差评点和问题点，帮助产品明确改进方面。
[0100]第二、分析产品各维度口碑变化:自动分析产品各个维度口碑和变化趋势，如新版发布前后口碑对比、产品新功能口碑、界面设计维度口碑变化，以视觉的突变直观展示。产品团队内负责不同模块的员工，关注的重点也不相同，如开发可能侧重关注性能，设计可能侧重关注界面和风格，细化产品每一维度口碑变化，满足不同关注方需求。
[0101]第三、归类反馈热点:分析用户评论热点，通过归并同义词、近义词，模块化归并用户反馈热点，使归类结果更具准确性和实用性。
[0102]图1示出了本发明一实施例提供的数据分析方法的流程示意图，如图1所示，本实施例的数据分析方法如下所述。
[0103]101、根据输入的批量文本内容建立产品标签库。
[0104]举例来说，本实施例中的产品标签库可包括动态标签库、专用标签库和通用标签库。
[0105]其中，动态标签库是根据输入的批量文本内容建立的，专用标签库是根据所述批量文本内容对应的产品类别建立的。
[0106]通用标签库可为提前人工归类增加的。
[0107]102、根据所述批量文本内容获取口碑词修饰的主语。
[0108]举例来说，口碑词可是对所述文本内容进行分词处理，以及通过预存的词库对分词处理后达到预设频次的词语进行筛选得到的。
[0109]可理解的是，通过应用程序编程接口(Applicat1n Program Interface,简称API)或网络爬虫抓取微博和/或论坛采集用户评论的与产品(包括产品的名称、系列别名或部分重点功能块的名称)相关的原始信息(对应上述的批量文本内容)，对原始信息进行清洗后可采用现有的中文词法分析口碑趋势，统计正面或负面口碑词。
[0110]举例来说，对原始信息进行清洗可理解为对原始信息去除重复和无效的信息，即对原始数据进行过滤处理，进而对过滤处理后的信息可采用汉语词法分析系统行分词处理，进而通过预存的词库对分词处理后的词语分析口碑趋势，并筛选。
[0111]103、将所述主语与所述产品标签库中的标签进行匹配。
[0112]104、根据与所述主语相匹配的标签，生成反映所述批量文本内容中共性问题的结果标签树,如图4B所示。
[0113]本实施例的数据分析方法，通过建立全面的产品标签库，进而获取口碑词修饰的主语，将主语与产品标签库中的标签进行匹配，在所述主语与所述标签向匹配时，生成反映共性问题的结果标签树，可以实现实时全面的收集批量文本内容中的评论内容，且简化现有的数据分析方式，且提高数据分析的准确性。
[0114]图2示出了本发明一实施例提供的数据分析方法的流程示意图，图3示出了本发明一实施例提供的多层级标签树生成的示意图，如图2和图3所示，本实施例的数据分析方法如下所述。
[0115]201、根据输入的批量文本内容建立动态标签库。
[0116]不同时期，用户评价的热点可能转移或出现新的标签，需要建立动态标签库以保证实时和准确需求。例如，XX音乐新推出一项功能叫“听歌识曲”，迅速成为用户的关注热点，但“听歌识曲”这一标签并未包含在已有的标签库中，此时需要添加新标签甄别和添加机制，以保证标签库的完备性和实时性。动态标签可理解为某一时期出现的热词或者新词坐寸ο
[0117]建立标签库的过程中，可借助词义相似度/近义词发现等算法，进一步完善标签全面性。例如“界面”这个标签，在用户评价中会有类似的表

完整全部详细技术资料下载

当前第2页1 2 3 4 5