数据分析方法及数据分析装置的制造方法_3

文档序号：9375676阅读：来源：国知局

达形式(同类词或近义词)，像:页面、面板、外观、外型、布局、皮肤、桌面等，这是需要进行同义词归类。
[0118]例如，该步骤201还可包括下述的图中未示出的子步骤:
[0119]A2011、获取所述批量文本内容中的名词。
[0120]举例来说，根据产品和/或竞争产品的通用名词，通过汉语词法分析系统对批量文本进行分词处理，得到所述批量文本内容的名词和/或口碑词。
[0121]例如，可通过ICTCLAS系统提供的分词接口调用ICTCLAS内分词算法对批量文本内容进行分词处理。
[0122]ICTCLAS系统需要调用自定义词库。自定义词库包括具体的词语和词性标注，自定义词库相当于分词系统的一个子模块，在自定义词库的基础上，分词算法才能将一句话切分为不同的词语。自定义词库的全面性影响分词的准确性，自定义词库满足了可更新、可积累并契合微博语境/论坛的要求。
[0123]A2012、判断所述名词出现的频率次数是否大于预设阈值。
[0124]A2013、若所述名词出现的频率次数大于预设阈值，确定所述名词与所述专用标签库中的标签、通用标签库中的标签是否重复。
[0125]当然，在所述名词出现的频率次数小于等于预设阈值，可将该名词忽略或丢弃。
[0126]A2014、若所述名词与所述专用标签库中的标签、通用标签库中的标签不重复，所述名词作为标签生成动态标签库。
[0127]当然，在名词与专用标签库中的标签重复，则丢弃该名词。或者，在名词与通用标签库中的标签重复，则丢弃该名词。由此上述动态标签库和专用标签库、通用标签库中的各标签不重复。
[0128]在本实施例中，动态标签库中可为各名字组成的标签库。
[0129]202、根据所述批量文本内容对应的产品类别建立专用标签库。
[0130]举例来说，某一文本内容为“XX视频界面很垃圾”，则该文本内容对应的产品类别可为计算机内的界面类别，此时，专用标签库可为对应该界面类别的标签库，该标签库中可包括:界面、外观、布局、皮肤、桌面等标签。
[0131]专用标签可理解为针对某一文本内容所属的领域常用的名词等，专用标签库中的标签分别属于特定领域。
[0132]例如，该步骤202还可包括下述的图中未示出的子步骤:
[0133]A2021、根据所述批量文本内容对应的产品类别获取所述产品所属的自定义标签;
[0134]A2022、查找所述自定义标签的同义词、近义词；
[0135]例如，可根据词义相似规则查找自定义标签的同义词、近义词。
[0136]A2023、将所述自定义标签、所述自定义标签的同义词、近义词生成所述批量文本内各的专用标签库。
[0137]也就是说，由于产品类别的差异性，又需要针对不同产品建立自定义标签词库，以保证语义分析的精确度。例如，音乐类产品的用户关注“音质、资源、下载速度”等，而电商类的产品关注“价格、物流、服务态度”等，需要根据不同产品建立专用的标签库。
[0138]203、将所述动态标签库、专用标签库和预设的通用标签库生成所述广品标签库。
[0139]在本实施例中，通用标签库，又称为公共标签库，考虑到产品共性，需要建立通用标签词库，以节省时间和人力消耗。例如，在所有产品的用户反馈中，评论对象都会涉及到“bug、网速、界面、性能、收费”等标签，这些标签就具有公共属性，可加入通用标签库。
[0140]由于当前的通用标签库和专用标签库可以满足基本的覆盖面但不可能命中所有标签，由此,本实施例中还设置有动态标签库。通过上述步骤201至步骤203的方式组成的产品标签库可是具有实时性和全面性。
[0141 ] 204、根据所述产品标签库中各标签之间的隶属关系，建立多层级标签树。
[0142]产品标签库完善之后，需要建立产品标签库中各标签之间的层级关系或隶属关系，即建立多层级标签树。用户对某一产品的评论标签起始是包含不同维度的，如“整体、功能、设计、性能、内容资源、活动和广告”等。对于上述的大维度可能又可分为更细二级维度，如“性能”包括“闪退、死机、黑屏、播放速度卡、升级、安装问题”等，用户表述“播放速度卡”这个二级维度的时候，又会有不同的表达形式(同义词或同类词)，比如“速度、网速、联网、连网加载”等这些标签都会用来形容“播放速度”，这些标签位于底层标签库，就是用户口中表述的标签，如图4A所示。
[0143]205、在所述批量文本内容中获取口碑词修饰的主语和/或隐含主语。
[0144]举例来说，可根据预设的语法规则在所述批量文本内容中获取口碑词修饰的主语和/或隐含主语。
[0145]可以理解的是，该处获取隐含主语，可以是全部口碑词为基准进行获取，也可以采用部分口碑词为基准进行获取。
[0146]例如，分析一般负面口碑词修饰的主语:
[0147]提取负面微博中出现的负面口碑词，并分析负面口碑词修饰的主语，提取分析的主语。例如“XX视频的新版界面很垃圾”这一负面评价中，“垃圾”即为负面口碑词，其修饰的主语是“界面”，提取为“界面、垃圾”，当然根据主语的不同层次，可提取为(XX视频一新版一界面、垃圾)。
[0148]分析有隐含主语的负面口碑词:
[0149]有些负面评论中出现了负面口碑词，但并没有发现明显主语。如“XX视频外观很漂亮，但就是太卡顿了”，这一评论中“卡顿”被识别为负面口碑词，但其修饰的主语其实被隐藏了，用户表达的意思是XX视频的速度太卡顿。对于这种有实际指代含义的负面口碑词，若未能找到评论中明显主语，系统会自动调用相应主语库为其匹配，提取为(XX视频一速度，卡顿)。
[0150]206、获取产品标签库中标签的扩展口碑词。
[0151]举例来说，可采用词语共线规则或/和人工归类的方式获取标签的扩展口碑词。可理解的是，扩展口碑词不算是真正意义上的情感词，扩展口碑词只有和特有的标签搭配才有实际含义。如物流很“快”，“快”即为扩展口碑，只有和“物流”搭配才有实际情感含义。
[0152]应理解，词语共线规则是指计算两个词或字一同出现的概率的算法。
[0153]例如，分析负面扩展口碑词修饰的主语:
[0154]有些用户评论中并未出现明显的负面口碑词，但仍然表达负面情绪。如“XX视频的速度很慢，用流量也很快”，在这个评论中，“慢”和“快”都不是负面口碑词(若将其判为负面口碑词会出现大量误判)，但当这两个词和特定主语(标签)搭配在一起的时候，会表达出负面情感。此时需要建立负面扩展口碑词库和对应有意义的语法规则，分析这一类情况，提取为(速度、慢)，(流量、快)。
[0155]207、将所述主语和/或隐含主语分别与所述多层级标签树中的底层标签进行匹配，以及将所述扩展口碑词和与所述扩展口碑词对应的标签在所述批量文本内容中进行匹配。
[0156]在本实施例中，扩展口碑和口碑词(即普通口碑词)可为并列级别，这些扩展口碑只有和特有标签(如多层级标签树中的底层标签)搭配，才能有实际意义。
[0157]扩展口碑词是对应产品标签库中的标签获取的，也就是说，扩展口碑词修饰的主语已经定了。扩展口碑的主语其实就是标签，进而需要在批量文本中匹配“标签+扩展口碑“的正确的数量。
[0158]208、根据与所述主语相匹配的标签如底层标签，以及所述扩展口碑词和所述扩展口碑词对应的标签的匹配结果，生成反映所述批量文本内容中共性问题的结果标签树。
[0159]例如，若所述主语与所述底层标签相匹配，则在所述底层标签所属的位置进行记录，以及
[0160]在扩展口碑词和与所述扩展口碑词对应的标签与批量文本内容匹配时，将所述扩展口碑词对应的标签所属的位置进行记录；
[0161]进而可将所述底层标签的记录结果反向拉取在所述多层级标签树中的上层标签所属的位置，得到包含匹配结果的结果标签树。
[0162]也就是说，在本实施例中，首先在批量文本中发现口碑词，寻找口碑词修饰主语，若找到则主语匹配多层级标签树中的底层标签，成功则底层标签+1 ;若没有找到，则可寻找口碑词的隐含主语，然后隐含主语匹配底层标签，成功则底层标签+1。以此同时，“扩展口碑词+标签”在批量文

完整全部详细技术资料下载

当前第3页1 2 3 4 5