评价信息的提取方法及装置、存储介质、计算机设备与流程

文档序号:19156111发布日期:2019-11-16 00:48阅读:来源:国知局

技术特征:

1.一种评价信息的提取方法,其特征在于,包括:

从存储于业务交易管理系统的评价语句数据库中提取评价语句;

通过hanlp库对所述评价语句进行中文分词,以及对分词后的词语按照词性、语法进行标记,所述词性标记包括主语标记、谓语标记、宾语标记、状语标记;

根据隶属规则判断标记后的词语是否存在隶属关系,所述隶属规则为根据词语之间的语法组合关系确定是否为复合词语的规则;

若存在所述隶属关系,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记;

提取组合后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

2.根据权利要求1所述的方法,其特征在于,所述通过hanlp库对所述评价语句进行中文分词,以及对分词后的词语按照词性、语法进行标记包括:

通过hanlp库对所述评价语句进行中文分词,解析分词后所述评价语句的语句类型,所述语句类型包括简单句类型、复杂句类型;

若所述评价语句为简单句类型,则按照词性、语法标记所述评价语句中简单句式的词语;和/或,

若所述评价语句为复杂句类型,则按照语法规则从所述评价语句中拆分属于复杂句式中的简单句式,并按照词性、语法标记不同简单句式中的词语。

3.根据权利要求2所述的方法,其特征在于,所述隶属规则包括主语隶属规则、宾语隶属规则、状语隶属规则、定语隶属规则,所述根据隶属规则判断标记后的词语是否存在隶属关系包括:

读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的主语词语,按照所述主语隶属规则判断所述主语词语是否存在主语隶属关系,所述主语隶属规则为判断主语名词、和/或定语名词是否组合的规则;和/或,

读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的宾语词语,按照所述宾语隶属规则判断所述宾语词语是否存在宾语隶属关系,所述宾语隶属规则为判断宾语形容词、和/或宾语副词是否组合的规则;和/或,

读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的状语词语,按照所述状语隶属规则判断所述状语词语是否存在状语隶属关系,所述状语隶属规则为判断状语名词、和/或状语形容词、和/或状语副词是否组合的规则;和/或,

读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的定语词语,按照所述定语隶属规则判断所述定语词语是否存在定语隶属关系,所述定语隶属规则为判断定语形容词、和/或定语副词、和/或定语名词是否组合的规则。

4.根据权利要求3所述的方法,其特征在于,所述若存在所述隶属关系,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记包括:

若存在主语隶属关系,则将所述主语词语中的主语名词、和/或定语名词组合为主语标识对应的词语;和/或,

若存在宾语隶属关系,则将所述宾语词语中的宾语形容词、和/或宾语副词组合为宾语标识对应的词语;和/或,

若存在状语隶属关系,则将所述状语词语中的状语名词、和/或状语形容词、和/或状语副词组合为状语标识对应的词语;和/或,

若存在定语隶属关系,则将所述定语词语中的定语形容词、和/或定语副词、和/或定语名词组合为定语标识对应的词语。

5.根据权利要求3所述的方法,其特征在于,所述根据隶属规则判断所述标记后的词语是否存在隶属关系之后,所述方法还包括:

若不存在所述主语隶属关系、和/或宾语隶属关系、和/或状语隶属关系、和/或定语隶属关系,则提取标记后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法之后,还包括:

按照k-means算法对所述评价信息进行聚类,并将聚类后的评价信息更新至归一化评价表中,所述归一化评价表中存储有不同保险业务类型分别对应的评价信息。

7.根据权利要求6所述的方法,其特征在于,所述按照k-means算法对所述评价信息进行聚类包括:

提取所述评价信息,通过word2vec算法将所述评价信息转换为词向量,得到词向量矩阵;

将所述词向量矩阵确定为k-mean算法的输入样本参数,通过运算所述k-mean算法得到归一化后的分类结果;

将所述分类结果按照所述评价语句处于所述业务交易管理系统中的保险业务类型存储至归一化评价表中。

8.一种评价信息的提取装置,其特征在于,包括:

提取模块,用于从存储于业务交易管理系统的评价语句数据库中提取评价语句;

标记模块,用于通过hanlp库对所述评价语句进行中文分词,以及对分词后的词语按照词性、语法进行标记,所述词性标记包括主语标记、谓语标记、宾语标记、状语标记;

判断模块,用于根据隶属规则判断标记后的词语是否存在隶属关系,所述隶属规则为根据词语之间的语法组合关系确定是否为复合词语的规则;

组合模块,用于若存在所述隶属关系,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记;

确定模块,用于提取组合后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

9.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的评价信息的提取方法对应的操作。

10.一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的评价信息的提取方法对应的操作。


技术总结
本发明公开了一种评价信息的提取方法及装置、存储介质、计算机设备,涉及数据处理技术领域,主要目的在于解决现有仅仅将名词、形容词作为评价信息标注,使得无法从完整语句中准确找到符合实际意义的评价信息,精度较低,从而降低评价信息的提取效率的问题。主要包括:从存储于业务交易管理系统的评价语句数据库中提取评价语句;通过HanLP库对所述评价语句进行中文分词,以及对分词后的词语按照词性、语法进行标记;根据隶属规则判断标记后的词语是否存在隶属关系;若存在,则将所述存在隶属关系的词语进行组合,并按照词性进行标记;提取组合后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

技术研发人员:金戈;徐亮
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2019.06.26
技术公布日:2019.11.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1