评价信息的提取方法及装置、存储介质、计算机设备与流程

文档序号:19156111发布日期:2019-11-16 00:48阅读:185来源:国知局
评价信息的提取方法及装置、存储介质、计算机设备与流程

本发明涉及一种数据处理技术领域,特别是涉及一种评价信息的提取方法及装置、存储介质、计算机设备。



背景技术:

为了提高用户对购买保险产品的了解情况,保险企业会通过保险问卷形式对用户进行回访,以掌握用户的相关情况。其中,保险问卷调查中用户会通过文字输入对某些产品、或行为等信息的评价语句,例如,大病保险针对特定人群是非常有用的保险,针对此类的语句,技术人员在进行提取时,只希望得到“大病保险、有用”等具有评价意义的信息,因此,需要提取评价语句中的评价信息。

目前,现有根据正则表达式,又称规则表达式来进行提取,例如,为名词或名词短语的词语属性,作为评价词语时一般为形容词或成语,即在进行评价信息提取时,需要把语句进行词性标注,提取出名词与形容词,得到评价信息。但是,仅仅将名词、形容词作为评价信息标注,使得无法从完整语句中准确找到符合实际意义的评价信息,精度较低,从而降低评价信息的提取效率。



技术实现要素:

有鉴于此,本发明提供一种评价信息的提取方法及装置、存储介质、计算机设备,主要目的在于解决现有仅仅将名词、形容词作为评价信息标注,使得无法从完整语句中准确找到符合实际意义的评价信息,精度较低,从而降低评价信息的提取效率的问题。

依据本发明一个方面,提供了一种评价信息的提取方法,包括:

从存储于业务交易管理系统的评价语句数据库中提取评价语句;

通过hanlp库对所述评价语句进行中文分词,以及对分词后的词语按照词性、语法进行标记,所述词性标记包括主语标记、谓语标记、宾语标记、状语标记;

根据隶属规则判断标记后的词语是否存在隶属关系,所述隶属规则为根据词语之间的语法组合关系确定是否为复合词语的规则;

若存在所述隶属关系,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记;

提取组合后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

进一步地,所述通过hanlp库对所述评价语句进行中文分词,以及对分词后的词语按照词性、语法进行标记包括:

通过hanlp库对所述评价语句进行中文分词,解析分词后所述评价语句的语句类型,所述语句类型包括简单句类型、复杂句类型;

若所述评价语句为简单句类型,则按照词性、语法标记所述评价语句中简单句式的词语;和/或,

若所述评价语句为复杂句类型,则按照语法规则从所述评价语句中拆分属于复杂句式中的简单句式,并按照词性、语法标记不同简单句式中的词语。

进一步地,所述隶属规则包括主语隶属规则、宾语隶属规则、状语隶属规则、定语隶属规则,所述根据隶属规则判断标记后的词语是否存在隶属关系包括:

读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的主语词语,按照所述主语隶属规则判断所述主语词语是否存在主语隶属关系,所述主语隶属规则为判断主语名词、和/或定语名词是否组合的规则;和/或,

读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的宾语词语,按照所述宾语隶属规则判断所述宾语词语是否存在宾语隶属关系,所述宾语隶属规则为判断宾语形容词、和/或宾语副词是否组合的规则;和/或,

读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的状语词语,按照所述状语隶属规则判断所述状语词语是否存在状语隶属关系,所述状语隶属规则为判断状语名词、和/或状语形容词、和/或状语副词是否组合的规则;和/或,

读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的定语词语,按照所述定语隶属规则判断所述定语词语是否存在定语隶属关系,所述定语隶属规则为判断定语形容词、和/或定语副词、和/或定语名词是否组合的规则。

进一步地,所述若存在所述隶属关系,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记包括:

若存在主语隶属关系,则将所述主语词语中的主语名词、和/或定语名词组合为主语标识对应的词语;和/或,

若存在宾语隶属关系,则将所述宾语词语中的宾语形容词、和/或宾语副词组合为宾语标识对应的词语;和/或,

若存在状语隶属关系,则将所述状语词语中的状语名词、和/或状语形容词、和/或状语副词组合为状语标识对应的词语;和/或,

若存在定语隶属关系,则将所述定语词语中的定语形容词、和/或定语副词、和/或定语名词组合为定语标识对应的词语。

进一步地,所述根据隶属规则判断所述标记后的词语是否存在隶属关系之后,所述方法还包括:

若不存在所述主语隶属关系、和/或宾语隶属关系、和/或状语隶属关系、和/或定语隶属关系,则提取标记后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

进一步地,所述方法之后,还包括:

按照k-means算法对所述评价信息进行聚类,并将聚类后的评价信息更新至归一化评价表中,所述归一化评价表中存储有不同保险业务类型分别对应的评价信息。

进一步地,所述按照k-means算法对所述评价信息进行聚类包括:

提取所述评价信息,通过word2vec算法将所述评价信息转换为词向量,得到词向量矩阵;

将所述词向量矩阵确定为k-mean算法的输入样本参数,通过运算所述k-mean算法得到归一化后的分类结果;

将所述分类结果按照所述评价语句处于所述业务交易管理系统中的保险业务类型存储至归一化评价表中。

依据本发明另一个方面,提供了一种评价信息的提取装置,包括:

提取模块,用于从存储于业务交易管理系统的评价语句数据库中提取评价语句;

标记模块,用于通过hanlp库对所述评价语句进行中文分词,以及对分词后的词语按照词性、语法进行标记,所述词性标记包括主语标记、谓语标记、宾语标记、状语标记;

判断模块,用于根据隶属规则判断标记后的词语是否存在隶属关系,所述隶属规则为根据词语之间的语法组合关系确定是否为复合词语的规则;

组合模块,用于若存在所述隶属关系,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记;

确定模块,用于提取组合后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

进一步地,所述标记模块包括:

解析单元,用于通过hanlp库对所述评价语句进行中文分词,解析分词后所述评价语句的语句类型,所述语句类型包括简单句类型、复杂句类型;

第一标记单元,用于若所述评价语句为简单句类型,则按照词性、语法标记所述评价语句中简单句式的词语;和/或,

第二标记单元,用于若所述评价语句为复杂句类型,则按照语法规则从所述评价语句中拆分属于复杂句式中的简单句式,并按照词性、语法标记不同简单句式中的词语。

进一步地,所述隶属规则包括主语隶属规则、宾语隶属规则、状语隶属规则、定语隶属规则,所述判断模块包括:

第一判断单元,用于读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的主语词语,按照所述主语隶属规则判断所述主语词语是否存在主语隶属关系,所述主语隶属规则为判断主语名词、和/或定语名词是否组合的规则;和/或,

第二判断单元,用于读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的宾语词语,按照所述宾语隶属规则判断所述宾语词语是否存在宾语隶属关系,所述宾语隶属规则为判断宾语形容词、和/或宾语副词是否组合的规则;和/或,

第三判断单元,用于读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的状语词语,按照所述状语隶属规则判断所述状语词语是否存在状语隶属关系,所述状语隶属规则为判断状语名词、和/或状语形容词、和/或状语副词是否组合的规则;和/或,

第四判断单元,用于读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的定语词语,按照所述定语隶属规则判断所述定语词语是否存在定语隶属关系,所述定语隶属规则为判断定语形容词、和/或定语副词、和/或定语名词是否组合的规则。

进一步地,所述组合模块包括:

第一组合单元,用于若存在主语隶属关系,则将所述主语词语中的主语名词、和/或定语名词组合为主语标识对应的词语;和/或,

第二组合单元,用于若存在宾语隶属关系,则将所述宾语词语中的宾语形容词、和/或宾语副词组合为宾语标识对应的词语;和/或,

第三组合单元,用于若存在状语隶属关系,则将所述状语词语中的状语名词、和/或状语形容词、和/或状语副词组合为状语标识对应的词语;和/或,

第四组合单元,用于若存在定语隶属关系,则将所述定语词语中的定语形容词、和/或定语副词、和/或定语名词组合为定语标识对应的词语。

进一步地,所述确定模块,还用于若不存在所述主语隶属关系、和/或宾语隶属关系、和/或状语隶属关系、和/或定语隶属关系,则提取标记后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

进一步地,所述装置还包括:

聚类模块,用于按照k-means算法对所述评价信息进行聚类,并将聚类后的评价信息更新至归一化评价表中,所述归一化评价表中存储有不同保险业务类型分别对应的评价信息。

进一步地,所述聚类模块包括:

转换单元,用于提取所述评价信息,通过word2vec算法将所述评价信息转换为词向量,得到词向量矩阵;

运算单元,用于将所述词向量矩阵确定为k-mean算法的输入样本参数,通过运算所述k-mean算法得到归一化后的分类结果;

存储单元,用于将所述分类结果按照所述评价语句处于所述业务交易管理系统中的保险业务类型存储至归一化评价表中。

根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述评价信息的提取方法对应的操作。

根据本发明的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述评价信息的提取方法对应的操作。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明提供了一种价信息的提取方法及装置、存储介质、计算机设备,与现有技术仅仅将名词、形容词作为评价信息标注相比,本发明实施例通过将获取到的评价语句通过hanlp库对进行中文分词,将分词后的词语按照词性与语法进行标记,并利用隶属规则判断是否存在隶属关系,若存在,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记,将主语标记、谓语标记、宾语标记、状语标记分别对应的词语作为评价信息,实现从评价语句中提取出具有完整语句意义的评价信息,提高评价信息的准确性,从而提高评价信息的语义准确性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种评价信息的提取方法流程图;

图2示出了本发明实施例提供的另一种评价信息的提取方法流程图;

图3示出了本发明实施例提供的自编码算法结构示意图;

图4示出了本发明实施例提供的一种评价信息的提取装置组成框图;

图5示出了本发明实施例提供的另一种评价信息的提取装置组成框图;

图6示出了本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种评价信息的提取方法,如图1所示,该方法包括:

101、从存储于业务交易管理系统的评价语句数据库中提取评价语句。

其中,由于评价语句为通过业务交易管理系统的问卷调查获取用户录入的评价语句,如保险问卷调查中的评价语句。而在获取用户录入的评价语句时,通过后台系统直接将评价语句存储至评价语句数据库中,因此,评价语句数据库中存储了大量的、不同用户录入的评价语句。

需要说明的是,从存储在业务交易管理系统的评价语句数据库中提取的评价语句为待进行评价信息提取的评价语句,且获取的评价语句为文字。

102、通过hanlp库对所述评价语句进行中文分词,以及对分词后的词语按照词性、语法进行标记。

其中,所述hanlp库为具有中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换等语句分析功能的语料分析库,可以准确的对评价语句中的各类词语、句型进行解析分类,得到需要进行标记的词语。所述词性标记包括主语标记、谓语标记、宾语标记、状语标记,例如,对“保险产品赔付非常及时”的评价语句利用hanlp库进行中分分析后,得到“保险”、“产品”为名词,“赔付”为动词,“非常”、“及时”为形容词。

需要说明的是,对分词后的各个词语进行标记时,按照各个词性、语法标记为不同标识对应的词语,例如,主语名词词语标记为s-n,宾语形容词词语标记为o-adj,谓语动词词语标记为p-v等,本发明实施例不做具体限定。

103、根据隶属规则判断标记后的词语是否存在隶属关系。

其中,所述隶属规则为根据词语之间的语法组合关系确定是否为复合词语的规则,所述语法组合关系为名词与名词之间的主语关系,形容词与形容词之间的宾语关系、形容词与副词之间的宾语关系、副词与副词之间的宾语关系,名词与形容词或副词之间的状语关系,名词与名词之间的定语关系、名词与形容词之间的定语关系、形容词与副词之间的定语关系等。所述复合词语为根据单个名词、形容词、副词组合成的主语词语、宾语词语、定语词语、状语词语等。另外,由于作为主语的词语、或作为宾语的词语、作为定语的词语、作为状语的词语为多个,需要按照隶属关系确定出哪个词语可以作为真正的主语、宾语、定语、状语,即隶属关系为词语之间存在的连带关系,例如,词语“保险”、“项目”均为名词,可以按照名词与名词之间的隶属关系确定出“保险项目”为主语名词,本发明实施例不做具体限定。

需要说明的是,所述隶属规则包括主语隶属规则、宾语隶属规则、状语隶属规则、定语隶属规则,主语隶属规则用于判断名词与名词之间是否可以组合成为具有隶属关系的主语,宾语隶属规则用于判断形容词与形容词之间、形容词与副词之间、副词与副词之间是否可以组合成为具有隶属关系的宾语,状语隶属规则用于判断名词与形容词或副词之间是否可以组合成为具有隶属关系的状语,定语隶属规则用于判断名词与名词之间、名词与形容词之间、形容词与副词是否可以组合成为具有隶属关系的定语。

104、若存在所述隶属关系,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记。

例如,“少儿”为单个名词,“保险”为单个名词,在通过隶属规则中判断出名词“少儿”隶属于名词“保险”,即可以将“少儿保险”确定为组合后的复合词语。

需要说明的是,在组合过程中将可以进行组合的词语对应的标记一起进行组合,根据组合后复合词语处于语句中的语法关系,确定组合后的标记,例如,少儿、保险的标识均为s-n,组合后的确定为主语词语,标记为n,本发明实施例不做具体限定。

105、提取组合后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

对于本发明实施例,由于评价信息为评价语句中属于主语、谓语、宾语、状语的形成的信息,因此,根据标记有主语标记、谓语标记、宾语标记、状语标记的词语,确定为评价信息。

本发明提供了一种价信息的提取方法,与现有技术仅仅将名词、形容词作为评价信息标注相比,本发明实施例通过将获取到的评价语句通过hanlp库对进行中文分词,将分词后的词语按照词性与语法进行标记,并利用隶属规则判断是否存在隶属关系,若存在,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记,将主语标记、谓语标记、宾语标记、状语标记分别对应的词语作为评价信息,实现从评价语句中提取出具有完整语句意义的评价信息,提高评价信息的准确性,从而提高评价信息的语义准确性。

本发明实施例提供了另一种评价信息的提取方法,如图2所示,该方法包括:

201、从存储于业务交易管理系统的评价语句数据库中提取评价语句。

本步骤与图1所示的步骤101方法相同,在此不再赘述。

202、通过hanlp库对所述评价语句进行中文分词,解析分词后所述评价语句的语句类型。

对于本发明实施例,由于评价语句的句型通过hanlp库进行分词时,存在多个动词、名词、形容词等词语的情况,为了便于对语句中各个词语的隶属关系进行判断,需要根据语法解析分词后评价语句的语句类型,所述语句类型包括简单句类型、复杂句类型,简单句类型为包含有一套主语、谓语、宾语、补语、定语、状语的语句,复杂句类型为包含有主语从句、谓语从句、宾语从句、定语从句等语句,还可以包括一个长句中含有多个短句的语句,本发明实施例不做具体限定。

203a、若所述评价语句为简单句类型,则按照词性、语法标记所述评价语句中简单句式的词语。

其中,所述语法即按照主、谓、宾进行标记,所述词性即为名词、形容词、动词等进行标记,本发明实施例不做具体限定。例如,“少儿保险是非常好的保险产品”,“少儿”、“保险”分别标记为主语名词s-n,“是”标记为谓语动词p-v,“非常”标记为定语副词a-adv、“好的”标记为定语形容词a-adj,“保险”、“产品”分别标记为宾语名词o-n。

203b、若所述评价语句为复杂句类型,则按照语法规则从所述评价语句中拆分属于复杂句式中的简单句式,并按照词性、语法标记不同简单句式中的词语。

其中,所述语法规则为按照复杂语句中各个从句拆分出仅对应一套主谓宾的语句规则,例如,“小明购买理财产品能够获取更大的收益”中,“小明购买理财产品”为主语从句,拆分出来的简单句式为“xx能够获取更大的收益”及“小明购买理财产品”,然后通过词性、语法标记上述2个简单句中的词语,所述语法即按照主、谓、宾进行标记,所述词性即为名词、形容词、动词等进行标记,本发明实施例不做具体限定。

204a、读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的主语词语,按照所述主语隶属规则判断所述主语词语是否存在主语隶属关系。

其中,所述主语隶属规则为判断主语名词、和/或定语名词是否组合的规则,本实施例中,主语隶属规则具体可以为:首先确定主语词语中可以作为定语的名词,此类名词可以利用hanlp库中的依存句法分析确定哪个名词是定语名词,进行删除,删除定语名词后的主语词语与调查问卷系统中存储的所有语句的主语词语进行对比,若删除定语名词后的主语词语出现的次数小于未删除定语名词后的主语词语出现次数的预设倍数,则删除定语名词后的主语词语不能作为单独的主语词语,定语名词与删除定语名词后的主语词语存在主语隶属关系,即定语名词隶属于主体词语进行合并,预设倍数可以为2倍,也可以为5倍等,本发明实施例不做具体限定。如“保险产品”中,“保险”为定语名词,通过判断“产品”在调查问卷中出现的次数小于“保险产品”在调查问卷系统中出现的2倍,则“保险”隶属于“产品”。

对于本发明实施例,步骤204a之后的步骤205a、若存在主语隶属关系,则将所述主语词语中的主语名词、和/或定语名词组合为主语标识对应的词语。

当判断出存在主语隶属关系,则将主语名词、和/或定语名词进行组合,例如,将“保险”与“产品”进行组合,得到的词语“保险产品”标注为主语标识。

对于本发明实施例,与步骤204a并列的步骤204b、读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的宾语词语,按照所述宾语隶属规则判断所述宾语词语是否存在宾语隶属关系。

其中,所述宾语隶属规则为判断宾语形容词、和/或宾语副词是否组合的规则,本实施例中,宾语隶属规则具体可以为:按照hanlp库中句法分析中当形容词、和/或副词不属于同一个词语分类时,利用形容词与副词之间的常用方式进行确定形容词、和/或副词是否可以组合,若属于同一个词语分类时,不进行组合,词语分类为根据词语意义进行划分的类别,如“及时”为修饰时间的,“非常”是修饰程度的等等,“好、高、棒”属于同一类,“非常与特别、很”属于同一类,不做具体限定。例如,中文语句的常用方式中存在“非常及时”,不存在“及时非常”,且“非常”与“及时”部署于同一个词语分类中,因此,“及时”隶属于“非常”,因此,非常隶属于及时,存在宾语隶属关系。

对于本发明实施例,步骤204b之后的步骤205b、若存在宾语隶属关系,则将所述宾语词语中的宾语形容词、和/或宾语副词组合为宾语标识对应的词语。

当判断出存在宾语隶属关系,则将形容词、和/或副词进行组合,例如,将“非常”与“及时”进行组合,得到的词语“非常及时”标注为宾语标识。

对于本发明实施例,与步骤204a并列的步骤204c、读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的状语词语,按照所述状语隶属规则判断所述状语词语是否存在状语隶属关系。

其中,所述状语隶属规则为判断状语名词、和/或状语形容词、和/或状语副词是否组合的规则,本实施例中,状语隶属规则具体可以为:按照hanlp库中句法分析中当名词、和/或形容词、和/或副词不属于同一个词语分类时,利用名词、和/或形容词、和/或副词之间的常用方式进行确定名词、和/或形容词、和/或副词是否可以组合,若属于同一个词语分类时,不进行组合,词语分类为根据词语意义进行划分的类别。

对于本发明实施例,步骤204c之后的步骤205c、若存在状语隶属关系,则将所述状语词语中的状语名词、和/或状语形容词、和/或状语副词组合为状语标识对应的词语。

当判断出存在宾语隶属关系,则将名词、和/或形容词、和/或副词进行组合。

对于本发明实施例,与步骤204a并列的步骤204d、读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的定语词语,按照所述定语隶属规则判断所述定语词语是否存在定语隶属关系。

其中,所述定语隶属规则为判断定语形容词、和/或定语副词、和/或定语名词是否组合的规则,本实施例中,定语隶属规则具体可以为:按照简单句标识对应的作为主语、宾语等名词,判断这些名词分别与定语词语,包括形容词、和/或副词、和/或名词,在调查问卷系统中出现的次数是否大于预设阈值,所述预设阈值可以设定为10次,30次等,本发明实施例不做具体限定,若大于,则定语的形容词、和/或副词、和/或名词存在隶属关系。

对于本发明实施例,步骤204d之后的步骤205d、若存在定语隶属关系,则将所述定语词语中的定语形容词、和/或定语副词、和/或定语名词组合为定语标识对应的词语。

当判断出存在定语隶属关系,则将形容词、和/或副词、和/或名词组合为属于定语名词的全部定语,并将定语词语中的各个标识统一组合为定语标识。

206、若不存在所述主语隶属关系、和/或宾语隶属关系、和/或状语隶属关系、和/或定语隶属关系,则提取标记后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

对于本发明实施例,当不存在本实施例中的主语隶属关系、和/或宾语隶属关系、和/或状语隶属关系、和/或定语隶属关系,则说明可以直接将按照步骤203a或203b中标记后的词语查找出与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

207、提取组合后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

本步骤与图1所示的步骤105方法相同,在此不再赘述。

208、按照k-means算法对所述评价信息进行聚类,并将聚类后的评价信息更新至归一化评价表中。

对于本发明实施例,为了便于对评论信息的查找及分类,按照k-means算法对所述评价信息进行聚类,并将聚类后的评价信息更新至归一化评价表中,所述归一化评价表中存储有不同保险业务类型分别对应的评价信息。

对于本发明实施例,为了对步骤207进行细化及扩展,步骤207具体可以包括:提取所述评价信息,通过word2vec算法将所述评价信息转换为词向量,得到词向量矩阵;将所述词向量矩阵确定为k-mean算法的输入样本参数,通过运算所述k-mean算法得到归一化后的分类结果;将所述分类结果按照所述评价语句处于所述业务交易管理系统中的保险业务类型存储至归一化评价表中。

需要说明的是,聚类之前,需要通过word2vec算法将评价信息转换为词向量,即将文字转换为数字向量,word2vec算法是将每个文字用0和1进行表示。例如,中国,通过word2vec算法转换后为000001与000100(不限定),然后包含中国2个文字的句子生成的向量矩阵为[000001,000100,xxx,xxx,xxx],依次类推,生成的向量矩阵即为k-mean算法的输入。k均值聚类算法是先随机选取k个对象作为初始的聚类中心;然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类,一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有,或最小数目,对象被重新分配给不同的聚类,没有,或最小数目,聚类中心再发生变化,误差平方和局部。例如,最小输入是样本集d={x1,x2,...xm},d={x1,x2,...xm},聚类的簇树k,最大迭代次数n,输出是簇划分c={c1,c2,...ck}c={c1,c2,...ck}。具体步骤:1)从数据集d中随机选择k个样本作为初始的k个质心向量:{μ1,μ2,...,μk}{μ1,μ2,...,μk};2)对于n=1,2,...,n,其中,a)将簇划分c初始化为t=1,t=1,2...k,b)对于i=1,2...m,计算样本xixi和各个质心向量μj(j=1,2,...k)μj(j=1,2,...k)的距离:dij=||xi-μj||22dij=||xi-μj||22,将xixi标记最小的为dijdij所对应的类别λiλi。此时更新cλi=cλi∪{xi}cλi=cλi∪{xi};c)对于j=1,2,...,k,对cjcj中所有的样本点重新计算新的质心μj=1|cj|∑x∈cjxμj=1|cj|∑x∈cjx;e)如果所有的k个质心向量都没有发生变化,则转到步骤3),3)输出簇划分c={c1,c2,...ck}。

另外,本发明实施例,为了降低词向量的相关性以聚类,通过自编码算法进行压缩。自编码算法是一种基于神经网络学习隐含特征的非监督学习方法,自编码算法结构为对称形式。如图3所示,在自编码算法中,输入的是经过预处理后的特征,中间包含了一个或多个隐藏层,提取中间隐藏层的输出作为降维后的隐含特征输出。具体过程是:经过训练的自编码算法通过编码的方式将输入的特征,即原始词向量,转化为隐含特征,即压缩词向量,然后对隐含特征进行解码,得到与输入的特征相近的输出特征,实现了对输入的连续特征的降维。如果输入输出足够接近,损失函数mse最小化,即为中间隐层的压缩特征保留了输入的大部分信息。自编码算法通过tensorflow库实现,特征压缩后,即可通过k-means归类。例如,所提取的标签为名词+形容词的形式,即每个标签含有两个词语,每个词语对应一个300维的词向量,则输入为600维,输出同样为600维。

本发明提供了另一种价信息的提取方法,本发明实施例通过将获取到的评价语句通过hanlp库对进行中文分词,将分词后的词语按照词性与语法进行标记,并利用隶属规则判断是否存在隶属关系,若存在,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记,将主语标记、谓语标记、宾语标记、状语标记分别对应的词语作为评价信息,实现从评价语句中提取出具有完整语句意义的评价信息,提高评价信息的准确性,从而提高评价信息的语义准确性。

进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种评价信息的提取装置,如图4所示,该装置包括:提取模块31、标记模块32、判断模块33、组合模块34、确定模块35。

提取模块31,用于从存储于业务交易管理系统的评价语句数据库中提取评价语句;

标记模块32,用于通过hanlp库对所述评价语句进行中文分词,以及对分词后的词语按照词性、语法进行标记,所述词性标记包括主语标记、谓语标记、宾语标记、状语标记;

判断模块33,用于根据隶属规则判断标记后的词语是否存在隶属关系,所述隶属规则为根据词语之间的语法组合关系确定是否为复合词语的规则;

组合模块34,用于若存在所述隶属关系,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记;

确定模块35,用于提取组合后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

本发明提供了一种价信息的提取装置,与现有技术仅仅将名词、形容词作为评价信息标注相比,本发明实施例通过将获取到的评价语句通过hanlp库对进行中文分词,将分词后的词语按照词性与语法进行标记,并利用隶属规则判断是否存在隶属关系,若存在,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记,将主语标记、谓语标记、宾语标记、状语标记分别对应的词语作为评价信息,实现从评价语句中提取出具有完整语句意义的评价信息,提高评价信息的准确性,从而提高评价信息的语义准确性。

进一步的,作为对上述图2所示方法的实现,本发明实施例提供了另一种评价信息的提取装置,如图5所示,该装置包括:提取模块41、标记模块42、判断模块43、组合模块44、确定模块45、聚类模块46。

提取模块41,用于从存储于业务交易管理系统的评价语句数据库中提取评价语句;

标记模块42,用于通过hanlp库对所述评价语句进行中文分词,以及对分词后的词语按照词性、语法进行标记,所述词性标记包括主语标记、谓语标记、宾语标记、状语标记;

判断模块43,用于根据隶属规则判断标记后的词语是否存在隶属关系,所述隶属规则为根据词语之间的语法组合关系确定是否为复合词语的规则;

组合模块44,用于若存在所述隶属关系,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记;

确定模块45,用于提取组合后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

进一步地,所述标记模块42包括:

解析单元4201,用于通过hanlp库对所述评价语句进行中文分词,解析分词后所述评价语句的语句类型,所述语句类型包括简单句类型、复杂句类型;

第一标记单元4202,用于若所述评价语句为简单句类型,则按照词性、语法标记所述评价语句中简单句式的词语;和/或,

第二标记单元4203,用于若所述评价语句为复杂句类型,则按照语法规则从所述评价语句中拆分属于复杂句式中的简单句式,并按照词性、语法标记不同简单句式中的词语。

进一步地,所述隶属规则包括主语隶属规则、宾语隶属规则、状语隶属规则、定语隶属规则,所述判断模块43包括:

第一判断单元4301,用于读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的主语词语,按照所述主语隶属规则判断所述主语词语是否存在主语隶属关系,所述主语隶属规则为判断主语名词、和/或定语名词是否组合的规则;和/或,

第二判断单元4302,用于读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的宾语词语,按照所述宾语隶属规则判断所述宾语词语是否存在宾语隶属关系,所述宾语隶属规则为判断宾语形容词、和/或宾语副词是否组合的规则;和/或,

第三判断单元4303,用于读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的状语词语,按照所述状语隶属规则判断所述状语词语是否存在状语隶属关系,所述状语隶属规则为判断状语名词、和/或状语形容词、和/或状语副词是否组合的规则;和/或,

第四判断单元4304,用于读取属于同一个简单句式标识对应的词语,按照所述语法规则提取所述词语中的定语词语,按照所述定语隶属规则判断所述定语词语是否存在定语隶属关系,所述定语隶属规则为判断定语形容词、和/或定语副词、和/或定语名词是否组合的规则。

进一步地,所述组合模块44包括:

第一组合单元4401,用于若存在主语隶属关系,则将所述主语词语中的主语名词、和/或定语名词组合为主语标识对应的词语;和/或,

第二组合单元4402,用于若存在宾语隶属关系,则将所述宾语词语中的宾语形容词、和/或宾语副词组合为宾语标识对应的词语;和/或,

第三组合单元4403,用于若存在状语隶属关系,则将所述状语词语中的状语名词、和/或状语形容词、和/或状语副词组合为状语标识对应的词语;和/或,

第四组合单元4404,用于若存在定语隶属关系,则将所述定语词语中的定语形容词、和/或定语副词、和/或定语名词组合为定语标识对应的词语。

进一步地,所述确定模块45,还用于若不存在所述主语隶属关系、和/或宾语隶属关系、和/或状语隶属关系、和/或定语隶属关系,则提取标记后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

进一步地,所述装置还包括:

聚类模块46,用于按照k-means算法对所述评价信息进行聚类,并将聚类后的评价信息更新至归一化评价表中,所述归一化评价表中存储有不同保险业务类型分别对应的评价信息。

进一步地,所述聚类模块46包括:

转换单元4601,用于提取所述评价信息,通过word2vec算法将所述评价信息转换为词向量,得到词向量矩阵;

运算单元4602,用于将所述词向量矩阵确定为k-mean算法的输入样本参数,通过运算所述k-mean算法得到归一化后的分类结果;

存储单元4603,用于将所述分类结果按照所述评价语句处于所述业务交易管理系统中的保险业务类型存储至归一化评价表中。

本发明提供了另一种价信息的提取装置,本发明实施例通过将获取到的评价语句通过hanlp库对进行中文分词,将分词后的词语按照词性与语法进行标记,并利用隶属规则判断是否存在隶属关系,若存在,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记,将主语标记、谓语标记、宾语标记、状语标记分别对应的词语作为评价信息,实现从评价语句中提取出具有完整语句意义的评价信息,提高评价信息的准确性,从而提高评价信息的语义准确性。

根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的评价信息的提取方法。

图6示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。

如图6所示,该计算机设备可以包括:处理器(processor)502、通信接口(communicationsinterface)504、存储器(memory)506、以及通信总线508。

其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502,用于执行程序510,具体可以执行上述评价信息的提取方法实施例中的相关步骤。

具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。

处理器502可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。

存储器506,用于存放程序510。存储器506可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作:

从存储于业务交易管理系统的评价语句数据库中提取评价语句;

通过hanlp库对所述评价语句进行中文分词,以及对分词后的词语按照词性、语法进行标记;

根据隶属规则判断标记后的词语是否存在隶属关系,所述隶属规则为根据词语之间的语法组合关系确定是否为复合词语的规则;

若存在所述隶属关系,则将所述存在隶属关系的词语进行组合,并根据所述隶属关系对组合后的词语按照词性进行标记;

提取组合后词语中与主语标记、谓语标记、宾语标记、状语标记分别对应的词语,确定为评价信息。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1