一种创建词典的方法、装置、电子设备及存储介质与流程

文档序号:17951722发布日期:2019-06-19 00:05阅读:229来源:国知局
一种创建词典的方法、装置、电子设备及存储介质与流程

本发明实施例涉及数据处理领域,特别涉及一种创建词典的方法、装置、电子设备及存储介质。



背景技术:

目前,社交媒体上有大量关于产品和服务的用户评论或评价,它已经成为用户日常决策的信息来源。由于对某个产品的大量不同意见,用户可能很难根据这些评论或评价总结出总体的情感。情感词典(sentiwordnet)被认为是一种有效的情感分析词汇资源。sentiwordnet中的每个术语都与一组表示其积极性、消极性和中性的分数相关联。分数可以取决于术语的词性标记。它通常用于情感分析,它是确定文本情感取向(积极、消极或中性)的方法的集合。

然而,发明人发现现有技术中至少存在如下问题:目前,sentiwordnet是确定文本极性的最常用的情感词典。然而,sentiwordnet中的词汇量有限,这将限制情感分析的结果的正确率。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本发明实施方式的目的在于提供一种创建词典的方法、装置、电子设备及存储介质,使得丰富了情感词典的词汇量。

为解决上述技术问题,本发明的实施方式提供了一种创建词典的方法,包括以下步骤:获取语料库中的词汇;针对语料库中的每个不属于第一情感词典的词汇,分别进行以下操作:确定第一情感词典中与不属于第一情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于第一情感词典的词汇的极性分数;其中,第一情感词典中包括n个单词,以及每个单词的极性分数;n为正整数;根据语料库中的词汇,以及语料库中的词汇的极性分数,创建第二情感词典。

本发明的实施方式还提供了一种创建词典的装置,包括:获取模块、确定模块和创建模块;获取模块用于获取语料库中的词汇;确定模块用于针对语料库中的每个不属于第一情感词典的词汇,分别进行以下操作:确定第一情感词典中与不属于第一情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于第一情感词典的词汇的极性分数;其中,第一情感词典中包括n个单词,以及每个单词的极性分数;n为正整数;创建模块用于根据语料库中的词汇,以及语料库中的词汇的极性分数,创建第二情感词典。

本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施方式提及的创建词典的方法。

本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的创建词典的方法。

本发明实施方式相对于现有技术而言,使用与不属于第一情感词典的词汇最接近的单词的极性分数,为语料库中不属于第一情感词典的词汇赋予极性分数,增加了第二情感词典的单词量,丰富了第二情感词典。由于第二情感词典更为丰富,使得后期对文本的情感分析结果的更为准确。

另外,确定第一情感词典中与不属于第一情感词典的词汇最接近的单词,具体包括:确定不属于第一情感词典的词汇的第一词向量,以及第一情感词典的每个单词的第二词向量;确定每个第二词向量各自与第一词向量之间的距离;将与第一词向量距离最近的第二词向量所对应的单词,作为与不属于第一情感词典的词汇最接近的单词。该实现中,根据词向量之间的距离确定与不属于第一情感词典的词汇最接近的单词,使得能够从多维度考虑不属于第一情感词典的词汇与第一情感词典中的单词的相似性。

另外,确定每个第二词向量各自与第一词向量之间的距离,具体包括:针对每个第二词向量,分别进行以下操作:按照公式a计算第二词向量与第一词向量的距离;其中,公式a为:

其中,ai表示第二词向量,j表示第一词向量,‖a‖[f]表示第一词向量与第二词向量之间的距离,abs是绝对值函数。

另外,确定不属于第一情感词典的词汇的第一词向量,以及第一情感词典的每个单词的第二词向量,具体包括:使用词向量模型word2vec方法,确定第一词向量,以及第二词向量。该实现中,通过word2vec方法能够快速有效地将一个词语表达成向量形式,提高了电子设备的处理速度。

另外,根据最接近的单词的极性分数,确定不属于第一情感词典的词汇的极性分数,具体包括:将最接近的单词的极性分数,作为不属于第一情感词典的词汇的极性分数。。

另外,获取语料库中的词汇,具体包括:使用分词工具,提取语料库的每个句子中的词汇。

另外,根据语料库中的词汇,以及语料库中的词汇的极性分数,创建第二情感词典,具体包括:根据不属于第一情感词典的词汇,以及不属于第一情感词典的词汇的极性分数,更新第一情感词典,得到第二情感词典。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1是本发明的第一实施方式的创建词典的方法的流程图;

图2是本发明的第二实施方式的确定第一情感词典中与不属于第一情感词典的词汇最接近的单词的方法的流程图;

图3是本发明的第三实施方式的创建词典的装置的结构示意图;

图4是本发明的第四实施方式的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种创建词典的方法,应用于电子设备,例如,电脑、手机等各种移动终端。如图1所示,该情感分析方法包括以下步骤:

步骤101:获取语料库中的词汇。

具体地说,电子设备可以使用分词工具,例如,结巴分词,提取语料库中的每个句子的词汇。

在一个例子中,电子设备在提取语料库中的词汇之前,先对语料库进行预处理,例如,将语料库中的文本拆分为多个句子,去除每个句子中的标点符号,和/或,没有意义的助词等。

需要说明的是,本领域技术人员可以理解,本实施方式仅为举例说明,实际应用中,可以根据需要选择用于提取语料库中的词汇的工具,本实施方式不限定提取语料库中的词汇的方法。

步骤102:针对语料库中的每个不属于第一情感词典的词汇,分别进行以下操作:确定第一情感词典中与不属于第一情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于第一情感词典的词汇的极性分数。

具体地说,第一情感词典中包括n个单词,以及每个单词的极性分数;n为正整数。其中,极性分数也可以称为情感分数。其中,第一情感词典中单词的极性分数可以包括:单词的各个含义的积极得分和消极得分、单词的各个含义的积极得分减去消极得分得到的极性分数,以及单词的各个词性对应的含义的极性分数的平均值中的任意一个或任意组合。

在一个例子中,第一情感词典为sentiwordnet,包括其所记录的每个单词的词性、单词的身份标识、积极得分、消极得分、单词的含义和单词的同义词等。

在一个例子中,第一情感词典中的单词的极性分数包括单词的各个词性对应的含义的极性分数的平均值。电子设备针对该单词的每个词性,分别进行以下操作:确定该词性对应的各个含义的极性分数;其中,单词的每个含义的极性分数等于该单词在该含义下的积极得分减去消极得分。计算该词性对应的各个含义的极性分数的平均值,作为该单词的该词性的极性分数;电子设备记录该单词的各个词性的极性分数。

例如,语料库中存在词汇“声明”,既可以作为动词,也可以作为名词。电子设备针对“声明”的动词,确定“声明”作为动词所对应的含义的极性分数的平均值,将“声明”作为动词所对应的含义的极性分数的平均值,作为“声明”作为动词的极性分数。电子设备针对“声明”的名词,确定“声明”作为名词所对应的含义的极性分数的平均值,将“声明”作为名词所对应的含义的极性分数的平均值,作为“声明”作为名词的极性分数。

在一个例子中,电子设备将最接近的单词的极性分数,作为该不属于第一情感词典的词汇的极性分数。其中,最接近的单词的极性分数的确定方法可以参考步骤102中的相关描述,此处不再赘述。

需要说明的是,本领域技术人员可以理解,也可以最接近的单词的极性分数和不属于第一情感词典的极性分数的对应关系,本实施方式不限制电子设备根据最接近的单词的极性分数,确定不属于第一情感词典的词汇的极性分数的方法。

步骤103:根据语料库中的词汇,以及语料库中的词汇的极性分数,创建第二情感词典。

在一个例子中,电子设备根据不属于第一情感词典的词汇,以及不属于第一情感词典的词汇的极性分数,更新第一情感词典,得到第二情感词典。具体地说,电子设备将语料库中不属于第一情感词典的词汇,以及该词汇的极性分数,添加至第一情感中,得到第二情感词典。

在另一个例子中,电子设备根据第一情感词典中的单词的极性分数,确定语料库中属于第一情感词典的词汇的极性分数,根据语料库中的词汇,以及词汇的极性分数,创建新的情感词典,即第二情感词典,该情感词典只包含属于该语料库的词汇。

值得一提的是,电子设备创建针对于某一语料库的情感词典,使得减少了分析文本情感时所需要遍历的单词数量,提高了情感分析的速度。

例如,语料库中的文本为产品的评论文本,使得第二情感词典为针对产品评论的情感词典。该第二情感词典相对于第一情感词典而言,去除了第一情感词典中用于描述风景的单词、描述人物的单词等不相关的单词,使用第二情感词典分析产品的评论文本的情感的速度高于使用第一情感词典分析产品的评论文本的情感的速度。

需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。

与现有技术相比,本实施方式中提供的创建词典的方法,使用与不属于第一情感词典的词汇最接近的单词的极性分数,为语料库中不属于第一情感词典的词汇赋予极性分数,增加了第二情感词典的单词量,丰富了第二情感词典。由于第二情感词典更为丰富,使得后期对文本的情感分析结果的更为准确。。

本发明的第二实施方式涉及一种创建词典的方法,本实施方式是对第一实施方式的进一步细化,具体说明了:确定第一情感词典中与不属于第一情感词典的词汇最接近的单词的方法。

具体的说,如图2所示,确定第一情感词典中与不属于第一情感词典的词汇最接近的单词的方法包括以下子步骤:

步骤201:确定不属于第一情感词典的词汇的第一词向量,以及第一情感词典的每个单词的第二词向量。

在一个例子中,电子设备使用词向量模型word2vec方法,确定第一词向量,以及第二词向量。假设从语料库提取得到的词汇组成的词汇表为t,t={t1,t2,t3...tn}。word2vec模型中的skip-gram模型能够根据输入的单词来预测上下文。因此,使用skip-gram模型即可计算给定ti上下文中其他术语的概率分布,从而得出词汇ti的向量表示,即将词汇ti的词向量。特别地,ti由词向量表示,向量中每一项数值分别为词汇表t中的其他词汇的概率值。

需要说明的是,本领域技术人员可以理解,实际应用中,可以使用其他方法确定第一词向量和第二词向量,此处不一一列举,本实施方式不限制确定第一词向量和第二词向量的方法。

值得一提的是,通过word2vec方法能够快速有效地将一个词语表达成向量形式,提高了电子设备的处理速度。

步骤202:确定每个第二词向量各自与第一词向量之间的距离。

在一个例子中,电子设备确定每个第二词向量各自与第一词向量之间的距离的方法为:针对每个第二词向量,分别进行以下操作:按照公式a计算第二词向量与第一词向量的距离;其中,公式a为:

其中,ai表示第二词向量,j表示第一词向量,‖a‖[f]表示第一词向量与第二词向量之间的距离,abs是绝对值函数。

需要说明的是,本领域技术人员可以理解,实际应用中,若第一词向量和第二词向量的维度不一致,可以通过维度对齐的方法,使得第一词向量和第二词向量维度一致,再通过各种求向量间的距离的方法,求解第一词向量和第二词向量之间的距离。

需要说明的是,本领域技术人员可以理解,实际应用中,也可以通过其他方式确定第一词向量和第二词向量的距离,或者说是相似度,此处不一一赘述,本实施方式不限制确定第一词向量和第二词向量的相似度或距离的方法。

值得一提的是,根据词向量之间的距离确定与不属于第一情感词典的词汇最接近的单词,使得能够从多维度考虑不属于第一情感词典的词汇与第一情感词典中的单词的相似性。

需要说明的是,本领域技术人员可以理解,实际应用中,电子设备也可以以其他方式确定与不属于第一情感词典的词汇最接近的单词,本实施方式不限制电子设备确定与不属于第一情感词典的词汇最接近的单词的方法。

步骤203:将与第一词向量距离最近的第二词向量所对应的单词,作为与不属于第一情感词典的词汇最接近的单词。

具体地说,由于词向量是单词到空间的映射,若两个词向量之间的距离接近,可以认为两者含义接近,因此,可以将与第一词向量距离最近的第二词向量所对应的单词,作为与不属于第一情感词典的词汇最接近的单词。

需要说明的是,本领域技术人员可以理解,实际应用中,除了可以通过两个词汇对应的词向量的距离来判断两个词汇的接近度,也可以通过其他方式判断两个词汇的接近度,此处不一一列举,本实施方式不限制确定第一情感词典中与不属于第一情感词典的词汇最接近的单词的方法。

需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。

与现有技术相比,本实施方式中提供的创建词典的方法,使用与不属于第一情感词典的词汇最接近的单词的极性分数,为语料库中不属于第一情感词典的词汇赋予极性分数,增加了第二情感词典的单词量,丰富了第二情感词典。由于第二情感词典更为丰富,使得后期对文本的情感分析结果的更为准确。除此之外,根据词向量之间的距离确定与不属于第一情感词典的词汇最接近的单词,使得能够从多维度考虑不属于第一情感词典的词汇与第一情感词典中的单词的相似性。

上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的第三实施方式涉及一种创建词典的装置,如图3所示,包括:获取模块301、确定模块302和创建模块303。获取模块301用于获取语料库中的词汇;确定模块302用于针对语料库中的每个不属于第一情感词典的词汇,分别进行以下操作:确定第一情感词典中与不属于第一情感词典的词汇最接近的单词;根据最接近的单词的极性分数,确定不属于第一情感词典的词汇的极性分数;其中,第一情感词典中包括n个单词,以及每个单词的极性分数;n为正整数;创建模块303用于根据语料库中的词汇,以及语料库中的词汇的极性分数,创建第二情感词典。

不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。

本发明的第四实施方式涉及一种电子设备,如图4所示,包括至少一个处理器401;以及,与至少一个处理器401通信连接的存储器402;其中,存储器402存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行上述实施方式提及的创建词典的方法。

该电子设备包括:一个或多个处理器401以及存储器402,图4中以一个处理器401为例。处理器401、存储器402可以通过总线或者其他方式连接,图4中以通过总线连接为例。存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述创建词典的方法。

存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器402中,当被一个或者多个处理器401执行时,执行上述任意方法实施方式中的创建词典的方法。

上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。

本发明的第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1