个性情感知识图谱建立方法及装置与流程

文档序号:14129789阅读:492来源:国知局

本发明涉及软件技术领域,具体涉及一种个性情感知识图谱建立方法及装置。



背景技术:

知识图谱是实体和实体之间关系的一个图知识库,它的本质是一种解释实体知识之间的语义网络图。知识图谱的建立主要分为:文本分析,构造分析,链接集成。目前越来越多的研究人员开展了对于知识图谱的研究,尤其是对于个人的个性情感知识图谱的研究,从而可以根据个人的个性情感知识图谱了解该人物的不同喜好,并根据不同的喜好进行有针对性的措施,例如可以在互联网上平台进行有针对性的消息推送等等。

然而,在实施本发明实施例的过程中发明人发现,现有的一些知识图谱的建立方法仅能够根据单独的句子来进行构建,缺少上下文环境特征,对于大段的文本分析并不出色,构建出来的知识图谱模型无法准确全面地反映个人的情感。



技术实现要素:

本发明实施例的目的在于提供一种个性情感知识图谱建立方法及装置。

第一方面,本发明实施例提供了一种个性情感知识图谱建立方法,

获取待建立知识图谱的个人的用户数据,所述用户数据包括与所述个人的文本对话和/或所述个人所做的本文调查问卷;

在所述用户数据中抽取情感对象词汇以及情感词汇,所述情感对象词汇为所述情感词汇所限定的对象;

基于预设的基准情感词汇,根据抽取的情感词汇与所述基准情感词汇的相似度,对所述抽取的情感词汇进行归类,并将所属类别词汇的情感倾向作为所述抽取的情感词汇的情感倾向;

构建所述个人、所述情感对象词汇以及所述抽取的情感词汇的情感倾向的三元组结构,将所述三元组结构作为所述个人的个性情感知识图谱。

可选地,所述在所述用户数据中抽取情感对象词汇以及情感词汇,包括:

基于预设的层叠crfs模型在所述用户数据中抽取情感对象词汇以及情感词汇,具体包括:

使用层叠crfs模型对用户数据中的各个词汇进行词性的标注,包括:

对给出的中文句子x=(x1,x2,x3…xn),通过维特比算法找到其词性标注结果序列y=(y1,y2,y3….yn),并使得条件概率p=(y|x)最大,条件概率p=(y|x)如下式所示:

其中:

其中,tk和sl是特征函数,λk和μl是对应的权值,z(x)是规范化因子;

根据预设的分词的词性规则将文本语料中的情感词和情感对象按照每句话进行统计集合。

可选地,所述基于预设的基准情感词汇,根据抽取的情感词汇与所述基准情感词汇的相似度,对所述抽取的情感词汇进行归类,包括:

对从语料中收录的基准情感词汇进行向量化,并利用k-means进行聚类,得到每个词类在预设的坐标轴上的中心坐标;

确定抽取的情感词汇在预设的坐标轴上的坐标;

计算抽取的情感词汇的坐标与各个中心坐标之间的欧氏距离;

若所述抽取的情感词汇的坐标与第一中心坐标距离最近,则所述抽取的情感词汇与第一中心坐标所对应的基准情感词汇属于同类词。

可选地,所述方法还包括:

对抽取的多个情感对象词汇以及多个情感词汇进行同义词归类处理。

第二方面,本发明实施例又提供了一种个性情感知识图谱建立装置,包括:

获取单元,用于获取待建立知识图谱的个人的用户数据,所述用户数据包括与所述个人的文本对话和/或所述个人所做的本文调查问卷;

抽取单元,用于在所述用户数据中抽取情感对象词汇以及情感词汇,所述情感对象词汇为所述情感词汇所限定的对象;

归类单元,用于基于预设的基准情感词汇,根据抽取的情感词汇与所述基准情感词汇的相似度,对所述抽取的情感词汇进行归类,并将所属类别词汇的情感倾向作为所述抽取的情感词汇的情感倾向;

图谱生成单元,用于构建所述个人、所述情感对象词汇以及所述抽取的情感词汇的情感倾向的三元组结构,将所述三元组结构作为所述个人的个性情感知识图谱。

可选地,所述抽取单元,进一步用于:

基于预设的层叠crfs模型在所述用户数据中抽取情感对象词汇以及情感词汇,具体包括:

使用层叠crfs模型对用户数据中的各个词汇进行词性的标注,包括:

对给出的中文句子x=(x1,x2,x3…xn),通过维特比算法找到其词性标注结果序列y=(y1,y2,y3….yn),并使得条件概率p=(y|x)最大,条件概率p=(y|x)如下式所示:

其中:

其中,tk和sl是特征函数,λk和μl是对应的权值,z(x)是规范化因子;

根据预设的分词的词性规则将文本语料中的情感词和情感对象按照每句话进行统计集合。

可选地,所述归类单元,进一步用于:

对从语料中收录的基准情感词汇进行向量化,并利用k-means进行聚类,得到每个词类在预设的坐标轴上的中心坐标;

确定抽取的情感词汇在预设的坐标轴上的坐标;

计算抽取的情感词汇的坐标与各个中心坐标之间的欧氏距离;

若所述抽取的情感词汇的坐标与第一中心坐标距离最近,则所述抽取的情感词汇与第一中心坐标所对应的基准情感词汇属于同类词。

可选地,所述归类单元,还用于:

对抽取的多个情感对象词汇以及多个情感词汇进行同义词归类处理。

第三方面,本发明的又一实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如第一方面所述方法的步骤。

第四方面,本发明的又一实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面所述方法的步骤。

本发明实施例提供了一种个性情感知识图谱建立方法及装置、计算机设备以及计算机可读存储介质,该方法中首先从该个人的文本对话和/或个人所做的本文调查问卷中抽取情感对象词汇以及情感词汇,再基于预设的基准情感词汇,将抽取的情感词汇进行归类,确定其情感倾向,最后构建个人、情感对象词汇以及情感倾向的三元组结构,并将该三元组结构作为该个人的个性情感知识图谱。从而能够根据该个人大量的语料构建更为完整跟为准确的情感知识图谱,为各个情感知识图谱的应用场景提供更为有价值的参考。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1是本发明提供的一种个性情感知识图谱建立方法实施例流程图;

图2是本发明提供的一种个性情感知识图谱建立装置实施例结构示意图;

图3是本发明提供的一种计算机设备实施例结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

第一方面,本发明实施例提供了一种个性情感知识图谱建立方法,如图1所示,包括:

s101、获取待建立知识图谱的个人的用户数据,所述用户数据包括与所述个人的文本对话和/或所述个人所做的本文调查问卷;

s102、在所述用户数据中抽取情感对象词汇以及情感词汇,所述情感对象词汇为所述情感词汇所限定的对象;

s103、基于预设的基准情感词汇,根据抽取的情感词汇与所述基准情感词汇的相似度,对所述抽取的情感词汇进行归类,并将所属类别词汇的情感倾向作为所述抽取的情感词汇的情感倾向;

s104、构建所述个人、所述情感对象词汇以及所述抽取的情感词汇的情感倾向的三元组结构,将所述三元组结构作为所述个人的个性情感知识图谱。

本发明实施例提供了一种个性情感知识图谱建立方法,该方法中首先从该个人的文本对话和/或个人所做的本文调查问卷中抽取情感对象词汇以及情感词汇,再基于预设的基准情感词汇,将抽取的情感词汇进行归类,确定其情感倾向,最后构建个人、情感对象词汇以及情感倾向的三元组结构,并将该三元组结构作为该个人的个性情感知识图谱。从而能够根据该个人大量的语聊构建更为完整跟为准确的情感知识图谱,为各个情感知识图谱的应用场景提供更为有价值的参考。

其中,这里的与个人的文本对话可以为与该个人在一些聊天软件上的聊天记录,或在一些社交平台上的留言等等。

这里的情感对象词汇可以为具体的事物,也可以为某一类型的事物,举例来说,可以将情感对象词汇分为几大类,每一类中可以包括一些具体的对象。

1)情感对象词汇为物体:比如苹果,青菜

2)情感对象词汇为人物:比如老师,丈母娘

3)情感对象词汇为事件:比如加班,旅游,看书

4)情感对象词汇为话题:比如《战狼2》票房

此外,这里的预设的基准情感词汇可以根据实际需要进行适应性设置,可以为几种具有代表性的用于表述人类某类情感的词汇,例如喜欢,愤怒,悲哀,惊恐,厌恶,焦急,无感等等。该类情感词汇的情感倾向可以与基准情感词汇相同也可以与基准情感词汇不同。

在具体实施时,步骤s102中对于在用户数据中抽取情感对象词汇以及情感词汇可以通过多种方式来实施,其中一种可选的实施方式为:

s1021、基于预设的层叠crfs模型在所述用户数据中抽取情感对象词汇以及情感词汇。

具体来说,使用crfs进行词性的标注就是对给出的中文句子x=(x1,x2,x3…xn),通过维特比算法找到其词性标注结果序列y=(y1,y2,y3….yn)让条件概率p=(y|x)最大。

其中:

其中tk和sl是特征函数,λk和μl是对应的权值,z(x)是规范化因子;

s1022、根据预设的分词的词性规则将文本语料中的情感词和情感对象按照每句话进行统计集合。

具体来说:

集合a(可以为情感主体的集合),一般只有一个。

集合b(可以为情感对象的集合),一般一句话中有一个或多个同义词。

集合c(可以为情感词的集合),可以用多个,分布在句子中,通过统计的形式将其收录在一个集合内,不要求其情感倾向性相同。

在本发明实施例中,根据实际需求,可以对一句话进行多层的词性标注。第一层首先是词的基本属性,比如形容词,动词,名词,副词,介词。第二层标注该词在句子中的语法成分,例如主语,谓语,宾语。第三层表示。第三层为情感词和情感对象词的标注。

例如,表1示出了如下的句子语料进行分词和标注多级词性:

表1语料分词和标注多级词性示意表

在具体实施时,步骤s103中基于预设的基准情感词汇,根据抽取的情感词汇与所述基准情感词汇的相似度,对所述抽取的情感词汇进行归类也可以通过多种方式来实施,其中一种可选的实施方式为:

s1031、对从语料中收录的基准情感词汇进行向量化,并利用k-means进行聚类,得到每个词类在预设的坐标轴上的中心坐标;

s1032、确定抽取的情感词汇在预设的坐标轴上的坐标;

s1033、计算抽取的情感词汇的坐标与各个中心坐标之间的欧氏距离;

s1034、若所述抽取的情感词汇的坐标与第一中心坐标距离最近,则所述抽取的情感词汇与第一中心坐标所对应的基准情感词汇属于同类词。

具体来说,收集语料中的所有词汇并将其向量化

根据收录的词利用k-means进行聚类。得到每个词类的中心坐标。

对于近义词,可以将其与聚类后的词向量进行欧式距离的计算和比较,与其距离最近的即为代表其同类词。

例如词x,y。在将其进行向量化以后得到向量(x1,x2,x3…xn)和(y1,y2,y3….yn)。计算其之间的欧式距离公式:

对于一般的词,我们根据其在词义字典中对各词计算欧式距离,取最小的为同类词。

不难理解的是,由于本发明实施例提供的方法会抽取大量的语料进行分析,因此在大量的预料中很容易抽取到相同或相似的情感对象词汇以及相应的情感词汇。因此本发明实施例提供的方法还包括:

对抽取的多个情感对象词汇以及多个情感词汇进行同义词归类处理。

举例来说,在抽取的多个情感对象词汇中包括“番茄”以及“西红柿”,很明显番茄与西红柿为同义词,如果针对于这两个词分别构建两个三元组,那么显然会浪费计算资源,因此在这里会将番茄与西红柿合并为番茄。若判断二者对应的情感词汇也属于同一情感分类,也即对应的情感倾向相同,则将二者对应的情感词汇也进行合并,最终只形成一个该个人对于番茄的喜好的三元组。

若判断二者对应的情感词汇属于不同的情感分类,例如该个人在一周前的对话中说到“我喜欢番茄”,而在一周后的对话中说到“我讨厌西红柿”。首先将西红柿与番茄进行合并,然而“喜欢”与“讨厌”很明显属于不同的情感分类,这时可以将发生时间在后的对话中的情感词汇对应的情感倾向认为是该个人对于“番茄”这一事物的情感倾向,从而能够使得生成的情感知识图谱更为贴近该个人当前的喜好状态,以获取更为准确的知识图谱。

第二方面,本发明实施例还提供了一种个性情感知识图谱建立装置,如图2所示,包括:

获取单元201,用于获取待建立知识图谱的个人的用户数据,所述用户数据包括与所述个人的文本对话和/或所述个人所做的本文调查问卷;

抽取单元202,用于在所述用户数据中抽取情感对象词汇以及情感词汇,所述情感对象词汇为所述情感词汇所限定的对象;

归类单元203,用于基于预设的基准情感词汇,根据抽取的情感词汇与所述基准情感词汇的相似度,对所述抽取的情感词汇进行归类,并将所属类别词汇的情感倾向作为所述抽取的情感词汇的情感倾向;

图谱生成单元204,用于构建所述个人、所述情感对象词汇以及所述抽取的情感词汇的情感倾向的三元组结构,将所述三元组结构作为所述个人的个性情感知识图谱。

可选地,所述抽取单元202,进一步用于:

基于预设的层叠crfs模型在所述用户数据中抽取情感对象词汇以及情感词汇,具体包括:

使用层叠crfs模型对用户数据中的各个词汇进行词性的标注,包括:

对给出的中文句子x=(x1,x2,x3…xn),通过维特比算法找到其词性标注结果序列y=(y1,y2,y3….yn),并使得条件概率p=(y|x)最大,条件概率p=(y|x)如下式所示:

其中:

其中,tk和sl是特征函数,λk和μl是对应的权值,z(x)是规范化因子;

根据预设的分词的词性规则将文本语料中的情感词和情感对象按照每句话进行统计集合。

可选地,所述归类单元203,进一步用于:

对从语料中收录的基准情感词汇进行向量化,并利用k-means进行聚类,得到每个词类在预设的坐标轴上的中心坐标;

确定抽取的情感词汇在预设的坐标轴上的坐标;

计算抽取的情感词汇的坐标与各个中心坐标之间的欧氏距离;

若所述抽取的情感词汇的坐标与第一中心坐标距离最近,则所述抽取的情感词汇与第一中心坐标所对应的基准情感词汇属于同类词。

可选地,所述归类单元203,还用于:

对抽取的多个情感对象词汇以及多个情感词汇进行同义词归类处理。

由于本实施例所介绍的个性情感知识图谱建立装置为可以执行本发明实施例中的个性情感知识图谱建立方法的装置,故而基于本发明实施例中所介绍的个性情感知识图谱建立的方法,本领域所属技术人员能够了解本实施例的个性情感知识图谱建立装置的具体实施方式以及其各种变化形式,所以在此对于该个性情感知识图谱建立装置如何实现本发明实施例中的个性情感知识图谱建立方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中个性情感知识图谱建立方法所采用的装置,都属于本申请所欲保护的范围。

此外,图3示出本发明实施例提供的计算机设备的结构框图。

参照图3,该计算机设备,包括:处理器(processor)301、存储器(memory)302、以及总线303;

其中,所述处理器301以及存储器302通过所述总线303完成相互间的通信;

所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法。

本发明实施例还公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。

本发明实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。,例如包括:

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的某些部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1