上下位关系的判别方法、系统和计算机设备与流程

文档序号:18619726发布日期:2019-09-06 22:22阅读:672来源:国知局
上下位关系的判别方法、系统和计算机设备与流程

本发明涉及互联网应用技术领域,特别涉及一种上下位关系的判别方法、系统和计算机设备。



背景技术:

随着互联网应用领域的发展,自然语言处理为诸多互联网应用的实现提供支持,作为诸多互联网应用的基础设施,将通过抽取主题词之间的上下位关系实现互联网应用中智能的语言理解能力。

所构建的上下位关系,例如,知识库,即知识图谱中构建的上下位关系,需要进行正确性判别,以保证执行自然语言处理任务的准确性。

现有上下位关系判别的进行,一方面依赖于人工筛选建立的词典,另一方面则是对上下位关系中上位词和实体借助于各种方式进行运算,进而采用分类模型来判断上下位关系是否正确。

依赖于人工筛选所建立词典的方式,是将上位词视为实体的一个属性,根据实体的标签属性,建立实体的标签词典,由此对于一上下位关系中的上位词,将在标签词典中付交进行上位词和实体标签之间的语义相似度计算,从而判断两者是否存在关联。此方式判别上下位关系的准确性较高,但由于依赖于人工筛选建立的词典,泛化能力弱。

通过上下位关系中上位词和实体的运算以及分类模型的预测,虽然不需要人工介入,但是存在着非常高的算法开销,且仍然无法适应于各种上下位关系的判别。

随着上下位关系的不断构建,面临着大量的上位词,并且每一上位词都有着一个甚至于多个的实体,以此类推,将为此而构建了大量上下位关系,如何适应于各种上下位关系的判别,且降低算法开销成为亟待解决的问题。



技术实现要素:

为了解决相关技术的上下位关系判别受限于泛化能力和非常高的算法开销的技术问题,本发明提供了一种上下位关系的判别方法、系统和计算机设备。

一种上下位关系的判别方法,所述方法包括:

获取上下位关系所对应的上位词和实体;

将所述上位词和实体通过所获取多源信息转化为对应的数学描述,获得分别对应于所述上位词和实体的向量表示;

针对于一信息源所对应上位词和实体的向量表示进行拼接,得到长向量;

根据所述长向量在全连接神经网络投射生成深度语义向量,所述深度语义向量在所述全连接神经网络的输出即对应于所述上下位关系的判别结果。

一种上下位关系的判别系统,所述系统包括:

获取模块,用于获取上下位关系所对应的上位词和实体;

数值转化模块,用于将所述上位词和实体通过所获取多源信息转化为对应的数学描述,获得分别对应于所述上位词和实体的向量表示;

拼接模块,用于针对于一信息源所对应上位词和实体的向量表示进行拼接,得到长向量;

预测模块,用于根据所述长向量在全连接神经网络投射生成深度语义向量,所述深度语义向量在所述全连接神经网络的输出即对应于所述上下位关系的判别结果。

在一个示例性实施例中,所述多源信息是多个信息源中所述上位词和实体相关的文本信息,所述数值转化模块进一步用于根据多个信息源中所述上位词和实体相关的文本信息,分别进行所述每一信息源下所述上位词和实体的数学描述转化,得到各自信息源下所述上位词和实体分别对应的向量表示。

在一个示例性实施例中,所述多源信息包括百科文本,所述数值转化模块包括:

切分单元,用于按照分字粒度和分词粒度分别进行所述百科文本的切分处理,获得所述百科文本中切分所得到的字和词;

向量训练单元,用于根据所在百科文本将所述字和词分别表征为实数值向量,获得字向量和词向量,所述词向量与所在百科文本的上下文信息相关;

第一向量表示单元,用于通过所述字向量和词向量分别构建所述上位词和实体在所述百科文本下的向量表示。

在一个示例性实施例中,所述向量训练单元,包括:

替换处理单元,用于对切分所得到的词,根据所对应语义内容替换为标识符,且构建所述标识符和对应语义内容所指示名称之间的映射,所述词以标识符的形式存在;

训练执行单元,用于针对于切分所得到的字和词,分别根据所述百科文本中的上下文信息训练字向量和词向量,并将所述字向量映射于所对应的字,所述词向量映射于所对应词被替换的标识符。

在一个示例性实施例中,所述第一向量表示单元,包括:

字向量获取单元,用于获取所述上位词中字所映射的字向量;

密度插值单元,用于按照所述上位词中字的顺序以及指定扩大倍数,进行所述上位词中字所映射字向量的密度插值,获得所述上位词在所述百科文本下的向量表示,所述向量表示为所述上位词的初始词向量。

在一个示例性实施例中,所述多源信息包括标签,所述第一向量表示单元,包括:

词向量获取单元,用于根据名称所映射标识符,获取实体所对应的词向量;

标签向量化单元,用于根据所述词向量和所述实体的标签,生成所述实体在所述百科文本下的向量表示,所述向量表示为实体向量。

在一个示例性实施例中,所述多源信息包括类别信息,所述数值转化模块,包括:

类别获取单元,用于获取所述上位词和实体所分别对应的类别信息;

类别向量化单元,用于通过所对应类别信息构成的集合,分别生成所述上位词和实体对应的集合表示,所述集合表示即为所述类别信息下分别对应于所述上位词和实体的向量表示。

在一个示例性实施例中,所述类别获取单元进一步用于根据所述上位词对应的所有实体,获取所有实体分别对应的类别信息为所述上位词对应的类别信息。

在一个示例性实施例中,所述类别向量化单元进一步用于分别按照所述上位词和实体所对应类别信息构成的集合,在匹配于所划分类别数目的维度值上,进行集合中是否存在所对应类别信息的向量映射,获得所述上位词和实体分别对应的集合表示。

在一个示例性实施例中,所述预测模块,包括:

非线性编码单元,用于在所述全连接神经网络通过隐藏层对每一长向量进行非线性编码,获得通过数值描述表征上位词和实体之间信息的深度语义向量;

汇总单元,用于进行所有深度语义向量的信息汇总,为触发进行判别的所述上下位关系获得所对应的上下位关系语义向量;

二分类单元,用于根据所述上下位关系语义向量进行所述上下位关系的二分类,通过所述二分类的进行所述全连接神经网络输出所述判别结果。

在一个示例性实施例中,所述二分类单元进一步用于通过所述全连接神经网络中输出层所构建的二分类器,对所述上下位关系语义向量进行关系正确性得分的概率映射,获得指示所述上下位关系正确性概率的判别结果。

一种计算机设备,所述计算机设备包括:

处理器;以及

存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如前所述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果:

对于给定上下位关系,将获取上下位关系所对应的上位词和实体,将上位词和实体通过所获取多源信息转化为对应的数学描述,获得分别对应于上位词和实体的向量表示,针对于每一信息源所对应上位词和实体的向量表示,进行所表示向量二者之间的拼接,获得长向量,最后根据长向量在全连接神经网络投射生成深度语义向量,此深度语义向量将在全连接网络的输出就对应于给定上下位关系的判别结果,由此,对于所进行的上下位关系判别而言,在算法上仅需要实现向量表示的获得,且借助于全连接神经网络得到判别结果,算法开销得到极大降低,也能够适应于各种上下位判断的判别,泛化能力得到增强,得以实现语义特征的精准捕获,进而相应提高判别的准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的本发明所涉及的实施环境的示意简图;

图2是根据一示例性实施例示出的一种装置的框图;

图3是根据一示例性实施例示出的一种上下位关系的判别方法的流程图;

图4是根据一示例性实施例示出的对根据多个信息源中上位词和实体相关的文本信息,分别进行每一信息源下所述上位词和实体的数学描述转化,得到各自信息源下所述上位词和实体分别对应的向量表示步骤在多源信息包括百科文本时的流程图;

图5是根据图4对应实施例示出的对步骤353进行描述的流程图;

图6是根据图5对应实施例示出的对步骤355进行描述的流程图;

图7是根据图5对应实施例示出的对步骤355进行描述的流程图;

图8是根据一实施例示出的对根据多个信息源中上位词和实体相关的文本信息,分别进行每一信息源下上位词和实体的数学描述转化,得到各自信息源下上位词和实体分别对应的向量表示步骤进行描述的流程图;

图9是根据图3对应实施例示出的对步骤370进行描述的流程图;

图10是根据一示例性实施例示出的上下位关系判别的应用示意图;

图11是根据一实施例示出的一种上下位关系的判别系统的结构框图。

具体实施方式

这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的本发明所涉及的实施环境的示意简略图。在一个示例性实施例中,本发明所实现的上下位关系判别,将为所构建的知识库,即知识图谱实现上下位关系的判别,以此来保证所构建上下位关系都正确的,剔除错误上下位关系。

如图1所示的,本发明所涉及的实时环境包括知识图谱数据库110以及在此基础上实现的应用服务130。

应当理解,在此所指的应用服务130,便通过本发明的实现而对知识图谱数据库110进行上下位关系判别,以判别知识图谱数据库110中每一上下位关系的正确性。

知识图谱数据库110进行着知识图谱数据存储,例如,知识图谱数据都以“实体-关系-事件-属性”的形式进行存储,而所在此所指的关系,包括上下位关系,进而即为“上位词-上下位关系-实体-属性”的形式。

知识图谱是机器大脑中的知识库,也是人工智能应用的基础设施,对于机器以及所要实现的人工智能应用而言,都将通过知识图谱来实现基于语义的检索和复杂推理。

图1所示的实施环境中,在实现本发明的应用服务130运行下,对存在上下位关系的知识图谱数据进行筛选,如果通过本发明所实现的判别,所存在的上下位关系错误,则需相应剔除知识图谱数据,以此来保障知识图谱数据库的可靠性。

图2是根据一示例性实施例示出的一种装置的框图。图1所示的应用服务130运行于一机器设备中,该机器设备可以是装置200,例如,装置200可以服务器。

参照图2,该装置200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在装置200上执行存储介质230中的一系列指令操作。装置200还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作系统241,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。下述图3、图4、图5、图6、图7、图8和图9所示实施例中所述的由第三方所执行的步骤可以基于该图2所示的装置结构。

图3是根据一示例性实施例示出的一种上下位关系的判别方法的流程图。该上下位关系的判别方法,在一个示例性实施例中,如图3所示,至少包括以下步骤。

在步骤310中,获取上下位关系所对应的上位词和实体。

其中,上下位关系指示了所面向主题司之间的关系。一概念上外延更广的主题词和概念上内涵更窄的主题词之间,如果存在着上下位关系,则概念上外延更广的主题词即为上位词,概念上内涵更窄的主题词为实体。也就是说,上位词是实体所表达的一种属性或者归类方式。

对于已构建的上下位关系,在其所进行的正确性判别中,需要获取此上下位关系的上位词和实体。如前所述的,此上下位关系,可存在于知识图谱中。

与此相对应的,在一个示例性实施例中,步骤310包括:根据知识图谱中触发进行的上下位关系判别,从知识图谱已构建的上下位关系上获取对应的上位词和实体,获取的上位词和实体将用于进行上下位关系的判别。

其中,知识图谱中,节点之间的边指示了节点所对应主题之间的关系,此关系包括上下位关系。通过进行数据中的实体、关系以及属性等的抽取,还获得知识表示,进而对齐实体构建本体之后便构成知识图谱,对此知识图谱进行所存在上下位关系的判别。

由此,应当理解,步骤310的执行中,上下位关系是指已存在的任意上下位关系,将通过上下位关系所对应上位词和实体的获取,而发起执行此上下位关系的判别。针对于已构建的所有上下位关系,都可通过本发明的执行来实现正确性判别。

在步骤330中,将上位词和实体通过所获取多源信息转化为对应的数学描述,获得分别对应于上位词和实体的向量表示。

其中,对一上下位关系所获取的上位词和实体,都分别转化为对应的数学描述,以获得上位词所对应的向量表示,以及实体所对应的向量表示。

无论上位词和实体,所对应向量表示的获得,都是以所能够得到的多源信息为依据的。多源信息是来自于多个信息源且与上位词、实体相关的文本信息,在一个示例性实施例中,多源信息包括上位词和实体相关的百科文本、标签和类别信息等,除此之外,还将包括属性等信息,在此不进行限定,根据所能够接入信息源的不同,将能够获得多种不同的文本信息。

在所能够为上位词和实体所获得多源信息中,通过所包含的多种文本信息,为上位词和实体从多个层面分别进行数学描述,以获得上位词和实体在每一层面上的向量表示。也就是说,在多源信息的多种文本信息中,一种或者一种以上的文本信息都被用于进行上位词和实体向数学描述的转化,得到上位词和实体在所对应层面上的向量表示。

多源信息是与上位词、实体相关的,多源信息中的多种文本信息分别来各于不同信息源。具体的,对于百科文本这一种文本信息,是来自于百科文本数据的信息条目,其所对应于信息源即为百科数据;对于标签这一种文本信息,是来自于知识图谱中实体所映射的标注数据,即标注数据即为一信息源;对于类别信息这一种文本信息,是来自于实体在知识图谱中的类别属性,可直接由知识图谱获得,因此,对于类别信息的获取而言,知识图谱本身即为一信息源。

对于上位词和实体向数学描述的转化而言,在一个层面上,将根据百科文本获得所对应向量表示,进一步的,还可在百科文本的基础之上结合标签获得上位词和实体对应的向量表示;在另一个层面上,也将根据标签来获得上位词和实体对应的向量表示,以此类推,充分利用多源信息来实现上位词和实体的数学描述。

至此,由于多源信息是表征上位词和实体语义的文本,上位词和实体转化为对应的数学描述进而获得向量表示这一过程由于是根据多源信息实现,使得上位词和实体的数学描述与语义相关,得以在数学描述中表征上位词和实体所对应的语义,向量表示与语义紧密相关。

在一个示例性实施例中,多源信息是多个信息源中上位词和实体相关的文本信息,步骤330包括:

根据多个信息源中上位词和实体相关的文本信息,分别进行每一信息源下上位词和实体的数学描述转化,得到各自信息源下上位词和实体分别对应的向量表示。

其中,上位词和实体相关的文本信息,是来自于一信息源而与其它信息源的文本信息一并构成多源信息的。此文本信息与上位词、实体之间存在着相关性。也就是说,此文本信息是通过各种不同的文本内容对上位词和实体进行的语义描述。例如,此文本信息为百科文本,则上位词的词条解释即为在此所的指的文本信息,并且这一词条解释中涉及了上位词对应的实体。比如,对于一上位词的词条解释往往是上位词的概念说明,以及在所说明的概念下所对应具体事务,即实体的举例说明,因此,对于这一上位词的词条解释而言存在着上位词和实体之间的上下位关系,所进行的上下位关系判别中,能够依据上位词和实体相关的百科文本进行数学描述而获得在语义上适配于百科文本中上位词以及实体的向量表示。

上位词和实体相关的文本信息,便是与上位词和实体所分别相关的各类文本,是由上位词和实体分别进行检索所能够获得的。所获得的各类文本信息便形成用以进行上下位关系判别的多源信息。

所进行的上下位关系判别,随着所能够获得的信息源,而获得文本内容在语义上尽可能丰富的多源信息,以在多源信息的辅助下使得上位词和实体的数值转换能够捕捉尽可能多的语义特征,由此方能够在语义上准确判别上位词和实体之间是否确实存在着上下位关系,以避免误判的发生。

在步骤350中,针对于一信息源所对应上位词和实体的向量表示进行拼接,得到长向量。

其中,如前所述的,上位词和实体的向量表示,是对应于信息源的,此信息源即为生成上位词和实体的向量表示所依据文本信息对应的。通过步骤330的执行,将会获得至少一组向量表示,即,在信息源所提供一层面对上位词和实体进行的数学描述,并且以此类推,在所有层面都将进行着上位词和实体的数学描述。

与此相对应的,在上位词和实体之间,拼接对应于相同信息源的向量表示,即进行一组向量表示的拼接,获得长向量。以此类推,在由多源信息所获得对应于上位词和实体的若干组向量表示中,进行每一组向量表示的拼接,获得对应于每一组向量表示的长向量。

上位词和实体的向量表示与语义紧密相关,因此,拼接得到的长向量是基于上位词和实体的语义特征的向量。长向量一方面对上位词和实体进行了语义相关的数学描述,另一方面也通过拼接的进行在语义上对上位词和实体之间的关系进行着数学描述。通过前述步骤使得所获得的长向量能够在语义上对上位词、实体以及二者之间的关系精准进行数学描述,为所进行的上下位关系精准判别的实现奠定基础。

在步骤370中,根据长向量在全连接神经网络投射生成深度语义向量,此深度语义向量在全连接神经网络的输出即对应于上下位关系的判别结果。

其中,全连接神经网络是为了进行上下位关系的正确性预测训练得到的。以长向量为输入,通过全连接神经网络学习深层的语义向量表示,以此来为所进行的上下位关系正确性预测训练得到所适用的全连接神经网络。

存在着上下位关系的上位词和实体之间,二者存在着非线性关系,因此,深度语义向量在全连接神经网络的获得将是通过所学习的非线性关系,亦即深层的语义关系对长向量所映射得到的。

由此便在所获得深度语义向量的作用下由全连接神经网络输出所对应上下位关系的正确性概率,上下位关系正确性概率指示所对应上下位关系是否正确的判别结果。

在一个示例性实施例的具体实现中,全连接神经网络是三层神经网络,包括输入层、隐藏层和输出层。隐藏层用来通过非线性组合在长向量充分利用上位词和实体之间的信息,得到包含二者之间关系的隐藏层向量,即深层语义向量,是上下位关系的语义特征表示。

在所进行的上下位关系判别中,通过语义所相关多源信息以及所不断深入进行的语义特征捕捉,使得判别结果具备更高的准确性,并且由于仅需要进行向量的映射以及全连接神经网络的预测,故算法开销得到极大降低。

此外,在所进行的上下位关系判别,由于是将上位词和实体映射为向量,进而通过全连接神经网络实现的,因此,能够适用于各种上位词以及上位词对应的各种实体,而不再由于上位词和实体的各种情况使得上下位关系判别受限,无法获得预期结果,由此而进行的上下位关系判别适应于各种上下位关系,具备非常强的泛化能力。

图4是根据一示例性实施例示出的对根据多个信息源中上位词和实体相关的文本信息,分别进行每一信息源下所述上位词和实体的数学描述转化,得到各自信息源下所述上位词和实体分别对应的向量表示步骤在多源信息包括百科文本时的流程图。

在一个示例性实施例中,多源信息包括百科文本,如图4所示,根据多个信息源中上位词和实体相关的文本信息,分别进行每一信息源下所述上位词和实体的数学描述转化,得到各自信息源下所述上位词和实体分别对应的向量表示步骤,包括:

在步骤331中,按照分字粒度和分词粒度进行百科文本的切分处理,获得百科文本中切分所得到的字和词。

其中,所指的切分处理,即为对百科文本按照指定处理粒度所进行的分割过程。通过切分处理的执行获得适应于指定处理粒度的若干切分结果。

处理粒度是切分处理中进行百科文本切分,即分割的单位,用于控制百科文本的切分过程中当前切分位置与下一切分位置之间的长度,此长度便于处理粒度线性相关。

对于所进行的切分处理而言,处理粒度包括分字粒度和分词粒度。也就是说,对百科文本,一方面按照分字粒度进行切分,另一方面则是按照分词粒度进行切分,由此而分别由百科文本获得切分所得到的字,以及按照分词粒度切分所得到的词。

应当理解,切分所得到的字,是百科文本中所有字的独立存在;与之相对应的,切分所得到的词,是百科文本中所有词的独立存在。

在此应当补充说明的是,所指的分字粒度包括连续的英文字母、数字、中文字和其它符号。换而言之,连续的英文字母、一数字、一中文字以及一其它符号都为一个字。

在步骤333中,根据所在百科文本将字和词分别表征为实数值向量,获得字向量和词向量,词向量与所在百科文本的上下文信息相关。

其中,用于进行切分的百科文本,是对应着一定的语义内容的,对于所相关的上位词和实体而言,百科文本对应的语义内容描述了上位词、实体以及二者之间的语义关系,因此,将根据所在百科文本将字和词分别表征为实数值向量。

所切分得到的所有字,都根据所在百科文本而表征为实数值向量得到字向量;与之相对应的,所切分得到的所有词,也都根据所在百科文本而表征为实数值向量得到字向量。

对于所切分得到的字和词,能够获得对应的字向量,或者词向量。字向量以及词向量均对应于所在百科文本的上下文信息,充分利用了所在百科文本中的语义内容,因此能够充分提高字向量和词向量进行数学描述的准确性。

上下文信息,是为词向量所对应词在百科文本中存在的上下位关系进行语义描述的信息。百科文本中,词所在的位置以及其周边词都将使得该词被赋予一定的语义内容,例如,同名不同意义的词在文本中的存在。因此,对于词向量获得,必然是与所在百科文本的上下文信息相关的。

应当理解,步骤331至步骤333的实现,并非是在所对应上下位关系的判别中进行,只需要预先通过步骤331至步骤333的执行而训练得到字向量和词向量即可。也就是说,在所进行的上下位关系判别中,根据上位词和实体,获取所需要的字向量和词向量即可,而并不需要即时的进行字向量和词向量的构建。

在步骤335中,通过字向量和词向量分别构建上位词和实体在百科文本下的向量表示。

其中,无论上位词,还是实体,都是由一定的字和/或词所构成的,因此,将通过所对应的字向量和/或词向量进行百科文本所相关的向量表示构建过程,得到上位词向量和实体向量。

通过此示例性实施例,上位词和实体能够通过捕捉百科文本的语义内容得到所对应的向量表示,并且在所进行的百科文本切分中,即便用于获得向量表示的字向量和词向量也都是适应于百科文本的语义内容的,处理过程简单且不能够保证准确性,不需要花费较大算法开销。

图5是根据图4对应实施例示出的对步骤353进行描述的流程图。在一个示例性实施例中,如图5所示,步骤353至少包括:

在步骤401中,对切分所得到的词,根据所对应语义内容替换为标识符,且构建标识符和对应语义内容所指示名称之间的映射,该词以标识符的形式存在。

其中,如前所述的,通过步骤351的执行,切分得到百科文本中的字和词。即通过分字粒度和分词粒度的切分处理过程,既得到了映射于百科文本的若干个字,又得到了映射于百科文本的若干个词。

对于切分得到的所有词,在百科文本中的位置不同,都存在着不同的语义,即存在同名不同意义(一词多义)的情况,因此,需要根据百科文本中对应的语义,进行标识符的替换,避免不同语义的相同词被视一样,进而对所获得的词向量造成干扰,极大的影响词向量对语义进行数学描述的准确性。

标识符是全局唯一的标识,即id(identity,标识号码)。切分得到的每一个词,都根据所对应语义内容进行标识符的替换,以唯一标识对应于一语义内容的词。

替换标识符依据的语义内容,一方面可由百科文本自身获得,另一方面,也由所构建的知识图谱数据提取得到,此外还可结合百科文本以及对词进行的文本检索获得,在此不进行限定。对于词而言,其语义内容是该词的名称、描述甚至于解释,可由文本、图像、音视频表达。

对应于一语义内容的词,相应标识符的启用需要构建此标识符与语义内容所指示名称之间的映射,以便于后续查找,且定义此标识符为词所映射的语义内容。

对于在百科文本切分得到的词,都被替换为标识符,所切分得到的词便以标识符的数据形式存在。

在步骤403中,针对于切分所得到的字和词,分别根据百科文本中的上下文信息训练字向量和词向量,并将字向量和词向量映射于所对应的字,词向量映射于所对应词被替换的标识符。

其中,在进行了切分所得到词的标识符替换,以消除一词多义的干扰之后,即可进行字向量和词向量的训练,获得字所映射的字向量,以及标识符映射的词向量。

如前所述的,将根据百科文本的上下文信息进行字向量和词向量的训练,以此来保证所获得字向量和词向量能够进行语义上的精准描述,充分捕捉语义特征。

针对于每一个字和每一个词,都根据其在百科文本中的上下文信息,即周边字和周边词,映射得到字向量和词向量。在一个示例性实施例中,所指的周边字和周边词,是通过进行向量映射的字和词所在滑动窗口获得的,滑动窗口所定位的,即为用于进行向量映射的周边字和周边词。

也就是说,在一个示例性实施例的具体实现中,在已经完成切分所获得的字序列,以及词序列中,在滑动窗口的控制下进行上下文信息的定位,进而在此基础之上进行向量映射。

具体的,所进行的字向量和词向量训练,是通过进行文本与知识的表示学习而构建字典的过程,所训练得到的字向量和词向量形成字典,此字典中,键值是字或者词所对应的标识符,而字向量和词向量本身即为键值所映射的value值。

在一个示例性实施例中,所进行的字向量和词向量训练通过word2vec模型实现。利用word2vec模型分别训练字向量和词向量。对于上位词和实体相关的文本,即百科文本,并非仅限于单一一条文本,进行的字向量和词向量训练是基于大规模非结构化的文本实现的,因此,字向量和词向量都具有一定的语义特征。

通过此示例性实施例,实现了百科文本下词向量和字向量的训练,以此获得语义准确的词向量和字向量。

图6是根据图5对应实施例示出的对步骤355进行描述的流程图。在一个示例性实施例中,如图6所示,步骤355包括:

在步骤501中,获取上位词中字所映射的字向量。

在步骤503中,按照上位词中字的顺序以及指定扩大倍数,进行上位词中字所映射字向量的密度插值,获得上位词在百科文本下的向量表示,向量表示为上位词的初始词向量。

其中,对于上位词而言,其是由字构成的,因此,将按照上位词中的字,获取所映射的字向量,由上位词中字所映射的字向量,转换为上位词的稠密向量,即上位词在百科文本下的向量表示,此向量表示即为上位词的初始词向量。

上位词的向量表示,是进行上位词中字所映射字向量的拼接所实现的,此拼接过程将按照上位词中字的顺序以及指定扩大倍数进行的。

按照上位词中字的顺序进行相应字向量的拼接,使得不同位置的字向量组成词向量的不同部分,能够保证字符串顺序信息,字向量包含了一定的语义相似性,所以由字向量所合成的词向量具有一定语义特征,并且在所保证的字符串顺序信息下得以增强了所拼接向量表示的语义精准性。

指定扩大倍数用于控制所获得上位词向量表示的维度大小。不同上位词的字数可能存在着较大差别,在利用字向量合成上位词的向量表示时,需要保证此向量表示为固定维度,而不会随着上位词的字数变化而发生相应变化,避免较高的计算复杂性和计算量。

在指定扩大倍数的控制下,需要进行上位词中字所映射字向量的密度插值,以保证所获得的向量表示是固定维度的,并且在上位词中字的顺序作用下使得向量表示能够适应于上位词中的字符串顺序,进而保证了不同位置的字组合所存在的语义。

无论何种字数的上位词,所获得的向量表示都必须符合指定扩大倍数,这一指定扩大倍数,用于指示字向量所对应维度的扩大倍数,字向量的维度固定。由此,面对任意字数的上位词,需要执行上位词中字所映射字向量的密度插值,以此来获得上位词的向量表示。

在此示例性实施例中,上位词的向量表示通过百科文本这一层面所获得的,对于所进行的上下位关系判断而言,可以此为依据而判断上位词与实体是否确实存在着上下位关系,但也可在此基础之上谋求更进一步的增强上位词数学描述的精准性,故此示例性实施例所得到上位词的向量表示可作为上位词初始向量。

在一个示例性实施例中,按照上位词中字的顺序以及指定扩大倍数,进行上位词中字所映射字向量的密度插值,获得上位词在百科文本下的向量表示,这一过程是通过执行密度插值向量化算法实现的。

具体的,对于上位词,将按照顺序对其所存在的字进行遍历,对所遍历到的第i个字符,运算所对应字向量按照上位词中字的顺序所确定的插值位置s,然后在指定扩大倍数对应的长度下对插值位置s运算插值密度d,进而在所进行的字向量拼接中进行字向量的插值,即:

vm=vm+d*chari

其中,v表示上位词向量,chari表示第i个字符,m表示指定扩大倍数,m=0至m-1。

在一个示例性实施例的具体实现中,s=m*(i+1);d=pow(1-(abs(s-m))/m,2)。

图7是根据图5对应实施例示出的对步骤355进行描述的流程图。在一个示例性实施例中,多源信息包括标签,如图7所示的,步骤355包括:

在步骤601中,根据名称所映射标识符,获取实体所对应的词向量。

在步骤603中,根据词向量和实体的标签,生成实体在百科文本下的向量表示,向量表示为实体向量。

其中,如图5对应实施例所描述的,对于一个词而言,词向量与标识符相映射的,标识符则于该词语义内容所指示的名称相映射。因此,在需要获取一词所对应的词向量时,仅需要根据该词所对应名称即可由所映射标识符获取得到。所根据的名称可通过实体在知识图谱数据中的语义内容获取得到。

知识图谱数据中,实体还有着标注的标签,因此可结合标签来进一步具体描述实体所对应的语义,获得实体向量。

至此,使在百科文本和标签这两类文本信息的作用下,充分利用所能够获得的多源信息捕捉实体的语义,为后续所进行的关系判别提供精准的数据输入。

实体的标签能够反映出实体的语义特征,如“周杰伦”实体的标签为“音乐、歌手、华语”等。标签与语义紧密相关。根据词向量得到实体所对应标签的向量,即{t1,t2,...,tn},实体的标签数为n。

将实体和标签的向量平均化,得到实体向量为(e+t1+t2+...+tn)/(n+1),e为实体所对应的词向量,对实体所对应词向量以及所有标签的向量进行累加得到的平均向量即为实体向量。

图8是根据一实施例示出的对根据多个信息源中上位词和实体相关的文本信息,分别进行每一信息源下上位词和实体的数学描述转化,得到各自信息源下上位词和实体分别对应的向量表示步骤进行描述的流程图。在一个示例性实施例中,多源信息包括类别信息,如图8所示,根据多个信息源中上位词和实体相关的文本信息,分别进行每一信息源下上位词和实体的数学描述转化,得到各自信息源下上位词和实体分别对应的向量表示步骤,至少包括:

在步骤801中,获取上位词和实体所分别对应的类别信息。

在步骤803中,通过所对应类别信息构成集合,分别生成上位词和实体对应的集合表示,集合表示即为类别信息下分别对应于上位词和实体的向量表示。

其中,上位词和实体词所分别对应的类别信息,来自于上位词和实体的属性。例如,在所构建的知识图谱数据中,无论上位词还是实体,都有着所对应的属性,该属性指示了所对应的类别。

无论是上位词,还是实体,所获取的类别信息都指示了所归属若干类别,类别信息指示的类别之间是相互独立存在的。包括若干类别的类别信息,也是一文本,在此文本中,词的顺序、语法、句法等要素都是忽略的,仅仅看成是若干个词汇的集合。每一个词都是独立出现,不依赖于其它词是否出现的。也就是说,文本中任意一个位置出现的任何词,都不受该文本语义影响而独立存在,因此,将适应于此特性生成上位词和实体对应的集合表示。

获取上位词对应的类别信息,以及实体对应的类别信息,对于所获取得到的类别信息,包含的类别构成集合,以此集合作为文本而生成对方的集合表示。

在另一个示例性实施例中,该步骤803包括:分别按照上位词和实体所对应类别信息构成的集合,在匹配于所划分类别数目的维度值上,进行集合中是否存在所对应类别信息的向量映射,获得上位词和实体分别对应的集合表示。

在一个示例性实施例的具体实现中,通过词袋模型将所对应类别信息构成的集合映射为向量,此向量即为集合表示。假设总的类别数为n,则所映射生成的向量长度相应为n,其中,对于向量中的维度值,如果存在所对应的类别,则映射为1,如果并不存在所对应的类别,则映射为0。

每个实体都会对应一个或者多个类别,类别反映实体的语义特征。如,“周杰伦”实体的类别为“影视明星、歌手”等。

一个上位词会对应多个实体。而对于上位词而言,其类别信息的获取在步骤801的执行中包括:根据上位词对应的所有实体,获取所有实体分别对应的类别信息为上位词对应的类别信息。

其中,知识图谱数据中,一上位词往往与多个实体存在着上下位关系,而每一实体都有对应的类别。可以理解,所对应实体的类别,是对上位词从多方面进行的语义描述,因此,将所有实体对应的类别形成上位词对应的类别信息。

图9是根据图3对应实施例示出的对步骤370进行描述的流程图。在一个示例性实施例中,如图9所示的,步骤370包括:

在步骤371中,在全连接神经网络通过隐藏层对每一长向量进行非线性编码,获得通过数值描述表征上位词和实体之间信息的深度语义向量。

其中,如前所述的,全连接神经网络是三层神经网络,并且经由多源信息中的多种文本信息从多个层面捕捉语义,进而得到基于语义特征的多个长向量。也就是说,针对于一信息源所对应上位词和实体的向量表示进行的拼接,获得了一个以上的长向量。

全连接神经网络用于进行上下位关系的正确性预测,在此全连接神经网络所进行的预测中,将以长向量为输入,并输出指示上下位关系是否正确的概率,以此相应获得判别结果。

在一个示例性实施例中,全连接神经网络除了输入层和输出层之外,还配置了隐藏层。隐藏层介于输入层和输出层之间,隐藏层用于通过非线性组合充分利用到上位词和实体之间的信息,得到包含两者关系的隐藏层向量,即为深度语义向量。

每一输入至全连接神经网络的长向量,都通过隐藏层得到相应的深度语义向量。将原始数据,即长向量输入隐藏层中,经过全连接神经网络所训练得到的参数投射生成新的向量,即执行特征生成过程,由此即可获得此长向量对应的深度语义向量。

通过长向量非线性编码的进行,实现了长向量的神经网络非线性映射,充分利用了语义上的变化而进行非线性运算,由此保证了更深层语义挖掘的实现。

在步骤373中,进行所有深度语义向量的信息汇总,为触发进行判别的上下位关系获得所对应的上下位关系语义向量。

其中,所指的信息汇总是进行所有深度语义向量的拼接,以此来得到上下位关系的语义向量表示,即上下位关系语义向量。

在步骤375中,根据上下位关系语义向量进行上下位关系的二分类,通过二分类的进行全连接神经网络输出判别结果。

其中,上下位关系的二分类是预测上下位关系为正确或者错误的执行过程,上下位关系的二分类将输出正确和错误两类结果之一。

在一个示例性实施例的具体实现中,步骤375包括:通过全连接神经网络中输出层所构建的二分类器,对上下位关系语义向量进行关系正确性得到的概率映射,获得指示上下位关系正确性概率的判别结果。

在一个示例性实施例的具体实现中,将通过softmax层进行上下位关系的二分类。

softmax层作为最终解码步骤,将以此来预测上下位关系的正确性。softmax层的使用中,将给出上下位关系正确的概率以及上下位关系错误的概率,在softmax层的作用下实现基于上下位关系本身的选择,而并不仅仅依据从上下文捕获的信息。

在如上所述的示例性实施例中,通过多源信息的使用,而使得所进行的上下位关系判别有着丰富的语义相关信息,不同的信息在不同情况下往往存在着差距较大的分布,因此,可以在所进行的上下位关系判别中加以利用,融合到上下位关系判别,提高算法的性能,增强准确性。

通过如上所述的示例性实施例,实现了上位词和实体的深层语义表示,从百科文本、标签、实体类别等多源信息中计算得到上下位关系的语义向量,即前述所指的长向量,然后利用全连接的神经网络,通过非线性组合映射,充分利用两者语义之间的关联实现关系判别。

以知识图谱为例,描述上述方法中上下位关系判别的实现,以此来达成上下位关系的正确性判别。知识图谱中的每一上下位关系都将进行判别,以此来保证知识图谱中上下位关系的正确性,剔除错误的上下位关系。

以百科文本为大规模非结构化的文本语料,进行字向量和词向量的训练。所获得的词向量根据所对应词的语义,映射至一名称对应标识符。也就是说,由所训练的字向量和词向量构建字典,以便于在所进行的上下位判别中能够直接获取所需要的字向量和词向量。

知识图谱中的上下位关系,都进行正确性判别。所进行正确性判别的上下位关系,将对此而获取对应的上位词和实体,然后在百科文本、实体标签和实体类型数据的辅助下映射得到上位词向量表示和实体向量表示,最后在神经网络的作用下得到语义向量表示,即前述所指的深度语义向量,通过深度语义向量进行上下位关系的判别,即上下位关系的正确性预测。

在此过程的实现中,百科文本、实体标签和实体类型数据便构成了多源信息,以使得上下位关系判别的实现能够捕捉和利用丰富的语义特征。

图10是根据一示例性实施例示出的上下位关系判别的应用示意图。在一个示例性实施例中,如图10所示,首先在百科文本这一类语料进行字向量和词向量的训练,即如步骤1010至步骤1020所示。在此过程的执行中,通过word2vec模型来训练得到所需要的字向量和词向量。

在此基础之上,通过die(denseinterpolatedembedding,密度插值向量化)算法,对上位词生成上位词向量,即如步骤1030所示。

而对于实体,则由训练的词向量以及实体标签生成实体向量,即如步骤1040所示。

此为百科文本和实体标签辅助下的上位词和实体的向量映射过程。此外,还将在实体类型数据这一类多源信息辅助下构建上位词向量和实体向量。具体如步骤1110所示,上位词和实体通过实体类型数据,在词袋模型的作用下获得上位词向量表示以及实体向量表示。

对于所得到的上位词向量和实体向量,都输入至神经网络,在神经网络中隐藏层作用下获得隐藏层向量1和隐藏层向量2,即为前述所指的深度语义向量,拼接隐藏层向量1和隐藏层向量2得到语义向量表示,即上下位关系语义向量,由此便预测得到所对应上下位关系的正确性。

如上所述的实现,能够适应于各种上位词和各种实体,进而对于任意上下位关系的判别都能够获得较佳效果,具备非常优秀的泛化能力,在此实现过程的作用下,得以推动知识挖掘、自然语言处理等的发展,推动人工智能的进步。

下述为本发明装置实施例,可以用于执行本发明上述方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明的方法实施例。

图11是根据一实施例示出的一种上下位关系的判别系统的结构框图。如图11所示的,在一个示例性实施例,该上下位关系的判别系统包括获取模块1310、数值转化模块1330、拼接模块1350和预测模块1370。

获取模块1310,用于获取上下位关系所对应的上位词和实体;

数值转化模块1330,用于将所述上位词和实体通过所获取多源信息转化为对应的数学描述,获得分别对应于所述上位词和实体的向量表示;

拼接模块1350,用于针对于一信息源所对应上位词和实体的向量表示进行拼接,得到长向量;

预测模块1370,用于根据所述长向量在全连接神经网络投射生成深度语义向量,所述深度语义向量在所述全连接神经网络的输出即对应于所述上下位关系的判别结果。

在另一个示例性实施例中,获取模块1310进一步用于根据知识图谱中触发进行的上下位关系判别,从所述知识图谱已构建的上下位关系上获取对应的上位词和实体,所述上位词和实体用于进行所述上下位关系的判别。

在另一个示例性实施例中,多源信息是多个信息源中所述上位词和实体相关的文本信息,所述数值转化模块1330进一步用于根据多个信息源中所述上位词和实体相关的文本信息,分别进行所述每一信息源下所述上位词和实体的数学描述转化,得到各自信息源下所述上位词和实体分别对应的向量表示。

在一个示例性实施例中,多源信息包括百科文本,所述数值转化模块1330包括:

切分单元,用于按照分字粒度和分词粒度分别进行所述百科文本的切分处理,获得所述百科文本中切分所得到的字和词;

向量训练单元,用于根据所在百科文本将所述字和词分别表征为实数值向量,获得字向量和词向量,所述词向量与所在百科文本的上下文信息相关;

第一向量表示单元,用于通过所述字向量和词向量分别构建所述上位词和实体在所述百科文本下的向量表示。

在一个示例性实施例中,所述向量训练单元,包括:

替换处理单元,用于对切分所得到的词,根据所对应语义内容替换为标识符,且构建所述标识符和对应语义内容所指示名称之间的映射,所述词以标识符的形式存在;

训练执行单元,用于针对于切分所得到的字和词,分别根据所述百科文本中的上下文信息训练字向量和词向量,并将所述字向量映射于所对应的字,所述词向量映射于所对应词被替换的标识符。

在一个示例性实施例中,所述第一向量表示单元,包括:

字向量获取单元,用于获取所述上位词中字所映射的字向量;

密度插值单元,用于按照所述上位词中字的顺序以及指定扩大倍数,进行所述上位词中字所映射字向量的密度插值,获得所述上位词在所述百科文本下的向量表示,所述向量表示为所述上位词的初始词向量。

在一个示例性实施例中,所述多源信息包括标签,所述第一向量表示单元,包括:

词向量获取单元,用于根据名称所映射标识符,获取实体所对应的词向量;

标签向量化单元,用于根据所述词向量和所述实体的标签,生成所述实体在所述百科文本下的向量表示,所述向量表示为实体向量。

在一个示例性实施例中,所述多源信息包括类别信息,所述数值转化模块1330,包括:

类别获取单元,用于获取所述上位词和实体所分别对应的类别信息;

类别向量化单元,用于通过所对应类别信息构成的集合,分别生成所述上位词和实体对应的集合表示,所述集合表示即为所述类别信息下分别对应于所述上位词和实体的向量表示。

在另一个示例性实施例中,类别获取单元进一步用于根据所述上位词对应的所有实体,获取所有实体分别对应的类别信息为所述上位词对应的类别信息。

在另一个示例性实施例中,类别向量化单元进一步用于分别按照所述上位词和实体所对应类别信息构成的集合,在匹配于所划分类别数目的维度值上,进行集合中是否存在所对应类别信息的向量映射,获得所述上位词和实体分别对应的集合表示。

在另一个示例性实施例中,预测模块1370,包括:

非线性编码单元,用于在所述全连接神经网络通过隐藏层对每一长向量进行非线性编码,获得通过数值描述表征上位词和实体之间信息的深度语义向量;

汇总单元,用于进行所有深度语义向量的信息汇总,为触发进行判别的所述上下位关系获得所对应的上下位关系语义向量;

二分类单元,用于根据所述上下位关系语义向量进行所述上下位关系的二分类,通过所述二分类的进行所述全连接神经网络输出所述判别结果。

进一步的,二分类单元进一步用于通过所述全连接神经网络中输出层所构建的二分类器,对所述上下位关系语义向量进行关系正确性得分的概率映射,获得指示所述上下位关系正确性概率的判别结果。

可选的,本发明还提供一种计算机设备,该计算机设备可以用于前述所示实施环境中,执行如上任一所示的方法的全部或者部分步骤。该计算机设备包括:

处理器;

用于存储处理器可执行指令的存储器;

所述计算机可读指令被所述处理器执行时实现前述方法。

该实施例中的装置的处理器执行操作的具体方式已经在前述方法的实施例中执行了详细描述,此处将不做详细阐述说明。

在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器,上述指令可由装置的处理器执行以完成上述方法。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1