知识图谱的构建方法及装置与流程

文档序号:17080784发布日期:2019-03-09 00:14阅读:421来源:国知局
知识图谱的构建方法及装置与流程
本发明涉及知识图谱领域,尤其涉及一种知识图谱的构建方法及装置。
背景技术
:电商平台是围绕着商品,买卖双方在线上进行交易的平台。故而电商知识图谱的核心是商品。整个商业活动中有品牌商、平台运营、消费者、国家机构、物流商等多角色参与。电商数据来源繁杂,涉及到运营平台、客服咨询、商品数据等多维度数据,而且各个数据源的结构化程度差异较大,涉及到的实体、实体关系之间的关联复杂多样,分散在各个系统中,并且每个角色的数据的结构化程度不一,同时交易过程中极易产生大量的非结构化文本数据,现有的技术很难对这些数据统一整合。技术实现要素:本申请的实施例提供一种知识图谱法的构建方法及装置,用于解决多种数据无法整合的问题。为达到上述目的,本申请的实施例采用如下技术方案:第一方面,提供了一种知识图谱的构建方法,该方法包括:获取行业数据;获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。第二方面,提供了一种知识图谱的构建装置,该装置包括:获取单元,用于获取行业数据;所述获取单元,还用于获取所述行业数据中的实体集合以及所述实体集合中的多个实体的关系;构建单元,用于将所述实体集合及所述实体集合中的多个实体的关系按照预设数据模式构建所述知识图谱。第三方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被计算机执行时使所述计算机执行如第一方面所述的方法。第四方面,提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使得计算机执行如第一方面所述的知识图谱的构建方法。第五方面,提供一种知识图谱的构建装置,包括:处理器和存储器,存储器用于存储程序,处理器调用存储器存储的程序,以执行上述第一方面所述的知识图谱的构建方法。本申请的实施例提供的知识图谱的构建方法及装置,从行业数据中获取实体集合及实体集合中多个实体的关系,然后将获取到的实体集合及实体集合中的多个实体关系按照预设数据模式进行融合,最终形成知识图谱,解决了各类各维度数据孤立、分散的情况,有效的将数据链接起来。附图说明图1为本申请的实施例提供的构建的知识图谱的框架示意图;图2为本申请的实施例提供的知识图谱的构建方法流程示意图一;图3为本申请的实施例提供的知识图谱的构建方法流程示意图二;图4为本申请的实施例提供的知识图谱的构建方法流程示意图三;图5为本申请的实施例提供的知识图谱的构建方法流程示意图四;图6为本申请的实施例提供的知识图谱的构建装置结构示意图。具体实施方式本申请实施提供的知识图谱的构建方法及装置,该知识图谱可以为电商知识图谱,通过获取行业数据,并获取行业数据中的实体集合及实体集合中多个实体之间的关系,将实体集合及实体集合中的多个实体的关系按照预设数据模式构建知识图谱。图1为本申请实施例提供的构建的知识图谱的整体框架图。参照图1所示,整体框架包括原始数据层110、互联网信息采集与清洗层120、知识抽取层130、知识融合层140、知识储存层150三部分。原始数据层110包括内部数据和外部数据,其中,内部数据可以包括关系型数据等结构化数据,外部数据可以包括视频网站的内容等非结构化数据。互联网信息采集与清晰层120包括采集爬虫、采集任务调度系统及解析器;其中,采集爬虫可以包括行业网站爬虫以及通用爬虫;解析器可以包括行业网站解析器。知识抽取层130包括数据库到资源描述框架映射(databasetoresourcedescriptionframework,d2r)和行业网站抽取;其中,d2r映射包括配置文件映射、更新配置以及任务调度系统,配置文件映射包括:表格-概念、记录-实体、列名-属性、记录数据-属性值以及表关联-关系;任务调度系统包括:原始导入、批量更新以及增量更新;行业网站抽取可以包括包装wrapper插件以及任务调速系统,任务调度系统包括更新探测以及周期更新。当原始数据层110中的数据为内部数据时,通过d2r映射抽取知识;当原始数据层110中的数据为外部数据时,需要经过互联网信息采集与清晰层120处理后,再通过行业网站抽取知识。知识融合层140包括数据层、模式层、冲突解决及知识图谱更新;其中,数据层包括实体对齐、实体类型对齐以及实体属性对齐,模式层包括上下围关系生成以及概念属性生成,知识图谱更新包括模式层更新以及数据层更新,冲突解决包括冲突自动检测以及冲突自动解决。数据层的数据模式可以通过人工专家定义,明确知识图谱中的实体、关系、和各实体及关系的属性。将多个数据源抽取的知识进行融合后集成到知识图谱中时,需要解决多种类型的数据冲突问题,例如,一个短语对应多个实体、实体属性名不一致、实体属性缺失、实体属性值不一致、实体属性值一对多映射等情况。知识储存层150包括图数据储存和分布式文件索引。本申请实施例向知识图谱中导入的数据具体为结构化数据。在数据导入过程中,涉及对结构化数据的预处理、实体对齐、属性对齐、属性筛选等过程,最终将满足条件的结构化数据导入知识图谱。后续通过增量迭代等方式,保证知识图谱的可持续更新和扩展。下面采用详细的实施例对本知识图谱的构建过程进行详细说明。实施例1、本申请实施例提供了一种知识图谱的构建方法,参照图2中所示,该方法可以包括s101-s103:s101、获取行业数据。以电商行业的知识图谱的构建为例,电商知识图谱构建基本上采用行业内部的消费数据、电商平台相关的垂直领域数据、商品数据等相关数据作为数据来源。这些数据产生于电商平台运营或宣传过程中,与业务结合性较好,因此通常具有以下优点:行业覆盖较广、行业深度可观。数据源均来自电商平台强相关的数据,数据相关性与行业紧密结合,基本覆盖电商行业涉及的数据,且以电商运营过程中数据作为补充,数据具有行业深度;可靠性高:行业的内部结构化数据用于支撑企业本身的业务,因此可靠性非常高;企业数据存储在关系型数据库中,只需将关系型数据进行一定程度的转化即可得到结构化三元组数据,可靠性良好;结构性强:内部结构化数据多数是通过关系数据库进行存储的;开放行业数据基本上由较高质量的网站编辑后发表,结构性良好。因此,在进行电商知识图谱构建时,会优先考虑使用行业中的内部结构化数据和开放的行业知识库。可选的,在获取行业数据之前,可以首先定义知识图谱的数据模式。数据模式是知识图谱中最核心的部分,可以由人工专家定义数据模式,并采用自顶向下的知识图谱方式,定义好数据模式后,可以将从各种数据源获取到的行业数据中的实体、实体关系或实体属性等进行数据层面的填充,其中,通过人专家定义知识图谱的数据模式可以提高知识图谱数据的完整性和准确性。可选的,参照图3中所示,s101可以包括s201-s204:s201、根据种子词汇获取目标网页,并根据网站将目标网页分类。其中,种子词汇为行业专用词汇,目标网页包括网页文档及百科网页的外部链接。具体的,可以利用一些能够代表行业的种子词汇,在搜索引擎和在线百科的搜索接口中进行搜索。对于搜索引擎返回的网页文档,将排列靠前的数据结果直接添加到目标网页列表;对于百科返回的页面,先进入到相应的文章页,然后在文章页面中寻找普通的外部链接和参考文献的外链,并将这两类链接添加到目标网页列表。s202、按照预设深度值对每个网站对应的目标网页进行数据采集得到网站的内容。将目标网页依据网站进行归类,并对得到的网页进行站内采集,采集的最大深度可以设置为3层,即从首页开始,使用深度优先采集策略,总共采集3层。通常行业数据网站在3层的深度下即可遍历完整个网站的结构。s203、如果网站的内容中对应的种子词汇的出现频度超过阈值,则将本网站作为相应的行业数据源。对网站的内容分析,并对每个网站已经采集到的网页的内容进行提取保存;对于网站的内容,如果其中包含行业关键词的频度超过阈值,则说明该网站和该行业相关,可以作为相应的行业数据源。s204、从行业数据源获取行业数据。当确定行业数据源后,可以通过搜索引擎等工具从行业数据源获取行业数据。s102、获取行业数据中的实体集合以及实体集合中的多个实体的关系。知识图谱构建的技术关键点在于实体抽取和实体关系抽取,将数据中的实体及实体关系抽取出来,加以整合,可以得到更加整齐的数据,便于管理及应用。可选的,参照图4中所示,s102可以包括:s301、如果行业数据为结构化数据,则根据关系数据库到资源描述框架映射语言(relationdatabasetoresourcedescriptionframeworkmappinglanguage,d2rml)规范及映射配置文件将行业数据中的知识转换成实体集合及实体集合中多个实体的关系。从结构化数据中进行知识映射时,需要确定结构化数据中的基本结构,包括每个表格的含义以及表之间的关联,同时确定知识图谱的结构,然后使用d2rml语言把结构化数据中的表格与知识图谱中的概念或实体关联起来。定义好映射配置文件后,可以依据配置从源数据库中转换知识,具体过程可以为:知识转换引擎连接配置文件中配置的目标数据库,读取相应表格中的数据,把关系数据库中的表和列数据分别映射成概念的实体、实体之间的关系以及实体的属性,然后将映射得到的知识存储到知识图谱中。可选的,参照图4中所示,s102可以包括:s401、如果行业数据为非结构化数据,则根据条件随机场模型(conditionalrandomfieldalgorithm,crf)抽取行业数据中的实体集合,并根据支持向量机-k近邻分类方法(supportvectormachine-k-nearestneighbor,svm-knn)抽取行业数据中的实体集合中多个实体的关系。具体的,crf模型为给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型。其中,crf模型的参数化形式可以为:对于观察序列x=(x1,x2,…,xn)和状态序列y=(y1,y2,…,yn),设p(y|x)为线性链条件随机场,则在随机变量x取值为x的条件下,随机变量y取值为y的条件概率的形式如下:其中,fk和hl为特征函数,λk和μl为对应的权值,z(x)是归一化因子。命名实体识别过程就是序列标注过程,将句子看作是一个观察序列,把句中每个字符或者词看作一个符号,然后给符号赋予一个状态。通过训练集进行最大化参数λk和μl,得到满足条件的条件概率。对于一个输入序列,最可能的输出标记序列,也即最佳状态序列,即:基于crf模型抽取非结构化数据中的实体的过程,具体可以为:当语料为训练语料时,将语料经预处理与特征选择后,得到数据特征集,将数据特征集经crf训练并导入crf模型,得到实体集合;当语料为测试语料时,将语料经预处理后导入crf模型,得到实体集合。其中,语料为基本匹配数据库;选择的特征可以包括:语言特征、上下文特征以及实体边界特征,但不局限于此。需要说明的,语言特征可以反映出字符的基本信息,是一种基本特征。由于文本数据的随意性和自由性,对文本分词会出现分词错误最终导致实体无法识别,而字粒度包含更多的实体内部结构等信息,可以提高识别效果,故本申请实施例采用字粒度作为语言特征。字粒度语言特征如下表1所示。表1字粒度语言特征表示标号特征描述1character(-2)前两个字符2character(-1)前一个字符3character(0)当前字符4character(1)后一个字符5character(2)后两个字符上下文特征是指实体词汇窗口长度内观测值之间的相互依赖关系,该特征可以很好的刻画出实体内部的依赖关系以及实体与非实体的相互关系;实体边界特征是确定字符边界特征位置信息的重要依据,确定命名实体的边界对命名实体识别起着至关重要的作用。本申请实施例采用bio编码模式描述观测序列的词边界特征并对实体类型进行编码,其中b表示实体的开头,i表示实体的剩余部分,o表示非实体序列。crf模型工具需要利用用户制定模板文件(templatefile)对训练语料进行训练,特征模板如下表2所示。表2基本特征模板特征标识特征描述u00:%x[-2,0]当前字的前两个字u01:%x[-1,0]当前字的前一个字u02:%x[0,0]当前字u03:%x[0,1]当前字的后一个字u04:%x[0,2]当前字的后两个字u05:%x[-1,0]/%x[0,0]当前字和前一个字的组合u06:%x[0,0]/%x[0,1]当前字和后一个字的组合u07:%x[-1,0]/%x[0,0]/%x[1,0]当前字和前后一个字的组合u08:%x[-2,0]/%x[-1,0]/%x[0,0]当前字和前两个字的组合u09:%x[0,0]/%x[1,0]/%x[2,0]当前字和后两个字的组合其中,每行代表一个特征模板,可以确定训练数据中一个记号(token),特征模板中的基本格式%x[row,col],其中,row表示与当前token的相对行数,col表示绝对列数。具体的,svm-knn分类方法是svm分类方法和knn分类方法的组合方法。svm-knn分类方法性能好且算法复杂度低,已被应用于文本分类、专有名词抽取等多项文本处理研究,并取得了较好效果。因此,本申请实施例可以使用svm-knn分类方法实现行业数据的实体关系抽取。可选的,参照图5中所示,根据svm-knn分类方法抽取行业数据的实体关系可以包括s501-s504:s501、语料预处理及特征向量形成,得到待测样本。其中,语料可以包括训练语料及测试语料;语料预处理可以包括词性标注、词干提取、句法分析、谓词提取和语义角色标注等。本申请实施例采用的特征有:实体及上下文特征、句子动词词根特征、实体距离特征、实体扩展特征、语义角色特征和实体间词语特征,其中,上下文特征可以包括实体及其前后的词、词的词干和词性,语义角色特征可以包括谓词(predicate)特征、语义角色对(semanticrolepair)特征、语义角色对-谓词特征。s502、根据svm分类模型处理待测样本。svm分类器理论框架完善、通用性和鲁棒性强、计算简单,而且还具有较强的抗噪声能力和较高的分类正确率。s503、如果待测样本为确定区域样本,则直接分类,以得到实体关系。对确定区域样本可以直接输出svm分类器结果,便可以得到实体关系。s504、如果待测样本不是确定区域样本,则通过knn分类器进行二次分类。如果待测样本不是确定区域样本,即待测样本为模糊区域样本,可以使用knn分类器进行二次分类,便可以得到实体关系。s103、将实体集合及实体集合中的多个实体的关系按照预设数据模式构建知识图谱。当抽取行业数据中的实体集合以及实体集合中实体的关系后,可以将实体-关系-实体三元组作为rdf数据存储到知识图谱的数据库中。可选的,本申请实施例还可以通过可视化的规范配置工具实现映射规律的制定。本申请实施提供的知识图谱的构建方法,通过行业知识图谱的构建可以为本行业的平台解决内部各类各维度数据孤立、分散的情况,有效的将数据链接起来,从而发现不同部门不同角色之间存在的数据关系进行数据挖掘。以最大化程度的挖掘数据资源,完整构建的知识图谱也可以为后续的推荐、搜索、智能客服等提供坚实的基础。实施例2、本申请实施例提供了一种知识图谱的构建装置,参照图6中所示,该装置500可以包括:获取单元501,用于获取行业数据。获取单元501,还可以用于获取行业数据中的实体集合以及实体集合中的多个实体的关系。构建单元502,用于将实体集合及实体集合中的多个实体的关系按照预设数据模式构建知识图谱。可选的,获取单元501可以具体用于:如果行业数据为结构化数据,则根据d2rml规范及映射配置文件将行业数据中的知识转换成实体集合及实体集合中多个实体的关系。可选的,获取单元501可以具体用于:如果行业数据为非结构化数据,则根据crf模型抽取行业数据中的实体集合,并根据svm-knn分类方法抽取行业数据中的实体集合中多个实体的关系。可选的,获取单元501可以具体用于:根据种子词汇获取目标网页,并根据网站将目标网页分类,其中,种子词汇为行业专用词汇,目标网页包括网页文档及百科网页的外部链接;按照预设深度值对每个网站对应的目标网页进行数据采集得到网站的内容;如果网站的内容中对应的种子词汇的出现频度超过阈值,则将本网站作为相应的行业数据源;从行业数据源获取行业数据。本发明实施例提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被计算机执行时使所述计算机执行如图2-图5中所述的知识图谱的构建方法。本发明的实施例提供一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行如图2-图5中所述的知识图谱的构建方法。本发明的实施例提供一种知识图谱的构建装置,包括:处理器和存储器,存储器用于存储程序,处理器调用存储器存储的程序,以执行如图2-图5中所述的知识图谱的构建方法。由于本发明的实施例中的知识图谱的构建装置、计算机可读存储介质、计算机程序产品可以应用于上述方法,因此,其所能获得的技术效果也可参考上述方法实施例,本发明实施例在此不再赘述。需要说明的是,上述各单元可以为单独设立的处理器,也可以集成在控制器的某一个处理器中实现,此外,也可以以程序代码的形式存储于控制器的存储器中,由控制器的某一个处理器调用并执行以上各单元的功能。这里所述的处理器可以是一个中央处理器(centralprocessingunit,cpu),或者是特定集成电路(applicationspecificintegratedcircuit,asic),或者是被配置成实施本申请实施例的一个或多个集成电路。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriberline,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solidstatedisk,ssd))等。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1