一种获取知识点的相关知识点的方法及系统的制作方法

文档序号:10534821阅读:279来源:国知局
一种获取知识点的相关知识点的方法及系统的制作方法
【专利摘要】本发明中提供一种获取知识点的相关知识点的方法及系统,先通过领域内的数字资源来获得候选知识点,然后再获得候选知识点的语义向量,通过计算领域知识点与候选知识点的相似度,来获得与每个领域知识点相关的候选知识点,作为目标知识点。这样,就可以得到每个领域知识点相关的若干个目标知识点。在建设百科目录的词条时,可以查找每个领域知识点的相关知识点是否已经存在,如不存在,则需要增加。通过这种方式来完成领域百科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且避免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。
【专利说明】
一种获取知识点的相关知识点的方法及系统
技术领域
[0001] 本发明涉及一种电数字数据处理领域,具体地说是一种获取知识点的相关知识点 的方法。
【背景技术】
[0002] 数字出版资源已成为信息提供的主要方式之一。人们已从纸质阅读大量地转向电 子阅读。数字出版资源包含电子图书、数字百科全书、数字期刊、数字报刊等。数字出版资 源提供的信息通常比互联网更加权威和正确。因此,如何根据数字出版资源的特点提高人 们学习或阅读体验变得尤为重要。
[0003] 百科全书(Encyclopedia)是介绍人类的全部知识或某一类知识的工具书。往往 按照辞典形式编排(以条目为基本单元),收集各知识领域的名词、熟语、地名、事件、人物、 著作等。百科全书可以是综合性的,包含所有领域的相关内容(例如,《大不列颠百科全书》 就是一部著名的综合性百科全书)。也可以是专业性的百科全书,如某一个领域的百科全 书,像历史百科全书、军事百科全书等,这种某一个领域的百科全书称为领域百科全书。百 科全书被视为是一个国家和一个时代科学文化发展的标志。
[0004] 领域百科全书将海量的信息分类,为用户提供更有针对性的资源。领域百科全书 也是一种重要的数字出版资源。领域百科全书通常以词条的方式组织领域信息。领域百科 全书需要包含领域内的重要词条。然而,建设领域百科全书需要大量人力投入。由于领域 词条数目较多,因此通过人工的方式寻找合适的领域词条不仅耗时,而且容易遗漏一些很 相关的领域词条。如何确定相关的这些词条是否都已经收录是一项很重要的工作,但是实 现起来需要花费大量的人力和时间。
[0005] Distributed words representations (分布式词语表不)在 Rumelhar,D. E., Hinton, G. E. , Williams, R. J. :Learning Represenations by Back-propagating Errors. Nature 323(6088) :pp533-536 (1986)中首次提出,该思想将词语表示成连续向 量(continuous vectors),且在向量空间中,相似词语的距离更近。Feedforward neural network (前馈神经网络)是用于学习词向量和语言模型的方法(见Bengio,Y.,Ducharme, R. , Vincent, P. :A Neural Probabilistic Language Model. Journal of Machine Learning Research 3, ppl 137-1155 (2003))。近来,Mikolov 提出 了使用 skip-gram或 CB0W 模型,通过在大量文本上训练简单的神经网络在短时间内得到词语向量。虽然关于语义向 量在理论上已经有一些研究,但是仍然缺少该技术的应用推广。

【发明内容】

[0006] 为此,本发明所要解决的技术问题在于现有技术中获取相关词条需要人为筛选、 工作量大、客观性差的问题,从而提出一种根据语义向量来确定相关知识点的方法。
[0007] 为解决上述技术问题,本发明的提供一种获取知识点的相关知识点的方法和系 统。
[0008] -种获取知识点的相关知识点的方法,包括
[0009] 对文本进行分词,得到分词结果;
[0010] 根据分词结果和常用词,确定候选知识点;
[0011] 确定每个候选知识点的语义向量;
[0012] 获取领域知识点;
[0013] 对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度;
[0014] 根据计算出的语义相似度,确定与该领域知识点相关的目标知识点。
[0015] -种获取知识点的相关知识点的系统,包括:
[0016] 分词单元:对文本进行分词,得到分词结果;
[0017] 候选单元:根据分词结果和常用词,确定候选知识点;
[0018] 语义向量计算单元:确定每个候选知识点的语义向量;
[0019] 提取单元:获取领域知识点;
[0020] 相似度计算单元:对于每个领域知识点,计算该领域知识点与候选知识点的语义 相似度;
[0021] 相关知识点计算单元:根据计算出的语义相似度,确定与该领域知识点相关的目 标知识点。
[0022] 本发明的上述技术方案相比现有技术具有以下优点,
[0023] (1)本发明提供一种获取知识点的相关知识点的方法,先通过领域内的数字资源 来获得候选知识点,然后再获得候选知识点的语义向量,通过计算领域知识点与候选知识 点的相似度,来获得与每个领域知识点相关的候选知识点,作为目标知识点。这样,就可以 得到每个领域知识点相关的若干个目标知识点。在建设百科目录的词条时,可以查找每个 领域知识点的相关知识点是否已经存在,如不存在,则需要增加。通过这种方式来完成领域 百科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且 避免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。
[0024] (2)本发明所述的获取知识点的相关知识点的方法,获取知识点的相关知识点过 程中,采用计算候选知识点语义向量的方法,将知识点的语义信息进行量化,通过数字化的 方式来体现其语义特征,这样,在后续对知识点进行分析时,可以更加方便,为知识点搜索、 推荐、信息过滤等应用提供基础。
[0025] (3)本发明还提供一种获取知识点的相关知识点的系统,包括分词单元、候选单 元、语义向量计算单元、提取单元、相似度计算单元以及相关知识点计算单元,采用计算语 义向量的方式,通过计算得到领域知识点与候选知识点的相似度,来获得与每个领域知识 点相关的候选知识点,从而得到每个领域知识点相关的若干个目标知识点。在建设百科目 录的词条时,可以查找每个领域知识点的相关知识点是否已经存在,如不存在,则需要增 加。通过这种方式来完成领域百科全书的词条的检查和建设,大大降低了人工的工作量。
【附图说明】
[0026] 为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合 附图,对本发明作进一步详细的说明,其中
[0027] 图1是实施例1中获取知识点的相关知识点的方法的流程图;
[0028] 图2是实施例2中计算候选知识点的语义向量的流程图;
[0029] 图3是实施例2中skip-gram模型的示意图;
[0030] 图4是实施例2中CB0W模型的示意图;
[0031 ] 图5是实施例4中获取知识点的相关知识点的系统的结构框图。
【具体实施方式】
[0032] 实施例1 :
[0033] 本实施例中,提供一种获取知识点的相关知识点的方法,通过该方法获取领域内 所有的知识点的相关的知识点,然后根据得到的这些相关知识点,针对建立的领域百科全 书中的词条进行查漏补缺,来进一步完善,具有非常好的指导价值。
[0034] 该获取知识点的相关知识点的方法,流程图如图1所示,具体过程如下:
[0035] 首先,对文本进行分词,得到分词结果。此处的文本选择领域内的一些数字资源, 为了使得其涵盖的知识点足够广泛,一般会多选择一些本领域内的电子数字资源。选定领 域数字资源后,从中抽取文本,然后分词,通过分词后,得到大量的词语,这些词语既包括本 领域中的一些知识点,也包括一些常用的词语,如你们、他们、吃饭等等。将分词后的文件, 作为候选文件。
[0036] 然后,根据分词结果和常用词,确定候选知识点。由于常用词是经常使用的一系列 的词语,通过在上述分词结果中,把这部分词语去除,就获得了和领域相关的词语,将这些 词语作为候选知识点。此处的常用词是现有技术中已经确定好的常用词。在其他的实施方 式中,还可以通过如下方法来确定常用词:选择常用文本的数字资源,如生活报纸、生活杂 志等数字资源,对其进行分词(采用停用词表去除停用词,例如采用哈工大停用词表),将 在较多文本中出现的词语确定为常用词。在候选文件中去除常用词后,得到的就是本领域 中的词语,作为候选知识点。
[0037] 接着,计算每个候选知识点的语义向量。计算语义向量的方法可以采用现有技术 中的方法,通过计算语义向量的方式,将每个知识点通过语义量化的方式来数字化表示。
[0038] 然后,再获取领域知识点。此处的领域知识点可以是领域百科全书中已经构建好 的知识点词条。
[0039] 接着,对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度。由 于候选知识点通过领域内的大量的数字资源来获得,因此我们认为该候选知识点中涵盖了 领域知识点中的所有知识点,在该候选知识点中即可以查找得到各个领域知识点的语义向 量,再计算其与每个候选知识点的语义相似度。
[0040] 此处的语义相似度的计算方法为:
[0042] 其中,X、Y为需要比较相似度的两个m列的向量,其中一个为领域知识点的语义向 量,另一个为候选知识点的语义向量,f(X,Y)为X、Y的语义相似度。
[0043] 这样,就得到了所有领域知识点与所有候选知识点的语义相似度。
[0044] 最后,根据计算出的语义相似度,确定与该领域知识点相关的目标知识点。可以将 该领域知识点与其他候选知识点的相似度降序排列,选择排序在前的一定数量的候选知识 点作为该领域知识点的相关知识点。作为可以替换的实施方式,也可以预先设置一个相似 度阈值,选取相似度大于该阈值的候选知识点作为该领域知识点的相关知识点。
[0045] 本实施例中提供的获取知识点的相关知识点的方法,先通过领域内的数字资源来 获得候选知识点,然后再获得候选知识点的语义向量,通过计算领域知识点与候选知识点 的相似度,来获得与每个领域知识点相关的候选知识点,作为目标知识点。这样,就可以得 到每个领域知识点相关的若干个目标知识点。在建设百科目录的词条时,可以查找每个领 域知识点的相关知识点是否已经存在,如不存在,则需要增加。通过这种方式来完成领域百 科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且避 免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。
[0046] 实施例2 :
[0047] 本实施例中提供一种获取知识点的相关知识点的方法,其步骤与实施例1中的步 骤相同,本实施例中提供上述过程中的计算每个候选知识点的语义向量的具体方法,具体 过程如下:
[0048] 第一步,确定每个候选知识点在候选文件中出现的次数,这样就得到了每个候选 知识点及其出现次数的文本。候选文本是从选定的数字资源中分词后得到的文本,候选知 识点是候选文本中分词后得到的词语去除常用词得到的词语,此部分与实施例1相同,在 此不再赘述。
[0049] 第二步,根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带 权路径长度最小的二叉树。
[0050] 以候选知识点为叶子节点,为每个叶子节点给定一个权值,该权值为知识点在文 本中的出现次数,构造一棵二叉树,父节点的权值为两个子节点的权值之和,带权路径长度 规定为所有叶子节点的带权路径长度之和,若带权路径长度达到最小,称这样的二叉树为 最优二叉树,也称为哈夫曼树。此处的构造方法采用现有技术中已有的方式构建,通过已有 的算法获得带权路径长度最小的二叉树。
[0051] 第三步,根据每个知识点在所述候选文本中的位置和带权路径长度最小的二叉 树,确定每个知识点的语义向量。
[0052] 首先,仓ll建skip-gram模型,skip-gram模型是现有技术中一种神经网络模型,示 意图如图3所示,用于训练词语向量,主要原理是通过当前词语预测其前后一定范围内的 词语从而得到合适的词语向量表示,使用的训练方法为随机梯度下降方法,输入为文本数 据,根据训练得到的结果可以获取词语向量。
[0053] 作为其他可以替换的实施方式,此处也可以选择CB0W模型,示意图如图4所示,它 也是一种神经网络模型。CB0W模型是通过一个词语所在的上下文预测该词语,过程如图3 所示,该模型是现有技术中一种神经网络模型,用于训练词语向量,主要原理是通过一个词 语所在的上下文预测该词语从而得到合适的词语向量表示,使用的训练方法为随机梯度下 降方法,输入为文本数据,根据训练得到的结果为可以获取词语向量。
[0054] 此外,在一些文献中,也给出了 skip-gram模型或CB0W模型的具体介绍及应用,如 下:
[0055] Mikolov,T.,Chen,K.,Corrado,G.,et al. Efficient Estimation of Word Representations in Vector Space. In Proc. ICLR Workshop(2013)
[0056] Mikolov,T.,Sutskever,I.,Chen,K.,et al. Distributed Representations of Words and Phrases and Their Compositionality. In Proc. NIPS(2013)
[0057] 在构建上述模型后,以候选文件为训练样本,所述带权路径长度最小的二叉树为 输出层,进行训练;训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候 选知识点的语义向量。具体方式为提取最优二叉树中叶子节点所在位置对应的训练后的叶 子节点向量,该向量即为此知识点的语义向量。
[0058] 本实施例中,在得到候选知识点的语义向量后,计算领域知识点与候选知识点的 相似度时,采用如下公式:
[0059] 所述语义相似度的计算方法为:
[0061] 其中,X、Y为需要比较相似度的两个m列的向量,其中一个为领域知识点的语义向 量,另一个为候选知识点的语义向量,f(X,Y)为X、Y的语义相似度。
[0062] 最后,通过该语义相似度来得出每个领域知识点相关的候选知识点,作为目标知 识点。在领域百科全书中查找该目标知识点,完成对领域百科全书词条的检查和构建。
[0063] 本实施例中,提供了获取知识点的相关知识点过程中,计算候选知识点语义向量 的方法,将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,这样,在后 续对知识点进行分析时,可以更加方便,为知识点搜索、推荐、信息过滤等应用提供基础。
[0064] 实施例3 :
[0065] 领域百科全书是一种重要的数字出版资源。领域百科全书通常以词条的方式组织 领域信息。领域百科全书需要包含领域内的重要词条。然而,建设领域百科全书需要大量 人力投入。本实施例中提供一种获取领域知识点的相关知识点的方法,领域知识点也就是 领域百科全书中的词条。本实施例中利用领域电子书文本以及报刊文本,通过skip-gram 模型计算得到的候选词条的语义向量。通过语义向量计算构建好的领域词条与得到的候选 词条之间的语义相似度。利用词条的语义相似度,发现与领域百科全书词条在语义相关的 且被遗漏的其他领域词条,以减少某些领域词条被遗漏的可能性。具体步骤如下。
[0066] 第一步,选择领域电子书,从中抽取文本,使用分词器对文本进行分词,得到分词 后的文本F。
[0067] 第二步,选择报刊文本,使用分词器对报刊文本进行分词,根据分词结果确定常用 。
[0068] 第三步,根据第一步中的分词结果及第二步中的常用词,去除分词后的文本F中 的常用词,剩余的词语作为领域候选词条。
[0069] 第四步,根据领域候选词条,统计文件F中各候选词条出现的次数,形成统计文 件,统计文件中的词条按词条名称的出现次数倒序排列。统计文件的格式如下,其中〇,,〇j, 〇 k为词条的名称,t ^ t,,tk为词条名称在文件F中出现的次数。
[0070] 〇i, t;
[0071] 〇j, tj
[0072]
[0073] ok,tk
[0074] 根据该统计文件,以词条为叶子节点,形成一棵哈夫曼树。此处构建哈夫曼树的过 程,如下:
[0075] 1?根据给定的n个词条生成n棵二叉树的集合R = {ivr;;,. ?,rn},其中每棵二叉 树A中只有一个带权w ;的根节点,权重w ;等于词条的出现次数t ;,左右子树均为空。
[0076] 2.在R中选择两棵根节点权值最小的树作为左右子树构造一棵新的二叉树,且置 新的二叉树的根节点的权值为其左右子树上根节点的权值之和。
[0077] 3.在R中删除这两棵树,并将新的二叉树加入R中。
[0078] 4.重复第2步和第3步,直到R中只含有一棵树为止。
[0079] 得到的这棵树即为哈夫曼树。
[0080] 第五步,使用skip-gram模型来进行训练,得到哈夫曼树中各个词条对应的叶子 节点向量,从而获得各个词条的语义向量。
[0081] skip-gram模型是现有技术中一种神经网络模型,用于训练词语向量,主要原理是 通过当前词语预测其前后一定范围内的词语从而得到合适的词语向量表示,使用的训练方 法为随机梯度下降方法,输入为文本数据,根据训练得到的结果可以获取词语向量。
[0082] 在本实施例中,首先创建skip-gram模型,skip-gram模型如图3所示,该模型包 括输入层input,中间层projection和输出层output。其中输出层采用第四步中的哈夫曼 树。从根节点到叶子节点的每个词条w的路径长度表示为L(w),n(w,j)表示该路径下的 第j th节点,ch(n)表示非叶子节点n的孩子节点,s(x)是符号函数,当x为真时取1,否则 取-1。对于训练集w^w;;,…,wjw^w;;,…,界 7就是训练集中的词语),skip-gram模型将 最大化概率值
其中j辛0, k是以wt为中心的窗口大小,T是训练 集中的词语数目。通常,k值越大,训练得到的结果越准确。但是,k值越大,需要的训练时 L(w)-\ 丁 间也越长。p(w|Wl)定义为户〇丨%)= H CT〇(?(w,*/ + 1) = c/z〇(w,*/))).vM>^ ') n(w,j) 产1 , 表示该路径下的第jth节点,S(x)是符号函数,其中〇 (X) = lAl+exp(-X)),^是叶子节 点W的向量表示,V' n是非叶子节点n的向量表示。训练时,训练集中词w i被丢弃的概率 为.
其中t是指定的阈值,g (wj是词t出现的频率,使用该概率丢弃词的 目的是加快训练速度并提高准确性。
[0083] 第六步,以分词后的文件F做为训练样本,通过随机梯度下降反向传播算法训练 模型。模型训练完成后,得到每个候选词条 〇1的语义向量v 1<3
[0084] 第七步,选择领域百科全书,从领域百科全书中获取已经建设的领域词条。
[0085] 第八步,对于领域百科全书中的每一个词条〇1,计算该词条与其它所有候选词条 的语义相似度,根据语义相似度降序排序词条,取得相似度最高的m个词条。查看这些词条 是否已经在领域百科全书中,如果不在领域百科全书中,则将这些词条记录在文件中,供领 域百科全书建设者检查。
[0086] 由于领域百科全书中词条数目较多,因此通过人工的方式寻找合适的领域词条不 仅耗时,而且容易遗漏一些很相关的领域词条。本实施例中的获取知识点的相关知识点的 方法,可以用于领域百科全书词条建设检查,用于发现与领域百科全书词条在语义上相关 的其他领域词条,以减少某些领域词条被遗漏的可能性。
[0087] 实施例4 :
[0088] 本实施例中提供一种获取知识点的相关知识点的系统,如图5所示,包括:
[0089] 分词单元:对文本进行分词,得到分词结果;
[0090] 候选单元:根据分词结果和常用词,确定候选知识点;
[0091] 语义向量计算单元:确定每个候选知识点的语义向量;
[0092] 提取单元:获取领域知识点;
[0093] 相似度计算单元:对于每个领域知识点,计算该领域知识点与候选知识点的语义 相似度;
[0094] 相关知识点计算单元:根据计算出的语义相似度,确定与该领域知识点相关的目 标知识点。
[0095] 其中,分词单元包括:
[0096] 抽取单元:选择领域数字资源,从中抽取文本;
[0097] 候选文件获取单元:使用分词器对所述文本进行分词,得到分词后的文件,作为候 选文件。
[0098] 其中,候选单元包括:
[0099] 常用词确定单元:选择常用文本的数字资源,对其进行分词确定常用词;
[0100] 候选知识点确定单元:将候选文件中的词语去除所述常用词,得到候选知识点。
[0101] 其中,语义向量计算单元包括:
[0102] 统计单元:确定每个候选知识点在候选文件中出现的次数;
[0103] 最优二叉树计算单元:根据每个候选知识点和该候选知识点在候选文本中出现的 次数,计算带权路径长度最小的二叉树;
[0104] 语义向量确定单元:根据每个候选知识点在所述候选文本中的位置和带权路径长 度最小的二叉树,确定每个候选知识点的语义向量。
[0105] 上述语义向量确定单元,进一步包括:
[0106] 建模单元:创建skip-gram模型;
[0107] 训练单元:以所述候选文件为训练样本,所述带权路径长度最小的二叉树为输出 层,进行训练;
[0108] 计算单元:训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个 候选知识点的语义向量。
[0109] 本实施例中,相似度计算单元包括计算公式,如下:
[0111] 其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
[0112] 在其他可以替换的实施方案中,所述相似度计算单元包括语义相似度的计算公式 为:
[0114] 其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
[0115] 本实施例中,相关知识点计算单元包括:
[0116] 第一计算单元:将该领域知识点与候选知识点的相似度降序排列,选择排序在前 的预设数量的候选知识点作为该领域知识点的相关知识点;
[0117] 在其他可以替换的实施方案中,相关知识点计算单元包括第二计算单元:预先设 置一个相似度阈值,选取相似度大于该阈值的候选知识点作为该领域知识点的相关知识 点。
[0118] 本实施例中提供一种获取知识点的相关知识点的系统,包括分词单元、候选单元、 语义向量计算单元、提取单元、相似度计算单元以及相关知识点计算单元,采用计算语义向 量的方式,通过计算得到领域知识点与候选知识点的相似度,来获得与每个领域知识点相 关的候选知识点,从而得到每个领域知识点相关的若干个目标知识点。在建设百科目录的 词条时,可以查找每个领域知识点的相关知识点是否已经存在,如不存在,则需要增加。通 过这种方式来完成领域百科全书的词条的检查和建设,大大降低了人工的工作量。
[0119] 显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对 于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或 变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或 变动仍处于本发明创造的保护范围之中。
[0120] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序 产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实 施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机 可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产 品的形式。
[0121] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程 图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一 流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算 机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理 器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生 用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能 的装置。
[0122] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特 定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
[0123] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计 算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图 一个方框或多个方框中指定的功能的步骤。
[0124] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造 性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优 选实施例以及落入本发明范围的所有变更和修改。
【主权项】
1. 一种获取知识点的相关知识点的方法,其特征在于,包括: 对文本进行分词,得到分词结果; 根据分词结果和常用词,确定候选知识点; 确定每个候选知识点的语义向量; 获取领域知识点; 对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度; 根据计算出的语义相似度,确定与该领域知识点相关的目标知识点。2. 根据权利要求1所述的获取知识点相关知识点的方法,其特征在于,对文本进行分 词,得到分词结果的处理,包括: 选择领域数字资源,从中抽取文本; 使用分词器对所述文本进行分词,得到分词后的文件,作为候选文件。3. 根据权利要求1或2所述的获取知识点相关知识点的方法,其特征在于,所述根据分 词结果和常用词,确定候选知识点的过程,包括: 选择常用文本的数字资源,对其进行分词确定常用词; 将候选文件中的词语去除所述常用词,得到候选知识点。4. 根据权利要求1-3任一所述的获取知识点相关知识点的方法,其特征在于,所述确 定每个候选知识点的语义向量的过程,包括: 确定每个候选知识点在候选文件中出现的次数; 根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带权路径长度最 小的二叉树; 根据每个候选知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每 个候选知识点的语义向量。5. 根据权利要求4所述的获取知识点相关知识点的方法,其特征在于,所述根据每个 知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个知识点的语义向 量的过程,包括: 创建skip-gram模型; 以所述候选文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练; 训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候选知识点的语 义向量。6. 根据权利要求1-5任一所述的获取知识点相关知识点的方法,其特征在于,所述对 于每个领域知识点,计算该领域知识点与候选知识点的语义相似度的处理,包括: 所述语义相似度的计算方法为:其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。7. 根据权利要求1-5任一所述的获取知识点相关知识点的方法,其特征在于,所述对 于每个领域知识点,计算该领域知识点与候选知识点的语义相似度的处理,包括: gp·;士;五 \、/ 士1#的々+咎f、、/土斗1 -其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。8. 根据权利要求1-7任一所述的获取知识点相关知识点的方法,其特征在于,所述根 据计算出的语义相似度,确定与该领域知识点相关的目标知识点的处理,包括: 将该领域知识点与候选知识点的相似度降序排列,选择排序在前的预设数量的候选知 识点作为该领域知识点的相关知识点。 或预先设置一个相似度阈值,选取相似度大于该阈值的候选知识点作为该领域知识点 的相关知识点。9. 一种获取知识点的相关知识点的系统,其特征在于,包括: 分词单元:对文本进行分词,得到分词结果; 候选单元:根据分词结果和常用词,确定候选知识点; 语义向量计算单元:确定每个候选知识点的语义向量; 提取单元:获取领域知识点; 相似度计算单元:对于每个领域知识点,计算该领域知识点与候选知识点的语义相似 度; 相关知识点计算单元:根据计算出的语义相似度,确定与该领域知识点相关的目标知 识点。10. 根据权利要求1所述的获取知识点相关知识点的系统,其特征在于,分词单元包 括: 抽取单元:选择领域数字资源,从中抽取文本; 候选文件获取单元:使用分词器对所述文本进行分词,得到分词后的文件,作为候选文 件。11. 根据权利要求1或2所述的获取知识点相关知识点的系统,其特征在于,候选单元 包括: 常用词确定单元:选择常用文本的数字资源,对其进行分词确定常用词; 候选知识点确定单元:将候选文件中的词语去除所述常用词,得到候选知识点。12. 根据权利要求1-3任一所述的获取知识点相关知识点的系统,其特征在于,语义向 量计算单元包括: 统计单元:确定每个候选知识点在候选文件中出现的次数; 最优二叉树计算单元:根据每个候选知识点和该候选知识点在候选文本中出现的次 数,计算带权路径长度最小的二叉树; 语义向量确定单元:根据每个候选知识点在所述候选文本中的位置和带权路径长度最 小的二叉树,确定每个候选知识点的语义向量。13. 根据权利要求4所述的获取知识点相关知识点的系统,其特征在于,语义向量确定 单元,包括: 建模单元:创建skip-gram模型; 训练单元:以所述候选文件为训练样本,所述带权路径长度最小的二叉树为输出层,进 行训练; 计算单元:训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候选 知识点的语义向量。14. 根据权利要求1-5任一所述的获取知识点相关知识点的系统,其特征在于,相似度 计算单元包括计算公式,如下:其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。15. 根据权利要求1-5任一所述的获取知识点相关知识点的系统,其特征在于,所述相 似度计算单元包括语义相似度的计算公式为:其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。16. 根据权利要求1-7任一所述的获取知识点相关知识点的系统,其特征在于,相关知 识点计算单元包括: 第一计算单元:将该领域知识点与候选知识点的相似度降序排列,选择排序在前的预 设数量的候选知识点作为该领域知识点的相关知识点; 或第二计算单元:预先设置一个相似度阈值,选取相似度大于该阈值的候选知识点作 为该领域知识点的相关知识点。
【文档编号】G06F17/30GK105893363SQ201410497469
【公开日】2016年8月24日
【申请日】2014年9月26日
【发明人】叶茂, 汤帜, 徐剑波, 杨亮, 任彩红
【申请人】北大方正集团有限公司, 北京方正阿帕比技术有限公司, 北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1