一种面向学术文献的知识推荐方法

文档序号:10594079阅读:160来源:国知局
一种面向学术文献的知识推荐方法
【专利摘要】本发明涉及一种面向学术文献的知识推荐的方法,属于语言文字处理技术。为寻求有效的研究方法来解决研究工作中的问题,研究人员需要阅读大量的文献,深入了解领域内的学术知识与相关技术,通过思考、分析和大量的实验与尝试,提出并验证自己的想法。对于缺乏经验的研究人员,这项工作的难度更大。本发明提出构建基于学术概念间关系规约化的矩阵分解模型,为学术任务或者问题推荐学术方法,作为研究工作的参考。在传统矩阵分解模型的基础上,结合同类学术概念间的关系作为规约化条件,构建基于学术任务或者方法概念间关系规约化的矩阵分解模型MF?TRR与MF?MRR。面向学术文献的知识推荐致力于为研究人员的工作带来灵感,减轻研究工作负担,提高科研成果产量。
【专利说明】
-种面向学术文献的知识推荐方法
技术领域
[0001] 本发明属于语言文字处理及信息抽取技术领域,具体设及一种面向学术文献的知 识推荐的方法。
【背景技术】
[0002] 研究人员的一项重要工作是寻求有效的研究方法(如"graph-based ranking algorithm")来解决学术任务(如"document summarization")。运需要研究人员阅读大量 的文献,深入了解领域内的学术知识与相关技术,进而通过思考、分析和大量的实验与尝 试,最终提出并验证自己的想法。对于缺乏经验的研究人员,运项工作的难度更大。若计算 机能自动地为学术问题推荐若干研究方法,作为研究工作的参考,运将有助于减轻研究者 的工作负担,并从一定程度上提升研究效率。
[0003] 近年来,推荐系统和推荐技术已经在信息检索、机器学习、数据挖掘等多个领域进 行了广泛的研究。
[0004] 协同过滤模型是当前最流行的推荐技术之一,也是学术文献推荐常用的方法。协 同过滤根据用户的W往行为,如对产品(如学术文献)的选择情况或者对产品的评价,利用 用户与产品间的关系,用户之间W及产品之间的相互依赖联系,来预测新的用户与产品的 关系,从而对产品进行新的推荐。
[0005] 邻近信息法和矩阵分解模型是两类常用的推荐方法。邻近信息法的研究重点在于 如何寻找相似用户与相似的产品。基于产品的方法通过分析一个产品与用户已选择过的产 品的相似性,来预测用户对该产品的喜好。常用的相似性计算
[0006] 方法有皮尔逊相关系数(PCC)和向量空间相似性(VSS)。其中,文献综合地列举了 一系列基于产品相似性推荐模型的方法,包括相似性计算的方法和结合相似性进行推荐的 算法。文献结合了基于多种规模模式下的方法,建立互补模型来提高推荐效果,其中包括基 于邻近信息技术和类SVD矩阵分解模型,并对各算法进行一定的改进。
[0007] 近年来较为流行的一种推荐技术是基于协同过滤框架的矩阵分解模型。该模型通 过历史中的选择信息来学习影响用户与产品间关系的潜在因子,挖掘潜在因子矩阵表示用 户和产品,从而预测用户的选择。由于预测的准确性与良好的可扩展性,矩阵分解模型取得 很好的成效与广泛应用。矩阵分解模型可应用随机梯度下降法或交替最小二乘法,通过最 小化误差平方和进行模型推导。此外,在文献中,作者提出一种概率矩阵分解模型,应用贝 叶斯方法来自动控制模型的性能。与此同时,许多由化tflix竞赛、隐式反馈而产生的产品 评级预测研究(也被称为单类评级),也开始获得越来越多的关注[32]。
[000引随着相关学科领域研究方法的迅速发展,尤其是网络分析工具的日新月异,研究 人员开始重视网络结构在推荐工作中的作用,W及如何有效利用已知的信息网络结构特 征,来提高推荐的有效性。一个典型的例子便是社交网络,其包含的信息可被用来有效地提 高推荐效果。在文献中,作者分析了用户与产品间交互的网络信息,通过选择可W提高局部 聚类特性的边,来实现推荐。文献也通过对社交结构网络的利用,提出一种改进的推荐算 法。实现准确的推荐,需要较高的预测能力和大量的方法来定义推荐系统中相关实体间的 相似性。智能推荐系统更需要通过考虑整个网络结构来适应现实中的各种需求。
[0009] 然而,运些推荐系统与技术主要集中在对文献、产品或者朋友的推荐,对学术方法 的推荐在已有的工作中还未被设及。
[0010] 本发明提出对学术知识进行推荐。实际上,学术方法推荐是一项难度极大的工作, 因为大部分有效的研究方法是研究人员经过持之W恒的思考与日积月累的努力得出的,运 类学术方法难W实现自动推荐。然而,仍有一些学术方法存在实现自动推荐的可能性,可通 过已有的学术任务与学术方法之间的关系,W及学术概念之间的相似性进行推荐。例如,已 知两个学术任务(如"document summarization"和 "key地rase extraction")有一定的相 似性,若某个学术方法(如"gra地-based ranking algorithm")已经成功用于其中一个学 术任务,那么此方法可能也适用于另一个学术任务。又如,若两个学术方法(如 "similarity-based approach"和"class-based model")有一定的相似性,而其中一个学 术方法已经被应用于某个学术任务(如"document classification"),则另外一个方法也 具有应用于此任务的可能性。而且,在实际工作中,研究人员经常阅读相关领域中的文献, 并借鉴其他领域的研究方法,来帮助解决自身研究领域中的难题。可见,对学术方法推荐的 实现存在一定可能性。需强调,本发明的目标并不是为学术任务推荐完全没有出现过的学 术方法,而是推荐已经应用于其他学术任务,但未曾应用于当前任务的学术方法。

【发明内容】

[0011] 本发明所述的知识推荐方法构建基于学术概念间关系规约化的矩阵分解模型,为 学术任务或者问题推荐研究方法,作为研究工作的参考。面向学术文献的知识推荐致力于 为研究人员的工作带来一些灵感,助于减轻研究工作负担,提高科研成果的产量。
[001^ 为达到W上目的,本发明采用的技术方案是:
[0013] 面向学术文献的知识推荐方法,包括W下步骤:
[0014] (1)对于一定量的学术文献进行预处理,抽取文本的标题、摘要、引言和相关工作 四个部分,并对文本进行词性标注,抽取其中的名词性短语,在文中进行标注;
[0015] (2)应用基于条件随机场(Conditional Random Field,CRF)模型从文中抽取学术 概念,再应用支持向量机(Suppod Vector Machine,SVM)从抽取学术概念间的关系,并用 人工整理的强规则进行修正;
[0016] (3)计算同类学术概念间关系强度的大小;
[0017] (4)构建基于学术概念间关系规约化的关系矩阵分解模型,求得低秩同维的学术 任务特定矩阵和学术方法特定矩阵;
[0018] (5)计算每个学术任务特定向量与所有学术方法向量的内积,并进行排序,据此为 每个学术任务推荐前N个新的学术方法。
[0019] 进一步,为使本发明获得更好的发明效果,对学术文献文本的处理仅利用了文献 的标题、摘要、引言和相关工作部分。因为通常情况下,运几部分已涵盖论文中提及的大部 分学术概念及概念间的关系。而且,其他部分的文本,如方法描述与实验部分,常常含有许 多噪音,包括难W清理与准确抽取的公式和图表。
[0020] 进一步,用名词性短语来表示要抽取的学术知识(学术任务概念与学术方法概 念),因此在预处理过程中,应用名词性短语抽取工具(S化nford化P toolkit)从原文本中 抽出所有名词性短语,并在原文本中进行标注。
[0021] 进一步,为使本发明获得更好的发明效果,应用基于条件随机场(CRF)的模型,利 用序列标注的方式,对学术概念进行抽取。抽取模型中用到的特征包括当前词特征、当前词 的前后词特征、词性标注特征(Part-of-Speech)、名词性短语的特征和基于关键词的特征。 其中,名词性短语特征指一个词在其所属的名词性短语中的位置信息,包括名词性短语的 开头、中间、结尾,W及名词性短语之外。
[0022] 进一步,为使本发明获得更好的发明效果,对相关的关键词进行收集和总结,包括 学术方法相关的关键词、学术任务相关的关键词、学术方法相关的概念短语外关键词和学 术任务相关的概念短语外关键词。前两类关键词表仅包含名词,其中学术方法相关的有17 个词,如"algorithm"、"method"、"model";学术任务相关的有 10个词,如"pro ject"、 "problem"。后两类关键词表包含名词和动词,其中学术方法相关的有60个词,与学术任务 相关的有31个词,例如"propose"、"present"、"desc;r;Lbe"等。运些关键词表与文献领域无 关,故可W用于任何研究领域。
[0023] 基于CRF的学术概念抽取模型是有监督式的,所W在抽取前需要对一定量文献中 的学术概念进行人工标注。
[0024] 进一步,在数据准备过程中,对于文献文本中已标注的学术概念,将每个词作为一 个基本单位,根据CRF模型,W序列形式标注学术概念。若某个学术概念出现于文本中,则概 念短语中的每个词将被标注上相关的标签。
[0025] 进一步,为使本发明获得更好的发明效果,将抽取到的在文本中距离相近的学术 概念进行两两配对,应用支持向量机(SVM)分类器,判断两者是否存在关系,从而实现概念 间关系的抽取。抽取中用到的分类特征包括概念短语的长度和位置信息、概念间关系相关 的关键词W及关键词的位置信息。短语的长度计算中忽略括号W及括号中内容所占的长 度。概念短语的位置信息具体包括其在句子中的位置、概念对中两个短语在文中的前后顺 序W及两者之间的距离。
[0026] 进一步,为使本发明获得更好的发明效果,对概念间关系相关的关键词进行收集 和总结。运类关键词既可指一个词,也可指一个短语,主要包括体现两个学术概念间关系的 短语,例女日"based on"、"enhancement"、('developed on"等。
[0027] 基于SVM分类器的学术概念间关系的抽取是有监督式的,所W在抽取前需要对一 定量文献中的学术概念间关系进行人工标注。
[00%]进一步,为确保抽取到的学术知识的准确性,用基于CRF的算法及SVM分类器进行 初次抽取后,利用总结的强规则对数据进行调整,对一些遗漏的数据进行补充,检查并删除 可能错误的抽取结果,并将表达相同学术概念的不同短语或者意义相近的概念短语进行合 并。
[0029] 进一步,为使本发明获得更好的发明效果,本发明所应用的基本的矩阵分解模型 目标函数为
[0030]
(1)
[0031] 其中,关系矩阵R来描述学术任务与学术方法之间的关系,r S巧/XW表示学术任 务特定矩阵,游€潔/XK表示学术方法特定矩阵,f是预设的向量维数。
[0032] 进一步,引入一组变量Cu,作为指示函数,用于表示关系矩阵中不同元素的置信 值。
[0033]
(2)
[0034] 其中,a为正数,通过改变a值,便可调整任务-方法学术概念关系的置信度。
[0035] 进一步,为了避免过拟合现象,通常为公式增加两个正则化的条件项
庚中At,Am>0是两个参数。在实际推荐系统中,由于每个学术任务通 常仅应用了少部分的学术方法,所W关系矩阵巧自常稀疏,在矩阵分解中容易产生过拟合现 象。
[0036] 进一步,为使本发明获得更好的发明效果,在推荐模型中加入学术概念间关系规 约化,将同类学术概念间关系融入矩阵分解模型中,W提高学术方法推荐的效果。根据学术 概念的类型,得到两个模型,即基于学术任务概念间关系规约化的矩阵分解模型(MF-TRR) 和基于学术方法概念间关系规约化的矩阵分解模型(MF-MRR)。
[0037]
[00;3 引
[0039] 其中,£宗代表任务概念Tl所演化的来源任务概念集,则代表方法概念Mi 所依赖、演化或者基于的源方法概念集。参数e用于平衡模型中原始的矩阵分解项和新加入 的规约化条件项之间的权重。当e=o时,新加入的规约化条件项不起任何作用,而当e的值 很大时,概念间关系规约化将主导整个模型。本发明方法中,通过网格捜索法,得到e=別寸 推荐的总体效果较好。推荐系统其他参数设置为:f = 200,a = 200,At = A"=l。
[0040] weig(i,k)是同类学术概念间关系的权重,由概念间关系的强度值来确定,必须满 足归一化条件:
[0041] weig(i,k)>0, (4)
[00创
巧)
[0043]进一步,为使本发明获得更好的发明效果,基于已抽取到的学术概念及概念间关 系,采用S种不同的方法,计算学术概念间关系的强度weig(i,k)。
[0044] I)假设所有指向概念Vi的关系的强度值是一样的,基于平均值计算法计算概念间 关系强度:
[0045] (6)
[0046]
[0047] 2)应用基于二重SimRank计算法来计算同类学术概念间关系的强度。用Tki、Tk2表 示两个不同的学术任务概念,Mki、Mk2表示两个不同的学术方法概念,则可列出W下循环迭 代公式:
[0048;
[0049;
[0050] 其中,weign(*,*)表示在第n次迭代中的学术概念间关系强度值,Ii(Tk)是与学术 任务Tk相关联的学术方法概念集合,而Ii(Mk)是与学术方法Mk相关联的学术任务概念集合。 循环初始时,学术概念与自身关系的强度设为1 (该值在迭代中保持不变),两个相关联的不 同学术概念间的强度设为0.5,其他概念间的关系强度设为0。循环计算在两类概念间进行 交替迭代,直到两次迭代之间学术概念间关系强度值的变化落入阔值范围内。
[0051] 通过基于SimRank算法循环计算后,所有的概念间关系强度值将依据公式(5)中的 约束进行归一化。
[0052] 3)进一步利用同类概念间的文本信息,应用另一种基于相似度传播算法MRSSA的 关系强度计算方法。在概念间关系强度计算前,首先整理出停用词表,从短语中去掉可能对 结果产生干扰的词,包括一些功能性词语(如V'、"the"、"some")和关键词(如"method"、 "algorithm"等)。概念间关系强度计算公式修改如下:
[0化3] 巧)
[0化4] I (10)
[0055] (!巧
[0化6] weigr/ (Mki,Mk2)=]i ? weigw(Mki,Mk2)+v ? weign(Mki,Mk2) (12)
[0057]其中,4+乂 = 1,巧61旨/(*,*)表示修改后的强度值。每次迭代中,概念间关系强度值 依据公式(7-8)进行计算,再依据公式(9-12)进行修改,然后进入下一轮的循环,直到符合 收敛条件。
[005引进一步,为使本发明获得更好的发明效果,应用交替最小二乘法(Alternating Least Square,ALS)进行模型参数估计。对学术任务特定矩阵和学术方法特定矩阵的进行 交替计算,直到达到收敛条件。其中,基于学术方法间关系规约化的矩阵分解模型求解公式 如下所示。
[0059] Ti=(MTciM+AuI^VciRt(i) (13)
[0062] 其中,I是全1矩阵;Rt (i) G r,包含学术任务Ti对学术方法的所有选择;Rm( j) G r, 包含学术方法M巧能被应用的所有学术任务。Cl是一个nXn的对角矩阵,其对角元素 Cii、与
[0060]
[0061] 公式(2)中的Cid相等;C是一个mXm的对角矩阵,其对角元素与Cd如目等。
[0063] 本发明还提供面向学术文献的知识推荐系统,用于为学术任务推荐新的学术方 法,包括W下装置:文本预处理装置,学术概念与概念间关系抽取装置,同类学术概念间关 系强度计算装置,结合概念间关系规约化的关系矩阵分解装置,前N个学术方法推荐装置。
[0064] 其中,文本预处理装置用于对于一定量的学术文献进行预处理,对文本进行词性 标注,抽取其中的名词性短语,并在文中进行标注;
[0065] 学术概念与概念间关系抽取装置用于从文献文本中抽取学术概念及概念间关系;
[0066] 同类学术概念间关系强度计算装置用不同的方法来计算同类学术概念间关系强 度的大小,从而对不同关系进行区别对待;
[0067] 结合概念间关系规约化的关系矩阵分解装置用于构建基于学术概念间关系规约 化的关系矩阵分解模型,得到低秩同维的学术任务特定矩阵和学术方法特定矩阵;
[0068] 前N个学术方法推荐装置通过学术任务特定矩阵与学术方法特定矩阵间内积的计 算与排序,为每个学术任务推荐前N个新的学术方法。
[0069] 本发明的效果在于:通过构建基于学术概念间关系规约化的矩阵分解模型,全面 利用了学术概念间关系信息,避免了推荐系统中的冷启动问题,从而使学术方法的推荐更 为综合与可靠,同时降低了系统复杂度,减小了计算量,提高了摘要效率。另一方面,采用基 于SimRank和基于MRSSA的概念间关系强度计算方法,通过分析已有的学术概念间关系,充 分利用异类概念间的关系,使得推荐结果更合理可靠。本方法能够应用于不同研究领域间 学术研究方法的推荐,为研究人员的工作提供参考,从一定程度上提高研究效率。
【附图说明】
[0070] 图1是本发明所述方法的流程图。
【具体实施方式】
[0071] 下面结合附图进一步阐明本发明所述的技术方案:
[0072] 如图1所示,一种面向学术文献的知识推荐方法,包括W下步骤:
[0073] (1)文本预处理。读入某一定量的文献文本,仅提取文献的标题、摘要、引言和相关 工作部分。对文本进行预处理,过滤掉一些明显的噪音,并应用名词性短语抽取工具 (StanfordNLP too化it)从原文本中抽出所有名词性短语,并在原文本中进行标注。
[0074] (2)学术概念与概念间关系抽取。应用基于条件随机场(CRF)的模型,利用序列标 注的方式,对学术概念进行抽取。抽取模型中用到的特征包括当前词特征、当前词的前后词 特征、词性标注特征(Part-Of-Speech)、名词性短语的特征和基于关键词的特征。其中,名 词性短语特征指一个词在其所属的名词性短语中的位置信息,包括名词性短语的开头、中 间、结尾,W及名词性短语之外。
[0075] 其中,对相关的关键词进行收集和总结,包括学术方法相关的关键词、学术任务相 关的关键词、学术方法相关的概念短语外关键词和学术任务相关的概念短语外关键词。前 两类关键词表仅包含名词,其中学术方法相关的有17个词,如"algorithm"/'method"、 "model";学术任务相关的有10个词,如"project"、"problem"。后两类关键词表包含名词和 动词,其中学术方法相关的有60个词,与学术任务相关的有31个词,例如"propose"、 "present"、"describe"等。运些关键词表与文献领域无关,故可W用于任何研究领域。
[0076] 由于基于CRF的学术概念抽取模型是有监督式的,所W在抽取前需要对一定量文 献中的学术概念进行人工标注。
[0077] 对于文献文本中已标注的学术概念,将每个词作为一个基本单位,根据CRF模型, W序列形式标注学术概念。若某个学术概念出现于文本中,则概念短语中的每个词将被标 注上相关的标签。
[0078] 将抽取到的在文本中距离相近的学术概念进行两两配对,应用支持向量机(SVM) 分类器,判断两者是否存在关系,从而实现概念间关系的抽取。抽取中用到的分类特征包括 概念短语的长度和位置信息、概念间关系相关的关键词W及关键词的位置信息。短语的长 度计算中忽略括号W及括号中内容所占的长度。概念短语的位置信息具体包括其在句子中 的位置、概念对中两个短语在文中的前后顺序W及两者之间的距离。
[0079] 其中,需要对概念间关系相关的关键词进行收集和总结。运类关键词既可指一个 词,也可指一个短语,主要包括体现两个学术概念间关系的短语,例如"based on"、 "enhancement"、('developed on"等。
[0080] 由于基于SVM分类器的学术概念间关系的抽取是有监督式的,所W在抽取前需要 对一定量文献中的学术概念间关系进行人工标注。
[0081] 用基于CRF的算法及SVM分类器进行初次抽取后,利用总结的强规则对数据进行调 整,对一些遗漏的数据进行补充,检查并删除可能错误的抽取结果,并将表达相同学术概念 的不同短语或者意义相近的概念短语进行合并。
[0082] (3)同类学术概念间关系强度计算。weig(i,k)表示概念间关系的强度值来确定, 必须满足归一化条件:
[0083] weig(i,k)>0, (1)
[0084]

[0085] 基于已抽取到的学术概念及概念间关系,采用=种不同的方法,计算学术概念间 关系的强度weig( i,k)。
[0086] 1)假设所有指向概念Vi的关系的强度值是一样的,基于平均值计算法计算概念间 关系强度:
[0087] 巧)
[008引
[0089] 2)应用基于二重SimRank计算法来计算同类学术概念间关系的强度。用Tki、Tk2表 示两个不同的学术任务概念,Mki、Mk2表示两个不同的学术方法概念,则可列出W下循环迭 代公式,
[0090]
[0091]
[0092] 其中,weign(*,*)表示在第n次迭代中的学术概念间关系强度值,Ii(Tk)是与学术 任务Tk相关联的学术方法概念集合,而Ii(Mk)是与学术方法Mk相关联的学术任务概念集合。 循环初始时,学术概念与自身关系的强度设为1 (该值在迭代中保持不变),两个相关联的不 同学术概念间的强度设为0.5,其他概念间的关系强度设为0。循环计算在两类概念间进行 交替迭代,直到两次迭代之间学术概念间关系强度值的变化落入阔值范围内。
[0093] 通过基于SimRank算法循环计算后,所有的概念间关系强度值将依据公式(2)中的 约束进行归一化。
[0094] 3)进一步利用同类概念间的文本信息,应用另一种基于相似度传播算法MRSSA的 关系强度计算方法。在概念间关系强度计算前,首先整理出停用词表,从短语中去掉可能对 结果产生干扰的词,包括一些功能性词语(如V'、"the"、"some")和关键词(如"method"、 "algorithm"等)。概念间关系强度计算公式修改如下:
[0095] (6)
[0096] (7)
[0097] 舞3 [009引 weign' (Mki,Mk2)=]i ? weigw(Mki,Mk2)+v ? weign(Mki,Mk2) (9)
[0099] 其中,4+乂 = 1,巧61旨/(*,*)表示修改后的强度值。每次迭代中,概念间关系强度值 依据公式(4-5)进行计算,再依据公式(6-9)进行修改,然后进入下一轮的循环,直到符合收 敛条件。
[0100] (4)结合概念间关系规约化的关系矩阵分解中,所应用的基本的矩阵分解模型目 标函数为
[0101]
(10)
[0102] 其中,关系矩阵R来描述学术任务与学术方法之间的关系,F E巧表示学术任 务特定矩阵,游表示学术方法特定矩阵,f是预设的向量维数。
[0103] 引入一组变量Cu,作为指示函数,用于表示关系矩阵中不同元素的置信值。
[0104]
(11)
[0105] 其中,a为正数,通过改变a值,便可调整任务-方法学术概念关系的置信度。
「mOAl * T 化过拟合现象,通常为公式增加两个正则化的条件项 其中At,Am>0是两个参数。在实际推荐系统中,由于每个学术任务通 常仅应用了少部分的学术方法,所W关系矩阵巧自常稀疏,在矩阵分解中容易产生过拟合现 象。
[0107]在推荐模型中加入学术概念间关系规约化,将同类学术概念间关系融入矩阵分解 模型中,W提高学术方法推荐的效果。根据学术概念的类型,得到两个模型,即基于学术任 务概念间关系规约化的矩阵分解模型(MF-TRR)和基于学术方法概念间关系规约化的矩阵 分解模型(MF-MRR)。
[010 引
[0109]
[0110] 其中,愛51?代表任务概念Tl所演化的来源任务概念集,Ci掠)则代表方法概念Mi 所依赖、演化或者基于的源方法概念集。参数e用于平衡模型中原始的矩阵分解项和新加入 的规约化条件项之间的权重。当e=o时,新加入的规约化条件项不起任何作用,而当e的值 很大时,概念间关系规约化将主导整个模型。本发明方法中,通过网格捜索法,得到e=別寸 推荐的总体效果较好。推荐系统其他参数设置为:f = 200,a = 200,At = Am=l。
[0111] 应用交替最小二乘法(Alternating Least Square,ALS)进行模型参数估计。对学 术任务特定矩阵和学术方法特定矩阵的进行交替计算,直到达到收敛条件。其中,基于学术 方法间关系规约化的矩阵分解模型求解公式如下所示。
[0112] Ti=(M^^+AJ)-Vc^Rt(i) (13)
[0115] 其中,I是全1矩阵;Rt(i) GRn,包含学术任务Tl对学术方法的所有选择;Rm(J)GRm, 包含学术方法M巧能被应用的所有学术任务。Cl是一个nXn的对角矩阵,其对角元素与
[0113
[0114 段 公式(11)中的Cid相等;C是一个mXm的对角矩阵,其对角元素与Cd处目等。
[0116] (5)推荐前N个学术方法。在求得的学术任务特定矩阵与学术方法特定矩阵中,计 算每个学术任务特定向量与所有该任务未应用过的学术方法向量的内积,并对内积进行排 序。根据排序结果,选取前N个学术方法,推荐给该学术任务。
[0117] 本发明还提供面向学术文献的知识推荐系统,用于为学术任务推荐新的学术方 法,包括W下装置:文本预处理装置,学术概念与概念间关系抽取装置,同类学术概念间关 系强度计算装置,结合概念间关系规约化的关系矩阵分解装置,前N个学术方法推荐装置。
[0118] 其中,文本预处理装置用于对于一定量的学术文献进行预处理,对文本进行词性 标注,抽取其中的名词性短语,并在文中进行标注;
[0119] 学术概念与概念间关系抽取装置用于从文献文本中抽取学术概念及概念间关系;
[0120] 同类学术概念间关系强度计算装置用不同的方法来计算同类学术概念间关系强 度的大小,从而对不同关系进行区别对待;
[0121] 结合概念间关系规约化的关系矩阵分解装置用于构建基于学术概念间关系规约 化的关系矩阵分解模型,得到低秩同维的学术任务特定矩阵和学术方法特定矩阵;
[0122] 前N个学术方法推荐装置通过学术任务特定矩阵与学术方法特定矩阵间内积的计 算与排序,为每个学术任务推荐前N个新的学术方法。
[0123] 在一定量学术文献上的实验表明,本发明所述的方法的学术知识推荐效果明显优 于传统的协同过滤模型与基本的矩阵分解模型。
[0124] 本发明的效果在于:通过构建基于学术概念间关系规约化的矩阵分解模型,全面 利用了学术概念间关系信息,避免了推荐系统中的冷启动问题,从而使学术方法的推荐更 为综合与可靠,同时降低了系统复杂度,减小了计算量,提高了摘要效率。另一方面,采用基 于SimRank和基于MRSSA的概念间关系强度计算方法,通过分析已有的学术概念间关系,充 分利用异类概念间的关系,使得推荐结果更合理可靠。本方法能够应用于不同研究领域间 学术研究方法的推荐,为研究人员的工作提供参考,从一定程度上提高研究效率。
[0125]本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的 技术创新范围。
【主权项】
1. 一种面向学术文献的知识推荐方法,包括以下步骤: (1) 对于一定数量的学术文献进行预处理,抽取文本的标题、摘要、引言和相关工作四 个部分,并对文本进行词性标注,抽取其中的名词性短语,在文中进行标注; (2) 应用基于条件随机场(Conditional Random Field,CRF)模型从文中抽取学术概 念,再应用支持向量机(Support Vector Machine,SVM)从抽取学术概念间的关系,并用人 工整理的强规则进行修正; (3) 计算同类学术概念间关系强度的大小; (4) 构建基于学术概念间关系规约化的关系矩阵分解模型,求得低秩同维的学术任务 特定矩阵和学术方法特定矩阵; (5) 计算每个学术任务特定向量与所有学术方法向量的内积,并进行排序,据此为每个 学术任务推荐前N个新的学术方法。2. 如权利要求1所述的面向学术文献的知识推荐方法,其特征在于,仅利用了文献的标 题、摘要、引言和相关工作部分;因为通常情况下,这几部分已涵盖论文中提及的大部分学 术概念及概念间的关系;而且,其他部分的文本,如方法描述与实验部分,常常含有许多噪 音,包括难以清理与准确抽取的公式和图表。3. 如权利要求1所述的面向学术文献的知识推荐方法,其特征在于,用名词性短语来表 示要抽取的学术知识(学术任务概念与学术方法概念),因此在预处理过程中,应用名词性 短语抽取工具(StanfordNLP toolkit)从原文本中抽出所有名词性短语,并在原文本中进 行标注。4. 如权利要求3所述的面向学术文献的知识推荐方法,其特征在于,应用基于条件随机 场(CRF)的模型,利用序列标注的方式,对学术概念进行抽取; 4.1、 基于CRF的学术概念抽取模型是有监督式的,所以在抽取前需要对一定量文献中 的学术概念进行人工标注; 4.2、 在数据准备中,对文献文本中已标注的学术概念,将每个词作为一个基本单位,根 据CRF模型,以序列形式标注学术概念;若某个学术概念出现于文本中,则概念短语中的每 个词将被标注上相关的标签; 4.3、 基于CRF的抽取模型中用到的特征包括当前词特征、当前词的前后词特征、词性标 注特征(Part-of-Speech)、名词性短语的特征和基于关键词的特征;其中,名词性短语特征 指一个词在其所属的名词性短语中的位置信息,包括名词性短语的开头、中间、结尾,以及 名词性短语之外; 4.4、 在4.3中所提及的关键词皆由人工进行收集和总结,包括学术方法相关的关键词、 学术任务相关的关键词、学术方法相关的概念短语外关键词和学术任务相关的概念短语外 关键词;前两类关键词表仅包含名词,其中学术方法相关的有17个词,如"algorithm"、 "method"、"model" ;学术任务相关的有10个词,如"pro ject"、"problem" ;后两类关键词表 包含名词和动词,其中学术方法相关的有60个词,与学术任务相关的有31个词,例如 "propose"、"present"、"describe"等;这些关键词表与文献领域无关,故可以用于任何研 究领域。5. 如权利要求1所述的面向学术文献的知识推荐方法,其特征在于,将抽取到的在文本 中距离相近的学术概念进行两两配对,应用支持向量机(SVM)分类器,判断两者是否存在关 系,从而实现概念间关系的抽取; 5.1、 基于SVM分类器的学术概念间关系的抽取是有监督式的,所以在抽取前需要对一 定量文献中的学术概念间关系进行人工标注; 5.2、 基于SVM的概念间关系抽取中用到的分类特征包括概念短语的长度和位置信息、 概念间关系相关的关键词以及关键词的位置信息;短语的长度计算中忽略括号以及括号中 内容所占的长度;概念短语的位置信息具体包括其在句子中的位置、概念对中两个短语在 文中的前后顺序以及两者之间的距离; 5.3、 在5.2中所提及的概念间关系相关的关键词既可指一个词,也可指一个短语,亦由 人工进行收集和总结;这类关键词主要包括体现两个学术概念间关系的短语,例如"based on"、"enhancement"、"developed on" 等。6. 如权利要求4、5所述的面向学术文献的知识推荐方法,其特征在于,为确保抽取到的 学术知识的准确性,用基于CRF的算法及SVM分类器进行初次抽取后,利用总结的强规则对 数据进行调整,对一些遗漏的数据进行补充,检查并删除可能错误的抽取结果,并将表达相 同学术概念的不同短语或者意义相近的概念短语进行合并。7. 如权利要求1所述的面向学术文献的知识推荐方法,其特征在于,本发明所应用的基 本的矩阵分解模型目标函数为其中,关系矩阵R来描述学术任务与学术方法之间的关系,,€ :表示学术任务特 定矩阵,11 € .潑表示学术方法特定矩阵,f是预设的向量维数。8. 如权利要求7所述的面向学术文献的知识推荐方法,其特征在于,引入一组变量(^, 作为指示函数,用于表示关系矩阵中不同元素的置信值;其中,α为正数,通过改变α值,便可调整任务-方法学术概念关系的置信度。9. 如权利要求7所述的面向学术文献的知识推荐方法,其特征在于,为了避免过拟合现象,通常为公式增加两个正则化的条件?! 是两个参 数;在实际推荐系统中,由于每个学术任务通'吊'1 乂Μ用J少部甘的字术方法,所以关系矩阵 R非常稀疏,在矩阵分解中容易产生过拟合现象。10. 如权利要求7所述的面向学术文献的知识推荐方法,其特征在于,在推荐系统中,一 些学术方法存在着被应用于某些学术任务中的可能,但由于这些方法是最新提出的,关于 这些方法应用于学术任务的例子比较少,在传统的矩阵分解模型中,这些方法难以被推荐 出来;这类似于冷启动问题; 另外,在本发明的知识推荐中,存在两类概念间的关系,即任务与方法之间的关系(异 类概念间关系),和两个任务或两个方法之间的关系(同类概念间关系);在异类概念关系预 测中,同类概念间的关系也包含丰富的潜在有用信息,不可被忽视;在任务-任务关系中,可 以利用学术任务间的演化关系;类似地,在方法-方法关系中,可以利用学术方法间的演化、 扩展和增强的关系; 综上所述,本发明将同类学术概念间关系融入矩阵分解模型中,以提高学术方法推荐 的效果;根据学术概念的类型,得到两个模型,即基于学术任务概念间关系规约化的矩阵分 解模型(MF-TRR)和基于学术方法概念间关系规约化的矩阵分解模型(MF-MRR)。11. 如权利要求10所述的面向学术文献的知识推荐方法,其特征在于,€:;(〇代表任务 概念h所演化的来源任务概念集,则代表方法概念1所依赖、演化或者基于的源方 法概念集。12. 如权利要求10所述的面向学术文献的知识推荐方法,其特征在于,参数β用于平衡 模型中原始的矩阵分解项和新加入的规约化条件项之间的权重;当β = 〇时,新加入的规约 化条件项不起任何作用,而当β的值很大时,概念间关系规约化将主导整个模型;本发明方 法中,通过网格搜索法,得到β=8时推荐的总体效果较好。13. 如权利要求10所述的面向学术文献的知识推荐方法,其特征在于,基于学术概念间 关系规约化的矩阵分解模型,参数设置为:f = 200,α = 200,At = &= 1,β = 8。14. 如权利要求10所述的面向学术文献的知识推荐方法,其特征在于,weig(i,k)是同 类学术概念间关系的权重,由概念间关系的强度值来确定,必须满足归一化条件: weig(i,k)^0, (4)15. 如权利要求10、12所述的面向学术文献的知识推荐方法,其特征在于,基于已抽取 到的学术概念及概念间关系,采用三种不同的方法,计算学术概念间关系的强度weig(i, k); 15.1、 假设所有指向概念W的关系的强度值是一样的,基于平均值计算法计算概念间关 系强度:其中,tsci'i); 15.2、 应用基于二重5加1^他计算法来计算同类学术概念间关系的强度;用1\1、1\2表示 两个不同的学术任务概念,M kl、Mk2表示两个不同的学术方法概念,则可列出以下循环迭代 公式:其中,weign(*,*)表示在第η次迭代中的学术概念间关系强度值,MTk)是与学术任务Tk 相关联的学术方法概念集合,而MMk)是与学术方法Mk相关联的学术任务概念集合;循环初 始时,学术概念与自身关系的强度设为1 (该值在迭代中保持不变),两个相关联的不同学术 概念间的强度设为0.5,其他概念间的关系强度设为0;循环计算在两类概念间进行交替迭 代,直到两次迭代之间学术概念间关系强度值的变化落入阈值范围内; 通过基于SimRank算法循环计算后,所有的概念间关系强度值将依据公式(5)中的约束 进行归一化; 15.3、进一步利用同类概念间的文本信息,应用另一种基于相似度传播算法MRSSA的关 系强度计算方法;在概念间关系强度计算前,首先整理出停用词表,从短语中去掉可能对结 果产生干扰的词,包括一些功能性词语(如"a"、"the"、"some")和关键词(如"method"、 "algorithm"等);概念间关系强度计算公式修改如下:weig/ (Mki,Mk2)=y · weigw(Mki,Mk2)+v · weign(Mki,Mk2) (12) 其中,μ+ν = 1,weigr/ (*,*)表示修改后的强度值;每次迭代中,概念间关系强度值依据 公式(7-8)进行计算,再依据公式(9-12)进行修改,然后进入下一轮的循环,直到符合收敛 条件。16.如权利要求10所述的面向学术文献的知识推荐方法,其特征在于,应用交替最小二 乘法(Alternating Least Square,ALS)进行模型参数估计;对学术任务特定矩阵和学术方 法特定矩阵的进行交替计算,直到达到收敛条件; 其中,基于学术方法间关系规约化的矩阵分解模型求解公式如下所示; Τι = (I) - Vc^t (i) (13)其中,I是全1矩阵;Rt(i)eRn,包含学术任务Ti对学术方法的所有选择;Rm( j) e Rm,包含 学术方法吣可能被应用的所有学术任务;C1是一个nXn的对角矩阵,其对角元素与公式 (2)中的Cld相等;G是一个m Xm的对角矩阵,其对角元素与(^相等。17.面向学术文献的知识推荐系统,用于为学术任务推荐新的学术方法,包括以下装 置:文本预处理装置,学术概念与概念间关系抽取装置,同类学术概念间关系强度计算装 置,结合概念间关系规约化的关系矩阵分解装置,前N个学术方法推荐装置; 其中,文本预处理装置用于对于一定量的学术文献进行预处理,对文本进行词性标注, 抽取其中的名词性短语,并在文中进行标注; 学术概念与概念间关系抽取装置用于从文献文本中抽取学术概念及概念间关系; 同类学术概念间关系强度计算装置用不同的方法来计算同类学术概念间关系强度的 大小,从而对不同关系进行区别对待; 结合概念间关系规约化的关系矩阵分解装置用于构建基于学术概念间关系规约化的 关系矩阵分解模型,得到低秩同维的学术任务特定矩阵和学术方法特定矩阵; 前N个学术方法推荐装置通过学术任务特定矩阵与学术方法特定矩阵间内积的计算与 排序,为每个学术任务推荐前N个新的学术方法。
【文档编号】G06F17/30GK105955975SQ201610235634
【公开日】2016年9月21日
【申请日】2016年4月15日
【发明人】黄珊珊, 万小军, 唐学伟
【申请人】北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1