一种数字教育资源推荐方法及系统的制作方法

文档序号:10512295阅读:244来源:国知局
一种数字教育资源推荐方法及系统的制作方法
【专利摘要】本发明公开了一种数字教育资源推荐方法,其特征在于,包括以下步骤:(1)提取教育资源的文本信息;(2)将文本信息数字化处理,得到文本数字矩阵;(3)将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识别器输出教育资源特征向量;(4)将教育资源特征向量与用户特征向量相乘,得到学生对教育资源的兴趣度。本发明从资源文本信息中提取教育资源特征,并结合学生特征判定学生对资源的兴趣度,任何只要有部分文字说明的资源均可适用该方法,适用面广,推荐满意度高。
【专利说明】
一种数字教育资源推荐方法及系统
技术领域
[0001] 本发明涉及教育信息化领域,尤其涉及一种数字教育资源推荐方法及系统。
【背景技术】
[0002] 近十年来,互联网规模和覆盖面的迅速增长带来了信息超载的问题,为了解决这 个问题推荐系统变得流行起来。推荐系统被用于很多场景,例如:电影、音乐、新闻、研究论 文等。在基于教育云的在线教育领域也采取了推荐系统去使得学生提升学习效率和体验 度,并为学生提供个性化的学习服务。
[0003] 目前,实现推荐系统的方法有很多,这些方法主要可分为两大类:协同过滤方法和 基于内容的推荐方法。协同过滤的基本思想是:找到与当前用户相似(比如兴趣和口味相 似)的其他用户,并结合相似用户的评价记录进行推荐,在日常生活中,我们往往会利用好 朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到推荐系统中来。但是协同过 滤容易陷入"冷启动"问题,在面对新资源或者冷门资源时不能正常工作。基于内容的推荐 是指根据用户选择的对象,推荐其他类似属性的对象作为推荐。这一推荐策略首先提取推 荐对象的内容特征,和用户模型中的用户兴趣偏好匹配,匹配度较高的推荐对象就可作为 推荐结果推荐给用户,但是构建资源的内容特征往往需要大量的人工参与,并且很难得到 合适的特征。

【发明内容】

[0004] 针对现有技术中的缺陷,本发明的技术目的在于提供一种数字教育资源推荐方法 及系统,从资源文本信息中提取教育资源特征,并结合学生特征判定学生对资源的兴趣度, 任何只要有部分文字说明的资源均可适用该方法,适用面广,推荐满意度高。
[0005] -种数字教育资源推荐方法,包括以下步骤:
[0006] (1)提取教育资源的文本信息;
[0007] (2)将文本信息数字化处理,得到文本数字矩阵;
[0008] (3)将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识别器输出教 育资源特征向量;
[0009] (4)将教育资源特征向量与用户特征向量相乘,得到学生对教育资源的兴趣度。
[0010] 进一步地,所述步骤(4)中的用户特征向量按照如下方式确定:
[0011] 初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表示影响用户兴趣度 的隐含因子,记表示用户特征矩阵U的第i行用户特征向量;
[0012] 初始化资源特征矩阵V,资源特征矩阵V中的行表示教育资源,列表示影响用户兴 趣度的隐含因子,记f表示特征资源矩阵V的第j行资源特征向量;
[0013] 确定用户-资源矩阵,用户-资源矩阵中的元素〇」表示用户i对资源j的兴趣度分 值;
[0014]
为目标函数,计算确定用户特征向量和特征资源向 量Κ/:,其中上标τ表示转置。
[0015] 进一步地,所述步骤(2)将文本信息数字化处理得到文本信息矩阵的具体实现过 程为:对文本信息进行分词处理,将所得的每一个词采用向量表示,各词向量组成为文本数 字矩阵。
[0016] 进一步地,采用选择话题模型或分布式表达模型作为语言模型,将所得的每一个 词采用向量表示。
[0017] 进一步地,所述资源特征识别器采用卷积神经网络、时间递归神经网络、循环神经 网络中的任意一种训练得到。
[0018] -种数字教育资源推荐系统,包括以下模块:
[0019] 第一模块,用于提取教育资源的文本信息;
[0020] 第二模块,用于将文本信息数字化处理,得到文本数字矩阵;
[0021] 第三模块,用于将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识 别器输出教育资源特征向量;
[0022] 第四模块,用于将教育资源特征向量与用户特征向量相乘,得到学生对教育资源 的兴趣度。
[0023]进一步地,所述第四模块包括:
[0024]第四一子模块,用于初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表 示影响用户兴趣度的隐含因子,记q4表示用户特征矩阵U的第i行用户特征向量;
[0025] 第四二子模块,用于初始化资源特征矩阵V,资源特征矩阵V中的行表示教育资源, 列表示影响用户兴趣度的隐含因子,记f表示特征资源矩阵V的第j行资源特征向量;
[0026] 第四三子模块,用于确定用户-资源矩阵,用户-资源矩阵中的元素rij表示用户i对 资源j的兴趣度分值;
[0027] 第四四子模块,
为目标函数,计算确定用户特征向 量和特征资源向量巧,其中上标T表示转置。
[0028]本发明的技术效果体现在:
[0029]在云教育环境下,产生了大量的学习资源,使得学生难以在其环境中找到合适的、 有帮助的学习资源,陷入"资源迷航"的困境中,而本发明教育资源推荐方法则是破除这一 困境的有效方法。相对于传统的推荐方法,本发明能够直接利用资源文本信息,预估其特征 值,结合学生特征直接做出推荐。高效地利用了资源文本信息,任何只要有部分文字说明的 资源均可适用该方法,适用面广。试验表明,推荐结果用户满意度高,克服了传统推荐方法 中的"冷启动"问题。
【附图说明】
[0030]图1是本发明方法流程图;
[0031]图2是卷积神经网络的构造;
[0032] 图3是卷积神经网络训练示意图;
[0033] 图4是训练隐含因子模型的流程图。
【具体实施方式】
[0034]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要 彼此之间未构成冲突就可以相互组合。
[0035]请参考图1,本发明提供了一种数字教育资源推荐方法,包括以下步骤:
[0036]步骤1,提取教育资源的文本信息。
[0037]所述教育资源可以是譬如WorcUText的文本、网页、音频、视频、PPT等各种类型。如 果是文本资源,可以直接提取文本全文内容或部分资源文字简介,如果是文本以外的资源, 则提取资源文字简介。
[0038]步骤2,文本信息数字化。
[0039] 将提取的文本信息进行分词处理,按照分词前的次序,形成一个有序的词序列。使 用语言模型将每个词用对应的向量表示,结合之前生成的词序列,形成一个矩阵来表示原 文本信息。
[0040] 分词处理采用的语言模型要单独训练,训练资源推荐为大规模语料库。可以采取 词语的话题模型或者分布式表达模型作为语言模型。
[0041]如果选择话题模型,则将一个词表示成为多个话题上的从属概率(向量),训练方 法为LDA(见文南犬:D.M.Blei,A.Y.Ng, and Μ· I .Jordan,''Latent dirichlet allocation, the Journal of machine Learning research,vol·3,pp·993-1022,2003·)〇 [0042] 如果选择分布式表达模型,则将一个词语表不成为一个向量,训练方法为CB0W或 ^Skip-Gram( :T.Mikolov,I.Sutskever,K.Chen,G.S. Corrado , and J · Dean, 〃 Distributed representations of words and phrases and their compositionality,^ in Advances in neural information processing systems,2013,pp·3111-3119·)〇
[0043] 步骤3,将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识别器输出 教育资源特征向量。
[0044] 所述资源特征识别器采用卷积神经网络、时间递归(LSTM)神经网络、循环神经网 络或其他深度学习模型中的任意一种训练得到。下面以卷积神经网络为例详细说明训练过 程。
[0045] 卷积神经网络作为近期在人工智能领域取得巨大成功的模型,本发明将其引入作 为推荐模型,其示意图请见图2。其作用方法为:将文本数字数据作为输入,结合训练的卷积 神经网络模型,通过神经网络的正向传播,得到对应的学习资源特征向量
[0046] 其中神经网络的训练过程包括:将系统搜集到的教育资源文本信息数字化之后作 为卷积神经网络输入,再将对应的教育资源特征作为输出。
[0047] 卷积神经网络通常由三种模块构成:卷积层、降采样层、全连接层。其中卷积层、全 连接层由参数权重矩阵、偏置项与非线性映射函数构成。
[0048]训练卷积神经网络。其目标函数为均方误差(MSE):
[0050] 其中,w,b代表了卷积神经网络中的全部参数,即要优化的目标。yi'表示训练库中 第i个学习资源的特征向量,示卷积神经网络的输出值。
[0051] 其训练方法为小批度随机梯度下降,选取一定数量的样本作为一次梯度下降的样 本,结合神经网络的前向后向传导进行梯度下降。具体训练过程见图3。
[0052]步骤4,将教育资源特征向量与用户特征向量相乘,得到学生对教育资源的兴趣 度。
[0053]本发明使用向量来表示用户以及资源的特征,将教育资源特征向量与学生特征向 量进行相乘,得到对应的兴趣度预估值再根据设定的兴趣度阈值决定是否要进行推荐操 作。
[0054]其中,学生特征向量按照如下方式确定:
[0055] 初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表示影响用户兴趣度 的隐含因子,记表示用户特征矩阵U的第i行学生特征向量。
[0056] 初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表示影响用户兴趣度 的隐含因子,记表示用户特征矩阵U的第i行学生特征向量。
[0057] 初始化资源特征矩阵V,资源特征矩阵V中的行表示教育资源,列表示影响用户兴 趣度的隐含因子,记f表示特征资源矩阵V的第j行资源特征向量;
[0058] 确定用户-资源矩阵,用户-资源矩阵中的元素^」表示用户i对资源j的兴趣度分 值;
[0059] 为目标函数,计算确定用户特征向量W和特征资源向量 f,其中上标T表示转置。上述计算过程可以采用梯度下降的方法进行求解,具体的求解过 程请见图4。
[0060] 用户特征矩阵U的列数与初始化资源特征矩阵V的行数相等,具体大小可根据训练 样本数确定,训练样本数越多则列数和行数越多,反之越小,可根据推荐结果调整。
[0061] 实例:
[0062] 计算学生甲对学习资源《数据挖掘导论》之间的兴趣度,其过程为:首先获取《数据 挖掘导论》的文本信息,将其转化为数字化信息,得到《数据挖掘导论》的文本信息M,将Μ作 为训练完成的卷积神经网络的输入,通过卷积神经网络的正向转播得到预测的《数据挖掘 导论》的特征向量Ν,再从学生特征库中取出学生甲的特征向量S,将向量Ν与S相乘,得到生 甲对学习资源《数据挖掘导论》的兴趣度预估值a,若a大于系统预设的阈值,则对其进行推 荐操作,反之则不进行推荐。
[0063]实例中,用户-资源矩阵如表1所示
[0065]其中空缺的值表示该用户对对应书籍未做出评价,在计算过程中对空缺值不进行 计算。通过目标函数计算得到的用户特征矩阵U和资源特征矩阵V如表2和3所示:
[0067] 本例中潜在因子选取为20个。
[0068]本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以 限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含 在本发明的保护范围之内。
【主权项】
1. 一种数字教育资源推荐方法,其特征在于,包括以下步骤: (1) 提取教育资源的文本信息; (2) 将文本信息数字化处理,得到文本数字矩阵; (3) 将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识别器输出教育资 源特征向量; (4) 将教育资源特征向量与用户特征向量相乘,得到学生对教育资源的兴趣度。2. 根据权利要求1所述的数字教育资源推荐方法,其特征在于,所述步骤(4)中的用户 特征向量按照如下方式确定: 初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表示影响用户兴趣度的隐 含因子,记tc表示用户特征矩阵U的第i行用户特征向量; 初始化资源特征矩阵V,资源特征矩阵V中的行表示教育资源,列表示影响用户兴趣度 的隐含因子,记€表示特征资源矩阵V的第j行资源特征向量; 确定用户-资源矩阵,用户-资源矩阵中的元素表示用户i对资源j的兴趣度分值; ^为目标函数,计算确定用户特征向量€和特征资源向量$, 其中上标T表示转置。3. 根据权利要求1或2所述的数字教育资源推荐方法,其特征在于,所述步骤(2)将文本 信息数字化处理得到文本信息矩阵的具体实现过程为:对文本信息进行分词处理,将所得 的每一个词采用向量表示,各词向量组成为文本数字矩阵。4. 根据权利要求3所述的数字教育资源推荐方法,其特征在于,采用选择话题模型或分 布式表达模型作为语言模型,将所得的每一个词采用向量表示。5. 根据权利要求1或2或3所述的数字教育资源推荐方法,其特征在于,所述资源特征识 别器采用卷积神经网络、时间递归神经网络、循环神经网络中的任意一种训练得到。6. -种数字教育资源推荐系统,其特征在于,包括以下模块: 第一模块,用于提取教育资源的文本信息; 第二模块,用于将文本信息数字化处理,得到文本数字矩阵; 第三模块,用于将文本数字矩阵输入预训练得到的资源特征识别器,资源特征识别器 输出教育资源特征向量; 第四模块,用于将教育资源特征向量与用户特征向量相乘,得到学生对教育资源的兴 趣度。7. 根据权利要求6所述的数字教育资源推荐系统,其特征在于,所述第四模块包括: 第四一子模块,用于初始化用户特征矩阵U,用户特征矩阵U中的行表示用户,列表示影 响用户兴趣度的隐含因子,记g表示用户特征矩阵U的第i行用户特征向量; 第四二子模块,用于初始化资源特征矩阵V,资源特征矩阵V中的行表示教育资源,列表 示影响用户兴趣度的隐含因子,记f表示特征资源矩阵V的第j行资源特征向量; 第四三子模块,用于确定用户-资源矩阵,用户-资源矩阵中的元素表示用户i对资源 j的兴趣度分值; 第四四子模块,用于b为目标函数,计算确定用户特征向量W 和特征资源向量G,其中上标T表示转置。
【文档编号】G06F17/30GK105868317SQ201610179836
【公开日】2016年8月17日
【申请日】2016年3月25日
【发明人】刘海, 杨宗凯, 刘三女牙, 张昭理, 舒江波
【申请人】华中师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1