智能高考志愿推荐系统和推荐方法与流程

文档序号:14451020阅读:6237来源:国知局

技术领域:

本发明属于教育服务领域,特别涉及一种智能高考志愿推荐系统和推荐方法。



背景技术:

高考志愿填报,关系到考生和家长的切身利益,高校数量多,专业多,每年在各地的招生录取情况复杂,对于考生来说,高分掉档的情况非常普遍。考生和家长需要查阅大量的录取和专业信息,或者根据亲朋好友的推荐,才能做出相应的志愿填报决策,很多时候并不能全面地分析高校信息,亲朋好友的建议,往往只是参考他们自己儿子、女儿当年的填报情况,并没有参考历年的填报情况,没有太大的参考价值。故导致志愿填报最终不能符合考生和家长的预期。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。



技术实现要素:

本发明的目的在于提供一种智能高考志愿推荐方法,从而克服上述现有技术中的缺陷。

为实现上述目的,本发明提供了一种智能高考志愿推荐方法,按照如下步骤进行:

s1,将志愿咨询问答对问题文本分词、去停用词;

s2,用向量空间模型vsm将分词、去停用词的文本信息表示成机器可以识别的语言;形式如下:若把文本d看作是向量空间中的一个n维向量,则:,其中,t1,t2,…,tn表示文本的n个特征项;w1,w2,…,wn表示这n个特征项的权重值;

s3,用lasso回归对志愿咨询问答对问题文本进行特征预选,其中志愿咨询问答对问题文本的分类标签作为lasso回归的因变量,特征项作为自变量,剔除对分类结果影响不大的变量;

s4,用tf-idf方法进行特征权重计算,第二次筛选特征变量;

s5,使用svm作为分类器,以每个问题的特征向量作为分类器输入的特征,以每个问题的专业类别作为分类标签,进行问题专业类别分类模型训练,从而得到分类器的模型;

s6,对考生及考生家长提问的问题分词、去停用词、向量空间模型vsm特征表示、lasso回归特征预选、tf-idf方法第二次特征选择。将该文本作为问题类别分类模型的输入,并以问题类别分类模型的输出作为分类结果;

s7,使用相似度算法计算出考生及家长所提问题与志愿咨询问答对中问题的文本相似度;

s8,将匹配结果结合志愿咨询问答对回答者基本信息表,为基本信息表中的信息设置相应的文本权重,对每个推荐志愿进行权重求和排序,选出匹配相似度最高的答案推荐给考生。

本发明进一步限定的技术方案为:

优选地,上述技术方案中,步骤s2中,权重越大,表示该特征包含文本类别的信息就越多;权重越小,则该特征包含文本类别的信息就越少。

优选地,上述技术方案中,步骤s4中,计算公式如下:,其中,wtd是特征项t在文本d中的权重值;tftd是特征t出现在文本d中的次数;n为训练集总文本数(问题库中的问题总数);nt为所有文本中出现t的文本个数。

优选地,上述技术方案中,步骤s7中,计算公式如下:

其中,n为向量的维数,xi为考生及考生家长所提问题表征的向量的第i维的值,yi为志愿咨询问答对知识库中问句表征的向量的第i维的值。

优选地,上述技术方案中,步骤s8中,具体方法如下:回答者基本信息表中:高校招生办的回答,文本权重设置成5,高校学生的回答文本权重设置成3,每个身份的回答者对应一个文本权重,将上述步骤计算出的相似度与文本权重相加,其最终结果求和排序。

一种智能高考志愿推荐系统,该系统包括历史志愿咨询问答对、文本预处理模块、提问信息文本预处理模块、特征表示模块、特征选择模块、分类器构建模块、考生及家长提问信息分类模块、志愿推荐模块;

所述历史志愿咨询问答对是一问一答形式的样本,问题包括高考地区、文理科、专业描述、回答者基本信息、高考排名等信息,答案则为某高校的某专业;

所述文本预处理模块是将历史志愿咨询问答对进行分词处理,同时去除停用词;

所述提问信息文本预处理模块是将考生及家长所提问题,分词、去停用词;

所述特征表示模块是用空间向量模型vsm将已经分词、去停用词的文本信息表示成计算机可以识别的语言;

所述特征选择模块是为了选择出对文本分类决定性比较大的一小部分特征;

所述分类器构建模块是通过对已知类别的志愿咨询问答对中的问题文本集进行分类学习构建分类模型,通过分类模型对考生及考生家长所提出的未知类别的文本进行匹配分析,根据分析结果将未知类别的文本自动划分到相应的专业类别;

所述考生及家长提问信息分类模块是将已经经过特征选择的提问文本利用构建的分类模型按照专业分类。

所述志愿推荐模块是将所提问题与志愿咨询问答对问题进行文本相似度匹配后,将匹配结果结合回答者基本信息表,为基本信息表中的信息设置相应的文本权重,对每个推荐志愿进行权重求和排序,选出匹配相似度最高的答案推荐给考生。

优选地,上述技术方案中,所述分类器构建模块使用支持向量机文本分类算法,具体为采用一对多的svm多类分类方法,简单来讲就是将某一类别的文本划分为一类,其他剩余类别的文本划分到另一类,在这两个类中构建一个svm分类模型,对于k个类别的文本只需要构建k个svm分类模型,对待分类文本进行分类时,将其分到最大分类函数值所对应的类别。本发明选用一对多的方式。

优选地,上述技术方案中,智能高考志愿推荐系统,其特征在于:所述特征选择模块使用lasso回归先进行特征预选,再用tf-idf进行第二次特征选择。

与现有技术相比,本发明具有如下有益效果:

本发明构建了一套智能高考志愿推荐系统,以历史志愿咨询问答文本为训练样本,对考生和家长的志愿填报进行智能化的推荐和辅助决策。这样不仅节约了时间,而且还全面地分析了历史填报信息。

附图说明:

图1为该发明总体流程图。

具体实施方式:

下面对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。

1.将志愿咨询问答对问题文本分词、去停用词。

2.用向量空间模型vsm将分词、去停用词的文本信息表示成机器可以识别的语言。形式如下:若把文本d看作是向量空间中的一个n维向量,则:

其中,t1,t2,…,tn表示文本的n个特征项;w1,w2,…,wn表示这n个特征项的权重值。权重越大,表示该特征包含文本类别的信息就越多;权重越小,则该特征包含文本类别的信息就越少。

3.用lasso回归对志愿咨询问答对问题文本进行特征预选,其中志愿咨询问答对问题文本的分类标签作为lasso回归的因变量,特征项作为自变量,剔除对分类结果影响不大的变量。

4.用tf-idf方法进行特征权重计算,第二次筛选特征变量。公式如下:

其中,wtd是特征项t在文本d中的权重值;tftd是特征t出现在文本d中的次数;n为训练集总文本数(问题库中的问题总数);nt为所有文本中出现t的文本个数。

5.使用svm作为分类器,以每个问题的特征向量作为分类器输入的特征,以每个问题的专业类别作为分类标签,进行问题专业类别分类模型训练,从而得到分类器的模型。

6.对考生及考生家长提问的问题分词、去停用词、向量空间模型vsm特征表示、lasso回归特征预选、tf-idf方法第二次特征选择。将该文本作为问题类别分类模型的输入,并以问题类别分类模型的输出作为分类结果。

7.使用相似度算法计算出考生及家长所提问题与志愿咨询问答对中问题的文本相似度。公式如下:

其中,n为向量的维数,xi为考生及考生家长所提问题表征的向量的第i维的值,yi为志愿咨询问答对知识库中问句表征的向量的第i维的值。

8.将匹配结果结合志愿咨询问答对回答者基本信息表,为基本信息表中的信息设置相应的文本权重,对每个推荐志愿进行权重求和排序,选出匹配相似度最高的答案推荐给考生。方法如下:回答者基本信息表中:高校招生办的回答,文本权重设置成5,高校学生的回答文本权重设置成3,每个身份的回答者对应一个文本权重,将上述步骤计算出的相似度与文本权重相加,其最终结果求和排序。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1