基于WEB及GBBoosting算法的人名国别识别方法

文档序号:6535879阅读:189来源:国知局
基于WEB及GBBoosting算法的人名国别识别方法
【专利摘要】本发明公开了一种基于WEB及GBBoosting算法的人名国别识别方法,属于WEB数据挖掘【技术领域】。该方法包括以下步骤:步骤一:通过WEB数据抽取技术提取高校学者人名;步骤二:构造GBBoosting算法:构造弱分类器,每个弱分类器对输入样本输出一个弱分类假设,通过所有弱分类器的权重融合构成一个强分类器;步骤三:通过GBBoosting算法识别所属的国别。本发明所述的基于WEB及GBBoosting算法的人名国别识别方法,有效的解决了两个国家人名拼写方式相近的情况下不能分类的问题;同时本方法比现有的其它分类方法更易实施,能更好的应用于人名国别或者城市国别语义标注等工程实践中。
【专利说明】 基于WEB及GBBoost i ng算法的人名国别识别方法
【技术领域】
[0001]本发明属于WEB数据挖掘【技术领域】,具体涉及一种基于WEB及GBBoosting算法的人名国别识别方法。
【背景技术】
[0002]随着Internet的高速发展和WEB资源的日益丰富,为了从海量的数据信息中快速准确的挖掘需要且有意义的数据,近年来,WEB语义分析技术和文本分类技术在WEB数据挖掘领域得到广泛的应用,基于WEB的应用在某些程度上改变了用户的生活习惯和工作方式,也受到越来越多的广大用户的欢迎与赞赏。
[0003]KNN、贝叶斯等分类方法在众多分类领域中取得了良好的分类效果,例如,解梅等人将KNN应用于图像处理领域,提出了一种基于KNN分类算法的MR图像灰度不均匀性校正分割方法(专利号:201010583560.6,
【公开日】:2011.07.27);杨柳等人将贝叶斯应用于计算机软件领域,提出了一种基于改进贝叶斯分类的短信智能分类及搜索方法(专利号:201310356056.6,
【公开日】:2013.12.04)。但是上述分类方法在人名国别分类场景中的分类准确率有待进一步提高,尤其是在两个国家人名拼写方式相近的情况下,其分类准确率仅仅高于随机猜测。可见上述分类算法在人名国别分类应用中存在极大的局限性。
[0004]基于上述分类方法在人名国别分类问题中存在的不足,本发明提出了一种基于Boosting的GBBoosting算法,旨在解决人名国别分类场景中存在的问题,与其他的分类算法相比,其分类准确率和召回率有了较大的提高,尤其是分类两个国家人名拼写方式相近的情况下,性能出色。将GBBoosting算法应用于人名国别、城市国别等识别场景中,进行人名或者城市的国别语义标注,进而应用到火热的社交领域中,具有非常重要的现实意义和广阔的应用前景。

【发明内容】

[0005]有鉴于此,本发明的目的在于提供一种基于WEB及GBBoosting算法的人名国别识别方法,该方法通过WEB数据抽取技术提取高校学者人名,通过构造弱分类器,每个弱分类器对输入样本输出一个弱分类假设,通过所有弱分类器的权重融合构成一个强分类器,最后通过GBBoosting算法识别人名所属的国家。
[0006]为达到上述目的,本发明提供如下技术方案:
[0007]—种基于WEB及GBBoosting算法的人名国别识别方法,包括以下步骤:步骤一:通过WEB数据抽取技术提取高校学者人名;步骤二:构造GBBoosting算法:构造弱分类器,每个弱分类器对输入样本输出一个弱分类假设,通过所有弱分类器的权重融合构成一个强分类器;步骤三:通过GBBoosting算法识别所属的国别。
[0008]进一步,在步骤一中,通过GOOGLE搜索引擎接口得到高校学院页面,然后在学院页面进行语义分析得到学院学者所在页面,最终通过命名实体识别技术和语义分析技术得到抽取页面中的学者信息。[0009]进一步,在步骤二中,弱分类器的构造步骤具体包括:
[0010]I)将两种类型的训练文本用向量表示为
【权利要求】
1.一种基于WEB及GBBoosting算法的人名国别识别方法,其特征在于:包括以下步骤:步骤一:通过WEB数据抽取技术提取高校学者人名; 步骤二:构造GBBoosting算法:构造弱分类器,每个弱分类器对输入样本输出一个弱分类假设,通过所有弱分类器的权重融合构成一个强分类器; 步骤三:通过GBBoosting算法识别所属的国别。
2.根据权利要求1所述的基于WEB及GBBoosting算法的人名国别识别方法,其特征在于:在步骤一中,通过GOOGLE搜索引擎接口得到高校学院页面,然后在学院页面进行语义分析得到学院学者所在页面,最终通过命名实体识别技术和语义分析技术得到抽取页面中的学者信息。
3.根据权利要求1所述的基于WEB及GBBoosting算法的人名国别识别方法,其特征在于:在步骤二中,弱分类器的构造步骤具体包括: .1)将两种类型的训练文本用向量表示为
4.根据权利要求1所述的基于WEB及GBBoosting算法的人名国别识别方法,其特征在于:在步骤三中,将高校学者人名通过GBBoosting算法识别出学者所属国家。
【文档编号】G06F17/30GK103729466SQ201410019885
【公开日】2014年4月16日 申请日期:2014年1月16日 优先权日:2014年1月16日
【发明者】苏畅, 贾文强, 王裕坤, 余跃, 吴琪 申请人:重庆邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1