面向医学领域的网站识别和网页细分类的方法

文档序号:6591588阅读:389来源:国知局
专利名称:面向医学领域的网站识别和网页细分类的方法
技术领域
本发明涉及互联网搜索技术,特别涉及一种面向医学领域的网站识别和网页细分类的方法。
背景技术
通用搜索引擎功能越来越丰富,它给人们提供了很多便利,但是当用户需要某一特定领域的答案时,搜索结果常常看似相关度高实际上不能满足用户需求。于是垂直搜索引擎应运而生,相比通用搜索引擎的海量信息,垂直搜索引擎显得更加专注、具体和深入。不同领域的网页数据是有着千差万别的,互联网中不同领域的数据结构存在很大的不同,要针对各个不同领域的网页设计统一的垂直搜索引擎是很复杂的。很多用户需要查询某些疾病的特征以及治疗方法、某些药物的治疗功能以及特性、某些医生的名望以及信息等,医学垂直搜索引擎在这些方面返回的结果应该比通用搜索更加合理和深入,为了实现这个目标,就需要在网页抓取和建立索引的过程中识别出医学类的网站,并且能够进一步把网页分类为医生页面,疾病页面,药品页面等等。本发明要解决的技术问题是如何从全网中提取出医药相关的网页,并且进一步细分出具体的医生、疾病、药品以及新闻领域的网页,这样可以极大地提高搜索引擎在医学领域方面检索的精确性与实用性。
一个通用的搜索引擎系统一般由网络爬虫、分词模块、索引模块、查询模块几部分组成,它的主要工作流程是:首先从网络爬虫开始抓取URL服务器指定的网页,将其存入文档数据库,并将当前页上的所含超链接存入到URL服务器中。在进行抓取的同时,分词模块和索引模块将已经抓取的网页文档进行分词处理,计算词的权值,然后将分词结果存入索引数据库。用户提交查询时,查询模块首先对用户输入的信息进行分词处理,并检索出所有包含检索词的记录,通过计算网页权重和级别对查询结果进行排序,最后从文档数据库中提取各网页的摘要信息反馈给查询用户。由于整个网络的规模太大,通用搜索引擎开始暴露出了一些问题,比如覆盖率低,时效性差,结果不准确,过于死板等等,于是出现了一些更加智能化、个性化和专业化的搜索,垂直搜索引擎就是其中的一种。垂直搜索引擎面向特定领域,专注于自己的特长,保证了对该领域信息的完全收录与及时更新。与通用搜索引擎不同,垂直搜索的目标是尽可能多的搜集与该主题相关的网页。专业网络爬虫抓取到的网页如果与预定义主题相关,就做进一步的处理;如果不相关,则抛弃该网页。这样处理的结果是,系统最终只索引了 Web上所有网页中的一部分,也就是与预定义主题相关的网页。这样处理的好处是可以节省大量的存储空间和具有较高的更新频率,而且对用户而言,如果用户对该主题感兴趣,那么系统在该领域的信息应该是最详尽、最专业的。面向医学领域的垂直搜索引擎的主要目标是满足用户对医学知识、资讯等方面的检索,比如查询疾病症状,治疗手段,药品以及具有此方面优势的医院等等。为了完成这一功能,我们就需要在网页采集时区分网页所属的类别是否属于医学领域,进一步的,属于医学中的哪个子领域,在建立索引及显示时按照其所属的医院、医生、疾病、药品等等类别进行个性化的操作。所以网页分类是垂直搜索中的一个关键性的技术。目前的网页分类技术大多是围绕词频、分析网页地址、根据摘要信息等方法做一些变化来进行研究的。以词频为基础来进行网页相关性的判别有很多不足,比如很多普通词语出现的频率很高但其实并不重要,而有一些很少出现的词语往往是文章内容的重点;分析网页地址的方法更是很有局限性,因为网页的网址主要用来标示网页的位置,并不直接反应网页的内容,虽然存在一些内容相似并且网页网址也很相似的网页,但互联网海量的网页中,内容相近网址不相似的例子太多了 ;而根据摘要的方法大多是依靠网页编辑者在网页meta信息中填的类别等关键词信息来网页分类,这主要依靠良好的网页,但很多缺乏此类信息的网页也需要分类,那这类方法就没有办法解决了。同时,现有的技术虽然很多都是有关于一般化的网页分类的,虽然一般化的方法照顾的比较全面,但其实不同领域的网页内容有很大差距,根据这些内容上的差距我们可以开发一些启发式的方法。比如医药类的网页可能很多是介绍药物、医生、疾病的,而体育类的网页大多数 是新闻,经贸方面的网页大多数是广告,要针对这些不同的领域提取出一个统一的网页分类方法略有牵强。所以现有的网页分类技术在不同领域下的分类效果不尽相同。就算分类出医学领域相关的网站,也不能细分到具体的医生、疾病、药品和新闻的类别。目前关于网页分类的研究成果很多,采用的方法也很广泛。传统的网页分类方法有支持向量机 SVM (support vector machine)方法、朴素贝叶斯 NB (Naive Bayesian)方法、神经网络 NN (Neural Network)方法、K 近邻 KNN (k-Nearest Neighbor algorithm)方法、决策树(Decision Tree)方法等,这些都是机器学习领域的技术,广泛适用于一般的网页分类。更一般化的分类方法有基于关键词词频的网页分类算法、根据网页摘要分类算法、基于网址进行网页分类算法等。但是要实现医学类网站中如医生,药品,疾病和新闻的详细分类,上述方案均不能很好的完成。与本发明最相近似的实现方案有下面几种,中国发明专利申请:“基于关键词频度分析的中文网页分类方法”(申请号:200910031625.3)、中国发明专利申请“一种基于云语义库的网页审计方法”(201010000496.4)、“基于垂直搜索和聚焦爬虫的网页分类计数”(200910025724.0)。发明I (基于关键词频度分析的中文网页分类方法)提出了一种基于关键词频度分析的中文网页分类方法。其特点是根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配。通过提取、过滤和去噪音步骤的网页中文文本,再通过关键词频度分析器对文本关键词进行提取,并按照关键词权重对关键词进行排序录入分类主题词库数据表。通过对比网页关键词表与分类主题词库的相关性,分析出该网页的分类。如果网页中出现高频的非关键词,比如某个人名或者某个地点,将会大大影响网页分类的结果。并且它的初始分类是根据中图分类法得到,缺乏灵活性,并不适合医学领域的分类。发明2 (基于云语义库的网页审计方法)在实现网页审计这一目的的过程中,提出了一种以云语义库衡量标准的网页分类方法。其思路首先是按要求分类,建立每一分类的核心词库、非核心词库、停用词库以及出错词库,将已分类网页进行语义分析,通过一系列判定将特定比例的词放入对应分类的词库里,从而建立云语义库。在进行网页分类时,将网页内容进行词频统计,取高频词以及其词频发送到云平台下遍历分类语义库,匹配词频统计之和最大的分类语义库即为对应的网页分类。它的不足同样在于过分依赖词频,如果网页中出现某些主题不相关的高频词,那么很影响分类结果。发明3 (基于垂直搜索和聚焦爬虫的网页分类技术)通过研究发现同一个导航网站上各个分类的子目录页面有着很相似的结构,可以用正则表达式来概括页面的结构化信息,通过模式学习找到这些正则表达式指导聚焦爬虫抓取与分类相关的网页,即实现网页与分类的对应一网页分类。它的方法更加不适用于医学领域,首先,它针对网页结构使用某一类结构的正则表达式,但是网页内容和网页结构并不存在一种对应关系,网页内容通常是编辑书写,网页结构通常是程序员书写,并且在网页设计领域并不存在一种什么结构对应什么内容的约定,网页结构千差万别,而每种结构的网页的正则表达式都需要人手工去编写,耗时耗力,并且这些正则表达式限制了爬虫的规模;其次,它在抽取链接的时候也使用了正则表达式,但是单从链接的角度很难分辨出网页的内容,比如,“ cncn”是旅游网站,可单从字面看“cncn”和“旅游”并无关系,再比如“baidu”是搜索网站,它在字面上与“ search ”或者“ sousuo ” 也无关系。上面三个专利虽然都能在一定程度上对网页进行分类,但是要适用到医学领域,它们存在如下的不足:1、过分依赖词频。但在医学领域词频不一定起了决定性作用,比如一篇介绍感冒的文章,可能只在标题处写了感冒一词;介绍医生的文章,大量出现的可能是这个医生的名字而不是医生领域的描述词汇;2、依赖于网页结构。网页结构和网页内容之间并无明显的对应关系,并且在医学领域不同的分类主要是内容上的不同。比如都是标题,内容结构的网页,可能用来介绍疾病,也可能用来介绍医生。

发明内容
本发明要解决的问题是,克服现有技术中的不足,提一种面向医学领域的网站识别和网页细分类的方法。为解决技术问题,本发明的解决方案是:提供一种面向医学领域的网站识别方法,是从全网提取医药相关的网站,具体包括以下步骤:(一)获得综合类网站的词语集合(I)从全网中抓取非医药相关的综合类网页;随机选取五个综合类门户网站,使用爬虫抓取每个网站的网页;抓取网页的总个数在四十至五十万,设定从单个网站抓取的网页数量上限为30万;(2)对提取到的网页内容进行分词,记录分词结果以及对应词频,归纳出综合类网站的词语集合,记为Tall ;(二)获得医药类网站的词语集合(I)从全网中抓取医药相关的网页;选取五个医药类专业门户网站,使用爬虫抓取每个网站的网页;抓取网页的总个数在四十至五十万,设定从单个网站抓取的网页数量上限为30万;
(2)对提取到的网页内容进行分词,记录分词结果以及对应词频,归纳出医药类网站的词语集合,记为 Tmedical-all (三)获得医药特征主题词库(I)医药类网站的词语集合里包含医药类特征主题词和非特征主题词,即Tmedical_all-Tmedical U Tnot其中Tmedic;al表示医药类的主题词库,Tnrt表示在医药类网站词语集合中的不属于医药类词语的集合(2)提取医药类主题词库Tmedical词库中词的关系满足下面的公式:Tnot — Tall Π Tmedical_allTmedical-Tmedical _all~TnotTmedical-Tmedical_all~Tall Π Tmedical_all根据上边的公式,整个算法首先遍历医药类网站的词语集合Tmedic;al_all,然后从中剔除同时存在于综合类特征词库Tall的词,剩余的词汇便是医药特征主题词库Tmedical ;(四)根据特征主题词集合判定网站是否与医药相关(I)假定一个网站,用S表不,其所有页面表不为(P1, P2, P3,…,Pj ;其中P1表不抓取到的第一个页面,P2表示抓取到的第二个页面,Pi表示抓取到的第i个页面,η是网页的个数;(2)使用下面的公式计算任意页面Pi的医药相关度分值,用Scorepi表示:
权利要求
1.一种面向医学领域的网站识别方法,其特征在于,是从全网提取医药相关的网站,具体包括以下步骤: (一)获得综合类网站的词语集合 (1)从全网中抓取非医药相关的综合类网页; 随机选取五个综合类门户网站,使用爬虫抓取每个网站的网页;抓取网页的总个数在四十至五十万,设定从单个网站抓取的网页数量上限为30万; (2)对提取到的网页内容进行分词,记录分词结果以及对应词频,归纳出综合类网站的词语集合,记为Tall ; (二)获得医药类网站的词语集合 Cl)从全网中抓取医药相关的网页; 选取五个医药类专业门户网站,使用爬虫抓取每个网站的网页;抓取网页的总个数在四十至五十万,设定从单个网站抓取的网页数量上限为30万; (2)对提取到的网页内容进行分词,记录分词结果以及对应词频,归纳出医药类网站的词语集合,记为 ^medical-all(三)获得医药特征主题词库 Cl)医药类网站的词语集合里包含医药类特征主题词和非特征主题词,即 rp_rpI I rp medical-all medical丄 not 其中Tmedical表示医药类的主题词库,Tnot表示在医药类网站词语集合中的不属于医药类词语的集合; (2)提取医药类主题词库Tmedical 词库中词的关系满足下面的公式: Tnot-Tall Π Tmedical_all T =T-T medical medical-all 1 not rp_rprp\ rp medical medical-all 丄 allmedical-all 根据上边的公式,整个算法首先遍历医药类网站的词语集合Tmedic;al_all,然后从中剔除同时存在于综合类特征词库Tall的词,剩余的词汇便是医药特征主题词库Tmedical ; (四)根据特征主题词集合判定网站是否与医药相关 (1)假定一个网站,用S表示,其所有页面表示为{PuP2,P3,…,P1J;其中P1表示抓取到的第一个页面,P2表示抓取到的第二个页面,Pi表示抓取到的第i个页面,η是网页的个数; (2)使用下面的公式计算任意页面Pi的医药相关度分值,用Scorepi表示:
2.根据权利要求1所述的方法,其特征在于,在获得综合类网站词语集合或医药类网站词语集合时,其具体步骤为: a、首先过滤HTML网页中的代码,即把网页中的所有〈script〉标签以及〈style〉标签中的部分删除;然后 过滤HTML标签,即过滤所有能够匹配正则表达式<.* >的内容; b、过滤所有的非中文字母和符号,然后使用ICTCLAS分词器对剩余的部分进行分词,记录所有词的词频; C、计算出词频的平均值μ和标准差σ,词频的分布满足正态分布N (μ, O);取词频在(μ - ο,μ + 0 )区间内的词作为网站的词语集合。
3.根据权利要求1所述的方法,其特征在于,在从全网中抓取非医药相关的综合类网页时,其步骤(I)中所选取的五个综合类门户网站为:新浪网www.sina.com.cn、网易www.163.com、腾讯 www.qq.com、搜狐 www.sohu.com 和凤凰网 www.1feng.com。
4.根据权利要求1所述的方法,其特征在于,在获得医药类网站的词语集合时,其步骤(I)中所选取的五个医药专业门户网站为:丁香园www.dxy.cn、医学论坛网www.cmt.com.cn、中国医学健康网www.sosya0.com、医学教育网www.med66.com和中华医学会网www.cma.0rg.cn 。
5.基于权利要求1所述方法的面向医学领域的网页细分类的方法,其特征在于,是从医药相关网站中识别至少包括医生、疾病、药品、新闻四类网页,其具体步骤为: (一)获得各分类网站的词语集合 (I)列举出医生、疾病、药品、新闻四种类别的网站集合,其中: 医生类包括: http://ysk.39.net/39 健康网好医生、http://haodf.health, sohu.com/ 搜狐健康、http://ysk.99.com.cn/99 健康网医生、http://www.120.net/yisheng/120 健康网医生; 疾病类包括: http://dise.health, sohu.com/ 搜狐疾病、http://jbk.39.net/39 健康网查疾病、http://jbk.99.com.cn/99 健康网疾病、http://www.haodf.com/jibing/neike/list, htm好大夫在线疾病库;药品类包括: http://ypk.39.net/39 健康网找药品、http://ypk.familydoctor.com.cn/ 家庭医生在线药品、http://drug, health, sohu.com/ 搜狐药品、http://yaopin.qqyy.com/ 全球医药网药品; 新闻类包括: http://news.39.net/39 健康网新闻、http://news.99.com.cn/99 健康网新闻、http://news, familydoctor.com.cn/ 家庭医生在线新闻、http://health, sohu.com/jiankangxinwen.shtml搜狐健康的新闻频道; (2)对于不同分类网站,分别提取其中所有网页的内容,并进行分词,整理出各自的词库,分别记为Td()C;tOT_all (医生类词库)、Tdis_all (疾病类词库)、Tdrug_all (药品类词库)、TnOTS_an(新闻类词库);; (二)获得各分类特征词集合; (1)各分类网站的词语集合里包含各分类特征主题词和非特征主题词,以医生类为例,即医生类网站的词语集合满足下面的公式约束条件:
6.根据权利要求5所述的方法,其特征在于,在获得各分类网站的词语集合时,所述步骤(2)包括: a、首先过滤HTML网页中的代码,即把网页中的所有〈script〉标签以及〈style〉标签中的部分删除;然后过滤HTML标签,即过滤所有能够匹配正则表达式<.* >的内容; b、过滤所有的非中文字母和符号,然后使用ICTCLAS分词器对剩余的部分进行分词,记录所有词的词频; C、计算出词频的平均值μ和标准差σ,词频的分布满足正态分布N (μ, O);取词频在(μ - σ,μ + 0 )区间内 的词作为网站的词语集合。
全文摘要
本发明涉及互联网搜索技术,旨在提供一种面向医学领域的网站识别和网页细分类的方法。该方法是从现有网站中提取医学分类主题词库的算法,以及将网站及网页根据分类主题词库进行打分,并根据打分结果进行分类的算法。打分算法根据网页的内容特征,不过分依赖词频。这种训练医学数据得到词库、并使用训练好的数据打分的分类算法也是关键点。本发明先从全网中提取医药相关的网站,然后将这些网站中的网页进行分类,从中提取出包括各类网页。本发明能够快速的判断医药相关网站属于某一个分类,具有计算简单,计算速度快,准确度高等优点。相较于同类的方明,本发明的算法不会受到网页中高频词的影响,也不会受限于特定的网页html写法。
文档编号G06F17/30GK103226578SQ20131011345
公开日2013年7月31日 申请日期2013年4月2日 优先权日2013年4月2日
发明者陈德人, 林臻, 郑小林, 郭华, 邓志豪 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1