医院门户网站门诊专家信息抽取系统的制作方法

文档序号:6632080阅读:204来源:国知局
医院门户网站门诊专家信息抽取系统的制作方法
【专利摘要】本发明公开了一种医院门户网站门诊专家信息抽取系统,对于查询接口的发现和筛选,采用静态发现和动态筛选相结合的方式,静态发现利用制定的规则,发现web页面中的查询表单;对于无法判断为查询接口的查询表单,采用动态筛选的方法,根据服务器的返回结果进行二次判断。在本发明中,通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询,节省了系统的开销。对于信息抽取时,噪声信息的过滤,提出了一种网页分块重要度模型,该模型根据网页分块的内容特征和空间特征,通过一定的算法为其分配重要程度值,重要程度值高的分块,为待抽取内容。
【专利说明】医院门户网站门诊专家信息抽取系统

【技术领域】
[0001] 本发明属于医学信息学领域,具体涉及一种医院门户网站门诊专家信息抽取系 统。

【背景技术】
[0002] 目前,绝大多数医院的门户网站上都会有该医院专家信息(职称、科室、擅长领域、 门诊时间等)的介绍。经过对江苏省二级甲等以上的医院的门户网站进行了统计,结果显 示,90%以上的医院网站上均有专家信息的介绍以及门诊时间,在抽查的样本中,40%左右 的信息是以静态页面的形式呈现(也称浅层网,surface web),其余均以查询的方式呈现 (也称深层网,deep web) (M.K. Bergman. The Deep Web: Surfacing Hidden Value[J]· The Journal of Electronic Publishing. 2001,7 (1):8912_8914),即需要通过参数查询的 方式才能获取到需要的专家信息。无论是浅网数据,还是深层网数据,如果在某一区域范围 内,能够将各个医院所有的专家信息进行收集,并集成到社区居民电子健康档案系统数据 库当中,将为社区居民的就医提供极大的便利。
[0003] 信息抽取(Information Extraction, IE)指的是利用相关的算法,从未知的用 自然语言描述的文档中,抽取具有固定格式的、无歧义的以及结构化或半结构化的信息。 (Thanaa M. Ghanem, ffalid G. Aref. Databases Deepen the Web[J]. IEEE Computer Society Press Los Alamitos, 2004,37(1): 116-117·)。目前信息抽取的主要对象是 具有海量非结构化数据的业务系统,如电子病历系统(王理,张远鹏,董建成.利用领域 关联知识从电子病历中抽取检查数据[J].中华医院管理杂志,2014, 3(30) :210-213),或 者是Web资源。本文所抽取的对象是web资源。关于Web页面的信息抽取,国内外已经有 大量的文献报道。伊利诺伊大学厄本那 -香槟分校的研究人员(MetaQuerier Research Group. Aceessible at http://metaquerier.es.uiuc.edu/ Oetober, 2005)利用谷歌搜 索引擎和Web目录服务人工收集了 8个领域的441个Deep Web中的477个查询接口,构建 了 TEL-8数据集,为后续的研究奠定了基础。J Cope等(J Cope,N Craswell,D Hawking. Automated Discovery of search Interfaces on the web[C]. Proceedings of the 14th Australasian database conference, 2003,143:181-189)在 deep web 数据抽取时,根 据web表单特征,利用C4. 5算法,构建表单分类器,但是该方法的准确率和正确率并不高, 不能满足实际抽取的需要。本文在J Cope的研究基础上,通过构建领域模型,实现查询接 口的分类和二次判别。对于返回的查询结果,往往包含许多与抽取主题无关噪声信息,对于 噪声信息的过滤,目前大多数采用的是基于规则的方法,例如,Yan Fu (Yan F, Dongqing Yang, Shiwei Tang. Using XPath to Discover Informative Content Blocks of Web Pages[C]. Proceedings of the third International Conference on Semantics, Knowledge and Grid. SKG, 2007, 450-453)等人提出了 XPath算法,并将该方法在5类不 同的网页数据上进行测试,准确率和正确率分别为92%和83. 2%。但是,该方法的使用需要 有一个重要的前提,即抽取的网页需要具备类似的布局,当抽取的网页数量非常庞大时,这 一前提很难保证,因此,基于规则的方法具有一定的局限性。
[0004] 对于医院门户网站门诊专家信息的抽取,所用技术主要体现在查询接口(web表 单)的发现和筛选以及信息抽取时噪声信息的过滤。
[0005] 对于查询接口的发现和筛选,目前J Cope等提出了一种基于规则的查询接口的发 现的方法,该方法认为:(l)web页面中必须含有form元素;(2)form元素中必须含有Text 元素;(3)form元素内,至少包含一个"搜索"、"查询"等类似关键词。但是该方法存在一 定的缺陷:(1)无法将搜索引擎表单区分开来;(2)仅仅根据web页面的源码信息,总结查 询接口的特征,具有一定的局限性。Bergholz等人构建了一种"正负"查询策略,正查询选 取领域相关的关键词进行提交,负查询选取与领域无关的关键词进行提交。他们认为,对于 deep web查询接口,所有负查询返回的页面的相似度一般不超过5% ;绝大多数正查询返回 的页面大小是负查询的至少3倍以上,且LDS大于IK。但是这种判断方式需要进行2次查 询,系统的开销比较大,而且一般只实用于全文查询表单,对于多属性查询表单,显得无能 为力,因此具有一定的局限性。
[0006] 对于信息抽取时噪声信息的过滤,Yan Fu等人提出了 XPath算法,并将该方法在5 类不同的网页数据上进行测试,准确率和正确率分别为92%和83. 2%。但是,该方法的使用 需要有一个重要的前提,即抽取的网页需要具备类似的布局,当抽取的网页数量非常庞大 时,这一前提很难保证,因此,基于规则的方法具有一定的局限性。
[0007] 公开的专利,申请号为201010256704. 7,名称为"一种网页分块的重要度评估方法 和设备"的专利中,使用的方法是识别分块的类型,分配权值,并进行排序,目的是在移动终 端上,对于权值低的分块,进行折叠显示,对于权重高的分块,展开显示。而在本专利中,想 获取与抽取主题相关的分块,采用的方法是通过人工标注部分分块,将其表示为(X,y)的形 式,其中X表示分块的特征,y表示分块的重要程度值,对于标注的数据进行训练,形成训练 集合T ;因此,归结为寻找函数f(x),使相关函数取得最小值。


【发明内容】

[0008] 发明目的:为了解决现有技术的不足,本发明提供了一种医院门户网站门诊专家 信息抽取系统。对于技术背景中所阐述的存在的技术问题,在本发明中将做出改善。
[0009] 技术方案:一种医院门户网站门诊专家信息抽取系统,主要包括如下2个步骤: 步骤一、查询接口的发现和筛选: 采用静态发现和动态筛选相结合的方式: 静态发现:主要是利用制定的规则,发现web页面中的查询表单; 但并非所有查询表单都是所需要的查询接口,因此,对于无法判断为查询接口的查询 表单,采用动态筛选的方法,即通过"二次探测查询"的方式,根据服务器的返回结果进行 二次判断:通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填 写,从而实现多属性查询表单的二次查询且不需要进行"正负"2次查询,节省系统的开销; 步骤二、对于信息抽取过程中,噪声信息的过滤: 对于信息抽取时,噪声信息的过滤,采用网页分块重要度模型,所述模型根据网页分块 的内容特征和空间特征,通过重要程度值的计算算法为其分配重要程度值,重要程度值高 的分块,为待抽取内容。
[0010] 作为进一步优化,所述步骤一中,静态发现具体为: 将表单元素定义成为一个五元组: Ρ〇πιι={{Α,(:2,(ν..(;},Α,Ν,Μ,υ} 上述元组中,ΙΑ, c2,CfCn}表示表单元素所包含的表单域控件; A表示表单的Action属性,即接收处理表单元素的URL ; N表示表单元素的名称,即name值; Μ表示表单提交的方法,即POST或GET,U表示表单元素所在的web页面的URL ; 设集合T= {Password, File, Textarea},即表示由密码框、文件上传框以及多行文本框 组成的集合,进行静态筛选时,遵循以下的规则: (1) 若C; e T, 1 ?玄】ι,则舍弃该Form表单; (2) 若A是属于外站的URL,则舍弃该Form表单; (3 )若n=l,则舍弃该Form表单(该表单可能是搜索引擎); 作为进一步优化,所述步骤一中,动态筛选具体为: 利用领域模型,选取领域关键词,对上述无法确定为查询接口的查询表单进行二次查 询:故先给出(a)领域模型的定义,然后给出(b)构建领域模型的方法以及(c)查询接口的 分类和判断方法。
[0011] 作为进一步优化,所述(a)领域模型的定义,具体为: 领域模型可以定义为:DM=(V,V。,E,Λ,TP, TPL,N,NL,LB,LbL,Val,ValL,tf,R,彡)该 15元组中,各个元素的含义如下: V表示DM中所有节点的集合; v。表示DM的根节点,且e F ; E表示父节点和子节点所组成边的集合; Λ表示DM中所使用的所有字符的集合; TP表示节点V到节点表单域类型集合的映射,节点表单域类型集合为{Text, RadioBox,CheckBox,Select},分别表示文本框、单选框、多选框以及下拉列表框; TPL表示节点V到节点表单域类型列表{TP*}的映射,返回节点V可能的所有表单域类 型; N表示节点V到Λ的映射,返回节点V默认表单域名称; NL表示节点V到表单域名称列表{Ν*}的映射,返回节点V可能的表单域名称; Lb表示节点V到Λ的映射,返回节点V的默认标签; Lb 1表示节点V到标签列表{Lb*}的映射,返回节点V可能的标签列表; Val表示节点V到Λ的映射,返回节点V的默认值; ValL表示节点V到默认值列表{Val*}的映射,返回节点V可能的默认值列表; tf表示节点V到N (自然数)的映射,返回节点V在所有接口中出现的次数; R表示节点V到集合{range, part, group, constraint}的映射,返回节点V与父亲 节点的关系,其中,range表示节点V的父节点是一个区间元素,且V是区间的一个成分; part表示节点V是父节点的组成部分;group表示节点V与其他兄弟节点表示同一语义; constraint表示节点V是对父节点的一种约束; 彡表示DM中节点的顺序,是一个二元关系,如(u,v) es,表示节点u在节点v之前出现。
[0012] 作为进一步优化,所述(b)构建领域模型的方法,具体为: 对于领域模型的构建,首先选取某领域的一个查询接口作为初始的领域模型,然后通 过不断和该领域内其他查询接口的合并,以产生含有更多属性信息的领域模型,周而复始 的重复这个过程,最终形成稳定的领域模型; 在这个合并的过程中,遵循以下四条规则: X添加(Add):若节点v与DM中的节点的语义均不相同,则在DM中添加以节点v为根 节点的子树; I:更新(Update):若DM中有与节点v语义相同的节点u,则将节点v的TP、N、Lb、Val 等更新到u节点的TPL、NL、LbL和ValL中; :f.细化(Refine):若DM中有与节点v语义相近的节点u,并且节点v中包含了 u中不含 的属性,则添加节点v作为u的子节点; ::?泛化(Generalize):若DM中有若干个兄弟节点与节点v语义相近,且节点v是这些 兄弟节点的泛化,则添加节点v作为第一个兄弟节点的父节点的子节点,同时将这些兄弟 节点作为节点v的子节点。
[0013] 作为进一步优化,所述(c)查询接口的分类和判断,具体为: 对于动态筛选中,需要进行二次查询的表单,根据上述建立的领域模型,对其进行分类 和模式抽取,确定表单中属性与领域模型中节点的对应关系,从而为表单中的属性选取合 适的候选值,进而提交查询; 其算法流程描述如下: +X对于待处理表单Form= {IA,C2, (V·· Cn},A,N,M,U},抽取IA,C2, C3…CJ的属性词; f对属性词进行规范化处理,如去掉停用词、词干还原、非法字符过滤等; :1:+通过遍历,查找领域模型中与属性词对应的节点,与之匹配的领域模型记为 DM<, ?€(1.π); ..τ利用空间向量模型,计算Form表单与的相似度,选择相似度最大的作为Form表 单的领域分类; t根据分类结果,选择关键词进二次查询,对于返回的结果页面,利用下文提出的分块 重要度模型,获取重要程度值最高的分块内容,进而确定Form是否为deep web查询接口。
[0014] 作为进一步优化,所述步骤二中,重要程度值的计算算法为:采用机器学习的方 法,通过人工标注部分分块,将其表示为(X,y)的形式,其中X表示分块的特征,y表示分块 的重要程度值,对于标注的数据进行训练,形成训练集合T ;因此,归结为寻找函数f (X),使 得S(x,y:}er LTW _ )中取得最小值。
[0015] 有益效果:本发明提出分块重要度模型,将网页数据进行分块,通过构建分类器, 过滤噪声信息。对于查询接口的发现和筛选,采用静态发现和动态筛选相结合的方式,静态 发现主要是利用制定的规则,发现web页面中的查询表单(并非所有查询表单都是所需要 的查询接口);对于无法判断为查询接口的查询表单,采用动态筛选的方法,即通过"二次探 测查询"的方式,根据服务器的返回结果进行二次判断。在本发明中,通过建立领域模型,对 查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的 二次查询且不需要进行"正负"2次查询,节省了系统的开销。
[0016] 对于信息抽取时,噪声信息的过滤,提出了一种网页分块重要度模型,该模型根据 网页分块的内容特征和空间特征,通过一定的算法为其分配重要程度值,重要程度值高的 分块,为待抽取内容。

【专利附图】

【附图说明】
[0017] 图1为本发明中信息抽取流程示意图; 图2为本发明中用于门诊领域模型的初始查询接口; 图3为与图2相对应的树状模型; 图4为本发明中用于构建门诊领域模型的查询接口; 图5为与图4相对应的树状模型; 图6为图3与图5合并后的DM树状模型。

【具体实施方式】
[0018] 下面结合具体实施例对本发明作进一步说明。对于本【技术领域】的普通技术人员来 说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为 本发明的保护范围。 实施例
[0019] A查询接口的发现和筛选 1.查询接口的筛选 web页面中的查询接口,主要是以表单的形式呈现。web表单是HTML中的高级元素, 主要由〈f〇rm>〈/form>标记组成。〈form>〈/form>之间的内容为表单域,主要包含文本框、 密码框、单选按钮、复选按钮等。但是,除了查询接口以表单的形式呈现以外,web页面中的 登陆、用户注册、问题反馈以及搜索引擎都可能会以表单的形式呈现,因此,需要对web页 面中的表单进行筛选,确定正确的查询接口。J Cope等提取web页面中表单的特征,构建 分类器对表单进行判断,但是该方法的准确率和正确率只有87%和85%,还不能满足实际的 需要。但是,J Cope等人在构建分类器过程中,所使用的一些启发式规则是可以借鉴的。 本文在进行查询接口筛选时,首先利用启发式规则对表单进行静态筛选(Static Filter); 其次,对于静态筛选后的表单,若仍然不能确定是否为查询接口,则寻找表单所属领域的 关键词进行填充并提交查询,根据服务器返回至客户端的结果进行判断,称之为动态筛选 (dynamic Filter)。
[0020] 2.静态筛选 通过对web页面中的查询接口表单进行分析发现,这类表单一般不含有密码框、文件 上传框、多行文本框等。故静态筛选的目的是过滤包含上述表单域的表单元素。为了更好 的进行描述静态筛选的过程,可以将表单元素定义成为一个五元组: Ρ〇πιι={{Α,(:2,(ν..(;},Α,Ν,Μ,υ} 在上述元组中,ΙΑ, C2,CfCn}表示表单元素所包含的表单域控件,Α表示表单 的Action属性,即接收处理表单元素的URL,N表示表单元素的名称,即name值,Μ表 示表单提交的方法,即POST或GET,U表示表单元素所在的web页面的URL。假设集合 T= {Password, File, Textarea}表示由密码框、文件上传框以及多行文本框组成的集合,贝U 在静态筛选时,需要遵循以下的规则: (1) 若Q e T, 1 :£ i玄!1,则舍弃该Form表单; (2) 若A是属于外站的URL,则舍弃该Form表单; (3 )若n=l,则舍弃该Form表单(该表单可能是搜索引擎); 3.动态筛选 对于静态筛选仍然无法判断的表单,需要通过"二次探测查询"的方式,根据服务 器的返回结果进行二次判断。Bergholz (Begholz,A. Childlovskii,B·· A Crawling for domain-specific hidden Web resources[C]. In: Proceedings of the Fourth International Conference on Web information Systems Engineering, 2003)等人构 建了一种"正负"查询策略,正查询选取领域相关的关键词进行提交,负查询选取与领域无 关的关键词进行提交。他们认为,对于deep web查询接口,所有负查询返回的页面的相似 度一般不超过5% ;绝大多数正查询返回的页面大小是负查询的至少3倍以上,且LDS大于 IK。但是这种判断方式需要进行2次查询,系统的开销比较大,而且一般只实用于全文查询 表单,对于多属性查询表单,显得无能为力,因此具有一定的局限性。在本文中,通过建立领 域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查 询表单的二次查询且不需要进行"正负"2次查询,节省了系统的开销。
[0021] 4.领域模型 领域模型的概念 2002年12月,伊利诺伊大学厄本那-香槟分校nUC的研究人员利用谷歌搜索引擎和 Web目录服务人工收集了 8个领域的441个Deep Web中的477个查询结口,并对其进行了 统计分析,得出了 2个查询接口具有的非常重要的特征:(1)每个查询接口所包含的属性的 个数是有限的;(2)虽然同一个领域内的查询接口的数量非常多,但是表示查询接口属性 的词汇通过聚合以后,具有收敛性。基于这两个重要的特征,可以建立一个模型,来表示某 领域内所有查询接口的属性,即领域模型(Domain Model)。对于领域模型的形式化定义,可 以采用一个包含15元组的树形结构进行表示。
[0022] 定义 1 :领域模型可以定义为:,DM= (V,V。,E,Λ,TP, TPL,N,NL,LB,LbL,Val,ValL, tf,R,< )该15元组中,各个元素的含义如下: V表示DM中所有节点的集合; v。表示DM的根节点,且% e F ; E表示父节点和子节点所组成边的集合; Λ表示DM中所使用的所有字符的集合; TP表示节点V到节点表单域类型集合的映射,节点表单域类型集合为{Text, RadioBox,CheckBox,Select},分别表示文本框、单选框、多选框以及下拉列表框; TPL表示节点V到节点表单域类型列表{TP*}的映射,返回节点V可能的所有表单域类 型; N表示节点V到Λ的映射,返回节点V默认表单域名称; NL表示节点V到表单域名称列表{Ν*}的映射,返回节点V可能的表单域名称; Lb表示节点V到Λ的映射,返回节点V的默认标签; Lb 1表示节点V到标签列表{Lb*}的映射,返回节点V可能的标签列表; Val表示节点V到Λ的映射,返回节点V的默认值; ValL表示节点V到默认值列表{Val*}的映射,返回节点V可能的默认值列表; tf表示节点V到N (自然数)的映射,返回节点V在所有接口中出现的次数; R表示节点V到集合{range, part, group, constraint}的映射,返回节点V与父亲 节点的关系,其中,range表示节点V的父节点是一个区间元素,且V是区间的一个成分; part表示节点V是父节点的组成部分;group表示节点V与其他兄弟节点表示同一语义; constraint表示节点V是对父节点的一种约束; 彡表示DM中节点的顺序,是一个二元关系,如(u,v} es,表示节点u在节点ν之前出现; 领域模型的构建对于领域模型的构建,首先选取某领域的一个查询接口作为初始的领 域模型,然后通过不断和该领域内其他查询接口的合并,以产生含有更多属性信息的领域 模型,周而复始的重复这个过程,最终形成稳定的领域模型。在这个合并的过程中,需要遵 循以下四条规则: (1) 添加(Add):若节点ν与DM中的节点的语义均不相同,则在DM中添加以节点ν为 根节点的子树; (2) 更新(Update):若DM中有与节点ν语义相同的节点u,则将节点ν的TP、N、Lb、Val 等更新到u节点的TPL、NL、LbL和ValL中; (3) 细化(Refine):若DM中有与节点ν语义相近的节点u,并且节点ν中包含了 u中不 含的属性,则添加节点ν作为u的子节点; (4) 泛化(Generalize):若DM中有若干个兄弟节点与节点ν语义相近,且节点ν是这 些兄弟节点的泛化,则添加节点ν作为第一个兄弟节点的父节点的子节点,同时将这些兄 弟节点作为节点ν的子节点。
[0023] 按照上述四条规则不断进行查询接口的合并,领域模型也随之趋于稳定,当领域 模型不在变化时,则停止构建。
[0024] 5.查询接口的分类和判断 对于动态筛选中,需要进行二次查询的表单,需要根据上述建立的领域模型,对其进行 分类和模式抽取,确定表单中属性与领域模型中节点的对应关系,从而为表单中的属性选 取合适的候选值,进而提交查询。其算法流程描述如下: (1)对于待处理表单Form= {IA,C2, (V·· C丄A,N,M,U},抽取IA,C2, (V·· CJ的属性词; (2) 对属性词进行规范化处理,如去掉停用词、词干还原、非法字符过滤等; (3) 通过遍历,查找领域模型中与属性词对应的节点,与之匹配的领域模型记为 DM,, ie(l,n); (4) 利用空间向量模型,计算Form表单与DM;的相似度,选择相似度最大的作为Form 表单的领域分类; (5) 根据分类结果,选择关键词进二次查询,对于返回的结果页面,利用下文提出的分 块重要度模型,获取重要程度值最高的分块内容,进而确定Form是否为deep web查询接 □。
[0025] B对于信息抽取过程中,噪声信息的过滤 通过查询接口获取的结果页面中,往往包含与抽取主题无关的噪声信息,例如广告信 息、导航信息、版本信息等。如表1分块等级所示,对返回的网页页面模块进行了分级,在 进行信息抽取时,需要对噪声信息进行过滤,避免产生主题漂移的现象。为了解决此问题, 本文在网页分块的基础之上,提出了一种网页分块重要度模型,该模型根据网页分块的内 容特征和空间特征,通过一定的算法为其分配重要程度值。重要程度值的计算算法主要有 2种,一种是基于规则的方法,但是这种方法在分块特征很多时,无法准确的构造出规则函 数;另外一种方法是采用机器学习的方法,该方法通过人工标注部分分块,将其表示为(X, y)的形式,其中X表示分块的特征,y表示分块的重要程度值,对于标注的数据进行训练, 形成训练集合T。因此,模型学习的问题可以归结为寻找函数f(x),使得

【权利要求】
1. 一种医院门户网站门诊专家信息抽取系统,其特征在于:主要包括如下2个步骤: 步骤一、查询接口的发现和筛选: 采用静态发现和动态筛选相结合的方式: 静态发现:主要是利用制定的规则,发现web页面中的查询表单; 但并非所有查询表单都是所需要的查询接口,因此,对于无法判断为查询接口的查询 表单,采用动态筛选的方法,即通过"二次探测查询"的方式,根据服务器的返回结果进行 二次判断:通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填 写,从而实现多属性查询表单的二次查询且不需要进行"正负"2次查询,节省系统的开销; 步骤二、对于信息抽取过程中,噪声信息的过滤: 对于信息抽取时,噪声信息的过滤,采用网页分块重要度模型,所述模型根据网页分块 的内容特征和空间特征,通过重要程度值的计算算法为其分配重要程度值,重要程度值高 的分块,为待抽取内容。
2. 根据权利要求1所述的医院门户网站门诊专家信息抽取系统,其特征在于:所述步 骤一中,静态发现具体为: 将表单元素定义成为一个五元组: Form={{C1,C2,(V..Cn},A,N,M,U} 上述元组中,表示表单元素所包含的表单域控件; A表示表单的Action属性,即接收处理表单元素的URL ; N表示表单元素的名称,即name值; M表示表单提交的方法,即POST或GET,U表示表单元素所在的web页面的URL ; 设集合T= {Password, File, Textarea},即表示由密码框、文件上传框以及多行文本框 组成的集合,进行静态筛选时,遵循以下的规则: (1) 若C; e T, 1玄i S ,则舍弃该Form表单; (2) 若A是属于外站的URL,则舍弃该Form表单; (3 )若n=l,则舍弃该Form表单(该表单可能是搜索引擎)。
3. 根据权利要求1所述的医院门户网站门诊专家信息抽取系统,其特征在于:所述步 骤一中,动态筛选具体为: 利用领域模型,选取领域关键词,对上述无法确定为查询接口的查询表单进行二次查 询:故先给出(a)领域模型的定义,然后给出(b)构建领域模型的方法以及(c)查询接口的 分类和判断方法。
4. 根据权利要求3所述的医院门户网站门诊专家信息抽取系统,其特征在于:所述(a) 领域模型的定义,具体为: 领域模型可以定义为:DM= (V,V。,E,A,TP,TPL,N,NL,LB,LbL,Val,ValL,tf,R,彡)该 15元组中,各个元素的含义如下: V表示DM中所有节点的集合; v。表示DM的根节点,且% e F ; E表示父节点和子节点所组成边的集合; A表示DM中所使用的所有字符的集合; TP表示节点V到节点表单域类型集合的映射,节点表单域类型集合为{Text, RadioBox,CheckBox,Select},分别表示文本框、单选框、多选框以及下拉列表框; TPL表示节点V到节点表单域类型列表{TP*}的映射,返回节点V可能的所有表单域类 型; N表示节点V到A的映射,返回节点V默认表单域名称; NL表示节点V到表单域名称列表{N*}的映射,返回节点V可能的表单域名称; Lb表示节点V到A的映射,返回节点V的默认标签; Lb 1表示节点V到标签列表{Lb*}的映射,返回节点V可能的标签列表; Val表示节点V到A的映射,返回节点V的默认值; ValL表示节点V到默认值列表{Val*}的映射,返回节点V可能的默认值列表; tf表示节点V到N (自然数)的映射,返回节点V在所有接口中出现的次数; R表示节点V到集合{range, part, group, constraint}的映射,返回节点V与父亲 节点的关系,其中,range表示节点V的父节点是一个区间元素,且V是区间的一个成分; part表示节点V是父节点的组成部分;group表示节点V与其他兄弟节点表示同一语义; constraint表示节点V是对父节点的一种约束; 彡表示DM中节点的顺序,是一个二元关系,如(u.v) eg,表示节点u在节点v之前出现。
5. 根据权利要求3所述的医院门户网站门诊专家信息抽取系统,其特征在于:所述(b) 构建领域模型的方法,具体为: 对于领域模型的构建,首先选取某领域的一个查询接口作为初始的领域模型,然后通 过不断和该领域内其他查询接口的合并,以产生含有更多属性信息的领域模型,周而复始 的重复这个过程,最终形成稳定的领域模型; 在这个合并的过程中,遵循以下四条规则: X添加(Add):若节点v与DM中的节点的语义均不相同,则在DM中添加以节点v为根 节点的子树; S更新(Update):若DM中有与节点v语义相同的节点u,则将节点v的TP、N、Lb、Val 等更新到u节点的TPL、NL、LbL和ValL中; S细化(Refine):若DM中有与节点v语义相近的节点u,并且节点v中包含了 u中不含 的属性,则添加节点v作为u的子节点; .J+泛化(Generalize):若DM中有若干个兄弟节点与节点v语义相近,且节点v是这些 兄弟节点的泛化,则添加节点v作为第一个兄弟节点的父节点的子节点,同时将这些兄弟 节点作为节点v的子节点。
6. 根据权利要求3所述的医院门户网站门诊专家信息抽取系统,其特征在于:所述(c) 查询接口的分类和判断,具体为: 对于动态筛选中,需要进行二次查询的表单,根据上述建立的领域模型,对其进行分类 和模式抽取,确定表单中属性与领域模型中节点的对应关系,从而为表单中的属性选取合 适的候选值,进而提交查询; 其算法流程描述如下: :X 对于待处理表单 F〇rm= {IA,C2, Cf Cn},A,N,M,U},抽取 IA,C2, Cf CJ 的属性词; 1对属性词进行规范化处理,如去掉停用词、词干还原、非法字符过滤等; S通过遍历,查找领域模型中与属性词对应的节点,与之匹配的领域模型记为 DMi, ie(l,w); +.T..利用空间向量模型,计算Form表单与DM;的相似度,选择相似度最大的作为Form表 .4 单的领域分类; 1根据分类结果,选择关键词进二次查询,对于返回的结果页面,利用下文提出的分块 重要度模型,获取重要程度值最高的分块内容,进而确定Form是否为deep web查询接口。
7.根据权利要求1-6项所述的医院门户网站门诊专家信息抽取系统,其特征在于:所 述步骤二中,重要程度值的计算算法为:采用机器学习的方法,通过人工标注部分分块,将 其表示为(x,y)的形式,其中x表示分块的特征,y表示分块的重要程度值,对于标注的数 据进行训练,形成训练集合T;因此,归结为寻找函数f(x),使得)f取得最小 值。
【文档编号】G06F17/30GK104281714SQ201410591272
【公开日】2015年1月14日 申请日期:2014年10月29日 优先权日:2014年10月29日
【发明者】张远鹏, 王理, 钱旦敏 申请人:南通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1