医院门户网站门诊专家信息抽取系统的制作方法

文档序号：6632080阅读：204来源：国知局

医院门户网站门诊专家信息抽取系统的制作方法
【专利摘要】本发明公开了一种医院门户网站门诊专家信息抽取系统，对于查询接口的发现和筛选，采用静态发现和动态筛选相结合的方式，静态发现利用制定的规则，发现web页面中的查询表单；对于无法判断为查询接口的查询表单，采用动态筛选的方法，根据服务器的返回结果进行二次判断。在本发明中，通过建立领域模型，对查询接口所属领域进行分类，利用领域关键词进行表单填写，从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询，节省了系统的开销。对于信息抽取时，噪声信息的过滤，提出了一种网页分块重要度模型，该模型根据网页分块的内容特征和空间特征，通过一定的算法为其分配重要程度值，重要程度值高的分块，为待抽取内容。
【专利说明】医院门户网站门诊专家信息抽取系统

【技术领域】
[0001] 本发明属于医学信息学领域，具体涉及一种医院门户网站门诊专家信息抽取系统。

【背景技术】
[0002] 目前，绝大多数医院的门户网站上都会有该医院专家信息(职称、科室、擅长领域、门诊时间等）的介绍。经过对江苏省二级甲等以上的医院的门户网站进行了统计，结果显示，90%以上的医院网站上均有专家信息的介绍以及门诊时间，在抽查的样本中，40%左右的信息是以静态页面的形式呈现(也称浅层网，surface web)，其余均以查询的方式呈现 (也称深层网，deep web) (M.K. Bergman. The Deep Web: Surfacing Hidden Value[J]· The Journal of Electronic Publishing. 2001，7 (1):8912_8914)，即需要通过参数查询的方式才能获取到需要的专家信息。无论是浅网数据，还是深层网数据，如果在某一区域范围内，能够将各个医院所有的专家信息进行收集，并集成到社区居民电子健康档案系统数据库当中，将为社区居民的就医提供极大的便利。
[0003] 信息抽取（Information Extraction, IE)指的是利用相关的算法，从未知的用自然语言描述的文档中，抽取具有固定格式的、无歧义的以及结构化或半结构化的信息。 (Thanaa M. Ghanem, ffalid G. Aref. Databases Deepen the Web[J]. IEEE Computer Society Press Los Alamitos, 2004，37(1): 116-117·)。目前信息抽取的主要对象是具有海量非结构化数据的业务系统，如电子病历系统(王理，张远鹏，董建成.利用领域关联知识从电子病历中抽取检查数据[J].中华医院管理杂志，2014, 3(30) :210-213)，或者是Web资源。本文所抽取的对象是web资源。关于Web页面的信息抽取，国内外已经有大量的文献报道。伊利诺伊大学厄本那 -香槟分校的研究人员（MetaQuerier Research Group. Aceessible at http://metaquerier.es.uiuc.edu/ Oetober, 2005)利用谷歌搜索引擎和Web目录服务人工收集了 8个领域的441个Deep Web中的477个查询接口，构建了 TEL-8数据集，为后续的研究奠定了基础。J Cope等（J Cope，N Craswell，D Hawking. Automated Discovery of search Interfaces on the web[C]. Proceedings of the 14th Australasian database conference, 2003，143:181-189)在 deep web 数据抽取时，根据web表单特征，利用C4. 5算法，构建表单分类器，但是该方法的准确率和正确率并不高，不能满足实际抽取的需要。本文在J Cope的研究基础上，通过构建领域模型，实现查询接口的分类和二次判别。对于返回的查询结果，往往包含许多与抽取主题无关噪声信息，对于噪声信息的过滤，目前大多数采用的是基于规则的方法，例如，Yan Fu (Yan F, Dongqing Yang, Shiwei Tang. Using XPath to Discover Informative Content Blocks of Web Pages[C]. Proceedings of the third International Conference on Semantics, Knowledge and Grid. SKG, 2007, 450-453)等人提出了 XPath算法，并将该方法在5类不同的网页数据上进行测试，准确率和正确率分别为92%和83. 2%。但是，该方法的使用需要有一个重要的前提，即抽取的网页需要具备类似的布局，当抽取的网页数量非常庞大时，这一前提很难保证，因此，基于规则的方法具有一定的局限性。
[0004] 对于医院门户网站门诊专家信息的抽取，所用技术主要体现在查询接口（web表单）的发现和筛选以及信息抽取时噪声信息的过滤。
[0005] 对于查询接口的发现和筛选，目前J Cope等提出了一种基于规则的查询接口的发现的方法，该方法认为：（l)web页面中必须含有form元素；（2)form元素中必须含有Text 元素；（3)form元素内，至少包含一个"搜索"、"查询"等类似关键词。但是该方法存在一定的缺陷：（1)无法将搜索引擎表单区分开来；（2)仅仅根据web页面的源码信息，总结查询接口的特征，具有一定的局限性。Bergholz等人构建了一种"正负"查询策略，正查询选取领域相关的关键词进行提交，负查询选取与领域无关的关键词进行提交。他们认为，对于 deep web查询接口，所有负查询返回的页面的相似度一般不超过5% ;绝大多数正查询返回的页面大小是负查询的至少3倍以上，且LDS大于IK。但是这种判断方式需要进行2次查询，系统的开销比较大，而且一般只实用于全文查询表单，对于多属性查询表单，显得无能为力，因此具有一定的局限性。
[0006] 对于信息抽取时噪声信息的过滤，Yan Fu等人提出了 XPath算法，并将该方法在5 类不同的网页数据上进行测试，准确率和正确率分别为92%和83. 2%。但是，该方法的使用需要有一个重要的前提，即抽取的网页需要具备类似的布局，当抽取的网页数量非常庞大时，这一前提很难保证，因此，基于规则的方法具有一定的局限性。
[0007] 公开的专利，申请号为201010256704. 7,名称为"一种网页分块的重要度评估方法和设备"的专利中，使用的方法是识别分块的类型，分配权值，并进行排序，目的是在移动终端上，对于权值低的分块，进行折叠显示，对于权重高的分块，展开显示。而在本专利中，想获取与抽取主题相关的分块，采用的方法是通过人工标注部分分块，将其表示为（X，y)的形式，其中X表示分块的特征，y表示分块的重要程度值，对于标注的数据进行训练，形成训练集合T ;因此，归结为寻找函数f(x)，使相关函数取得最小值。

【发明内容】

[0008] 发明目的：为了解决现有技术的不足，本发明提供了一种医院门户网站门诊专家信息抽取系统。对于技术背景中所阐述的存在的技术问题，在本发明中将做出改善。
[0009] 技术方案：一种医院门户网站门诊专家信息抽取系统，主要包括如下2个步骤：步骤一、查询接口的发现和筛选：采用静态发现和动态筛选相结合的方式：静态发现：主要是利用制定的规则，发现web页面中的查询表单；但并非所有查询表单都是所需要的查询接口，因此，对于无法判断为查询接口的查询表单，采用动态筛选的方法，即通过"二次探测查询"的方式，根据服务器的返回结果进行二次判断：通过建立领域模型，对查询接口所属领域进行分类，利用领域关键词进行表单填写，从而实现多属性查询表单的二次查询且不需要进行"正负"2次查询，节省系统的开销；步骤二、对于信息抽取过程中，噪声信息的过滤：对于信息抽取时，噪声信息的过滤，采用网页分块重要度模型，所述模型根据网页分块的内容特征和空间特征，通过重要程度值的计算算法为其分配重要程度值，重要程度值高的分块，为待抽取内容。
[0010] 作为进一步优化，所述步骤一中，静态发现具体为：将表单元素定义成为一个五元组： Ρ〇πιι={{Α，（：2，（ν..(；}，Α，Ν，Μ，υ} 上述元组中，ΙΑ, c2，CfCn}表示表单元素所包含的表单域控件； A表示表单的Action属性，即接收处理表单元素的URL ; N表示表单元素的名称，即name值； Μ表示表单提交的方法，即POST或GET，U表示表单元素所在的web页面的URL ; 设集合T= {Password, File, Textarea}，即表示由密码框、文件上传框以及多行文本框组成的集合，进行静态筛选时，遵循以下的规则： (1) 若C; e T, 1 ?玄】ι,则舍弃该Form表单； (2) 若A是属于外站的URL，则舍弃该Form表单； (3 )若n=l，则舍弃该Form表单(该表单可能是搜索引擎）；作为进一步优化，所述步骤一中，动态筛选具体为：利用领域模型，选取领域关键词，对上述无法确定为查询接口的查询表单进行二次查询：故先给出（a)领域模型的定义，然后给出（b)构建领域模型的方法以及（c)查询接口的分类和判断方法。
[0011] 作为进一步优化，所述（a)领域模型的定义，具体为：领域模型可以定义为：DM=(V，V。，E，Λ，TP, TPL，N，NL，LB，LbL，Val，ValL，tf，R，彡）该 15元组中，各个元素的含义如下： V表示DM中所有节点的集合； v。表示DM的根节点，且e F ; E表示父节点和子节点所组成边的集合； Λ表示DM中所使用的所有字符的集合； TP表示节点V到节点表单域类型集合的映射，节点表单域类型集合为{Text， RadioBox，CheckBox，Select}，分别表示文本框、单选框、多选框以及下拉列表框； TPL表示节点V到节点表单域类型列表{TP*}的映射，返回节点V可能的所有表单域类型； N表示节点V到Λ的映射，返回节点V默认表单域名称； NL表示节点V到表单域名称列表{Ν*}的映射，返回节点V可能的表单域名称； Lb表示节点V到Λ的映射，返回节点V的默认标签； Lb 1表示节点V到标签列表{Lb*}的映射，返回节点V可能的标签列表； Val表示节点V到Λ的映射，返回节点V的默认值； ValL表示节点V到默认值列表{Val*}的映射，返回节点V可能的默认值列表； tf表示节点V到N (自然数）的映射，返回节点V在所有接口中出现的次数； R表示节点V到集合{range, part, group, constraint}的映射，返回节点V与父亲节点的关系，其中，range表示节点V的父节点是一个区间元素，且V是区间的一个成分； part表示节点V是父节点的组成部分；group表示节点V与其他兄弟节点表示同一语义； constraint表示节点V是对父节点的一种约束；彡表示DM中节点的顺序，是一个二元关系，如(u，v) es，表示节点u在节点v之前出现。
[0012] 作为进一步优化，所述（b)构建领域模型的方法，具体为：对于领域模型的构建，首先选取某领域的一个查询接口作为初始的领域模型，然后通过不断和该领域内其他查询接口的合并，以产生含有更多属性信息的领域模型，周而复始的重复这个过程，最终形成稳定的领域模型；在这个合并的过程中，遵循以下四条规则： X添加（Add):若节点v与DM中的节点的语义均不相同，则在DM中添加以节点v为根节点的子树； I：更新（Update):若DM中有与节点v语义相同的节点u，则将节点v的TP、N、Lb、Val 等更新到u节点的TPL、NL、LbL和ValL中； :f.细化（Refine):若DM中有与节点v语义相近的节点u，并且节点v中包含了 u中不含的属性，则添加节点v作为u的子节点； ::?泛化（Generalize):若DM中有若干个兄弟节点与节点v语义相近，且节点v是这些兄弟节点的泛化，则添加节点v作为第一个兄弟节点的父节点的子节点，同时将这些兄弟节点作为节点v的子节点。
[0013] 作为进一步优化，所述（c)查询接口的分类和判断，具体为：对于动态筛选中，需要进行二次查询的表单，根据上述建立的领域模型，对其进行分类和模式抽取，确定表单中属性与领域模型中节点的对应关系，从而为表单中的属性选取合适的候选值，进而提交查询；其算法流程描述如下： +X对于待处理表单Form= {IA，C2, (V·· Cn}，A，N，M，U}，抽取IA，C2, C3…CJ的属性词； f对属性词进行规范化处理，如去掉停用词、词干还原、非法字符过滤等； :1:+通过遍历，查找领域模型中与属性词对应的节点，与之匹配的领域模型记为 DM<, ?€(1.π)； ..τ利用空间向量模型，计算Form表单与的相似度，选择相似度最大的作为Form表单的领域分类； t根据分类结果，选择关键词进二次查询，对于返回的结果页面，利用下文提出的分块重要度模型，获取重要程度值最高的分块内容，进而确定Form是否为deep web查询接口。
[0014] 作为进一步优化，所述步骤二中，重要程度值的计算算法为：采用机器学习的方法，通过人工标注部分分块，将其表示为（X，y)的形式，其中X表示分块的特征，y表示分块的重要程度值，对于标注的数据进行训练，形成训练集合T ;因此，归结为寻找函数f (X)，使得S(x,y:}er LTW _ )中取得最小值。
[0015] 有益效果：本发明提出分块重要度模型，将网页数据进行分块，通过构建分类器，过滤噪声信息。对于查询接口的发现和筛选，采用静态发现和动态筛选相结合的方式，静态发现主要是利用制定的规则，发现web页面中的查询表单(并非所有查询表单都是所需要的查询接口）；对于无法判断为查询接口的查询表单，采用动态筛选的方法，即通过"二次探测查询"的方式，根据服务器的返回结果进行二次判断。在本发明中，通过建立领域模型，对查询接口所属领域进行分类，利用领域关键词进行表单填写，从而实现多属性查询表单的二次查询且不需要进行"正负"2次查询，节省了系统的开销。
[0016] 对于信息抽取时，噪声信息的过滤，提出了一种网页分块重要度模型，该模型根据网页分块的内容特征和空间特征，通过一定的算法为其分配重要程度值，重要程度值高的分块，为待抽取内容。

【专利附图】

【附图说明】
[0017] 图1为本发明中信息抽取流程示意图；图2为本发明中用于门诊领域模型的初始查询接口；图3为与图2相对应的树状模型；图4为本发明中用于构建门诊领域模型的查询接口；图5为与图4相对应的树状模型；图6为图3与图5合并后的DM树状模型。

【具体实施方式】
[0018] 下面结合具体实施例对本发明作进一步说明。对于本【技术领域】的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。实施例
[0019] A查询接口的发现和筛选 1.查询接口的筛选 web页面中的查询接口，主要是以表单的形式呈现。web表单是HTML中的高级元素，主要由〈f〇rm>〈/form>标记组成。〈form>〈/form>之间的内容为表单域，主要包含文本框、密码框、单选按钮、复选按钮等。但是，除了查询接口以表单的形式呈现以外，web页面中的登陆、用户注册、问题反馈以及搜索引擎都可能会以表单的形式呈现，因此，需要对web页面中的表单进行筛选，确定正确的查询接口。J Cope等提取web页面中表单的特征，构建分类器对表单进行判断，但是该方法的准确率和正确率只有87%和85%，还不能满足实际的需要。但是，J Cope等人在构建分类器过程中，所使用的一些启发式规则是可以借鉴的。本文在进行查询接口筛选时，首先利用启发式规则对表单进行静态筛选（Static Filter); 其次，对于静态筛选后的表单，若仍然不能确定是否为查询接口，则寻找表单所属领域的关键词进行填充并提交查询，根据服务器返回至客户端的结果进行判断，称之为动态筛选 (dynamic Filter)。
[0020] 2.静态筛选通过对web页面中的查询接口表单进行分析发现，这类表单一般不含有密码框、文件上传框、多行文本框等。故静态筛选的目的是过滤包含上述表单域的表单元素。为了更好的进行描述静态筛选的过程，可以将表单元素定义成为一个五元组： Ρ〇πιι={{Α，（：2，（ν..(；}，Α，Ν，Μ，υ} 在上述元组中，ΙΑ, C2，CfCn}表示表单元素所包含的表单域控件，Α表示表单的Action属性，即接收处理表单元素的URL，N表示表单元素的名称，即name值，Μ表示表单提交的方法，即POST或GET，U表示表单元素所在的web页面的URL。假设集合 T= {Password, File, Textarea}表示由密码框、文件上传框以及多行文本框组成的集合，贝U 在静态筛选时，需要遵循以下的规则： (1) 若Q e T, 1 ：￡ i玄!1,则舍弃该Form表单； (2) 若A是属于外站的URL，则舍弃该Form表单； (3 )若n=l，则舍弃该Form表单(该表单可能是搜索引擎）； 3.动态筛选对于静态筛选仍然无法判断的表单，需要通过"二次探测查询"的方式，根据服务器的返回结果进行二次判断。Bergholz (Begholz，A. Childlovskii，B·· A Crawling for domain-specific hidden Web resources[C]. In: Proceedings of the Fourth International Conference on Web information Systems Engineering, 2003)等人构建了一种"正负"查询策略，正查询选取领域相关的关键词进行提交，负查询选取与领域无关的关键词进行提交。他们认为，对于deep web查询接口，所有负查询返回的页面的相似度一般不超过5% ;绝大多数正查询返回的页面大小是负查询的至少3倍以上，且LDS大于 IK。但是这种判断方式需要进行2次查询，系统的开销比较大，而且一般只实用于全文查询表单，对于多属性查询表单，显得无能为力，因此具有一定的局限性。在本文中，通过建立领域模型，对查询接口所属领域进行分类，利用领域关键词进行表单填写，从而实现多属性查询表单的二次查询且不需要进行"正负"2次查询，节省了系统的开销。
[0021] 4.领域模型领域模型的概念 2002年12月，伊利诺伊大学厄本那-香槟分校nUC的研究人员利用谷歌搜索引擎和 Web目录服务人工收集了 8个领域的441个Deep Web中的477个查询结口，并对其进行了统计分析，得出了 2个查询接口具有的非常重要的特征：（1)每个查询接口所包含的属性的个数是有限的；（2)虽然同一个领域内的查询接口的数量非常多，但是表示查询接口属性的词汇通过聚合以后，具有收敛性。基于这两个重要的特征，可以建立一个模型，来表示某领域内所有查询接口的属性，即领域模型（Domain Model)。对于领域模型的形式化定义，可以采用一个包含15元组的树形结构进行表示。
[0022] 定义 1 :领域模型可以定义为：，DM= (V，V。，E，Λ，TP, TPL，N，NL，LB，LbL，Val，ValL， tf，R，< )该15元组中，各个元素的含义如下： V表示DM中所有节点的集合； v。表示DM的根节点，且％ e F ; E表示父节点和子节点所组成边的集合； Λ表示DM中所使用的所有字符的集合； TP表示节点V到节点表单域类型集合的映射，节点表单域类型集合为{Text， RadioBox，CheckBox，Select}，分别表示文本框、单选框、多选框以及下拉列表框； TPL表示节点V到节点表单域类型列表{TP*}的映射，返回节点V可能的所有表单域类型； N表示节点V到Λ的映射，返回节点V默认表单域名称； NL表示节点V到表单域名称列表{Ν*}的映射，返回节点V可能的表单域名称； Lb表示节点V到Λ的映射，返回节点V的默认标签； Lb 1表示节点V到标签列表{Lb*}的映射，返回节点V可能的标签列表； Val表示节点V到Λ的映射，返回节点V的默认值； ValL表示节点V到默认值列表{Val*}的映射，返回节点V可能的默认值列表； tf表示节点V到N (自然数）的映射，返回节点V在所有接口中出现的次数； R表示节点V到集合{range, part, group, constraint}的映射，返回节点V与父亲节点的关系，其中，range表示节点V的父节点是一个区间元素，且V是区间的一个成分； part表示节点V是父节点的组成部分；group表示节点V与其他兄弟节点表示同一语义； constraint表示节点V是对父节点的一种约束；彡表示DM中节点的顺序，是一个二元关系，如(u，v} es，表示节点u在节点ν之前出现；领域模型的构建对于领域模型的构建，首先选取某领域的一个查询接口作为初始的领域模型，然后通过不断和该领域内其他查询接口的合并，以产生含有更多属性信息的领域模型，周而复始的重复这个过程，最终形成稳定的领域模型。在这个合并的过程中，需要遵循以下四条规则： (1) 添加（Add):若节点ν与DM中的节点的语义均不相同，则在DM中添加以节点ν为根节点的子树； (2) 更新（Update):若DM中有与节点ν语义相同的节点u，则将节点ν的TP、N、Lb、Val 等更新到u节点的TPL、NL、LbL和ValL中； (3) 细化（Refine):若DM中有与节点ν语义相近的节点u，并且节点ν中包含了 u中不含的属性，则添加节点ν作为u的子节点； (4) 泛化（Generalize):若DM中有若干个兄弟节点与节点ν语义相近，且节点ν是这些兄弟节点的泛化，则添加节点ν作为第一个兄弟节点的父节点的子节点，同时将这些兄弟节点作为节点ν的子节点。
[0023] 按照上述四条规则不断进行查询接口的合并，领域模型也随之趋于稳定，当领域模型不在变化时，则停止构建。
[0024] 5.查询接口的分类和判断对于动态筛选中，需要进行二次查询的表单，需要根据上述建立的领域模型，对其进行分类和模式抽取，确定表单中属性与领域模型中节点的对应关系，从而为表单中的属性选取合适的候选值，进而提交查询。其算法流程描述如下： (1)对于待处理表单Form= {IA，C2, (V·· C丄A，N，M，U}，抽取IA，C2, (V·· CJ的属性词； (2) 对属性词进行规范化处理，如去掉停用词、词干还原、非法字符过滤等； (3) 通过遍历，查找领域模型中与属性词对应的节点，与之匹配的领域模型记为 DM,, ie(l,n)； (4) 利用空间向量模型，计算Form表单与DM;的相似度，选择相似度最大的作为Form 表单的领域分类； (5) 根据分类结果，选择关键词进二次查询，对于返回的结果页面，利用下文提出的分块重要度模型，获取重要程度值最高的分块内容，进而确定Form是否为deep web查询接 □。
[0025] B对于信息抽取过程中，噪声信息的过滤通过查询接口获取的结果页面中，往往包含与抽取主题无关的噪声信息，例如广告信息、导航信息、版本信息等。如表1分块等级所示，对返回的网页页面模块进行了分级，在进行信息抽取时，需要对噪声信息进行过滤，避免产生主题漂移的现象。为了解决此问题，本文在网页分块的基础之上，提出了一种网页分块重要度模型，该模型根据网页分块的内容特征和空间特征，通过一定的算法为其分配重要程度值。重要程度值的计算算法主要有 2种，一种是基于规则的方法，但是这种方法在分块特征很多时，无法准确的构造出规则函数；另外一种方法是采用机器学习的方法，该方法通过人工标注部分分块，将其表示为（X， y)的形式，其中X表示分块的特征，y表示分块的重要程度值，对于标注的数据进行训练，形成训练集合T。因此，模型学习的问题可以归结为寻找函数f(x)，使得

【权利要求】
1. 一种医院门户网站门诊专家信息抽取系统，其特征在于：主要包括如下2个步骤：步骤一、查询接口的发现和筛选：采用静态发现和动态筛选相结合的方式：静态发现：主要是利用制定的规则，发现web页面中的查询表单；但并非所有查询表单都是所需要的查询接口，因此，对于无法判断为查询接口的查询表单，采用动态筛选的方法，即通过"二次探测查询"的方式，根据服务器的返回结果进行二次判断：通过建立领域模型，对查询接口所属领域进行分类，利用领域关键词进行表单填写，从而实现多属性查询表单的二次查询且不需要进行"正负"2次查询，节省系统的开销；步骤二、对于信息抽取过程中，噪声信息的过滤：对于信息抽取时，噪声信息的过滤，采用网页分块重要度模型，所述模型根据网页分块的内容特征和空间特征，通过重要程度值的计算算法为其分配重要程度值，重要程度值高的分块，为待抽取内容。
2. 根据权利要求1所述的医院门户网站门诊专家信息抽取系统，其特征在于：所述步骤一中，静态发现具体为：将表单元素定义成为一个五元组： Form={{C1，C2，（V..Cn}，A，N，M，U} 上述元组中，表示表单元素所包含的表单域控件； A表示表单的Action属性，即接收处理表单元素的URL ; N表示表单元素的名称，即name值； M表示表单提交的方法，即POST或GET，U表示表单元素所在的web页面的URL ; 设集合T= {Password, File, Textarea}，即表示由密码框、文件上传框以及多行文本框组成的集合，进行静态筛选时，遵循以下的规则： (1) 若C; e T, 1玄i S ,则舍弃该Form表单； (2) 若A是属于外站的URL，则舍弃该Form表单； (3 )若n=l，则舍弃该Form表单(该表单可能是搜索引擎)。
3. 根据权利要求1所述的医院门户网站门诊专家信息抽取系统，其特征在于：所述步骤一中，动态筛选具体为：利用领域模型，选取领域关键词，对上述无法确定为查询接口的查询表单进行二次查询：故先给出（a)领域模型的定义，然后给出（b)构建领域模型的方法以及（c)查询接口的分类和判断方法。
4. 根据权利要求3所述的医院门户网站门诊专家信息抽取系统，其特征在于：所述（a) 领域模型的定义，具体为：领域模型可以定义为：DM= (V，V。，E，A，TP，TPL，N，NL，LB，LbL，Val，ValL，tf，R，彡）该 15元组中，各个元素的含义如下： V表示DM中所有节点的集合； v。表示DM的根节点，且％ e F ; E表示父节点和子节点所组成边的集合； A表示DM中所使用的所有字符的集合； TP表示节点V到节点表单域类型集合的映射，节点表单域类型集合为{Text， RadioBox，CheckBox，Select}，分别表示文本框、单选框、多选框以及下拉列表框； TPL表示节点V到节点表单域类型列表{TP*}的映射，返回节点V可能的所有表单域类型； N表示节点V到A的映射，返回节点V默认表单域名称； NL表示节点V到表单域名称列表{N*}的映射，返回节点V可能的表单域名称； Lb表示节点V到A的映射，返回节点V的默认标签； Lb 1表示节点V到标签列表{Lb*}的映射，返回节点V可能的标签列表； Val表示节点V到A的映射，返回节点V的默认值； ValL表示节点V到默认值列表{Val*}的映射，返回节点V可能的默认值列表； tf表示节点V到N (自然数）的映射，返回节点V在所有接口中出现的次数； R表示节点V到集合{range, part, group, constraint}的映射，返回节点V与父亲节点的关系，其中，range表示节点V的父节点是一个区间元素，且V是区间的一个成分； part表示节点V是父节点的组成部分；group表示节点V与其他兄弟节点表示同一语义； constraint表示节点V是对父节点的一种约束；彡表示DM中节点的顺序，是一个二元关系，如(u.v) eg，表示节点u在节点v之前出现。
5. 根据权利要求3所述的医院门户网站门诊专家信息抽取系统，其特征在于：所述（b) 构建领域模型的方法，具体为：对于领域模型的构建，首先选取某领域的一个查询接口作为初始的领域模型，然后通过不断和该领域内其他查询接口的合并，以产生含有更多属性信息的领域模型，周而复始的重复这个过程，最终形成稳定的领域模型；在这个合并的过程中，遵循以下四条规则： X添加（Add):若节点v与DM中的节点的语义均不相同，则在DM中添加以节点v为根节点的子树； S更新（Update):若DM中有与节点v语义相同的节点u，则将节点v的TP、N、Lb、Val 等更新到u节点的TPL、NL、LbL和ValL中； S细化（Refine):若DM中有与节点v语义相近的节点u，并且节点v中包含了 u中不含的属性，则添加节点v作为u的子节点； .J+泛化（Generalize):若DM中有若干个兄弟节点与节点v语义相近，且节点v是这些兄弟节点的泛化，则添加节点v作为第一个兄弟节点的父节点的子节点，同时将这些兄弟节点作为节点v的子节点。
6. 根据权利要求3所述的医院门户网站门诊专家信息抽取系统，其特征在于：所述（c) 查询接口的分类和判断，具体为：对于动态筛选中，需要进行二次查询的表单，根据上述建立的领域模型，对其进行分类和模式抽取，确定表单中属性与领域模型中节点的对应关系，从而为表单中的属性选取合适的候选值，进而提交查询；其算法流程描述如下： :X 对于待处理表单 F〇rm= {IA，C2, Cf Cn}，A，N，M，U}，抽取 IA，C2, Cf CJ 的属性词； 1对属性词进行规范化处理，如去掉停用词、词干还原、非法字符过滤等； S通过遍历，查找领域模型中与属性词对应的节点，与之匹配的领域模型记为 DMi, ie(l,w)； +.T..利用空间向量模型，计算Form表单与DM;的相似度，选择相似度最大的作为Form表 .4 单的领域分类； 1根据分类结果，选择关键词进二次查询，对于返回的结果页面，利用下文提出的分块重要度模型，获取重要程度值最高的分块内容，进而确定Form是否为deep web查询接口。
7.根据权利要求1-6项所述的医院门户网站门诊专家信息抽取系统，其特征在于：所述步骤二中，重要程度值的计算算法为：采用机器学习的方法，通过人工标注部分分块，将其表示为（x，y)的形式，其中x表示分块的特征，y表示分块的重要程度值，对于标注的数据进行训练，形成训练集合T;因此，归结为寻找函数f(x)，使得)f取得最小值。
【文档编号】G06F17/30GK104281714SQ201410591272
【公开日】2015年1月14日申请日期:2014年10月29日优先权日:2014年10月29日
【发明者】张远鹏, 王理, 钱旦敏申请人:南通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张远鹏;王理;钱旦敏
技术所有人：南通大学
我是此专利的发明人

上一篇：一种基于expect自动化测试rack稳定性的方法
上一篇：告警事件关联规则挖掘方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。