一种基于在线医疗问答信息的文本挖掘方法

文档序号:9249392阅读:557来源:国知局
一种基于在线医疗问答信息的文本挖掘方法
【技术领域】
[0001] 本发明设及文本挖掘领域,尤其设及一种基于在线医疗问答信息的文本挖掘方 法。
【背景技术】
[0002] 近来,随着互联网的飞速发展,各种社交媒体大量涌现,在健康相关的医疗领域, 出现了许多在线疾病问答网站,它们为患者提供了更多元化的医疗信息获取渠道。该些 网站主要W健康知识,疾病信息,医疗新闻等为主要内容,同时也提供用户在线疾病问答功 能。在国内,比较知名的有新浪健康、寻医问药、好大夫在线、39问医生等网站中,包含了许 多疾病问答信息,然而该些问答信息在文本中处于一种非结构化的状态。为了实现问答信 息的充分利用,抽取和挖掘出有用的医疗知识,进行命名实体识别通常是第一步。该样的数 据有着广泛的参与人群,包含了大量真实的个人案例,潜藏着丰富的医疗价值。
[0003] 提高信息的利用率,充分挖掘其中潜藏的知识信息,可W为将来医疗知识的构建, 医疗水平的提升,人们生活的改善有着很大帮助。目前,在医疗领域,针对电子病历、各种医 疗报告、医学文献等的实体识别工作已有不少,但针对医疗问答网站中的疾病问答信息尚 未见到相关研究。

【发明内容】

[0004] 本发明提供了一种基于在线医疗问答信息的文本挖掘方法,本发明通过从网络上 获取疾病相关的问答信息,抽取出问答文本并进行实体识别和关系挖掘,可W有效地识别 出在线问答信息中的医疗名词实体,并挖掘出各类实体之间潜藏的相关关系,详见下文描 述:
[0005] -种基于在线医疗问答信息的文本挖掘方法,所述文本挖掘方法包括W下步骤:
[0006] 采用基于D0M和网页模板的网络数据抽取方式对已获取的原网页进行疾病问答 f目息的提取;
[0007] 在提取的疾病问答信息中通过条件随机场模型的特征,进行医疗命名实体识别;
[0008] 通过医疗命名实体识别对医疗实体关系进行挖掘。
[0009] 在所述采用基于D0M和网页模板的网络数据抽取方式对已获取的原网页进行疾 病问答信息的提取的步骤之前,所述文本挖掘方法还包括:
[0010] 面对公开的web数据,调研医疗的相关网站,分析并确定爬取链接、网页数据规模 的具体情况,然后采用网络爬虫进行网页数据的爬取。
[0011] 在所述采用基于D0M和网页模板的网络数据抽取方式对已获取的原网页进行疾 病问答信息的提取的步骤具体为:
[001引 1)分析网页特点,找到目标内容的特有标签或者路径,针对各类网页设计对应的 模板;
[0013] 2)设计网页数据的存储格式;
[0014] 3)编写程序抽取所需网页数据。
[0015] 在所述在提取的疾病问答信息中通过条件随机场模型的特征,进行医疗命名实体 识别的步骤具体为:
[0016] 条件随机场模型的特征如下:
[0017] 1)符号特征,分词后的词语本身;
[0018] 2)词性特征,词性标注器所标注的多种词性;
[0019] 3)形态特征,当前词的构成情况,包括;英文字母特征和数字特征;
[0020] 4)后缀特征,当前词语的最后一个字;
[0021] 5)身体部位指示词特征,标记当前词是否为身体部位有关的词语;
[0022] 6)上下文特征,在目标实体附近会出现与实体类别相关的指示词;
[0023] 所述医疗命名实体识别为监督学习的方法,通过人工标注数据进行条件随机场模 型的训练,数据标注采用BI0模型,标注完成后将各列特征转化成条件随机场模型输入所 需格式。
[0024] 其中,在标注完成之前,所述方法还包括;对问答文本的预处理。
[00巧]所述对问答文本的预处理的步骤具体为;
[0026] 过滤掉没有回答的提问;将所有出现的英文字符转换为小写;
[0027] 保留标点符号,并将文本空格替换为中文逗号;
[0028] 采用标注数据训练,即可获得医疗命名实体识别的有效条件随机场模型。
[0029] 其中,所述通过医疗命名实体识别对医疗实体关系进行挖掘的步骤具体为:
[0030] 基于关联规则的实体关系挖掘方法和基于相似度计算的实体关系挖掘方法。
[0031] 其中,所述基于关联规则的实体关系挖掘方法具体为:
[0032] 通过医疗命名实体识别从每一篇问答信息中抽取出各类目标实体,汇总并人工合 并具有相同语义概念、W及同一类别下过于细化的目标实体,针对每一个目标实体进行编 号;
[0033] 根据每一篇问答信息中目标实体出现的情况将每一篇问答都转换成一个N维的 向量,采用关联规则算法获取具有较高置信度和支持度的规则,即获得关联紧密的实体对。
[0034] 其中,所述基于相似度计算的实体关系挖掘方法具体为:
[0035] 计算文本共现相似度,计算词语相似度;通过所述文本共现相似度、所述词语相似 度获取实体相似度,并排序。
[0036] 本发明提供的技术方案的有益效果是:本发明可W充分利用互联网上大量的公开 数据进行医疗知识的发现。通过利用标注数据进行模型训练,可W得到实体识别的有效模 型,进而对大量医疗实体进行自动识别。在医疗实体关系挖掘上,提出了综合考虑实体共现 关系和实体语义关联的关系挖掘方法,通过该方法可W有效获取各类实体之间潜在的关联 关系。该方法适用于所有疾病类别的挖掘工作,而且具有一定的可扩展性,将来可W考虑添 加更多的特征线索。
【附图说明】
[0037] 图1为基于在线医疗问答信息的文本挖掘方法的流程图;
[003引图2为基于D0M和网页模板的信息抽取过程的示意图;
[0039] 图3为问答数据设计的存储格式的示意图。
【具体实施方式】
[0040] 为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步 地详细描述。
[0041] 一种基于在线医疗问答信息的文本挖掘方法,包括:在线医疗问答数据获取,疾病 问答中的医疗命名实体识别,医疗实体关系挖掘。其中,数据获取包括网络数据的定向爬取 和疾病问答信息的抽取。疾病问答中的医疗命名实体识别,包括实体类别的定义,识别模型 选择和特征设计。医疗实体关系挖掘,包括基于关联规则的实体关系挖掘方法和基于相似 度计算的实体关系挖掘方法,下面结合具体的附图对本方案进行详细说明。
[0042] 实施例1
[0043] 101 ;采用基于D0M和网页模板的网络数据抽取方式对已获取的原网页进行疾病 问答信息的提取;
[0044] 102;在提取的疾病问答信息中通过条件随机场模型的特征,进行医疗命名实体识 别;
[0045] 103 ;通过医疗命名实体识别对医疗实体关系进行挖掘。
[0046] 在步骤101采用基于D0M和网页模板的网络数据抽取方式对已获取的原网页进行 疾病问答信息的提取的步骤之前,该文本挖掘方法还包括:
[0047] 面对公开的web数据,调研医疗的相关网站,分析并确定爬取链接、网页数据规模 的具体情况,然后采用网络爬虫进行网页数据的爬取。
[004引其中,步骤101中的采用基于D0M和网页模板的网络数据抽取方式对已获取的原 网页进行疾病问答信息的提取的步骤具体为:
[004引 1)分析网页特点,找到目标内容的特有标签或者路径,针对各类网页设计对应的 模板;
[0050] 2)设计网页数据的存储格式;
[0051] 3)编写程序抽取所需网页数据。
[0052] 其中,步骤102中的在提取的疾病问答信息中通过条件随机场模型的特征,进行 医疗命名实体识别的步骤具体为:
[0053] 条件随机场模型的特征如下:
[0054] 1)符号特征,分词后的词语本身;
[00巧]2)词性特征,词性标注器所标注的多种词性;
[0056] 3)形态特征,当前词的构成情况,包括;英文字母特征和数字特征;
[0057] 4)后缀特征,当前词语的最后一个字;
[0058] 5)身体部位指示词特征,标记当前词是否为身体部位有关的词语
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1