基于因子图模型的自诊模型训练方法和装置制造方法

文档序号:6629319阅读:156来源:国知局
基于因子图模型的自诊模型训练方法和装置制造方法
【专利摘要】本发明实施例公开了一种基于因子图模型的自诊模型训练方法和装置。所述基于因子图模型的自诊模型训练方法包括:从收集到的专业知识数据中提取专业知识特征数据,并从收集到的医患交流数据中提取医患交流特征数据,其中,所述专业知识特征数据以及所述医患交流特征数据中均存储有疾病与症状之间的对应关系;根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型;利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练,直至所述稀疏因子图模型的参数全部收敛。所述基于因子图模型的自诊模型训练方法和装置同时解决了领域知识偏差以及经验数据稀疏的问题。
【专利说明】基于因子图模型的自诊模型训练方法和装置

【技术领域】
[0001] 本发明实施例涉及计算机数据处理技术,尤其涉及一种基于因子图模型的自诊模 型训练方法和装置。

【背景技术】
[0002] 在互联网十分发达的今天,通过互联网向用户提供自诊服务的自诊系统十分流 行。
[0003] 现有的自诊系统大体上可以分为基于专业知识的自诊系统以及基于经验数据的 自诊系统。基于专业知识的自诊系统参照领域知识为用户提供自诊建议。它给出的数据具 有成熟的理论知识体系作支撑,因而非常权威。但是,实际的诊断过程中往往有一些领域知 识不能预见的情况,比如患者所处的环境、患者自身体质。而实际诊断过程则需要综合考虑 所有的情况对用户的患病情况给出准确的判断。因此,基于专业知识的自诊系统给出的自 诊建议往往是存在偏差的。
[0004] 基于经验数据的自诊系统依靠经验数据,没有成熟的理论体系作支撑。经验数据 可以是实际诊断过程中患者与医生的交流数据。然而,实际的医患交流数据本身很可能是 稀疏的。比如,医生在诊断过程中医生观察到病人的嗓音沙哑,并据此给出了诊断建议,但 是并没有把他观察到的这一特征记录在医患交流数据中。所以,基于经验数据的自诊系统 需要克服数据稀疏的问题。


【发明内容】

[0005] 有鉴于此,本发明实施例提出一种基于因子图模型的自诊模型训练方法和装置, 以同时解决领域知识偏差以及经验数据稀疏的问题。
[0006] 第一方面,本发明实施例提供了一种基于因子图模型的自诊模型训练方法,所述 方法包括:
[0007] 从收集到的专业知识数据中提取专业知识特征数据,并从收集到的医患交流数据 中提取医患交流特征数据,其中,所述专业知识特征数据以及所述医患交流特征数据中均 存储有疾病与症状之间的对应关系;
[0008] 根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层 的稀疏因子图模型;
[0009] 利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型 进行迁移训练,直至所述稀疏因子图模型的参数全部收敛。
[0010] 第二方面,本发明实施例提供了一种基于因子图模型的自诊模型训练装置,所述 装置包括:
[0011] 特征提取模块,用于从收集到的专业知识数据中提取专业知识特征数据,并从收 集到的医患交流数据中提取医患交流特征数据,其中,所述专业知识特征数据以及所述医 患交流特征数据中均存储有疾病与症状之间的对应关系;
[0012] 模型构建模块,用于根据所述专业知识特征数据以及所述医患交流特征数据的内 容构建包括潜藏层的稀疏因子图模型;
[0013] 模型训练模块,用于利用所述专业知识特征数据以及所述医患交流特征数据对所 述稀疏因子图模型进行迁移训练,直至所述稀疏因子图模型的参数全部收敛。
[0014] 本发明实施例提供的基于因子图模型的自诊模型训练方法和装置通过从收集到 的专业知识数据中提取专业知识特征数据,并从收集到的医患交流数据中提取医患交流特 征数据,根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的 稀疏因子图模型,利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子 图模型进行迁移训练,直至所述稀疏因子图模型的参数全部收敛,训练得到的稀疏因子图 模型能够融合基于经验数据的自诊系统以及基于专业知识的自诊系统的优点,使用所述稀 疏因子图模型向用户提供自诊建议能够同时解决领域知识偏差以及经验数据稀疏的问题。

【专利附图】

【附图说明】
[0015] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它 特征、目的和优点将会变得更明显:
[0016] 图1是本发明第一实施例提供的基于因子图模型的自诊模型训练方法的流程图;
[0017] 图2是本发明第一实施例提供的稀疏因子图模型的结构图;
[0018] 图3是本发明第一实施例提供的基于因子图模型的自诊模型训练方法中稀疏因 子图模型构建的流程图;
[0019] 图4是本发明第二实施例提供的基于因子图模型的自诊模型训练方法的流程图;
[0020] 图5是本发明第二实施例提供的根据稀疏因子图模型给出自诊建议的流程示意 图;
[0021] 图6a是本发明第二实施例提供的不同自诊系统给出自诊建议的准确率的示意 图;
[0022] 图6b是本发明第二实施例提供的不同自诊系统给出自诊建议的召回率的示意 图;
[0023] 图6c是本发明第二实施例提供的不同自诊系统给出自诊建议的Fl值的示意图;
[0024] 图6d是本发明第二实施例提供的不同自诊系统给出自诊建议的AUC值的示意 图;
[0025] 图7是本发明第二实施例提供对8种呼吸系统疾病进行测试得到的准确率示意 图;
[0026] 图8是本发明第三实施例提供的基于因子图模型的自诊模型训练方法中模型训 练的流程图;
[0027] 图9是本发明第三实施例提供的模型训练过程中0 ik以及Qkn的训练流程图;
[0028] 图10是本发明第四实施例提供的基于因子图模型的自诊模型训练装置的结构 图。

【具体实施方式】
[0029] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于 描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0030] 图1至图3示出了本发明的第一实施例。
[0031] 图1是本发明第一实施例提供的基于因子图模型的自诊模型训练方法的流程图。 参见图1,所述基于因子图模型的自诊模型训练方法包括:
[0032] S110,从收集到的专业知识数据中提取专业知识特征数据,并从收集到的医患交 流数据中提取医患交流特征数据,其中,所述专业知识特征数据以及所述医患交流特征数 据中均存储有疾病与症状之间的对应关系。
[0033] 所述专业知识数据是一些根据专业知识构建的数据,它包括一些专家知识库、题 库。所述专业知识数据的特点是数据的专业性强,比较权威。但是所述专业知识数据是不 考虑实际情况的理论数据,所以,如果不加修改的直接利用所述专业知识数据构建自诊系 统的话,自诊系统难免会出现诊断结果有偏差的缺陷。
[0034] 所述医患交流数据是由记录真实的医患交流过程而得到的数据。正因为所述医患 交流数据来自于实际的医患交流过程,所以所述医患交流数据更为贴合实际的诊断过程。 但是,由于在实际的医患交流过程中,患者对于自身的症状描述往往是不全面,所以医患交 流数据的需要解决的主要问题是数据稀疏问题。
[0035] 所述专业知识数据和医患交流数据是从一些数据源中获取到的,没有经过处理的 原始数据。所以,所述专业知识数据和医患交流数据的格式并不固定,表现在不同条目之间 的差异常常较大。并且,所述专业知识数据和医患交流数据中还会经常出现一些对于构建 自诊系统无用的数据。
[0036] 为了方便对自诊系统的构建,需要提取所述专业知识数据和所述医患交流数据中 的特征数据。具体的,可以从所述专业知识数据中提取专业知识特征数据,并且从所述医患 交流数据中提取医患交流特征数据。
[0037] 所述专业知识特征数据和所述医患交流特征数据均采用统一的数据格式。优 选的,所述专业知识特征数据和所述医患交流特征数据均采用资源描述框架(Resource description framework, RDF)数据格式。并且,所述专业知识特征数据和所述医患交流特 征数据中都存储着不同的症状与由这些症状最终确定的疾病。示例的,如果在一次医患交 流的过程中,医生根据患者的症状"咳嗽"、"流涕"以及"打喷嚏"最终确定了患者的疾病是 "感冒",则在提取的医患交流特征数据中会记录症状"咳嗽"、"流涕"以及"打喷嚏"与疾病 "感冒"之间的对应关系。
[0038] 需要说明的是,所述专业知识特征数据中包含的症状不仅包括类似"咳嗽"、"流 涕"这样的离散的症状数据,还有可能包含类似"体温36. 7摄氏度到38摄氏度"、"舒张压 90至140mmHg"这样的具有连续取值范围的症状数据。
[0039] 所述专业知识特征数据与所述医患交流特征数据是以实例为单位而组织的数据。 在所述专业知识特征数据和所述医患交流特征数据中记录的每一组症状与疾病的对应关 系可以被称为是一个实例。
[0040] S120,根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜 藏层的稀疏因子图模型。
[0041] 所述稀疏因子图模型是一种用于根据用户的症状向用户提供自诊建议的概率图 模型。图2示出了所述稀疏因子图模型的结构。参见图2,所述稀疏因子图的数据源包括从 所述专业知识数据中提取的专业知识特征数据250,以及从所述医患交流数据中提取的医 患交流特征数据260。所述专业知识特征数据250与所述医患交流特征数据260均体现为 症状和疾病之间的对应关系。
[0042] 所述稀疏因子图模型包括圆点和方点。其中,圆点表不一个变量,方点表不一个因 子。所述因子可以是不同变量的乘积,也可以是不同变量与其他因子的乘积,还可以是其他 因子的乘积。
[0043] 所述稀疏因子图模型包括输入层210、因子层220、潜藏层230、以及输出层240。所 述输入层210由不同的输入单元构成,并且每个输入单元对应于特征数据中的一个症状。 所述输入层210中的输入单元是通过对所述因子层220所代表的实例中的症状数据进行解 析而得到的。
[0044] 所述输入层210中的输入单元所对应的症状不仅可以是"咳嗽"、"流涕"这样的离 散取值的症状,还可以是"体温是否在35. 7摄氏度至38摄氏度之间"这样具有连续取值的 症状。这样一来,所述输入单元能够接收的症状数据就不仅包括离散的症状数据,还包括类 似化验单上的化验结果一样的连续的症状数据。
[0045] 与所述输入层210类似,所述输出层240也由不同的输出单元构成。每个输出单 元代表一种疾病。所述输出单元的输出值是所述稀疏因子图模型预测的患者患该输出单元 所代表的疾病的概率。
[0046] 所述因子层220与所述输入层210相连接,它由不同因子构成,每个因子代表所述 专业知识特征数据或者所述医患交流特征数据中的一个实例,即因子与一个实例中所有症 状对应的输入单元相连,且通过所述潜藏层230中的潜藏单元与该实例中的疾病所对应的 输出单元相连。
[0047] 所述潜藏层230处于所述输入层210与所述输出层240之间,与所述输出层240 直接连接,并与所述输入层210通过所述因子层220相连接。与所述输入层210和所述输 出层240类似,所述潜藏层230也包括若干潜藏单元。输入层210中的每个输入单元以一 定的概率被投影至所述潜藏层中的每个潜藏单元,然后所述潜藏层中的每个潜藏单元又以 一定的概率被投影至所述输出层的每个输出单元,最终所述输出单元给出输出值,提供给 用户关于其所患疾病的概率判断。
[0048] 所述潜藏层中潜藏单元的数量一般依据经验确定,并且一般不会设定的太高,以 保证所述潜藏层具有低维度的属性。优选的,所述潜藏层中潜藏单元的数量为50个。由于 所述潜藏层基于数据维度低的性质,所以通过将因子层数据投影至所述低维度的潜藏层, 有利于解决输入数据的稀疏问题。
[0049] 图3是本发明第一实施例提供的基于因子图模型的自诊模型训练方法中稀疏因 子图模型构建的流程图。参见图3,优选的,根据所述专业知识特征数据以及所述医患交流 特征数据的内容构建包括潜藏层的稀疏因子图模型具体包括:
[0050] S121,将所述专业知识特征数据与所述医患交流特征数据中的每种症状对应为所 述稀疏因子图模型中的一个输入单元,不同的输入单元构成所述稀疏因子图模型的输入 层。
[0051] S122,将所述专业知识特征数据与所述医患交流特征数据每种疾病对应于所述稀 疏因子图模型中的一个输出单元,并由不同的输出单元构成所述稀疏因子图模型的输出 层。
[0052] S123,将所述专业知识特征数据与所述医患交流特征数据中的每个实例对应为一 个因子,并由不同的因子构成所述因子层。
[0053] S124,确定潜藏层中潜藏单元的数量,所述潜藏单元用于将所述因子层中的因子 与所述输出层中的输出单元连接。
[0054] 所述潜藏层中潜藏单元的数量一般依据开发人员的开发经验而确定。优选的,潜 藏单元的总数量可以是50个。
[0055] S130,利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图 模型进行迁移训练,直至所述稀疏因子图模型的参数全部收敛。
[0056] 在本实施例中,采用最大似然(Maximum likelihood, ML)估计的方法对所述稀疏 因子图模型进行迁移训练。假设所述稀疏因子图模型仅仅基于所述专业知识特征数据或者 所述医患交流特征数据给出自诊建议,那么实例集合X和疾病集合Y之间的条件概率为:

【权利要求】
1. 一种基于因子图模型的自诊模型训练方法,其特征在于,包括: 从收集到的专业知识数据中提取专业知识特征数据,并从收集到的医患交流数据中提 取医患交流特征数据,其中,所述专业知识特征数据以及所述医患交流特征数据中均存储 有疾病与症状之间的对应关系; 根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀 疏因子图模型; 利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行 迁移训练,直至所述稀疏因子图模型的参数全部收敛。
2. 根据权利要求1所述的方法,其特征在于,在利用所述专业知识特征数据以及所述 医患交流特征数据对所述稀疏因子图模型进行迁移训练之后,还包括: 接收用户输入的症状,并根据所述稀疏因子图模型对输入症状的输出结果向用户反馈 关于输入症状的自诊结果。
3. 根据权利要求1或2所述的方法,其特征在于,根据所述专业知识特征数据以及所述 医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型包括: 将所述专业知识特征数据与所述医患交流特征数据中的每种症状对应为所述稀疏因 子图模型中的一个输入单元,不同的输入单元构成所述稀疏因子图模型的输入层; 将所述专业知识特征数据与所述医患交流特征数据每种疾病对应于所述稀疏因子图 模型中的一个输出单元,并由不同的输出单元构成所述稀疏因子图模型的输出层; 将所述专业知识特征数据与所述医患交流特征数据中的每个实例对应为一个因子,并 由不同的因子构成所述因子层; 确定潜藏层中潜藏单元的数量,所述潜藏单元用于将所述因子层中的因子与所述输出 层中的输出单元连接。
4. 根据权利要求3所述的方法,其特征在于,利用所述专业知识特征数据以及所述医 患交流特征数据对所述稀疏因子图模型进行迁移训练时使用的对数似然函数如下:
其中,Yi表示所述稀疏因子图模型对于第i个疾病的输出估计值,9 ik表示输出Yi在第 k个潜层变量上的概率映射,Q kn表示第k个潜层变量在第n个输出变量上的概率映射,a 表示在针对专业知识特征数据的输出值与潜藏层单元之间关系的权值,U表示在针对医患 交流特征数据的输出值与潜藏层单元之间关系的权值,P表示输出单元之间相关关系的权 值。
5. 根据权利要求4所述的方法,其特征在于,利用所述专业知识特征数据以及所述医 患交流特征数据对所述稀疏因子图模型进行迁移训练,直至所述稀疏因子图模型的参数全 部收敛包括: 固定a、0和]i,采用Jensen不等式确定所述稀疏因子图模型中的0 ik和Qkn ; 待011;和Qkn的取值收敛,保持0&和Qkn参数的取值不变,采用环路信念传播LBP确 定所述稀疏因子图1吴型中的a、P和y。
6. 根据权利要求5所述的方法,其特征在于,所述专业知识特征数据以及所述医患交 流特征数据均采用资源描述框架RDF格式。
7. -种基于因子图模型的自诊模型训练装置,其特征在于,包括: 特征提取模块,用于从收集到的专业知识数据中提取专业知识特征数据,并从收集到 的医患交流数据中提取医患交流特征数据,其中,所述专业知识特征数据以及所述医患交 流特征数据中均存储有疾病与症状之间的对应关系; 模型构建模块,用于根据所述专业知识特征数据以及所述医患交流特征数据的内容构 建包括潜藏层的稀疏因子图模型; 模型训练模块,用于利用所述专业知识特征数据以及所述医患交流特征数据对所述稀 疏因子图模型进行迁移训练,直至所述稀疏因子图模型的参数全部收敛。
8. 根据权利要求7所述的装置,其特征在于,还包括: 自诊结果反馈模块,用于在利用所述专业知识特征数据以及所述医患交流特征数据对 所述稀疏因子图模型进行迁移训练之后,接收用户输入的症状,并根据所述稀疏因子图模 型对输入症状的输出结果向用户反馈关于输入症状的自诊结果。
9. 根据权利要求7或8所述的装置,其特征在于,所述模型构建模块包括: 输入层构建单元,用于将所述专业知识特征数据与所述医患交流特征数据中的每种症 状对应为所述稀疏因子图模型中的一个输入单元,不同的输入单元构成所述稀疏因子图模 型的输入层; 输出层构建单元,用于将所述专业知识特征数据与所述医患交流特征数据每种疾病对 应于所述稀疏因子图模型中的一个输出单元,并由不同的输出单元构成所述稀疏因子图模 型的输出层; 因子层构建单元,用于将所述专业知识特征数据与所述医患交流特征数据中的每个实 例对应为一个因子,并由不同的因子构成所述因子层; 潜藏层构建单元,用于确定潜藏层中潜藏单元的数量,所述潜藏单元用于将所述因子 层中的因子与所述输出层中的输出单元连接。
10. 根据权利要求9所述的装置,其特征在于,利用所述专业知识特征数据以及所述医 患交流特征数据对所述稀疏因子图模型进行迁移训练时使用的对数似然函数如下:
其中,Yi表示所述稀疏因子图模型对于第i个疾病的输出估计值,9 ik表示输出Yi在第 k个潜层变量上的概率映射,Q kn表示第k个潜层变量在第n个输出变量上的概率映射,a 表示在针对专业知识特征数据的输出值与潜藏层单元之间关系的权值,U表示在针对医患 交流特征数据的输出值与潜藏层单元之间关系的权值,0表示输出单元之间相关关系的权 值。
11. 根据权利要求10所述的装置,其特征在于,所述模型训练模块包括: 第一参数确定单元,用于固定Ct和]i,采用Jensen不等式确定所述稀疏因子图模 型中的9 &和Qkn; 第二参数确定单元,用于待eik和Qkn的取值收敛,保持eik和Q kn参数的取值不变, 采用环路信念传播LBP确定所述稀疏因子图模型中的a、0和y。
12. 根据权利要求11所述的装置,其特征在于,所述专业知识特征数据以及所述医患 交流特征数据均采用资源描述框架RDF格式。
【文档编号】G06F19/00GK104331600SQ201410522719
【公开日】2015年2月4日 申请日期:2014年9月30日 优先权日:2014年9月30日
【发明者】李岱峰, 伊凯, 李子龙, 曾刚, 钱立伟, 陆彬, 全伟, 李理, 白晓航, 王浩 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1