一种淋巴瘤病理类型的智能分类系统和方法与流程

文档序号：11729825阅读：179来源：国知局

本发明涉及机器学习的技术领域，尤其涉及一种淋巴瘤病理类型的智能分类系统和方法。

背景技术：

目前，正处于大数据时代，到处都有大规模数据量的数据，现有技术中的简单规则处理难以发挥这些数据的价值。硬件的高速发展给大数据的应用提供了条件。高性能计算使得基于大规模数据的数据学习时间和数据处理代价大大降低了；大规模数据存储，使得能够更快、代价更小地处理大规模数据。由于硬件和算法的发展，使得在使用机器学习解决数据分析的问题后，能获得更加丰厚收益。

现有的机器学习技术主要运用到新闻、电子商务等互联网领域，在传统领域，尤其是医学领域的应用十分匮乏。因此，本发明提供一种将机器学习方法运用到医学领域中，进行淋巴瘤病理类型的智能分类方法，以弥补现有技术中，淋巴瘤的分类主要依赖医生的主观判断，判断的准确性取决于医生的工作经验，不同的医生对患者病情的判断结果可能回不一致，这容易导致误诊，甚至可能会延误患者病情的问题。

技术实现要素：

鉴于上述的分析，本发明旨在提供一种淋巴瘤病理类型的智能分类系统和方法，用以解决耗费人力、依赖医生主观判断的问题。

本发明的目的主要是通过以下技术方案实现的：

一种淋巴瘤病理类型的智能分类系统，其特征在于，包括医生工作站和服务器，

医生工作站用于接收输入信息和显示分类结果；

服务器包括信息获取模块、预处理模块、模型训练模块、信息接收模块、淋巴瘤病理分类器；

信息获取模块获取诊断为淋巴瘤的病例的电子数据，从中获得训练集合；

预处理模块提取训练集合中的每个病例的特征病理信息，将提取的特征病理信息逐个与预先判定的淋巴瘤分类结果对应；再对提取的病理信息进行预处理，生成训练用特征词集合，并为集合中的特征词生成对应的特征数值，将特征数值输入到模型训练模块；预处理模块还用于对用户输入信息进行特征病理信息提取、预处理和生成特征数值，并将该特征数值输入到经过训练的淋巴瘤病理分类器；

模型训练模块利用特征数值，训练分类分析模型，得到经过训练的淋巴瘤病理分类器；

信息接收模块接收用户通过医生工作站输入的信息，并将接收的信息传输到预处理模块；

经过训练的淋巴瘤病理分类器根据预处理模块处理用户输入信息得到的特征数值，得出淋巴瘤病理类型分类结果，并输出到医生工作站。

所述预处理模块提取的特征病理信息包括：淋巴肿瘤的病理名称、病理描述、病理归属分类。

所述预处理模块中的预处理包括：对提取的病理信息中的每条信息进行分词，获得文本词集；以及对分词结果进行噪声词剔除处理。

在噪声词剔除处理之后，还包括对特征词集合中的同义词进行替换。

优选的，噪声词剔除处理是通过建立噪声词表的方式进行匹配和剔除。

所述预处理模块还包括对训练用特征词集合中的特征词进行特征选择；以及采用hash算法为训练用特征词集合中的特征词生成对应的特征数值。

所述分类分析模型基于支持向量机算法。

进一步的，服务器还包括测试模块，用于对经过训练的淋巴瘤病理分类器进行测试；当测试结果不理想时，更改分类分析算法或更改特征选择的数量，以对淋巴瘤病分类模型进行调整；基于重新获得的淋巴瘤病分类模型，再由测试模块对淋巴瘤病理分类器测试；通过不断调整淋巴瘤病分类模型并进行测试，直到测试结果达标。

本发明还提供一种淋巴瘤病理类型的智能分类方法，包括以下步骤：

步骤s1.获取诊断为淋巴瘤的病例的电子数据，从电子数据获得训练集合；

步骤s2.提取训练集合中的每个病例的特征病理信息，将提取的特征病理信息逐个与预先判定的淋巴瘤分类结果对应；

步骤s3.对提取的病理信息进行预处理，生成训练用特征词集合；

步骤s4.为训练用特征词集合中的特征词生成对应的特征数值；

步骤s5.利用上一步生成的特征数值，训练分类分析模型，得到淋巴瘤病理分类器；

步骤s6.接收用户输入的、对病理的描述信息；

步骤s7.对输入信息进行特征病理信息提取、预处理和生成特征数值的处理；

步骤s8.淋巴瘤病理分类器根据待分类信息的特征数值，得出用户输入信息的淋巴瘤病分类结果。

本发明有益效果如下：

通过构建淋巴瘤病理分类器，能节约人工对数据进行分析归类的成本，直接通过计算机程序进行淋巴瘤病理的智能分类，得到相应的分类结果数据，不再需要大量人工去汇总分析；且不依赖于医生的主观判断，有利于帮助医生进行诊断。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为淋巴瘤病理类型智能分类系统的示意图；

图2为淋巴瘤病理类型的智能分类方法的流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

本发明的一个具体实施例，公开了一种淋巴瘤病理类型的智能分类系统，如图1所示，包括：包括医生工作站和服务器，

医生工作站用于接收输入信息和显示分类结果；

服务器进一步包括信息获取模块、预处理模块、模型训练模块、信息接收模块、淋巴瘤病理分类器。

信息获取模块，用于获取诊断为淋巴瘤的病例的电子数据，从电子数据获得训练集合，并存储到存储单元。所述电子数据来源于过往纸质病历的电子化文本、现有电子病历和医院内部的研究统计文本。

优选的，从电子数据获得训练集合具体是将电子数据划分为训练集合和测试集合。测试集合在得到淋巴瘤病理分类器后，用于进行分类器准确性的测试。

预处理模块，用于提取训练集合中的每个病例的特征病理信息，将提取的特征病理信息逐个与预先判定的淋巴瘤分类结果对应；再对提取的病理信息进行预处理，生成训练用特征词集合，并为集合中的特征词生成对应的特征数值，并输入到模型训练模块。

预处理模块还用于对用户输入信息进行特征病理信息提取、预处理和生成特征数值，并将该特征数值输入到经过训练的淋巴瘤病理分类器。

其中，具体提取的特征病理信息包括：病例中淋巴肿瘤的病理名称、病理描述、病理归属分类等。

进一步的，在提取电子数据中的每个病例对应的淋巴瘤病理信息之后，去除不符合要求的问题数据，例如空值、明显有问题的数据、不符合逻辑的数据等。

对提取的病理信息进行的预处理是将提取的病理信息解析成词条，其中每一个病例对应多个词条。

进一步的，预处理包括分词、噪声词剔除、同义词处理等操作，得到训练用特征词集合，具体包括下述步骤：

1.使用分词工具对提取的病理信息中的每条信息进行分词，获得文本词集。如果文本是中文，则采用中文分词器；如果是英文，则使用空格进行分词，且在英文分词完成后使用词干提取的方式归一化时态和单复数。

具体地，可以采用ictclas(instituteofcomputingtechnology,chineselexicalanalysissystem，汉语词法分析系统)和ikanalyzer(ik分词器)等分词工具作为中文分词器。

2.对分词结果进行噪声词剔除处理，具体包括去除没有实际意义的字或词，如“的、了、不但、而且、虽然、但是”等，以及一些生僻字和特殊符号，还去除与淋巴肿瘤的信息无关的词汇。

进一步的，噪声词剔除处理可以通过建立噪声词表的方式进行匹配和剔除。

3.使用预先建立的同义词表对特征词集合中的同义词进行替换，使得所有同义词均用一个词来表示，得到训练用特征词集合。

在经过预处理后，进一步包括对训练用特征词集合中特征词进行特征选择的步骤。如果特征词提取得过多，会造成特征维度过高，不利于分类器训练的问题。

为训练用特征词集合中的特征词生成对应的特征数值，利用计算得到的特征数值来对词条进行特征表示。优选的，具体采用hash算法为训练用特征词集合中的每一病理的特征词生成对应的特征数值。

模型训练模块利用生成的特征数值，训练分类分析模型，得到经过训练的淋巴瘤病理分类器。

所述分类分析是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程，其目的是在相似的基础上收集数据来分类。本发明中使用的分类分析模型，可以采用以下几种：

1.朴素贝叶斯(naivebayes,nb)分类模型

如果条件独立假设成立的话，nb将比鉴别模型(如logistic回归)收敛的更快，所以只需要少量的训练数据。即使条件独立假设不成立，nb在实际中仍然能得到较好的结果。

2.logistic回归(logisticregression,lr)模型

lr有很多方法来对模型正则化。比起nb的条件独立性假设，lr不需要考虑样本是否是相关的。与决策树与支持向量机(svm)不同，nb有很好的概率解释，且很容易利用新的训练数据来更新模型(使用在线梯度下降法)。如果需要概率信息(如，为了更容易的调整分类阈值，得到分类的不确定性，得到置信区间)，或者希望将来有更多数据时能方便的更新改进模型，则可以使用lr模型。

3.决策树(decisiontree,dt)模型

dt模型是非参数的，无需要担心野点(或离群点)和数据是否线性可分的问题(例如dt模型可以轻松的处理这种情况：属于a类的样本的特征x取值往往非常小或者非常大，而属于b类的样本的特征x取值在中间范围)。但是，dt模型的主要缺点是容易过拟合。

4.支持向量机(supportvectormachine,svm)

支持向量机具有高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。svm适合维数较高的文本分类。

本实施例将淋巴瘤病进行3级分类，其一级比一级分的更加详细。根据测试结果，优选支持向量机(svm)算法进行淋巴瘤病的智能分类。

进一步的，淋巴瘤病理类型的智能分类系统包括测试模块，用于对经过训练的淋巴瘤病理分类器进行测试。具体利用预处理模块中使用的方法(处理训练集合的方法)处理测试集合，将根据测试集合生成的测试用特征数值输入到淋巴瘤病分类模型，并与标准结果进行对比，得到测试结果。

进一步的，在测试模块对淋巴瘤病理分类器的测试结果不理想的情况下，更改分类分析算法或更改特征选择的数量，以对淋巴瘤病分类模型进行调整。将重新获得新的淋巴瘤病分类模型，再进行淋巴瘤病理分类器测试。通过不断调整淋巴瘤病分类模型，直到实验结果达标。

信息接收模块，用于接收用户输入的、对病理的描述信息，并将接收的信息传输到预处理模块。该输入的描述信息可以是多个句子、短语、词条、数值、数值范围或者句子、短语、词条、数值的组合；其中句子、短语和词条可以通过分号隔开。

预处理模块对用户的输入信息进行特征病理信息提取、预处理和生成特征数值的处理，处理方法同上述预处理模块中的处理步骤，得到待分类信息的特征词集合和对应的特征数值。

经过训练的淋巴瘤病理分类器根据预处理模块处理用户输入信息得到的特征数值，得出淋巴瘤病理类型分类结果，并输出到医生工作站。

将信息获取模块、预处理模块、模型训练模块、信息接收模块、淋巴瘤病理分类器、测试模块进行封装，存储在服务器中，以供用户通过医生工作站调用、使用。

本发明还提供另一个具体实施例，一种淋巴瘤病理类型的智能分类方法，如图2所示，包括以下步骤：

步骤s1.获取诊断为淋巴瘤的病例的电子数据，从电子数据获得训练集合。

其中，从电子数据获得训练集合的方法是：将电子数据划分为训练集合和测试集合。测试集合在得到淋巴瘤病理分类器后，用于进行分类器准确性的测试。

步骤s2.提取训练集合中的每个病例的特征病理信息，将提取的特征病理信息逐个与预先判定的淋巴瘤分类结果对应。

其中，提取的特征病理信息包括：病例中淋巴肿瘤的病理名称、病理描述、病理归属分类等。

步骤s3.对提取的病理信息进行预处理，生成训练用特征词集合。

其中，预处理是将提取的病理信息解析成词条，其中每一个病例对应多个词条。

预处理进一步包括分词、噪声词剔除、同义词处理等操作，得到训练用特征词集合，具体包括下述步骤：

使用分词工具对提取的病理信息中的每条信息进行分词，获得文本词集；

再对分词结果进行噪声词剔除处理，具体包括去除没有实际意义的字或词，如“的、了、不但、而且、虽然、但是”等，以及一些生僻字和特殊符号，还去除与淋巴肿瘤的信息无关的词汇。优选的，噪声词剔除处理可以通过建立噪声词表的方式进行匹配和剔除；

利用预先建立的同义词表对特征词集合中的同义词进行替换，使得所有同义词均用一个词来表示，得到训练用特征词集合。

进一步的，在经过预处理后，还包括对训练用特征词集合中特征词进行特征选择的步骤。如果特征词提取得过多，会造成特征维度过高，不利于分类器训练的问题。

步骤s4.为训练用特征词集合中的特征词生成对应的特征数值。优选的，采用hash算法为训练用特征词集合中的每一病理的特征词生成对应的特征数值。

步骤s5.利用上一步生成的特征数值，训练分类分析模型，得到淋巴瘤病理分类器。

本发明中使用的分类分析模型，可以采用朴素贝叶斯(naivebayes,nb)分类模型、logistic回归(logisticregression,lr)模型、决策树(decisiontree,dt)模型、支持向量机(supportvectormachine,svm)等。根据测试结果，优选基于支持向量机(svm)算法进行淋巴瘤病的智能分类。

上述对淋巴瘤病理分类器的测试，是指采用步骤s2～s4所述的方法处理测试集合，将根据测试集合生成的测试用特征数值输入到淋巴瘤病分类模型，并与标准结果进行对比，得到测试结果。

进一步的，在淋巴瘤病理分类器的测试结果不理想的情况下，更改分类分析算法或更改特征选择的数量，以对淋巴瘤病分类模型进行调整。将重新获得新的淋巴瘤病分类模型，再进行淋巴瘤病理分类器测试。通过不断调整淋巴瘤病分类模型，直到实验结果达标。

步骤s6.接收用户输入的、对病理的描述信息。

步骤s7.对输入信息进行特征病理信息提取、预处理和生成特征数值的处理，处理方法同步骤s2～s4，得到待分类信息的特征词集合和对应的特征数值。

步骤s8.淋巴瘤病理分类器根据待分类信息的特征数值，得出用户输入信息的淋巴瘤病分类结果。

本实施例中，将步骤s1中获取的电子数据划分为训练集和测试集。在训练分类分析模型，得到淋巴瘤病分类模型之后，将测试集进行特征提取、特征选取等操作后，输入到训练过后的模型中，得到三级分类的准确率。理论上，分级越细需要支持的数据更多。本实施例的测试结果满足我们的预期。如果测试结果与预期偏差太大，则需要考虑是不是数据源出了问题，特征选取的问题、还是算法问题，此时需要对应修改。

综上所述，本发明实施例提供了一种淋巴瘤病理类型的智能分类系统和方法，通过构建淋巴瘤病理分类器，能节约人工对数据进行分析归类的成本，直接通过计算机程序进行淋巴瘤病理的智能分类，得到相应的分类结果数据，实现分类自动化、标准化，不再需要大量人工去汇总分析。在应对海量数据的情况下，采用本发明能大幅降低人工成本。

此外，本发明提供的淋巴瘤病理类型的智能分类方法还具有统一化的特点，在输入信息一致的情况下，分类结果不会因人而异，不会因医生的个人经验不同而结果不同。针对相对症状的病人可以给出病症的分类，给医生的诊断提供参考，这样更加有利于疾病诊断的准确性。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张洋;高彦回;刘为
技术所有人：思派（北京）网络科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。