信息处理装置和信息处理装置的控制方法与流程

文档序号:30435468发布日期:2022-06-16 03:24阅读:94来源:国知局
信息处理装置和信息处理装置的控制方法与流程

1.本发明涉及信息处理装置和信息处理装置的控制方法。


背景技术:

2.频谱分析被广泛用作检测各种样本中所含的特定成分(下文中称为测试物质)的浓度和/或量的方法。在频谱分析中,对样本施加某种刺激,并检测样本对刺激的响应。基于获得的响应信号,可以获得关于样本成分的信息(频谱信息)。频谱信息是表征刺激和/或响应的信息。除了包括光的电磁波的强度之外,频谱信息的示例还包括关于各自具有特定质量的粒子的温度、质量和计数的信息。在频谱分析的另一个示例中,电子撞击被用作刺激,并且对于各种质量的粒子,通过电子撞击分解而生成的粒子的量被记录,从而获得关于结构等的信息。更具体而言,频谱分析的示例包括可见/紫外吸收频谱(uv/vis频谱)分析、红外吸收频谱(ir频谱)分析、核磁共振频谱(nmr频谱)分析、拉曼频谱分析、荧光频谱分析、原子吸收分析、帧分析、发射频谱法、x射线分析、x射线衍射分析、荧光x射线衍射分析、顺磁共振吸收频谱分析、质谱分析、热分析、毛细管电泳分析等。
3.在频谱分析方法的另一个示例中,尝试使用组分之间的空间尺寸、电荷和亲水/疏水特性的差异来分离组分,然后通过用电磁波照射它们来分析组分。这被称为分离分析。例如,在液相色谱法(下文中简称为hplc)中,通过在柱种类、流动相种类、温度、流速等方面优化分析条件,将测试物质与其它物质(下文中简称杂质)分离开。此后,测量分离的测试物质的频谱,从而检测其浓度和/或量。
4.另一个示例是二次离子质谱法,诸如飞行时间二次离子质谱法(tof-sims),其中用离子束照射固体样本以获得关于存在于固体样本表面上的元素和分子的信息。当离子束(一次离子)被施加到高真空中的固体样本时,固体样本表面上的组分被释放到真空中。在这个过程中生成的带正电或带负电的离子(二次离子)通过电场在一个方向上会聚,并在相隔一定距离的位置处被检测到。根据固体样本表面的组成,生成具有不同质量的二次离子。在恒定电场中,质量较小的离子飞得较快,而质量较大的离子飞得较慢。因此,可以通过测量从生成二次离子至到达检测器的时间(飞行时间)来分析生成的二次离子的质量。
5.但是,频谱分析方法要求知识和技能来读取频谱的值。例如,在hplc中,有必要在测试物质与其它杂质之间充分分离频谱信息,并且要求分离过程技术和预处理技术。在tof-sims方法中,在检测到测试物质的同时也检测到杂质,因此要求知识和经验来确定频谱信息的哪些部分与测试物质相关。
6.近年来,随着使用深度学习的机器学习方法的发展,机器学习已被引入到分析方法中。在ptl 1中,基于使用质谱法获得的质谱信息,使用深度学习来确定人是否患有疾病。
7.引文列表
8.专利文献
9.ptl 1:日本专利公开no.2018-152000


技术实现要素:

10.技术问题
11.使用深度学习的机器学习方法是一种无需常规技术中所需的知识和技能就能够以简单且高度准确的方式实现频谱分析的方法。但是,深度学习中的数据处理是在黑盒子中,并且用于计算结果的依据不明确。因此,存在难以判断获得的结果是否可靠的问题。
12.问题的解决方案
13.根据本发明,一种信息处理装置包括:信息获取部件,被配置为获取通过将包括测试物质的样本的频谱信息输入到学习模型中而估计的关于测试物质的定量信息;以及贡献度获取部件,被配置为获取所获取的关于测试物质的定量信息的贡献度。
14.根据本发明,一种用于信息处理装置的方法包括:信息获取步骤,用于获取通过将包括测试物质的样本的频谱信息输入到学习模型中而估计的关于测试物质的定量信息;以及贡献度获取步骤,用于获取所获取的关于测试物质的定量信息的贡献度。
15.发明的有益效果
16.根据本发明的信息处理装置能够使用深度学习来执行过去要求知识和技术的频谱分析,并且将频谱分析的结果与推断结果的依据一起显示,从而使得可以确定获得的结果是否可靠。
附图说明
17.图1是示出包括根据本发明实施例的信息处理装置的信息处理系统的整体配置的示例的图。
18.图2是示出与根据本发明实施例的学习模型的生成相关的处理过程的示例的流程图。
19.图3是示出根据本发明实施例的用于获取贡献度的处理过程的示例的流程图。
20.图4是根据本发明的示例1中的分析装置的示意性框图。
21.图5是示出本发明实施例的流程图。
22.图6示出了hplc中的显示单元的示例。
23.图7a示出了根据本发明另一个实施例的hplc的显示单元的示例。
24.图7b示出了根据本发明另一个实施例的hplc的显示单元的示例。
25.图8示出了tof-sims中显示单元的示例。
26.图9是示出添加剂浓度与特定质谱的强度之间的关系的图。
27.图10是示出根据另一个实施例的tof-sims的显示单元的示例的图。
28.图11示出了根据本发明实施例的在显示单元上显示信息的方式的示例。
29.图12示出了根据本发明实施例的在显示单元上显示信息的方式的示例。
30.图13示出了根据本发明实施例的在显示单元上显示信息的方式的示例。
31.图14示出了根据本发明实施例的在显示单元上显示信息的方式的示例。
32.图15示出了根据本发明实施例的在显示单元上显示信息的方式的示例。
33.图16示出了根据本发明实施例的在显示单元上显示信息的方式的示例。
34.图17示出了根据本发明实施例的在显示单元上显示信息的方式的示例。
35.图18是用于解释根据本发明实施例执行的学习方法的示意图。
36.图19示出了根据本发明实施例的在显示单元上显示的输出的示例。
37.图20示出了根据本发明实施例的在显示单元上显示的输出的示例。
具体实施方式
38.首先,在描述本发明的实施例之前,下面先描述术语。
39.(样本)
40.在实施例中,样本是多种类型化合物的混合物。在实施例中,假设样本包含测试物质和另一种物质(杂质)。对样本没有特别限制,只要是物质的混合物即可。此外,没有必要识别混合物的成分,并且混合物可以包含未知成分。例如,混合物可以包含来自活体的物质,诸如血液、尿液或唾液,或者它可以包含来自食物或饮料的物质。由于对生物源样本的分析为提供样本的人的营养和健康状况提供线索,因此该分析在医学和营养学上具有价值。例如,尿中的维生素b3参与糖、脂质和蛋白质的代谢以及能量产生。因此,测量其尿液代谢物n1-甲基-2-吡啶酮-5-甲酰胺有助于为健康维护提供营养指导。
41.(测试物质)
42.在实施例中,测试物质是样本中所包含的一种或多种已知成分。例如,测试物质是选自蛋白质、dna、病毒、真菌、水溶性维生素、脂溶性维生素、有机酸、脂肪酸、氨基酸、糖、农用化学品和环境激素中的至少一种。
43.例如,为了检测营养素的量,测试物质可以是硫胺素(维生素b1)、核黄素(维生素b2)、n1-甲基烟酰胺和n1-甲基-2-吡啶酮-5-甲酰胺(都是维生素b3代谢物)、4-吡哆醇(是维生素b6代谢物)等。测试物质的其它示例是水溶性维生素,诸如n1-甲基-4-吡啶酮-3-甲酰胺、泛酸(维生素b5)、吡哆醇(维生素b6)、生物素(维生素b7)、蝶酰单谷氨酸(维生素b9)、氰钴胺(维生素b12)、抗坏血酸(维生素c)。测试物质的还有其它示例是氨基酸,诸如l-色氨酸、赖氨酸、蛋氨酸、苯丙氨酸、苏氨酸、缬氨酸、亮氨酸、异亮氨酸和l-组氨酸。测试物质的还有其它示例是矿物质,诸如钠、钾、钙、镁和磷。
44.(定量信息)
45.在实施例中,定量信息是指选自样本中包含的测试物质的量、样本中包含的测试物质的浓度、样本中测试物质的存在或不存在中的至少一个。定量信息的另一个示例是选自样本中包含的测试物质的浓度或量相对于参考值的比率、以及样本中包含的测试物质的量或浓度比中的至少一个。
46.(频谱信息)
47.在实施例中,频谱信息是选自色谱图、光电子频谱、红外吸收频谱(ir频谱)、核磁共振频谱(nmr频谱)、荧光频谱、荧光x射线频谱、紫外/可见吸收频谱(uv/vis频谱)、拉曼频谱、原子吸收频谱、火焰发射频谱、发射频谱、x射线吸收频谱、x射线衍射频谱、顺磁共振吸收频谱、电子自旋共振频谱、质谱和热分析频谱中的至少一个。
48.接下来,参考图1描述根据实施例的信息处理系统。图1是示出包括根据第一实施例的信息处理装置的信息处理系统的整体配置的图。
49.信息处理系统包括信息处理装置10、数据库22和分析装置23。信息处理装置10和数据库22彼此连接,以便能够经由通信部件彼此通信。在本实施例中,通信部件由lan(局域网)21配置。信息处理装置10和分析装置23经由根据诸如usb(通用串行总线)之类的标准的
通信部件彼此连接。lan可以是有线lan、无线lan或wan。可以使用lan代替usb。
50.数据库22管理作为分析装置23进行分析的结果而获取的频谱信息。数据库22还管理由稍后描述的学习模型生成单元42生成的学习模型(经训练的模型)。信息处理装置10经由lan 21获取由数据库22管理的频谱信息和学习模型。
51.根据本实施例的学习模型是回归学习模型,其可以通过诸如深度学习之类的机器学习生成。这里所指的学习模型是通过根据机器学习算法使用训练数据进行训练而构造以便能够做出适当预测的模型。学习模型中使用了各种类型的机器学习算法。示例是使用神经网络的深度学习。神经网络包括输入层、输出层和多个隐藏层,其中层经由称为激活函数的公式耦合。在使用带有标签(与输入对应的输出)的训练数据的情况下,激活函数的系数被确定为使得输出正确地与输入对应。通过使用多条训练数据来确定系数,可以生成能够以高准确性预测对于输入的输出的学习模型。
52.分析装置23是用于分析样本、测试物质等的装置。分析装置23是分析部件的示例。如上所述,在本实施例中,信息处理装置10和分析装置23彼此连接以便能够彼此通信。但是,可替代地,分析装置23可以部署在信息处理装置10内部,或者信息处理装置10可以部署在分析装置23内部。还可替代地,分析结果(频谱信息)可以经由诸如非易失性存储器之类的存储介质从分析装置23传送到信息处理装置10。
53.在本实施例中,对分析装置23没有特别限制,只要它能够获取频谱信息即可。分析装置23可以是使用化学分析方法或物理分析方法的装置。在本实施例中,在分析装置使用化学分析方法的情况下,化学方法使用例如选自色谱法(诸如液相色谱法或气相色谱法)和毛细管电泳中的至少一种。在本实施例中,在分析装置使用物理分析方法的情况下,物理分析方法使用例如选自光电子频谱法、红外吸收频谱法、核磁共振频谱法、荧光频谱法、荧光x射线频谱法、可见/紫外吸收频谱法、拉曼频谱法、原子吸收频谱法、火焰发射频谱法、发射频谱法、x射线吸收频谱法、x射线衍射频谱法、使用正常磁共振吸收的电子自旋共振频谱法、质谱法和热谱法中的至少一种。作为质谱法,例如,可以使用飞行时间二次离子质谱分析。
54.例如,使用液相色谱法的分析装置包括移动相容器、液体馈送泵、样本注入单元、柱、检测器和a/d转换器。作为检测器,使用紫外线、可见射线、红外线等的电磁波检测器、电化学检测器、离子检测器等可以被使用。在这种情况下,获得的频谱信息指示作为时间的函数的来自检测器的输出的强度。
55.信息处理装置10包括作为其功能单元的通信if 31、rom 32、ram 33、存储单元34、操作单元35、显示单元36和控制单元37。
56.通信if(接口)31例如由lan卡和usb接口卡实现。通信接口31经由lan 21和usb在信息处理装置10与外部装置之间(例如,数据库22和分析装置23之间)执行通信。rom(只读存储器)32由非易失性存储器等实现,并且用于存储各种类型的程序等。ram(随机存取存储器)33由易失性存储器等实现,并且用于暂存各种类型的信息。存储单元34例如由hdd(硬盘驱动器)等实现,并且用于存储各种类型的信息。操作单元35例如由键盘、鼠标等实现,并且用于将用户给出的指令输入到装置中。显示单元36例如由显示器等实现,并且用于向用户显示各种类型的信息。操作单元35和显示单元36在控制单元37的控制下提供作为gui(图形用户界面)的功能。
57.控制单元37例如由至少一个cpu(中央处理单元)等实现,并且用于以集成方式控制在信息处理装置10中执行的处理。控制单元37包括作为其功能单元的频谱信息获取单元41、学习模型生成单元42、学习模型获取单元43、估计单元44、信息获取单元45、贡献度获取单元46和显示控制单元47。
58.在此,贡献度可以是指示频谱信息中包括的信息在获取关于测试物质的定量信息中的贡献度的信息。
59.频谱信息获取单元41从分析装置23获取对包含测试物质的样本的分析的结果,并且更具体而言,获取关于样本的频谱信息。注意的是,关于样本的频谱信息可以从预先存储分析结果的数据库22中获取。类似地,获取关于测试物质的频谱信息。关于测试物质的频谱信息是指在测试物质单独存在的状态下获得的频谱信息。此后,频谱信息获取单元41将获取的关于样本的频谱信息输出到估计单元44和贡献度获取单元46。此外,频谱信息获取单元41将获取的关于测试物质的频谱信息输出到学习模型生成单元42和贡献度获取单元46。
60.在此,频谱信息可以是这样的频谱信息,其包括关于具有多个峰的曲线图的信息,其中峰的高度与样本中包含的物质的定量信息对应,并且峰的位置与样本中包含的物质的类型对应。在这种情况下,贡献度可以是指示多个峰中的每个峰在获取测试物质的定量信息中的贡献度的信息。
61.学习模型生成单元42使用由频谱信息获取单元41获取的测试物质的频谱信息来生成训练数据。学习模型生成单元42然后使用训练数据执行深度学习以生成学习模型。稍后将给出训练数据的生成和学习模型的生成的详细描述。学习模型生成单元42将生成的学习模型输出到学习模型获取单元43。注意的是,学习模型生成单元42可以将生成的学习模型输出到数据库22。
62.学习模型获取单元43获取由学习模型生成单元42生成的学习模型。在学习模型被存储在数据库22中的情况下,学习模型获取单元43从数据库22中获取学习模型。学习模型获取单元43将获取的学习模型输出到估计单元44。
63.估计单元44将由频谱信息获取单元41获取的样本的频谱信息输入到由学习模型获取单元43获取的学习模型中,并使学习模型估计样本中包含的测试物质的定量信息。估计单元44将估计的定量信息输出到信息获取单元45。估计单元44是被配置为通过将样本的频谱信息输入到学习模型中来估计测试物质的定量信息的估计部件的示例。
64.信息获取单元45获取由学习模型估计的定量信息。即,信息获取单元45是信息获取部件的示例,该信息获取部件被配置为获取通过将包含测试物质的样本的频谱信息输入到学习模型中而估计的测试物质的定量信息。信息获取单元45将获取的定量信息输出到显示控制单元47。
65.贡献度获取单元46获取由信息获取单元45获取的测试物质的定量信息的贡献度。即,贡献度获取单元46是被配置为获取所获取的测试物质的定量信息的贡献度的贡献度获取部件的示例。在本实施例中,贡献度指示样本的频谱信息中的每个频谱对通过学习模型估计的测试物质的定量信息具有影响的程度。稍后将给出贡献度的获取的详细描述。贡献度获取单元46将获取的贡献度输出到显示控制单元47。
66.显示控制单元47执行控制,使得由信息获取单元45获取的定量信息和由贡献度获取单元46获取的贡献度显示在显示单元36上。显示控制单元47是显示控制部件的示例。
67.控制单元37中包括的单元的至少一部分可以被实现为独立的装置,或者可以被实现为实现功能的软件。在这种情况下,实现功能的软件可以经由网络在诸如云服务器之类的服务器上操作。在本实施例中,假设每个单元由本地环境中的软件实现。
68.注意的是,图1中所示的信息处理系统的配置仅仅是示例。例如,信息处理装置10的存储单元34可以具有数据库22的功能,并且存储单元34可以存储各种类型的信息。
69.接下来,参考图2和图3描述根据本实施例的处理过程。
70.图2是示出与生成学习模型相关的处理过程的流程图。
71.(s201)(分析单一测试物质)
72.在步骤s201中,分析装置23分析单一测试物质并获取测试物质的频谱信息。可以从灵敏度、分析时间等观点来适当地选择分析条件。在分析中,分析装置23对几种不同浓度的测试物质执行分析。浓度的数量取决于物质的特性,但一般期望对三种或更多种不同浓度执行分析。在存在多种类型的测试物质的情况下,期望分别分析每种类型的测试物质。但是,对于多种类型的测试物质,在信号被充分分离的情况下,可以将它们一起分析。分析装置23将获取的频谱信息输出到信息处理装置10。信息处理装置10从分析装置23接收频谱信息,并将接收到的频谱信息存储在ram 33或存储单元34中。频谱信息获取单元41以上述方式获取并存储频谱信息。如上所述,作为分析的结果获得的频谱信息可以被存储在数据库22中。在这种情况下,频谱信息获取单元41从数据库22获取频谱信息。分析装置23可以在任何定时分析测试物质,只要在步骤s202中生成训练数据之前执行分析即可。
73.(s202)(生成训练数据)
74.在步骤s202中,学习模型生成单元42使用由频谱信息获取单元41获取的测试物质的频谱信息来生成多条训练数据。下面描述生成训练数据的具体方法。训练数据是通过向测试物质的频谱信息添加由随机数生成的任意波形而生成的。例如,在液相色谱法中,频谱信息(色谱图)在很多情况下具有由高斯分布表示的波形。因此,学习模型生成单元42添加由随机数确定其峰高度、中值和标准偏差的多个高斯曲线(高斯函数),从而生成多个随机噪声。然后,学习模型生成单元42通过将多个随机噪声中的每一个添加到由测试物质的频谱信息表示的波形来生成多个波形。以这种方式生成的多个波形被用作包含测试物质和杂质的虚拟样本的频谱信息(用于训练的频谱信息)。即,确定了所生成的多个频谱信息要被用作训练数据的输入数据。此外,学习模型生成单元42确定了基于其生成频谱信息的从测试物质的频谱信息识别出的峰高度(定量信息)是训练数据的正确答案数据。学习模型生成单元42生成多条训练数据,每条训练数据是输入数据和正确答案数据的集合。由于学习模型生成单元42已经在步骤s201中获取了针对测试物质的不同浓度中的每种浓度的频谱信息,因此学习模型生成单元42针对相应的不同浓度生成多条训练数据。
75.在已知技术中,执行机器学习以学习样本的质谱数据与癌症的存在/不存在之间的关系。但是,要求大量的训练数据来实现机器学习的高准确性。例如,需要准备90000条不同的数据作为训练数据。即,虽然机器学习可以提供具有高准确性的复杂分析结果,但它的缺点是需要准备大量的训练数据。在本实施例中,不必准备大量的训练数据而没有机器学习中常常发生的困难,因此可以减轻用户的负担。
76.代替以上述方式生成训练数据,可以生成训练数据使得通过使用分析装置23分析样本来获取用于学习的多个样本的多条频谱信息,并且获得的多条频谱信息被与测试物质
的定量信息相结合并且被用作训练数据。注意的是,可以通过与上述方法不同的方法来生成虚拟样本的频谱信息。
77.(s203)(生成学习模型)
78.在步骤s203中,学习模型生成单元42通过使用在步骤s202中为每个浓度生成的多条训练数据根据预定算法执行机器学习来生成学习模型。在本实施例中,使用神经网络作为预定算法。通过使用多条训练数据来训练神经网络,学习模型生成单元42生成学习模型,该学习模型基于样本的输入频谱信息来估计样本中包含的测试物质的定量信息。训练神经网络的方法是众所周知的,因此在本实施例中省略对其的进一步详细描述。作为预定算法,例如,可以使用svm(支持向量机)、dnn(深度神经网络)、cnn(卷积神经网络)等。在存在多种类型的测试物质的情况下,为每种物质建立学习模型。学习模型生成单元42将生成的学习模型存储在ram 33、存储单元34或数据库22中。
79.即,以上述方式,生成用于基于样本的频谱信息来估计样本中包含的测试物质的定量信息的学习模型。
80.接下来,描述获取贡献度的方法。图3是示出用于获取贡献度的处理过程的流程图。
81.(s301)(分析样本)
82.在步骤s301中,分析装置23分析目标样本并获取样本的频谱信息。使用与上述步骤s201中使用的分析条件相同的分析条件。分析装置23将获取的频谱信息输出到信息处理装置10。信息处理装置10从分析装置23接收频谱信息,并将接收到的频谱信息存储在ram 33或存储单元34中。频谱信息获取单元41以上述方式获取并存储频谱信息。如上所述,作为分析的结果获得的频谱信息可以存储在数据库22中。在这种情况下,频谱信息获取单元41从数据库22获取频谱信息。注意的是,分析装置23可以在任何定时分析样本,只要在步骤s302中执行的定量信息的估计之前执行分析即可。
83.(s302)(估计定量信息)
84.在步骤s302中,学习模型获取单元43获取存储在ram 33、存储单元34或数据库22中的学习模型。然后,估计单元44通过将在步骤s301中获取的样本的频谱信息输入到学习模型中而使获取的学习模型估计样本中包含的测试物质的定量信息。此外,在必要时,估计单元44将估计的定量信息转换为在显示单元36上显示所估计的定量信息的格式。在显示单元36上显示的格式可以是浓度或与参考量(标准量)的比率。在训练模型估计的值以用于显示的格式表述的情况下,不必转换。信息获取单元45从估计单元44获取估计的定量信息并将其存储在ram 33或存储单元34中。
85.如上所述,即使在测试物质的峰与杂质的峰没有完全分离的情况下,通过使用由机器学习获得的学习模型,也可以在没有关于分析的复杂且先进的知识的情况下以高准确性获得测试物质的定量信息。
86.因此,即使是非专家也能够容易地以高准确性执行测试物质的定量分析。
87.(s303)(获取贡献度)
88.在步骤s303中,贡献度获取单元46获取在步骤s302中估计的定量信息的贡献度。
89.关于获取贡献度的方法等,下面参考附图描述本发明的实施例的示例。但是,本发明的范围不限于以下描述的实施例。
90.图4是示出由根据本发明的分析数据处理装置执行的处理的处理流程的示意性框图。
91.(分析数据处理装置的配置)
92.分析数据处理装置包括:分析单元,被配置为从分析装置获取分析数据;推断单元,被配置为从由分析单元获取的频谱信息中推断结果;依据估计单元,被配置为估计推断的依据;以及显示单元,被配置为显示其结果。
93.(分析单元)
94.分析单元是用于获得样本的分析结果的各种分析仪之一。用于分析的仪器多种多样,诸如可见/紫外吸收频谱(uv/vis频谱)、红外吸收频谱(ir频谱)、核磁共振频谱(nmr频谱)、拉曼频谱分析、荧光频谱分析、原子吸收分析、火焰分析、发射频谱法分析、x射线分析、x射线衍射、x射线荧光衍射、顺磁共振吸收频谱、质谱分析、热分析、气相色谱法和液相色谱法。
95.例如,液相色谱法包括移动相容器、液体馈送泵、样本注入单元、柱、检测器和a/d转换器。作为检测器,使用紫外线、可见射线、红外线等的电磁波检测器、电化学检测器、离子检测器等可以被使用。在这种情况下,获得的频谱信息指示作为时间的函数的来自检测器的输出的强度。
96.(推断单元)
97.推断单元使用通过机器学习预先获得的经训练的模型基于频谱信息计算样本的量和类型。有各种类型的机器学习算法用于生成学习模型。示例是使用神经网络的深度学习。神经网络包括输入层、输出层和多个隐藏层,其中层经由称为激活函数的公式耦合。在使用带有标签(与输入对应的输出)的训练数据的情况下,激活函数的系数被确定为使得输出正确地与输入对应。通过使用多条训练数据来确定系数,可以生成能够以高准确性预测与输入对应的输出的学习模型。
98.在本实施例中,可以通过诸如深度学习之类的机器学习来生成经训练的模型。经训练的模型是指通过使用训练数据对准备好的学习模型的多个系数进行拟合而构造以便能够执行适当的预测的学习模型。存在各种类型的学习模型。例如,称为深度神经网络的学习模型由输入层、输出层和多个隐藏层组成,其中层经由称为激活函数的计算公式耦合。在使用带有标签(与输入对应的输出)的训练数据的情况下,激活函数的系数被确定为使得输出正确地与输入对应。通过使用多条训练数据来确定系数,可以生成能够以高准确性预测与输入对应的输出的经训练的模型。
99.(依据估计单元)
100.依据估计单元计算频谱信息在推断中的贡献度,并且基于计算的结果来估计推断的依据。根据使用经训练的模型计算机器学习中的贡献度的已知方法,通过偏微分计算输入的每个维度对输出的贡献度。例如,频谱信息f(x)的值在x=α处变化β(图4中的(1)数据处理)。将变化的频谱信息应用于经训练的模型(图4中的(2)通过经训练的模型进行推断)。计算获得的推断结果中的改变δy,并采用δy/β作为x=α处的贡献度(图4中的(3)计算贡献度)。这里使用的经训练的模型与推断单元中使用的相同。
101.在用于估计依据的方法的示例中,具有大的贡献度的频谱信息的一部分被输出作为用于计算的依据(图4中的(4)估计依据)。例如,在从质谱中识别物质的类型的分析的情
况下,输出中的峰的位置是用于识别的依据。
102.在计算贡献度的另一种方法中,频谱信息中的多条信息变化。根据频谱信息f(x)的x的值分别在x=α1、α2、α3、...和αn处变化时发生的输出的改变,可以计算α1、α2、α3、...和αn的组合的贡献度。例如,在通过tof-sims获得的质谱中,特定峰的量值不一定与样本的浓度成比例地改变,但在很多情况下,一个样本的浓度是通过组合多个峰确定的。例如,在一些情况下,当样本的浓度超过某个值时,会出现另一个峰的增加。通过确定峰的每个组合的贡献度,可以估计用于推断的依据,即,峰的哪个组合是用于推断的依据。
103.(显示单元)
104.显示单元显示由分析单元获得的频谱信息、由推断单元获得的推断信息,以及由依据估计单元获得的依据信息。
105.(信息处理装置的控制方法)
106.下面描述根据本发明实施例的信息处理装置的控制方法。根据这个实施例的控制方法包括至少以下步骤。
107.(1)信息获取步骤,用于获取通过将包含测试物质的样本的频谱信息输入到学习模型中而估计的测试物质的定量信息。
108.(2)贡献度获取步骤,用于获取所获取的测试物质的定量信息的贡献度。
109.在这个方法中,信息处理装置与上述相同。
110.示例1
111.在这个示例中,对通过使用高性能液相色谱法(下文中称为hplc)作为分析单元对液体样本中的测试物质进行量化的方法给出解释。图5是用于解释本示例的流程图。
112.作为初步准备,准备经训练的模型。首先,准备多个各自包含已知量的测试物质的样本,并且通过hplc获得频谱信息(色谱)(步骤s1)。使用获得的频谱信息和测试物质的量作为训练数据,执行机器学习(步骤s2)。作为具体的学习方法,可以使用诸如神经网络或支持向量机之类的一般使用的机器学习方法,或者可以使用诸如dnn(深度神经网络)或cnn(卷积神经网络)等具有多个隐藏层的深度学习方法。在存在多种类型的测试物质的情况下,可以针对每种类型的物质构造经训练的模型。在使用深度学习的情况下,期望构造递归神经网络。
113.接下来,推断测试物质的未知量的值。通过hplc获得包含未知量的测试物质的样本的色谱图(s3)。色谱图显示在显示单元上。将样本的色谱图输入到经训练的模型中,并且推断测试物质的量(s4)。推断结果显示在显示器上。
114.此外,估计结果的推断的依据。色谱图是从检测器输出的信号的强度i根据时间变化的数据,并且可以用数组i(t)表示。在此,t是从0开始的整数。在以δt的间隔获取数据的情况下,可以通过将数据获取时间除以δt来获得t。当色谱图的获取结束时间表示为t
end
δt时,t取从0到t
end
的值。生成新的色谱图j(t),使得当t=n时j(t)=0并且当t≠n时j(t)=i(t)(s5)。通过将训练模型应用于j(t)来执行推断。令k(n)表示i(t)的推断结果与j(t)的推断结果之差的绝对值,并且通过将n从0变为t
end
来获得数组k(n)。注意的是,此处获得的k(n)表示色谱图对推断的贡献度(s6)。确定贡献度的最大值,并将获得的最大值显示在显示单元上作为推断的依据(s7)。可以选择贡献度的两个或三个最大的最大值作为推断的依据。
115.图6示出了显示单元上的显示方式的示例。在这个示例中,测试物质没有通过hplc与杂质完全分离,但是由机器学习推断出如果测试物质被隔离将获得的峰高度(302)。作为用于推断这个峰高度的依据,色谱图中的两个点(303)被指出。当使用估计峰高度的常规方法从关于这两个点的信息计算距离基线的峰高度时,结果(304)与使用经训练的模型推断的结果良好地一致,如图6中所看到的。
116.图11示出了显示单元上的显示方式的另一个示例。除了测得的色谱图(801)和推断的峰信息(807)之外,色谱图(801)中还显示阴影等级作为用于推断的依据。部分越暗,贡献度越高。在这个示例中,推断未检测到感兴趣的物质(峰高度为0)。峰将出现在色谱图的位置803处。实际上,色谱图在这个位置803处具有由804表示的值,但此处没有峰。由804表示的值受峰805和806影响的结果而出现。802指示显示方式的另一个示例,其中贡献度被显示在曲线图中而不是阴影等级801。图12和图13示出了另外两个示例,其中图11中所示的贡献度以不同的方式显示。在图12中,贡献度的数值和对应的峰由线连接。在图13中,指示峰位置的数值和贡献度的对应数值被指示。
117.示例2
118.如下改变示例1中对推断结果的依据的估计。
119.令i
max
表示色谱图中的最大值。生成新的色谱图j(t),使得当t=n时j(t)=i(t)+i
max
×
0.1,并且当t≠n时j(t)=i(t)。其它与示例1中相同。
120.在示例1中,检测在色谱的一部分被设置为0时发生的推断结果的值的改变。相反,在这个示例中,检测向色谱图的一部分添加常数时发生的推断结果的改变。在示例1中,有可能贡献度取决于从检测器输出的信号的强度而改变,但在示例2中,即使在从检测器输出的信号的强度小时,也能够以高准确性获得贡献度。
121.图7示出了在从检测器输出的信号的强度低时显示用于推断的依据的方式的示例。贡献度最大的两个最大值被显示为用于推断的依据。图7a与示例1对应,并且图7b与示例2对应。在图7a中,由于对测试物质的检测灵敏度低,虽然峰401的贡献度被认为小,但具有大值的峰401被选择为依据。在图7b中,正确选择了具有大贡献度的峰。
122.示例3
123.在这个示例3中,对使用飞行时间二次离子质谱法(下文中称为tof-sims)作为分析单元对个体样本中的测试物质进行分类的方法给出解释。下面使用与示例1的解释中使用的图5中所示相同的流程图来描述该过程。
124.作为初步准备,准备经训练的模型。首先,准备类型已知的测试物质的多个样本、与杂质混合并固化,然后通过tof-sims获得其频谱信息(质谱)(步骤s1)。使用获得的频谱信息和测试物质的类型作为训练数据来执行机器学习(步骤s2)。作为具体的学习方法,可以使用诸如神经网络或支持向量机之类的一般使用的机器学习方法,或者可以使用诸如dnn(深度神经网络)或cnn(卷积神经网络)等具有多个隐藏层的深度学习方法。在存在多种类型的测试物质的情况下,可以针对每种类型的物质构造经训练的模型。在使用深度学习时,期望构造分类神经网络。
125.接下来,对于类型未知的测试物质,推断类型。通过tof-sims获得包含类型未知的测试物质的样本的质谱(s3)。获得的质谱被显示在显示单元上。将样本的质谱输入到经训练的模型中,从而推断测试物质的类型(s4)。推断结果被显示在显示器上。
126.此外,估计用于结果的推断的依据。质谱是由检测器输出的信号的强度i随质量除以电荷所获得的值变化的数据,并且可以由数组i(t)表示。在此,t为从0开始的整数,以δt为间隔获取数据,其中δ由设备的分辨率确定。因此,可以获得t,使得被除以电荷的质量被进一步除以δt。当质谱获取结束值由t
end
δt表示时,t取从0到t
end
的值。生成新的色谱图j(t),使得当t=n时j(t)=0并且当t≠n时j(t)=i(t)(s5)。通过将经训练的模型应用于j(t)来执行推断。令k(n)表示i(t)的推断结果与j(t)的推断结果之差的绝对值,并且通过将n从0变为t
end
来获得数组k(n)。注意的是,此处获得的k(n)表示质谱对推断的贡献度(s6)。确定贡献度的最大值,并将获得的最大值显示在显示单元上作为推断的依据(s7)。可以选择贡献度的两个或三个最大的最大值作为用于推断的依据。
127.图8示出了显示单元上的显示方式的示例。在这个实施例中,识别出包含甲基丙烯酸甲酯作为主要成分的紫外线固化树脂中包含的添加剂。501指示质谱,502指示使用深度学习的识别结果。看出来,从多个添加剂候选中,添加剂被识别为乙炔醇e-100(由川研精化株式会社制造)。503指示这个分类结果的依据。504指示用户从依据503中选择的一部分的放大显示。505指示关于被选择为依据的质谱上显示的信息。
128.下面给出的讨论集中在作为依据示出的质谱504上。图9示出了当添加剂(乙炔醇e-100)的浓度变为0.2%、0.4%、0.6%、1.5%和10%时获得的质谱m/z=231。虽然m/z=231作为信号小,但它与添加剂浓度的相关性高,因此这个信号可以被视为来自添加剂的信号。因此,可以说质谱m/z=231是用于识别的依据之一。
129.图14示出了在显示单元上的显示方式的另一个示例。901表示质谱,902表示使用深度学习的识别结果。识别中的贡献度显示在903中。904表示关于具有大贡献度的质谱的信息。图15和图16示出了其中以不同的方式显示图14中所示的贡献度的另外两个示例。在这些示例中,关于具有大贡献度的质谱的信息与其贡献度的值一起显示。在图15中,关于质谱的信息和贡献度的数值一起通过线连接到对应的峰。在图16中,指示峰的位置的数值与关于质谱的对应信息和贡献度的数值一起显示。
130.示例4
131.如下改变示例3中对推断结果的依据的估计。
132.令i
max
表示质谱中的最大值。生成新的质谱j(t),使得当t=n时j(t)=i(t)+i
max
×
0.1,并且当t≠n时j(t)=i(t)。其它与示例3中相同。在这个示例4中,用于推断的依据以与示例3类似的方式显示。
133.示例5
134.如下改变示例3中对推断结果的依据的估计。
135.生成新的质谱j(t),使得当t=n1或t=n2时j(t)=0,并且当t≠n1且t≠n2时j(t)=i(t)。令k(n1,n2)表示i(t)的推断结果与j(t)的推断结果之差的绝对值,并且通过将n1从0改变为t
end
和将n2从0改变为t
end
来获得数组k(n1,n2)。
136.在这种情况下,用于推断的依据由其中k(n1,n2)具有最大值的n1和n2给出。图10示出了显示单元上的显示方式的示例。从基于n1和n2共同获得识别结果的事实来看,两者相距很近的可能性很大。在图10中,703(a)暗示质量较大的在右侧具有峰的物质被分解成在左侧具有峰的物质。这些信息的组合可以被用作推断结果的依据。
137.示例6
138.在示例6中,描述使用质谱法作为分析单元同时识别和量化个体样本中的测试物质的方法。下面使用与示例1的解释中使用的流程图(如图5所示)相同的流程图来描述该过程。
139.作为初步准备,除了示例3中执行的针对不同种类的测试物质的学习外,还通过相同的方法针对不同量的测试物质执行学习。在这种情况下,频谱信息和测试物质的量被用作训练数据。用于推断的依据可以通过与示例3中相同的方法获得。
140.通过使用在示例3中生成的学习模型和在这个示例6中生成的学习模型,可以从一个质谱推断类型和量。可以将频谱信息、测试物质的种类和量用作训练数据,并且可以通过执行一次推断来获得种类和量。图17示出了显示方式的示例。1001指示质谱,并且1002指示类型的推断结果和关于被选为用于分类类型的依据的质谱的信息。1003指示量的推断结果和关于被选为用于推断的依据的质谱的信息。
141.示例7
142.在示例7中,给出了关于使用利用质谱法的分析单元来识别个体样本中的测试物质的另一种方法的描述。下面使用与示例1的解释中使用的流程图(如图5所示)相同的流程图来描述该过程。作为初步准备,通过与示例3中相同的方法针对不同类型的测试物质执行学习。在学习中,使用图18中所示的深度神经网络(下文中简称为dnn)。这个dnn属于分类类型,其中输出层1102具有与分类的数量一样多的节点,并且分类正确的概率被输出到每个节点。给出作为概率信息的训练数据,使得当输入频谱信息时,在分类与输入正确对应的情况下输出1,而在其它情况下输出0。期望使用softmax函数作为连接输出层和紧接在输出层之前的层的激活函数。这使得可以在输出层的节点处设置输出值,使得输出值的总和变得等于1。当频谱信息输入到已经训练好的学习模型的输入层时,从输出层输出针对每个分类的概率。在此,对于输出层的一个节点,以与示例3中类似的方式估计依据。通过对输出层的所有节点进行估计,可以获得每个分类结果的依据(质谱的贡献度)。图19示出了根据示例7的显示输出结果的方式的示例。1201指示输入质谱,并且1202指示关于分类结果中获得最高概率的物质的信息、作为分类结果的依据的峰信息和贡献度。1203指示关于在分类结果中获得第二高概率的物质的信息、作为分类结果的依据的峰信息以及贡献度。
143.示例8
144.以与示例7类似的方式对质谱进行分类,并且对于每个分类候选,显示关于物质的信息、分类所基于的峰信息以及贡献度。质谱信息中的最大值用i
max
表示,并且生成新的质谱j(t),使得当t=n时j(t)=i(t)+i
max
,并且当t≠n时j(t)=i(t)。其它与示例3中相同,并且对于每个分类候选重新确定贡献度。对于每个分类候选而言,这里确定的贡献度指示当峰添加到质谱的一部分时发生的分类正确概率的增加量。图20示出了根据本实施例显示的输出结果的示例。1301中指示的缺失的峰是对增加分类正确概率具有最大贡献度的峰。在图20中所示的示例中,如果在(a)处存在峰(m/z=57,在图20中用1302表示),那么分类候选(2)(即,戊烷)是正确分类的概率将增加80%。即,对这个质谱进行分类,使得分类候选(1)(即,乙酸)正确的概率是87.5%,但如果在(a)处存在峰,那么分类候选(2)正确的概率将变得高于分类候选(1)正确的概率,并且物质将被分类为戊烷。可以说,在(a)处没有峰的事实使得分类候选(1)的概率最高。
145.本发明不限于上述实施例,并且在不脱离本发明的精神和范围的情况下可以进行
各种改变和修改。因此,附上权利要求以便公开本发明的范围。
146.本技术基于2019年11月1日提交的日本专利申请no.2019-200321要求优先权,该申请通过引用整体并入本文。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1