药物信息推送方法、装置、计算机设备及存储介质与流程

文档序号：25734019发布日期：2021-07-06 18:42阅读：85来源：国知局

本申请涉及计算机技术领域，尤其涉及一种药物信息推送方法、装置、计算机设备及存储介质。

背景技术：

目前，运用深度强化学习(deepreinforcementlearning，drl)模型可解决越来越多的实际问题。在运行drl模型时，可将患者的样本数据输入drl模型以输出一个q值(value)，这里的q值可用于评估不同行动(action，如医生的开药方案)的预期奖励(reward，如药物的影响程度)。由于drl模型往往会考虑短期结局和长期结局且drl模型只有一个回传因子，因此q值会同时评估短期结局的预期奖励和长期结局的预期奖励，从而会导致长期结局的预期奖励和短期结局的预期奖励的本质相同。然而，由于长期结局和短期结局具有本质差异，该本质差异主要体现在长期结局和短期结局的行动距离不同(如短期结局主要受最近时间的药物影响，长期结局主要受更久时间之前的药物影响)，因此导致了drl模型的可扩展性差。

技术实现要素：

本申请实施例提供一种药物信息推送方法、装置、计算机设备及存储介质，可增强药物奖励预测模型的可扩展性，从而提高了药物信息推送的精准度。

第一方面，本申请提供了一种药物信息推送方法，该方法包括：

获取目标用户的目标用户属性信息，将目标用户属性信息输入药物奖励预测模型，目标用户属性信息包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息中的至少一种；

通过药物奖励预测模型输出目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数，其中，药物奖励预测模型包括第一网络参数和第二网络参数，第一网络参数用于确定具有任一用户属性信息的任一用户在各种药物作用下的第一奖励参数，第二网络参数用于确定任一用户在各种药物作用下的第二奖励参数，任一用户在一种药物作用下对应一个第一奖励参数和一个第二奖励参数，第一奖励参数对应的药物作用时长大于第二奖励参数对应的药物作用时长；

基于目标用户的各第一目标奖励参数和/或目标用户的各第二目标奖励参数，确定目标用户在各药物作用下的各用户奖励参数，其中，目标用户在一种药物作用下对应一个用户奖励参数；

从各用户奖励参数中确定出最大用户奖励参数，并将具有最大用户奖励参数的目标药物的药物信息输出至用户界面，以向目标用户展示目标药物。

结合第一方面，在一种可能的实施方式中，方法还包括：

获取至少两个用户的样本数据，一个用户的样本数据包括用户的用户属性信息和样本药物信息；

获取各用户在样本药物信息所指示的样本药物作用下的各第一样本奖励参数和各第二样本奖励参数，并将至少两个用户的样本数据、各第一样本奖励参数以及各第二样本奖励参数输入药物奖励预测模型；

基于至少两个用户的用户属性信息、各第一样本奖励参数以及各第二样本奖励参数训练药物奖励预测模型的第一网络参数和第二网络参数，以获取基于任一用户的用户属性信息预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。

结合第一方面，在一种可能的实施方式中，第一网络参数包括第一模型参数和第一回传参数，第二网络参数包括第二模型参数和第二回传参数；

基于至少两个用户的用户属性信息、各第一样本奖励参数以及各第二样本奖励参数训练药物奖励预测模型的第一网络参数和第二网络参数，包括：

基于第一模型参数和第一回传参数确定各用户在样本药物作用下的各第一预期奖励参数，并基于第二模型参数和第二回传参数确定各用户在样本药物作用下的各第二预期奖励参数；

基于第一回传参数、第二回传参数、各第一样本奖励参数、各第二样本奖励参数、各第一预期奖励参数以及各第二预期奖励参数确定各用户的样本数据对应的各损失值；

基于各损失值迭代更新第一模型参数的参数值和第二模型参数的参数值直至损失值不变，以获取基于任一用户的用户属性信息预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。

结合第一方面，在一种可能的实施方式中，基于目标用户的各第一目标奖励参数和目标用户的各第二目标奖励参数，确定目标用户在各药物作用下的各用户奖励参数，包括：

确定第一目标奖励参数的第一加权系数和第二目标奖励参数的第二加权系数；

基于第一加权系数和目标用户的各第一目标奖励参数确定各第一目标奖励参数对应的各第一加权奖励参数，并基于第二加权系数和目标用户的各第二目标奖励参数确定各第二目标奖励参数对应的各第二加权奖励参数；

基于各第一加权奖励参数和各第二加权奖励参数确定目标用户在各药物作用下的各用户奖励参数，一个第一加权奖励参数和一个第二加权奖励参数对应一个用户奖励参数。

结合第一方面，在一种可能的实施方式中，基于目标用户的各第一目标奖励参数，确定目标用户在各药物作用下的各用户奖励参数，包括：

将目标用户的各第一目标奖励参数确定为目标用户在各药物作用下的各用户奖励参数；

其中，最大用户奖励参数为各第一目标奖励参数中的最大第一目标奖励参数。

结合第一方面，在一种可能的实施方式中，基于目标用户的各第二目标奖励参数，确定目标用户在各药物作用下的各用户奖励参数，包括：

将目标用户的各第二目标奖励参数确定为目标用户在各药物作用下的各用户奖励参数；

其中，最大用户奖励参数为各第二目标奖励参数中的最大第二目标奖励参数。

结合第一方面，在一种可能的实施方式中，用户界面包括属性信息输入区域；

获取目标用户的目标用户属性信息，包括：

在检测到属性信息输入区域上的输入指令时，基于输入指令获取目标用户的目标用户属性信息。

第二方面，本申请提供了一种药物信息推送装置，该装置包括：

信息输入模块，用于获取目标用户的目标用户属性信息，将目标用户属性信息输入药物奖励预测模型，目标用户属性信息包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息中的至少一种；

参数输出模块，用于通过药物奖励预测模型输出目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数，其中，药物奖励预测模型包括第一网络参数和第二网络参数，第一网络参数用于确定具有任一用户属性信息的任一用户在各种药物作用下的第一奖励参数，第二网络参数用于确定任一用户在各种药物作用下的第二奖励参数，任一用户在一种药物作用下对应一个第一奖励参数和一个第二奖励参数，第一奖励参数对应的药物作用时长大于第二奖励参数对应的药物作用时长；

参数确定模块，用于基于目标用户的各第一目标奖励参数和/或目标用户的各第二目标奖励参数，确定目标用户在各药物作用下的各用户奖励参数，其中，目标用户在一种药物作用下对应一个用户奖励参数；

信息展示模块，用于从各用户奖励参数中确定出最大用户奖励参数，并将具有最大用户奖励参数的目标药物的药物信息输出至用户界面，以向目标用户展示目标药物。

结合第二方面，在一种可能的实施方式中，上述装置还包括：

数据获取模块，用于获取至少两个用户的样本数据，一个用户的样本数据包括用户的用户属性信息和样本药物信息；

样本输入模块，用于获取各用户在样本药物信息所指示的样本药物作用下的各第一样本奖励参数和各第二样本奖励参数，并将至少两个用户的样本数据、各第一样本奖励参数以及各第二样本奖励参数输入药物奖励预测模型；

参数训练模块，用于基于至少两个用户的用户属性信息、各第一样本奖励参数以及各第二样本奖励参数训练药物奖励预测模型的第一网络参数和第二网络参数，以获取基于任一用户的用户属性信息预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。

结合第二方面，在一种可能的实施方式中，第一网络参数包括第一模型参数和第一回传参数，第二网络参数包括第二模型参数和第二回传参数；

上述参数训练模块包括：

预期参数确定单元，用于基于第一模型参数和第一回传参数确定各用户在样本药物作用下的各第一预期奖励参数，并基于第二模型参数和第二回传参数确定各用户在样本药物作用下的各第二预期奖励参数；

损失值确定单元，用于基于第一回传参数、第二回传参数、各第一样本奖励参数、各第二样本奖励参数、各第一预期奖励参数以及各第二预期奖励参数确定各用户的样本数据对应的各损失值；

参数更新单元，用于基于各损失值迭代更新第一模型参数的参数值和第二模型参数的参数值直至损失值不变，以获取基于任一用户的用户属性信息预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。

结合第二方面，在一种可能的实施方式中，上述参数确定模块包括：

加权系数确定单元，用于确定第一目标奖励参数的第一加权系数和第二目标奖励参数的第二加权系数；

第一奖励参数确定单元，用于基于第一加权系数和目标用户的各第一目标奖励参数确定各第一目标奖励参数对应的各第一加权奖励参数，并基于第二加权系数和目标用户的各第二目标奖励参数确定各第二目标奖励参数对应的各第二加权奖励参数；

第二奖励参数确定单元，用于基于各第一加权奖励参数和各第二加权奖励参数确定目标用户在各药物作用下的各用户奖励参数，一个第一加权奖励参数和一个第二加权奖励参数对应一个用户奖励参数。

结合第二方面，在一种可能的实施方式中，上述参数确定模块包括：

第三奖励参数确定单元，用于将目标用户的各第一目标奖励参数确定为目标用户在各药物作用下的各用户奖励参数；

其中，最大用户奖励参数为各第一目标奖励参数中的最大第一目标奖励参数。

结合第二方面，在一种可能的实施方式中，上述参数确定模块包括：

第四奖励参数确定单元，用于将目标用户的各第二目标奖励参数确定为目标用户在各药物作用下的各用户奖励参数；

其中，最大用户奖励参数为各第二目标奖励参数中的最大第二目标奖励参数。

结合第二方面，在一种可能的实施方式中，用户界面包括属性信息输入区域；

上述信息输入模块包括：

信息获取单元，用于在检测到属性信息输入区域上的输入指令时，基于输入指令获取目标用户的目标用户属性信息。

第三方面，本申请提供了一种计算机设备，包括：处理器、存储器、网络接口；

该处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，该存储器用于存储计算机程序，该处理器用于调用该计算机程序，以执行本申请实施例中上述第一方面中的药物信息推送方法。

第四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时，执行本申请中上述第一方面中的药物信息推送方法。

在本申请实施例中，计算机设备可将目标用户属性信息输入药物奖励预测模型，并通过药物奖励预测模型输出目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数，从而可实现药物奖励预测模型同时输出第一目标奖励参数和第二目标奖励参数，通过第一目标奖励参数来评估长期结局的奖励参数，并通过第二目标奖励参数来评估短期结局的奖励参数，从而增强了药物奖励预测模型的可扩展性，并且提高了模型的可解释性、安全性、可选择性以及可追溯性。进一步地，计算机设备可以基于目标用户的各第一目标奖励参数和/或目标用户的各第二目标奖励参数，确定目标用户在各药物作用下的各用户奖励参数。这时，计算机设备可以从各用户奖励参数中确定出最大用户奖励参数，并将具有最大用户奖励参数的目标药物的药物信息输出至用户界面，以向目标用户展示目标药物，从而提高了药物信息推送的精准度，适用性强。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的网络架构的结构示意图；

图2是本申请提供的药物信息推送方法的流程示意图；

图3是本申请提供的药物奖励预测模型的结构示意图；

图4是本申请提供的药物信息推送装置的结构示意图；

图5是本申请提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，图1是本申请提供的网络架构的结构示意图。如图1所示，该网络架构可以包括服务器10和用户终端集群，该用户终端集群可以包括多个用户终端，如图1所示，具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。

其中，服务器10可以为独立的物理服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdeliverynetwork，cdn)、大数据以及人工智能平台等基础云计算服务的云服务器。用户终端集群中的每个用户终端均可以包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等智能终端。

可以理解的是，本申请中的计算机设备可以为具有药物信息推送功能的实体终端，该实体终端可以为如图1所示的服务器10，也可以为用户终端，在此不做限定。

如图1所示，用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接，以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。例如，服务器10可以将目标药物的药物信息输出至目标用户的用户终端对应的用户界面，以使目标用户对用户界面上的目标药物进行查看，其中，目标用户的用户终端可以为用户终端集群中的任意一个用户终端(如用户终端100a)。本申请可以将基于药物奖励预测模型确定的用于向目标用户推送的药物统称为目标药物，本申请也可以将具有预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的功能的模型称之为药物奖励预测模型。

本申请提供的药物信息推送方法可适用于针对任一疾病的药物信息推送场景，比如糖尿病药物信息推送场景、高血压药物信息推送场景或者其它疾病的药物信息推送场景。假设目标用户为医生，医生可以将患者的基本信息输入至药物奖励预测模型，可以基于患者的基本信息将推送的目标药物的药物信息输出至用户界面，这时医生可以在该用户界面上查看该目标药物(这里的目标药物可以作为初步诊断结果)，再结合自己对患者的进一步诊断结果确定适合该患者的药物(如上述目标药物)。假设目标用户为患者，患者可以将自己的基本信息输入至医院、卫生站或者社康等医疗机构提供的自助终端(或简称自助机等)，该自助机中包含上述药物奖励预测模型，可以基于患者的基本信息将推荐的目标药物的药物信息输出至该自助机的用户界面。患者可以在该自助机的用户界面中查看该目标药物，后续患者可以直接购买该目标药物，也可以让医生进一步诊断确定适合该患者的药物(如上述目标药物)。

为方便描述，下面将以糖尿病药物信息推送场景为例进行说明，以下不再赘述。下面将结合图2至图5对本申请的药物信息推送方法、药物信息推送装置以及计算机设备进行说明。

请参见图2，图2是本申请实施例提供的药物信息推送方法的流程示意图。如图2所示，该方法可以包括以下步骤s101-步骤s104：

步骤s101，获取目标用户的目标用户属性信息，将目标用户属性信息输入药物奖励预测模型。

可以理解，在执行步骤s101之前，计算机设备可以先通过至少两个用户的样本数据以及各用户的实际奖励参数对药物奖励预测模型的模型参数进行训练，从而得到用于输出任一用户在各药物作用下的第一奖励参数和第二奖励参数的药物奖励预测模型。这里的药物奖励预测模型可以为深度强化学习(deepq-network，dqn)模型，dqn模型的强化学习方法为一种通过一定的策略(policy)，针对状态(如用户属性信息)采取动作(如药物)后得到预期奖励，再通过所获得的预期奖励来优化策略的人工智能方法。这里预期奖励对应的参数值可以为预期奖励参数(如下述第一预期奖励参数和第二预期奖励参数)，换言之，预期奖励参数的取值用于表示预期奖励。其中，该策略是指在特定状态下应该采取某个动作，以使预期奖励最大的方法。

在一些可行的实施方式中，计算机设备可以获取至少两个用户的样本数据，其中，至少两个用户的样本数据可用于训练药物奖励预测模型，一个用户对应一个样本数据，一个样本数据中可包括用户的用户属性信息和样本药物信息。这里的用户属性信息可包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息(即用药史)中的至少一种，该样本药物信息所指示的药物为样本药物。其中，人口统计学信息可包括性别、年龄、健康状况、职业、婚姻、文化水平、收入以及其它信息，健康指标可以理解为目标疾病对应的检查指标。不同用户针对目标疾病使用的样本药物可以相同，也可以不同。

进一步地，计算机设备可以获取各用户在样本药物作用下的各第一样本奖励参数和各第二样本奖励参数，并将至少两个用户的样本数据、各第一样本奖励参数以及各第二样本奖励参数输入药物奖励预测模型。本申请可以将用户在样本药物作用下的实际长期奖励参数称之为第一样本奖励参数。本申请也可以将用户在样本药物作用下的实际短期奖励参数称之为第二样本奖励参数。其中第一样本奖励参数对应的药物作用时长大于第二样本奖励参数对应的药物作用时长。这里的奖励可以理解为用户采用样本药物一段时间后对自身健康指标的影响程度，奖励参数的取值用于表示影响程度。例如，奖励参数1用于表示影响程度1，奖励参数2用于表示影响程度2，若奖励参数1大于奖励参数2，则表明了影响程度1大于影响程度2。

进一步地，计算机设备可以基于至少两个用户的用户属性信息、各第一样本奖励参数以及各第二样本奖励参数训练药物奖励预测模型的第一网络参数和第二网络参数，以获取基于任一用户(如目标用户)的用户属性信息(如目标用户属性信息)预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。其中，第一网络参数可用于确定具有任一用户属性信息的任一用户在各种药物作用下的第一奖励参数(也可以称为长期奖励参数)，第二网络参数可用于确定任一用户在各种药物作用下的第二奖励参数(也可以称为短期奖励参数)，第一奖励参数对应的药物作用时长大于第二奖励参数对应的药物作用时长。这里的第一网络参数可包括第一模型参数和第一回传参数，第二网络参数可包括第二模型参数和第二回传参数。本申请可以将药物奖励预测模型中基于损失值迭代更新的参数统称为模型参数(如第一模型参数和第二模型参数)。本申请可以将第一网络参数中第一奖励参数对应的回传参数称之为第一回传参数(也可以称为第一回传因子)，本申请也可以将第二网络参数中第二奖励参数对应的回传参数称之为第二回传参数(也可以称为第二回传因子)。这里的回传参数可以理解为药物奖励预测模型的训练过程中不变的参数。其中，由于第一奖励参数对应的药物作用时长大于第二奖励参数对应的药物作用时长，因此第一回传参数大于第二回传参数，例如，第一回传参数为0.9或者其它数值，第二回传参数为0.2或者其它数值。

在一些可行的实施方式中，计算机设备可以基于第一模型参数和第一回传参数确定各用户在样本药物作用下的各第一预期奖励参数，并基于第二模型参数和第二回传参数确定各用户在样本药物作用下的各第二预期奖励参数。其中，一个用户在一种样本药物作用下对应一个第一预期奖励参数，且一个用户在一种样本药物作用下对应一个第二预期奖励参数。这时，计算机设备可以采用损失函数，通过第一回传参数、第二回传参数、各第一样本奖励参数、各第二样本奖励参数、各第一预期奖励参数以及各第二预期奖励参数确定各用户的样本数据对应的各损失值。其中，一个第一样本奖励参数、一个第二样本奖励参数、一个第一预期奖励参数以及一个第二预期奖励参数，对应一个用户的样本数据对应的损失值。其中，计算机设备可以根据下述公式(1)确定用户的样本数据对应的损失值lloss：

lloss＝(qshort(st,at)+qlong(st,at)-(rshort+rlong+maxa(γshort*qshort(st+1,a)+γlong*qlong(st+1,a))))²，公式(1)

其中，at可以表示在当前时刻t输入药物奖励预测模型的样本药物(即样本数据中的样本药物)，st可以表示在当前时刻t输入药物奖励预测模型的用户属性信息(即样本数据中用户的用户属性信息)，st+1可以表示在下一时刻t+1输入药物奖励预测模型的用户属性信息，qlong(st,at)可以表示在当前时刻t用户的第一预期奖励参数，qshort(st,at)可以表示在当前时刻t用户的第二预期奖励参数，rlong可以表示在当前时刻t用户的第一样本奖励参数，rshort可以表示在当前时刻t用户的第二样本奖励参数，γlong可以表示第一回传系数，γshort可以表示第二回传系数，qlong(st+1,a)可以表示在下一时刻t+1用户的第一预期奖励参数，qshort(st+1,a)可以表示在下一时刻t+1用户的第二预期奖励参数。

在基于上述公式(1)得到各损失值之后，计算机设备可以基于各损失值迭代更新第一模型参数的参数值和第二模型参数的参数值直至损失值不变，这时停止对药物奖励预测模型进行训练，并将迭代更新后的第一模型参数作为药物奖励预测模型最终的第一模型参数，将迭代更新后的第二模型参数作为药物奖励预测模型最终的第二模型参数。这时也表明了药物奖励预测模型具有基于任一用户的用户属性信息预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。

请参见图3，图3是本申请的药物奖励预测模型的结构示意图。如图3所示，药物奖励预测模型中可包括多层卷积层(如卷积层10a至卷积层10c)和多层全连接层(如全连接层20a和全连接层20b)，药物奖励预测模型的输入为用户的用户属性信息，药物奖励预测模型的输出为任一用户在各药物作用下的第一奖励参数(如qlong)和第二奖励参数(如qshort)。在用户属性信息对应的特征向量为一维向量(如用户属性信息为患者的随访信息)时，药物奖励预测模型可包括全连接层20a和全连接层20b，而不包括卷积层10a至卷积层10c。这里的药物奖励预测模型中包括第一网络参数和第二网络参数，其中全连接层20b(即第二层全连接层)可配置有第一网络参数和第二网络参数，如图3所示，全连接层20b中可包括两个全连接层(如全连接层200b和全连接层201b)，其中全连接层200b中配置有第一网络参数，且全连接层200b用于基于第一网络参数对用户属性信息进行处理以输出任一用户在各药物作用下的第一奖励参数qlong；全连接层201b配置有第二网络参数，且全连接层201b用于基于第二网络参数对用户属性信息进行处理以输出任一用户在各药物作用下的第二奖励参数qshort。

为方便描述，在糖尿病药物信息推送场景(也可以称为糖尿病患者的分群场景，分群是指医生的开药方案)下，计算机设备可获取至少两个用户的样本数据，其中至少两个用户的样本数据可以为大量糖尿病患者的长期随访数据，一个样本数据可包括一个患者的一次随访数据。这里的样本数据中可包括用户属性信息，且用户属性信息可以包括但不限于年龄、性别、用药史、样本药物(即医生开药方案中的药物或者患者实际服用的药物，如双胍或者磺脲)、糖化血红蛋白值、肌酐值、以及针对糖尿病的其它健康指标。这时，计算机设备可获取各用户在样本药物作用下的各第一样本奖励参数和各第一样本奖励参数，并将各用户的用户属性信息、各第一样本奖励参数和各第一样本奖励参数输入上述药物奖励预测模型。例如，第一样本奖励参数可以指示糖尿病患者服用药物之后在最后一次随访中是否出现糖尿病的并发症，在糖尿病患者出现糖尿病的并发症时第一样本奖励参数为0，在糖尿病患者未出现糖尿病的并发症时第一样本奖励参数为1。例如，第二样本奖励参数可以指示糖尿病患者服用药物之后在下一次随访中糖化血红蛋白值是否达标，在糖尿病患者的糖化血红蛋白值达标时第二样本奖励参数为1，在糖尿病患者的糖化血红蛋白值未达标时第二样本奖励参数为0。

进一步地，计算机设备可以基于上述全连接层200b输出各用户在样本药物作用下的各第一预期奖励参数，并基于上述全连接层201b输出各用户在样本药物作用下的各第二预期奖励参数。进一步地，计算机设备可采用上述损失函数对第一回传参数、第二回传参数、各第一样本奖励参数、各第二样本奖励参数、各第一预期奖励参数以及各第二预期奖励参数进行计算，得到各用户的样本数据对应的各损失值。这时，计算机设备可以根据所有样本数据对应的损失值迭代更新第一模型参数的参数值和第二模型参数的参数值直至损失值基本不变(如损失值最小)，表明了药物奖励预测模型已完成模型训练(即药物奖励预测模型收敛)。这时全连接层200b中所配置的第一网络参数包括第一回传参数以及迭代更新后的第一模型参数，全连接层201b中所配置的第二网络参数包括第二回传参数以及迭代更新后的第二模型参数。其中，全连接层200b中的第一回传参数以及迭代更新后的第一模型参数可用于预测任一用户在各药物作用下的第一奖励参数，全连接层201b中的第二回传参数以及迭代更新后的第二模型参数可用于预测任一用户在各药物作用下的第二奖励参数。由此可见，这时的药物奖励预测模型具有基于任一用户的用户属性信息预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。

在训练得到药物奖励预测模型之后，计算机设备在检测到用户界面中的属性信息输入区域上的输入指令时，可基于该输入指令获取目标用户的目标用户属性信息，并将目标用户属性信息输入药物奖励预测模型。例如，目标用户可以在上述属性信息输入区域输入目标用户属性信息，并在输入完成之后点击用户界面中的确定完成按键，这时计算机设备可以检测到属性信息输入区域上的输入指令，从而获得目标用户的目标用户属性信息。其中，目标用户属性信息可包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息中的至少一种。

步骤s102，通过药物奖励预测模型输出目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数。

在一些可行的实施方式中，计算机设备可基于第一网络参数(即第一回传参数和迭代更新后的第一模型参数)确定目标用户在各药物作用下的各第一目标奖励参数，例如，第一网络参数可以为药物奖励预测模型收敛后全连接层200b中的第一网络参数。其中，目标用户在一种药物作用下对应一个第一目标奖励参数。进一步地，计算机设备可基于第二网络参数(即第二回传参数和迭代更新后的第二模型参数)确定目标用户在各药物作用下的各第二目标奖励参数，例如，第二网络参数可以为药物奖励预测模型收敛后全连接层201b中的第二网络参数。其中，目标用户在一种药物作用下对应一个第二目标奖励参数。

步骤s103，基于目标用户的各第一目标奖励参数和/或目标用户的各第二目标奖励参数，确定目标用户在各药物作用下的各用户奖励参数。

在一些可行的实施方式中，在目标用户同时具有长期药物作用需求和短期药物作用需求时，计算机设备可以确定第一目标奖励参数的第一加权系数和第二目标奖励参数的第二加权系数。这里的第一加权系数(如1或者其它数值)和第二加权系数(如1或者其它数值)可以为用户设置的加权系数或者药物奖励预测模型默认配置的加权系数。这时，计算机设备可以基于第一加权系数和目标用户的各第一目标奖励参数确定各第一目标奖励参数对应的各第一加权奖励参数，并基于第二加权系数和目标用户的各第二目标奖励参数确定各第二目标奖励参数对应的各第二加权奖励参数。进一步地，计算机设备可以对各第一加权奖励参数和各第二加权奖励参数求和得到目标用户在各药物作用下的各用户奖励参数，一个第一加权奖励参数和一个第二加权奖励参数对应一个用户奖励参数。可选的，计算机设备也可以对各第一目标奖励参数和各第二目标奖励参数直接求和得到目标用户在各药物作用下的各用户奖励参数，一个第一目标奖励参数和一个第二目标奖励参数对应一个用户奖励参数。

可选的，在一些可行的实施方式中，在目标用户具有长期药物作用需求时，计算机设备可以将目标用户的各第一目标奖励参数确定为目标用户在各药物作用下的各用户奖励参数。可选的，在目标用户具有短期药物作用需求时，计算机设备可以将目标用户的各第二目标奖励参数确定为目标用户在各药物作用下的各用户奖励参数，具体可根据实际应用场景确定，在此不作限制。

步骤s104，从各用户奖励参数中确定出最大用户奖励参数，并将具有最大用户奖励参数的目标药物的药物信息输出至用户界面，以向目标用户展示目标药物。

在一些可行的实施方式中，计算机设备可以对各用户奖励参数进行排序(比如从大到小排序或者从小到大排序)，得到用户奖励参数序列，并将用户奖励参数序列中的第一个或者最后一个用户奖励参数作为最大用户奖励参数。进一步地，计算机设备可以将具有最大用户奖励参数的目标药物的药物信息输出至用户界面，以向目标用户展示目标药物。以糖尿病药物信息推送场景为例，在目标用户的药物作用需求为长期内不出现糖尿病的并发症时，最大用户奖励参数可以为各第一目标奖励参数中的最大第一目标奖励参数，这时计算机设备可将具有最大第一目标奖励参数的目标药物的药物信息输出至用户界面。在目标用户的药物作用需求为短期内糖化血红蛋白值达标时，最大用户奖励参数可以为各第二目标奖励参数中的最大第二目标奖励参数，这时计算机设备可将具有最大第二目标奖励参数的目标药物的药物信息输出至用户界面。在目标用户的药物作用需求为长期内不出现糖尿病的并发症、且短期内糖化血红蛋白值达标时，各用户奖励参数可由各第一加权奖励参数和各第二加权奖励参数确定，这时计算机设备可将具有最大用户奖励参数的目标药物的药物信息输出至用户界面。

在一些可行的实施方式中，这时目标用户可以该用户界面上查看该目标药物，并向计算机设备发送针对该目标药物的反馈信息。例如，反馈信息可包括目标药物与目标用户之前服用的历史药物不同、或者目标用户服用目标药物的效果不如服用历史药物的效果。进一步地，计算机设备在接收到该反馈信息(如目标药物与历史药物不同、或者目标药物的效果不如历史药物的效果)之后，可以调整药物奖励预测模型的第一网络参数和第二网络参数以更好地预测任一用户(如目标用户)在各药物作用下的第一奖励参数和第二奖励参数，进而向目标用户推送合适的药物信息。

进一步地，请参见图4，图4是本申请实施例提供的一种药物信息推送装置的结构示意图。该药物信息推送装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如，该药物信息推送装置为一个应用软件；该药物信息推送装置可以用于执行本申请实施例提供的方法中的相应步骤。如图4所示，该药物信息推送装置1可以运行于计算机设备，该计算机设备可以为上述图1所对应实施例中的服务器10。该药物信息推送装置1可以包括：数据获取模块10、样本输入模块20、参数训练模块30、信息输入模块40、参数输出模块50、参数确定模块60以及信息展示模块70。

信息输入模块40，用于获取目标用户的目标用户属性信息，将目标用户属性信息输入药物奖励预测模型，目标用户属性信息包括人口统计学信息、针对目标疾病用药的健康指标以及历史用药信息中的至少一种。

在一些可行的实施方式中，用户界面包括属性信息输入区域；

上述信息输入模块40包括：信息获取单元401。

信息获取单元401，用于在检测到属性信息输入区域上的输入指令时，基于输入指令获取目标用户的目标用户属性信息。

其中，该信息获取单元401的具体实现方式可以参见上述图2所对应实施例中对步骤s101的描述，这里将不再继续进行赘述。

参数输出模块50，用于通过药物奖励预测模型输出目标用户在各药物作用下的各第一目标奖励参数和各第二目标奖励参数，其中，药物奖励预测模型包括第一网络参数和第二网络参数，第一网络参数用于确定具有任一用户属性信息的任一用户在各种药物作用下的第一奖励参数，第二网络参数用于确定任一用户在各种药物作用下的第二奖励参数，任一用户在一种药物作用下对应一个第一奖励参数和一个第二奖励参数，第一奖励参数对应的药物作用时长大于第二奖励参数对应的药物作用时长。

参数确定模块60，用于基于目标用户的各第一目标奖励参数和/或目标用户的各第二目标奖励参数，确定目标用户在各药物作用下的各用户奖励参数，其中，目标用户在一种药物作用下对应一个用户奖励参数。

在一些可行的实施方式中，参数确定模块60包括：加权系数确定单元601、第一奖励参数确定单元602以及第二奖励参数确定单元603。

加权系数确定单元601，用于确定第一目标奖励参数的第一加权系数和第二目标奖励参数的第二加权系数；

第一奖励参数确定单元602，用于基于第一加权系数和目标用户的各第一目标奖励参数确定各第一目标奖励参数对应的各第一加权奖励参数，并基于第二加权系数和目标用户的各第二目标奖励参数确定各第二目标奖励参数对应的各第二加权奖励参数；

第二奖励参数确定单元603，用于基于各第一加权奖励参数和各第二加权奖励参数确定目标用户在各药物作用下的各用户奖励参数，一个第一加权奖励参数和一个第二加权奖励参数对应一个用户奖励参数。

其中，该加权系数确定单元601、第一奖励参数确定单元602以及第二奖励参数确定单元603的具体实现方式可以参见上述图2所对应实施例中对步骤s103的描述，这里将不再继续进行赘述。

在一些可行的实施方式中，上述参数确定模块60还包括：第三奖励参数确定单元604。

第三奖励参数确定单元604，用于将目标用户的各第一目标奖励参数确定为目标用户在各药物作用下的各用户奖励参数；

其中，最大用户奖励参数为各第一目标奖励参数中的最大第一目标奖励参数。

其中，该第三奖励参数确定单元604的具体实现方式可以参见上述图2所对应实施例中对步骤s103的描述，这里将不再继续进行赘述。

在一些可行的实施方式中，上述参数确定模块60还包括：第四奖励参数确定单元605。

第四奖励参数确定单元605，用于将目标用户的各第二目标奖励参数确定为目标用户在各药物作用下的各用户奖励参数；

其中，最大用户奖励参数为各第二目标奖励参数中的最大第二目标奖励参数。

其中，该第四奖励参数确定单元605的具体实现方式可以参见上述图2所对应实施例中对步骤s103的描述，这里将不再继续进行赘述。

信息展示模块70，用于从各用户奖励参数中确定出最大用户奖励参数，并将具有最大用户奖励参数的目标药物的药物信息输出至用户界面，以向目标用户展示目标药物。

在一些可行的实施方式中，上述药物信息推送装置1还包括：

数据获取模块10，用于获取至少两个用户的样本数据，一个用户的样本数据包括用户的用户属性信息和样本药物信息；

样本输入模块20，用于获取各用户在样本药物信息所指示的样本药物作用下的各第一样本奖励参数和各第二样本奖励参数，并将至少两个用户的样本数据、各第一样本奖励参数以及各第二样本奖励参数输入药物奖励预测模型；

参数训练模块30，用于基于至少两个用户的用户属性信息、各第一样本奖励参数以及各第二样本奖励参数训练药物奖励预测模型的第一网络参数和第二网络参数，以获取基于任一用户的用户属性信息预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。

在一些可行的实施方式中，第一网络参数包括第一模型参数和第一回传参数，第二网络参数包括第二模型参数和第二回传参数；

上述参数训练模块30包括：预期参数确定单元301、损失值确定单元302以及参数更新单元303。

预期参数确定单元301，用于基于第一模型参数和第一回传参数确定各用户在样本药物作用下的各第一预期奖励参数，并基于第二模型参数和第二回传参数确定各用户在样本药物作用下的各第二预期奖励参数；

损失值确定单元302，用于基于第一回传参数、第二回传参数、各第一样本奖励参数、各第二样本奖励参数、各第一预期奖励参数以及各第二预期奖励参数确定各用户的样本数据对应的各损失值；

参数更新单元303，用于基于各损失值迭代更新第一模型参数的参数值和第二模型参数的参数值直至损失值不变，以获取基于任一用户的用户属性信息预测任一用户在各药物作用下的第一奖励参数和第二奖励参数的能力。

其中，该预期参数确定单元301、损失值确定单元302以及参数更新单元303的具体实现方式可以参见上述图2所对应实施例的步骤s101中对药物奖励预测模型进行模型训练的描述，这里将不再继续进行赘述。

其中，该数据获取模块10、样本输入模块20、参数训练模块30、信息输入模块40、参数输出模块50、参数确定模块60以及信息展示模块70的具体实现方式可以参见上述图2所对应实施例中对步骤s101-步骤s104的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图5，图5是本申请实施例提供的一种计算机设备的结构示意图。如图5所示，该计算机设备1000可以为上述图1对应实施例中的服务器10，该计算机设备1000可以包括：至少一个处理器1001，例如cpu，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(display)、键盘(keyboard)，网络接口1004可选地可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图5所示的计算机设备1000中，网络接口1004主要用于与用户终端进行网络通信；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

从各用户奖励参数中确定出最大用户奖励参数，并将具有最大用户奖励参数的目标药物的药物信息输出至用户界面，以向目标用户展示目标药物。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2所对应实施例中对该药物信息推送方法的描述，也可执行前文图4所对应实施例中对该药物信息推送装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且该计算机可读存储介质中存储有前文提及的药物信息推送装置1所执行的计算机程序，且该计算机程序包括程序指令，当该处理器执行该程序指令时，能够执行前文图2所对应实施例中对该药物信息推送方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中提供的药物信息推送方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)或随机存储记忆体(randomaccessmemory，ram)等。

上述计算机可读存储介质可以是前述任一实施例提供的药物信息推送装置或者上述设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-onlymemory，rom)或随机存储记忆体(randomaccessmemory，ram)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本发明的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐卓扬;孙行智;胡岗
技术所有人：平安科技(深圳)有限公司
我是此专利的发明人

上一篇：一种视力检测装置的制作方法
上一篇：一种纺织用高强度耐磨罗拉及其加工工艺的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。