基于多Agent分销网络模型的库存分配方法与流程

文档序号：11655093阅读：161来源：国知局

本发明涉及计算机应用技术，尤其涉及一种基于多agent分销网络模型的库存分配方法。
背景技术：
：：在流程企业先进计划体系中，分销计划问题包括长期计划和短期计划两个方面。长期计划主要关注战略方面的问题，关注于提高企业整体的业务效率，如根据客户分布和需求情况，进行分销网络的设置和选址；短期计划主要关注于制造企业和分销商之间的订货周期、订货点、订货批量大小问题。在供应链环境下，制造企业与分销商之间是协作关系，必须处理好协作供应商和分销商的订货决策。分销供应链管理的目的是将制造企业、分销商、客户等实体集成起来，在不确定的市场环境下，使产品能够在正确的时间、以正确的批量被送达，从而在满足客户服务水平要求下达到最优的效益。在分销网络中，制造商生产的产品可以通过分销商销售，也可以直销给客户；网络中包含产品仓库，该仓库可以是制造企业管理，也可以由分销商管理，甚至是第三方物流。产品中心仓库的存在对于减少供应链中的不确定带来的影响、提高客户服务水平、增强企业经济效益具有重要作用。因此，合理确定制造企业、中心仓库和经销商的库存水平就是供应链管理中的一个重要问题，也是整个供应链获得效益的关键。目前，在流程企业分销网络优化过程中存在以下问题：1.不确定的系统环境建模需求、提前期、产品变质等因素会影响分销供应链决策，如何在不确定环境下进行建模是一个实际应用中重要问题。2.优化方法分销供应链决策是一个多阶段优化问题，且系统状态、维数随供应链中实体个数而增加，如何建立优化模型，并且在不确定环境下进行优化求解是一个难题。技术实现要素：在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。鉴于此，本发明提供了一种基于多agent分销网络模型的库存分配方法，以至少解决目前现有技术不能对分散的供应链环境下不确定的分销网络进行有效建模的问题。根据本发明的一个方面，提供了一种基于多agent分销网络模型的库存分配方法，该基于多agent分销网络模型的库存分配方法包括：步骤一、确定待分配的目标产品，获得目标产品的库存控制参数；步骤二、获得目标产品在多agent(代理)分销网络模型中多个agent的当前库存量，其中，多agent分销网络模型中的多个agent包括供应商agent、客户agent以及至少一个分销商agent；步骤三、通过随机模拟方法生成随机变量的值，随机变量为随机需求；步骤四、利用库存控制参数、随机变量以及目标产品在多agent分销网络模型中各agent的当前库存量，计算目标产品在多agent分销网络模型各agent的目标库存量；其中，在步骤四中，计算目标产品在多agent分销网络模型各agent的目标库存量包括：针对多agent分销网络模型中的多个agent中的每一个agent，执行如下步骤四一至四七：步骤四一、根据库存控制参数确定该agent的多个状态，然后基于该agent的多个状态以及随机变量的值来获得该agent的每个状态所对应的至少一个可能动作，其中，该agent的多个状态表示目标产品在该agent可能处于的多种库存状态；针对该agent的每个状态，该agent的该状态所对应的至少一个可能动作表示从该agent的该状态改变为下一种可能的状态所经过的动作；步骤四二、建立q-表，q-表包含多个q-表项，每个q-表项对应一个状态-动作对(si,aij)，其中，si表示该agent的多个状态之一，i＝1,2,…,n，n为该agent的所有状态的数目，aij表示状态si的一个可能动作，j＝1,2,…,m，m表示状态si对应的所有可能动作数；步骤四三、在q-表中，对每个状态-动作对(si,aij)对应的q-表项q(si,aij)的值进行初始化；步骤四四、针对每个状态-动作对(si,aij)，设定迭代次数k，初始化k＝1，执行步骤b1-b4：步骤b1、计算该状态-动作对(si,aij)的立即回报r；步骤b2、针对该状态-动作对(si,aij)中当前状态si的每一种可能新状态si’，计算的值，将状态-动作对(si,aij)对应的q-表项q(si,aij)的值更新为z0的当前值，其中，aij'表示当前状态si到可能新状态si’所经过的可能动作，α为步长值，γ为折扣率，q(si',aij')表示状态-动作对(si',aij')对应的q-表项，表示使得q(si',aij')值最大的可能动作；将对应的新状态记为状态s'，并将状态-动作对(si,aij)中当前状态si更新为状态s'；步骤b3、令k’＝k+1；步骤b4、判定k’的值是否小于预设阈值：若是，将当前k’的值赋给k，然后返回步骤b1；否则，针对该状态-动作对结束步骤b1-b4；步骤四五、判定是否已获得该q-表的最优解：若是，执行步骤四六；否则，执行步骤四七；步骤四六、根据该最优解和该agent的当前库存量，确定该agent的目标库存量；步骤四七、修改库存控制参数和/或随机变量，返回步骤四一。进一步地，在步骤四三中，将每个状态-动作对(si,aij)对应的q-表项q(si,aij)的值初始化为0。进一步地，在步骤四三中，将每个状态-动作对(si,aij)对应的q-表项q(si,aij)的值初始化为任意值。进一步地，预设阈值为10。进一步地，产品的库存控制参数通过如下方式获得：从erp系统中提取基础数据，根据基础数据确定库存控制参数；其中，基础参数包括企业产品库存量、产品配方中的原料和工艺数据。进一步地，步长值的表达式为：其中，k表示当前迭代次数，且α0＝0.8。进一步地，折扣率γ＝0.9。相比于现有技术，本发明具有如下有益效果：(1)本发明提出的基于多agent分销网络模型的库存分配方法解决了实际供应链中不确定性建模的问题，提供了基于多agent的供应链协商方法，能够将供应商、企业和客户统一考虑，进行全局优化。(2)本发明提出的基于多agent分销网络模型的库存分配方法，运用仿真优化技术和人工智能技术，能有效地求解不确定环境下的分销网络优化问题，具有全局优化求解能力、问题无关特性和模糊优化能力。在本发明中，不确定性指的是数值本身是未定的，如未来一段时间的物料需求量，是预测来的，带有一定的不确定性，但在实际生产中又必须进行这种预测，否则无法安排生产计划。采用的数学方法如概率方法，用服从某种概率分布的随机变量表示不确定量。为了能够计算，又利用随机模拟的方法将随机变量仿真为确定值。通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。附图说明本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：图1为根据本发明实施例的基于多agent分销网络模型的库存分配方法的一个示例性处理的流程图；图2为多agent分销网络模型的一个示例的网络结构示意图；图3为基于mas的供应链仿真优化主要流程示意图。本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。具体实施方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。本发明的实施例提供了一种基于多agent分销网络模型的库存分配方法，该库存分配方法包括：步骤一、确定待分配的目标产品，获得目标产品的库存控制参数；步骤二、获得目标产品在多agent(代理)分销网络模型中多个agent的当前库存量，其中，多agent分销网络模型中的多个agent包括供应商agent、客户agent以及至少一个分销商agent；步骤三、通过随机模拟方法生成随机变量的值，随机变量为随机需求；步骤四、利用库存控制参数、随机变量以及目标产品在多agent分销网络模型中各agent的当前库存量，计算目标产品在多agent分销网络模型各agent的目标库存量；其中，在步骤四中，计算目标产品在多agent分销网络模型各agent的目标库存量包括：针对多agent分销网络模型中的多个agent中的每一个agent，执行如下步骤四一至四七：步骤四一、根据库存控制参数确定该agent的多个状态，然后基于该agent的多个状态以及随机变量的值来获得该agent的每个状态所对应的至少一个可能动作，其中，该agent的多个状态表示目标产品在该agent可能处于的多种库存状态；针对该agent的每个状态，该agent的该状态所对应的至少一个可能动作表示从该agent的该状态改变为下一种可能的状态所经过的动作；步骤四二、建立q-表，q-表包含多个q-表项，每个q-表项对应一个状态-动作对(si,aij)，其中，si表示该agent的多个状态之一，i＝1,2,…,n，n为该agent的所有状态的数目，aij表示状态si的一个可能动作，j＝1,2,…,m，m表示状态si对应的所有可能动作数；步骤四三、在q-表中，对每个状态-动作对(si,aij)对应的q-表项q(si,aij)的值进行初始化；步骤四四、针对每个状态-动作对(si,aij)，设定迭代次数k，初始化k＝1，执行步骤b1-b4：步骤b1、计算该状态-动作对(si,aij)的立即回报r；步骤b2、针对该状态-动作对(si,aij)中当前状态si的每一种可能新状态si’，计算的值，将状态-动作对(si,aij)对应的q-表项q(si,aij)的值更新为z0的当前值，其中，aij'表示当前状态si到可能新状态si’所经过的可能动作，α为步长值，γ为折扣率，q(si',aij')表示状态-动作对(si',aij')对应的q-表项，表示使得q(si',aij')值最大的可能动作；将对应的新状态记为状态s'，并将状态-动作对(si,aij)中当前状态si更新为状态s'；步骤b3、令k’＝k+1；步骤b4、判定k’的值是否小于预设阈值：若是，将当前k’的值赋给k，然后返回步骤b1；否则，针对该状态-动作对结束步骤b1-b4；步骤四五、判定是否已获得该q-表的最优解：若是，执行步骤四六；否则，执行步骤四七；步骤四六、根据该最优解和该agent的当前库存量，确定该agent的目标库存量；步骤四七、修改库存控制参数和/或随机变量，返回步骤四一。下面结合图1来描述本发明的基于多agent分销网络模型的库存分配方法的一个示例。如图1所示，本发明的基于多agent分销网络模型的库存分配方法开始之后，首先执行步骤一。在步骤一中，确定待分配的目标产品，获得目标产品的库存控制参数。其中，目标产品例如是大米、饮料或生活用品等。例如，产品的库存控制参数可以通过如下方式获得：从erp(enterpriseresourceplanning，企业资源计划)系统中提取基础数据，根据基础数据确定库存控制参数；其中，基础参数包括企业产品库存量、产品配方中的原料和工艺数据等。然后，执行步骤二。库存控制参数例如包括：仓库容量、物料代码、物料名称、库存数量、计量单位以及库存水平等。在步骤二中，获得目标产品在多agent分销网络模型中多个agent的当前库存量。在本实施例中，多agent分销网络模型包括多个agent，这多个agent中包含供应商agent、客户agent以及至少一个分销商agent。然后，执行步骤三。在一个例子中，多agent分销网络模型的网络结构可以如图2所示。在图2所示的例子中，多agent分销网络模型包括一个供应商agent、一个客户agent和两个分销商agent(分销商1agent和分销商2agent)，除此之外，该多agent分销网络模型还包括一个中心agent和一个仓库agent(中心agent和仓库agent为可选的)。在步骤三中，通过随机模拟方法生成随机变量的值，随机变量为随机需求。其中，通过随机模拟生成随机需求的过程可以根据现有技术来获得，这里不再详述。然后，执行步骤四。随机变量是指预测需求量的随机值，如服从正态分布的随机变量。在步骤四中，利用步骤一获得的库存控制参数以及步骤三获得的随机变量，根据目标产品在多agent分销网络模型中各agent的当前库存量，计算目标产品在多agent分销网络模型各agent的目标库存量。在步骤四中，计算目标产品在多agent分销网络模型各agent的目标库存量的过程可以包括：针对多agent分销网络模型中的多个agent中的每一个agent，执行步骤四一至四七。在描述步骤四一至四七的过程中，以多个agent中任一agent(记为agentx)为例来描述，对其他agent的处理与此类似，将省略其描述。在步骤四一中，根据库存控制参数确定agentx的多个状态，然后基于该agent的多个状态以及随机变量的值来获得agentx的每个状态所对应的至少一个可能动作。其中，agentx的多个状态表示目标产品在agentx可能处于的多种库存状态；针对该agentx的每个状态，该agentx的该状态所对应的至少一个可能动作表示从agentx的该状态改变为下一种可能的状态所经过的动作。然后，执行步骤四二。在步骤四二中，建立q-表。其中，q-表包含多个q-表项，每个q-表项对应一个状态-动作对(si,aij)，其中，si表示agentx的多个状态之一，i＝1,2,…,n，n为该agentx的所有状态的数目，aij表示状态si的一个可能动作，j＝1,2,…,m，m表示状态si对应的所有可能动作数。然后，执行步骤四三。举例来说，假设目标产品为大米，agentx为分销商1agent，假设分销商1agent的多个状态分别为0、1、2和3。假设，分销商1agent的状态“0”表示大米在分销商1agent所处的库存状态为“极低”(如对应大米库存在[0,100)kg)；分销商1agent的状态“1”表示大米在分销商1agent所处的库存状态为“低”(如对应大米库存在[100,200)kg)；分销商1agent的状态“2”表示大米在分销商1agent所处的库存状态为“中”(如对应大米库存在[200,500)kg)；分销商1agent的状态“3”表示大米在分销商1agent所处的库存状态为“高”(如对应大米库存在[500,1000)kg)。对于分销商1agent的状态“0”而言，其下一种可能的状态包括状态“1”、状态“2”和状态“3”。分销商1agent的状态“0”对应的至少一个可能动作包括：从状态“0”改变为状态“1”所需经过的动作(即+1)；从状态“0”改变为状态“2”所需经过的动作(即+2)；从状态“0”改变为状态“3”所需经过的动作(即+3)。在q-表中，状态“0”对应的状态-动作对(q-表项)包括(0,+1)、(0,+2)和(0,+3)，共三个。对于分销商1agent的状态“1”而言，其下一种可能的状态包括状态“0”、状态“2”和状态“3”。分销商1agent的状态“1”对应的至少一个可能动作包括：从状态“1”改变为状态“0”所需经过的动作(即-1)；从状态“1”改变为状态“2”所需经过的动作(即+1)；从状态“1”改变为状态“3”所需经过的动作(即+2)。在q-表中，状态“1”对应的状态-动作对(q-表项)包括(1,-1)、(1,+1)和(1,+2)，共三个。对于分销商1agent的状态“2”而言，其下一种可能的状态包括状态“0”、状态“1”和状态“3”。分销商1agent的状态“2”对应的至少一个可能动作包括：从状态“2”改变为状态“0”所需经过的动作(即-2)；从状态“2”改变为状态“1”所需经过的动作(即-1)；从状态“2”改变为状态“3”所需经过的动作(即+1)。在q-表中，状态“2”对应的状态-动作对(q-表项)包括(2,-2)、(2,-1)和(2,+1)，共三个。对于分销商1agent的状态“3”而言，其下一种可能的状态包括状态“0”、状态“1”和状态“2”。分销商1agent的状态“3”对应的至少一个可能动作包括：从状态“3”改变为状态“0”所需经过的动作(即-3)；从状态“3”改变为状态“1”所需经过的动作(即-2)；从状态“3”改变为状态“2”所需经过的动作(即-1)。在q-表中，状态“3”对应的状态-动作对(q-表项)包括(3,-3)、(3,-2)和(3,-1)，共三个。在该例子中，步骤四二建立的q-表包括12个q-表项，这12个q-表项对应如下12个状态-动作对：(0,+1)、(0,+2)、(0,+3)、(1,-1)、(1,+1)、(1,+2)、(2,-2)、(2,-1)、(2,+1)、(3,-3)、(3,-2)和(3,-1)。在步骤四三中，对q-表中每个状态-动作对(si,aij)对应的q-表项q(si,aij)的值进行初始化。例如，可以将每个状态-动作对(si,aij)对应的q-表项q(si,aij)的值初始化为0，或者，也可以将每个状态-动作对(si,aij)对应的q-表项q(si,aij)的值初始化为任意值。然后，执行步骤四四。在步骤四四中，针对每个状态-动作对(si,aij)，设定迭代次数k，初始化k＝1，执行步骤b1-b4。在步骤b1中，计算该状态-动作对(si,aij)的立即回报r。其中，例如可以采用现有计算立即回报的方法来实现，这里不再详述。然后，执行步骤b2。在步骤b2中，针对该状态-动作对(si,aij)中当前状态si的每一种可能新状态si’，计算的值，将状态-动作对(si,aij)对应的q-表项q(si,aij)的值更新为z0的当前值。也就是说，在计算机语言中，用这个语句来实现对q(si,aij)的更新。其中，aij'表示当前状态si到可能新状态si’所经过的可能动作，α为步长值，γ为折扣率(例如γ＝0.9)，q(si',aij')表示状态-动作对(si',aij')对应的q-表项，表示使得q(si',aij')值最大的可能动作；将对应的新状态记为状态s'，并将状态-动作对(si,aij)中当前状态si更新为状态s'。其中，步长值的表达式例如为：其中，k表示当前迭代次数，且α0＝0.8。然后，在步骤b3中，令k’＝k+1。然后，执行步骤b4。在步骤b4中，判定当前k’的值是否小于预设阈值：若是，将当前k’的值赋给k，然后返回步骤b1；否则，针对该状态-动作对结束步骤b1-b4。其中，预设阈值例如为10，或者也可以根据经验值来设定，这里不再赘述。这样，在步骤四四中，针对每个状态-动作对(si,aij)完成步骤b1-b4之后，继续执行步骤四五。在步骤四五中，判定是否已获得该q-表的最优解：若是，执行步骤四六；否则，执行步骤四七。其中，最优解的判断依据例如是最优值收敛。在步骤四六中，根据该最优解和该agentx的当前库存量，确定该agentx的目标库存量。如根据上文所举的大米示例，假设大米在agentx的当前库存量为250kg，确定当前库存量所对应的库存状态为“中”，即状态“2”。假设在对agentx所构建的q-表中，对于状态“2”所计算的各个q-表项(q(2,-2)、q(2,-1)和q(2,-3))中，q(2,+1)的值是最大的，则agentx的目标库存量是(2,+1)对应的大米库存量，也就是“高”所对应的[500,1000)kg范围，这样，根据库存控制参数可以确定对当前库存量250kg的具体调整方案。其中，根据当前库存量、目标库存量范围以及库存控制参数来确定具体调整方案的过程可以根据现有技术来获得，这里不再详述。在步骤四七中，修改库存控制参数和/或随机变量，返回步骤四一。如可以对库存控制参数增加一个预设值和/或对重新生成随机变量来实现，其中修改的具体方法也可以根据经验值来确定，或者可以通过试验的方法来确定，这里不再赘述。优选实施例1.不确定环境下基于多agent的流程企业分销网络模型分散的供应链管理本身的特性使得每个分销供应链实体在进行局部决策时所面对的不确定、不全面的信息。所有成员需要独立地分析其状态并做出决策，因此需要自治地达到其局部的优化目标，而整个供应链的优化是在这种情况下实现的。传统的分销网络优化中不确定处理方是引入随机变量，但这些方法只是引入了参数的变化，而没考虑状态变化的影响，系统本身并不会因此而进化。对于合作的生产商和销售商构成的供应链尤其不能满足需要，因为在这种环境下，不确定还会影响组织机构和行为方式。从组织特性来看，由生产商和销售商所组成的分销供应链可以看作一个复杂自适应系统，供应链中的每个个体是分布、自治的，是相互作用的行为主体，供应链管理是多个决策者之间的协调，而为了防止冲突，各自治实体必须能够感知外部状态，并对此做出反应。在图2中，分销供应链中的供应商、分销商、客户和仓库等都实例化为相应的agent，中心agent代表供应链核心企业，负责整个供应链的协调。制造商作为分销供应链的核心企业，处于主导地位；在vmi模式下，库存由供应商管理，因此，供应商agent、中心agent和仓库agent成为一个逻辑上的整体，如图2中的虚框内部。除中心agent只作为信息处理单元而存在以外，制造商agent、分销商agent和客户的agent都要处理物流和信息流，通过控制单元决定agent的行为。q-table(q-表)中储存每个agent自身、相邻agent以及相关环境的状态信息，供agent决策使用。2.基于强化学习的参数自适应仿真优化方法集体智能框架下，个体最优行为不一定导致供应链整体的最优结果。当多agent处于一个公共环境下，通常效率较低，如分销供应链模型中每个agent代分销网络中的一个实体。因此，需要确定供应链总体最优时每个局部成员的最佳动作。基于mas(multi-agentsystem，多agent系统)的供应链仿真优化主要流程如图3所示。在图3中，优化过程分两层循环。其中外层循环是求得决策变量的值，该决策变量对应分销供应链库存策略；内层循环包含一个仿真优化算子，该算子是一个基于多agent的仿真优化模型。如图3所示，该仿真优化算法开始后，随机生成供应链的初始参数，即根据erp系统中的数据，如企业产品库存量、产品配方中的原料、工艺等数据确定库存控制参数η。接着，由随机模拟生成随机变量的值，包括随机需求等随机量，记为ω；根据参数η由多agent的仿真优化模型进行优化计算，其计算过程由多agent学习算法完成。然后，根据仿真优化结果计算目标函数，判断是否满足终止条件，若满足终止条件退出内层循环，否则继续执行仿真计算。这里终止条件设为达到一定的循环次数。最后，判断是否得到最优解，若得到最优解，退出；否则修改参数继续进行计算。得到最优解的判断依据是最优值收敛。强化学习中要使最大化q值和最小化系统总成本的方向保持一致，agent回报函数的设置为最大收益。2)算法参数选择(1)状态-动作对初值设置策略在算法中，状态-动作对的值，q(s,a)，可以初始化为任意值或者根据问题特性初始化为相对特殊的值。在本文中，所有状态-行动对的初值都设为0，即，认为每个状态的所有可选行动具有相同的值。(2)步长值步长值用α表示，含义为算法的学习率，通常为小的正实数，且随学习过程的进行而递减，例如设其中k为当前迭代代数，α0＝0.8。(3)折扣率折扣率γ(0≤γ≤1)，表示未来回报对当前值的影响。当γ趋近于0时，agent的行为表现为短视，因为此时将当前回报影响放大；而当γ趋近于1时，agent考虑远期收益更多一些。在这里取γ＝0.9。(4)搜索概率在强化学习中，agent在尽量学习到近似最优的同时还要考虑对实际环境的控制。因此，在选取能加快学习进程的动作与基于贪心的最大化当前回报之间进行平衡。这种二难决策称为探索-利用折中。这也是强化学习与监督学习(supervisedlearning)的主要区别之一。利用策略采用贪心法，基于agent当前知识；探索策略则从长远来看，以期获得更大的收益。采用以上策略的方法也称为ε-greedy方法，设ε＝0.1，即在10％的时间里随机搜索q(s,a)的值，而在其余90％的时间里利用已取得的最优值(贪心行动)。而为了避免算法陷入局部最优，在ε-greedy方法中可应用贪心率周期性递减策略。如下式所示：其中0<ε<1；εmax和εmin分别为最大贪心率和最小贪心率；i为算法迭代总代数；k为当前迭代代数。在每个i代循环中贪心率从最大减至最小，相应地算法从最大随机搜索减至最小随机搜索，即最大限度利用学习到的成果，有助于找到全局最优解。3)库存状态离散化方法设分销供应链中包含一个制造商和一个分销商和n个客户。制造商和分销商采用vmi方式管理供应链库存，n个客户的不确定需求由分销商供应。在供应链运行过程中，制造商和分销商订货都采用(t,q)策略，其中t为时间周期，q为订货批量，即每隔一段时间对库存进行检查，根据当前库存状态进行补充，而补充策略则由markov决策给出。设制造商仓库容量为mv，为满足markov决策的离散化要求，将其库存状态分为4个等级，分别为“高”、“中”、“低”和“极低”。其中，库存状态与库存量对应关系如表1所示。表1以库存状态“低”为例，某一库存水平it属于该状态的梯形模糊隶属函数如下式所示：尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本
技术领域：
：内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本
技术领域：
：的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李成严;尹书杰;曹克翰;王闯
技术所有人：哈尔滨理工大学
我是此专利的发明人

上一篇：一种北斗高精度物探野外测量信息化集成系统和方法与流程
上一篇：一种车架及自行车的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。