Le catene di approvvigionamento globali sono diventate sempre più complesse a causa dell’incertezza crescente, delle strutture a più livelli e dei tempi di consegna variabili. I sistemi tradizionali MRP faticano ad adattarsi efficacemente a queste dinamiche, generando livelli di servizio insufficienti, costi di inventario elevati e decisioni ritardate. Il metodo Demand-Driven MRP (DDMRP) è stato sviluppato per rispondere a queste criticità, introducendo il posizionamento strategico delle scorte e una pianificazione basata su buffer. Tuttavia, pur migliorando la reattività e riducendo la distorsione dei segnali, DDMRP si basa su parametri fissi come ADU, DLT e i fattori di aggiustamento ($\alpha$, $\beta$), limitandone l’adattabilità in contesti altamente dinamici. Questa tesi integra la struttura DDMRP con un meccanismo di Reinforcement Learning (RL) utilizzando l’algoritmo Proximal Policy Optimization (PPO). L’agente RL apprende se e quanto riordinare in scenari con domanda e tempi di consegna variabili, mirando a minimizzare i costi totali e mantenere un alto livello di servizio. I test statistici confermano il superamento stabile della soglia del 95%. Le analisi comparative evidenziano la maggiore flessibilità e i vantaggi operativi del sistema RL-DDMRP, con particolare applicabilità nei settori ad alto valore come difesa e aerospazio.
Global supply chains have become increasingly complex due to rising uncertainty, multi-stage structures, and variable lead times. Traditional MRP systems struggle to respond effectively to these dynamics, often resulting in poor service levels, high inventory costs, and delayed decision-making. Demand-Driven MRP (DDMRP) was developed to address these issues by introducing strategic inventory positioning and buffer-based planning. While DDMRP improves responsiveness and reduces signal distortion, it relies on fixed parameters such as ADU, DLT, and adjustment factors ($\alpha$, $\beta$), which limit its adaptability in highly dynamic environments. This thesis integrates a rule-based DDMRP structure with a Reinforcement Learning (RL) mechanism using the Proximal Policy Optimization (PPO) algorithm. The RL agent learns to decide whether to reorder and how much to order under scenarios with varying demand and lead times. The model aims to minimize total cost while maintaining high service levels. Statistical tests confirm the agent’s ability to consistently exceed the 95% service level threshold. Comparative analyses highlight the flexibility and operational advantages of the RL-enhanced system over traditional DDMRP. This approach offers a dynamic and proactive inventory planning framework, especially applicable to high-value industries such as defense and aerospace.
Simulation-Based Approach to Reinforcement Learning and DDMRP in Demand-Driven Supply Chain Planning
VURAN, SEDA NUR
2024/2025
Abstract
Le catene di approvvigionamento globali sono diventate sempre più complesse a causa dell’incertezza crescente, delle strutture a più livelli e dei tempi di consegna variabili. I sistemi tradizionali MRP faticano ad adattarsi efficacemente a queste dinamiche, generando livelli di servizio insufficienti, costi di inventario elevati e decisioni ritardate. Il metodo Demand-Driven MRP (DDMRP) è stato sviluppato per rispondere a queste criticità, introducendo il posizionamento strategico delle scorte e una pianificazione basata su buffer. Tuttavia, pur migliorando la reattività e riducendo la distorsione dei segnali, DDMRP si basa su parametri fissi come ADU, DLT e i fattori di aggiustamento ($\alpha$, $\beta$), limitandone l’adattabilità in contesti altamente dinamici. Questa tesi integra la struttura DDMRP con un meccanismo di Reinforcement Learning (RL) utilizzando l’algoritmo Proximal Policy Optimization (PPO). L’agente RL apprende se e quanto riordinare in scenari con domanda e tempi di consegna variabili, mirando a minimizzare i costi totali e mantenere un alto livello di servizio. I test statistici confermano il superamento stabile della soglia del 95%. Le analisi comparative evidenziano la maggiore flessibilità e i vantaggi operativi del sistema RL-DDMRP, con particolare applicabilità nei settori ad alto valore come difesa e aerospazio.File | Dimensione | Formato | |
---|---|---|---|
SedaNurVuran_Tesi.pdf
non disponibili
Dimensione
2.04 MB
Formato
Adobe PDF
|
2.04 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14247/25061