This thesis is based on an analysis of data from the PASSI surveillance system, which monitors health status and preventive behaviors in Italy. An examination of the Emilia-Romagna dataset collected in 2024 revealed critical issues compromising data reliability. In particular, a marked discrepancy was observed between interviews conducted by AUSL staff and those administered by external providers, the latter being suspected of higher measurement error. This systematic difference generates non-homogeneous data and highlights a methodological concern that limits the safe use of the information for health planning and policy evaluation. Since measurement error in the collected data cannot be corrected ex post, observations deemed unreliable were excluded from the analysis. This decision led to a reduction in the effective sample size relative to the planned design, thereby increasing the variability of direct estimates and amplifying sampling error. Consequently, the intended precision level could no longer be guaranteed. The resulting scenario is characterized by unplanned or under-sampled domains with limited observed sample sizes within the target population. For these domains, direct estimators are unstable and exhibit high variance. To address this issue, the thesis adopts Small Area Estimation (SAE) methods, which integrate survey data with auxiliary information through model-based approaches. By borrowing strength across domains, these methods reduce the mean squared error (MSE) and improve inferential reliability, even when the achieved sample size falls below the planned level. The ultimate objective is to mitigate discrepancies between the two data collection modes and to produce reliable estimates for the Emilia-Romagna region.
Questa tesi si basa sull'analisi dei dati del sistema di sorveglianza PASSI, che monitora lo stato di salute e i comportamenti preventivi in Italia. L'esame del dataset relativo all'Emilia-Romagna, raccolto nel 2024, ha messo in luce criticità che compromettono l'affidabilità dei dati. In particolare, è stata osservata una marcata discrepanza tra le interviste condotte dal personale delle AUSL e quelle somministrate da provider esterni, i quali sono sospettati di introdurre un errore di misura più elevato. Questa differenza sistematica genera dati non omogenei e solleva una preoccupazione metodologica che limita l'utilizzo sicuro delle informazioni per la pianificazione sanitaria e la valutazione delle politiche. Poiché l'errore di misura presente nei dati raccolti non può essere corretto ex post, le osservazioni ritenute inaffidabili sono state escluse dall'analisi. Tale decisione ha comportato una riduzione della dimensione campionaria effettiva rispetto al disegno pianificato, aumentando la variabilità delle stime dirette e amplificando l'errore campionario. Di conseguenza, il livello di precisione previsto non ha potuto essere garantito. Lo scenario che ne risulta è caratterizzato da domini non pianificati o sotto-campionati, con dimensioni campionarie osservate limitate all'interno della popolazione target. Per questi domini, gli stimatori diretti risultano instabili e presentano un'elevata varianza. Per far fronte a questo problema, la tesi adotta i metodi di Small Area Estimation (SAE), che integrano i dati d'indagine con informazioni ausiliarie attraverso approcci basati su modelli. Traendo forza dall'informazione condivisa tra domini, questi metodi riducono l'errore quadratico medio (MSE) e migliorano l'affidabilità inferenziale, anche quando la dimensione campionaria effettivamente raggiunta è inferiore a quella pianificata. L'obiettivo finale è attenuare le discrepanze tra le due modalità di raccolta dei dati e produrre stime affidabili per la regione Emilia-Romagna.
Small Area Estimation for Sub-Regional Health Monitoring in Italy
BETTIN, ANDREA
2024/2025
Abstract
This thesis is based on an analysis of data from the PASSI surveillance system, which monitors health status and preventive behaviors in Italy. An examination of the Emilia-Romagna dataset collected in 2024 revealed critical issues compromising data reliability. In particular, a marked discrepancy was observed between interviews conducted by AUSL staff and those administered by external providers, the latter being suspected of higher measurement error. This systematic difference generates non-homogeneous data and highlights a methodological concern that limits the safe use of the information for health planning and policy evaluation. Since measurement error in the collected data cannot be corrected ex post, observations deemed unreliable were excluded from the analysis. This decision led to a reduction in the effective sample size relative to the planned design, thereby increasing the variability of direct estimates and amplifying sampling error. Consequently, the intended precision level could no longer be guaranteed. The resulting scenario is characterized by unplanned or under-sampled domains with limited observed sample sizes within the target population. For these domains, direct estimators are unstable and exhibit high variance. To address this issue, the thesis adopts Small Area Estimation (SAE) methods, which integrate survey data with auxiliary information through model-based approaches. By borrowing strength across domains, these methods reduce the mean squared error (MSE) and improve inferential reliability, even when the achieved sample size falls below the planned level. The ultimate objective is to mitigate discrepancies between the two data collection modes and to produce reliable estimates for the Emilia-Romagna region.| File | Dimensione | Formato | |
|---|---|---|---|
|
Bettin_Andrea_883860.pdf
non disponibili
Dimensione
1.33 MB
Formato
Adobe PDF
|
1.33 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14247/28189