Approfondimento: La verifica dei modelli meteorologici

Questa pagina non ha la pretesa di essere esaustiva, ma ha lo scopo di fornire all’appassionato i concetti di base relativi agli strumenti statistici elementari utilizzati nella verifica delle previsioni meteorologiche numeriche. La biografia riportata in fondo alla pagina fornisce ulteriori spunti di approfondimento.

Possiamo distinguere innanzitutto il caso di variabili continue (come ad esempio i valori della temperatura a 2 mt, o dell’intensità del vento a 10 mt) o il caso in cui le variabili previste sono di tipo categorico, come negli eventi "dicotomici" (vero/falso, ad esempio per l'evento "precipitazione superiore ad una soglia prefissata").

 

1. Verifica di variabili continue
La verifica di previsioni di variabili continue si effettua, in generale, identificando quale errore della corsa del modello la valutazione della differenza (o scarto) tra i valori previsti e quelli osservati della grandezza fisica, esaminata in un campione statistico rappresentativo ed omogeneo. Questo può avvenire sui punti del grigliato geografico utilizzato dal modello, oppure su un insieme di località nelle quali si conosce il valore esatto delle osservazioni, tipicamente le stazioni della rete osservativa.
Il diagramma di dispersione (scatter-plot, in inglese) è una delle forme grafiche più immediate ed utili per visualizzare i risultati delle verifiche sulle variabili continue. In ascisse è rappresentata la variabile prevista, in ordinata la medesima come realmente osservata. Come è facile immaginare più la previsione è precisa più queste devono essere vicine: la diagonale a 45° del grafico corrisponde al caso ideale di osservazione esattamente uguale alla previsione, ovvero di previsione in linea di ipotesi perfetta. Nelle situazioni reali, quanto più l’insieme dei punti si trova raccolto intorno alla diagonale, tanto migliore è il risultato. L’utilizzo di questo tipo di rappresentazione, consente con immediatezza di valutare l’esistenza di eventuali sottostime o la sovrastime delle variabili, oppure di scostamenti sistematici (bias) o di sensitività dei modelli.
 


Figura: Un esempio di scatter-plot per la variabile Temperatura a 2 metri prevista per le ore 18:00UTC, ottenuto confrontando le osservazioni della stazione di Galatina (Lecce) con le corrispondenti previsioni del modello COSMOIT.

Tra gli indici (score) più comunemente utilizzati troviamo la radice dello scarto quadratico medio (in inglese root mean square error, RMSE) quale stima dello scarto tra i valori previsti dal modello numerico e quelli osservati dalla stazione meteorologica. La formula matematica che definisce l’indice RMSE è riportata in bibliografia. In sostanza, si calcola il quadrato della differenza tra i valori previsti ed i corrispondenti osservati, si effettua quindi la media sul campione e si estrae infine la radice quadrata. Poiché tali differenze sono pesate al quadrato prima dell'operazione di media, il RMSE fornisce un contributo significativo agli scostamenti grandi in valore assoluto. Per questo l’RMSE è una grandezza positiva, ma è orientata negativamente (nel senso che i valori più bassi sono migliori) ed è l’indice più comunemente utilizzato per diagnosticare variazioni degli errori in un insieme di previsioni.

 

2. Verifica di previsioni categoriche
Per variabili previste di tipo categorico, come gli eventi "dicotomici" (vero/falso), si definisce invece la cosiddetta tabella di contingenza (contingency table) che riporta la frequenza, per un campione di dati, per ciascuno dei casi possibili.
Nel confronto tra osservazioni e previsioni, le 4 combinazioni di casi previsti (vero o falso) e osservati (vero o falso), che costituiscono le cosiddette distribuzioni congiunte (joint distributions), si definiscono rispettivamente:
•    hits - eventi previsti, osservati;
•    misses - eventi non previsti, osservati;
•    false alarms - eventi previsti, non osservati;
•    correct negatives - eventi non previsti, non osservati.
La tabella di contingenza rappresenta uno strumento utile all'analisi degli errori commessi nel processo prognostico. Un ideale sistema perfetto di previsioni produrrebbe soltanto "hits" e "correctnegatives", senza "misses" né "false alarms".
A valle della distribuzione dei casi di hits, misses, false alarms e correct negatives, possono essere calcolati opportuni indici statistici per descrivere particolari aspetti della performance del sistema di previsione. Tra questi ad esempio, il cosiddetto "accordo a posteriori" (post agreement, PAG), definito come il rapporto

PAG = hits / (hits + false alarms)

che, espresso tipicamente in valori percentuali, fornisce una misura della frazione dei casi previsti con successo sul totale di casi previsti dal sistema di previsione.

 

Bibliografia
Per ulteriori approfondimenti sull'argomento si possono visitare i siti:
http://www.eumetcal.org/resources/ukmeteocal/verification/www/english/courses/msgcrs/index.htm
http://www.cawcr.gov.au/projects/verification