Approfondimento: La verifica dei modelli meteorologici

Questa pagina non ha alcun carattere di esaustività, ma serve soltanto a fornire all’appassionato qualche idea di base intorno agli strumenti statistici elementari utilizzati nella verifica delle previsioni numeriche. Rimandiamo ogni approfondimento alla bibliografia minima sotto indicata.
Possiamo distinguere, innanzitutto il caso di variabili continue (come ad esempio i valori della temperatura a 2 m, o dell’intensità del vento a 10 m) o il caso in cui le variabili previste sono di tipo categorico, come negli eventi "dicotomici" (vero/falso, ad esempio per l'evento "precipitazione superiore ad una soglia prefissata").

 

1. Verifica di variabili continue
La verifica di previsioni di variabili continue  si effettua, in generale, partendo dalla valutazione, quale errore della corsa del modello, della differenza (o scarto) tra i valori previsti e quelli osservati della grandezza fisica, esaminata in un campione statistico rappresentativo ed omogeneo. Questo può avvenire sui punti del grigliato geografico utilizzato dal modello, oppure su un insieme di località nelle quali si conosce il valore esatto delle osservazioni, tipicamente le stazioni della rete osservativa.
Il diagramma di dispersione (scatter-plot, in inglese) è uno dei più immediati ed utili grafici per visualizzare i risultati per variabile continua. In ascisse è rappresentata la variabile prevista, in ordinata la medesima come realmente osservata. Come è facile immaginare più la previsione è precisa più queste devono essere uguali: la diagonale a 45° del grafico corrisponde al caso ideale di osservazione esattamente uguale a previsione, ovvero di previsione perfetta. Nei casi concreti più quindi l’insieme dei punti si trova raccolto intorno alla diagonale, migliore è il risultato. Altre considerazioni quali la sottostima o la sovrastima delle variabili oppure gli scostamenti sistematici (bias) o la sensitività dei modelli risultano abbastanza immediate da semplici considerazioni intono a questo tipo di grafico.
 


Figura: Un esempio di scatter-plot.

Tra gli indici (score, in inglese) più comunemente utilizzati troviamo la radice dello scarto quadratico medio (in inglese root mean square error, RMSE) quale misura della grandezza media dell'errore.
La formula matematica che definisce il RMSE si può trovare nei riferimenti citati in calce. In sostanza, si calcola il quadrato della differenza tra i valori previsti  ed i corrispondenti osservati, si effettua quindi la media sul campione  e si estrae infine la radice quadrata. Poiché tali differenze sono pesate al quadrato prima dell'operazione di media, il RMSE fornisce un contributo elevato agli scostamenti grandi in valore assoluto.  Per questo il RMSE è una grandezza positiva, ma è orientata negativamente (nel senso che i valori più bassi sono migliori) ed è l’indice più comunemente utilizzato per diagnosticare variazioni degli errori in un insieme di previsioni.

 

2. Verifica di previsioni categoriche
Per variabili previste di tipo categorico, come gli eventi "dicotomici" (ovvero vero/falso), si definisce invece la cosiddetta tabella di contingenza (contingency table, in inglese) che riporta la frequenza, per un campione di dati, per ciascuno dei casi possibili.
Nel caso solo di osservazioni vs. previsioni, le 4 combinazioni di casi previsti (vero o falso) e osservati (vero o falso), che costituiscono le cosiddette distribuzioni congiunte (joint distributions, in inglese), sono chiamate rispettivamente (usando la terminologia inglese):
•    hits - eventi previsti, osservati;
•    misses - eventi non previsti, osservati;
•    false alarms - eventi previsti, non osservati;
•    correct negatives - eventi non previsti, non osservati.
La tabella di contingenza rappresenta uno strumento utile all'analisi degli errori commessi nel processo prognostico. Un ideale sistema perfetto di previsioni produrrebbe soltanto "hits" e "correctnegatives", senza "misses" né "false alarms".
A partire dagli elementi in tabella, possono essere calcolati opportuni indici statistici per descrivere particolari aspetti della performance del sistema di previsioni. Tra essi ad esempio, il cosiddetto "accordo a posteriori" (in inglese post agreement, PAG), definito come il rapporto
PAG = hits / (hits + false alarms)
ed espresso tipicamente in valori percentuali, fornisce una misura della frazione dei casi previsti con successo sul totale di casi previsti dal sistema prognostico.

 

Bibliografia minima
Per ulteriori approfondimenti sull'argomento si possono visitare i siti:
http://www.eumetcal.org/resources/ukmeteocal/verification/www/english/courses/msgcrs/index.htm
http://www.cawcr.gov.au/projects/verification