Questa pagina non ha la pretesa di essere esaustiva, ma ha lo scopo di fornire all’appassionato i concetti di base relativi agli strumenti statistici elementari utilizzati nella verifica delle previsioni meteorologiche numeriche. La biografia riportata in fondo alla pagina fornisce ulteriori spunti di approfondimento.

Possiamo distinguere innanzitutto il caso di variabili continue (come ad esempio i valori della temperatura a 2 mt, o dell’intensità del vento a 10 mt) o il caso in cui le variabili previste sono di tipo categorico, come negli eventi "dicotomici" (vero/falso, ad esempio per l'evento "precipitazione superiore ad una soglia prefissata").

1. Verifica di variabili continue

La verifica di previsioni di variabili continue si effettua, in generale, identificando quale errore della corsa del modello la valutazione della differenza (o scarto) tra i valori previsti e quelli osservati della grandezza fisica, esaminata in un campione statistico rappresentativo ed omogeneo. Questo può avvenire sui punti del grigliato geografico utilizzato dal modello, oppure su un insieme di località nelle quali si conosce il valore esatto delle osservazioni, tipicamente le stazioni della rete osservativa.

Il diagramma di dispersione (scatter-plot, in inglese) è una delle forme grafiche più immediate ed utili per visualizzare i risultati delle verifiche sulle variabili continue. In ascisse è rappresentata la variabile prevista, in ordinata la medesima come realmente osservata. Come è facile immaginare più la previsione è precisa più queste devono essere vicine: la diagonale a 45° del grafico corrisponde al caso ideale di osservazione esattamente uguale alla previsione, ovvero di previsione in linea di ipotesi perfetta. Nelle situazioni reali, quanto più l’insieme dei punti si trova raccolto intorno alla diagonale, tanto migliore è il risultato. L’utilizzo di questo tipo di rappresentazione, consente con immediatezza di valutare l’esistenza di eventuali sottostime o la sovrastime delle variabili, oppure di scostamenti sistematici (bias) o di sensitività dei modelli.
 

Diagramma di dispersione
Un esempio di scatter-plot per la variabile Temperatura a 2 metri prevista per le ore 18:00UTC, ottenuto confrontando le osservazioni della stazione di Galatina (Lecce) con le corrispondenti previsioni del modello COSMOIT.

Tra gli indici (score) più comunemente utilizzati troviamo la radice dello scarto quadratico medio (in inglese root mean square error, RMSE) quale stima dello scarto tra i valori previsti dal modello numerico e quelli osservati dalla stazione meteorologica. La formula matematica che definisce l’indice RMSE è riportata in bibliografia. In sostanza, si calcola il quadrato della differenza tra i valori previsti ed i corrispondenti osservati, si effettua quindi la media sul campione e si estrae infine la radice quadrata. Poiché tali differenze sono pesate al quadrato prima dell'operazione di media, il RMSE fornisce un contributo significativo agli scostamenti grandi in valore assoluto. Per questo l’RMSE è una grandezza positiva, ma è orientata negativamente (nel senso che i valori più bassi sono migliori) ed è l’indice più comunemente utilizzato per diagnosticare variazioni degli errori in un insieme di previsioni.

2. Verifica di previsioni categoriche

Per variabili previste di tipo categorico, come gli eventi "dicotomici" (vero/falso, ad es. per l'evento "precipitazione superiore ad una soglia prefissata"), si definisce invece la cosiddetta tabella di contingenza (contingency table, in inglese) che riporta la frequenza, per un campione di dati, di previsioni ed osservazioni per ciascuno dei casi possibili (vero/falso).

Le quattro combinazioni di casi previsti (vero o falso) e osservati (vero o falso), che costituiscono le cosiddette distribuzioni congiunte (joint distributions), sono chiamate rispettivamente (usando la terminologia in inglese):

  • hits - eventi previsti, osservati;
  • misses - eventi non previsti, osservati;
  • false alarms - eventi previsti, non osservati;
  • correct negatives - eventi non previsti, non osservati.

La tabella di contingenza rappresenta uno strumento utile all'analisi degli errori commessi nel processo prognostico. Un ideale sistema perfetto di previsioni produrrebbe soltanto "hits" e "correct negatives", senza "misses" né "false alarms".

A partire dagli elementi in tabella, possono essere calcolati opportuni indici statistici per descrivere particolari aspetti della performance del sistema di previsioni. Tra essi, l'accordo a posteriori (in inglese post agreement, PAG), definito come il rapporto hits / (hits + false alarms) ed espresso tipicamente in valori percentuali, fornisce una mmisura della frazione dei casiprevisti con successo sul totale di casi previsti dal sistema prognostico.

Per approfondimenti ulteriori sull'argomento si può visitare il sito