Formalmente, l’analisi out-of-sample si riferisce alla valutazione delle prestazioni di un modello o di una strategia di investimento su un insieme di dati che è completamente separato e indipendente dal dataset utilizzato per la sua costruzione e ottimizzazione (in-sample). Questo processo è fondamentale per evitare l’overfitting, ovvero la situazione in cui un modello si adatta troppo bene ai dati di training, performando eccezionalmente bene su di essi ma male su dati nuovi e non visti. L’obiettivo principale è ottenere una stima imparziale della performance futura del modello.
La valutazione out-of-sample è cruciale per la validità di qualsiasi modello quantitativo. Un modello che mostra performance eccellenti in-sample ma scarse out-of-sample indica un problema di overfitting. Immaginiamo, ad esempio, un modello di previsione del prezzo delle azioni che viene addestrato su dati del 2018-2022. La sua performance in-sample potrebbe essere eccellente, con un R-squared molto alto. Tuttavia, se testato su dati del 2023 (out-of-sample), il modello potrebbe mostrare una performance significativamente inferiore, evidenziando la sua incapacità di generalizzare a nuovi dati e quindi la sua scarsa affidabilità per il trading reale.
In pratica, la valutazione out-of-sample viene realizzata dividendo il dataset disponibile in due o più sottoinsiemi: uno per l’addestramento (in-sample) e uno o più per il test (out-of-sample). Ad esempio, potremmo usare il 70% dei dati per l’addestramento e il 30% per il test. Dopo aver addestrato il modello sull’insieme in-sample, lo si valuta sull’insieme out-of-sample calcolando metriche come il Mean Squared Error (MSE), il Sharpe Ratio o altri indicatori di performance rilevanti per la strategia specifica. Un basso MSE out-of-sample, ad esempio, suggerisce una buona capacità predittiva del modello su dati non visti.
Nonostante i suoi vantaggi, l’analisi out-of-sample presenta dei limiti. La dimensione del dataset out-of-sample influenza la significatività statistica dei risultati. Un dataset di test troppo piccolo può portare a conclusioni errate, mentre un dataset troppo grande potrebbe ridurre la quantità di dati disponibili per l’addestramento, compromettendo la performance in-sample. Inoltre, la scelta del metodo di divisione dei dati (ad esempio, random split, time series split) può influenzare i risultati. È quindi fondamentale una attenta progettazione sperimentale per massimizzare l’utilità dell’analisi out-of-sample e mitigare i suoi limiti.
« Back to Glossary Index


