Zum Inhalt

Robustness-Obsession

Woodriffs Quant-Prinzip: maximale Out-of-Sample-Validierung, minimales Vertrauen in In-Sample-Performance. Exzessives Tuning macht ML-Modelle wertlos.

Kernprinzip

„Je mehr OOS-Daten, desto mehr Vertrauen." — jaffray_woodriff

In-Sample-Performance ist kein verlässliches Signal für reale Performance. Ein Modell, das auf historischen Daten perfekt performt, hat oft gelernt, Rauschen zu fitten — nicht strukturelle Muster.

Die Overfitting-Falle

ML-Modelle haben unbegrenzte Kapazität, historische Daten zu erklären. Exzessives Tuning (Hyperparameter-Optimierung auf IS-Daten, wiederholtes Anpassen bis IS-Performance stimmt) → das Modell ist eine Beschreibung der Vergangenheit, kein Prediktor der Zukunft.

Validierungsprinzipien

  1. Walk-Forward-Analyse (Pardo + Woodriff): Modell auf früheren Daten trainieren, auf späteren OOS-Daten testen, rollierend
  2. Minimale Parameteranzahl: Komplexität ist der Feind der Robustheit
  3. Stability-Tests: Performance sollte nicht stark variieren, wenn Parameter leicht geändert werden
  4. Keine nachträgliche Optimierung auf OOS-Daten, die dadurch IS-Daten werden

Konvergenz: Acht unabhängige Quellen

robert_pardo ist die Primärquelle: Er erfand WFA, definierte Walk-Forward Efficiency (WFE = OOS/IS-Profit-Ratio, Schwelle ≥50–60%) und formulierte die 4-Kriterien-Robustheitsdefinition. Woodriffs Ansatz (Praxis) ist identisch mit Pardos formalem Standard (Theorie). rishi_narang bestätigt denselben Standard in Inside the Black Box unabhängig. christian_dunis implementiert ihn als sliding_window_methode in empirischen Handelsstudien. ernest_chan formuliert die Backtesting Pitfall-Taxonomie (Look-ahead, Survivorship, Data-Snooping) als Pflichtprüfung. marcos_lopez_de_prado geht am weitesten: Purged K-Fold CV als technische Implementierung, deflated_sharpe_ratio als Pflichtmetrik die für Multiple Testing korrigiert. emilio_tomasini liefert die bisher präziseste visuelle Demonstration von Overfitting: LUXOR-System mit 0 Parametern ($17,961 Train) vs. 6 optimierten Parametern ($90,240 Train) — OOS verschlechtert sich proportional zur Parameteranzahl. Stabilitätsdiagramme als visuelles Overfitting-Detektor-Tool. Sieben unabhängige Quellen auf demselben Prinzip: Konsens ohne Zweifel.

rob_booker (narrativer Beitrag, Quelle 8): "Thou Shalt Test Before Trading" als absolutes Gesetz — kein Echtgeld ohne Positive Expectancy aus 300+ historischen Trades. Booker formuliert denselben Konsens in zugänglicher Fabel-Sprache: Trader ohne getestetes System haben garantiert negativen Erwartungswert.

howard_bandy (Quelle 9): Out-of-Sample-Daten sind heilig — jeder Rückblick zur Parameter-Adjustierung zerstört sie. Bandy ergänzt formalen Hypothesentest auf System-Returns (z-Score) und macht damit den Schritt von "OOS hat funktioniert" zu "OOS hat mit p < 0.05 funktioniert" — siehe in_sample_out_of_sample und hypothesentest_trading_systeme.

Implikation für Johann

Build-Alpha Testing-Standard: Walk-Forward-Validierung als Pflicht. In-Sample-Sharpe > 2 ist verdächtig, nicht ermutigend.