Deflated Sharpe Ratio (DSR)¶
López de Prado's Antwort auf das Multiple-Testing-Problem in Backtests: Jeder beobachtete Sharpe Ratio muss auf seine Wahrscheinlichkeit korrigiert werden, die durch Zufallssuche entstanden zu sein — angepasst für Track-Record-Länge, Return-Verteilung und Anzahl der getesteten Strategien.
Das Problem: Sharpe Inflation¶
Wenn man 100 Strategien backtestet und die beste auswählt, ist deren Sharpe Ratio auch dann hoch, wenn keine Strategie echten Edge hat. Das ist Multiple-Testing-Bias: Der erwartete Sharpe-Maximum einer Stichprobe von N zufälligen Strategien wächst mit N — selbst wenn alle wahren Sharpes gleich null sind.
Probabilistic Sharpe Ratio (PSR) — Stufe 1¶
PSR korrigiert für zwei Faktoren: 1. Track-Record-Länge T: Kürzere Serien liefern instabilere Schätzungen 2. Return-Verteilung: Skewness (positiv = gut) und Kurtosis (fat tails = schlecht) inflationieren den gemessenen Sharpe
Formel: PSR = Z[ (SR_hat - SR*) × √(T-1) / √(1 - γ3×SR_hat + (γ4-1)/4 × SR_hat²) ]
Interpretation: PSR ist die Wahrscheinlichkeit, dass der wahre Sharpe > SR* (Benchmark-Wert, typisch = 0).
Praktische Regel: PSR > 0.95 für statistische Signifikanz auf 5%-Niveau.
Deflated Sharpe Ratio (DSR) — Stufe 2¶
DSR ist PSR mit adaptivem Benchmark SR*, der für Multiple Testing korrigiert:
SR* wächst mit der Anzahl getesteter Strategien (N) und der Varianz der Sharpe-Schätzungen über alle Trials.
Drittes Backtesting-Gesetz (López de Prado):
„Every backtest result must be reported in conjunction with all the trials involved in its production. Absent that information, it is impossible to assess the backtest's false discovery probability."
Praktische Regel: DSR > 0.95 — und Anzahl aller getesteten Strategien muss angegeben werden.
Operative Konsequenzen¶
- Backtesting ist kein Forschungsinstrument, sondern ein Validierungsinstrument. Forschung (Feature-Suche, Modellauswahl) muss vollständig Out-of-Sample bleiben.
- Jede Strategieauswahl aus einem Pool von Kandidaten muss die gesamte Pool-Größe für DSR-Berechnung dokumentieren.
- Walk-Forward-Tests haben dasselbe Problem wenn man viele Varianten probiert — CPCV (Combinatorial Purged Cross-Validation) ist die robustere Alternative.
- Für den Fondsaufbau: Track Record muss DSR > 0.95 zeigen, nicht nur nominalen Sharpe.
Verhältnis zu anderen Konzepten¶
DSR operationalisiert, was Taleb in survivorship_bias und alternative_histories qualitativ beschreibt: Wir sehen nur die überlebenden Strategien, nicht die vielen versuchten. PSR/DSR quantifiziert den Abschlag.
Links¶
- marcos_lopez_de_prado — Quelle: AFML (2018)
- 2026-05-09_lopez_afml — Primärquelle
- survivorship_bias — Taleb: Qualitative Grundlage für DSR-Notwendigkeit
- alternative_histories — Taleb: Warum man alle Pfade berücksichtigen muss, nicht nur den realisierten
- robustness_obsession — DSR + Purged CV = vollständige Backtesting-Disziplin
- kelly_kriterium — Chan: Sharpe als Basis für Leverage; DSR-Korrektur vor Kelly-Berechnung anwenden
- triple_barrier_meta_labeling — Labels sind Basis für DSR-Berechnung
- hedge_fund_architektur — Topic