Zum Inhalt

Deflated Sharpe Ratio (DSR)

López de Prado's Antwort auf das Multiple-Testing-Problem in Backtests: Jeder beobachtete Sharpe Ratio muss auf seine Wahrscheinlichkeit korrigiert werden, die durch Zufallssuche entstanden zu sein — angepasst für Track-Record-Länge, Return-Verteilung und Anzahl der getesteten Strategien.

Das Problem: Sharpe Inflation

Wenn man 100 Strategien backtestet und die beste auswählt, ist deren Sharpe Ratio auch dann hoch, wenn keine Strategie echten Edge hat. Das ist Multiple-Testing-Bias: Der erwartete Sharpe-Maximum einer Stichprobe von N zufälligen Strategien wächst mit N — selbst wenn alle wahren Sharpes gleich null sind.

Probabilistic Sharpe Ratio (PSR) — Stufe 1

PSR korrigiert für zwei Faktoren: 1. Track-Record-Länge T: Kürzere Serien liefern instabilere Schätzungen 2. Return-Verteilung: Skewness (positiv = gut) und Kurtosis (fat tails = schlecht) inflationieren den gemessenen Sharpe

Formel: PSR = Z[ (SR_hat - SR*) × √(T-1) / √(1 - γ3×SR_hat + (γ4-1)/4 × SR_hat²) ]

Interpretation: PSR ist die Wahrscheinlichkeit, dass der wahre Sharpe > SR* (Benchmark-Wert, typisch = 0).

Praktische Regel: PSR > 0.95 für statistische Signifikanz auf 5%-Niveau.

Deflated Sharpe Ratio (DSR) — Stufe 2

DSR ist PSR mit adaptivem Benchmark SR*, der für Multiple Testing korrigiert:

SR* wächst mit der Anzahl getesteter Strategien (N) und der Varianz der Sharpe-Schätzungen über alle Trials.

Drittes Backtesting-Gesetz (López de Prado):

„Every backtest result must be reported in conjunction with all the trials involved in its production. Absent that information, it is impossible to assess the backtest's false discovery probability."

Praktische Regel: DSR > 0.95 — und Anzahl aller getesteten Strategien muss angegeben werden.

Operative Konsequenzen

  • Backtesting ist kein Forschungsinstrument, sondern ein Validierungsinstrument. Forschung (Feature-Suche, Modellauswahl) muss vollständig Out-of-Sample bleiben.
  • Jede Strategieauswahl aus einem Pool von Kandidaten muss die gesamte Pool-Größe für DSR-Berechnung dokumentieren.
  • Walk-Forward-Tests haben dasselbe Problem wenn man viele Varianten probiert — CPCV (Combinatorial Purged Cross-Validation) ist die robustere Alternative.
  • Für den Fondsaufbau: Track Record muss DSR > 0.95 zeigen, nicht nur nominalen Sharpe.

Verhältnis zu anderen Konzepten

DSR operationalisiert, was Taleb in survivorship_bias und alternative_histories qualitativ beschreibt: Wir sehen nur die überlebenden Strategien, nicht die vielen versuchten. PSR/DSR quantifiziert den Abschlag.