Data Science Interview-Fragen: Was erwartet dich und wie bereite ich mich vor
Suchintention: Data Scientists und Analysten, die technisch stark sind, aber nicht sicher sind, wie sie die Business- und Verhaltensrunden angehen sollen.
Wie eine Data Science-Interviewrunde aussieht
Data Science-Interview-Fragen variieren stärker als bei den meisten Rollen, weil die Stelle selbst variiert. Kläre vor der Vorbereitung, welche Art von DS-Rolle du anstrebst:
- Produkt/angewandte DS: Schwerpunkt auf Metriken, A/B-Tests, SQL und Product Sense
- ML Engineering-nahe DS: Feature Engineering, Model Deployment, Experiment Design
- Research DS: Statistik, ML-Theorie, Algorithmusdesign
Die meisten Loops umfassen 4–5 Runden: einen technischen Screen (Statistik + Wahrscheinlichkeit), SQL/Coding, Produkt-/Business Case, ML-Grundlagen und Behavioral. Das Mix zu kennen lässt dich die Vorbereitungszeit sinnvoll aufteilen.
Data Science Interview-Fragen: Die technischen Runden
Statistik und Wahrscheinlichkeit
Diese Fragen testen deine statistische Intuition, nicht deine Fähigkeit, Formeln auswendig zu kennen.
Häufige Fragetypen:
- Erkläre p-Werte und Konfidenzintervalle ohne Fachjargon
- Designe einen A/B-Test für eine spezifische Produktänderung
- Was ist der Unterschied zwischen Typ-I- und Typ-II-Fehlern, und wann ist welcher wichtiger?
Der Schlüssel: Verbinde statistische Konzepte immer mit Geschäftsentscheidungen. „Ein niedrigeres Signifikanzniveau reduziert Typ-I-Fehler – weniger falsch-positive – was wichtig ist, wenn die Kosten des Handelns auf ein falsches Signal hoch sind, z.B. beim Ausrollen eines Features, das die Retention verschlechtert."
SQL und Coding
Für Produkt-DS-Rollen ist SQL oft der primäre technische Screen. Erwarte:
- Window-Funktionen (RANK, LAG, LEAD)
- Kohortenanalyse-Abfragen
- Self-Joins und CTEs
- Aggregationen mit Bedingungen (CASE WHEN)
Für ML-nahe Rollen ist Python-Coding üblich: einen Gradient-Descent-Schritt implementieren, eine k-Means-Funktion von Grund auf schreiben oder einen pandas DataFrame manipulieren.
ML-Grundlagen
Interviewer testen, ob du die Intuition hinter Modellen verstehst, nicht nur wie man sklearn.fit() aufruft.
Fragen, auf die du vorbereitet sein solltest:
- Erkläre, wie Gradient Boosting funktioniert
- Wann würdest du Logistische Regression gegenüber einem Random Forest verwenden?
- Dein Modell hat hohe Genauigkeit, aber das Unternehmen ist unzufrieden – was könnte falsch sein?
- Wie gehst du mit Klassenungleichgewicht um?
- Erkläre Regularisierung und wann L1 vs. L2 angemessen ist
Die Falle: zu viel Mathematik erklären. Sie wollen: „L1 produziert spärliche Modelle, indem es Gewichte auf null treibt – besser, wenn du vermutest, dass nur wenige Features wichtig sind. L2 verteilt das Gewicht gleichmäßiger – besser, wenn die meisten Features etwas beitragen."
Produkt- und Business Case-Fragen
Hier stolpern technisch starke DS-Kandidaten oft. Der Interviewer testet hier nicht deine SQL-Kenntnisse – er testet dein Geschäftsurteil.
Metrik-Definitionsfragen
„Wie würdest du den Erfolg eines neuen Empfehlungsfeatures messen?"
Nenne nicht einfach eine Metrik. Strukturiere es:
- Welches Verhalten wollen wir fördern? (Längere Sessions, mehr Käufe)
- Was ist die primäre Metrik? (Click-through-Rate auf Empfehlungen)
- Was sind die Leitplanken-Metriken? (Lass uns CTR nicht auf Kosten der Session-Qualität optimieren)
- Welche Gegenmetriken schützen vor Manipulation? (Wenn CTR steigt, aber Konversion sinkt, misleaden wir Nutzer)
Experiment-Design-Fragen
„Wie würdest du einen A/B-Test für eine Änderung am Checkout-Flow durchführen?"
Decke ab: Randomisierungseinheit (Nutzer vs. Session), Control/Treatment-Split, minimal detektierbarer Effekt, Testdauer, Analysemethode und wie du Neuheitseffekt-Bias behandelst.
Verhaltensrunde: Wo DS-Kandidaten Punkte liegenlassen
Die meisten DS-Kandidaten verbringen 90% ihrer Vorbereitung auf technische Fragen und erscheinen unvorbereitet für Verhaltensrunden. Das ist ein Fehler – auf Senior Level sind Verhaltensrunden Eliminierungsrunden, keine Formalitäten.
Die zentrale Verhaltensfrage für Data Scientists ist eine Variante von:
„Erzähl mir von einer Zeit, in der deine Analyse eine Geschäftsentscheidung beeinflusst hat."
Schwache Antwort: „Ich habe ein Churn-Vorhersagemodell erstellt und wir haben es genutzt, um gefährdete Nutzer anzusprechen."
Starke Antwort: „Unser Retention-Team hat 40% seines Outreach-Budgets für Nutzer ausgegeben, die eigentlich gar nicht wirklich gefährdet waren – nur wenig aktiv. Ich habe ein Churn-Modell erstellt, das tatsächliche Signale der Kündigungsabsicht von natürlicher Inaktivität unterschied. Wir segmentierten die Outreach-Liste mit dem Modell. Innerhalb eines Quartals erzielten wir die gleichen Retention-Ergebnisse bei 35% niedrigeren Outreach-Kosten. Die Präzision des Modells war hier wichtiger als der Recall, weil wir budget- und nicht reichweitenbeschränkt waren."
Der Unterschied: Die starke Antwort quantifiziert Geschäftswirkung, erklärt das Trade-off-Urteil und verbindet die technische Entscheidung mit Geschäftsbeschränkungen.
Die 48-Stunden-Checkliste vor dem Interview
- Überprüfe die 10 häufigsten Wahrscheinlichkeits-Denkaufgaben (Monty Hall, Münzwürfe, Geburtstagsparadoxon)
- Lies deinen Lebenslauf erneut und sei bereit, bei jedem aufgelisteten Projekt in die Tiefe zu gehen
- Bereite 2–3 Verhaltensgeschichten mit quantifizierter Geschäftswirkung vor
- Überprüfe SQL-Window-Funktionen – sie erscheinen in fast jedem DS-Screen
- Kenne die grundlegende Experiment-Design-Checkliste auswendig
Jetzt üben
Technische Vorbereitung ist notwendig, aber nicht ausreichend. Business- und Verhaltensrunden sind die Stellen, wo Interviews verloren gehen – und sie erfordern Live-Wiederholungen.