Preguntas de entrevista de ciencia de datos: qué esperar y cómo prepararte
Intención de búsqueda: Científicos de datos y analistas que son fuertes en lo técnico pero no saben cómo manejar las rondas de negocio y conductuales.
Cómo es un proceso de entrevista de ciencia de datos
Las preguntas de entrevista de ciencia de datos varían más que la mayoría de los roles porque el trabajo mismo varía. Antes de prepararte, clarifica qué tipo de rol de DS estás buscando:
- DS de producto/aplicado: Con fuerte énfasis en métricas, pruebas A/B, SQL y product sense
- DS orientado a ML engineering: Ingeniería de características, despliegue de modelos, diseño de experimentos
- DS de investigación: Estadística, teoría de ML, diseño de algoritmos
La mayoría de los procesos incluyen 4–5 rondas: una prueba técnica (estadística + probabilidad), SQL/código, caso de producto/negocio, fundamentos de ML y conductual. Conocer la combinación te permite distribuir el tiempo de preparación correctamente.
Preguntas de entrevista de ciencia de datos: las rondas técnicas
Estadística y probabilidad
Estas preguntas evalúan tu intuición estadística, no tu capacidad de recordar fórmulas.
Tipos de preguntas comunes:
- Explica los p-valores y los intervalos de confianza sin jerga
- Diseña una prueba A/B para un cambio específico de producto
- ¿Cuál es la diferencia entre errores de Tipo I y Tipo II y cuándo importa más cada uno?
La clave: Conecta siempre los conceptos estadísticos con las decisiones de negocio. "Un umbral de significancia más bajo reduce los errores de Tipo I — menos falsos positivos — lo que importa cuando el coste de actuar sobre una señal falsa es alto, como lanzar una funcionalidad que degrada la retención."
SQL y código
Para roles de DS de producto, SQL es a menudo la prueba técnica principal. Espera:
- Funciones de ventana (RANK, LAG, LEAD)
- Consultas de análisis de cohortes
- Auto-joins y CTEs
- Agregaciones con condiciones (CASE WHEN)
Para roles adyacentes a ML, el código en Python es común: implementa un paso de descenso de gradiente, escribe una función de k-means desde cero o manipula un DataFrame de pandas.
Fundamentos de ML
Los entrevistadores evalúan si entiendes la intuición detrás de los modelos, no solo cómo llamar a sklearn.fit().
Preguntas para las que debes estar listo:
- Explícame cómo funciona el gradient boosting
- ¿Cuándo usarías regresión logística en lugar de un random forest?
- Tu modelo tiene alta precisión pero el negocio no está contento — ¿qué podría estar mal?
- ¿Cómo manejas el desbalance de clases?
- Explica la regularización y cuándo es apropiado L1 frente a L2
La trampa: explicar demasiado las matemáticas. Quieren: "L1 produce modelos dispersos llevando los pesos a cero — mejor cuando sospechas que solo unas pocas características importan. L2 distribuye el peso más uniformemente — mejor cuando la mayoría de las características aportan algo."
Preguntas de producto y caso de negocio
Aquí es donde los candidatos técnicamente fuertes suelen tropezar. El entrevistador no evalúa tus habilidades de SQL aquí — está evaluando tu criterio de negocio.
Preguntas de definición de métricas
"¿Cómo medirías el éxito de una nueva funcionalidad de recomendaciones?"
No solo nombres una métrica. Estructura tu respuesta:
- ¿Qué comportamiento intentamos impulsar? (sesiones más largas, más compras)
- ¿Cuál es la métrica primaria? (tasa de clics en recomendaciones)
- ¿Cuáles son las métricas de guardia? (no optimizar el CTR a costa de la calidad de la sesión)
- ¿Qué contramétrica protege contra el gaming? (si el CTR sube pero la conversión baja, estamos engañando a los usuarios)
Preguntas de diseño de experimentos
"¿Cómo ejecutarías una prueba A/B para un cambio en el flujo de checkout?"
Cubre: unidad de aleatorización (usuario vs. sesión), división control/tratamiento, efecto mínimo detectable, duración de la prueba, método de análisis y cómo manejarías el sesgo de efecto novedad.
Preguntas conductuales: donde los candidatos de DS dejan puntos sobre la mesa
La mayoría de los candidatos de DS dedica el 90% de su preparación a preguntas técnicas y llega sin preparar para las rondas conductuales. Esto es un error — a niveles sénior, las rondas conductuales son rondas de eliminación, no formalidades.
La pregunta conductual central para científicos de datos es alguna variante de:
"Cuéntame de una vez que tu análisis influyó en una decisión de negocio."
Respuesta débil: "Construí un modelo de predicción de abandono y lo usamos para contactar a usuarios en riesgo."
Respuesta sólida: "Nuestro equipo de retención estaba gastando el 40% de su presupuesto de contacto en usuarios que realmente no estaban en riesgo — solo tenían poca actividad. Construí un modelo de abandono que identificaba señales reales de intención de cancelación frente a la dormancia natural. Segmentamos la lista de contacto usando el modelo. En un trimestre, vimos los mismos resultados de retención con un 35% menos de coste de contacto. La precisión del modelo era más importante que el recall aquí porque teníamos restricciones de presupuesto, no de alcance."
La diferencia: la respuesta sólida cuantifica el impacto de negocio, explica el criterio de compromiso y conecta la decisión técnica con las restricciones de negocio.
Lista de verificación de las 48 horas previas a la entrevista
- Repasa las 10 acertijos de probabilidad más comunes (problema de Monty Hall, lanzamientos de moneda, problema del cumpleaños)
- Relee tu CV y prepárate para profundizar en cada proyecto que listaste
- Prepara 2–3 historias conductuales con impacto de negocio cuantificado
- Repasa las funciones de ventana de SQL — aparecen en casi todas las pruebas de DS
- Conoce de memoria la lista de verificación básica de diseño de experimentos
Practica ahora
La preparación técnica es necesaria pero no suficiente. Las rondas de negocio y conductuales son donde se pierden las entrevistas — y requieren práctica en vivo.