Probabilidad y Estadística

Distribución Normal

La campana de Gauss: el fundamento de Black-Scholes, la teoría de portafolios moderna y de prácticamente todos los modelos estadísticos clásicos en finanzas.

La Campana y sus Parámetros

La distribución normal —también llamada gaussiana por Carl Friedrich Gauss, o simplemente "campana" por su forma— es la distribución probabilística más importante en estadística. Es completamente caracterizada por solo dos parámetros: la media μ (mu) que determina dónde está centrada, y la desviación estándar σ (sigma) que determina cuán ancha es. Su fórmula de densidad probabilística es: f(x) = (1 / σ√(2π)) × e^(-(x-μ)² / 2σ²). La campana es simétrica respecto a μ, tiene su pico en μ, y decae exponencialmente hacia ambos lados. El área total bajo la curva es 1 (como toda distribución probabilística). Su importancia en finanzas y en general deriva del Teorema Central del Límite (TCL): la suma (o promedio) de muchas variables aleatorias independientes, cada una con distribución arbitraria, converge a una distribución normal. Esto es lo que hace a la normal ubicua: promedios de mediciones experimentales, alturas de personas, errores en IC engineering, retornos de portafolios diversificados —todos tienden a ser normales. En pricing de opciones, Black-Scholes asume que los log-returns son normales (equivalente a asumir que los precios son lognormales, ver siguiente concepto). Esta asunción es matemáticamente elegante y analíticamente tratable, lo cual permitió que el modelo de 1973 se implementara en calculadoras básicas. Pero como exploraremos, la realidad se desvía de la normal de formas importantes.

Media, Mediana y Moda

En una distribución normal, los tres "indicadores de tendencia central" —media, mediana y moda— coinciden exactamente. La media es el promedio matemático, la mediana es el valor central (50% de los datos abajo, 50% arriba), y la moda es el valor más frecuente. En distribuciones simétricas como la normal, todos son iguales. En distribuciones asimétricas (como la lognormal de precios financieros, o las distribuciones de retornos con skew negativo), estos tres indicadores divergen y cada uno cuenta una historia distinta. La moda es el resultado más probable en cualquier single observation; la mediana es útil para distribuciones con outliers grandes (el ingreso mediano de una ciudad es más representativo que el promedio si Jeff Bezos vive ahí); la media es el centro de masa y lo que usarías para calcular valores esperados. Una propiedad importante de la normal: conocer la media y la desviación estándar te da toda la información sobre la distribución. No necesitas saber nada más. Esta parsimonia es matemáticamente bella pero peligrosa en finanzas —implica asumir que la realidad tiene la misma elegancia, lo cual frecuentemente no es el caso. Cuando un analista dice "retornos con media 8% y σ 15%", está implícitamente asumiendo que la distribución es normal; si no lo es (y rara vez lo es), dos distribuciones con esos mismos parámetros pueden tener muy distinto comportamiento en las colas y por tanto muy distinto riesgo.

68-95-99.7 Revisitado con Matemática Exacta

La regla empírica 68-95-99.7 es una aproximación. Los valores exactos de probabilidad dentro de ±Nσ de la media son: 1σ → 68.27%, 2σ → 95.45%, 3σ → 99.73%, 4σ → 99.994%, 5σ → 99.99994%, 6σ → 99.9999998%. Esta caída exponencialmente rápida en la probabilidad de colas es conocida como la "thin tails" de la distribución normal. Un evento 5σ debería ocurrir aproximadamente una vez en 1.7 millones de eventos. En trading diario (252 días al año), esto es una vez cada 6,800 años. Sin embargo, en la historia real de los mercados financieros, eventos 5σ según modelos con σ constante ocurren varias veces por década. Esta es la principal crítica empírica a modelos que asumen normalidad: subestiman sistemáticamente el riesgo de cola. Ejemplos históricos famosos: Black Monday 1987 fue ~22σ según asunciones normales (probabilidad 10⁻¹⁰⁷ bajo normal, menos probable que cualquier evento físico en la edad del universo); COVID crash marzo 2020 varios eventos de 3-4σ consecutivos; flash crash 2010. La realidad es que las colas de las distribuciones financieras son fat (gordas), siguen más bien distribuciones tipo Student-t, Cauchy, o Lévy stable. Modelos más sofisticados como jump-diffusion de Merton (1976) o variance gamma de Madan intentan capturar mejor estas colas, pero al costo de mayor complejidad matemática.

Por Qué los Retornos NO son Normales (realidad empírica)

A pesar de la pretendida elegancia del asumido normal en Black-Scholes, la realidad empírica de los retornos financieros muestra desviaciones sistemáticas. (1) Fat tails —eventos extremos (tanto up como down) ocurren mucho más frecuentemente que lo predicho por la normal. La kurtosis de retornos daily de SPX es aproximadamente 10-20, vs. 3 que tendría una normal. (2) Skewness negativo —los retornos financieros tienden a tener colas más largas al downside; los crashes son más abruptos que los rallies. Skewness típico de SPX mensual: −0.5 a −1.0 (vs. 0 de la normal). (3) Volatility clustering —los retornos son heteroscedásticos; períodos de alta volatilidad se agrupan (post-Lehman, COVID) y períodos calmados también. La volatilidad no es una constante σ sino un proceso estocástico propio. Modelos como GARCH y SV (Stochastic Volatility) intentan capturar esto. (4) Correlaciones tiempo-dependientes —los retornos de un día NO son completamente independientes del anterior; hay autocorrelación en volumen y autocorrelación en volatilidad absoluta (aunque la autocorrelación en retornos signados es débil en mercados eficientes). (5) Regime changes —la media y varianza no son constantes sino que cambian entre regímenes (bull/bear, high-vol/low-vol). La consecuencia práctica: modelos que asumen normalidad como único enfoque subestiman drawdowns máximos, subestiman tail risk, y overestimate diversification benefits bajo stress.

Aplicación en Precios de Opciones

A pesar de sus imperfecciones, la distribución normal es la base de la mayoría de los modelos de valoración de opciones. Black-Scholes asume que los log-returns instantáneos son normales con media (r − σ²/2) y desviación estándar σ. Equivalentemente, los precios futuros son lognormales. Esta asunción permite derivar la famosa fórmula analítica cerrada para pricing. Los términos clave d₁ y d₂ en Black-Scholes son transformaciones de la distribución normal estándar: N(d₂) es la probabilidad de que la opción termine ITM; S·N(d₁) es el expected value del subyacente en caso de ejercicio. Todo el pricing colapsa a evaluar áreas bajo la campana normal. Las modificaciones al modelo para acomodar realidad empírica incluyen: (1) volatility smile/skew —en lugar de σ constante, usar una función σ(K, T) calibrada a precios de mercado; (2) modelos con saltos —Merton (1976), Kou, que añaden un término de Poisson jumps sobre la diffusion normal; (3) modelos estocásticos de volatilidad —Heston (1993), SABR, Bates, donde σ mismo sigue un proceso estocástico; (4) modelos no-paramétricos basados en density implícita del mercado. Los profesionales de market making usan versiones sofisticadas de estos; los retail traders pueden operar con Black-Scholes básico suplementado por intuición sobre skew y fat tails.

Distribución Normal Estándar y Tablas

La distribución normal estándar es la normal con media 0 y desviación estándar 1 (N(0,1)). Se denota con la letra Z. Es conveniente porque cualquier normal N(μ, σ²) se puede estandarizar a Z mediante la transformación Z = (X - μ) / σ. Las tablas estadísticas clásicas tabulan probabilidades de la Z-distribution para evitar calcular la integral de la densidad en cada caso. Los valores críticos más memorizables: z = 1.0 → 84.13% (área a la izquierda), z = 1.645 → 95% (valor crítico para test one-tail 5%), z = 1.96 → 97.5% (crítico two-tail 5%), z = 2.326 → 99%, z = 2.58 → 99.5%, z = 3.09 → 99.9%. Estos valores aparecen en: (1) confidence intervals (95% CI = media ± 1.96σ/√n); (2) hypothesis testing (rechazar H₀ si |z| > 1.96 al 5%); (3) Value at Risk (VaR 95% = -1.645σ × portfolio value, aproximadamente). En Excel, la función NORM.S.DIST(z, TRUE) da la probabilidad acumulada; NORM.S.INV(p) da el z-value para un percentile dado. En Python, scipy.stats.norm.cdf() y norm.ppf(). La normal estándar es el "building block" con el que se construyen prácticamente todos los tests estadísticos clásicos, intervalos de confianza, y tests de normalidad (Shapiro-Wilk, Jarque-Bera).