En nuestra serie artículos explicando conceptos interesantes del temario del examen CFA I que tienen un peso específico notable en el estudio, hoy hablamos del Teorema Central del Límite. Cualquier duda al respecto que os pueda surgir una vez leáis el contenido, dejadnos un comentario y nuestro preparador Francisco Parga Valle, CFA las responderá lo antes posible.
Hablaremos de la teoría del concepto entremezclado con ejemplos prácticos donde su aplicación es efectiva y nos deja claro todo su potencial.
Ya sabéis que el concepto de Teorema Central del Límite aparece en el Reading Probability Concepts, dentro del área del temario Quantitative Methods.
¡Vamos a ello!
Teorema Central del Límite: Definición
El Teorema Central del Límite (TLC) es un principio fundamental de la estadística que dice que, cuando tomamos muestras aleatorias repetidas de una población, la distribución de la media de esas muestras se aproximará a una distribución normal (campana de Gauss), independientemente de la forma de la distribución original, siempre que el tamaño de las muestras sea suficientemente grande.
Este teorema es importante porque nos permite hacer inferencias estadísticas y calcular probabilidades sobre datos reales, incluso si la población no sigue una distribución normal.
Dicha la teoría, vamos con un ejemplo práctico para ver exactamente un contexto aplicativo real del teorema del límite central:
Ejemplo práctico
Imaginad que queréis estudiar el tiempo que las personas pasan navegando en internet en un día, y la distribución original tiene una forma muy sesgada (con más personas en el rango bajo de tiempo). Al tomar muestras aleatorias de 30 personas y calcular la media de cada muestra, veréis que las medias de las muestras formarán una distribución mucho más parecida a una curva normal, incluso si la distribución original no lo era.
Ejemplo con números:
- Distribución original del tiempo en internet:
- Persona 1: 1 hora, Persona 2: 2 horas, Persona 3: 8 horas…
- Media de las muestras (n=30):
- Muestra 1: 4 horas, Muestra 2: 3.8 horas, Muestra 3: 4.1 horas…
- Las medias de las muestras formarán una distribución normal si repetimos el proceso muchas veces.
Desglose matemático del Teorema Central del Límite
El TLC establece que, dada una secuencia de variables aleatorias independientes e idénticamente distribuidas (i.i.d.) con media μ y varianza σ², la distribución de la media muestral de estas variables se aproxima a una distribución normal a medida que el tamaño de la muestra aumenta.
Formalmente:
Sea {X₁, X₂, …, Xₙ} una secuencia de variables aleatorias i.i.d. con E(Xᵢ) = μ y Var(Xᵢ) = σ² para todo i. Definimos la media muestral como:
X̄ = (X₁ + X₂ + … + Xₙ) / n
Entonces, cuando n tiende a infinito, la distribución de √n(X̄ – μ)/σ converge a una distribución normal estándar (N(0,1)).
Es decir:
√n(X̄ – μ)/σ → N(0,1) cuando n → ∞
Desglose de los elementos
Xᵢ: Cada variable aleatoria individual de la muestra.
n: Tamaño de la muestra.
X̄: Media muestral, es decir, el promedio de las n observaciones.
μ: Media poblacional, es decir, el valor esperado de cada variable aleatoria individual.
σ²: Varianza poblacional, es decir, la varianza de cada variable aleatoria individual.
N(0,1): Distribución normal estándar, con media 0 y desviación estándar 1.
Demostración Teorema Central del Límite con un ejemplo:
Supongamos que una población tiene los siguientes datos:
- Media poblacional (μ): 50
- Desviación estándar (σ): 10
Si tomamos muestras de tamaño n=25:
- : La media de las medias muestrales es igual a la media poblacional.
- : La varianza de las medias muestrales.
- .
La distribución de será aproximadamente normal con y .
Incluso si la población inicial es asimétrica o sesgada, al tomar suficientes muestras, las medias muestrales formarán una distribución normal.
Lo qué significa en términos prácticos
Incluso si las variables individuales no siguen una distribución normal, la distribución de la media muestral se acercará cada vez más a una distribución normal a medida que aumenta el tamaño de la muestra (convergencia a la normalidad).
La expresión √n(X̄ – μ)/σ estandariza la media muestral, convirtiéndola en una variable aleatoria con media 0 y varianza 1.
Para tamaños de muestra suficientemente grandes, podemos aproximar la distribución de la media muestral por una distribución normal, lo cual es muy útil para realizar inferencias estadísticas.
Aplicaciones del Teorema Central del Límite (TLC)
- Pruebas de hipótesis: Permite usar la estadística Z para contrastar hipótesis sobre medias poblacionales.
- Intervalos de confianza: Ayuda a calcular intervalos de confianza sobre la media poblacional.
- Modelado en finanzas: Muchas veces, los rendimientos diarios de los activos financieros no siguen una distribución normal, pero el TLC permite que el rendimiento promedio en un periodo largo sea tratado como normal.
Otro ejemplo visual del TCL
Imaginad que queremos analizar los rendimientos diarios de una acción particular. Supongamos que estos rendimientos diarios siguen una distribución desconocida, posiblemente sesgada o con colas pesadas.
Individualmente: Cada día, el rendimiento de la acción puede ser muy variable, con grandes ganancias o pérdidas.
En conjunto: Si tomamos muestras de, por ejemplo, 50 días consecutivos y calculamos el rendimiento promedio de cada muestra, algo interesante sucede: la distribución de estos promedios diarios tiende a una distribución normal, independientemente de la distribución original de los rendimientos diarios individuales.
¿Por qué esto es importante?
Predicciones: Al saber que la distribución de los promedios se aproxima a una normal, podemos utilizar la distribución normal para hacer inferencias sobre el rendimiento futuro de la acción. Por ejemplo, podemos calcular la probabilidad de que el rendimiento promedio de los próximos 50 días esté dentro de un cierto rango.
Valor en riesgo (VaR): El VaR es una medida clave en gestión de riesgos que nos indica la máxima pérdida potencial de una inversión en un determinado horizonte temporal con una cierta probabilidad. El TLC nos permite calcular el VaR de forma más precisa, asumiendo que la distribución de los rendimientos es aproximadamente normal.
Comparaciones: Podemos comparar los rendimientos promedio de diferentes acciones o índices bursátiles, y determinar si las diferencias observadas son estadísticamente significativas.
Conclusión
El Teorema Central del Límite es una de las bases de la estadística inferencial. Nos da la confianza de trabajar con distribuciones normales en muchos casos prácticos, incluso cuando los datos originales no lo son. Esto simplifica el análisis de datos y permite realizar predicciones más precisas en campos como economía, finanzas y ciencias sociales.
Aunque los datos individuales puedan ser muy variables o tener distribuciones extrañas, al tomar muestras suficientemente grandes y calcular sus promedios, la distribución de estos promedios se aproxima a una distribución normal. En finanzas, resulta una herramienta muy útil, ya que nos permite hacer inferencias estadísticas, construir modelos y tomar decisiones más informadas.
Cualquier duda o consulta sobre esta materia, dejadnos un comentario en el post y os responderemos lo antes posible.