Bondad de ajuste
Indicadores de bondad de ajuste estadístico
Resumen de indicadores de bondad de ajuste.
Bondad de Ajuste - Indicadores de bondad
La bondad de ajuste es una herramienta estadística que nos permite evaluar qué tan bien un conjunto de datos observados se ajusta a una distribución teórica esperada.
En otras palabras, nos ayuda a determinar si nuestros datos se comportan de la manera que esperamos según un modelo teórico.
Ejemplo:
Imaginemos que tenemos un rompecabezas. la bondad de ajuste sería una medida de qué tan bien encajan todas las piezas del rompecabezas y si la imagen final es clara y coherente.
Utilidad
Validación de modelos: Nos permite verificar si un modelo estadístico (por ejemplo, una distribución normal, binomial o Poisson) es adecuado para describir nuestros datos.
Detección de anomalías: Si los datos no se ajustan bien al modelo, puede indicar la presencia de factores no considerados en el modelo, como errores de medición o cambios en las condiciones experimentales.
Toma de decisiones: Los resultados de la prueba de bondad de ajuste pueden influir en las decisiones que tomamos, como la selección de un modelo estadístico para realizar inferencias o la interpretación de los resultados de un experimento.
ajusta a los datos observados. En términos simples, se utiliza para determinar si los datos que has recopilado coinciden razonablemente con lo que predice un modelo teórico o una distribución estadística.
Tipos de pruebas de bondad de ajuste:
Prueba de Chi-cuadrado (χ²): Es una de las pruebas más comunes para evaluar la bondad de ajuste. Se utiliza para comparar las frecuencias observadas en las categorías de un experimento con las frecuencias esperadas según un modelo teórico. Se utiliza en datos categóricos.
Prueba de Kolmogorov-Smirnov (K-S): Esta prueba se usa para comparar una muestra con una distribución teórica continua. Evalúa la distancia máxima entre la función de distribución acumulada empírica de los datos y la función de distribución teórica.
Prueba de Anderson-Darling: Similar a la prueba de K-S, pero pone más énfasis en las colas de la distribución (es decir, los valores extremos).
Usos y aplicaciones:
Distribuciones teóricas: Para verificar si los datos siguen una distribución específica, como la normal, la binomial o la multinomial.
Modelos estadísticos: Para determinar si un modelo estadístico, como un modelo de regresión, explica bien los datos observados.
Ejemplo:
Se tienen los resultados de lanzar un dado y se pretende verificar si el dado es justo (es decir, si las probabilidades de obtener cualquier número del 1 al 6 son iguales). Usarías una prueba de bondad de ajuste (como Chi-cuadrado) para comparar las frecuencias observadas de cada número con las frecuencias esperadas bajo la hipótesis de un dado justo. En este ejemplo las frecuencias observadas y eséradas al lanzar un dado 60 veces son:
Observado=[8,12,10,15,9,6]
Esperado=[10,10,10,10,10,10]
Este ejemplo se calcula y comparte en jupyter notebook en github.
Prueba de Chi-cuadrado (χ²):
Si las diferencias entre las frecuencias observadas y las esperadas son pequeñas, entonces el modelo tiene un buen ajuste; si son grandes, el ajuste es malo. La fórmula es:
χ² = ∑(Oi - Ei)²/Ei
Donde Oi son las frecuencias observadas y Ei las esperadas.
Prueba de Kolmogorov-Smirnov (K-S):
La prueba de Kolmogorov-Smirnov (K-S) compara la función de distribución acumulada (CDF) de una muestra de datos con una CDF teórica de una distribución específica (como la normal, uniforme, exponencial, etc.). Evalúa la máxima diferencia absoluta entre estas dos funciones. La fórmula es:
D=max∣Fn(x)−F(x)∣
Donde:
Fn(x) es la función de distribución acumulada empírica (CDF) basada en los datos observados.
F(x) es la función de distribución acumulada teórica de la distribución con la que estás comparando (por ejemplo, la normal).
D es la máxima diferencia absoluta entre las dos funciones.
La idea es que, si las diferencias entre la CDF observada y la teórica son grandes (es decir, si D es grande), entonces es probable que los datos no sigan la distribución teórica.
Prueba de Anderson-Darling:
La prueba de Anderson-Darling es una mejora de la prueba K-S que da más peso a las diferencias en las colas de la distribución, lo que la hace más sensible a las diferencias en los extremos de los datos. La fórmula es:
A2=−n−1/n ∑i=1,n ((2i−1)[lnF(Xi)+ln(1−F(Xn+1−i))])
Donde:
n es el número de observaciones.
Xi son los valores ordenados de la muestra (de menor a mayor).
F(Xi) es la CDF teórica de la distribución evaluada en Xi.
Comparación de las pruebas K-S y A-D
K-S se enfoca en la diferencia máxima entre las distribuciones observada y teórica.
Anderson-Darling tiene un enfoque más detallado en las colas, lo que la hace más potente en detectar desviaciones en los extremos de la distribución.
Ambas pruebas se utilizan para evaluar si una muestra proviene de una distribución específica, pero Anderson-Darling suele ser preferida cuando las colas de la distribución (valores extremos) son importantes.
Indicadores de bondad de ajuste
Los indicadores de bondad de ajuste están presentes en todos los modelos estadísticos, podemos agrupar los más utilizados de acuerdo al modelo que se esté utilizando:
1. Indicadores en Modelos de Regresión (Lineal y No Lineal)
Estos modelos predicen una variable dependiente continua a partir de una o más variables independientes. Aquí los indicadores se centran en evaluar la discrepancia entre los valores predichos y observados.
R-cuadrado (R²):Indica la proporción de la variabilidad de la variable dependiente que es explicada por el modelo.
Varía entre 0 y 1, donde 1 indica un ajuste perfecto.
Limitación: No penaliza por la complejidad del modelo (es decir, añadir más variables siempre incrementa el R²).
R-cuadrado ajustado:Similar a R², pero ajusta por el número de variables independientes en el modelo. Penaliza modelos que incluyen muchas variables sin mejorar realmente el ajuste.
Utilizado cuando se comparan modelos con diferentes números de predictores.
Error Cuadrático Medio (MSE):
Mide el promedio de los cuadrados de las diferencias entre los valores predichos y observados.
MSE=1/n ∑(yi−yi^)²
Donde yi son los valores observados y yi^ son los valores predichos.
Un MSE más bajo indica un mejor ajuste.
Raíz del Error Cuadrático Medio (RMSE):
Es la raíz cuadrada del MSE, interpretada en las mismas unidades que la variable dependiente, facilitando la comprensión de la magnitud del error.
SEE (Standard Error of the Estimate)
El SEE (Error Estándar de la Estimación) es una medida de la dispersión de los errores en un modelo de regresión. Se calcula de manera similar al RMSE, pero el SEE se ajusta por el número de parámetros del modelo (grados de libertad).
SEE=√(∑(yi−y^i)/(n−p)
Donde:
n es el número de observaciones.
p es el número de parámetros estimados en el modelo, incluyendo la intersección.
Propósito: El SEE mide la dispersión de los errores residuales en un modelo de regresión, ajustando por el número de parámetros del modelo.
Interpretación: Al igual que el RMSE, un SEE más bajo indica un mejor ajuste. El SEE se ajusta por la cantidad de variables en el modelo, por lo que penaliza modelos más complejos.
Diferencias clave:
El RMSE se calcula sin tener en cuenta el número de parámetros del modelo.
El SEE se ajusta para reflejar el número de variables en el modelo, lo que lo convierte en una versión ajustada del RMSE.
Error Absoluto Medio (MAE):
Mide el promedio de las diferencias absolutas entre los valores observados y predichos. Es menos sensible a valores atípicos que el MSE.
2. Indicadores de Modelos de Clasificación
En los modelos de clasificación, el objetivo es predecir una variable categórica (como "aprobado" o "reprobado"). Los indicadores de bondad de ajuste en este caso evalúan qué tan bien el modelo clasifica correctamente los datos.
Precisión (Accuracy):
Es la proporción de instancias correctamente clasificadas por el modelo.
Accuracy=Instancias Correctamente Clasificadas/Total de InstanciasAccuracy
Es fácil de interpretar, pero puede ser engañosa si las clases están desbalanceadas.
Matriz de confusión:
Una tabla que muestra cuántos ejemplos de cada clase fueron correctamente o incorrectamente clasificados, separando entre verdaderos positivos (TP), falsos negativos (FN), falsos positivos (FP), y verdaderos negativos (TN).
Curva ROC y AUC (Área Bajo la Curva):
La curva ROC traza la tasa de verdaderos positivos (sensibilidad) contra la tasa de falsos positivos (1 - especificidad) para diferentes umbrales de clasificación.
El AUC mide el área bajo la curva ROC y es un resumen de la capacidad del modelo para distinguir entre clases. Un AUC de 0.5 indica un modelo que no es mejor que el azar, mientras que un AUC de 1 es perfecto.
3. Indicadores de Bondad de Ajuste para Datos Categóricos
Para datos categóricos, los indicadores de bondad de ajuste evalúan si las proporciones observadas se ajustan a las proporciones esperadas según una distribución teórica.
Prueba Chi-cuadrado de Bondad de Ajuste:
Se usa para determinar si las frecuencias observadas en una muestra se ajustan a una distribución esperada.
χ2=∑(Oi−Ei)²
Donde Oi son las frecuencias observadas y Ei son las frecuencias esperadas.
Si el valor calculado excede un valor crítico (basado en los grados de libertad), se rechaza la hipótesis de que los datos se ajustan a la distribución esperada.
4. Modelos de Distribuciones Probabilísticas
Estos modelos evalúan si los datos observados provienen de una distribución específica, como la normal o la binomial.
Prueba de Kolmogorov-Smirnov (K-S):
Evalúa si una muestra sigue una distribución específica (normal, uniforme, etc.). Calcula la mayor diferencia entre la función de distribución acumulada observada y la teórica.
Prueba Anderson-Darling:
Similar a la prueba K-S, pero da más peso a las diferencias en los extremos de la distribución. Se utiliza principalmente para pruebas de normalidad.
Prueba de Shapiro-Wilk:Utilizada específicamente para verificar si una muestra sigue una distribución normal. Se utiliza principalmente con tamaños de muestra pequeños.
5. Modelos de Regresión Logística (Clasificación Binaria)
La regresión logística predice una variable categórica binaria y usa distintos indicadores para evaluar el ajuste del modelo.
Deviance (Deviancia):
Es una medida de qué tan bien el modelo ajusta los datos, comparando la probabilidad del modelo con la probabilidad de un modelo "saturado" (el mejor ajuste posible).
Se usa para comparar modelos anidados (un modelo es una versión simplificada del otro).
Pseudo R-cuadrado:
Variedades de R² adaptadas a la regresión logística, como McFadden's R², que miden la proporción de la varianza explicada por el modelo, aunque su interpretación es diferente al R² de la regresión lineal.
Resumen
En resumen, la bondad de ajuste se mide con diferentes indicadores según el tipo de modelo:
Para modelos de regresión, se utilizan R2, SEE, MSE, RMSE, y MAE.
Para modelos de clasificación, la precisión, la matriz de confusión y AUC son las principales métricas.
Para datos categóricos, las pruebas Chi-cuadrado y K-S son comunes.
En modelos probabilísticos, pruebas como K-S, Anderson-Darling y Shapiro-Wilk determinan si los datos siguen una distribución específica.
Modelos de ecuaciones estructurales: Se utilizan índices como el CFI, TLI y RMSEA.
¿Cómo elegir el indicador adecuado?
La elección del indicador depende de:
Tipo de modelo: Cada modelo tiene sus propios indicadores específicos.
Objetivo del análisis: ¿Quieres explicar la variabilidad, hacer predicciones o identificar relaciones causales?
Tipo de datos: ¿Los datos son continuos, discretos o categóricos?
Supuestos del modelo: ¿Se cumplen los supuestos del modelo?
En resumen, los indicadores de bondad de ajuste son herramientas esenciales para evaluar la calidad de nuestros modelos estadísticos. Al elegir el indicador adecuado, podemos tomar decisiones más informadas sobre nuestros análisis y obtener resultados más confiables.
La bondad de ajuste es una medida que evalúa qué tan bien un modelo estadístico se