Distribución chi-cuadrado
Distribución Chi cuadrada
Distribución Chi-Cuadrado
La distribución chi-cuadrado (χ²) es una distribución de probabilidad continua que surge con frecuencia en estadísticas inferenciales, especialmente en el análisis de varianza y en pruebas de hipótesis.
Definición
La distribución chi-cuadrado se define como la distribución de la suma de los cuadrados de k variables aleatorias independientes que siguen una distribución normal estándar (media = 0, varianza = 1). Si Z1,Z2,…,Zk son variables aleatorias normales estándar, entonces la variable aleatoria:
X=∑Zi**2
sigue una distribución chi-cuadrado con k grados de libertad. dónde los grados de libertad determinan la forma.
Grados de libertad (k o df): Determina la forma de la distribución. Cuantos más grados de libertad, más se asemeja la distribución a una distribución normal.
Propiedades:
La distribución chi-cuadrado es no negativa: X≥0.
La media de una distribución chi-cuadrado con k grados de libertad es k.
La varianza de una distribución chi-cuadrado conk grados de libertad es 2k.
La distribución chi-cuadrado es asimétrica hacia la derecha, pero con grados de libertad altos, se aproxima a una distribución normal.
Función de Densidad de Probabilidad (PDF)
La función de densidad de probabilidad de una distribución chi-cuadrado con k grados de libertad es:
f(x;k)=1/{2**k/2 Γ(k/2)} x**(k/2)−1 e−x/2
donde:
Γ es la función gamma.
k es el número de grados de libertad.
x es la variable aleatoria (y x≥0).
Aplicaciones
Prueba de Bondad de Ajuste: La prueba chi-cuadrado se utiliza para determinar si una muestra de datos sigue una distribución esperada. Por ejemplo, para verificar si los datos observados siguen una distribución uniforme.
Prueba de Independencia: Se utiliza en tablas de contingencia para evaluar si dos variables categóricas son independientes entre sí.
Intervalos de Confianza para la Varianza: La distribución chi-cuadrado se utiliza para construir intervalos de confianza para la varianza de una población normalmente distribuida.
Intervalo de confianza con chi-cuadrado
Es posible construir el intervalo de confianza de la varianza, cuando no se conoce. Esto se logra con la utilización de la distribución chi-cuadrado a partir de la forma:
χ2 = (n-1) s**2 / 𝞂**2
donde:
df = n-1
Dado que la distribución chi cuadrada es sesgada y no simétrica, el intervalo de confianza no se ajusta al formato de s**2 = +-E y debemos hacer cálculos separados para los límites de confianza superior e inferior. De cualquier forma es el mismo cálculo solo que se toma cdf para la cola izquierda y 1-cdf para la cola derecha.
Es importante recordar aquí que estamos hablando de un intervalo de confianza para la varianza.
Las varianzas muestrales s2 tienden a coincidir con (o centrarse en) el valor de la varianza poblacional 𝞂2, por lo que decimos que s2 es un estimador sin sesgo de s2. Es decir, las varianzas muestrales s2 no tienden sistemáticamente a sobreestimar, ni tampoco tienden sistemáticamente a subestimar 𝞂2. En vez de ello, tienden a coincidir con el valor de la propia s2. Además, los valores de s2 tienden a producir errores más pequeños por estar más cercanos a s2 que otras medidas de variación sin sesgo. Por estas razones, generalmente se utiliza s2 para estimar s2. [Sin embargo, existen otros estimadores de s2 que po- drían considerarse mejores que s2. Por ejemplo, aun cuando (n 1)s2>(n 1) es unestimador sesgado de s2, tienela propiedad muydeseable de minimizar la media de los cuadrados de los errores y, por lo tanto, tiene una mayor probabilidad de acercarse a s2.
La varianza muestral s2 es el mejor estimado puntual de la varianza poblacional 𝞂2.
Puesto que s2 es un estimador sin sesgo de s2, esperaríamos que s fuera un estimador sin sesgo de s, pero no es así. Sin embargo, si el tamaño muestral es grande, el sesgo es tan pequeño que podemos utilizar s como un estimado de s razonablemente bueno. Aunque s es un estimado sesgado, se usa con frecuencia como un estimado puntual de s.
La desviación estándar muestral s suele utilizarse como un estimado puntual de 𝞂 (aunque es un estimado sesgado).
Si bien s2 es el mejor estimado puntual de 𝞂2, no existe una indicación de qué tan bueno es en realidad. Para compensar esta deficiencia, desarrollamos un estimado de intervalo (o intervalo de confianza) que es más informativo.
Intervalo de confianza (o estimado de intervalo) para la varianza poblacional 𝞂2
(n - 1)s2/ x2D < 𝞂2 < (n - 1)s2/ x2I
Esta expresión se utiliza para calcular un intervalo de confianza para la varianza 𝞂2, pero un intervalo de confianza (o un estimado de intervalo) para la desviación estándar 𝞂 se calcula tomando la raíz cuadrada de cada componente, como se indica en la figura.
Las notaciones x2D y x2I en las expresiones anteriores se describen como sigue: Son los valores de la X2 de las colas izquierda (I) y derecha (D), respectivamente que corresponden a alpha o nivel de confianza buscado. (Observe que algunos otros libros de texto utilizan otras notaciones.
Tamaño de la Muestra
Queremos determinar el tamaño de muestra nnn necesario para que la estimación de la desviación estándar esté dentro de un cierto margen de error con una confianza específica. La fórmula para el intervalo de confianza de la varianza se puede reorganizar para resolver el tamaño de muestra requerido. Esto es análogo a lo que se hace para la estimación de otros parametros como la media o la proporción, sólo que en el caso de varianzas y desviación estandard el despeje de la formula es más complejo. Por suerte existen librerías de python que ayudan al calculo sin tanto trabajo.