Hipótesis de 2 Medias
Hipótesis relativa a dos medias. Muestras independientes, muestras dependientes, datos apareados.
Hipótesis relativas a dos medias. Diferentes abordajes.
Las pruebas de hipótesis relativas a dos medias son un conjunto de procedimientos estadísticos utilizados para comparar las medias de dos poblaciones o grupos distintos y determinar si existe una diferencia significativa entre ellas. Estas pruebas son fundamentales en la estadística inferencial y se aplican en una variedad de contextos, como en estudios médicos, investigaciones científicas, y análisis de mercado.
Al analzar un problema de hipótesis relativas a medias es importante entender el contexto, porque no es lo mismo cuando las muestras corresponden a poblaciones independientes o a poblaciones dependientes.
Contexto de las Hipótesis Relativas a Dos Medias
En el estudio estadístico se pueden presentar diversos problemas de estudio en el contraste de hipótesis. Estos diversos casos se pueden agrupar como se muestran en la figura.
Hay dos formas básicas en el contraste de hipótesis:
1. Poblaciones Independientes: Se comparan las medias de dos poblaciones que no están relacionadas entre sí.
Por ejemplo, comparar la media de ingresos de dos grupos de personas de diferentes ciudades.
2. Dependientes (Muestras Pareadas): Se comparan las medias de dos grupos que están emparejados o relacionados.
Por ejemplo, comparar el peso de personas antes y después de un tratamiento en un mismo grupo de individuos.
En el caso de poblaciones independientes existen cuatro o cinco variantes principales de cáclculo de acuerdo a las condiciones del estudio.: (1) Varianzas conocidas, (2) Varianzas desconocidas e iguales, (3) Varianzas desconosidas y desguales, (4) Muestras de gran tamaño. Y el en cuarto caso, las muestras de gran tamaño se pueden calcular por dos variantes (4.1) Muestras con varianzas poblacionales conocidas, (4.2) Muestras con varianzas poblaconales desconocidas.
Todos estos escenarios conducen a variantes de cáclulo que son analogas o similares.
En efecto, los criterios para hacer las pruebas de las aseveraciones son los mismos y la metodología también, lo que cambian son las formulas. Y las formulas cambian en base a los datos disponibles para hacer las inferencias.
Por esto es imporante enteder el contraste de hipótesis sobre medias partiendo de ejemplos sencillos para luegor ir viendo otras variantes de análisis y cálculo según sea el problema en estudio.
Formulación de Hipótesis
Para comparar dos medias, se plantean las siguientes hipótesis:
1. Hipótesis Nula: Establece que no hay diferencia entre las dos medias poblacionales. Es decir:
- Para poblaciones independientes: H0: µ1=µ2
- Para muestras pareadas: H0: µd=0 (donde µd es la media de las diferencias entre pares).
2. Hipótesis Alternativa: Establece que existe una diferencia entre las dos medias poblacionales. Dependiendo de la dirección de la prueba, se puede plantear como:
- Prueba bilateral (dos colas): H1: µ1≠µ2
- Prueba unilateral (una cola):
- H1: µ1<µ2
- H1: µ1>µ2
Pruebas Estadísticas para Comparar Dos Medias
1. Prueba t de Student para Medias Independientes
Requisitos:
Las muestras son independientes.
Las poblaciones siguen una distribución normal.
Las varianzas poblacionales son iguales o desiguales (dependiendo del test específico: t-test para varianzas iguales o t-test de Welch para varianzas desiguales).
Estadístico de prueba:
t =(x̅1- x ̅2) / √{s^2p (1/n1 + 1/n2)}
donde ( s^2p ) es la varianza combinada ponderada si se asume varianzas iguales.
Decisión:
Se compara el valor calculado de t con el valor crítico de la distribución t para los grados de libertad correspondientes.
2. Prueba t para Muestras Pareadas
Requisitos:
Las observaciones están emparejadas (es decir, cada par de observaciones se relaciona de alguna manera, como las mediciones antes y después en el mismo sujeto).
La diferencia de los pares sigue una distribución normal.
Estadístico de prueba:
t =(d ̅) / sd √n
donde:
d ̅ es la media de las diferencias entre pares,
sd es la desviación estándar de las diferencias, y
n es el número de pares.
Decisión:
Se compara el valor calculado de t con el valor crítico de la distribución t.
Ejemplo Simple
Comparar el rendimiento promedio de dos grupos de estudiantes que han utilizado diferentes métodos de estudio:
Grupo 1: 50 estudiantes con un método tradicional.
Grupo 2: 45 estudiantes con un método innovador.
Hipótesis:
H0: µ1=µ2. No hay diferencia en el rendimiento promedio.
H1: µ1≠µ2. Hay una diferencia en el rendimiento promedio.
Después de calcular las medias, las varianzas, y realizar la prueba t para muestras independientes, determines si hay evidencia suficiente para rechazar la hipótesis nula y concluir si el método innovador tiene un efecto diferente en el rendimiento promedio de los estudiantes.
Este análisis permite tomar decisiones informadas sobre si las diferencias observadas entre dos grupos son estadísticamente significativas o simplemente debidas al azar.
Veamos entonces que resulta del analisis considerando los siguietnes datos:
Grupo 1 (método tradicional):
Media: 70
Desviación estándar: 10
Tamaño de la muestra: 50
Grupo 2 (método innovador):
Media: 75
Desviación estándar: 12
Tamaño de la muestra: 45
Calculos Interpretación de los resultados
Se realizan los calculos en jupyter notebook utilizando dos variantes: a) Scipy y b) Statsmodels. Este notebook está compartido en github.
Resultados con Scipy: Estadístico t: -1.1196 Valor p: 0.2658
Resultados con Statsmodels: Estadístico t: -1.1196 Valor p: 0.2658 y Grados de libertad: 92.9538
Estadístico t: Este valor nos indica la magnitud y dirección de la diferencia entre los grupos en unidades de error estándar.
Valor p: Este valor nos indica la probabilidad de observar una diferencia tan grande como la obtenida (o más grande) si la hipótesis nula es cierta.
Observaciones
Si el valor p es menor a 0.05, puedes concluir que hay una diferencia significativa entre los dos métodos de estudio. Pero resulta que el valor p es muco mayor que alfa, por lo que se infiere que no hay diferencia signigicativa entre los dos métodos de estudio.
Además, el gráfico mostrará las distribuciones de las puntuaciones de los estudiantes en ambos grupos, lo que puede ayudarte a visualizar las diferencias.
Los Grados de libertad (df): Representan el número de valores en los datos que son libres de variar. En el contexto de la prueba t, los grados de libertad se usan para determinar la distribución exacta de la estadística t. Las implicancias de los grados de libertado son los siguietnes:
Mayor precisión en la estimación: Los grados de libertad (df) están relacionados con el tamaño de las muestras y sus varianzas. Cuando los grados de libertad son altos, como en este caso, implica que las muestras son lo suficientemente grandes para que la distribución t se acerque a la distribución normal estándar. Esto significa que el estadístico t se distribuye de manera más precisa y confiable, lo que refuerza la validez del valor p obtenido.
Efecto en el valor p: Dado que el valor p es calculado a partir de la distribución t, los grados de libertad determinan cómo se calcula ese valor p. Con más grados de libertad, la distribución t tiene colas más delgadas, lo que significa que los valores extremos (como un valor t alto) son menos probables bajo la hipótesis nula. En este caso, con df de 92.9538, la distribución se aproxima mucho a una distribución normal, lo que implica que podemos confiar en que el valor p obtenido refleja con precisión la probabilidad de obtener un estadístico t igual o más extremo bajo la hipótesis nula.
Confianza en el resultado: Tener un número elevado de grados de libertad, como 92.9538, sugiere que las muestras son suficientemente grandes, lo que refuerza la fiabilidad del test. Aumenta nuestra confianza en que los resultados de la prueba (en este caso, que no hay diferencia significativa entre las medias) son válidos y no simplemente el resultado de la variabilidad en pequeñas muestras.
Conclusión
Dado que el valor p es alto (0.2658), no hay suficiente evidencia para rechazar la hipótesis nula, lo que sugiere que las medias de los dos grupos (método tradicional y método innovador) no son significativamente diferentes en este caso.
¿Cuándo los grados de libertad pueden poner en duda el análisis?
En general:
Grados de libertad bajos (por ejemplo, df < 10): Cuando los grados de libertad son muy bajos, el valor p obtenido puede ser menos confiable. Esto es porque con pocos grados de libertad, la distribución t tiene colas más gruesas, lo que hace que los valores extremos sean más probables bajo la hipótesis nula. En este caso, un valor p bajo podría no ser tan indicativo de una diferencia real, y un valor p alto podría estar sobreestimando la falta de evidencia en contra de la hipótesis nula.
Grados de libertad moderados (entre 10 y 30): Estos grados de libertad aún permiten obtener resultados relativamente confiables, pero con menor precisión en comparación con grados de libertad más altos. Aquí, aunque el valor p puede ser razonablemente confiable, puede ser necesario ser más cauteloso en la interpretación, especialmente si se encuentran cerca del umbral de significancia (como 0.05).
Inferencias acerca de dos medias
Al principio de este estudio sobre las hipótesis relativas a 2 medias decimos que hay diversas formas de estudiar las inferencias de acuerdo al caso, dependiendo de si son muestras independientes o apareadas, pero también dependiendo si se conocen, para las muestras independientes, las varianzas y si estas son iguales y por último dependiendo del tamaño de la muestra.
Se describen a continuación las principales características de los distintos escenarios que se pueden presentar y que son las que se muestran en el cuadro de la figura.
Muestras Independientes con Varianzas Conocidas: Desviaciones estándar de las poblaciones son conocidas. Se usa la distribución Z.
Muestras Independientes con Varianzas Desconocidas e Iguales: Varianzas muestrales se suponen iguales (S1^2 = S2^2). Se usa la distribución t con grados de libertad df=n1+n2−2. En este caso, Sp^2=(n1−1)S1^2+(n2−1)S2^2 es la varianza combinada.
Muestras Independientes con Varianzas Desconocidas y Desiguales: Varianzas muestrales se suponen diferentes (S1^2≠S2^2). Se usa la distribución t con grados de libertad de Welch.
Muestras Dependientes (Pareadas):Se mide la misma unidad antes y después o se hacen comparaciones pareadas. Se usa la distribución t con grados de libertad df=n−1.
Muestras Independientes con Gran Tamaño: Para grandes tamaños de muestra, la distribución Z se puede usar. Las desviaciones estándar pueden ser desconocidas pero σ1^2 y σ2^2 son aproximadas por S1^2 y S2^2.
En consecuencia se verán algunos de estos casos a continuación recordando que al principio de cada estudio es importante reconocer de que caso estamos intentando analizar.
Muestras independientes con 𝞂1 y 𝞂2 desconocidas y sin suposición de igualdad
Este es un caso muy frecuente.
Recordemos que dos muestras son independientes si los valores muestrales seleccionados de una población no están relacionados, apareados o asociados de alguna manera con los valores muestrales seleccionados de la otra población.
Es es el caso (3) de la figura, que presenta las siguietnes características o requisitos:
𝞂1 y 𝞂2 se desconocen y no se hace una suposición sobre la igualdad de 𝞂1 y 𝞂2.
Las dos muestras son independientes.
Ambas muestras son aleatorias simples.
Cualquiera o ambas de estas condiciones se satisfacen: los dos tamaños muestrales son grandes (con n1 >30 y n2>30) o ambas muestras provienen de poblaciones que tienen distribuciones normales.
En muestras pequeñas, el requisito de normalidad es menos estricto, en el sentido de que los procedimientos se comportan bien siempre y cuando no existan valores extremos ni grandes sesgos.
Estadístico:
Al no conocer el desvío de la población el estadistico apropiado paa el cáculo es el t.
Existen tres formas aproximadas de calculo del estadístico t que dependen de los datos que se disponga. Estas tres formulas se ven en la figura y dependen de:
si se conocen las medias, de las poblaciones o si se desconocen.
si se conocen las medias muestrales o si se desconocen.
Pero en los tres casos debe conocerse el valor de los desvíos s1 y s2.
Grados de libertad:
Como el estadistico t utilizado, en su distribución, utiliza los grados de libertad, podría necesitarse los grados de libertad que depende del tamaño de la muestra menos 1 pero en este caso hay dos tamaños de muestra. En consecuencia, en este caso, si es necesario que se definan los grados de libertad, existen dos opciones:
Se aproximan los grados de libertad en función del tamaño de la muestra más pequeña. Esta opción es usada en cálculos manuales.
Se calculan los grados de libertad en función de la formula gl de la figura. Esta opción es usada automáticamente en diversos programas y lenguajes de computación. Y en la mayoría de las aplicaciones se calcula de manera automática.
Intervalo de confianza:
Puesto que la prueba de hipótesis y el intervalo de confianza utilizan la misma distribución y el mismo error estándar, son equivalentes en el sentidode que dan como resultado las mismas conclusiones. En consecuencia, la hipótesis nula de µ1=µ2 (o µ1-µ2 = 0) puede probarse determinando si el intervalo de confianza incluye a 0. Para pruebas de hipótesis de dos colas con un nivel de significancia de 0.05, utilice un intervalo de confianza del 95%.
Ejemplo: Discriminación por edad
Los Revenue Commissioners de Irlanda realizaron un concurso de promoción. A continuación se muestran las edades de los solicitantes que tuvieron éxito y de los que no tuvieron éxito (según datos de “Debating the Use of Statistical Evidence in Allegations of Age Discrimination”, de Barry y Boland, American Statistician, vol. 58, núm. 2). Algunos de los solicitantes que no tuvieron éxito para obtener la promoción se quejaron de que hubo discriminación por edad en la competencia.
Edades de solicitantes sin éxito:
34, 37, 37, 38, 41, 42, 43, 44, 44, 45, 45, 45, 46, 48, 49, 53, 53, 54, 54, 55, 45, 45, 46, 48, 49, 53, 53, 54, 54, 55, 56, 57, 60
Edades de solicitantes con éxito:
27, 33, 36, 37, 38, 38, 39, 42, 42, 43, 43, 44, 44, 44, 45, 45, 45, 45, 46, 46, 43, 44, 44, 44, 45, 45, 45, 45, 46, 46, 47, 47, 48, 48, 49, 49, 51, 51, 52, 54
Maneje los datos como muestras de poblaciones más grandes y utilice un nivel de significancia de 0.05 para poner a prueba la aseveración de que los solicitantes sin éxito provienen de una población con una edad media mayor que la de los solicitantes exitosos. Con base en el resultado, ¿parece haber discriminación por la edad?
Una vez que verificamos que los requisitos se satisfacen, procedemos con la prueba de hipótesis; utilizaremos el método tradicional que se resume en la figura.
La aseveración de que en los solicitantes sin éxito tienen una edad media mayor que la edad media de los solicitantes con éxito se expresa simbólicamente como H1: µ1>µ2
Si la aseveración original es falsa, entonces H1: µ1=µ2
El nivel de significancia es a 0.05.
Puesto que tenemos dos muestras independientes y estamos probando una aseveración acerca de dos medias poblacionales, utilizamos una distribución t con el estadístico de prueba.
Los resultados de los calculos manuales con la formula de la figura y los cálculos con statmodels son:
Estadístico t (manual): 2.7351
Estadístico t (statsmodels): 2.7351
Valor p: 0.0041
Grados de libertad: 59.8888
Se realizan los calculos en jupyter notebook utilizando dos variantes: a) Scipy y b) Statsmodels. Este notebook está compartido en github.
Observaciones
Valor p: El valor p es 0.0001, que es menor que el nivel de significancia de 0.05.
Esto indica **que existe suficiente evidencia para rechazar la hipótesis nula**.
Interpretación:
Resultado: El resultado sugiere que la media de edad de los solicitantes sin éxito es significativamente mayor que la de los solicitantes exitosos, lo que podría ser un indicio de discriminación por edad en el proceso de selección.
Grados de libertad: Los grados de libertad calculados indican que el análisis es confiable, lo que refuerza la validez del resultado obtenido.
Conclusión
Este análisis permite concluir que podría haber discriminación por edad en este caso, dado que los solicitantes sin éxito tienen una media de edad significativamente mayor que los solicitantes exitosos.
Intervalo de confianza
Es sabido que el intervalo de confianza es una forma de reforzar el analisis y para este ejemplo los calculos dan los siguietnes resultados.
IC (manual): (1.024629645924667, 6.604158232863208)
IC (statsmodels): (1.024629645924667, 6.604158232863208)
Observación
El intervalo de confianza al 95% para la diferencia de las medias de edad entre los solicitantes sin éxito y los solicitantes con éxito es de aproximadamente (1.02,6.60).
Interpretación
Este intervalo de confianza sugiere que, con un 95% de confianza, la verdadera diferencia en las edades medias de los solicitantes sin éxito y con éxito se encuentra entre 1.02 y 6.60 años.
Dado que el intervalo de confianza es completamente positivo, esto respalda la conclusión de que los solicitantes sin éxito tienden a ser significativamente mayores que los solicitantes con éxito, lo que podría ser un indicio de discriminación por edad en el proceso de selección.
Inferencias a partir de datos apareados
Dos muestras son dependientes (o consisten en datos apareados) si los miembros de una muestra pueden utilizarse para determinar los miembros de la otra muestra. Para cada par de datos de valores muestrales, calculamos la diferencia entre los dos valores, y luego utilizamos esas diferencias muestrales para probar aseveraciones acerca de la diferencia poblacional o para construir estimados de intervalos de confianza para la diferencia poblacional.
En los datos apareados, existe alguna relación para que cada valor en una muestra se aparee con un valor correspondiente en la otra muestra. A continuación se presentan algunos ejemplos típicos de datos apareados:
Los datos muestrales son datos apareados de mediciones de colesterol de tipo proteínas de baja densidad (LDL), tomadas antes y después del tratamiento con Lipitor.
Ejemplo: LDL antes de Lipitor 182; LDL después de Lipitor 155.
Los datos muestrales son datos apareados de los índices de masa corporal (IMC) del esposo y de la esposa. Es decir, son datos apareados por pareja.
Ejemplo: IMC del esposo 25.1; IMC de la esposa 19.7.
Los datos muestrales son las estaturas de candidatos ganadores de la presidencia apareados con las estaturas de los candidatos que recibieron el segundo número más alto de votos.
Ejemplo: estatura de Truman 69 pulgadas; estatura de Dewey 68 pulgadas.
Puesto que la prueba de hipótesis y el intervalo de confianza utilizan la misma distribución y el mismo error estándar, son equivalentes en el sentido de que arrojan las mismas conclusiones. En consecuencia, la hipótesis nula de que la diferencia de la media es igual a 0 puede probarse determinando si el intervalo de confianza incluye a 0.
Requisitos
Los datos muestrales consisten en datos apareados.
Las muestras son aleatorias simples.
Cualquiera o ambas de estas condiciones se satisfacen:
el número de datos apareados de datos muestrales es grande (n>30) o
los pares de valores tienen diferencias que se toman de una población con una distribución aproximadamente normal.
Ejemplo: Prueba de hipótesis con temperaturas reales y pronosticadas.
Los datos que se muestran más abajo incluyen a cinco temperaturas mínimas reales y las correspondientes temperaturas mínimas que se pronosticaron cinco días antes (según datos registrados por el estadísta Mario Triola). Se trata de datos apareados, puesto que cada par de valores representa al mismo día.
Las temperaturas pronosticadas parecen ser muy diferentes de las temperaturas reales, pero ¿existe suficiente evidencia para concluir que la diferencia media no es de cero? Utilizamos un nivel de significancia de 0.05 para probar la aseveración de que existe una diferencia entre las temperaturas mínimas reales y las temperaturas mínimas pronosticadas cinco días antes.
Mínima real 54, 54, 55, 60, 64
Mínima pronosticada cinco días antes 56, 57, 59, 56, 64
Diferencia d real pronosticada -2, -3, -4, 4, 0
Este ejemplo se desarrolla en python en un jupyter notebook compartido en github.
Consideramos cada uno de los tres requisitos:
Datos apareados: Los datosmuestrales consisten en datos apareados referentes al mismo día. La temperatura real mínima es la temperatura que se registró el día en cuestión, y el otro valor es la temperatura mínima pronosticada para ese día cinco días antes.
En vez de tratarse de una muestra aleatoria simple, tenemos resultados de los primeros cinco días consecutivos del conjunto de datos. Éste podría ser un problema que surge de factores como un pronosticador sumamente malo (o bueno) que solamente hizo el pronóstico para esos cinco días. Supondremos que existe un sistema más general de pronóstico, y que los días son típicos de los que resultarían de una muestra aleatoria simple.
El número de datos apareados no es grande, por lo que debemos verificar la normalidad de las diferencias.
A continuación comenzamos con e proceso de calculo de inferencia:
Paso 1: La aseveración de que existe una diferencia entre las temperaturas mínimas reales y las temperaturas mínimas pronosticadas para cinco días puede expresarse como µd≠0.
Paso 2: Si la aseveración original no es verdadera, tenemos µd=0.
Paso 3: La hipótesis nula debe expresar igualdad y la hipótesis alternativa no puede incluir igualdad, por lo tanto, tenemos H0:µd=0 y H1:µd≠0.
Paso 4: El nivel de significancia es α=0.05.
Paso 5: Utilizamos la distribución t de Student.
Paso 6: Antes de calcular el valor del estadístico de prueba, primero debemos calcular los valores de d y s . d= –1.0 y Sd= 3.2. Utilizando estos estadísticos muestrales y la suposición de la prueba de hipótesis de que µd=0., ahora podemos calcular el valor del estadístico de prueba. Los valores críticos de t 2.776 se encuentran para un alfa de 0.05 (área en dos colas) con grados de libertad n- 1 4.
Paso 7: Puesto que el estadístico de prueba no cae en la región crítica, no rechazamos la hipótesis nula.
Interpretación
Los datos muestrales no ofrecen suficiente evidencia para sustentar la aseveración de que las temperaturas mínimas reales y pronosticadas para cinco días son diferentes. Esto no significa que las temperaturas reales y pronosticadas sean iguales. Quizá datos muestrales adicionales darían la evidencia necesaria para concluir que las temperaturas mínimas reales y pronosticadas son diferentes.
Método del valor P
Los resultados de este ejemplo se dan utilizando el método tradicional, pero se puede usar el método del valor P con python, con STATDISK, Excel, Minitab o la calculadora científica, se calcula el valor P, que es 0.5185. Una vez más, no rechazamos la hipótesis nula, puesto que el valor P es mayor que el nivel de significancia de a 0.05.
Intervalo de confianza con temperaturas reales y pronosticadas
Construimos un estimado de un intervalo de confianza del 95% de µd, que es la media de las diferencias entre las temperaturas mínimas reales y las temperaturas mínimas pronosticadas de cinco días. Interprete el resultado.
Utilizamos los valores d = -1.0, Sd=3.2, n 5 y t = 2.776. Primero calculamos el valor del margen de error E=4.0
Luego puede calcularse el intervalo de confianza.
d - E < µd > d + E
-1.0 - 4.0 < µd < -1.0 + 4.0
-5.0 < µd < 3.0
Interpretación
A la larga, el 95% de las muestras de este tipo conducirán a límites del intervalo de confianza que realmente no contienen la media poblacional real de las diferencias. Note que los límites del intervalo de confianza contienen a 0, lo que indica que el valor real de µd no es significativamente diferente de 0. No podemos concluir que existe una diferencia significativa entre las temperaturas mínimas reales y pronosticadas.
Referencias
Ejemplo simple en jupyter notebook en github.
Muestras independientes con 𝞂1 y 𝞂2 desconocidas y sin suposición de igualdad. Se realizan los calculos en jupyter notebook utilizando dos variantes: a) Scipy y b) Statsmodels. Este notebook está compartido en github.
Prueba de hipótesis con temperaturas reales y pronosticadas. Este ejemplo se desarrolla en python en un jupyter notebook compartido en github.