Hipótesis sobre Proporcion

Hipótesis relativa a una proporción

Hipótesis de proporciones

Las pruebas de hipótesis relativas a una proporción se utilizan para determinar si la proporción observada en una muestra difiere significativamente de una proporción poblacional específica. Este tipo de prueba es común en encuestas y estudios de opinión, donde se quiere comparar la proporción de individuos con una característica particular con un valor esperado o conocido.

Es decir, las hipótesis relativas a una proporción son aquellas en donde se hace inferencias sobre la proporción de una población, que luego se prueban.

Los siguientes son ejemplos de los tipos de aseveraciones que podremos someter a prueba:

Más del 50% de los empleados consiguen trabajo por medio de redes de contactos.
Los sujetos que toman el fármaco Lipitor, que reduce el colesterol, experimentan dolores de cabeza en una proporción mayor que el 7% registrado entre quienes no toman Lipitor.
El porcentaje de televidentes nocturnos que ven The Late Show with David Letterman es igual al 20%.

Cuando se estudian cuestiones de hipótesis relativas a una proporción, estas se pueden modelar con la distribución binomial aunque resulta frecuente utilizar metodos de aproximación normal. Esto es porque con el avance de la tecnología y los recursos computacionales si hizo posible utilizar la distribución adecuada para estos estudios que es la binomial. Mientras que años atras no se disponía de estas herramientas entonces se utilizaban aproximaciones normales o t-studen con la utilización de tablas y cáculos manuales.

Proceso y componentes de la Prueba de Hipótesis para una Proporción

1. Hipótesis Nula (H0) y Alternativa (Ha):

Hipótesis Nula: La proporción poblacional es igual a un valor específico. H0:p=p0
Hipótesis Alternativa: La proporción poblacional es diferente del valor específico (puede ser una prueba de dos colas, una cola superior o una cola inferior).
Ha:p≠p0 (dos colas)
Ha:p>p0 (cola superior)
Ha:p<p0 (cola inferior)

2. Estadístico de Prueba o valores directos

Antiguamente se utilizaba el estadístico z para comparar la proporción muestral con la proporción poblacional esperada. z=p^−p0/{sqrt{p0 (1 - p0)}/n}

donde:

p^ es la proporción muestral,
p0 es la proporción poblacional bajo la hipótesis nula y
n es el tamaño de la muestra.

En la actualidad y con herramientas estadisticas modernas y/o software como scipy se pueden untiliar los valores directos de las proporciones en contraste. Para esto se utiliza la distribución binomial con n y p0=proporción de H0. En lugar de usar la distribución normal estandar.

3. Valor Crítico y Región de Rechazo:

Determinar el valor crítico de la distribución normal estándar correspondiente al nivel de significancia (α alpha).

4. Decisión:

Comparar el estadístico de prueba con el valor crítico para determinar si se rechaza o no la hipótesis nula.

Ejemplo simple

Supongamos que una compañía afirma que el 60% de sus clientes están satisfechos con su servicio. Queremos probar esta afirmación con una muestra aleatoria de 100 clientes, de los cuales 55 indican que están satisfechos. Usaremos un nivel de significancia de α=0.05.

La Proporción muestral es entonces: p^=55/100 = 0.55

Pasos:

1. Formular las hipótesis:

H0:p=0.60 y Ha:p≠0.60

2. Calcular el estadístico de prueba:

Estadístico z=0.55−0.60/sqrt(0.60⋅(1−0.60)/100)=≈−1.02

3. Determinar el valor crítico:

Para un nivel de significancia de α=0.05 en una prueba de dos colas, los valores críticos son ±1.96.

4. Tomar una decisión:

Comparar z con los valores críticos: −1.96<−1.02<1.96
Como −1.02 no cae en la región de rechazo (∣z∣>1.96|), no se rechaza la hipótesis nula.

Conclusión sobre la hipótesis:

No hay suficiente evidencia para rechazar la afirmación de que el 60% de los clientes están satisfechos con el servicio de la compañía, basándonos en esta muestra.

Formas de cálculos directo o con estadísticos

Con los recursos computacionales modernos y herramientas como Python y SciPy, es más factible usar métodos exactos en lugar de aproximaciones. En muchos casos, especialmente con tamaños de muestra grandes o proporciones extremas, los métodos exactos (como la distribución binomial) son preferibles por su precisión. Sin embargo, hay algunas consideraciones a tener en cuenta:

Ventajas de Usar Métodos Exactos:

Precisión: Los métodos exactos proporcionan resultados precisos sin depender de aproximaciones que pueden introducir errores.
Computación Asequible: Con el poder de cómputo actual, calcular distribuciones exactas para tamaños de muestra grandes es generalmente manejable.
Evitación de Asunciones: Los métodos exactos no requieren las asunciones de normalidad que necesita la aproximación normal, especialmente importantes cuando las proporciones son extremas o las muestras pequeñas.

Ventajas de Usar Aproximaciones (Estadísticos de Prueba):

Rapidez en la Computación: Aunque menos relevante con los recursos actuales, las aproximaciones pueden ser más rápidas para muy grandes tamaños de muestra.
Simplicidad en la Enseñanza y Comunicación: Los métodos basados en la normal son ampliamente enseñados y entendidos, lo que facilita la comunicación de resultados.
Consistencia en Metodología: Usar estadísticos de prueba permite una metodología consistente a través de diferentes tipos de pruebas de hipótesis.

Otro Ejemplo:

Este ejemplo está desarrollado por las dos variantes de calculo o metodos alternativos:

El método binomial con los valores directos de las proporciones H0 y H1. Más preciso e intuitivo.
El método de aproximación normal estándar con estadistico de prueba. (Consume menos recursos)

El desarrollo y los calculos están compartidos en jupiter notebook en github.

Forma de consegir emlpeo: En una encuesta: de 703 empleados elegidos al azar, el 61% obtuvo trabajo por medio de redes de contactos.

Utilice los datos muestrales, con un nivel de significancia de 0.05, para probar la aseveración de que "la mayoría de los empleados (más del 50%) consiguen su trabajo por medio de redes de contactos".

El siguiente es un resumen de la aseveración y de los datos muestrales:

H0: Aseveración: La mayoría de los empleados consigue trabajo por medio de redes de contactos.
H1: Es decir, p > 0.5.

Datos muestrales:

n=703
pˆ=0.61

Claramente es un caso que se modela con base en una distribución de proporciones o binomial. Sin embargo también podría aproximarse con una distribución normal.

La resolución de este caso está documentada en un jopiter notebook en mi github.

De allí se desprenden los gráficos y las siguientes observaciones y conclusiones:

Observaciones

Con los dos métodos de cálculo (scipy binomial y aproximación normal), se obtienen los mismos resultados:

El estadístico de prueba está lejos **dentro de la zona crítica**
k(1-alfa) es menor que k(H1)
El valor del estadístico de prueba z es mayor que el valor Z(alfa)

La probabilidad p_value es lejos menor que la probabilidad alfa

con ambos métodos p_value = 2.752e-09 y esto es notablemente menor que 0.05
La hipótesis nula no resulta aceptable y dodría ser rechazada

Conclusiones

Hay suficiente evidencia para apoyar la aseveración de que la mayoría de los empleados (> 50%) consiguen su trabajo por medio de redes de contactos.

1/2