Distribución de Proporciones
Distribución de proporciones en las muestras.
Distribución de proporciones en las muestras.
Distribución de proporciones o distribución muestral de la proporción
La distribución muestral de la proporción es la distribución de probabilidad de proporciones muestrales, donde todas las muestras tienen el mismo tamaño muestral n y provienen de la misma población.
Propiedades de la distribución de proporciones muestrales
1. Las proporciones muestrales tienden a coincidir con el valor de la proporción poblacional.
Es decir, todas las proporciones muestrales posibles tienen a ser muy parecidad o igual a la proporción poblacional.
2. En ciertas condiciones, la distribución de la proporción muestral puede aproximarse por medio de una distribución normal.
Comprenderemos mejor el concepto de una distribución muestral de la proporción si consideramos algunos ejemplos específicos.
Ejemplo 1: Distribución muestral de la proporción de niñas en dos nacimientos
Este primer ejemplo es muy sencillo porque el tamaño de las muestras es igual a la población y ambas son muy pequeñas.
Cuando se eligen dos nacimientos al azar, el espacio muestral es hh, hm, mh, mm, donde h es hombre y m es mujer. Esto tambien lo pordíamos escribir como un espacio muestral de (0,1) donde 0 es mujer y 1 hombre, es decir [(0,0),(0,1),(1,0),(1,1)].
Por la sencillez del ejemplo puede suponerse, intuitivamente, que en una muestra como esta (0,1) :
+ la proporción de niñas en la población es 1/2
Observemos la tabla de detalle: esos cuatro resultados igualmente probables sugieren que:
la probabilidad de 0 niñas es de 0.25,
la probabilidad de una niña es de 0.50 y
la probabilidad de 2 niñas es de 0.25.
La imagen de proporciones, que se muestra indica la distribución de probabilidad del número de niñas, seguida por dos formatos diferentes (tabla y gráfica) que describen la distribución muestral de la proporción de niñas.
a. En la tabla **df** se listan las **cuatro* muestras diferentes posibles de tamaño **n=2** (sample),
+ obtenidas con reemplazo de la población de ['h','m'] de tamaño igual a 2.
+ Esta tabla también contiene:
+ '#nenas' : el número de mujeres que aperecen en cada muestra.
+ '#nenas/t_nenas': **proporción de mujeres sobre el total de mujeres** . (Varíará entre 0 y 1).
+ '#nenas/data' : proporción de mujeres sobre el total de mujeres de la muestra. (puede ser 0, 1/2, 1)
+ '#nenas/samples': probabilidad de encontrar una muestra como esta entre todas las muestras posibles.
+ Observe que: Como existen 4 muestras igualmente probables, cada muestra tiene una probabilidad de 1/4.
+ Observe que: **La media de la proporción de mujeres que aparecen en las muestras es igual a 1/2 (0.5)**
+ Esta es una distribución **proporcional** que se calcula como la **𝜇=∑ 𝑥 / m**,
+ dónde m es la cantidad de muestras (en este caso 4)
b. En la tabla **grouped_df** se resumen los resultados de las muestras que se pueden tomar.
+ Esto es porque la cantidad de mujeres que pueden encotrarse al tomar distintas muestras puede variar.
+ En las 4 muestras que se pueden sacar, se pueden encontar 0, 1 o dos mujeres. Como se ve en df.
+ En resumen, se pueden tomar 4 muestras distintas:
+ En una muestra no habrá ningúna mujer.
+ En dos muestras habrá sólo una niña.
+ En una muestras habrán dos mujeres.
+ La tabla df, nos da el detalle.
+ La tabla summary_df nos da el resumen.
+ Las graficas nos muestran las distribuciones de frecuencia y de proporciones.
Conclusiones
El la definición de este problema, al ver los datos ['h','m'] se observa que la proporción de mujeres es 0.5 o 1/2.
Al armar la tabla de datos se observa que la media de las proporcones de mujeres sobre las muestras es 1/2. Al agrupar, se revisa la media de las proporciones y una vez mas se observa que la media de las proporciones es 0.5 o 1/2.
Por lo tanto, **las proporciones muestrales tienden a coincidir con la proporción poblacional**
Se cumple la primera propiedad de las distribuciones muestrales.
Este primer ejemplo es muy sencillo porque el tamaño de las muestras es igual a la población, ambas son muy pequeñas y está explicado, calculado y compartido en github. Veamos a continuación otro ejemplo.
Ejemplo 2: Distribución muestral de la proporción de impares
Este segundo ejemplo es muy sencillo porqueel tamaño de las muestras es muy pequeño (2) y lo mismo sucede con el tamaño de la población (3).
Un mariscal de campo lanzó:
1 intercepción en su primer juego,
2 intercepciones en su segundo juego,
5 intercepciones en su tercer juego y después se retiró.
+ Considere la población consistente en los valores 1, 2, 5.
+ Observe que dos de los valores (1 y 5) son impares,
+ de manera que la proporción de números impares en la población es **2/3**.
a. Liste todas las muestras diferentes posibles de tamaño n 2 seleccionadas con reemplazo.
+ Para cada muestra, calcule la proporción de números impares.
+ Utilice una tabla para representar la distribución muestral de la proporción de números impares.
b. Calcule la media de la distribución muestral para la proporción de números impares.
c. Observe que: Para la población de 1, 2, 5, la proporción de números impares es 2/3.
¿La media de la distribución muestral de la proporción de números impares también es igual a 2/3?
¿Las proporciones muestrales coinciden con el valor de la proporción poblacional?
Es decir, ¿las proporciones de la muestra tienen una media igual a la proporción poblacional?
a. En la tabla **df** se listan las nueve muestras diferentes posibles de tamaño **n=2** (sample),
+ obtenidas con reemplazo de la población de 1, 2, 5, de tamaño igual a 3.
+ Esta tabla también contiene:
+ '#odds' : el número de valores impares que aperecen en cada muestra.
+ '#odds/t_odds' : **proporción de impares sobre el total de impares** de la muestra. (Varíará entre 0 y 1).
+ '#odds/data' : proporción de impares sobre el total de datos de la muestra. (puede ser 0, 1/3, 2/3)
+ '#odds/samples': probabilidad de encontrar una muestra como esta entre todas las muestras posibles.
+ Observe que: Como existen 9 muestras igualmente probables, cada muestra tiene una probabilidad de 1/9.
+ Observe que: **La media de la proporción de impares que aparecen en las muestras es igual a 2/3 (0.6666)**
+ Esta es una **proporcional** que se calcula como la **𝜇=∑ 𝑥 / m**, dónde m es la cantidad de muestras (en este caso 9)
b. En la tabla **grouped_df** se resumen los resultados de las muestras que se pueden tomar.
+ Esto es porque la cantidad de impares qeu pueden encotrarse al tomar distintas muestras puede varia.
+ En las 9 muestras que se pueden sacar, se pueden encontar 0, 1 o 2 impares. Como se ve en df.
+ En resumen, se pueden tomar 9 muestrs distintas:
+ En una muestra no habrá ningún impar.
+ En cuatro muestras habrá sólo un impar.
+ En cuatro muestras habrán dos impares.
+ La tabla df, nos da el detalle.
+ La tabla summary_df nos da el resumen.
Conclusiones
El la definición de este problema al ver los datos [1, 2, 5] se observa que la proporción de impares es 0.66666 o 2/3.
En el punto a, al armar la tabla de datos se observa que la media de las proporcones de impares sobre las muestras es 2/3.
Luego,se revisa la media de las proporciones y una vez mas se observa que la media de las proporciones es 2/3.
Por lo tanto, **las proporciones muestrales tienden a coincidir con la proporción poblacional**
Se cumple la primera propiedad de las distribuciones muestrales.
Este segundo ejemplo es sencillo y claro que muestra el comportamiento de las proporciones y puede extrapolarse a poblaciones y muestras mayores. Está, calculado y compartido en github., y para acceder a él, se puede acceder a través del link del título del ejemplo.