top of page

Distribución de Probabilidad

Distribución de probabilidad. Esperanza. Valor esperado. Resultados infrecuentes. Regla del intervalo 68, 95, 99.7.

Distribución de probabilidad

Distribución de probabilidad

Disribución de probabilidad

Una distribución de probabilidad es una distribución que indica la probabilidad de cada valor de la variable aleatoria. A menudo se expresa como gráfica, tabla o fórmula.


Es muy frecuente pensar en probabilidades y frecuencias al tiempo que existen similitudes y diferencias entre distribuciones de frecuencia y distribuciones de probailidad. Es importante aquí, y resulta útil, entender estas semejanzas y diferencias para madurar bien estos el concepto de distribuciones. Consideramos por caso:

  1. Descripciones y definiciones: una distribución de probabilidades describe cómo se distribuyen probabilidades mientras una distribución de frecuencias describe como se distribuyen las frecuencias. Es así como la distribución de probabilidad es una función teorica que asigna probabilidades a valores posibles de una variable aleatoria, mientras que una distribución de frecuencia es un recuento que surge de observar ocurrencias de valores en un conjunto de datos.

  2. Datos y estructura: una distribución de probabilidad está basada en modelos teóricos, mientras que una distribución de frecuencias se fundamenta en datos observados. De este modo la distribución de probabilidad asocia valores posibles con probabilidades, mientras que la distribución de frecuencias asocia valores observados con la frecuencia de observación de cada valor. 

  3. Aplicación y utilidad: Mientras que una distribución de probabilidad se utiliza para análisis teórico de eventos posibles,  la distribución de frecuencias sirve para hacer análisis de datos recolectados. Mientras que la distribución de probabilidad se usa para análisis pedictivo, la distribución de frecuencias se usa para análisis histórico.

  4. Conceptos: Distribución de frecuencias y de probabilidad son dos conceptos claramente diferentes aunque visiblementes complementarios y plausibles de estar relacionados.

En la gráfica correspondiente se ensayan las caracteristicas y la comparativa entre distribuciones de probabilidad y de frecuencia.


Ejemplo de distribución de probabilidad: Selección  de miembros  del  jurado.

  • Se elegirá al azar a 12 integrantes del jurado de una población en la que el 80% de miembros del jurado se seleccionan al azar sin sesgo y si permitimos que x   número de méxico-estadounidenses en un total de 12 miembros del jurado entonces x es una variable aleatoria porque su valor depende del azar. 

  • Los valores posibles de x son 0, 1, 2, . . . , 12. La 

  • tabla incluye los valores de x, junto con las probabilidades correspondientes. Los valores de probabilidad que son muy pequeños, como 0.000000123, están representados por 0  .

  • Puesto que la tabla incluye la probabilidad para cada valor de la variable aleatoria x, esa tabla describe una distribución de probabilidad.

La figura inicial de este apartado, es un histograma de probabilidad muy similar al histograma de frecuencias relativas, pero la escala vertical indica probabilidades en vez de frecuencias relativas basadas en resultados muestrales reales. Este ejemplo se desarrolla en un jupyter notebook en python y se comparte en github.


Caracteristicas de una función de distribución de probabilidad

  • Función de Probabilidad (PDF):
    Discreta: P(X=x)P(X = x) da la probabilidad de que la variable aleatoria X tome el valor x.
    Continua: f(x) es la densidad de probabilidad en el punto x, y la probabilidad de un rango de valores se obtiene integrando esta función.

  • Función de Distribución Acumulativa (CDF):
    Fórmula: F(x)=P(X≤x) para variables discretas, y F(x)=∫−∞xf(t) dt para variables continuas.
    Propósito: Proporciona la probabilidad acumulada de que la variable aleatoria sea menor o igual a un valor dado.

  • Esperanza Matemática (Media):
    Discreta: E(X)=∑xiP(xi)
    Continua: E(X)=∫−∞∞xf(x) dx
    Propósito: Indica el valor promedio esperado de la variable aleatoria.

  • Varianza:
    Fórmula: Var(X)=E[(X−E(X))²]
    Propósito: Mide cuánto varían los valores de la variable aleatoria respecto a la media.

  • Desviación Estándar:
    Fórmula: σX=√Var(X)
    Propósito: Mide la dispersión en las mismas unidades que la variable aleatoria.

  • Moda:
    Discreta: El valor con la mayor probabilidad.
    Continua: El valor en el cual la función de densidad alcanza su máximo.
    Propósito: Indica el valor más frecuente en la distribución.

  • Mediana:
    Propósito: Divide la distribución en dos partes iguales.
    Cálculo: Para una CDF F(x)F(x), la mediana mm satisface F(m)=0.5F(m) = 0.5.

  • Curtosis:
    Propósito: Mide la "altura" y "ancho" de los picos de la distribución comparada con una normal.
    Interpretación: Una curtosis alta indica una distribución con picos altos y colas largas.

  • Asimetría:
    Propósito: Mide el grado de asimetría de la distribución respecto a su media.
    Interpretación: Una distribución asimétrica hacia la derecha (positiva) tiene una cola más larga en la derecha, y viceversa.

  • Intervalo de Confianza: Rango de valores, derivado de los datos muestrales, que se utiliza para estimar un parámetro de la población. Proporciona una estimación del parámetro poblacional con un nivel de confianza especificado (por ejemplo, 95% o 99%).

Merece repasar conceptos de los mencionados a continuación:


Esperanza o valor esperado

El valor esperado de una variable aleatoria discreta se denota por E y representa el valor promedio de los resultados.

La media de una variable aleatoria discreta es el resultado medio teórico de un nú mero infinito de ensayos. Podemos considerar esa media como el valor esperado en el sentido de que constituye el valor promedio que esperaríamos obtener si los ensayos pudieran continuar de manera indefinida. Los usos del valor esperado (también llamado esperanza o esperanza matemática) son extensos y variados, y desempeñan un papel muy importante en una área de aplicación denominada teoría de la decisión.


Ejemplo: Selección  de miembros  del  jurado.

La media de este ejemplo es:

Media: 9.6 

Por lo tando el valor esperado es: 9.6

Es decir que se espera que en un jurado de 12 miembros existan entre 9 y 10 miembros mexico-estadounidenses.


Intervalo de confianza

El intervalo de confianza se relaciona con las distribuciones de probabilidad porque se basa en la distribución de la variable muestral (normal, t-distribución, etc.) para proporcionar un rango probable para el parámetro de la población. Se utiliza comúnmente en inferencia estadística para estimar parámetros como la media, la proporción o la diferencia entre medias.


Ejemplo

Si el intervalo de confianza para la media de una población es [5, 7] con un 95% de confianza, significa que estamos 95% seguros de que la verdadera media de la población se encuentra en este rango.


Identificación de resultados poco comunes con la regla práctica del intervalo

La regla práctica del intervalo (que se estudia en estadística descriptiva) resulta útil para interpretar los valores de una desviación estándar. 

  1. La regla prática del intervalo, es también conocida como regla del 68, 99.5, 99.7%

  2. Según la regla práctica del intervalo, la mayoría de los valores deben caer dentro de 2 desviaciones estándar de la media; 

  3. No es comúnque un valor difiera de la media en más de dos desviaciones es tándar. 

  4. El uso de dos desviaciones estándar no es un valor absolutamente rígido, y en su lugar se pueden emplear otros valores como 3. 

  • De esta manera, podemos identificar valores “poco comunes” si se determina que caen fuera de los siguientes límites:

  • Regla práctica del intervalo

  • valor máximo común  : media  + dos desvios estandard.

  • valor mínimo común   : media - dos desvíos estandard.

Ejemplo: Selección  de miembros  del  jurado

Los estadísticos del este ejemplo son:

Media    : 9.6 

Varianza : 94.08 - 9.6**2 = 1.92

Desviación Estandard: 1.3856

Los valores más probables de x están entre 6.82 y 12.37 (valores mínimo y máximo comunes)

Con base en estos resultados, concluimos que, para grupos de 12 miembros del jurado  elegidos al azar en el condado de Hidalgo, el número de méxico-estadounidenses debe caer entre 6.8 y 12.4. Si un jurado consta de 7 méxico-estadounidenses, no se trata de un suceso poco común y no serviría como base para afirmar que el jurado se eligió de una manera que discrimina a los méxico-estadounidenses. (El jurado que sentenció a Roger Partida incluyó a 7 méxico-estadounidenses, pero la acusación de un proceso de selección injusto se basó en el proceso utilizado para seleccionar al Gran Jurado y no al jurado específico que lo sentenció).


Sucesos o resultados infrecuentes infrecuentes

Si, bajo un supuesto dado, la probabilidad de un suceso particular observado (como 992 caras en 1000 lanzamientos de una moneda) es extremadamente pequeña, concluimos que el supuesto probablemente no sea correcto. Las probabilidades se pueden utilizar para aplicar la regla del suceso infrencuente.


Uso de las probabilidades para determinar resultados infrecuentes

●  Número de éxitos inusualmente alto: x éxitos en n ensayos es un número inusualmente alto de éxitos si P(x o más)  0.05.*

●  Número de éxitos inusualmente bajo: x éxitos en n ensayos es un número inusualmente bajo de éxitos si P(x o menos)  0.05.*

El valor de 0.05 se utiliza de forma regular, pero no es absolutamente rígido. Se podrían usar otros valores, como 0.01, para distinguir entre sucesos que pueden ocurrir con facilidad por azar y sucesos que tienen muy pocas probabilidades de ocurrir por azar.


Ejemplo: 

Selección  de miembros  del jurado Si el 80% de  las personas que pueden fungir como miembros del jurado en el condado de Hidalgo son méxico-estadounidenses, entonces un jurado de 12 individuos seleccionados al azar debe incluir 9 o 10 méxico-estadounidenses. (La media del número de méxico-estadounidenses en los jurados es de de 9.6). ¿Siete jueces méxico-estadounidenses, de un total de 12, es un número excepcionalmen- te bajo? ¿La selección de sólo 7 méxico-estadounidenses en un total de 12 miembros del jurado sugiere que existe discriminación en el proceso de selección?

Usaremos el criterio de que 7 méxico-estadounidenses en un total de 12 miembros del jurado es excepcionalmente bajo si P(7 o menos méxico-estadounidenses) <= 0.05. Si nos remitimos a la tabla obtenemos el siguiente resultado:

P(7 o menos méxico-estadounidenses en un total de 12 miembros del jurado) =

P(7 o 6 o 5 o 4 o 3 o 2 o 1 o 0) = P(7) + P(6) + P(5) + P(4) + P(3) + P(2) + P(1) + P(0) =

P(7 o 6 o 5 o 4 o 3 o 2 o 1 o 0) =  0.053  0.016  0.003  0.001  0  0  0  0 =

P(7 o menos méxico-estadounidenses en un total de 12 miembros del jurado) = 0.073


Interpretación: Puesto que la probabilidad de 0.073 es mayor que 0.05, concluimos que el resultado de 7 méxico-estadounidenses no es poco común. Existe una alta probabilidad (0.073) de seleccionar a 7 méxico-estadounidenses por azar. (Sólo una probabilidad de 0.05 o menor indicaría que el suceso es poco común). Ningún tribunal de justicia declararía que, en esas circunstancias, la selección de sólo 7 méxico-estadounidenses es discriminatoria.


Clasificación y agrupamiento de distribuciones de probabilidad

Existe una cantidad enorme de distribuciones que permiten modelar una gran cantidad de situaciones y escenarios. Esto se ve en otro apartado correspondiente a este tema denominado: Clasificación y agrupamiento.

bottom of page