Cuestiones de muestras

Cuestiones a considerar

Imagen de un estudio estadístico.

Tamaño de muestra: ¿Una muestra grande es necesariamente una buena muestra?

No. Si una muestra se obtiene de forma inapropiada (ej uso de muestra voluntaria) tiene muchas probabilidades de estar sesgada y de ser una muestra inadecuada, aún cuando sea muy gande.

Centro y variación: Un ingeniero de control de calidad diseña procedimientos de reparación para reducir la desviación estándar de los tiempos de reparación. ¿Esto implica que las reparaciones se hacen en menos tiempo? ¿Por qué?

No. La reducción de la desviación estándar no implica que se reduzca la media.
Al reducir la desviación estandar la media se hace más precisa. El promedio de los tiempos de reparación tiende a hacerse más exacto con la reducción de la desviación estandar.

Muestreos: Poco después de que las torres del World Trade Center fueran destruidas por terroristas, America Online aplicó una encuesta a sus suscriptores de Internet y preguntó lo siguiente: “¿Deberían reconstruirse las torres del World Trade Center?” Entre 1,304,240 personas que respondieron, 768,731 dijeron que “sí”, 286,756 contestaron que “no”, y 248,753 dijeron que era “demasiado pronto para decidir”.

Puesto que esta muestra es extremadamente grande, ¿se puede considerar que las respuestas son representativas de la población de Estados Unidos?

No, porque se trata de una muestra de respuesta voluntaria y es probable que no sea representativa de la población.

Desvio Estandar: Al diseñar el procedimiento de producción de baterías utilizadas en marcapasos cardiacos, un ingeniero especifica que “las baterías deben tener una vida media mayor de 10 años, y se puede ignorar la desviación estándar de la vida de las baterías”. Si la vida media de la batería es mayor de 10 años, ¿se puede ignorar la desviación estándar? ¿Por qué?

No. No se puede ignorar. Por ejemplo si la vida media es de 11 años pero el desvio estándar fuera de 2 años estaríamos incumpliendo las especificaciones con un muy alto grado de probabilidad
No debe ignorarse la desviación estándar. Es posible tener una media mayor que 10 años con una desviación
estándar tan alta que algunos acumuladores fallarán poco tiempo después de haber sido instalados.
Esta situación sería inaceptable.

Una investigadora de mercados quiere determinar el valor promedio de un automóvil que posee un residente en Estados Unidos. Ella elige aleatoriamente a 10 propietarios de automóviles de cada estado y los encuesta; obtiene una lista de 500 valores muestrales. Luego suma los 500 valores y los divide entre 500 para sacar un promedio. ¿El resultado es una buena estimación del valor promedio de un automóvil

poseído por un residente en Estados Unidos? ¿Cuál es la diferencia entre una muestra aleatoria y una muestra aleatoria simple?

No. A las personas se les pregunta el valor de sus automóviles y es probable que exageren. Asimismo, los resultados deben ser ponderados para que representen los distintos números de propietarios de automóviles en los diferentes estados.

Valor extremo. Después de elegir al azar a 50 poseedores de tarjetas de crédito, se calculan las cantidades que deben en la actualidad. Luego se determinan los valores de la media, la mediana y la desviación estándar. Después se incluye una cantidad adicional de $1,000,000 ¿Qué efecto tendrá esta cantidad adicional sobre la media, la mediana y la desviación estándar?

Es de suponer que una deuda de 1.000.000 es un valor extremo.
Incluir este valor extremo modificará sin dudas la desviación estandard.
Incluir este valor también puede modificar la media.
Incluir este valor probablemente no modifique la mediana.
En resumen, incorporar 1.000.000 modifica sustancialmente la desviación estandard y probablemente la media, pero casi nada la mediana.

Encuesta de Internet. Un proveedor de servicios de Internet realiza una encuesta anónima por ese medio a sus suscriptores y 2500 de ellos responden reportando los valores de los automóviles que poseen en la actualidad. Como el tamaño de la muestra es tan grande, ¿es probable que los resultados produzcan una media que sea muy cercana a la media del valor de todos los automóviles que son propiedad de los estadounidenses? ¿Por qué?

No. Esta muestra tiene dos sesgos.
Se trata de una encuesta voluntaria, lo cual la hace poco representantiva de la población.
Se trata de una encuesta por internet, lo cual hace que esté sesgada por el acceso a internet.
Debido a que los datos provienen de una muestra de respuesta voluntaria, es muy probable que los valores no sean representativos de la población de todos los automóviles propiedad de estadounidenses. Asimismo, es muy probable que los participantes exageren los verdaderos valores de sus automóviles.

Puntuaciones z. Se descubre que un valor de un conjunto de datos grande tiene una puntuación z de -2. ¿El valor está por arriba o por debajo de la media? ¿Acuántas desviaciones estándar de la media se encuentra este valor?

El valor está por debajo de la media en una cantidad igual a dos desviaciones estándar.

Cuartiles. Para un conjunto grande de datos, se determina que el primer cuartil es 15. ¿Qué significa cuando decimos que 15 es el primer cuartil?

Alrededor del 25% de los valores están por debajo de 15 y alrededor del 75% de los valores están por arriba de 15.

Coca-Cola Company tiene 366,000 accionistas y efectúa una encuesta mediante la selección aleatoria de 30 accionistas de cada una de las 50 entidades de Estados Unidos. Se registra el número de acciones de cada accionista de la muestra.

a. ¿Los valores obtenidos son discretos o continuos?

b. Identifique el nivel de medición (nominal, ordinal, de intervalo, de razón) de los datos muestrales.

c. ¿Qué tipo de muestreo (aleatorio, sistemático, de conveniencia, estratificado, por conglomerados) se usa?

d. Si se calcula el número promedio (la media) de acciones, ¿el resultado es un estadístico o un parámetro?

e. Si usted fuera el ejecutivo en jefe de Coca-Cola Company, ¿qué característica del conjunto de datos consideraría usted que es extremadamente importante?

f. ¿Que es lo que está incorrecto al evaluar la opinión de los accionistas enviando un cuestionario por correo, que éstos podrían llenar y regresar por el mismo medio?

a. Discretos

b. De razón

c. Estratificado

d. Estadístico

e. Los valores más grandes, porque representan a los accionistas que podrían adquirir el control de la compañía.

f. La muestra de respuesta voluntaria podría resultar sesgada.

Cuando se realiza un experimento para probar la eficacia de una nueva vacuna, ¿qué es un estudio a ciegas y porque es importante?

Un estudio ciego es un método en el que un sujeto (o investigador) en un experimento no sabe si tal sujeto está recibiendo un tratamiento o un placebo. Es importante el uso de los estudios ciegos para que los resultados no se vean distorsionados debido a un
efecto placebo, en el que los sujetos creen que experimentan mejorías sólo por el hecho de ser tratados.

La Food and Drug Administration de Estados Unidos elige al azar una muestra de grageas de aspirina Bayer, y mide la exactitud de la cantidad de aspirina en cada gragea. Lo mismo hace a veces ANMAT para chequear la veracidad y calidad de los productos medicinales. ¿Qué tipo de estudio es este?¿Se trata de un estudio observacional?¿Con que tipo de estudio podría ser estudiado?

Si se trata de un estudio observacional. Un estudio observacional es un tipo de investigación en el que el investigador observa y registra el comportamiento de los sujetos sin intervenir ni manipular las variables del estudio.
Este tipo de estudio podría ser probado con una prueba de hipótesis t-test de estadística inferencial.

Imaginemos que los investigadores quieren estudiar la relación entre el consumo de tabaco y la incidencia de cáncer de pulmón. Seleccionan a un grupo de individuos que no tienen cáncer de pulmón al inicio del estudio y recopilan datos sobre sus hábitos de fumar, historial médico, y otros factores relevantes. Estos individuos son seguidos durante varios años para observar cuántos desarrollan cáncer de pulmón y cómo esto se relaciona con sus hábitos de fumar y otros factores de riesgo registrados al inicio. ¿Qué tipo de estudio es este?¿Se trata de un estudio observacional?¿Con que tipo de estudio podría ser estudiado?

Es un estudio observacional. Se trata de un estudio de cohorte prospectivo. Todos los estudios prospectivos son estudios de cohorte, pero no todos los estudios de cohorte son necesariamente prospectivos; algunos pueden ser retrospectivos si se recopilan datos retrospectivamente a partir de registros previamente existentes.
Para el ejemplo específico del estudio sobre la relación entre el consumo de tabaco y la incidencia de cáncer de pulmón, la elección entre la prueba t de Student, la regresión u otros métodos dependerá de varios factores, incluyendo la naturaleza de los datos y los objetivos del estudio.

Imagine un salón de clases con 60 estudiantes acomodados en seis filas de 10 estudiantes cada una. Suponga que el profesor selecciona una muestra de 10 estudiantes lanzando un dado y seleccionando la fila correspondiente al resultado. ¿El resultado es una muestra aleatoria? ¿Una muestra aleatoria simple?¿Una muestra probabilística?

La muestra es aleatoria porque cada estudiante individual tiene la misma posibilidad (una posibilidad en seis) de resultar seleccionado. La muestra no es aleatoria simple porque no todas las muestras de tamaño 10 tienen la misma posibilidad de ser escogidas. Por ejemplo, este diseño muestral de usar un dado para seleccionar una fila hace imposible la selección de 10 estudiantes que estén en filas diferentes (aunque hay una posibilidad en seis de seleccionar la muestra que consiste en los 10 estudiantes de la primera fila). Se trata de una muestra probabilística porque cada estudiante tiene una posibilidad conocida (una posibilidad en seis) de ser elegido.

Un investigador del hospital Monte Sinaí de la ciudad de Nueva York, planea obtener datos al hacer un seguimiento (hasta el año 2015) a los hermanos de las víctimas que perecieron en el ataque terrorista al Word Trade Center el 11 de septiembre de 2001. Identifique el tipo de estudio observacional (transversal, retrospectivo o prospectivo).

Si bien es un estudio que hace retrospectiva se trata de un estudio que analiza los datos desde el 2001 y hacia adelante. Por lo tanto es un estudio prospectivo en la linea de tiempo.

Un investigador de la empresa de equipo deportivo Spaulding estudia la relación entre el nivel académico y la participación en cualquier deporte. El investigador hace una encuesta a 40 golfistas, 40 tenistas y 40 nadadores, todos elegidos al azar. Identifique el tipo de muestreo que se utilizó: aleatorio, sistemático, de conveniencia, estratificado o por conglomerados.

En este muestreo se usa una muestra de los miembros de todos los estratos (golf, tenis, natación). Por lo tanto se trata de un muestreo de estratos.

En un control de alcoholemia, la policia detiene y controla a un conductor de cada 10 que pasan por el lugar donde se ubicó el puesto de control. ¿Que tipo de muestreo es el que se está realizando?

Se está realizando un muestreo sistemático.

Un investigador del Internal Revenue Service estudia las trampas en las declaraciones de impuestos, al encuestar a todos los meseros y las meseras de 20 restaurantes seleccionados al azar. ¿De que tipo de muestreo se trata?

Se trata de un muestreo por conglomerados ya que se toman las muestras de todos los meseros y las meseras de 20 conglomerados.

En una encuesta de Gallup de 1059 adultos, los sujetos encuestados fueron seleccionados, usando de una computadora para generar aleatoriamente los números telefónicos a los que después se llamó. ¿Que tipo de encuesta es?

Es una encuesta aleatoria.

La Universidad de Newport, motivada por un estudiante que murió en estado de ebriedad, realizó una investigación de estudiantes que beben, seleccionando al azar 10 diferentes salones de clase y entrevistando a todos los estudiantes en cada uno de esos grupos.

Es una encuesta por conglomerados, porque se entrevita a todos los miembros de cada grupo o conglomerado de los seleccionados.

Un analista de la IRS procesa una devolución de impuestos cada 10 minutos, de manera que en su primera semana de trabajo procesa un total de 240 devoluciones. El gerente verifica su trabajo al seleccionar al azar un día de la semana y revisar todas las devoluciones que se procesaron ese día.

¿Que tipo de muestreo es?¿Tal plan de muestreo da como resultado una muestra aleatoria? ¿Una muestra aleatoria simple?

Es una muestra por conglomerados porque se toman todas las muestras (todas las devoluciones) del conglomerado seleccionado (1 día de la semana).
Si es una muestra aleatoria, porque se revisan todas las devoluciones una por una de ese día. (Se toman todas las muestras individuales de ese conglomerado).
No es una muestra aleatoria porque no se toman grupos de muestra sino que se toman las muestras individualmente y todas las muestras tomadas individualmente tienen la misma probabilidad de ser elegidas.

Un investigador del Departamento de Vehículos Motorizados del condado de Orange intenta probar un nuevo sistema en línea para el registro de conductores, utilizando una muestra de 20 hombres y 20 mujeres seleccionados al azar. (El condado de Orange tiene el mismo número de conductores hombres y de conductores mujeres). ¿Este plan de muestreo da como resultado una muestra aleatoria? ¿Una muestra aleatoria simple? ¿Que tipo de muestreo es?

Es un muestreo estratificado.
Da como resultado una muestra aleatoria simple porque cada muestra de 20 hombres y 20 mujeres tiena la misma probabilidad de ser elegida.

Un ingeniero de control de calidad selecciona cada diezmilésimo dulce M&M que se produce.

¿Este plan de muestreo da como resultado una muestra aleatoria? ¿Una muestra aleatoria simple?

No es una muestra aleatoria. El segundo M&M no tiene posibilidades de ser elegido.
No es una muestra aleatoria simple. Las muestras que incluyen al segundo M&M no tienen posibilidades de ser incluidas.
Se trata de un muestreo sistemático.

Un profesor de estadística obtiene una muestra de estudiantes, al seleccionar a los primeros 10 que entran a su salón de clases. ¿Este plan de muestreo da como resultado una muestra aleatoria? ¿Una muestra aleatoria simple?

No es una muestra aleatoria porque para que fuera así todos los estudiantes deberían tener exactamente la misma probabilidad de ser elegidos y en este casos solo los 10 primeros tienen probabilidad de ser elegidos entanto el resto tienen probabilidad nula de ser elegidos.
No se trata de una muestra aleatoria simple por que solo una muestra de 10 tiene probabilidad de ser elegida.
Se trata de una muestra por conveniencia.

Un salón de clases tiene 36 estudiantes sentados en seis filas diferentes, con seis estudiantes en cada fila. El profesor tira un dado para determinar una fila, y luego lo tira nuevamente para elegir a un estudiante específico de la fila. Este proceso se repite hasta completar una muestra de 6 estudiantes. ¿Este plan de muestreo da como resultado una muestra aleatoria? ¿Una muestra aleatoria simple?

Si es una muestra aleaoria, ya que cada estudiante tiene la misma probabilidad de ser elegido.
Si es una muestra aleatoria simple, ya que cada muestra tiene la misma probabilidad de ser lograda.
No es una muestra estratificada porque no hay certeza de que cada alumno de una muestra provenga de una fila diferente. Para que fuera estratificada, cada muestra debería conener un alumno de cada fila.

En el artículo “Cardiovascular Effects of Intravenous Triiodothironine in Patients Undergoing Coronary Artery Bypass Graft Surgery” (Journal of the American Medical Association, vol. 275, núm. 9), los autores explican que los pacientes fueron asignados a uno de tres grupos:

1.un grupo tratado con triyodotironina,

2. un grupo tratado con una píldora de sal normal y dopamina, y

3. un grupo placebo al que se le dio una píldora de sal normal.

Los autores resumen el diseño muestral como un “experimento prospectivo, aleatorio, a ciegas doble, placebo y controlado”. Describa el significado de cada uno de estos términos en el contexto de este estudio.

Prospectivo: el experimento se inició y los resultados se siguieron a lo largo del tiempo.
Aleatorizado: los sujetos fueron asignados a los diferentes grupos a través de un proceso de selección aleatoria, por el cual tenían las mismas probabilidades de pertenecer a cada grupo.
Doble ciego: los sujetos no sabían a cuál de los tres grupos pertenecían, y tampoco lo sabían las personas que evaluaron los resultados. P
Placebo controlado: había un grupo de sujetos que recibió un placebo; al comparar el grupo placebo con los dos grupos de tratamiento es posible comprender mejor los efectos de los tratamientos.

Z de Darwin: La media de la estatura de los hombres es de 176 cm y su desviación estándar de 7 cm. Charles Darwin tenía una estatura de 182 cm.

a. ¿Qué diferencia hay entre la estatura de Darwin y la media?

b. ¿Acuántas desviaciones estándar corresponde [la diferencia obtenida en el inciso a)]?

c. Convierta la estatura de Darwin a una puntuación z.

d. Si consideramos que las estaturas “comunes” son aquellas que corresponden a puntuaciones z entre -2 y 2, ¿la estatura de Darwin es común o infrecuente?

a. 6cm, b. 6/7 o 0,86. c. z=0.86 y d. Común.

6. CI de Einstein. Las puntuaciones de CI de la prueba Stanford Binet tienen una media de 100 y una desviación estándar de 16. Se dice que Albert Einstein tenía un CI de 160.

a. ¿Qué diferencia hay entre el CI de Einstein y la media?

b. ¿Acuántas desviaciones estándar corresponde [la diferencia obtenida en el inciso a)]?

c. Convierta el CI de Einstein a una puntuación z.

d. Si consideramos que las puntuaciones de CI “comunes” son aquellas que corresponden a

puntuaciones z entre -2 y 2, ¿el CI de Einstein es común o infrecuente?

a. 60, b.60/16, c. z=3,7 y d. Infrecuente.

Referencias:

Estadística: Mario Triola

Experiencia propia