Cómo los histogramas pueden falsear los datos estadísticos

  1. Educación
  2. Matemáticas
  3. Estadísticas
  4. Cómo los histogramas pueden falsear los datos estadísticos

Libro Relacionado

Por Deborah J. Rumsey

No hay reglas fijas y rápidas para crear un histograma basado en un conjunto de datos estadísticos; la persona que hace el gráfico puede elegir los grupos en el eje x, así como la escala y los puntos de inicio y final en el eje y. Sin embargo, el hecho de que exista un elemento de elección no significa que cada elección sea apropiada; de hecho, se puede hacer que un histograma sea engañoso de muchas maneras.

Aunque el número de grupos que se usan para un histograma depende de la discreción de la persona que hace el gráfico, existe algo como exagerar, ya sea por tener muy pocas barras, con todo agrupado, o por tener demasiadas barras, donde cada pequeña diferencia es magnificada.

Para decidir cuántas barras debe tener un histograma, debe echar un buen vistazo a las agrupaciones utilizadas para formar las barras en el eje x y ver si tienen sentido. Por ejemplo, no tiene sentido hablar de las puntuaciones de los exámenes en grupos de 2 puntos; eso es demasiado detalle – demasiadas barras. Por otro lado, no tiene sentido agrupar las edades de las personas por intervalos de 20 años; eso no es lo suficientemente descriptivo.

n = 222)”/>Histograma #1 que muestra el tiempo entre erupciones para el géiser Old Faithful (n = 222).

Las figuras de arriba y abajo ilustran este punto.

n = 222)”/>Histograma #2 que muestra el tiempo entre erupciones para el géiser Old Faithful (n = 222).

Cada histograma resume n = 222 observaciones de la cantidad de tiempo entre erupciones del géiser Old Faithful en el parque Yellowstone. El histograma #1 utiliza seis barras que agrupan los datos por intervalos de 10 minutos. Este histograma muestra un patrón general sesgado hacia la izquierda, pero con 222 observaciones usted está metiendo una gran cantidad de datos en sólo seis grupos; por ejemplo, la barra de 75-85 minutos tiene más de 90 piezas de datos en ella. (¡Eso es más del 40% del conjunto de datos!) Puedes desglosarlo más allá de eso.

El histograma #2 muestra el mismo conjunto de datos, donde el tiempo entre erupciones se divide en grupos de 3 minutos cada uno, resultando en 19 barras. Note el patrón distinto en los datos que aparecen con este histograma que no fue descubierto en el histograma #1. Se observan dos picos distintos en los datos: uno alrededor de los 50 minutos y otro alrededor de los 75 minutos. Un conjunto de datos con dos picos se llama bimodal; el histograma #2 muestra un ejemplo claro.

Mirando el histograma #2, se puede concluir que el géiser tiene dos categorías de erupciones: un grupo que tiene un tiempo de espera más corto, y otro grupo que tiene un tiempo de espera más largo. Dentro de cada grupo verá que los datos están bastante cerca de donde se encuentra el pico. Mirando el histograma #1, no se puede decir eso.

El eje y de un histograma muestra cuántas observaciones hay en cada grupo, utilizando recuentos o porcentajes. Un histograma puede ser engañoso si tiene una escala engañosa y/o puntos iniciales y finales inadecuados en el eje y.

Observe la escala en el eje y de un histograma. Si va en grandes incrementos y tiene un punto final que es mucho más alto de lo necesario, verá una gran cantidad de espacio en blanco por encima del histograma. Las alturas de las barras son apretadas hacia abajo, haciendo que sus diferencias se vean más uniformes de lo que deberían. Si la escala va en pequeños incrementos y termina en el valor más pequeño posible, las barras se estiran verticalmente, exagerando las diferencias en sus alturas y sugiriendo una diferencia mayor de la que realmente existe.

El siguiente ejemplo utiliza una escala diferente en el eje vertical (y) que el histograma #2.


El histograma #3 muestra los tiempos de erupción del géiser Old Faithful, con incrementos verticales mayores. El histograma

#3 toma los datos de Old Faithful (tiempo entre erupciones) y utiliza incrementos verticales de 20 minutos, de 0 a 100. Compare esto con el histograma #2, que utiliza incrementos verticales de 5 minutos, de 0 a 35. El histograma #3 tiene mucho espacio en blanco y da la impresión de que los tiempos están más uniformemente distribuidos entre los grupos de lo que realmente están.

También hace que el conjunto de datos parezca más pequeño, si no presta atención a lo que hay en el eje y. De las dos gráficas, el histograma #2 es más apropiado.

Post Your Thoughts