Diseña un sitio como este con WordPress.com
Comenzar

ANOVA: Porque las diferencias suman

R-script

Imagina que deseas estudiar si existen diferencias en alguna variable entre algunos grupos de individuos, animales, plantas o cosas. Ese es el origen del análisis de la varianza (o ANOVA).

¿No dicen que “las diferencias siempre suman”?

Déjame que te lo cuente…

⬇️⬇️

Imagina que deseas realizar un estudio de ciertas especies de pájaros que son de similar naturaleza y comparten un medio común:

el malviz pardo, el cuelliamarillo común y el towhee.

Cada una de ellas conforma una población diferente.

Una característica de interés es su canto, ya que cada especie presenta sus particularidades y debes analizar, por ejemplo, su duración (en segundos).

No sin dificultades has obtenido tres conjuntos de datos: doce datos de malvices; nueve, de cuelliamarillos; y once, de towhees.

La pregunta surge de manera natural:

¿Se puede afirmar, a la luz de los datos observados, que la duración del canto de las diferentes especies es la misma?

O bien, ¿existen diferencias entre las tres especies en base a dichos datos?

Quizás se te haya ocurrido calcular la media de cada uno de los tres conjuntos, y compararlas…

O, tal vez, se te haya pasado por la cabeza construir los histogramas de los tres conjuntos de datos…

Por cierto, qué forma tan curiosa, ¿no? Los tres presentan una parte central más elevada que los extremos…

O, mejor todavía, puede que hayas pensado dibujar los tres diagramas de caja (y bigotes)… Grosso modo, esta es la representación de los datos en términos de sus cuartiles: mediana, primer y tercer cuartil, y demás.

¿Parece que los cuelliamarillos son verdaderos cantores, eh?

Sí, ya sé que se observan ciertas diferencias, pero esas medias y representaciones gráficas no son más que las de TU “muestra” … ¿Cómo pretendes generalizarlo? ¡No me seas político!

Puestos a inferir, hagámoslo bien.

La duración media del canto de los malvices, por ejemplo, es de 0.67 segundos.

Si la duración del canto de uno de ellos es de 1.05 (como efectivamente es), podemos escribir:

1.05=0.67+0.38,

es decir, su media más (o menos) una perturbación propia del dato concreto.

De hecho, esto lo podemos hacer con todos los datos de los malvices:

1.05=0.67+0.38

0.93=0.67+0.26

0.48=0.67-0.19

0.39=0.67+(-0.28)

Así, cada canto/dato de los malvices queda caracterizado por la media de su grupo y una cantidad que depende del canto/dato concreto.

Lo mismo podemos hacer para los cuelliamarillos y los towhees.

Date cuenta que cada uno de los treintaidós datos comparte con su grupo un sumando (no cantan igual los niños que los adultos), pero también es resultado de sus características propias (no cantas igual que Beyoncé).

Ahora bien, ¿cuál de las dos componentes tiene mayor protagonismo en la variabilidad de los datos: las medias grupales o las perturbaciones dentro de los grupos?

Si las responsables fueran las medias grupales, entonces podremos decir que hay diferencias.

Una medida de la variabilidad total del conjunto de datos (SCT) es la suma total de los cuadrados de las diferencias de las observaciones y su media.

Esta cantidad está relacionada con una medida de dispersión archiconocida denominada varianza.

Observa que cuanto más lejanos a la media sean los datos, mayor será esta suma.

No en vano, la estimación de la varianza muestral se obtiene dividiendo dicha suma por el número total de datos menos uno.

A fin de calcularla, observa en primer lugar que tus datos conforman un conjunto de treintaidós valores cuya media es, aproximadamente, 1.16.

La suma de los cuadrados de cada dato menos 1.16 es, aproximadamente, SCT=8.04.

Curiosamente, SCT se puede descomponer en dos sumandos (SCT=SCE+SCD): la variabilidad “inter-grupos” (SCE) y la variabilidad “intra-grupos” (SCD).

Lo mejor de todo es que ambos sumandos se relacionan con las dos partes en que dividimos los datos (media grupal y perturbaciones).

Observa estas dos situaciones hipotéticas:

Si fuera SCE=7 y SCD=1.04, la variabilidad inter-grupos sería la principal responsable de la magnitud de la variabilidad total.

Si, por el contrario, fuera SCE=1.04 y SCD=7, la responsable sería la variabilidad intra-grupos.

Entonces… ¿Cómo calcular SCE y SCD?

Observa que, una vez obtenida la variabilidad total (SCT), es suficiente con calcular una de ellas (SCE ó SCD).

Por ejemplo, si computamos SCE, entonces SCD=SCT-SCE.

El cálculo de SCE, for instance, es sencillo y se realiza a partir de las medias grupales y la media global.

La variabilidad inter-grupos (SCE) no es más que la suma de los cuadrados de las diferencias de las medias grupales y la media global, por el tamaño de cada grupo.

Cuanto más alejadas de la media global estén las medias de cada grupo, mayor será SCE.

En este caso, SCT (8.04) es igual a SCE (7.32) más una cantidad (0.72) que, tal y como se puede comprobar, representa la variabilidad de las perturbaciones (intra-grupos).

Dado que SCE=7.32 es un valor mucho más grande que SCD=0.72, parece que la mayor carga de variabilidad se debe a las diferencias entre los distintos grupos.

Pero, ¿es suficiente la distancia entre SCE y SCD para afirmar que existen diferencias en la duración del canto entre las tres especies?

A fin de alcanzar una conclusión válida en términos probabilísticos (la única salida puesto que nunca conoceremos todas las duraciones de todos los cantos de todas las aves de todos los tiempos), debemos acudir al contraste conocido como ANOVA y propuesto por R.A. Fisher.

En primer lugar, debemos comprobar que cada una de las muestras, una por cada población, cumple tres propiedades.

Y, para ello, solo contamos con la complicidad de nuestros datos. Deben sincerarse. Deben cantar sobre su origen a partir de gráficos y otros procedimientos estadísticos.

Las muestras de las tres especies de aves son independientes (es decir, los valores en cada muestra no dependen de los valores de las otras dos).

Las poblaciones de las que procede cada grupo son normales (es decir, la variable “duración del canto” restringida a cada una de las tres especies sigue una distribución normal).

Todas las poblaciones tienen la misma varianza. Esto quiere decir que, de alguna manera, las tres curvas normales son similares (homocedasticidad). No son iguales, lo sé. Pero la diferencia no debe ser significativa (recurrente palabra en estadística).

Estas cuestiones se pueden estudiar, y así es recomendable hacerlo, mediante el estudio de las perturbaciones (o residuos) que pueden ser calculadas como la observación correspondiente menos la media de su grupo (o especie). Algunos gráficos útiles se pueden ver en la animación.

Su comprobación debe llevarse a cabo no solo mediante ilustraciones, sino también con pruebas estadísticas llamadas contrastes de hipótesis.

¿Me creéis si os digo que las tres condiciones se cumplen? ¡Por el amor de Fisher!

La conclusión final llegará en términos del análisis del cociente de SCE y SCD entre sus respectivos grados de libertad k y l (lo llamaremos F).

Si F=(SCE/k)/(SCD/l) es muy grande, será porque la variabilidad inter-grupos es grande en comparación con la variabilidad intra-grupos.

Los grados de libertad k de SCE es el número de grupos (3) menos 1, es decir, 2. De esta forma, 7.32/2=3.66.

Los grados de libertad l de SCD es el número total de datos (32) menos el número de grupos (3), es decir, 29. Así, 0.72/29=0.02.

De esta forma, F=3.66/0.02=183.

La pregunta es natural: ¿es F=183 lo suficientemente grande para afirmar que el numerador es mucho más grande que el denominador?

¡Necesitamos alguna referencia para poder realizar una comparación! ¿150? ¿5? ¿230?

El límite entre lo pequeño y lo grande (valor crítico) se obtiene a partir de la distribución F de Snedecor (o F de Fisher-Snedecor), pero antes debemos escoger un nivel de significación α que representa la prob de falsos positivos.

Tradicionalmente, α=0.01 ó 0.05. Sea α=0.05.

La búsqueda se realiza en las tablas de la distribución F de Snedecor que, por ejemplo, con α=0.05, dos grados de libertad en el numerador y veintinueve, en el denominador, devuelve un valor crítico R=3.33.

Un valor de F mayor que 3.33 puede ser considerado “grande”.

Si el sentido del valor crítico es compararlo con el valor de F, ¡comparemos!

Dado que F=183>R=3.33, podemos sospechar que, en términos de las tres poblaciones, EXISTEN DIFERENCIAS entre las duraciones medias de los cantos de las tres especies.

Todos estos cálculos suelen recogerse en una tabla en la que también aparece el p-valor. Esta cantidad permite alcanzar la misma conclusión, pero ya hablaremos de él en otra ocasión porque hay mucho que decir.

Por ejemplo, aquí puedes ver cómo se muestra en R.

A partir de este procedimiento, que se conoce como ANOVA de un factor, podemos “detectar” diferencias entre variables tales como

el rendimiento de ciertos árboles,

la efectividad de ciertos tratamientos, o

los resultados de ciertos métodos de enseñanza.

Los numerosos campos de aplicación en ciencias experimentales o sociales la convierten en una de las herramientas más utilizadas en la investigación científica.

De hecho, Fisher la desarrolló mientras trabajaba en Rothamsted, una estación agrícola experimental.

Si has leído hasta aquí, muchísimas gracias. Mi única intención fue introducir las ideas sobre las que se asienta el ANOVA. Porque las diferencias suman.

Anuncio publicitario

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Blog de WordPress.com.

Subir ↑

La de Maldita Melena

Blog personal de Natalia Robles Mures

El sitio tranquilo

No sé vender mi producto

Messiánico de Alfredo N. Avila

Disfruta y comparte mis letras. Contenido diario... Sígueme para más inspiraciones literarias.

Qué vamos a hacer hoy

Matemáticas + Actividades en familia por Córdoba y en casa

Literatura de Japón

Tu portal de lectura asiática y mucho más.

Bits&Science

Ciencia natural y formal... con humor.

John Aranda

Blog de literatura, música, poesía y filosofía.

Letras & Poesía: Literatura Independiente

Plataforma que promueve el trabajo de escritores independientes

A %d blogueros les gusta esto: