TRANSFORMACIONES DE LOS DATOS - Experimentación en agricultura

Una de las soluciones más habituales para lograr que los datos (residuales) se ajusten a una distribución normal es realizar una transformación de la variable dependiente. Esto es parti- cularmente importante cuando la heterogeneidad del error (heterocedasticidad) es de tipo re- gular, es decir, las varianzas están relacionadas de alguna manera con las medias.

Con frecuencia la transformación logra el doble objetivo de normalidad y aditividad de los datos. En estos casos, los análisis realizados con los datos transformados son perfecta- mente válidos. Cuando se hace una transformación, todas las comparaciones o las estimaciones de los intervalos de confianza deben hacerse en la escala transformada. Para la presentación de los resultados, las medias deben transformarse volviendo a la escala origi- nal, pero no es apropiado hacer lo mismo con los errores estándar o varianzas.

Si existen dudas sobre la transformación más adecuada es necesario examinar la relación entre varianzas y medias y elegir la transformación para la cual esta relación sea mínima. No obstante, cuando no es posible hallar una transformación que normalice los datos, deben usarse otros métodos de análisis, como la ponderación de las medias de acuerdo con sus varianzas o utilizar test no paramétricos.

A continuación se comentan las transformaciones más comunes. Logarítmica [log(Y)]

El uso de esta transformación, o bien de su recíproca [-1/log(Y)], está indicado cuando los datos presenten una distribución muy sesgada a la derecha o a la izquierda; o bien, cuando las desviaciones típicas (no las varianzas) son proporcionales a las medias, o cuando el efecto de los factores es multiplicativo, en lugar de aditivo. Si existen valores pequeños, menores que 10, y especialmente ceros, es más adecuada la transformaciónlog(Y+1).

Raíz cuadrada [ Y ]

Esta transformación, o su recíproca [-1/ Y ], es aplicable cuando las varianzas son proporcionales a las medias, lo que ocurre a menudo cuando estamos tratando con conteos o re- cuentos de acontecimientos poco comunes, cuyos datos tienden a seguir una distribución especial, denominada distribución dePoisson. En este caso, los datos presentan una distri- bución moderadamente sesgada a la derecha, o a la izquierda, respecto a la curva normal. Cuando existen valores por debajo de 10, y especialmente cuando hay ceros, es mejor utilizar la transformación [ Y + 0.5].

Inversa [1/Y]

Se utiliza para casos poco comunes en los que los datos presentan una elevada variabilidad y las varianzas son proporcionales a las medias elevadas a 4. Los datos presentan una dis- tribución fuertemente sesgada a la derecha (J invertida) o a la izquierda (en forma de J). Esta transformación también precisa que sumemos una cantidad a cada valor, por ejemplo 1, si existen ceros.

Angular o Arcoseno [arcsen Y/100]

Cuando los datos son proporciones o porcentajes de la muestra total, tienen una distribución binomial en vez de una distribución normal. En los datos binomiales, las varianzas tienden a ser pequeñas en los dos extremos de los intervalos de valores (cercanos a 0 y a 100%), pero mayores en el medio (alrededor del 50%). La transformación apropiada para este tipo de datos, especialmente cuando las proporciones o los porcentajes cubren un intervalo am- plio de valores, es seno-1 Y o arcoseno Y. Cuando el intervalo de porcentajes está entre 0

y 20, o bien entre 80 y 100, pero no ambos, se recomienda la transformación raíz cuadrada. En este caso, los porcentajes entre 80 y 100 deberán restarse de 100 antes de hacer la transformación. Si el intervalo de porcentajes se sitúa entre 30 y 70, es dudosa la necesi- dad de transformación.

Escalas pretransformadas

En numerosos experimentos agronómicos, la variable dependiente es una variable cuantitativa continua que se podría expresar como porcentaje (incidencia de plantas enfermas, tejido afectado, etc.), pero que resulta muy difícil y engorroso su determinación exacta. En estos casos, es una práctica habitual para realizar un mayor número de mediciones en un tiempo dado, hacer estimaciones visuales aproximadas de los porcentajes, en vez de efectuar mediciones precisas. Estas estimaciones se hacen utilizando una escala de 0 a n, donde el cero representa ausencia de enfermedad o de control, y n indica el 100%. Las escalas varían en función de los objetivos del trabajo, desde simples, que incluyen 3 o 4 valores, hasta escalas más sofisticadas con más de 10 valores. Si los peldaños de dicha escala representan in- crementos iguales de porcentajes, los datos deben ser transformados mediante la transformación angular, como se ha indicado para los porcentajes.

Una alternativa a lo indicado sería pretransformar la escala, es decir, escoger escalones de porcentajes tales que al aplicarles la transformación angular resultaran en números enteros de la escala. Otras veces, los valores enteros de la escala se refieren a porcentajes transformados, mediante log(Y ), log(Y/(1-Y ), u otras funciones similares, que asumen el hecho de que es más fácil detectar pequeñas diferencias en las inmediaciones de 0 y 100% que alrededor del 50%. Al analizar los datos basados en este tipo de escalas, éstos no deberían ser transformados, aunque habría que comprobar que se cumplen las características de una distribución normal.

Con las diferentes escalas se convierte una variable cuantitativa continua (porcentaje) en una variable cualitativa ordinal, ya que los datos sólo pueden tener unos cuantos valores enteros, correspondientes a los diferentes peldaños de la escala. Se viola, por tanto, uno de los fun- damentos del ANOVA, el que establece que la variable medida debe ser cuantitativa (continua o discreta). Ello ha llevado a algunos autores a proponer otras alternativas de análisis en estos casos, como los métodos no paramétricos. No obstante, el uso de las escalas ha sido muy popular en algunas disciplinas, por lo que han sido y son todavía ampliamente utilizadas en los análisis paramétricos. El gran desarrollo que han experimentado recientemente los métodos no paramétricos, unido a la disponibilidad de software que facilita su aplicación in- cluso en diseños complicados, posibilitará que en un futuro próximo los datos medidos con escalas se analicen mayoritariamente utilizando tests no paramétricos.

Otras transformaciones

Las transformaciones expuestas anteriormente son las más usadas para los datos de experimentos agronómicos. No obstante, otras transformaciones pueden deducirse tras un cui- dadoso examen de los datos. Así, si la distribución de los datos no es simétrica y hay una mayor concentración en el lado derecho y la cola en la izquierda, se puede utilizar la trans- formación Y2_{, que comprime la escala para valores pequeños y la expande para valores altos.}

Datos periféricos o raros (“outliers”)

Cuando se encuentran valores inusualmente grandes o pequeños respecto al conjunto de los valores observados, la opción más correcta es averiguar si se trata de un error y corregirlo. Si hay motivos fundados para sospechar que se trata de un error, pero resulta impo- sible corregirlo, debería tratarse como dato perdido y realizar el ANOVA con el valor(es) estimado(es) con la consiguiente pérdida de uno o varios grados de libertad. Cuando el “outlier” no se debe a ningún error, existen métodos para determinar si debería o no incluirse en el análisis. En caso de duda, se realizarían los análisis con y sin los “outlier”, con los datos transformados y sin transformar, para ver el efecto de dicho cambio en los resultados. Los programas estadísticos actuales disponen de opciones para visualizar los datos que permi- ten detectar con facilidad la existencia de estos “outliers” y que deberían consultarse siem- pre antes de realizar el análisis.

In document Experimentación en agricultura (página 58-60)