Análisis de datos en el estudio de variabilidad espacial intralote

(1)

los cultivos a escala fina, se genera un gran volumen de datos que presenta un interesante desafío respec-to al desarrollo de técnicas Estadística y de Computa-ción para su análisis.

El óptimo uso de esta

información depende

fuertemente de las capa-cidades para explorar los datos que se obtienen. La capacidad de contar con i n f o r m a c i ó n de una gran cantidad de sitios dentro de un mismo lote en pro-ducción no sólo para variables de cultivo sino también para otras como son las topográficas y las de suelo, genera datos con estructuras particulares, disponiendo de datos es-paciales (con localización en el espacio) y multivaria-dos (más de una variable por sitio).

El manejo sitio-específico demanda el uso de infor-mación acerca de la varia-bilidad espacio-temporal presente en los lotes de manera de delimitar zonas que expresan una combi-nación relat ivamente homogénea no sólo del La agricultura mundial

enfrenta el desafío cons-tante de aumentar la pro-ducción agrícola en res-puesta a la creciente de-manda alimentaria de la población. Con el objetivo de producir alimentos de manera eficaz pero con-servando el medio am-biente, la agricultura sos-tenible surge como el único medio de pro-ducción de ali-mentos para el futuro. La agricultura de precisión tiene como objetivo el monitoreo y ma-nejo de la varia-bilidad espacial y temporal dentro de los lotes en producción. Conocer la varia-bilidad espacial y

cómo ésta se mantiene o cambia con los años, per-mite ajustar prácticas de manejo agronómico a las necesidades del cultivo, reducir el impacto ambien-tal y aumentar la competi-tividad del sistema pro-ductivo a través de un uso eficiente de los insumos. Bajo este enfoque la agri-cultura de precisión surge como una alternativa pro-metedora para favorecer una agricultura sostenible (Corwin y Lesch, 2010).

La agricultura de precisión es un conjunto de técnicas orientado a optimizar el uso de los insumos agríco-las (semilagríco-las, agroquímicos y correctivos) en función de la cuantificación de la variabilidad espacial y temporal de la producción agrícola (Mantovani et al., 2007).

La observación de la exis-tencia de variabilidad in-tralote de las propiedades o factores determinantes de la producción es ya una práctica instalada en nu-meroso lotes debido a los miles de monitores y equi-pamiento de agricultura de precisión ya en uso (Bragachini et al., 2008). Sin embrago con el desa-rrollo de la tecnologías de maquinarias de agricultura de precisión y de sistemas de sensores remotos a partir de los cuales tam-bién pueden monitorearse

Estadística y Biometría, Facultad de Ciencias Agropecuarias, Universidad Nacional de Córdoba-CONICET, Córdoba, Argentina.

estudio de variabilidad

espacial intralote

Contenido: Inicio 1 Análisis de conglomerados 2 ACP 3 CART 3 Análisis espacial multivariado 4 Consideraciones finales 5 Bibliografía 5

Córdoba Mariano, Bruno Cecilia y Balzarini Mónica

Puntos de interés especial:  Agricultura de Preci-sión  Manejo sitio-especifico  Geoestadística  Análisis multivariado  Análisis multivariado espacial Fuente: www.advancedcropmanagement.com/yeild.html

Inicio

(2)

rendimiento sino también de otros factores como son tex-tura, topografía o nivel de nutrientes.

Los análisis tradicionales de datos espaciales se basan en técnicas de estadístico-computacionales conocidas como Geoestadística o Ge-omática.

Los métodos geoestadísticos surgieron a partir de los años sesenta, especialmente en el área de la Geología y Minería, con el propósito de predecir

valores de las variables en sitios no muestreados, luego de muestrear intensivamente sobre una grilla de puntos sobre el área problema. Las técnicas se basan en el concepto de autocorrelación-que indica la presencia de correlaciones o similitudes mayores entre observaciones pertenecientes a sitios más cercanos en el espacio. El análisis geoestadístico tradicional se aborda variable a variable. Por ello, puede

resultar difícil la interpreta-ción de la variabilidad con-junta causadas por las rela-ciones entre variabilidad del rendimiento y de otras varia-bles como podría ser propie-dades de suelo.

Para comprender la relación entre las variables medidas a escala fina y los rendi-mientos obtenidos conse-cutivamente en una zona del lote, se propone el uso de técnicas multivariadas.

sitio-específicas.

Análisis de conglomerados Se usa con el objetivo de agrupar sitios dentro de lote de manera tal que los sitios

en un grupo son mas pareci-dos entre si que los sitios en distintos grupos. Consiste en una serie de algoritmos ma-temáticos que realizan el

agrupamiento de las observa-ciones basados en similitudes o distancias multivariadas, es decir teniendo en cuenta va-rias variables simultáneamen-te. Un software basado en el análisis de conglo-merado, especialmente desarrollado para la delimitación de zonas de manejo es el difun-dido como MZA, por sus siglas en inglés Mana-gement Zone Analyst (Fridgen et al., 2004). El software utiliza el algoritmo no supervisa-do fuzzy k-means y permite realizar si-multáneamente varias clasificaciones de zonas de manejo (ZM), lue-go, el usuario puede seleccionar la canti-dad de zonas para la delimitación final usando dos índices: 1) el índice de desempeño del gra-do de ambigüedad (Fuzziness Performance Index, FPI) y 2) entropía de clasificación

nor-Ilustración del uso de técnicas multivariadas para la

delimitación de zonas de manejo sitio-específicas

El uso de Estadística Multiva-riado permite un mejor en-tendimiento de cómo cambia o varían los rendimientos dentro de un lote en produc-ción (variabilidad espacial). Al analizar los datos de manera multivariada es posible detectar rela-ciones o estructuras en los datos que facilitan la interpretación de las complejas relaciones que subyacen la reali-zación de un rendi-miento particular. A continuación se men-cionan algunas de las técnicas multivariadas que podrían ser usadas para mejorar la inter-pretación de datos pro-venientes de la agri-cultura de precisión como son el análisis de conglomerados o cluster

componentes principales y los árboles de clasificación y regresión. Todas ellas pue-den ser usada para la delimi-tación de zonas de manejo

“La estadística

multivariada es

usada para

describir y

analizar

mediciones de

varias

variables

conjuntamente”

Mapa de rendimiento

Figura 1: Mapa de variabilidad espacial mostrando posibles zonas de manejo sitio-específicas (círculos azules y rojos) obtenidos a partir de un análisis de conglomerado. Longitud L a ti tu d 5799000 5799200 5799400 5799600 5799800 5800000 5576400 5576600 5576800 5577000 5577200 1.0 1.5 2.0 2.5 3.0 Fuente: www.agronota.com/ Noticia.php?id=159

(3)

malizada (Normalized Classi-fication Entropy, NCE). Fridgen et al. (2004) reco-miendan elegir el número de ZM que haga que los niveles de los índices (FPI y NCE) se minimicen.

En la Figura 1 se observa un mapa de rendimiento con dos zonas de manejo sugeri-das por el MZA. Los datos usados corresponden a 7576 sitios monitoreados en un lote donde se registró no solo el rendimiento de soja (RtoSj) y trigo (RtoTg) de una campaña agrícola sino también la conduc-tividad eléctrica aparente a 30 cm (CEa30) y 90 cm

Los datos fueron gentil-mente provistos por los Ingenieros Costa y Pe-ralta del EEAA INTA Bal-carce.

Análisis de componen-tes principales (ACP) Esta técnica multivariada permite identificar las variables que explican la mayor parte de la va-riabilidad total conte-nida en los datos, ex-plorar las correlacio-nes entre variables y reducir la dimensión del aná-lisis al combinar todas las variables en nuevos índices

nados componentes princi-pales (CP) (Balzarini et al., 2008).

Un primer resultado del ACP se puede visualizar en un gráfico denominado biplot, el cual permite representar, de manera óptima, la variabili-dad entre los sitios del lote y las variables que mejor ex-plican las principales varia-ciones.

En la Figura 2 se presenta un gráfico biplot generado usando como ejes coordena-dos a las coordena-dos primeras com-ponentes principales (CP1 y CP2 ). Los puntos represen-tan los sitios monitoreados

vectores que se dibujan des-de el origen des-del gráfico re-presentan las variables. Aquellas con vectores de mayor proyección sobre el eje I, son consideradas como

para explicar la variabilidad de los datos. Dos variables se

orientan para la misma direc-ción cuando la correladirec-ción entre ellas es positiva y en sentido opuesto si la correla-ción es negativa. El Biplot de Figura 2 muestra que donde la CEa30 es alta, los rendi-mientos son más bajos. El eje 1 (CP1) siempre se interpreta como el eje de mayor importancia para ex-plicar la variabilidad total de los datos y puede ser usado en sí mismo como una varia-ble para mapeo de variabili-dad espacial (Figura 3). Así el mapa de la Figura 3

repre-senta las principales varia-bles simultáneamente. Arboles de clasificación y regresión (CART)

Los árboles de clasificación y de regresión, conocidos co-mo algoritco-mos CART (del inglés classification and re-gression trees; Breiman et al., 1984), particionan de manera binaria y recursiva al conjunto de datos en función de la variabilidad o heteroge-neidad de una variable indi-cada como respuesta, por ej. el rendimiento, y de otras variables indicadas co-mo explicativas. En cada instancia de partición el algoritmo analiza todas las variables explicativas y selecciona una para realizar la partición bi-naria de los datos. La seleccionada es aquella que permite conformar dos subgrupos de datos

homogéneos dentro del nodo que entre nodos. Los árboles de regresión permiten predecir el valor de una variable respuestas del tipo continuo como el ren-dimiento medido en pesadas. Mientras que los árboles de clasifi-cación predicen el valor de una variable de clasificación como podría ser el rendi-miento clasificado en pobre, medio y alto. En la Figuras 4 y 5, se representan dos árbo-les binarios generados a par-tir de los algoritmos CARTs en los datos de nuestra ejemplificación.

Roel y Plant (2004) utilizaron éstos algoritmos para deter-minar los factores subyacen-tes en la distribución de los conglomerados utilizados para discernir los patrones

“Los mapas de variación espacial construidos a partir de la primera componente principal ponen de manifiesto variabilidad en sentido multivariado”

Figura 2: Biplot del ACP: Variabilidad de 7.576 sitios de un lote y correlaciones entre conductividad eléctrica aparente a 30 cm (CEa30) y rendimiento de soja (RtoSj) y de trigo (RtoTg). -5.0 -2.5 0.0 2.5 5.0 CP 1 (34.5%) -5.0 -2.5 0.0 2.5 5.0 CP 2 ( 2 3 .2 % ) (2 3 .2 % ) CEa3 CEa9 RtoSj RtoT CEa30 CEa90 Elevación RtoSj RtoTg -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 Variable de rinde -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 V a riab le d e s u e lo s u e lo Longitud L a ti tu d 5799000 5799200 5799400 5799600 5799800 5800000 5576400 5576600 5576800 5577000 5577200 -3 -2 -1 0 1 2 3 4

Figura 3: Mapa de variabilidad espacial obtenido a partir de la primera componente principal del ACP

(4)

espacio-temporales del ren-dimiento de grano.

En ambos tipos de árboles se observa la importancia de la con-ductividad eléctrica del suelo en la explicación de los rendimientos (primera variable parti-cionante o clasificadora del total de sitios). La mayoría de las técnicas multivariadas no han sido desarrolla-das explícitamente para manejar datos espacia-les, por lo cual la com-binación de la infor-mación multivariada obtenida desde cada sitio del lote y su posición se realiza a posteriori

sis multivariado. Un aspecto común a

estas técnicas multivariadas, usualmente utilizadas en agricultura de precisión, es que no tienen en cuenta las relaciones debidas a estructuras espaciales en el cálculo de las zonas de manejo sitio específicas ya que no han sido diseñados para detectar estas es-tructuras espaciales. Sin embargo existen formas de incorporar esta infor-mación espacial a los métodos multivariados a través del uso de varia-bles sintéticas obtenidas a partir de la combina-ción de variables origi-nales utilizando méto-dos geoestadísticos clásicos (Córdoba et al., 2011a).

Análisis espacial multiva-riado

En los últimos años se han desarrollado técnicas que permiten incorporar la

infor-mación espacial a priori. Es-tas han sido desarrolladas en

el ámbito del análisis de da-tos genéticos moleculares

(sPCA; Jombart et al., 2008) y para el estudio de estructuras espaciales en la composición de comunidades vegetales (MULTISPATI; Dray et al., 2008). MULTISPATI ha sido

utilizado para la evaluación de patrones espaciales de propiedades de suelo a nivel de una región (Arrouays et al., 2011) y recientemente para la delimitación de zonas de manejo a escala de lote (Córdoba et al.,

espacial multivariado se basa en el índice de Moran para medir la dependencia o correla-ción espacial entre las observaciones introdu-ciendo una matriz de pesos espaciales estan-darizada por fila, per-mitiendo estudiar las relaciones entre las variables medi-das (análisis multi-variado) y su estruc-t u r a e s p a c i a l

Finalmente, a partir de las variables sintéticas con la información espacial

incorpo-rada a priori, se pueden confeccionar los mapas de variabilidad espacial como se muestra en la Figura 6. “La incorporación de la autocorrelación espacial a priori permite detectar las relaciones subyacentes entre las variables que no son detectadas cuando se tiene en cuenta a posteriori” Longitud L a ti tu d 5799000 5799200 5799400 5799600 5799800 5800000 5576400 5576600 5576800 5577000 5577200 -4 -3 -2 -1 0 1 2 3

Figura 6: Mapa de variabilidad espacial obtenido a partir de la primera componente principal del MULTIS-PATI-PCA.

Árbol de clasificación (Izquierda) particionando 7576 sitios de un lote de acuerdo a la relación entre las categorías de rendimiento de los sitios y las variables del suelo repre-sentada por la conductividad eléctrica aparente a los 30 cm (ECa30) y 90 cm (ECa90). Se muestran los valores de umbral y la distribución de la categor-ía de rendimiento en cada nodo (negro: rendimiento alto, gris: rendi-miento medio, blanco: rendirendi-miento bajo).

Figura 5: Arbol de regresión particionando 7576 sitios de un lote de acuerdo a la relación entre el rendimiento de los sitios (como variable continua) y las variables del suelo representada por la conductividad eléctrica aparente a los 30 cm (ECa30) y 90 cm (ECa90). Se muestran los valores de umbral y la distribución del rendimiento en cada nodo. ECa30<=24.53 mS m-1 (n=2776) ECa30>24.53 mS m -1 (n=4800) EC a90<=28.78 mS m-1 (n=2293) EC a90>28.78 mS m-1 (n=2507) Sitios (n=7576) ECa30<=24.53 mS m-1 (n=2776) ECa30<=24.53 mS m -1 (n=4800) EC a90<=28.78 mS m-1 (n=2293) EC a90<=28.78 mS m-1 (n=2507) Sitios (n=7576)

ECa30<=24.53 mS m-1

(n=2776)

ECa30>24.53 mS m

-1

(n=4800)

EC a90<=28.78 mS m-1

(n=2293)

EC a90>28.78 mS m-1

(n=2507)

Sitios

(n=7576)

ECa30<=24.53 mS m-1

(n=2776)

ECa30<=24.53 mS m

-1

(n=4800)

EC a90<=28.78 mS m-1

(n=2293)

EC a90<=28.78 mS m-1

(n=2507)

Sitios

(n=7576)

(5)



Los métodos multivariados están siendo ampliamente utilizados en la actualidad debido a que se cuenta con recursos computacionales que permiten realizar los mismos de manera rápida y eficiente



Dado que los recursos computacionales no son una limitante, se pueden aplicar este tipo de análisis a grandes volúmenes de datos como los que prove-en las nuevas tecnologías de la agricultura de preci-sión en las que se miden varias variables para un mismo sitio en múltiples sitios.



Los modelos geoestadísti-cos clásigeoestadísti-cos, son modelos paramétricos que exigen una distribución normal de los datos y la presencia de un determinado nivel de homogeneidad de varianza entre las variables. El no cumplimiento de estas exi-gencias puede acarrear problemas a la hora de analizar los datos.



Los algoritmos multivaria-dos flexibilizan el problema

de los supuestos plantea-dos por los modelos pa-ramétricos.



Existen una gran cantidad de software estadísticos disponibles que permiten realizar distintos análisis multivariados. A nivel na-cional, existe el software estadístico InfoStat (Di Rienzo et al., 2011), con un entorno amigable, para el cual existe una versión gratuita con las mismas prestaciones que la versión profesional y se encuentra d i s p o n i b l e e n www.infostat.com.ar. Tam-bién es posible utilizar el s o f t w a r e l i b r e R (www.cran.r-project.org), pero en éste caso, es nece-sario contar con un cierto entrenamiento en progra-mación.



La generación de mapas a partir de los resultados obtenidos de los análisis multivariados es posible realizarla con técnicas geo-estadísticas clásicas. Para ello existen librerías en R como gstat o geoR. Tam-bién se pueden utilizar diferentes software

comer-ciales como Surfer, Idrisi o ArcGis, por nombrar algu-nos, los cuales ofrecen diferentes módulos para análisis geoestadísticos.



Algunos resultados en al análisis de datos de agri-cultura de precisión han demostrado que la incor-poración de la autocorrela-ción espacial a priori per-mite detectar las relaciones subyacentes entre las va-riables que no son detecta-das cuando se tiene en cu en t a a p o s t er io r i

et al., 2011b).



Actualmente, los datos

georreferenciados son ana-lizados con modelos es-tadísticos contemporáneos como los modelos lineales mixtos (MLM) capaces de contemplar las correlacio-nes producidas por la va-riación espacial (Balzarini et al., 2002; Schabenberger y Pierce, 2002; Casanoves et al., 2005; Gili et al., 2011). Estos modelos constituyen herramientas prometedoras para el tratamiento de da-tos correlacionados espa-cialmente.

Balzarini, M.G., González, L., Tablada, M., Casanoves, F., Di Rienzo, J.A., Roble-do, C.W., 2008. Manual del Usuario. Brujas, Córdoba, Argentina. Bragachini, M., Mendez, A.,

Scaramuzza, F. 2008. Monitor de Rendimiento y Conocimientos de Calibración. Disponible en Internet: http:// www.agriculturadeprecisi on.org/Activo mayo 2011 Breiman, L., Friedman, J.H.,

Olshen, R.A., Stone, C.J., 1984. Classification and regression trees. Chap-Arrouays, D., Saby, N.P.A.,

Thioulouse, J., Jolivet, C., Boulonne, L., Ratié, C., 2011. Large trends in French topsoil characte-ristics are revealed by spatially constrained multivariate analysis. Geoderma, 161, 107 114.

Balzarini, M., 2002. Applica-tions of Mixed Models in Plant Breeding. In: Quan-titative Genetics, Geno-mics, and Plant Breeding. M. S. Kang (ed.). CABI Publishing, U.K., pp. 353 365.

man and Hall, New York. Casanoves, F., Macchiavelli,

R., Balzarini, M., 2005. Error variation in multi-environment peanut trials: within-trial spatial correlation and between-trial heterogeneity. Crop Science 45, 1927 1933. Córdoba, M., Bruno, C.,

Cos-ta, J., Balzarini, M., 2011a. Identifying homo-geneous zones in crop-ping fields via multivaria-te algorithms. Comp. Electron. Agric. In Review. Córdoba, M., Bruno, C., Cos-ta, J., Balzarini, M.,

Bibliografía

"Biometry, the

active pursuit

of biological

knowledge by

quantitative

methods." R.A.

Fisher.

(6)

Dirección postal:

Cátedra de Estadística y Biometría, Facultad de Ciencias Agropecuarias. UNC. CP 5000. CC 509 Av. Valparaiso s/n- Ciudad Universitaria. Córdoba, Argentina.

Teléfono: +54 351 4334103 ext 219 fax: Fax: +54 351 4334118 ext 114

zonas de manejo sitio-específicas. 40º Jornadas Argentinas de Informáti-ca, 3º Congreso Argenti-no de AgroInformática. Córdoba.

Corwin, D.L., Lesch, S.M., 2010. Delineating Site-Specific Management Units with Proximal Sen-sors. In: Geostatistical Applications for Precision Agriculture. Oliver M.O. (ed), Springer, Nether-lands, pp.139 165. Di Rienzo, J.A., Casanoves, F.,

Balzarini, M.G., Gonzalez, L., Tablada, M., Robledo, C.W., InfoStat versión 2011. Grupo. InfoStat, FCA, Universidad Nacional de Córdoba, Argentina.

URL http://

www.infostat.com.ar. Dray, S., Said, S., Debias, F.,

2008. Spatial ordination of vegetation data using a generalization of Warten-berg's multivariate spatial correlation. J. Veg. Sci. 19,45 56.

Fridgen, J.J., Kitchen, N.R., Sudduth, K.A., Drum-mond, S.T., Wiebold, W.J., Fraisse, C.W., 2004. Ma-nagement Zone Analyst (MZA): Software for

Sub-field Management Zone Delineation. Agron. J. 96,100 108.

Gili., A.A., Noellemeyer, E.J., Balzarini, M., 2011. Hie-rarchical Linear Mixed Models in multi-stage sampling soil stdies. J. Agric. Biol. Envir. S. In Press.

Jombart, T., Devillard, S., Dufour, A.B., Pontier, D., 2008. Revealing cryptic spatial patterns in genetic variability by a new multi-variate method. Heredity 101, 92 103.

Mantovani, E.C., Carvalho Pinto, F.A., Marçal de Queiro D., 2007. Intro-ducción a la agricultura de precisión. En: Agricul-tura de Precisión: Inte-grando conocimientos para una agricultura mo-derna y sustentable. Bon-giovanni R., Mantovani E.C., Best, S., Roel, A. (ed.), PROCISUR/IICA. Montevideo, Uruguay, pp. 15 22.

Roel, A., Plant, R., 2004. Fac-tors underlying yield va-riability in two California rice fields. Agron. J. 96, 1481 1494.

Schabenberger, O., Pierce F.J., 2002. Contemporary sta-tistical models for the

plant and soil sciences. Taylor and Francis. CRC Press, Boca Raton, Florida.

Los autores agradecen espe-cialmente a los Ing. Agr. José Luis Costa y Nahuel Peralta, de la EEA INTA Balcarce por pro-veer los datos a partir de los cuales se ilustraron las técnicas de análisis multivariadas pre-sentadas.

Datos de Contacto: Ing. Agr. Mariano Córdoba. Profesor Ayudante, Cátedra de Estadística y Biometría. Becario CONICET.