Este tipo de estudios se denomina diseño de experimentos, para el cual existen técnicas inferenciales especializadas. Sin embargo, desde el punto de vista de los conocimientos estadísticos incluidos en los Programas de Estudio de Matemáticas y de las habilidades que se pretenden desarrollar, es viable concretar un análisis descriptivo que le ayude al señor Mora a tomar la decisión. Una primera aproximación puede consistir en construir una distribución de frecuencias comparativa para la producción generada de las tres variedades de maíz.
Producción de maíz por parcela para las variedades Tico-V9, Diamantes y Guarare, para una muestra aleatoria de 30 parcelas por variedad.
Finca Carlos Mora, 2015
Tico-V9 Diamantes Guarare Producción de maíz (Kg) No. de parcelas Porcentaje de parcelas No. de parcelas Porcentaje de parcelas No. de parcelas Porcentaje de parcelas De 34 a menos de 38 - - 1 3,3 - - De 38 a menos de 42 1 3,3 3 6,7 - - De 42 a menos de 46 2 6,7 1 3,3 - - De 46 a menos de 50 6 20,0 2 6,7 - - De 50 a menos de 54 4 13,3 2 6,7 4 13,3 De 54 a menos de 58 6 20,0 4 13,3 8 26,7 De 58 a menos de 62 4 13,3 8 26,7 10 33,3 De 62 a menos de 66 4 13,3 4 13,3 6 20,0 De 66 a menos de 70 1 3,3 1 3,3 2 6,7 De 70 a menos de 74 2 6,7 2 6,7 - - De 74 a menos de 78 - - 0 0,0 - - De 78 a menos de 82 - - 1 3,3 - - De 82 a menos de 86 - - 2 6,7 - - Total 30 100 30 100 30 100
Fuente: Información recabada por el señor Carlos Mora, 2015
Del análisis del cuadro puede extraerse información muy importante para el estudio. En primer lugar, la producción de maíz por parcela resultó ser más variable para la variedad Diamantes y menos variable para Guarare. Pareciera que la producción tiende a centrarse entre los 50 y 66 Kg de maíz por hectárea: entre
3
4
Proyecto Reforma de la Educación matemática en Costa Rica, 2015
estos datos se presentan las frecuencias más altas para las tres variedades, aunque este rango incluye toda la producción generada por la variedad Guarare. La variedad Diamantes es la que presenta los valores de producción más altos en algunas parcelas, pero al mismo tiempo presenta los valores más bajos para otras parcelas. La variedad Tico-V9 presenta una particularidad, pues sus máximos porcentajes se obtienen en dos clases diferentes no contiguas, lo que representa una distribución bimodal (dos modas).
Los polígonos de frecuencia comparativos ayudan a visualizar mejor lo que se ha citado anteriormente:
Fuente: Información recabada por el señor Carlos Mora, 2015
Observe que las tres distribuciones son aproximadamente simétricas, y que la producción de la variedad Tico- V9 pareciera ser más baja que la correspondiente a las otras variedades. Por lo demás todo lo discutido arriba se ratifica en esta representación gráfica. Aunque se debe hacer notar que para llevar la información al señor Carlos Mora puede resultar más simple presentar el gráfico que el cuadro.
Es posible que el señor Mora requiera de mejores argumentos para tomar la decisión, por lo que se requiere complementar las representaciones anteriores con el uso de medidas estadísticas. Con el uso de una calculadora que tenga incorporadas funciones estadísticas básicas, se pueden determinar las siguientes medidas:
Proyecto Reforma de la Educación Matemática en Costa Rica, 2015
3
5
Producción de maíz por parcela para las variedades Tico-V9, Diamantes y Guarare, parauna muestra aleatoria de 30 parcelas por variedad. Finca Carlos Mora, 2015
Medidas
estadísticas Variedades de maíz
Tico-V9 Diamantes Guarare Promedio 55,07 58,87 58,73 Desviación Estándar 8,10 11,83 4,10
Fuente: Información recabada por el señor Carlos Mora, 2015
Esta información resulta relevante, pues muestra que la producción promedio por parcela en las variedades Diamantes y Guarare es muy similar; pero se demuestra una vez más que la producción media de Tico-V9 es la más baja. Además, existen grandes diferencias en la variabilidad de producción por parcela. Este hecho pareciera inclinar la balanza hacia la producción Guarare, pues los resultados de la muestra reflejan que en general la producción media es similar pero con mucha menor variabilidad, lo cual reduce el riesgo y da mayor tranquilidad al señor Mora.
Pese a ello, debido a la gran inversión que el señor Mora va a realizar, solicita que le ofrezcan elementos visuales más simples que puedan ayudar a tomar la mejor decisión. Una estrategia consiste en construir un diagrama de cajas con la información. Para ello se requieren calcular medidas estadísticas para las cuales los datos deben estar ordenados de menor a mayor:
No. de
parcela Tico-V9 Diamantes Guarare
No. de parcela Tico- V9 Diamantes Guarare 1 40 35 51 16 55 60 59 2 43 38 53 17 55 60 59 3 43 40 53 18 55 60 60 4 46 43 53 19 55 61 60 5 48 49 54 20 60 61 61 6 48 49 55 21 61 62 61 7 49 52 55 22 61 63 61 8 49 53 56 23 61 64 62 9 49 54 56 24 62 65 62 10 50 54 56 25 62 66 63 11 51 56 57 26 63 70 63 12 52 57 57 27 65 73 64 13 52 58 58 28 69 78 65 14 54 58 58 29 70 83 66 15 54 59 58 30 70 85 66
Se requiere identificar el mínimo y el máximo, los cuartiles 1 y 3, así como la mediana (que corresponde al segundo cuartil).
3
6
Proyecto Reforma de la Educación matemática en Costa Rica, 2015
Medidas Tico-V9 Diamantes Guarare Mínimo 40 35 51 Máximo 70 85 66 Recorrido 𝟕𝟑−𝟒𝟑=𝟑𝟎 𝟖𝟓−𝟑𝟓=𝟓𝟎 𝟔𝟔−𝟓𝟏=𝟏𝟓
Los valores mínimo y máximo simbolizan la menor y mayor producción de maíz entre las parcelas observadas, mientras que el recorrido representa la mayor diferencia en la producción de maíz entre las parcelas.
Una vez que los datos están ordenados, el cuartil m se ubica en la posición !!!!!, donde n representa el número de datos. De esta manera, el primer cuartil está en la posición !∙!"! =!"! =7,75. Entonces el primer cuartil se encuentra entre los datos siete y ocho. Por otro lado, el tercer cuartil se encuentra en la posición !∙!"
! =
!"
! =23,25, por lo que se sitúa entre el dato 23 y el dato 24.
Al tomar los valores de la base de datos ordenada de menor a mayor y ubicar los números de la posición 7 y 8, 23 y 24, se procede a promediarlos y completar esta tabla.
Medidas Tico-V9 Diamantes Guarare Primer cuartil 49+249=49 52+253=52,5 55+256=55,5 Tercer cuartil 61+262=61,5 64+265=64,5 62+262=62,0
Recorrido
intercuartílico 61,5−49=12,5 64,5−52,5=12,0 62,0−55,5=6,5
En el caso del primer cuartil, significa que el 25% de las parcelas tuvieron una producción inferior a los valores de la tabla valor (49 Kg en el caso de Tico-V9, 52,5 Kg en el caso de Diamantes y 55,5 Kg en el caso de Guarare) y el 75% tuvo una producción superior. En el caso del tercer cuartil, significa que el 75% de las parcelas tuvo una producción inferior a los valores de la tabla (61,5 Kg en el caso de Tico-V9 y de Diamantes y 62,0 Kg en el caso de Guarare).
El recorrido intercuartílico corresponde a la diferencia entre el percentil 75 y el percentil 25. Representa el rango de variación del 50% de producción central. Tico-V9 y Diamantes tienen un recorrido intercuartílico similar, mientras que en el caso de Guarare es mucho menor.
Proyecto Reforma de la Educación Matemática en Costa Rica, 2015
3
7
Por último la mediana puede utilizar la fórmula del segundo cuartil, o también considerar que el valor central es: 𝑀𝑒𝑑𝑖𝑎𝑛𝑎= 𝑋!!! ! 𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟 𝑋! ! +𝑋!! !! 2 𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟Como n = 30 es par, entonces la mediana es el promedio de los datos que están en la posición 15 y en la posición 16.
Tico-V9 Diamantes Guarare Mediana 54+55 2 =54,5 59+60 2 =59,5 58+59 2 =58,5
La mediana es el valor para el cual el 50% de las parcelas tiene una producción menor o igual a ese valor y el otro 50% tiene una producción mayor. La producción de Diamantes tiene una mediana ligeramente superior.
La información de estas medidas se puede resumir en un diagrama de cajas como el siguiente:
Siguiendo este esquema con los datos calculados arriba, se tendría que los diagramas de cajas para producción de maíz por parcela serían:
3
8
Proyecto Reforma de la Educación matemática en Costa Rica, 2015
Fuente: Información recabada por el señor Carlos Mora, 2015
Esta representación, combinada con los valores del promedio y la desviación estándar, constituye una herramienta fundamental para que el señor Carlos Mora cuente con argumentos sólidos con el fin de tomar una decisión acertada. De estos diagramas puede notarse que la variedad Diamantes presentó un rendimiento ligeramente superior a las otras variedades y las parcelas con más alta producción. Pero a la vez resulta la más riesgosa, con parcelas de muy baja producción. Por otro lado, la variedad Guarare tuvo en producción promedio y mediana un poco menos que Diamantes, pero su rendimiento fue muy homogéneo (poco variable) entre las parcelas observadas; por ello es que ofrece un menor riesgo. En cuanto a Tico-V9, el rendimiento central fue más bajo que las otras dos variedades, resalta el hecho de que tiene un recorrido intercuartílico similar a Diamantes, pero sus valores extremos tienen una menor dispersión.
En resumen, si debe elegir una sola variedad de maíz, el análisis descriptivo indica que debería seleccionar Guarare.
Actividad 10
Suponga que Fidel Villaverde tiene una finca que dedica al cultivo de maíz, contigua a la que adquirió el señor Carlos Mora. Cuando se dio cuenta del experimento que realizaba don Carlos, decidió cultivar 30 parcelas con la variedad Godo que regularmente ha cultivado en su propiedad. Le dio el mismo mantenimiento a las parcelas que el señor Mora.
Proyecto Reforma de la Educación Matemática en Costa Rica, 2015
3
9
Producción de maíz por parcela para la variedad Godo para una muestra aleatoria de 30parcelas. Finca Fidel Villaverde, 2015
Medidas
estadísticas Producción por parcela(Kg.) Promedio 56,10 Mediana 58,0 Desviación Estándar 15,24
Fuente: Información recabada por el señor Fidel Villaverde, 2015
A pesar de que esta variedad tuvo un rendimiento promedio mucho menor que las tres variedades que cultivó don Carlos Mora, presenta una menor mediana y una mayor desviación estándar. Fidel le insiste al señor Mora en que la variedad que mejor le conviene para su finca es Godo.
a) ¿Qué opinión tiene usted sobre las afirmaciones del señor Villaverde?
b) En estas circunstancia ¿qué recomendaría usted al señor Mora?
Análisis de la actividad 10
En primera instancia, pareciera que los datos obtenidos no respaldan al señor Villaverde, por lo que se podría pensar en que la mejor alternativa para la finca sigue siendo Guarare. No obstante, hay una relación entre los datos que debe llamar la atención para generar un estudio más detallado. Se trata de la diferencia entre el valor promedio y la mediana. Diferencias enormes entre el promedio y la mediana son un indicador de que la distribución de los datos es asimétrica.
Asimetría positiva Asimetría negativa Simétrica
Cuando la distribución de los datos es asimétrica, el promedio debe ser analizado con mucho cuidado pues se encuentra afectado por la presencia de los datos extremos que sesgan su valor.
En este caso, según los datos proporcionados por el señor Villaverde, el promedio es menor que la mediana, lo que puede hacer suponer que los datos tienen asimetría negativa. Si esto fuera así, es preferible solicitar más información al señor Villaverde para poder complementar el estudio y tomar una decisión con mayor propiedad.
Si no se puede tener acceso a los 30 datos, sería adecuado solicitar información sobre los valores máximo, mínimo y los cuartiles.
4
0
Proyecto Reforma de la Educación matemática en Costa Rica, 2015
Suponga que el señor Villaverde suministra la siguiente información:
No. de
parcela Godo parcela No. de Godo parcela No. de Godo
1 3 11 57 21 62 2 5 12 57 22 63 3 51 13 57 23 65 4 51 14 57 24 66 5 52 15 58 25 66 6 53 16 58 26 67 7 54 17 59 27 67 8 54 18 59 28 68 9 56 19 60 29 70 10 56 20 61 30 71
Al analizar estos datos, se observa que en dos parcelas la producción fue demasiado baja, apartándose de la producción de las restantes parcelas. Se consultó a don Fidel sobre el comportamiento de estos valores: aparentemente un ganado por accidente se comió una buena parte de las plantas. Ante esta situación, estas parcelas deberían ser eliminadas del estudio y las medidas estadísticas deben ser calculadas sin tomar en cuenta estos valores.
Producción de maíz por parcela para la variedad Godo para una muestra aleatoria de 28 parcelas. Finca Fidel Villaverde, 2015
Medidas Producción por parcela(Kg.) Promedio 59,82 Desviación estándar 5,83 Mínimo 51,00 Primer cuartil 56,00 Mediana 58,50 Tercer cuartil 65,50 Máximo 71,00
Fuente: Información recabada por el señor Fidel Villaverde, 2015
Nota: Se eliminaron dos parcelas cuya producción se vio afectada por elementos externos
Proyecto Reforma de la Educación Matemática en Costa Rica, 2015
4
1
Fuente: Información recabada por los señores Carlos Mora y Fidel Villaverde, 2015
Para las variedades Tico V9, Diamantes y Guarare se analizó la producción de una muestra fue de 30 parcelas, para Godo la muestra fue de 28 parcelas
Observe que al eliminar los valores de parcelas dañadas, la distribución de la producción Godo presenta ahora asimetría positiva con un promedio superior a las otras variedades, aunque tiene una variabilidad ligeramente mayor a Guarare. El hecho de presentar asimetría positiva resulta favorable, pues los sesgos a la derecha que se puedan presentar significarían una mayor producción. Por esto que se podría decir que el señor Fidel Villaverde tenía razón al recomendar la variedad Godo, al menos con los resultados que reflejan las muestras aleatorias. En los experimentos realizados esta variedad tuvo una producción superior, aunque nuevamente se debe tener presente que el estudio es eminentemente descriptivo y no se ha determinado si las diferencias encontradas son estadísticamente significativas.
Los problemas planteados en las últimas dos actividades son un ejemplo del cuidado que debe tener una persona al momento de efectuar un análisis estadístico. Las representaciones tabulares, gráficas o las mismas medidas estadísticas deben ser analizadas desde un punto de vista crítico, pues podrían generar un mensaje confuso e incluso llevar a errores en la toma de decisiones. Por esta razón, muchas veces se requiere combinar estas técnicas en busca de una mejor interpretación del problema. Los datos individuales también requieren ser revisados, pues muchas veces hay valores que no representan adecuadamente el fenómeno estudiado, tal como ocurrió con las parcelas que debieron descartarse del estudio del señor Villaverde. Es común que ocurran estos hechos en donde algunos valores atípicos responden a sesgos en los datos, ya sea por mediciones o por razones externas, tal como ocurrió en este caso.