ESPECI AL I DAD EN
METODOS E S T A D I S T I C O S
ESTADISTICA MULTIVARIADA APLICADA
A LA CIENCIA Y TECNOLOGIA DE IOS ALIMENTOS
Trabajo recepcional que como requisito
parcial para obtener el diploma de esta
Especialidad presenta:
ERYCK ROMEO SILVA HERNANDEZ
TUTOR : DR. Mario Miguel Ojeda Ramírez
DATOS DEL AUTOR.
Eryck R. Silva Hernández nació en Xalápa, Veracruz en 1966. Realizó sus estudios de
primaria, secundaria y preparatoria en su ciudad natal; en 1984 se trasladó a la ciudad de
Monterrey, N.L. en donde efectuó sus estudios profesionales obteniendo, en 1988, el título de
Ingeniero Bioquímico Administrador en Procesado de Alimentos otorgado por el Instituto
Tecnológico y de Estudios Superiores de Monterrey. Ha trabajado en la industria alimenticia
de Monterrey, N.L. y Xalapa, Ver., además de dedicar gran parte de su tiempo a la docencia.
Actualmente es investigador y catedrático en el área de tecnología de los alimentos dentro de
la Universidad Veracruzana, además de impartir clases a nivel bachillerato y ser propietario
AGRADECIMIENTOS.
Agradezco a la Universidad Veracruzana el apoyo financiero recibido como beca
para la realización de los estudios de especialidad. También deseo agradecer las facilidades
brindadas por los miembros de la Unidad de Investigación y Desarrollo de la Leche (UNIDEL)
del Instituto de Ciencias Básicas de la Universidad Veracruzana para la elaboración de este
trabajo recepcional. Así mismo, quiero agradecer infinitamente al DR. Iñigo Verdalet Guzmán
y al DR. Mario Miguel Ojeda Ramírez por sus insistentes motivaciones que me han llevado a
El Comité Académico de la Especialidad en Métodos Estadísticos, y el respectivo tutor
del trabajo recepcional, autorizan la impresión y constitución de tribunales para la defensa.
jé Ma/uáaé, Xèvm y ¿/i^cÁ
j " m y
INDICE
CONTENIDO
Pag.
INTRODUCCION Y JUSTIFICACION 1
OBJETIVOS 3
1. QUE ES CIENCIA Y TECNOLOGIA DE LOS ALIMENTOS 4
2. TIPOS DE PROBLEMAS EN LA CIENCIA Y TECNOLOGIA DE
LOS ALIMENTOS QUE NECESITAN ANALISIS ESTADISTICO 7
3. ESTADISTICA Y ANALISIS DE DATOS 13
3.1 El Método Estadístico 13
3.2 Tipos de variables y tipos de datos 15 3.3 Fases del análisis estadístico de datos 17 3.4 Análisis de datos y paquetes computacionales 19 3.5 Interpretación de resultados y elaboración de informes 21 3.6 Problemas de Estadística Multivariada 22
4. ESTADISTICA MULTIVARIADA DESCRIPTIVA \ 23
4.1 Matrices de datos 24
4.2 Descripciones marginales 25
4.3 Descripciones bivariadas 31
4.4 Estadísticas descriptivas multivariadas 41 4.5 Matrices de incidencia y tablas de contingencia 44 4.6 Comparación gráfica multivariada de individuos 48 4.7 La técnica de los componentes principales 59 4.8 La técnica de correlación canónica „ 73 4.9 El análisis de correspondencias' — -- 82
4.10 Las técnicas de agrupamiento 94
5. ESTADISTICA MULTIVARIADA INFERENCIAL 102
5.1 Principios de la inferencia estadística 102 5.2 La distribución normal multivariada 103 5.3 Exploración de normalidad multivariada 104 5.4 Análisis de varianza Multivariado (MANOVA) 104
5.5 Análisis discriminante 114
6. UN EJEMPLO INTEGRAL 130
ESTADISTICA MULTIVARIADA
APLICADA A LA CIENCIA Y TECNOLOGIA DE LOS ALIMENTOS
INTRODUCCION Y JUSTIFICACION
En el medio de los investigadores y los profesionales de las más diversas áreas, en los
países donde se habla el idioma español, existe una creciente necesidad dé disponer de
bibliografía referente a la Estadística Multivariada. Las razones son diversas y múltiples, pero
destaca la importancia, cada vez mayor, que las técnicas multivariadas van adquiriendo en el
análisis de datos de encuestas de estudios observacionales y profesionales de las más
diversas especialidades, los cuales, digamos que, están prestos a la utilización de tales
herramientas. Si se considera el hecho de que la proliferación en el uso de paquetes
computacionales pone a disposición de un gran publico la metodología estadística
multivariada, se puede pensar que un amplio sector estaría interesado en contar con un texto
de Estadística Multivariada, el cual haga énfasis en los aspectos metodológicos sin invadir la
presentación y discusión de temas teóricos, y considerando la disponibilidad actual de
recursos computacionales.
En otros idiomas, principalmente en inglés, existe una abundante bibliografía sobre
Estadística Multivariada, pero incluso, hay muy pocos ejemplos de^ textos que estén
concebidos y se hayan realizado en esta línea con fuerte,énfasis enJos“ ''a'spTcfos prácticos''
para la adecuada aplicación de la metodología. Se podría afirmar que, en este sentido, se
reconoce una necesidad que va más allá de las fronteras del propio idioma español. El
responsable de esta propuesta ha trabajado en docencia e investigación dentro del área de la
Ciencia y la Tecnología de los Alimentos, y se ha dado cuenta de la impetuosa necesidad de
la existencia de bibliografía de Estadística Multivariada donde se ataquen problemas reales
INTRODUCCION^
INTRODUCCION
en su rama de estudio. De esta manera, este texto sería de utilidad suprema para auxiliar a
estudiantes, tesistas, investigadores o cualquier persona interesada en la Estadística
Multivariada aplicada a la Ciencia y Tecnología de los Alimentos.
El presente estudio pretende dar una idea general de los principales Métodos
Estadísticos Multivariados que son aplicables a problemas de la Ciencia y Tecnología de los
Alimentos. Lo anterior se ha desarrollado, en primer término, explicando brevemente el
fundamento estadistico.de cada uno de los Métodos Multivariados. incluidos en el trabajo; en
segundo, resolviendo abundantes ejemplos del tema alimenticio en cuestión, y por último, se
hace especial énfasis en la parte interpretativa que en muchas ocasiones es excluida de los
textos de esta índole o, en el mejor de ios casos, se incluyen interpretaciones de resultados
de temas>muy específicos.y diferentes a los aplicables en la Ciencia y Tecnología de los
Alimentos.:'
OBJETIVOS
OBJETIVOS
Contribuir al ascervo bibliográfico de la Estadística Multivariada con un texto constituido de manera intergada, con abundantes ejemplos que hagan referencia a situaciones concretas y de manera autocontenida que logre cubrir básicamente los siguientes requisitos:
1. Escrito en un lenguaje claro y que haga alusión a situaciones diversas que 'comunmente se presentan eri próblerrias de la ciencia y tecnología délos alimentos.'
2. Autocontenido y que presente extensiones de los métodos estadísticos univariados a los multivariados.
3. Que cubra un amplio espectro de la técnicas multivariadas; presentándolos aspectos teóricos correpondientes con la mínima notación matemática, pero sin evadir el rigor mínimo para lograr una comprensión de los fundamentos y supuestos bajo los que se logra una buena aplicación de estos procedimientos.
4. Desarrollado bajo el enfoque del Análisis de Datos, que considera las fases descriptiva-exploratoria e inferencial como dos fases consecutivas e integradas en muchas situaciones de aplicación de los métodos estadísticos en general.
5. Que presente abundantes ilustraciones con datos reales y las distintas formas encaminarlos para describir y/o explicar el fenómeno en cuestión,, de tal forma que sea un auxiliar idóneo, como texto o libro de consulta para cualquier persona interesada en la estadística multivariada aplicada a la ciencia y tecnología de los alimentos.
I. CIENCIA Y TECNOLOGIA DE LOS ALIMENTOS
1. ¿QUE ES CIENCIA Y TECNOLOGIA DE LOS ALIMENTOS?
Dicen que cuando una persona empieza a leer algo como lo que en este momento
estás leyendo, lo hace por interés o porque se lo encargaron. Supongamos que estás leyendo
estas líneas porque tienes interés en conocer qué es la Ciencia y la Tecnología de los
Alimentos y olvida que te encargaron leer esto, te aseguro que te va a gustar.
Ya que te has decidido a seguir leyendo, debo suponer que no tienes una idea definida
o te gustaría tener otra opinión de lo que es Ciencia y Tecnología de los Alimentos.
No olvides que...
Ciencia de los Alimentos;
Es todo el estudio y conocimiento referente a las propiedades
componentes y comportamientos físicos, químicos, biológicos, nutricionales y organoléptico!
de los alimentos y sus aditivos, auxiliares tecnológicos, empaques y maquinaria de
procesamiento.
Por supuesto que debes considerar los aspectos intermedios y/o derivados como lo
son las características fisicoquímicas, bioquímicas, biofísicas y microbiológicas.
I. CIENCIA Y.JECN.OLOGIA DE LOS ALIMENTOS
Date cuenta que la ¡dea principal de la definición anterior es
simplemente "el estudio ^conocimiento", y en ningún momento se menciona la aplicación de
ello. La Tecnología-de los Alimentos es la que se encarga de esa aplicación. De acuerdo al
Instituto de Técnicos en1 Alimentos (I.F.T.), una sociedad de profesionales que se dedican a la
alimentación,'agricultura';? nutrición y salud en todo el mundo, la Tecnología de los Alimentos
se define como:
No olvides que...
Tecnología de los Alimentos:
Es la aplicación de la ciencia e ingeniería a la producción, procesamiento
empaque, distribución, preparación y usos de los alimentos.
Ahora que se ha definido lo que es la tecnología de los alimentos, te habrás dado
cuenta que esta rama de la ciencia abarca un amplio espectro de estudio y aplicación, por lo
que los alcances de esté texto sólo intentarán dar una idea general de los problemas más
comunes en los que se aplica la Estadística Multivariada.
I. CIENCIA Y TECNOLOGIA DE LOS ALIMENTOS
A través del texto, te darás cuenta que los ejemplos que más abundan son los
referentes al estudio de la leche y los productos lácteos, esto es debido a que el autor se ha
desempeñado principalmente en esta rama. Sin embargo, muchos de los problemas que se
presentan en los estudios de la leche y sus productos, son análogos a otros que se presentan
en diversas investigaciones de tecnología dé alimentos.
2. TIPOS DE PROBLEMAS EN LA CIENCIA Y TECNOLOGIA DE LOS
ALIMENTOS QUE NECESITAN ANALISIS ESTADISTICO
El desarrollo de la ciencia y tecnología de los Alimentos, como en muchas otras ramas
del conocimiento, se ha incrementado muy rápidamente en el último siglo, principalmente
debido a problemas y necesidades que van surgiendo conforme cambian las Situaciones
sociales, políticas y/o culturales de los consumidores. Podemos señalar al respecto las
siguientes necesidades:
a) EI aumento en la velocidad de vida
b) La preocupación por alimentaciones especiales para bebés, ancianos,
deportistas, enfermos, etc.
c) La crisis hambruna
d) EI cuidado de la figura
e) La importancia de controlar la calidad de los alimentos
f) La necesidad por encontrar alimentos más nutritivos a bajos costos
g) La innata curiosidad del hombre por conocer más, etc.
II. TIPOS DE PROBLEMAS
De manera general,- todos los problemas de ciencia y tecnología de los Alimento:
pueden ser clasificados en tres categorías:
1. Problemas de Control
2. Problemas de Optimización
3. Problemas de Caracterización
m m m m t | " ’ v m S fm D VEilÁGlUZÁNA I
.
II. TIPOS DE PROBLEMAS
1. Control:
Cuando comemos algún alimento y nos gusta, por lo general regresamos en otro
momento y lo compramos de nuevo. Lo anterior considerando que nos ha agradado el sabor,
el precio y la calidad higiénica. No obstante, si en una subsecuente compra notamos que
algunos de los aspectos anteriores se han modificado-para nuestro desagrado, es difícil que
en otra ocasión lo volvamos a comprar.
Por ejemplo, supongamos que te gustan las nieves de limón que venden en el kiosko
del pueblito cercano a tú ciudad y que las has comprado por años; sin embargo, un dia te
encuentras conque le faltó azúcar a la nieve, o se pasaron de sabor, o ahora le ponen
coloranté ó te encontraste una hormiga o te hizo daño el habértela comido; con seguridad no
volverás a comprar nieve de ese lugar.'Con el ejémpló anterior, deseo que te des cuenta que
el cotroL de ía fcálidad; én ios ingredientes y elaboración de los productos alimenticios es
fundamental. ' ! • - • - ^
De manera formal, los problemas de control en alimentos se basan en comparar los
productos elaborados con normas preesablecidas, las cuales pueden ser dictadas por
organismos gubernamentales,..de la iniciativa privada o de la misma compañía donde se
elaboran, todo con el objetivo de mantener una calidad tanto nutricia, como organoléptica e
higiénica.
II. TJPOS. DE PROBLEMAS
Norma Oficial, Mexicana. t ,
En pocas palabras, el control de alimentos quiere decir que cuando, bebas una "Coca
cola", siempre te sepa a "Coca cola"; que cuando comas una hamburguesa, "Me Qpnalds",
siempre te sepa a hamburguesa "Me Donalds"; o que cuando consumas leche pasterizada y
no te ha hecho daño, siempre suceda lo mismo.
2. Optimización: ,, . ; , ,v .
"Regenerarse o morir", dicta un dicho muy famoso que resume los prqblemas. de
otimización que surgen en el área alimenticia. Continuamente los cambios en las necesidades
de los consumidores y la influencia de los competidores, hacen que la optimización d e ,
procesos y /o formulaciones de los alimentos en las empresas tanto del Estado, como de .la.
iniciativa privada, sea una de sus principales preocupaciones, ya que la no innovación y no
desarrollo científico ni fenològico trae consigo graves consecuencias donde una compañía
podría incluso desaparecer.
En una sociedad con una economía como la nuestra, la otimización dentro de la
industria alimenticia, o incluso a nivel académico, se resume a dos conceptos: tiempo y costo.
Costo
II. TIPOS DE PROBLEMAS
Loé problemas de optimización! en elarea de los alimentos incluyen varios aspectos,
tales com o:
á)Mejorar un* proceso
b) Creár un nuevo proceso
c) Méjorar una formulación •
d) Crear una nueva formulación
e) Aprovechar los desechos alimenticios
f) Reciclar los envases y embalajes de los alimentos, etc.
La optimización requiere idea
; En términos sencillos, la otimización en la rama alimenticia quiere decir que si el precio
del café bajó porque en Brasil tuvieron una buena producción, se deben mejorar las
tecnologías; en México para hacer más eficientes los procesos; también que si el precio de la
pectina que se emplea' en- la-fabricación de mermeladas aumentó demasiado, es necesario
buscar alternativas en el uso de otras gomas más poderosas y baratas, y que además den a
nuestra mermelada una consistencia aceptable; o incluso, que si a muchas personas les
gustan los dulces de leche, pero son diabéticos, formular un dulce con características
similares, pero sin azúcar.
II. TIPOS DE PROBLEMAS:
3. Caracterización.
La cocina mexicana es considerada la tercera mejor del mundo;, sólo por debajo de la
China y la Francesa, cosa que debe ser un gran orgullo para los mexicanos. Sin embargo., Ja
gran diversidad en platillos ha generado el problema de conocer con exactitud los
ingredientes empleados, la forma de elaboración, su inocuidad o toxicidad, su valor nutritivo e
incluso sus características físicas, fisicoquímicas, microbiológicas, .. reológicas y
organolépticas. De acuerdo a lo anterior, es de pensarse que no existen. datos que
caractericen a muchos productos alimenticios, no sólo mexicanos,; sino ,en muchos otros
países del mundo. *
Cuando las características de una alimento son normalizadas, por lo general se crea
una ley dónde se indican los aspectos tanto fisicoquímicos (para saber que realmente se trata
del producto que nos están vendiendo), como toxicológicos y sanitarios que debe cumplir tal
producto para poderse considerar como seguro.
En los Estados Unidos, la Administración de Alimentos y Drogas (F.D.A.), es la
principal encargada de normalizar los alimentos y aceptarlos V ho corfio1 G R.A.S.
(Generalmente Recomendados Como Seguros). En México, lá encargada.de legislar ías
cuestiones de índole alimenticia es la Secretaría: dé Salubridady ?Asisténcia (S'.S:A;)rsih
embargo, aún existen’ gratfes deficietíciás en las llamadas' Norrhaé1 Oficiales,'ya que por ló
fe :.í' ‘ • II. TIPOS-DE
PROBLEMAS-Caracterizar quita dudas
De . una . rrianera simple, se puede decir que la solución de los. problemas, de
cqractenzapjójn qs útij^para, saber qué tiene .de nutritivo algún alimento ,que. puede ser. tan
exótico como lo sería la iguana, los chapulines, la leche de oveja, el, queso de tuna, los
escamóles (larvas de hormiga) o los gusanos de maguey.
No olvides que...
En. resumen, los problemas en.la ciencia y,tecnología de los alimentos en los que se
requiere de la Estadística Multivariada pueden ser:
1. De Control, donde se evalúan los datos del problema comparándolos .
con normas preestablecidas.
fe;: : 2. De otimización, en los cuales se diseñan productos o tecnologías
-V . nuevas o de mejoramiento sobre los ya existentes.
3; De caracterización, en los cuales se tratan de determinar los estándares .
de un producto o tecnología que no tiene norma oficial o no existe
bibliografía sobre él.
III. ESTADISTICA. Y ANALISIS DE DATOS
3. ESTADISTICA Y ANALISIS DE DATOS .
3.1 El Método Estadístico
Dentro de las funciones más importantes de la Estadística para resolver
problemas del área alimenticia se encuentran las de descripción y las de inferencia. Para
llegar a desarrollar lo anterior, se ha sugerido seguir una serie de pasos que faciliten el logro
de tales objetivos: el método estadístico.
,Ante todo usa tú sentido común
De manera general, y con toda la prudencia que el sentido común proporcionan, el
Método Estadístico se basa en lo siguiente: . ;
a) ldentificación del problema. , : '
En este caso se precisaría el tipo de problema que se involucra, „tal y como se
clasificaron en el tema de "tipos de problemas dentro de la, ciencia y. tecnologia . de los
alimentos que necesitan análisis estadístico multivariado". estudiado con anterioridad. Esto,
con la finalidad de establecer las metas que.se desean, lograr y no trabajar, en,aspec.tos que
pudieran ser irrelevantes. - .
b) Planeación del muestreo,
Este aspecto tan importante en el método estadístico muchas veces es olvidado por no
un-.-análisis- estadístico para un problema específico‘recurren ál especialista cuándo' yá han
recopilado-su información. Sin embargo; és necesario destacar quéunápláhéáción respecto
al-num eróle muestras^ tomar, del método de recopilación de datos, del entrenamiento de
muestreadores, etc.’ aüxiliáría én gran médidá la eficiencia de recursos y la confiabilidad de
los resultados.
-c) Administración y captura de los datos. :
-En este punto, después de la recopilación de la información, los datos se acostumbran
vaciar en formatos preestablecidos para facilitar su visualización, corrección y/o codificación
antes de ser capturados en computadora,
d) Análisis estadístico exploratorio.
La determinación de las medidas de tendencia centra! (media, mediana, etc.) y de
dispersión (desviación estándar, varianza, coeficiente de variación, etc.) para'cada variable,
así como sus representaciones gráficas (gráficos de cajas, tallos y hojas, etc.) auxilian a
formarse una idea del comportamiento univariado del problema.
■’ ‘ ! - » 1 ■ • • “ ‘ - • • ; • ' ■ •
III/ESTADÍSTrdÁ'Y'ÁN'ALISIS DE'DATOS
Posteriormente, se aconseja obtener las estadísticas descriptivas bivariadas
(coeficientes de correlación, pruebas de "t", etc.), así como gráficos bivariados (gráficas de
dispersión, gráficas de cajas comparadas, etc.) para contribuir aún más sobre el conocimiento
del problema y planear los métodos multivariados más adecuados para la evaluación y/o
descripción del fenómeno en cuestión.
e)Análisis estadístico inferencial.
Con las estadísticas del análisis exploratorio,, se pueden obtener ciertas conclusiones
importantes, sin embargo, cuando el problema es multivariado, la aplicación e interpretación
de métodos estadísticos de este tipo, tales como Análisis de Componentes Principales,
Análisis de Correlación . Canónica, Análisis, de.Varianza. Multivariado¡ Análisis de Clusters,
Análisis Factorial de Correspondencias, etc. nos llevan finalmente, a resumir y hacer
inferencias con una confiabilidad mayor que las que pudieron realizarse-mediante- las
estadísticas univariadas y bivariadas, ya que el problema.es concluido de una manera global
y no parcial. »- >
3.2 Tipos de variables y tipos de datos . -v, - t*
a)Tipos de variables.
Las variables que se estudian en la ciencia y tecnología de los alimentos incluyen al
olor, sabor, color, variables de composición, temperatura, tiempo, etc. las cuales pueden ser
agrupadas en dos categorías:
Variables numéricas:
Son las que para su medición se emplea una escala que incluye números, tales"
como tiempo (5 min., 2 hrs., 5 días.), contenido proteico (2%, 5.6 g.), temperatura (72°C,
200F), humedad (80 %), colonias de bacterias (5 000 colonias, mas de 100 000 colonias), etc.
Variables Alfa-numéricas:
Son aquellas en las que su medida no se obtiene al compararse con una escala
numérica, como son el color (verde, amarillo, rojo), el sabor (amargo, dulce, salado, ácido),
textura (suave, duro), etc.
En algunas ocasiones, las variables alfa-numéricas se codifican para facilitar su
análisis convirtiéndolas en numéricas; por ejemplo, verde=1, am arillo^, rojo=3, etc . Incluso,
algunas variables como la textura pueden ser evaluadas sobre una escala numérica: muy
suave=1, mas suave que duro=2, más duro que suave=3, duro=4, etc.. También es posible
III. ESTADISTICA Y ANALISIS DE DÁTOS
que variables tradicionalmente alfa-numéricas como el color, sean medidas con equipos que
sustituyen el ojo-humano, como sería ún espectrofotómetró o colorímetro convirtiéndolas en
variables numéricas.. <
b)Tipos de datos.
Las variables pueden tomar cuatro tipos de valores: ordinales, nominales, de intervalo
y de razón o proporción.
Datos ordinales:
” Son los que se pueden ordenar de mayor a menor y viceversa; por ejemplo en
las siguientes variables: sólidos solubles (80°brix > 60°brix > 40°brix), salinidad (poco salado,
salado, muy salado, extremadamente salado).
III: ESTADISTICA*Y; AN AL ISIS DE DATOS
Datos nominales:
r . • Son aquellos que sólo tienen nombre y no se pueden ordenar de mayor a
menor, o viceversa, pqr ejemplo las. variables de sabor de diferentes naranjas (ácida, amarga,
dulce, astringente),.:el olor del queso (a fresco, a leche, a establo, a vaca, a madurado, a
pútrido), etc... ^ .
No es ordenable, es nominal
III. ESTADISTICA Y ANALISIS DE DATOS
Datos de intervalo:
• Se presentan cuando los valores numéricos fluctúan dentro de un rango, por
ejemplo: punto de fusión de una grasa (De 21 a 25°C), punto crioscópico.-de. la* leche no
alterada (De -0.053 a -0.055°C), tiempo de coagulación de leche para quesería (De 30 a 40
min.), etc.
Datos de razón o proporción:
Se consideran de este tipo los datos que están asociados a un valor de
referencia, por ejemplo los que tienen unidades en porcentaje, partes por millón (ppm) o
aquellas variables como densidad relativa (densidad de una alimento, entre densidad de otro
alimento de referencia como el agua), contenido calórico (calorías por gramo), etc.
3.3 Fases del análisis estadístico de datos
El orden es de suma importancia en e l análisis estadístico, ya que la abundancia de
datos y/o resultados no ordenados puede desencadenar confusiones tanto de origen de los
datos o resultados, como de interpretación de estos últimos.
Por lo anterior, es recomendable seguir una estrategia dé orden, desarrollando el
análisis estadístico de lo simple, a lo complejo; de lo ^exploratorio, a lo inferencial; de lo
univariado, a lo multivariado y siempre anotando ordenadamente los resultados; relevantes
para no tener que repetir análisis irrelevantes o erróneos. Recuerda que el sentido común es
III. ESTADISTICA' Y ANALISIS DÉ DATOS
De manera general, las fases del análisis estadístico son:
1, Análisis exploratorio de los datos.
Esto implica observar las tablas de datos y determinar cuál o cuáles variables deben
ser codificadas; o de acuerdo al estudio a efectuar, qué acomodo deben tener las bases de
datos. Es posible que también se necesiten transformaciones de variables, en fin, hay que
poner atención en los" objetivos que se desean lograr dándose primeramente una'idea de lo
que se puede desarrollar con los datos. ,
Posteriormente, se recomienda que se obtengan las siguientes estadísticas:
Univariadas:
a) Estadísticas descriptivas básicas
b) Gráficas de dispersión por variable
" Bivariadas:*
-1 r -' ^Estadísticas de asociación entre pares de variables
d) Gráf¡cas de dispersión y asociación Multivariadás:
e) Análisis de Componentes Principales
•! 3 • ' ; ; : f)Análisis de Correlación Canónica
g) Análisis de Clusters - ^ t —
h) Análisis Factorial de Correspondencias, etc.
;
* Debidb a que en la actualidad existen computadoras lo suficientemente veloces para
efectuar todos estos :ahálisis ‘éxploratorios en muy poco tiempo, no se considerará que los
análisis sólo lleguen hasta este punto, sino que se complementen con los análisis de
inferencia estadística
Después de realizados los análisis exploratorios, y darnos una idea más concreta del
problema, o incluso haber llegado a conclusiones importantes, se procede a realizar la
inferencia estadística;
III. ESTADISTICA Y ANALISIS DE. DATOS
2. Análisis estadístico inferencial.
: Con el apoyo de las estadísticas exploratoriás, se apoya la descripción de la naturaleza
y/o comportamiento del fenómeno en estudio y aunque es posible que en este momento se
tenga suficiente información para explicar la solución del problema,. en algunas ocasiones es
conveniente realizar algunos de los siguientes análisis multivariados.
a) Análisis de Varianza
Multivariado-b) Análisis Discriminante, etc.
3.4 Análisis de datos y paquetes computacionales - i
i El análisis estadístico multivariado es aquel en el que se analizan problemas, en donde
1 '
las variables respuesta son dos o más; debido a esto, la complejidad, de los. cálculos llega a I
ser tal, que sería impráctico e inexacto querer desarrollarlas a mano o incluso con calculadora
I '
simple. Afortunadamente, en nuestros días existen computadoras Ip suficientemente I
desarrolladas como para realizar los cálculos de las estadísticas multivariadas a través de l
paquetes computacionales conocidos como Paquetes Estadísticos. I
! '
1 Muchas de las técnicas multivariadas que se estudiarán en este texto, ya habían sido I
desarrolladas matemáticamente desde antes de la mitad de.este siglo, no obstante, tuvieron
qué pasar varios años para que la tecnología lograra desarrollar el "hardware" (la maquinaria)
IH '^S Y A D ÍS flG ^ Y ^A N Á ü álé^H 'D A T O á*
En el mundó^éxísten'infinidad de paquetes estadísticos, programados para cumplir
objetivos específicos y generales. Los existen muy complejos, o muy sencillos; útiles para las
ciéncias'ágronómieas; o'de humanidades, en fin, hay para todas las necesidades aunque
hing'únó 'is'pe^ectó. Lós paquetes1 éstádísticos qué se emplearán para-‘analizar los datos en
este estudio serán:
a)SAS
r b ) é b ió
c) STAT-ITC
d) SYSJAT
e) SYSTAT PARA WINDOWS
Este último paquete (SYSTATW5), por su formato interactivo, es recomendable para
aquellas personas que no han tenida contacto con ningún paquete estadístico. Por esta
razón, la salida de los resultados de la computadora se realizarán principalmente en este
paquete; sin embargo debes tener en cuanta que ningún paquete te ofrece todas las técnicas
que existen en los métodos estadísticos multivariados.
*
III. ESTADISTICA Y; ANALISIS.BE DATOS*
3.5 Interpretación de resultados y elaboración de informes
La interpretación de los resultados en estadística debe ser una actividad
multidisciplinaria, por ejemplo, si se ha realizado un estudkr sobre la lactancia humana, los I
insultados de esta investigación deben ser evaluados tanto por un Estadístico, como por un i •
Nutriólogo, como un Médico, como, un Tecnòlogo en Alimentos o incluso por un Psicólogo o i
Antropólogo, entonces se tendrá una mayor confiabilidad en la;.interpretación de los
! '
resultados.
-En realidad, lo importante al momento de la interpretación de los resultados de la
estadística multivariada, es que se reúnan el experto en el tema y un Estadístico. . . ..
La. elaboración de informes de los resultados en ocasiones .es complicada pprque.unq,
no está seguro de qué o cuánto incluir; sin embargo, existe una regla que/si la rg u e s te
facilitará la realización de estos informes:
"El principal objetivo de la Estadística es el presentar resultados confiables con tablas
y/o gráficas entendibles" (Jambu, 1989)
# Nunca incluyas datos irrelevantes, conclusiones demasiado obvias o gráficas que sólo
el experto entiende.
i 1I. ESTADISTICA-Y ANALISIS DE DATOS
3.6 Problemas de Estadística Multivariada
■ La ciencia y tecnología de los alimentos presenta una problemática que involucra, en la
mayoría'de los casos fenómenos multivariantes, los cuales se pretende sean explicados por
medio de las ■estadísticas obtenidas a través de técnicas multivariadas. En general, los
problemas dé la estadística multivariada buscan, entre otros aspectos: f
a) Explicar la variabilidad del problema con un mínimo de variables
b) Encontrar relaciones multivariadas
c) Jerarquizar las variables
d) Determinar asociaciones múltiples entre observaciones y variables
e) Evaluar las diferencias y/o similitudes entre grupos de observaciones
f) Clasificar-las observaciones, etc.
Recuerda que...
En resumen, la aplicación de los métodos estadísticos multivariados pretenden minimizar la magnitud los problemas y explicarlos de la manera más simple, pero completa.
IV. ESTADISTIC A MULTI VARI ADA-DESCRIPTI VA
4. ESTADISTICA MULTIVARIADA DESCRIPTIVA
Durante la elaboración de un alimento como lo es el pan, se desarrollan una increíble
cantidad de cambios, que en.ocasiones ni notamos-..Por-ejemplo-,-pensemos- en la masa: ésta
se prepara con harina, agua , azúcar, polvo para hornear (carbonato de sodio), sal (cloruro de
sodio), levadura y quizá algunos ingredientes más; imagina ahora que la amasamos para que
se mezclen los ingredientes y la dejamos reposar para que se desarrolle la «levadura; Después
del reposo, procedemos a formar los panes y enseguida a hornearlos, para que en pocos
minutos obtengamos un delicioso pan.
-Es posible que pienses que idealizamos el proceso del pan, pero en realidad ;cuando
se han cuidado todas las variables que pudieran afectar las características del pan, no tiene
porqué salir diferente. Sin embargo, seguramente has notado que ni en la panadería más
cuidadosa el pan "les sale" siempre igual, esto es debido a que por.ser el pan un sistema de
varios componentes, sus respuestas a diferentes estímulos cambian de manera global y no
sólo de variable por variable. En otras palabras, si por ejemplo la temperatura .dehhorno es
más elevada de lo adecuado, esto se traducirá en quemadura del almidón, caramelización de
los azúcares, volatilización del cloro de la sai, deshidratación, carbonización del glúten y una
infinidad de reacciones más que conllevan a que las características deseables del pan como
lo son sabor, textura, aroma; color, apariencia, etc , se vean afectadas:' ■ ;v, -,-r
En resumen, cuando a un sistema alimenticio (como el pan) se le aplica un estímulo
(como el aumento de calor) y dicho sistema da una mezcla de respuestas, se dice entonces
IV: ESTAD! STÍüA ‘MULTtVARIADÁ DESCRIPTIVA
4.1 Matriz de datos ’ ' 1 ■ i • -
--Una matriz de datos es una tabla rectangular donde sus renglones (filas) contienen a
los individuos y las columnas a las variables. Sin más preámbulo, la siguiente tabla
representa una matriz de datos.
VARIABLES INDIVIDUOS
í
Color Olor Sabor Textura
f ' .
Preferencia global
Lucia . 1 2 2 1 1
.María 4 1 5 4 3
Kevin 5 . 5 4 5 4
■David 2 4 1 2 2
Marisol 4 2 2 5 3
.Tomás ■ 1 3 4 3 3
^Beto 2 5 3 2 3
.Javier 3 .2 5 4 3
¿Guadalupe 5 4 4 1 3
Conchita 1 1 2 2 1
tabla 4.1. Resultado del análisis organoléptico de galletas de amaranto.
Observa que en la matriz de datos anterior cada renglón contiene los resultados del
análisis efectuado por cada una de las personas que probaron las galletas. A cada renglón, es
decir a cada individuo le asignaremos la letra "I" (mayúscula) con un subíndice ("i") que
indica el número de individuo. Así, Lucía sería "I-]", María "l2", Kevin "l3", y así sucesivamente
hasta llegar a "ln" donde "n" es el número total de individuos, que en este caso es diez (n=10).
' ' A diferencia dé las filas en donde sé emplea la letra "I", ahora asignaremos una letra
"X" (mayúscula) a cada columna y le agregaremos un número como subíndice ("j") para
identificar a cada variable. De esta manera, en el ejemplo que estamos manejando la
variable "Color" sería "X1", "Olor" "X2", hasta llegar a las p-variables. El valor de "p"
representa el número total de variables, que en nuestro ejemplo es de cinco (p=5).
IV. ESTAQISTICA MULTIVARIADA DESCRIPTIVA
Los valores de respuesta de la tabla se representan por una, .letra "x" .(minúscula),
seguido de dos subíndices (i,j), correspondientes al renglón y columna respectivamente, Por
ejemplo, "X3 2" corresponde al individuo, 3 (Ke.vin) y la variable 2 (olor), es decir, el valor 5.
De manera general, una matriz de datos se representa por:,
INDIVIDUOS
VARIABLES X<\ x 2 ...Xj •
x p . . . .
h X11 x12 x1j x1p
!2 X21 x22 x2j x2p
'i Xi1 xi2 ...Xjj - xip
• ■ • *
3 : • . ::4 : í
m Xn1 xn2 ■■■xnj ...Xnp
4.2 Descripciones marginales
Recuerdas que ,en páginas anteriores manejábamos el, .aspecto de que los análisis
estadísticos deben desarrollarse con el mayor orden posible, bueno pues de acuerdo a esto,
comenzaremos a estudiar la primera parte ,exploratoria, do la estadística, la cual se le conoce
lV y ^ fÀ b iS flb À l l^ tJ L tW À R tò A DESbRIPTÍVÁ'
El análisis univariado pretende formarse una idea de las características específicas dél
problema; ño :dé“ fñanera geñeral, sino'variables por'variable'. Déñtró" dé éste'estudio se
inclüyérí dbs-clasksdé" parámetros: " "
a) De tendencia central (media, moda, mediana.).
b) De dispersión (desviación estándar, varianza, coeficiente de correlación)! "
Con estos dos tipos de valores conoceremos el comportamiento o tendencia de cada
variable para tomar una decisión posterior acerca de cuáles son las técnicas más apropiadas
para el análisis multivariado.
Ejemplo 4.1.
A continuación se presentan los resultados porcentuales del análisis fisicoquímico del
suero de quesería de leche de oveja Chiapas, y se desea elaborar un análisis marginal de
eilos. ' ^ ;
No. oveja Grasa Proteina Cenizas Sol. Totales Humedad Lactosa
1 0.35 1.01 0.98 6.45 93.55 4.11
2 0.55 1.22 0.75 7.36 92.64 4.84
3 0.40 1.17 0.89 7.38 92.62 4.92
4 0.50 1.30 1.15 7.94 92.06 4.99
5 0.20 1.23 1.07 7.42 : 92.58 4.92'
6 0.30 0.98 0.96 6.59 93.41 4.35
7 0.35 0.88 0.93 7.14 ' 92.86 4.98 '
...- 8 0.40 1.07 0.82 6.77 93.23 4.48
9 0,45 - 1.13 0.89 =. 7.44 , 92.56 4.97 ■
10 0.50 1.22 0.86 7,71 92.29 5.13
11 0.30 1.26 0.96 7.52 92.48 5.00
12 0.20 1.17 1.03 7.44 92.56 5.04
13 0.45 1.23 1.02 7.39 92.61 4.69
14 0.45 0.96 0.99 6.57 93.43 4.17
15 0.50 1.11, 1.15 7.58 92.42 . 4.82
Tabla 4.2. Composición tisicoquimíca porcentual del suero de leché de oveja Chiapas.
IV. ESTADISTICA MULTIVARIADA DESCRIPTIVA
Análisis 4.1 , . . . ,. ...
. Para desarrollar con mayor facilidad el análisis,y empezar,a acostumbrados al. uso de
los paquetes estadísticos, los datos se han capturado en el paquete estadístico "SYSTAT"
para Windows, tal y como aparecen en la matriz de datos anterior.
A continuación se presenta la salida de computadora del paquete SYSTAT para las
estadísticas básicas del ejemplo empleando la opción "Quick Descriptives Statistics"
(Estadísticas Descriptivas Rápidas): . ..»
SYSTAT FILE VARIABLES AVAILABLE TO YOU ÁRE: “
OVEJA GRASA PROTEINA CENIZA SOLTOTAL
HUMEDAD LACTOSA
C:\SYSTATW5\SUERO.SYS
TOTAL OBSERVATIONS: 15
OVEJA GRASA PROTEINA CENIZA SOLTOT
N OF CASES 15 15 15 15 15
MINIMUM 1.000 0.200 0.880 0.750 6.450
MAXIMUM 15.000 0.550 1.300 1.150 7.940
MEAN 8.000 0.393 1.129 0.963 7.247
STANDARD DEV 4.472 '0.108 : 0.125 - - 0.113 • : - 0.447
HUMEDAD LACTOSA
N OF CASES 15 ' 15
MINIMUM 92.060 4.110
MAXIMUM 93.550 5.130
MEAN 92.753 4.761
STANDARD DEV 0.447 0.327 '
Observa que ésta opción sólo obtiene los siguientes parámetros:
Número de casos Valor Mínimo Valor máximo
Media ;
Desviación estándar
IV> ESTADISTICA MULTIVÂRIADA DESCRIPTIVA
Sin embargo, si se desea todas: las estadísticas marginales/se emplea la opción
"Statistics" (estadísticas) y se marca el cuadro "AH" (todas). Para el nuestro ejemplo, la salida
por computadora de "todas" las estadísticas es la siguiente:
C:\SYSTATW5\SUÉRO.SYS
TOTAL OBSERVATIONS: 15
OVEJA GRASA PROTEINA CENIZAS SOLTOT
N OF CASES 15 15 • 15 15 15
MINIMUM 1.000 0.200 0.880 ■ 0.750 6.450
MAXIMUM 15.000 0.550 1.300 1.150 7.940
RANGE 14.000 0.350 0.420 0.400 1.490
MEAN 8.000 0.393 1.129 0.963 7.247
VARIANCE 20.000 0.012 0.016 0.013 0.200
"STANDARD DEV ; ' ' 4.472 ' 0.108 0.125 0.113 0.447
STD. ERROR 1.155 . 0.028 0.032 0.029 0.115
SKEWNESS(GI) 0.000 -0.477 -0.563 0.007 -0.572
KURTOSIS(G2) -1.211 -0.792 -0.817 -0.522 -0.799
SUM 120.000 5.900 16.940 14.450 108.700
C.V. 0.559 0.275 0.110 0.117 0.062
MEDIAN 8.000 0.400 1.170 0.960 7.390
N
i-* • , : . . . . - HUMEDAD LACTOSA
. N OF CASES 15 15
MINIMUM' 92.060 4.110
MAXIMUM 93.550 5.130
RANGE 1.490 1.020
MEAN 92.753 4.761
'Va r i a n c e" 0.200 0.107
STANDARD DEV 0.447 0.327
‘ STD. ERROR : 0.115 : 0:085
SKEWNESS(GI) 0.572 -0.941
KURTOSIS(G2) " " -0.799 : -0.525
SUM 1391.300 71.410
C.V. 0.005 0.069
MEDIAN 92.610 4.920
IV. ESTADISTICA MULTIVARIADA DESCRIPTIVA
En la opción anterior se obtiene los parámetros de:>
' Número de casos Valor Mínimo Valor Máximo Rango
Media Varianza
Desviación estándar Error estándar
• Simetría... Kurtosis
Suma
Coeficiente de Variación Mediana
Todo lo anterior buscando alguna característica especial.
Interpretación 4.1. »
Cómo presentar las resultados y dar. una conclusión sobre ellos es posiblemente la
parte más importante de la estadística, recuerda que un buen reporte "es aquel que-presenta
datos estadísticamente confiables, con tablas o gráficos entendibíes".
Así, una forma de presentar los resultados del análisis del suero de leche sería
ordenarlos en una tabla e incluir lo más representativo, que en este caso sería lo que se
•muestra en las estadísticas básicas, además del coeficiente de variación. Un aspecto
. . . t • }. .. t >■ interpretativo que debes cuidar es el de la lógica, por ejemplo, observa que en las salidas de
la computadora se incluye la variables "oveja", que para nuestro ejemplo vendría, siendo el
número de la oveja; por supuesto debes intuir que todas las estadísticas para esta, variable
no sirven de nada, ya que no tiene ningún caso tener un promedio del número de oveja, por
ejemplo.
IV jË S T A D IS T IC ^M Ü lIT IV A R rA D Â 'D E S C R IP tlV A
A continuación se muestra una tabla modelo en donde se reportan las estadísticas
marginales del ejemplo del suero:
GRASA PROTEINA CENIZA SOLTOT HUMEDAD í LACTOSA
Media 0.393 1.129 0.963 7.247 92.753 4.761
Desviación Estándar 0.108 - 0.125 0.113 0.200 0.447 0.327 '
-C.V. 0.275 0.110 0.117 0.062 0.005 0.069
Mínimo , ; . . . 0.200 , : 0.880 , 0.750 6.450 92.060 ' 4.110
Máximo 0.550 1.300 1.150 7.940 93.550 5.130
Tabla 4.3. Estadísticas descriptivas básicas de las variables del análisis fisicoquímico del
suero de leche de oveja Chiapas.
De manera general, se puede concluir que se obtuvieron las estadísticas descriptivas
básicas para el problema, y considerando un criterio Heurístico (criterio sin fundamento
matemático, pero aceptado por experiencia) de que un coeficiente de variación (C.V.) mayor
de 0.1 es significativo, se destacaría que la variable "Grasa" es la que presentó la mayor
dispersión (C.V. = 0.275) y que sería posiblemente importante averiguar esta variabilidad.
Una manera gráfica de representar la dispersión de la variable "Grasa" seria a través
de un "gráfico de cajas" (box). Estas gráficas representan la dispersión de todos los datos de
una variable, donde la caja dibujada, corresponde al 50 % de la población y la línea que la
divide en dos es la mediana. Las líneas horizontales que salen de la caja ("alambres" o
bigotes") representan cada uno al 25 % de la población. En otras palabras, una gráfica de
"cajas" muestra a toda la población y su dispersión dividida en cuartiles (4 partes). A
continuación se presenta la gráfica de cajas para la variable "Grasa" de nuestro ejemplo
conforme a la salida de computadora del paquete estadístico SYSTAT.
i_______ i_______i____ ___ i_______ i_______ i
: • 0-1- 0 2 ' 0.3 0‘ >A ' '0 .5 ' 0.6 ' ' " ^
IV,, ESTADISTICA MULTI VARI ADA DESCRIPTIVA
Gráfica 4.1. Gráfico de cajas para la variable "Grasa".
De esta gráfica se puede concluir que existe una distribución sin una tendencia
apreciable de dispersión o concentración hacia alguno de los cuartiles de la gráfica. Además;
no existen puntos "out liers" (puntos no representativos de la población y disparados en su
valor), ya que no se muestran asteriscos (*) ni círculos (°) en la gráfica, por lo que se puede
pensar que la dispersión significativa que presenta la variable "Grasa" no es debida a causas
fuera de lo "normal"
4.3 Descripciones bivariadas
En muchas ocasiones es importante, para cambiar la formulación de un alimento,
conocer el grado de asociación que pudiera tener un ingrediente con el sabor del producto;
por ejemplo, si se deseara cambiar margarina por grasa vegetal en la elaboración de una
galleta, saber el nivel de correlación de cada uno de estos ingredientes con el sabor de la
galleta resultaría de suma importancia para decidir si se realiza el cambio o no.
.El estudio detallado de las asociaciones bivariadas (de dos variables) es necesario e
antes de entrar en materia multivariada; se recomienda que los datos de un problema se
sometan a análisis bivariados como lo serían las correlaciones y las pruebas de "T" e incluso
representaciones gráficas bivariadas, todo esto con la finalidad de formarse una panorámica
aún mayor que ías que ya se tenían con las estadísticas descriptivas básicas.
Ejemplo 4.2.
Se caracterizó sensorialmente el queso fresco "La Joya" y para asegurar que las
características del queso en diferentes muestras serían estadísticamente las mismas, el
producto fue evaluado en diferentes condiciones ambientales por dos grupos de panelistas,
IV, ESTADISTICA MULTI VARIADA DESCRIPTIVA
uno con entrenamiento (1) y otro sin éste (2). Se desean conocer las asociaciones más
importantes entre las variables evaluadas y si existen diferencias entre los grupos de
panelistas para cada variable.
La siguiente tabla muestra el resultado de la evaluación organoléptica del queso fresco
"La Joya": Grupo Interna
Color Dureza Salinidad Dezmenuzable Ahulado Gomoso Humedad
1 4 4 , 5 6 6 6 ■: 7 ■■■
1 4 4 3 5 8 7 6
1 4 5 5 5 3 3 5
f 5 ....6 4 3 5 3 5
1 4 3 5 3 6 5 4
,, 1 , 6 . , , 7 - - 5 7 6 . 6 4 .
1 6 7 5 4 5 6 2
r . ■ i f s*/ / ' ■ * - A ; . 5 ' 0 ' 0 : 1
.1 ... 5 . ...4 6 . 5. ... 6 5.. ,
'' i " 5 8 5 8 6 7 3
2 4 3 3 6 3 5 ' 3
2 4 4 2 3 3 2 3
2 7 5 4 4 4 5 4
2 3 3 3 2 5 7 6
2 2 - ...^ 3' 4 6 3 3 5
2 5 5 5 4 - 6 6 6
2 1 3 1 7 7 8 6
2 6 3 4 8 1 5 7
2 4 6 6 4 8 6 7
2 3 2 4 8 5 9 9
Tabla 4.4. Análisis organoléptico del queso Fresco "La Joya"
Análisis 2.
Se creó una base de datos en el paquete estadístico SYSTAT con los resultados
mostrados en la matriz de datos del problema obteniéndose las correlaciones pareadas de
Pearson ("Quick Pearson Correlations") y las pruebas de "T" (t-test) para la Comparación de
IV. ESTADISTICA MULTIVARIADA DESCRIPTIVA
medias de cada variable éntre los dos grupos de panelistas.La salida de-computadora de;las
correlaciones se presenta a continuación: -• < • < r *
COLOR DUREZA SAL DESMENU AHULADO GOMOSO HÚMINT COLOR 1.000
DUREZA 0.450 1.000 -* * 4 " ' '"--V
SAL 0.197 0.549 1.000
DESMENU -0.071 -0.031 0.008 1.000
AHULADO -0.354 0.349 0.374 -0.082 1.000
GOMOSO -0.354 0.055 0.259 0.349 0.703 1.000
HUMINT -0.477 -0.326 0.252 0.243 0.393 0.586 1.000
La salida por computadora de las pruebas de "T" se muestra a continuación. Debe
hacerse notar que los datos más importantes de las pruebas "T" que aquí se presentan; han
sido, destacadas en letras "negrillas" aunque realmente el paquete estadístico no lo
proporciona de esta manera.
INDEPENDENT SAMPLES T-TEST ON COLOR GROUPED BY GRUPO
GROUP N MEAN SD
1.000 10 5.000 1.054
2.000 10 3.900 1.792
SEPARATE VARIANCES T = 1.673 DF = 14.6 PROB = 0.116
POOLED VARIANCES T = 1.673 DF = 18 PROB = . . 0.112
INDEPENDENT SAMPLES T-TEST ON DUREZA GROUPED BY GRUPO
GROUP N MEAN SD
,1.000., ,10 5.200 1.751
2.000 10 3.700 1.252
IV: ESTADISTICA MULTI V Á R I ADA DESCRIPTIVA'
INDEPENDENT SAMPLES T-TEST ON SAL GROUPED BY GRUPO
GROUP N MEAN SD
1.000 10 4.200 1.317
2.000 10 3.600 1.430
SEPARATE VARIANCES T = 0.976 DF = 17.9 PROB = 0.342
POOLED VARIANCES T = 0.976 DF = 18PROB = 0.342
INDEPENDENT SAMPLES T-TEST ON DESMENUZ GROUPED BY GRUPO
GROUP N MEAN SD
1.000 10 5.200 1.619
2.000 10 5.200 2.098
SEPARATE VARIANCES T = 0.000 DF = 16.9 PROB = 1.000
POOLED VARIANCEST= 0.000 DF = 18 PROB = T.000
INDEPENDENT SAMPLES T-TEST ON AHULADO GROUPED BY GRUPO
G RO UP...N .MEAN SD
1.00Ó" ‘ 10 5.000 2.160 2.000 . . 1 0 . . 4.500 2.121
SEPARATE VARIANCES T = 0.522 DF = 18.0 PROB = 0.608
POOLED VARIANCES T = 0.522 DF = 18 PROB = 0.608
INDEPENDENT SAMPLES T-TEST ON GOMOSO GROUPED BY GRUPO
GROUP N MEAN SD
1.000 10 4.900 2.234
2.000 10 5.600 2.119
SEPARATE VARIANCES T - -0.719 DF =18. 0 PROB = v 0.481
POOLED VARIANCES T = -0.719 DF = 18 PROB = 0.481
INDEPÉN5ÉNT SAMPLES T-TfeST ON HUMINT GROUPED BY GRUPO
GROUP N MEAN SD
1.000 ' 10 : 4.200 1.814
2.000 10 5.600 1.897
SEPARATE VARIANCES T = -1.687 DF = 18.0 PROB = 0.109
- POOLED VARIANCES T = -1.687 DF = 18PROB= 0.109
IV. ESTADISTICA MULTIVARIADA DESCRIPTIVA
Posteriormente, se obtuvieron las frecuencias de intensidad sensorial para cada
variable y se construyó una gráfica de barras (Histograma) én el paquete graficador "Harvard
Graphics", en ella, se observa de manera integral que las características percibidas en el
queso se acumulan alrededor de los valores 4, 5 y 6, por lo que se podría decir que el queso
en estudio se aproxima a las características que dichos valores corresponden a cada variable.
Frecuencias acumuladas para las variables
analizadas-3 0
25
(0 o
c
a' a o a> LL
.20
15
10
0
0 1 2 3 4 5. 6 7 8 9
E scala de Intensidad Sensorial
H b lu ;m ; Tntrna**';
-O G o m o s o ... >
Ü l A h u la d o
ID Desmenúzatele
S alinidad
Dureza ‘
Color
Interpretación 4.2.
Antes de comenzar cualquier interpretación siempre es conveniente fijar las bases en
que se sostendrán las conclusiones. Para el caso de las correlaciones, fijaremos un criterio
heurístico de que los valores mayores o iguales a 0.5 (r 0.5) serán considerados de
IV;ÉStiVDfSTICA l^'ÚLTIVARIADA tiÉ SORÍ PTlVA
asociación significativa. El criterio heurístico puede variar de acuerdo a las características del
problema.o a la cantidad de correlaciones "altas"; por ejemplo, si existieran muchos valores
arriba de 0:8, el criterio podría cambiar a hacer sólo significativas ¡as correlaciones iguales o
mayores a 0:8. : ;
-En lo que respecta a las pruebas "T", sólo es necesario recordar que la mayor parte de
las llamadas "pruebas de hipótesis" intentan verificar si hay evidencia para rechazar la
igualdad. En el' caso'de las pruebas-11!" , la hipótesis a probar es la igualdad de medias; así,
una probabilidad alta significará que existe suficiente evidencia para pensar que no son
diferentes las medias. Para facilitar la interpretación de cualquier prueba emplearemos el
siguiente criterio heurístico: ■
VALOR DE LA PROBABILIDAD CRITERIO
■ • ■ • (p-value) ■
Si... ...entonces son...
Ó.00 < p < 0.01 ...extremadamente diferentes
‘ 0.01 < p <0.05 ...muy diferentes
0.05 < p < 0.10 ...diferentes
0.1 < p < 1.00 ...no son diferentes
El valor de la probabilidad (valor de p) que tomaremos de las salidas de computadora
será el de "dos colas" debido a que sólo nos interesa saber si las medias son o no iguales, y
no cuál es mayor que la otra.
Es posible que esto te parezca repetitivo, pero siempre recuerda que en las
conclusiones sólo se deben incluir los aspectos más relevantes de los resultados De esta
manera y habiéndose fijado las bases de la interpretación, el ejemplo puede concluirse como
36y'
La tabla de correlaciones muestra que no existen muchas asociaciones importantes
entre las variables estudiadas, sólo se puede destacar que la correlación más importante es
la que se desarrolla positivamente entre las variables "Ahulado" y "Gomoso" (r=0.703)
indicando que la percepción de la consistencia ahulada ("rechinar" al morder) del queso está
asociada a la percepción de gomosidad (elasticidad al morder). La variable "Gomoso" también
está correlacionada de manera importante y positiva con la "humedad interna" (r=0.0586), por
lo que la elasticidad del queso es seguramente causada por su contenido.de humedad. Es
importante destacar que un queso fresco que ha. perdido agua en poco tiempo, cambia su
percepción de humedad interna de manera inversa; es decir, un queso fresco con bajo
contenido real de humedad, se percibe al comerlo como de humedad interna alta (por estar
"aguado".
Otra de las correlaciones importantes es la que s e ; presenta ide;¿manera positiva
(r=0.549) entre las variables "Dureza" y Salinidad", asociación que. indica que un queso
percibido como "salado", también será detectado como "duro" y viceversa.
Para representar gráficamente las correlaciones se recomienda elaborar
"Correlogramas, los cuales son simples gráficos "X vs.Y" en donde se aprecian las
asociaciones entre las parejas de variables. A continuación se presentan dos correlogramas,
uno para la correlación más alta del problema (r=0.703), y otro para la más baja (r^0.031).
IV,
- 5 O 5 1 0 ■ ; ■
AHULADO
Gráfica 4.2. Correlograma con "r" significativa (0.703) y ajuste lineal.
N
z
LU 2
00
UJ Q
. DUREZA . . : . •
Gráfica 4.3. Correlograma con "r" no significativo (-0.031).
IV,¡ESmGysriCAtMULiniW^DA!lDESCRIP7jlWV
En lo que se refiere a la comparación entre los grupos de catadores, se encontró que
sólo la variable dureza presenta una diferencia muy significativa (p=0.041), mientras que para
las demás variables no existió suficiente evidencia como para pensar que la percepción de los
dos grupos catadores es diferente. Por lo anterior, y conociendo las condiciones del análisis,
la diferencia detectada en la variable "Dureza" puede ser despreciada; (esto es importante
porque sólo el que realizó la prueba, es decir el experto, puede concluir de esta manera) y
concluirse que las muestras correspondían a sólo un tipo de queso.
Para complementar los resultados y representar gráficamente la diferencias entre los
grupos de panelistas respecto a la variable "Dureza", a continuación se presentan las gráficas
de "cajas" para cada grupo.
8
N UJ cr
IV: ESTADISTICA MULTIVARIADA DESCRíPTIVA
• ■ Las gráfieas de cajas con intervalos de confianza aparecen como un vestido, ya sea de
manera "normal"- o "de cabeza", en los -cuales se debe destacar la franja (banda) que se
forma entre el "tirante del escote" y el inicio del "vuelo" de la falda. Si dicha banda se prolonga
hacia la gráfica adyacente y se intersecta con la "banda" del intervalo de confianza de esta
última, se puede afirmar que los grupos son similares, de otra manera los grupos son
diferentes.
GRUPO ■ ■ • . ..
Gráfica 4.5. Cajas con intervalos de confianza. El intervalo de confianza de la caja del grupo 2
se ha proyectado como una banda hacia la caja del grupo 1. Observa que la banda se
intersecta con el inteiyalo de confianza del otro grupo, por lo tanto, se puede suponer que los
grupos no son distintos en lo que se refiere a la variable DUREZA.
A pesar de que la prueba de t y la de cajas con intervalos tuvieron un resultado
queso de manera íntegra, por lo que puede afirmarse que se trata de un sólo tipo de queso
puesto que existen diferencias significativas entre los dos grupos de panelistas. Además, se
puede concluir.que. el'-queso La Joya es organolépticamente; de; color ^blanco: amarillento,
semiduro y salado, moderadamente desmenuzable, poco ahulado -,y gomoso, con contenido
de humedad interna media. :
IV.ESTADISTICAM UL?IVARIADAO iESCRIPTIVA
4.4 Estadísticas Descriptivas Multivariadas.
En principio, las estadísticas descriptivas de cualquier índole deben comenzarse de
manera univariada, seguido de un análisis bivariado y por último el multivariado. Así, se
podría afirmar que la exploración multivariada es simplemente la conjunción de todas las
estadísticas descriptivas univariadas y bivariadas.
Usualmente las estadísticas descriptivas multivariantes se disponen en vectores o
matrices y de ellas, las más comunes y de imjjortancia básica son:
a) La matriz de medias
b) La matriz de varianzas y covarianzas
c) La matriz de correlaciones.
Como puedes darte cuenta, las estadísticas incluidas en estas matrices (con excepción
de las covarianzas) ya las hemos calculado en ejemplos anteriores, lo único que háy que
IV: ESTADISTICA MULTIVARIADA DESCRIPTIVA
Ejemplo 4.3. ■ - ■ - >
Se. efectuaron 8 determinaciones analíticas características sobre 18 muestras de
Whisky Bourbon para estudiar preíiminarmeníe sus atributos básicos multivariados. Los
resultados del análisis se muestran en ia siguiente tabla:
Edad “Alcohol Extracto Acidos “ Esteres Aldehido Furfural Fusél ö il Color
“ 0 -ro n r 2675 1070 “ “ 18.4 i i 'r; CM d 10079 ' ' ' o.o...
0 1(3470 16T.0 2971 5572 7.9 2.0 ...17173“ “ 0.0
TT 10070 , . . 4,0 T T r 1370 10 -070 7 " 71.3 “ “ “ ' ” 070 .... .
' ‘ 4 “ “ 101 8 “ • ‘99.4 41.1 2876 5.8 1.6 "11071“ .. • 77,1
1 10370“ “ ‘ 19370 Í 557T “559 8.6 7.9 173.4 10.9
1 100.0'. 61.0 24.7 17.2 2.7 0.0 58.0 5.4
- 40272 12578 ‘4570 4070 8.4.
' -1;6 ■ 110.1 . . 8,6
... 2 ‘ 104.0 214.0 61.7 59.8 ■“ 4270 9.1 197.1 11.8
.. .... 2 --- ' 10070“ ^ “ “8170“ 25.5 2474 _ ...5'.9 . ..J 0.4 86.2 “ “ -6 7 9 “
....- ...4 “ “ “ 10473“ 15179 5874 “53.5 11.0 1.9 1259 10.8
"4 ‘ 10870 “ 724970 Í 750 • 80.6 2270 9.6 237.1 14.8
" 4' 1C0.0. “ ‘ “ 10170 40.0 2872 6.9 " “ 0.8 95.0 . .. £ 6_ _ _
6 107.9 185.1 67.1 64.0 11.9 1.8 , 135.3 43.1
~ n r . 1176.0 ; 28770 81.0 83.9 .......23.3 9.5 240.0 ~ ~ T 7 .5 ~
. - -
--“ --“ ns- " 10270 132.0 53.6 3674 7.7 0.9 . 9871 12.0
6 111.1 210.3 76.4 65.6 4 2 ,9 2.1 14375 14.2
--- ff - - ... - -124 0 326.0 91.4 93.6 i 28.8 10.0 241.8 20.9
8 ~ ... 1020 • “ 15270 641 37:7 j 1 L 8 7 ” ’ 1.0 110.0 12.3
Análisis 4.3.
Se creó una base de datos en el paquetes estadístico SYSTAT y se obtuvieron los
promedios para-cada variable (con el comando "stats", menú "statistics"), la matriz de
varianzas y covarianzas (con el comando "stats", menú "corr", submenú "covariance") y por
último la matriz de correlaciones (con el comando "stats", menú "corr", submenú "Pearson").
Las salidas por computadora se presentan a continuación:
Promedios por variable.
Edad “Alcohol Extracto 3.50 105.07 153.39
Acidos Esteres Aldehido 49.96 47.44 10.48
Furfural Fusel Oil Color 3.38 139.06 9.72
IV: ESTADISTICA MULTIVARIADA DESCRIPTIVA
Varianzas y covarianzas.
Edad °Alcohol Extracto Acidos 8.38
11.71 40.89
157.18 469.69 7373.81
58.26 122.98 1987.11 617.52 40.66 134.79 2026.56 533.77 13.50 43.39 594.37 158.20 2.69 16.74 273.97 64.18 58.49 293.50 4571.32 1070.46 13.97 28.27 434.15 139.14
Coeficientes de Correlación de Pearson.
Esteres Aldehido Furfural Fusel'Oil Color
584.11
167.82 54.57
75.86 23.11 14.42
1308.76 385.63 207.26 3397.68 113.73 . 36.61 14.76 222.87
Edad 1.000
°Alcohol Extracto
0.632 1.000
. 0.632 0.855 1.000 0.810 0.774 0.931 0.581 0.872 0.976 0.631 0.919 0.937 0.245 0.690 0.840 0.347 0.787 0.913 0.825 0.756 0.865
Acidos Esteres Aldehido
1.000
0.889 1.000
0.862 0.940 1.000 0.680 0.827 0.824 0.739 0.929 0.896 0.958 0.805 0.848
Furfural Fusel Oil Color
1.000
0.937 1.000
0.665 0.654 Í.000
Después de una edición sencilla, las matrices correspondientes son las que a
continuación se muestran.
Vector de medias:
x 3.50 105.07 153.39 49.96 47.44 10.48 3.38 139.06 9.72
L J
| © lO B lL S tD '?
: ■—xrr~. •"
V TS íQ íi.i '
m m ? ,
UNlVEftfZ?'
\