• No se han encontrado resultados

Estadística multivariada aplicada a la ciencia y tecnología de los alimentos

N/A
N/A
Protected

Academic year: 2020

Share "Estadística multivariada aplicada a la ciencia y tecnología de los alimentos"

Copied!
158
0
0

Texto completo

(1)

ESPECI AL I DAD EN

METODOS E S T A D I S T I C O S

ESTADISTICA MULTIVARIADA APLICADA

A LA CIENCIA Y TECNOLOGIA DE IOS ALIMENTOS

Trabajo recepcional que como requisito

parcial para obtener el diploma de esta

Especialidad presenta:

ERYCK ROMEO SILVA HERNANDEZ

TUTOR : DR. Mario Miguel Ojeda Ramírez

(2)

DATOS DEL AUTOR.

Eryck R. Silva Hernández nació en Xalápa, Veracruz en 1966. Realizó sus estudios de

primaria, secundaria y preparatoria en su ciudad natal; en 1984 se trasladó a la ciudad de

Monterrey, N.L. en donde efectuó sus estudios profesionales obteniendo, en 1988, el título de

Ingeniero Bioquímico Administrador en Procesado de Alimentos otorgado por el Instituto

Tecnológico y de Estudios Superiores de Monterrey. Ha trabajado en la industria alimenticia

de Monterrey, N.L. y Xalapa, Ver., además de dedicar gran parte de su tiempo a la docencia.

Actualmente es investigador y catedrático en el área de tecnología de los alimentos dentro de

la Universidad Veracruzana, además de impartir clases a nivel bachillerato y ser propietario

(3)

AGRADECIMIENTOS.

Agradezco a la Universidad Veracruzana el apoyo financiero recibido como beca

para la realización de los estudios de especialidad. También deseo agradecer las facilidades

brindadas por los miembros de la Unidad de Investigación y Desarrollo de la Leche (UNIDEL)

del Instituto de Ciencias Básicas de la Universidad Veracruzana para la elaboración de este

trabajo recepcional. Así mismo, quiero agradecer infinitamente al DR. Iñigo Verdalet Guzmán

y al DR. Mario Miguel Ojeda Ramírez por sus insistentes motivaciones que me han llevado a

(4)

El Comité Académico de la Especialidad en Métodos Estadísticos, y el respectivo tutor

del trabajo recepcional, autorizan la impresión y constitución de tribunales para la defensa.

(5)

jé Ma/uáaé, Xèvm y ¿/i^cÁ

j " m y

(6)

INDICE

CONTENIDO

Pag.

INTRODUCCION Y JUSTIFICACION 1

OBJETIVOS 3

1. QUE ES CIENCIA Y TECNOLOGIA DE LOS ALIMENTOS 4

2. TIPOS DE PROBLEMAS EN LA CIENCIA Y TECNOLOGIA DE

LOS ALIMENTOS QUE NECESITAN ANALISIS ESTADISTICO 7

3. ESTADISTICA Y ANALISIS DE DATOS 13

3.1 El Método Estadístico 13

3.2 Tipos de variables y tipos de datos 15 3.3 Fases del análisis estadístico de datos 17 3.4 Análisis de datos y paquetes computacionales 19 3.5 Interpretación de resultados y elaboración de informes 21 3.6 Problemas de Estadística Multivariada 22

4. ESTADISTICA MULTIVARIADA DESCRIPTIVA \ 23

4.1 Matrices de datos 24

4.2 Descripciones marginales 25

4.3 Descripciones bivariadas 31

4.4 Estadísticas descriptivas multivariadas 41 4.5 Matrices de incidencia y tablas de contingencia 44 4.6 Comparación gráfica multivariada de individuos 48 4.7 La técnica de los componentes principales 59 4.8 La técnica de correlación canónica „ 73 4.9 El análisis de correspondencias' — -- 82

4.10 Las técnicas de agrupamiento 94

5. ESTADISTICA MULTIVARIADA INFERENCIAL 102

5.1 Principios de la inferencia estadística 102 5.2 La distribución normal multivariada 103 5.3 Exploración de normalidad multivariada 104 5.4 Análisis de varianza Multivariado (MANOVA) 104

5.5 Análisis discriminante 114

6. UN EJEMPLO INTEGRAL 130

(7)

ESTADISTICA MULTIVARIADA

APLICADA A LA CIENCIA Y TECNOLOGIA DE LOS ALIMENTOS

INTRODUCCION Y JUSTIFICACION

En el medio de los investigadores y los profesionales de las más diversas áreas, en los

países donde se habla el idioma español, existe una creciente necesidad dé disponer de

bibliografía referente a la Estadística Multivariada. Las razones son diversas y múltiples, pero

destaca la importancia, cada vez mayor, que las técnicas multivariadas van adquiriendo en el

análisis de datos de encuestas de estudios observacionales y profesionales de las más

diversas especialidades, los cuales, digamos que, están prestos a la utilización de tales

herramientas. Si se considera el hecho de que la proliferación en el uso de paquetes

computacionales pone a disposición de un gran publico la metodología estadística

multivariada, se puede pensar que un amplio sector estaría interesado en contar con un texto

de Estadística Multivariada, el cual haga énfasis en los aspectos metodológicos sin invadir la

presentación y discusión de temas teóricos, y considerando la disponibilidad actual de

recursos computacionales.

En otros idiomas, principalmente en inglés, existe una abundante bibliografía sobre

Estadística Multivariada, pero incluso, hay muy pocos ejemplos de^ textos que estén

concebidos y se hayan realizado en esta línea con fuerte,énfasis enJos“ ''a'spTcfos prácticos''

para la adecuada aplicación de la metodología. Se podría afirmar que, en este sentido, se

reconoce una necesidad que va más allá de las fronteras del propio idioma español. El

responsable de esta propuesta ha trabajado en docencia e investigación dentro del área de la

Ciencia y la Tecnología de los Alimentos, y se ha dado cuenta de la impetuosa necesidad de

la existencia de bibliografía de Estadística Multivariada donde se ataquen problemas reales

INTRODUCCION^

(8)

INTRODUCCION

en su rama de estudio. De esta manera, este texto sería de utilidad suprema para auxiliar a

estudiantes, tesistas, investigadores o cualquier persona interesada en la Estadística

Multivariada aplicada a la Ciencia y Tecnología de los Alimentos.

El presente estudio pretende dar una idea general de los principales Métodos

Estadísticos Multivariados que son aplicables a problemas de la Ciencia y Tecnología de los

Alimentos. Lo anterior se ha desarrollado, en primer término, explicando brevemente el

fundamento estadistico.de cada uno de los Métodos Multivariados. incluidos en el trabajo; en

segundo, resolviendo abundantes ejemplos del tema alimenticio en cuestión, y por último, se

hace especial énfasis en la parte interpretativa que en muchas ocasiones es excluida de los

textos de esta índole o, en el mejor de ios casos, se incluyen interpretaciones de resultados

de temas>muy específicos.y diferentes a los aplicables en la Ciencia y Tecnología de los

Alimentos.:'

(9)

OBJETIVOS

OBJETIVOS

Contribuir al ascervo bibliográfico de la Estadística Multivariada con un texto constituido de manera intergada, con abundantes ejemplos que hagan referencia a situaciones concretas y de manera autocontenida que logre cubrir básicamente los siguientes requisitos:

1. Escrito en un lenguaje claro y que haga alusión a situaciones diversas que 'comunmente se presentan eri próblerrias de la ciencia y tecnología délos alimentos.'

2. Autocontenido y que presente extensiones de los métodos estadísticos univariados a los multivariados.

3. Que cubra un amplio espectro de la técnicas multivariadas; presentándolos aspectos teóricos correpondientes con la mínima notación matemática, pero sin evadir el rigor mínimo para lograr una comprensión de los fundamentos y supuestos bajo los que se logra una buena aplicación de estos procedimientos.

4. Desarrollado bajo el enfoque del Análisis de Datos, que considera las fases descriptiva-exploratoria e inferencial como dos fases consecutivas e integradas en muchas situaciones de aplicación de los métodos estadísticos en general.

5. Que presente abundantes ilustraciones con datos reales y las distintas formas encaminarlos para describir y/o explicar el fenómeno en cuestión,, de tal forma que sea un auxiliar idóneo, como texto o libro de consulta para cualquier persona interesada en la estadística multivariada aplicada a la ciencia y tecnología de los alimentos.

(10)

I. CIENCIA Y TECNOLOGIA DE LOS ALIMENTOS

1. ¿QUE ES CIENCIA Y TECNOLOGIA DE LOS ALIMENTOS?

Dicen que cuando una persona empieza a leer algo como lo que en este momento

estás leyendo, lo hace por interés o porque se lo encargaron. Supongamos que estás leyendo

estas líneas porque tienes interés en conocer qué es la Ciencia y la Tecnología de los

Alimentos y olvida que te encargaron leer esto, te aseguro que te va a gustar.

Ya que te has decidido a seguir leyendo, debo suponer que no tienes una idea definida

o te gustaría tener otra opinión de lo que es Ciencia y Tecnología de los Alimentos.

No olvides que...

Ciencia de los Alimentos;

Es todo el estudio y conocimiento referente a las propiedades

componentes y comportamientos físicos, químicos, biológicos, nutricionales y organoléptico!

de los alimentos y sus aditivos, auxiliares tecnológicos, empaques y maquinaria de

procesamiento.

Por supuesto que debes considerar los aspectos intermedios y/o derivados como lo

son las características fisicoquímicas, bioquímicas, biofísicas y microbiológicas.

(11)

I. CIENCIA Y.JECN.OLOGIA DE LOS ALIMENTOS

Date cuenta que la ¡dea principal de la definición anterior es

simplemente "el estudio ^conocimiento", y en ningún momento se menciona la aplicación de

ello. La Tecnología-de los Alimentos es la que se encarga de esa aplicación. De acuerdo al

Instituto de Técnicos en1 Alimentos (I.F.T.), una sociedad de profesionales que se dedican a la

alimentación,'agricultura';? nutrición y salud en todo el mundo, la Tecnología de los Alimentos

se define como:

No olvides que...

Tecnología de los Alimentos:

Es la aplicación de la ciencia e ingeniería a la producción, procesamiento

empaque, distribución, preparación y usos de los alimentos.

Ahora que se ha definido lo que es la tecnología de los alimentos, te habrás dado

cuenta que esta rama de la ciencia abarca un amplio espectro de estudio y aplicación, por lo

que los alcances de esté texto sólo intentarán dar una idea general de los problemas más

comunes en los que se aplica la Estadística Multivariada.

(12)

I. CIENCIA Y TECNOLOGIA DE LOS ALIMENTOS

A través del texto, te darás cuenta que los ejemplos que más abundan son los

referentes al estudio de la leche y los productos lácteos, esto es debido a que el autor se ha

desempeñado principalmente en esta rama. Sin embargo, muchos de los problemas que se

presentan en los estudios de la leche y sus productos, son análogos a otros que se presentan

en diversas investigaciones de tecnología dé alimentos.

(13)

2. TIPOS DE PROBLEMAS EN LA CIENCIA Y TECNOLOGIA DE LOS

ALIMENTOS QUE NECESITAN ANALISIS ESTADISTICO

El desarrollo de la ciencia y tecnología de los Alimentos, como en muchas otras ramas

del conocimiento, se ha incrementado muy rápidamente en el último siglo, principalmente

debido a problemas y necesidades que van surgiendo conforme cambian las Situaciones

sociales, políticas y/o culturales de los consumidores. Podemos señalar al respecto las

siguientes necesidades:

a) EI aumento en la velocidad de vida

b) La preocupación por alimentaciones especiales para bebés, ancianos,

deportistas, enfermos, etc.

c) La crisis hambruna

d) EI cuidado de la figura

e) La importancia de controlar la calidad de los alimentos

f) La necesidad por encontrar alimentos más nutritivos a bajos costos

g) La innata curiosidad del hombre por conocer más, etc.

II. TIPOS DE PROBLEMAS

De manera general,- todos los problemas de ciencia y tecnología de los Alimento:

pueden ser clasificados en tres categorías:

1. Problemas de Control

2. Problemas de Optimización

3. Problemas de Caracterización

m m m m t | " ’ v m S fm D VEilÁGlUZÁNA I

.

(14)

II. TIPOS DE PROBLEMAS

1. Control:

Cuando comemos algún alimento y nos gusta, por lo general regresamos en otro

momento y lo compramos de nuevo. Lo anterior considerando que nos ha agradado el sabor,

el precio y la calidad higiénica. No obstante, si en una subsecuente compra notamos que

algunos de los aspectos anteriores se han modificado-para nuestro desagrado, es difícil que

en otra ocasión lo volvamos a comprar.

Por ejemplo, supongamos que te gustan las nieves de limón que venden en el kiosko

del pueblito cercano a tú ciudad y que las has comprado por años; sin embargo, un dia te

encuentras conque le faltó azúcar a la nieve, o se pasaron de sabor, o ahora le ponen

coloranté ó te encontraste una hormiga o te hizo daño el habértela comido; con seguridad no

volverás a comprar nieve de ese lugar.'Con el ejémpló anterior, deseo que te des cuenta que

el cotroL de ía fcálidad; én ios ingredientes y elaboración de los productos alimenticios es

fundamental. ' ! • - • - ^

De manera formal, los problemas de control en alimentos se basan en comparar los

productos elaborados con normas preesablecidas, las cuales pueden ser dictadas por

organismos gubernamentales,..de la iniciativa privada o de la misma compañía donde se

elaboran, todo con el objetivo de mantener una calidad tanto nutricia, como organoléptica e

higiénica.

(15)

II. TJPOS. DE PROBLEMAS

Norma Oficial, Mexicana. t ,

En pocas palabras, el control de alimentos quiere decir que cuando, bebas una "Coca

cola", siempre te sepa a "Coca cola"; que cuando comas una hamburguesa, "Me Qpnalds",

siempre te sepa a hamburguesa "Me Donalds"; o que cuando consumas leche pasterizada y

no te ha hecho daño, siempre suceda lo mismo.

2. Optimización: ,, . ; , ,v .

"Regenerarse o morir", dicta un dicho muy famoso que resume los prqblemas. de

otimización que surgen en el área alimenticia. Continuamente los cambios en las necesidades

de los consumidores y la influencia de los competidores, hacen que la optimización d e ,

procesos y /o formulaciones de los alimentos en las empresas tanto del Estado, como de .la.

iniciativa privada, sea una de sus principales preocupaciones, ya que la no innovación y no

desarrollo científico ni fenològico trae consigo graves consecuencias donde una compañía

podría incluso desaparecer.

En una sociedad con una economía como la nuestra, la otimización dentro de la

industria alimenticia, o incluso a nivel académico, se resume a dos conceptos: tiempo y costo.

Costo

(16)

II. TIPOS DE PROBLEMAS

Loé problemas de optimización! en elarea de los alimentos incluyen varios aspectos,

tales com o:

á)Mejorar un* proceso

b) Creár un nuevo proceso

c) Méjorar una formulación •

d) Crear una nueva formulación

e) Aprovechar los desechos alimenticios

f) Reciclar los envases y embalajes de los alimentos, etc.

La optimización requiere idea

; En términos sencillos, la otimización en la rama alimenticia quiere decir que si el precio

del café bajó porque en Brasil tuvieron una buena producción, se deben mejorar las

tecnologías; en México para hacer más eficientes los procesos; también que si el precio de la

pectina que se emplea' en- la-fabricación de mermeladas aumentó demasiado, es necesario

buscar alternativas en el uso de otras gomas más poderosas y baratas, y que además den a

nuestra mermelada una consistencia aceptable; o incluso, que si a muchas personas les

gustan los dulces de leche, pero son diabéticos, formular un dulce con características

similares, pero sin azúcar.

(17)

II. TIPOS DE PROBLEMAS:

3. Caracterización.

La cocina mexicana es considerada la tercera mejor del mundo;, sólo por debajo de la

China y la Francesa, cosa que debe ser un gran orgullo para los mexicanos. Sin embargo., Ja

gran diversidad en platillos ha generado el problema de conocer con exactitud los

ingredientes empleados, la forma de elaboración, su inocuidad o toxicidad, su valor nutritivo e

incluso sus características físicas, fisicoquímicas, microbiológicas, .. reológicas y

organolépticas. De acuerdo a lo anterior, es de pensarse que no existen. datos que

caractericen a muchos productos alimenticios, no sólo mexicanos,; sino ,en muchos otros

países del mundo. *

Cuando las características de una alimento son normalizadas, por lo general se crea

una ley dónde se indican los aspectos tanto fisicoquímicos (para saber que realmente se trata

del producto que nos están vendiendo), como toxicológicos y sanitarios que debe cumplir tal

producto para poderse considerar como seguro.

En los Estados Unidos, la Administración de Alimentos y Drogas (F.D.A.), es la

principal encargada de normalizar los alimentos y aceptarlos V ho corfio1 G R.A.S.

(Generalmente Recomendados Como Seguros). En México, lá encargada.de legislar ías

cuestiones de índole alimenticia es la Secretaría: dé Salubridady ?Asisténcia (S'.S:A;)rsih

embargo, aún existen’ gratfes deficietíciás en las llamadas' Norrhaé1 Oficiales,'ya que por ló

(18)

fe :.í' ‘ • II. TIPOS-DE

PROBLEMAS-Caracterizar quita dudas

De . una . rrianera simple, se puede decir que la solución de los. problemas, de

cqractenzapjójn qs útij^para, saber qué tiene .de nutritivo algún alimento ,que. puede ser. tan

exótico como lo sería la iguana, los chapulines, la leche de oveja, el, queso de tuna, los

escamóles (larvas de hormiga) o los gusanos de maguey.

No olvides que...

En. resumen, los problemas en.la ciencia y,tecnología de los alimentos en los que se

requiere de la Estadística Multivariada pueden ser:

1. De Control, donde se evalúan los datos del problema comparándolos .

con normas preestablecidas.

fe;: : 2. De otimización, en los cuales se diseñan productos o tecnologías

-V . nuevas o de mejoramiento sobre los ya existentes.

3; De caracterización, en los cuales se tratan de determinar los estándares .

de un producto o tecnología que no tiene norma oficial o no existe

bibliografía sobre él.

(19)

III. ESTADISTICA. Y ANALISIS DE DATOS

3. ESTADISTICA Y ANALISIS DE DATOS .

3.1 El Método Estadístico

Dentro de las funciones más importantes de la Estadística para resolver

problemas del área alimenticia se encuentran las de descripción y las de inferencia. Para

llegar a desarrollar lo anterior, se ha sugerido seguir una serie de pasos que faciliten el logro

de tales objetivos: el método estadístico.

,Ante todo usa tú sentido común

De manera general, y con toda la prudencia que el sentido común proporcionan, el

Método Estadístico se basa en lo siguiente: . ;

a) ldentificación del problema. , : '

En este caso se precisaría el tipo de problema que se involucra, „tal y como se

clasificaron en el tema de "tipos de problemas dentro de la, ciencia y. tecnologia . de los

alimentos que necesitan análisis estadístico multivariado". estudiado con anterioridad. Esto,

con la finalidad de establecer las metas que.se desean, lograr y no trabajar, en,aspec.tos que

pudieran ser irrelevantes. - .

b) Planeación del muestreo,

Este aspecto tan importante en el método estadístico muchas veces es olvidado por no

(20)

un-.-análisis- estadístico para un problema específico‘recurren ál especialista cuándo' yá han

recopilado-su información. Sin embargo; és necesario destacar quéunápláhéáción respecto

al-num eróle muestras^ tomar, del método de recopilación de datos, del entrenamiento de

muestreadores, etc.’ aüxiliáría én gran médidá la eficiencia de recursos y la confiabilidad de

los resultados.

-c) Administración y captura de los datos. :

-En este punto, después de la recopilación de la información, los datos se acostumbran

vaciar en formatos preestablecidos para facilitar su visualización, corrección y/o codificación

antes de ser capturados en computadora,

d) Análisis estadístico exploratorio.

La determinación de las medidas de tendencia centra! (media, mediana, etc.) y de

dispersión (desviación estándar, varianza, coeficiente de variación, etc.) para'cada variable,

así como sus representaciones gráficas (gráficos de cajas, tallos y hojas, etc.) auxilian a

formarse una idea del comportamiento univariado del problema.

■’ ‘ ! - » 1 • • “ ‘ - • • ; • ' ■ •

III/ESTADÍSTrdÁ'Y'ÁN'ALISIS DE'DATOS

Posteriormente, se aconseja obtener las estadísticas descriptivas bivariadas

(coeficientes de correlación, pruebas de "t", etc.), así como gráficos bivariados (gráficas de

dispersión, gráficas de cajas comparadas, etc.) para contribuir aún más sobre el conocimiento

del problema y planear los métodos multivariados más adecuados para la evaluación y/o

descripción del fenómeno en cuestión.

e)Análisis estadístico inferencial.

Con las estadísticas del análisis exploratorio,, se pueden obtener ciertas conclusiones

importantes, sin embargo, cuando el problema es multivariado, la aplicación e interpretación

de métodos estadísticos de este tipo, tales como Análisis de Componentes Principales,

(21)

Análisis de Correlación . Canónica, Análisis, de.Varianza. Multivariado¡ Análisis de Clusters,

Análisis Factorial de Correspondencias, etc. nos llevan finalmente, a resumir y hacer

inferencias con una confiabilidad mayor que las que pudieron realizarse-mediante- las

estadísticas univariadas y bivariadas, ya que el problema.es concluido de una manera global

y no parcial. »- >

3.2 Tipos de variables y tipos de datos . -v, - t*

a)Tipos de variables.

Las variables que se estudian en la ciencia y tecnología de los alimentos incluyen al

olor, sabor, color, variables de composición, temperatura, tiempo, etc. las cuales pueden ser

agrupadas en dos categorías:

Variables numéricas:

Son las que para su medición se emplea una escala que incluye números, tales"

como tiempo (5 min., 2 hrs., 5 días.), contenido proteico (2%, 5.6 g.), temperatura (72°C,

200F), humedad (80 %), colonias de bacterias (5 000 colonias, mas de 100 000 colonias), etc.

Variables Alfa-numéricas:

Son aquellas en las que su medida no se obtiene al compararse con una escala

numérica, como son el color (verde, amarillo, rojo), el sabor (amargo, dulce, salado, ácido),

textura (suave, duro), etc.

En algunas ocasiones, las variables alfa-numéricas se codifican para facilitar su

análisis convirtiéndolas en numéricas; por ejemplo, verde=1, am arillo^, rojo=3, etc . Incluso,

algunas variables como la textura pueden ser evaluadas sobre una escala numérica: muy

suave=1, mas suave que duro=2, más duro que suave=3, duro=4, etc.. También es posible

III. ESTADISTICA Y ANALISIS DE DÁTOS

(22)

que variables tradicionalmente alfa-numéricas como el color, sean medidas con equipos que

sustituyen el ojo-humano, como sería ún espectrofotómetró o colorímetro convirtiéndolas en

variables numéricas.. <

b)Tipos de datos.

Las variables pueden tomar cuatro tipos de valores: ordinales, nominales, de intervalo

y de razón o proporción.

Datos ordinales:

” Son los que se pueden ordenar de mayor a menor y viceversa; por ejemplo en

las siguientes variables: sólidos solubles (80°brix > 60°brix > 40°brix), salinidad (poco salado,

salado, muy salado, extremadamente salado).

III: ESTADISTICA*Y; AN AL ISIS DE DATOS

Datos nominales:

r . • Son aquellos que sólo tienen nombre y no se pueden ordenar de mayor a

menor, o viceversa, pqr ejemplo las. variables de sabor de diferentes naranjas (ácida, amarga,

dulce, astringente),.:el olor del queso (a fresco, a leche, a establo, a vaca, a madurado, a

pútrido), etc... ^ .

No es ordenable, es nominal

(23)

III. ESTADISTICA Y ANALISIS DE DATOS

Datos de intervalo:

• Se presentan cuando los valores numéricos fluctúan dentro de un rango, por

ejemplo: punto de fusión de una grasa (De 21 a 25°C), punto crioscópico.-de. la* leche no

alterada (De -0.053 a -0.055°C), tiempo de coagulación de leche para quesería (De 30 a 40

min.), etc.

Datos de razón o proporción:

Se consideran de este tipo los datos que están asociados a un valor de

referencia, por ejemplo los que tienen unidades en porcentaje, partes por millón (ppm) o

aquellas variables como densidad relativa (densidad de una alimento, entre densidad de otro

alimento de referencia como el agua), contenido calórico (calorías por gramo), etc.

3.3 Fases del análisis estadístico de datos

El orden es de suma importancia en e l análisis estadístico, ya que la abundancia de

datos y/o resultados no ordenados puede desencadenar confusiones tanto de origen de los

datos o resultados, como de interpretación de estos últimos.

Por lo anterior, es recomendable seguir una estrategia dé orden, desarrollando el

análisis estadístico de lo simple, a lo complejo; de lo ^exploratorio, a lo inferencial; de lo

univariado, a lo multivariado y siempre anotando ordenadamente los resultados; relevantes

para no tener que repetir análisis irrelevantes o erróneos. Recuerda que el sentido común es

(24)

III. ESTADISTICA' Y ANALISIS DÉ DATOS

De manera general, las fases del análisis estadístico son:

1, Análisis exploratorio de los datos.

Esto implica observar las tablas de datos y determinar cuál o cuáles variables deben

ser codificadas; o de acuerdo al estudio a efectuar, qué acomodo deben tener las bases de

datos. Es posible que también se necesiten transformaciones de variables, en fin, hay que

poner atención en los" objetivos que se desean lograr dándose primeramente una'idea de lo

que se puede desarrollar con los datos. ,

Posteriormente, se recomienda que se obtengan las siguientes estadísticas:

Univariadas:

a) Estadísticas descriptivas básicas

b) Gráficas de dispersión por variable

" Bivariadas:*

-1 r -' ^Estadísticas de asociación entre pares de variables

d) Gráf¡cas de dispersión y asociación Multivariadás:

e) Análisis de Componentes Principales

•! 3 • ' ; ; : f)Análisis de Correlación Canónica

g) Análisis de Clusters - ^ t —

h) Análisis Factorial de Correspondencias, etc.

;

* Debidb a que en la actualidad existen computadoras lo suficientemente veloces para

efectuar todos estos :ahálisis ‘éxploratorios en muy poco tiempo, no se considerará que los

análisis sólo lleguen hasta este punto, sino que se complementen con los análisis de

inferencia estadística

(25)

Después de realizados los análisis exploratorios, y darnos una idea más concreta del

problema, o incluso haber llegado a conclusiones importantes, se procede a realizar la

inferencia estadística;

III. ESTADISTICA Y ANALISIS DE. DATOS

2. Análisis estadístico inferencial.

: Con el apoyo de las estadísticas exploratoriás, se apoya la descripción de la naturaleza

y/o comportamiento del fenómeno en estudio y aunque es posible que en este momento se

tenga suficiente información para explicar la solución del problema,. en algunas ocasiones es

conveniente realizar algunos de los siguientes análisis multivariados.

a) Análisis de Varianza

Multivariado-b) Análisis Discriminante, etc.

3.4 Análisis de datos y paquetes computacionales - i

i El análisis estadístico multivariado es aquel en el que se analizan problemas, en donde

1 '

las variables respuesta son dos o más; debido a esto, la complejidad, de los. cálculos llega a I

ser tal, que sería impráctico e inexacto querer desarrollarlas a mano o incluso con calculadora

I '

simple. Afortunadamente, en nuestros días existen computadoras Ip suficientemente I

desarrolladas como para realizar los cálculos de las estadísticas multivariadas a través de l

paquetes computacionales conocidos como Paquetes Estadísticos. I

! '

1 Muchas de las técnicas multivariadas que se estudiarán en este texto, ya habían sido I

desarrolladas matemáticamente desde antes de la mitad de.este siglo, no obstante, tuvieron

qué pasar varios años para que la tecnología lograra desarrollar el "hardware" (la maquinaria)

(26)

IH '^S Y A D ÍS flG ^ Y ^A N Á ü álé^H 'D A T O á*

En el mundó^éxísten'infinidad de paquetes estadísticos, programados para cumplir

objetivos específicos y generales. Los existen muy complejos, o muy sencillos; útiles para las

ciéncias'ágronómieas; o'de humanidades, en fin, hay para todas las necesidades aunque

hing'únó 'is'pe^ectó. Lós paquetes1 éstádísticos qué se emplearán para-‘analizar los datos en

este estudio serán:

a)SAS

r b ) é b ió

c) STAT-ITC

d) SYSJAT

e) SYSTAT PARA WINDOWS

Este último paquete (SYSTATW5), por su formato interactivo, es recomendable para

aquellas personas que no han tenida contacto con ningún paquete estadístico. Por esta

razón, la salida de los resultados de la computadora se realizarán principalmente en este

paquete; sin embargo debes tener en cuanta que ningún paquete te ofrece todas las técnicas

que existen en los métodos estadísticos multivariados.

*

(27)

III. ESTADISTICA Y; ANALISIS.BE DATOS*

3.5 Interpretación de resultados y elaboración de informes

La interpretación de los resultados en estadística debe ser una actividad

multidisciplinaria, por ejemplo, si se ha realizado un estudkr sobre la lactancia humana, los I

insultados de esta investigación deben ser evaluados tanto por un Estadístico, como por un i •

Nutriólogo, como un Médico, como, un Tecnòlogo en Alimentos o incluso por un Psicólogo o i

Antropólogo, entonces se tendrá una mayor confiabilidad en la;.interpretación de los

! '

resultados.

-En realidad, lo importante al momento de la interpretación de los resultados de la

estadística multivariada, es que se reúnan el experto en el tema y un Estadístico. . . ..

La. elaboración de informes de los resultados en ocasiones .es complicada pprque.unq,

no está seguro de qué o cuánto incluir; sin embargo, existe una regla que/si la rg u e s te

facilitará la realización de estos informes:

"El principal objetivo de la Estadística es el presentar resultados confiables con tablas

y/o gráficas entendibles" (Jambu, 1989)

# Nunca incluyas datos irrelevantes, conclusiones demasiado obvias o gráficas que sólo

el experto entiende.

(28)

i 1I. ESTADISTICA-Y ANALISIS DE DATOS

3.6 Problemas de Estadística Multivariada

■ La ciencia y tecnología de los alimentos presenta una problemática que involucra, en la

mayoría'de los casos fenómenos multivariantes, los cuales se pretende sean explicados por

medio de las ■estadísticas obtenidas a través de técnicas multivariadas. En general, los

problemas dé la estadística multivariada buscan, entre otros aspectos: f

a) Explicar la variabilidad del problema con un mínimo de variables

b) Encontrar relaciones multivariadas

c) Jerarquizar las variables

d) Determinar asociaciones múltiples entre observaciones y variables

e) Evaluar las diferencias y/o similitudes entre grupos de observaciones

f) Clasificar-las observaciones, etc.

Recuerda que...

En resumen, la aplicación de los métodos estadísticos multivariados pretenden minimizar la magnitud los problemas y explicarlos de la manera más simple, pero completa.

(29)

IV. ESTADISTIC A MULTI VARI ADA-DESCRIPTI VA

4. ESTADISTICA MULTIVARIADA DESCRIPTIVA

Durante la elaboración de un alimento como lo es el pan, se desarrollan una increíble

cantidad de cambios, que en.ocasiones ni notamos-..Por-ejemplo-,-pensemos- en la masa: ésta

se prepara con harina, agua , azúcar, polvo para hornear (carbonato de sodio), sal (cloruro de

sodio), levadura y quizá algunos ingredientes más; imagina ahora que la amasamos para que

se mezclen los ingredientes y la dejamos reposar para que se desarrolle la «levadura; Después

del reposo, procedemos a formar los panes y enseguida a hornearlos, para que en pocos

minutos obtengamos un delicioso pan.

-Es posible que pienses que idealizamos el proceso del pan, pero en realidad ;cuando

se han cuidado todas las variables que pudieran afectar las características del pan, no tiene

porqué salir diferente. Sin embargo, seguramente has notado que ni en la panadería más

cuidadosa el pan "les sale" siempre igual, esto es debido a que por.ser el pan un sistema de

varios componentes, sus respuestas a diferentes estímulos cambian de manera global y no

sólo de variable por variable. En otras palabras, si por ejemplo la temperatura .dehhorno es

más elevada de lo adecuado, esto se traducirá en quemadura del almidón, caramelización de

los azúcares, volatilización del cloro de la sai, deshidratación, carbonización del glúten y una

infinidad de reacciones más que conllevan a que las características deseables del pan como

lo son sabor, textura, aroma; color, apariencia, etc , se vean afectadas:' ■ ;v, -,-r

En resumen, cuando a un sistema alimenticio (como el pan) se le aplica un estímulo

(como el aumento de calor) y dicho sistema da una mezcla de respuestas, se dice entonces

(30)

IV: ESTAD! STÍüA ‘MULTtVARIADÁ DESCRIPTIVA

4.1 Matriz de datos ’ ' 1 ■ i • -

--Una matriz de datos es una tabla rectangular donde sus renglones (filas) contienen a

los individuos y las columnas a las variables. Sin más preámbulo, la siguiente tabla

representa una matriz de datos.

VARIABLES INDIVIDUOS

í

Color Olor Sabor Textura

f ' .

Preferencia global

Lucia . 1 2 2 1 1

.María 4 1 5 4 3

Kevin 5 . 5 4 5 4

■David 2 4 1 2 2

Marisol 4 2 2 5 3

.Tomás ■ 1 3 4 3 3

^Beto 2 5 3 2 3

.Javier 3 .2 5 4 3

¿Guadalupe 5 4 4 1 3

Conchita 1 1 2 2 1

tabla 4.1. Resultado del análisis organoléptico de galletas de amaranto.

Observa que en la matriz de datos anterior cada renglón contiene los resultados del

análisis efectuado por cada una de las personas que probaron las galletas. A cada renglón, es

decir a cada individuo le asignaremos la letra "I" (mayúscula) con un subíndice ("i") que

indica el número de individuo. Así, Lucía sería "I-]", María "l2", Kevin "l3", y así sucesivamente

hasta llegar a "ln" donde "n" es el número total de individuos, que en este caso es diez (n=10).

' ' A diferencia dé las filas en donde sé emplea la letra "I", ahora asignaremos una letra

"X" (mayúscula) a cada columna y le agregaremos un número como subíndice ("j") para

identificar a cada variable. De esta manera, en el ejemplo que estamos manejando la

variable "Color" sería "X1", "Olor" "X2", hasta llegar a las p-variables. El valor de "p"

representa el número total de variables, que en nuestro ejemplo es de cinco (p=5).

(31)

IV. ESTAQISTICA MULTIVARIADA DESCRIPTIVA

Los valores de respuesta de la tabla se representan por una, .letra "x" .(minúscula),

seguido de dos subíndices (i,j), correspondientes al renglón y columna respectivamente, Por

ejemplo, "X3 2" corresponde al individuo, 3 (Ke.vin) y la variable 2 (olor), es decir, el valor 5.

De manera general, una matriz de datos se representa por:,

INDIVIDUOS

VARIABLES X<\ x 2 ...Xj

x p . . . .

h X11 x12 x1j x1p

!2 X21 x22 x2j x2p

'i Xi1 xi2 ...Xjj - xip

■ • *

3 : • . ::4 : í

m Xn1 xn2 ■■■xnj ...Xnp

4.2 Descripciones marginales

Recuerdas que ,en páginas anteriores manejábamos el, .aspecto de que los análisis

estadísticos deben desarrollarse con el mayor orden posible, bueno pues de acuerdo a esto,

comenzaremos a estudiar la primera parte ,exploratoria, do la estadística, la cual se le conoce

(32)

lV y ^ fÀ b iS flb À l l^ tJ L tW À R tò A DESbRIPTÍVÁ'

El análisis univariado pretende formarse una idea de las características específicas dél

problema; ño :dé“ fñanera geñeral, sino'variables por'variable'. Déñtró" dé éste'estudio se

inclüyérí dbs-clasksdé" parámetros: " "

a) De tendencia central (media, moda, mediana.).

b) De dispersión (desviación estándar, varianza, coeficiente de correlación)! "

Con estos dos tipos de valores conoceremos el comportamiento o tendencia de cada

variable para tomar una decisión posterior acerca de cuáles son las técnicas más apropiadas

para el análisis multivariado.

Ejemplo 4.1.

A continuación se presentan los resultados porcentuales del análisis fisicoquímico del

suero de quesería de leche de oveja Chiapas, y se desea elaborar un análisis marginal de

eilos. ' ^ ;

No. oveja Grasa Proteina Cenizas Sol. Totales Humedad Lactosa

1 0.35 1.01 0.98 6.45 93.55 4.11

2 0.55 1.22 0.75 7.36 92.64 4.84

3 0.40 1.17 0.89 7.38 92.62 4.92

4 0.50 1.30 1.15 7.94 92.06 4.99

5 0.20 1.23 1.07 7.42 : 92.58 4.92'

6 0.30 0.98 0.96 6.59 93.41 4.35

7 0.35 0.88 0.93 7.14 ' 92.86 4.98 '

...- 8 0.40 1.07 0.82 6.77 93.23 4.48

9 0,45 - 1.13 0.89 =. 7.44 , 92.56 4.97 ■

10 0.50 1.22 0.86 7,71 92.29 5.13

11 0.30 1.26 0.96 7.52 92.48 5.00

12 0.20 1.17 1.03 7.44 92.56 5.04

13 0.45 1.23 1.02 7.39 92.61 4.69

14 0.45 0.96 0.99 6.57 93.43 4.17

15 0.50 1.11, 1.15 7.58 92.42 . 4.82

Tabla 4.2. Composición tisicoquimíca porcentual del suero de leché de oveja Chiapas.

(33)

IV. ESTADISTICA MULTIVARIADA DESCRIPTIVA

Análisis 4.1 , . . . ,. ...

. Para desarrollar con mayor facilidad el análisis,y empezar,a acostumbrados al. uso de

los paquetes estadísticos, los datos se han capturado en el paquete estadístico "SYSTAT"

para Windows, tal y como aparecen en la matriz de datos anterior.

A continuación se presenta la salida de computadora del paquete SYSTAT para las

estadísticas básicas del ejemplo empleando la opción "Quick Descriptives Statistics"

(Estadísticas Descriptivas Rápidas): . ..»

SYSTAT FILE VARIABLES AVAILABLE TO YOU ÁRE: “

OVEJA GRASA PROTEINA CENIZA SOLTOTAL

HUMEDAD LACTOSA

C:\SYSTATW5\SUERO.SYS

TOTAL OBSERVATIONS: 15

OVEJA GRASA PROTEINA CENIZA SOLTOT

N OF CASES 15 15 15 15 15

MINIMUM 1.000 0.200 0.880 0.750 6.450

MAXIMUM 15.000 0.550 1.300 1.150 7.940

MEAN 8.000 0.393 1.129 0.963 7.247

STANDARD DEV 4.472 '0.108 : 0.125 - - 0.113 • : - 0.447

HUMEDAD LACTOSA

N OF CASES 15 ' 15

MINIMUM 92.060 4.110

MAXIMUM 93.550 5.130

MEAN 92.753 4.761

STANDARD DEV 0.447 0.327 '

Observa que ésta opción sólo obtiene los siguientes parámetros:

Número de casos Valor Mínimo Valor máximo

Media ;

Desviación estándar

(34)

IV> ESTADISTICA MULTIVÂRIADA DESCRIPTIVA

Sin embargo, si se desea todas: las estadísticas marginales/se emplea la opción

"Statistics" (estadísticas) y se marca el cuadro "AH" (todas). Para el nuestro ejemplo, la salida

por computadora de "todas" las estadísticas es la siguiente:

C:\SYSTATW5\SUÉRO.SYS

TOTAL OBSERVATIONS: 15

OVEJA GRASA PROTEINA CENIZAS SOLTOT

N OF CASES 15 15 • 15 15 15

MINIMUM 1.000 0.200 0.880 ■ 0.750 6.450

MAXIMUM 15.000 0.550 1.300 1.150 7.940

RANGE 14.000 0.350 0.420 0.400 1.490

MEAN 8.000 0.393 1.129 0.963 7.247

VARIANCE 20.000 0.012 0.016 0.013 0.200

"STANDARD DEV ; ' ' 4.472 ' 0.108 0.125 0.113 0.447

STD. ERROR 1.155 . 0.028 0.032 0.029 0.115

SKEWNESS(GI) 0.000 -0.477 -0.563 0.007 -0.572

KURTOSIS(G2) -1.211 -0.792 -0.817 -0.522 -0.799

SUM 120.000 5.900 16.940 14.450 108.700

C.V. 0.559 0.275 0.110 0.117 0.062

MEDIAN 8.000 0.400 1.170 0.960 7.390

N

i-* • , : . . . . - HUMEDAD LACTOSA

. N OF CASES 15 15

MINIMUM' 92.060 4.110

MAXIMUM 93.550 5.130

RANGE 1.490 1.020

MEAN 92.753 4.761

'Va r i a n c e" 0.200 0.107

STANDARD DEV 0.447 0.327

‘ STD. ERROR : 0.115 : 0:085

SKEWNESS(GI) 0.572 -0.941

KURTOSIS(G2) " " -0.799 : -0.525

SUM 1391.300 71.410

C.V. 0.005 0.069

MEDIAN 92.610 4.920

(35)

IV. ESTADISTICA MULTIVARIADA DESCRIPTIVA

En la opción anterior se obtiene los parámetros de:>

' Número de casos Valor Mínimo Valor Máximo Rango

Media Varianza

Desviación estándar Error estándar

• Simetría... Kurtosis

Suma

Coeficiente de Variación Mediana

Todo lo anterior buscando alguna característica especial.

Interpretación 4.1. »

Cómo presentar las resultados y dar. una conclusión sobre ellos es posiblemente la

parte más importante de la estadística, recuerda que un buen reporte "es aquel que-presenta

datos estadísticamente confiables, con tablas o gráficos entendibíes".

Así, una forma de presentar los resultados del análisis del suero de leche sería

ordenarlos en una tabla e incluir lo más representativo, que en este caso sería lo que se

•muestra en las estadísticas básicas, además del coeficiente de variación. Un aspecto

. . . t • }. .. t >■ interpretativo que debes cuidar es el de la lógica, por ejemplo, observa que en las salidas de

la computadora se incluye la variables "oveja", que para nuestro ejemplo vendría, siendo el

número de la oveja; por supuesto debes intuir que todas las estadísticas para esta, variable

no sirven de nada, ya que no tiene ningún caso tener un promedio del número de oveja, por

ejemplo.

(36)

IV jË S T A D IS T IC ^M Ü lIT IV A R rA D Â 'D E S C R IP tlV A

A continuación se muestra una tabla modelo en donde se reportan las estadísticas

marginales del ejemplo del suero:

GRASA PROTEINA CENIZA SOLTOT HUMEDAD í LACTOSA

Media 0.393 1.129 0.963 7.247 92.753 4.761

Desviación Estándar 0.108 - 0.125 0.113 0.200 0.447 0.327 '

-C.V. 0.275 0.110 0.117 0.062 0.005 0.069

Mínimo , ; . . . 0.200 , : 0.880 , 0.750 6.450 92.060 ' 4.110

Máximo 0.550 1.300 1.150 7.940 93.550 5.130

Tabla 4.3. Estadísticas descriptivas básicas de las variables del análisis fisicoquímico del

suero de leche de oveja Chiapas.

De manera general, se puede concluir que se obtuvieron las estadísticas descriptivas

básicas para el problema, y considerando un criterio Heurístico (criterio sin fundamento

matemático, pero aceptado por experiencia) de que un coeficiente de variación (C.V.) mayor

de 0.1 es significativo, se destacaría que la variable "Grasa" es la que presentó la mayor

dispersión (C.V. = 0.275) y que sería posiblemente importante averiguar esta variabilidad.

Una manera gráfica de representar la dispersión de la variable "Grasa" seria a través

de un "gráfico de cajas" (box). Estas gráficas representan la dispersión de todos los datos de

una variable, donde la caja dibujada, corresponde al 50 % de la población y la línea que la

divide en dos es la mediana. Las líneas horizontales que salen de la caja ("alambres" o

bigotes") representan cada uno al 25 % de la población. En otras palabras, una gráfica de

"cajas" muestra a toda la población y su dispersión dividida en cuartiles (4 partes). A

continuación se presenta la gráfica de cajas para la variable "Grasa" de nuestro ejemplo

conforme a la salida de computadora del paquete estadístico SYSTAT.

i_______ i_______i____ ___ i_______ i_______ i

: 0-1- 0 2 ' 0.3 0‘ >A ' '0 .5 ' 0.6 ' ' " ^

(37)

IV,, ESTADISTICA MULTI VARI ADA DESCRIPTIVA

Gráfica 4.1. Gráfico de cajas para la variable "Grasa".

De esta gráfica se puede concluir que existe una distribución sin una tendencia

apreciable de dispersión o concentración hacia alguno de los cuartiles de la gráfica. Además;

no existen puntos "out liers" (puntos no representativos de la población y disparados en su

valor), ya que no se muestran asteriscos (*) ni círculos (°) en la gráfica, por lo que se puede

pensar que la dispersión significativa que presenta la variable "Grasa" no es debida a causas

fuera de lo "normal"

4.3 Descripciones bivariadas

En muchas ocasiones es importante, para cambiar la formulación de un alimento,

conocer el grado de asociación que pudiera tener un ingrediente con el sabor del producto;

por ejemplo, si se deseara cambiar margarina por grasa vegetal en la elaboración de una

galleta, saber el nivel de correlación de cada uno de estos ingredientes con el sabor de la

galleta resultaría de suma importancia para decidir si se realiza el cambio o no.

.El estudio detallado de las asociaciones bivariadas (de dos variables) es necesario e

antes de entrar en materia multivariada; se recomienda que los datos de un problema se

sometan a análisis bivariados como lo serían las correlaciones y las pruebas de "T" e incluso

representaciones gráficas bivariadas, todo esto con la finalidad de formarse una panorámica

aún mayor que ías que ya se tenían con las estadísticas descriptivas básicas.

Ejemplo 4.2.

Se caracterizó sensorialmente el queso fresco "La Joya" y para asegurar que las

características del queso en diferentes muestras serían estadísticamente las mismas, el

producto fue evaluado en diferentes condiciones ambientales por dos grupos de panelistas,

(38)

IV, ESTADISTICA MULTI VARIADA DESCRIPTIVA

uno con entrenamiento (1) y otro sin éste (2). Se desean conocer las asociaciones más

importantes entre las variables evaluadas y si existen diferencias entre los grupos de

panelistas para cada variable.

La siguiente tabla muestra el resultado de la evaluación organoléptica del queso fresco

"La Joya": Grupo Interna

Color Dureza Salinidad Dezmenuzable Ahulado Gomoso Humedad

1 4 4 , 5 6 6 6 ■: 7 ■■■

1 4 4 3 5 8 7 6

1 4 5 5 5 3 3 5

f 5 ....6 4 3 5 3 5

1 4 3 5 3 6 5 4

,, 1 , 6 . , , 7 - - 5 7 6 . 6 4 .

1 6 7 5 4 5 6 2

r . i f s*/ / ' ■ * - A ; . 5 ' 0 ' 0 : 1

.1 ... 5 . ...4 6 . 5. ... 6 5.. ,

'' i " 5 8 5 8 6 7 3

2 4 3 3 6 3 5 ' 3

2 4 4 2 3 3 2 3

2 7 5 4 4 4 5 4

2 3 3 3 2 5 7 6

2 2 - ...^ 3' 4 6 3 3 5

2 5 5 5 4 - 6 6 6

2 1 3 1 7 7 8 6

2 6 3 4 8 1 5 7

2 4 6 6 4 8 6 7

2 3 2 4 8 5 9 9

Tabla 4.4. Análisis organoléptico del queso Fresco "La Joya"

Análisis 2.

Se creó una base de datos en el paquete estadístico SYSTAT con los resultados

mostrados en la matriz de datos del problema obteniéndose las correlaciones pareadas de

Pearson ("Quick Pearson Correlations") y las pruebas de "T" (t-test) para la Comparación de

(39)

IV. ESTADISTICA MULTIVARIADA DESCRIPTIVA

medias de cada variable éntre los dos grupos de panelistas.La salida de-computadora de;las

correlaciones se presenta a continuación: -• < • < r *

COLOR DUREZA SAL DESMENU AHULADO GOMOSO HÚMINT COLOR 1.000

DUREZA 0.450 1.000 -* * 4 " ' '"--V

SAL 0.197 0.549 1.000

DESMENU -0.071 -0.031 0.008 1.000

AHULADO -0.354 0.349 0.374 -0.082 1.000

GOMOSO -0.354 0.055 0.259 0.349 0.703 1.000

HUMINT -0.477 -0.326 0.252 0.243 0.393 0.586 1.000

La salida por computadora de las pruebas de "T" se muestra a continuación. Debe

hacerse notar que los datos más importantes de las pruebas "T" que aquí se presentan; han

sido, destacadas en letras "negrillas" aunque realmente el paquete estadístico no lo

proporciona de esta manera.

INDEPENDENT SAMPLES T-TEST ON COLOR GROUPED BY GRUPO

GROUP N MEAN SD

1.000 10 5.000 1.054

2.000 10 3.900 1.792

SEPARATE VARIANCES T = 1.673 DF = 14.6 PROB = 0.116

POOLED VARIANCES T = 1.673 DF = 18 PROB = . . 0.112

INDEPENDENT SAMPLES T-TEST ON DUREZA GROUPED BY GRUPO

GROUP N MEAN SD

,1.000., ,10 5.200 1.751

2.000 10 3.700 1.252

(40)

IV: ESTADISTICA MULTI V Á R I ADA DESCRIPTIVA'

INDEPENDENT SAMPLES T-TEST ON SAL GROUPED BY GRUPO

GROUP N MEAN SD

1.000 10 4.200 1.317

2.000 10 3.600 1.430

SEPARATE VARIANCES T = 0.976 DF = 17.9 PROB = 0.342

POOLED VARIANCES T = 0.976 DF = 18PROB = 0.342

INDEPENDENT SAMPLES T-TEST ON DESMENUZ GROUPED BY GRUPO

GROUP N MEAN SD

1.000 10 5.200 1.619

2.000 10 5.200 2.098

SEPARATE VARIANCES T = 0.000 DF = 16.9 PROB = 1.000

POOLED VARIANCEST= 0.000 DF = 18 PROB = T.000

INDEPENDENT SAMPLES T-TEST ON AHULADO GROUPED BY GRUPO

G RO UP...N .MEAN SD

1.00Ó" ‘ 10 5.000 2.160 2.000 . . 1 0 . . 4.500 2.121

SEPARATE VARIANCES T = 0.522 DF = 18.0 PROB = 0.608

POOLED VARIANCES T = 0.522 DF = 18 PROB = 0.608

INDEPENDENT SAMPLES T-TEST ON GOMOSO GROUPED BY GRUPO

GROUP N MEAN SD

1.000 10 4.900 2.234

2.000 10 5.600 2.119

SEPARATE VARIANCES T - -0.719 DF =18. 0 PROB = v 0.481

POOLED VARIANCES T = -0.719 DF = 18 PROB = 0.481

INDEPÉN5ÉNT SAMPLES T-TfeST ON HUMINT GROUPED BY GRUPO

GROUP N MEAN SD

1.000 ' 10 : 4.200 1.814

2.000 10 5.600 1.897

SEPARATE VARIANCES T = -1.687 DF = 18.0 PROB = 0.109

- POOLED VARIANCES T = -1.687 DF = 18PROB= 0.109

(41)

IV. ESTADISTICA MULTIVARIADA DESCRIPTIVA

Posteriormente, se obtuvieron las frecuencias de intensidad sensorial para cada

variable y se construyó una gráfica de barras (Histograma) én el paquete graficador "Harvard

Graphics", en ella, se observa de manera integral que las características percibidas en el

queso se acumulan alrededor de los valores 4, 5 y 6, por lo que se podría decir que el queso

en estudio se aproxima a las características que dichos valores corresponden a cada variable.

Frecuencias acumuladas para las variables

analizadas-3 0

25

(0 o

c

a' a o a> LL

.20

15

10

0

0 1 2 3 4 5. 6 7 8 9

E scala de Intensidad Sensorial

H b lu ;m ; Tntrna**';

-O G o m o s o ... >

Ü l A h u la d o

ID Desmenúzatele

S alinidad

Dureza ‘

Color

Interpretación 4.2.

Antes de comenzar cualquier interpretación siempre es conveniente fijar las bases en

que se sostendrán las conclusiones. Para el caso de las correlaciones, fijaremos un criterio

heurístico de que los valores mayores o iguales a 0.5 (r 0.5) serán considerados de

(42)

IV;ÉStiVDfSTICA l^'ÚLTIVARIADA tiÉ SORÍ PTlVA

asociación significativa. El criterio heurístico puede variar de acuerdo a las características del

problema.o a la cantidad de correlaciones "altas"; por ejemplo, si existieran muchos valores

arriba de 0:8, el criterio podría cambiar a hacer sólo significativas ¡as correlaciones iguales o

mayores a 0:8. : ;

-En lo que respecta a las pruebas "T", sólo es necesario recordar que la mayor parte de

las llamadas "pruebas de hipótesis" intentan verificar si hay evidencia para rechazar la

igualdad. En el' caso'de las pruebas-11!" , la hipótesis a probar es la igualdad de medias; así,

una probabilidad alta significará que existe suficiente evidencia para pensar que no son

diferentes las medias. Para facilitar la interpretación de cualquier prueba emplearemos el

siguiente criterio heurístico: ■

VALOR DE LA PROBABILIDAD CRITERIO

■ • ■ • (p-value) ■

Si... ...entonces son...

Ó.00 < p < 0.01 ...extremadamente diferentes

‘ 0.01 < p <0.05 ...muy diferentes

0.05 < p < 0.10 ...diferentes

0.1 < p < 1.00 ...no son diferentes

El valor de la probabilidad (valor de p) que tomaremos de las salidas de computadora

será el de "dos colas" debido a que sólo nos interesa saber si las medias son o no iguales, y

no cuál es mayor que la otra.

Es posible que esto te parezca repetitivo, pero siempre recuerda que en las

conclusiones sólo se deben incluir los aspectos más relevantes de los resultados De esta

manera y habiéndose fijado las bases de la interpretación, el ejemplo puede concluirse como

36y'

(43)

La tabla de correlaciones muestra que no existen muchas asociaciones importantes

entre las variables estudiadas, sólo se puede destacar que la correlación más importante es

la que se desarrolla positivamente entre las variables "Ahulado" y "Gomoso" (r=0.703)

indicando que la percepción de la consistencia ahulada ("rechinar" al morder) del queso está

asociada a la percepción de gomosidad (elasticidad al morder). La variable "Gomoso" también

está correlacionada de manera importante y positiva con la "humedad interna" (r=0.0586), por

lo que la elasticidad del queso es seguramente causada por su contenido.de humedad. Es

importante destacar que un queso fresco que ha. perdido agua en poco tiempo, cambia su

percepción de humedad interna de manera inversa; es decir, un queso fresco con bajo

contenido real de humedad, se percibe al comerlo como de humedad interna alta (por estar

"aguado".

Otra de las correlaciones importantes es la que s e ; presenta ide;¿manera positiva

(r=0.549) entre las variables "Dureza" y Salinidad", asociación que. indica que un queso

percibido como "salado", también será detectado como "duro" y viceversa.

Para representar gráficamente las correlaciones se recomienda elaborar

"Correlogramas, los cuales son simples gráficos "X vs.Y" en donde se aprecian las

asociaciones entre las parejas de variables. A continuación se presentan dos correlogramas,

uno para la correlación más alta del problema (r=0.703), y otro para la más baja (r^0.031).

(44)

IV,

- 5 O 5 1 0 ; ■

AHULADO

Gráfica 4.2. Correlograma con "r" significativa (0.703) y ajuste lineal.

N

z

LU 2

00

UJ Q

. DUREZA . . : . •

Gráfica 4.3. Correlograma con "r" no significativo (-0.031).

(45)

IV,¡ESmGysriCAtMULiniW^DA!lDESCRIP7jlWV

En lo que se refiere a la comparación entre los grupos de catadores, se encontró que

sólo la variable dureza presenta una diferencia muy significativa (p=0.041), mientras que para

las demás variables no existió suficiente evidencia como para pensar que la percepción de los

dos grupos catadores es diferente. Por lo anterior, y conociendo las condiciones del análisis,

la diferencia detectada en la variable "Dureza" puede ser despreciada; (esto es importante

porque sólo el que realizó la prueba, es decir el experto, puede concluir de esta manera) y

concluirse que las muestras correspondían a sólo un tipo de queso.

Para complementar los resultados y representar gráficamente la diferencias entre los

grupos de panelistas respecto a la variable "Dureza", a continuación se presentan las gráficas

de "cajas" para cada grupo.

8

N UJ cr

(46)

IV: ESTADISTICA MULTIVARIADA DESCRíPTIVA

• ■ Las gráfieas de cajas con intervalos de confianza aparecen como un vestido, ya sea de

manera "normal"- o "de cabeza", en los -cuales se debe destacar la franja (banda) que se

forma entre el "tirante del escote" y el inicio del "vuelo" de la falda. Si dicha banda se prolonga

hacia la gráfica adyacente y se intersecta con la "banda" del intervalo de confianza de esta

última, se puede afirmar que los grupos son similares, de otra manera los grupos son

diferentes.

GRUPO ■ ■ • . ..

Gráfica 4.5. Cajas con intervalos de confianza. El intervalo de confianza de la caja del grupo 2

se ha proyectado como una banda hacia la caja del grupo 1. Observa que la banda se

intersecta con el inteiyalo de confianza del otro grupo, por lo tanto, se puede suponer que los

grupos no son distintos en lo que se refiere a la variable DUREZA.

A pesar de que la prueba de t y la de cajas con intervalos tuvieron un resultado

(47)

queso de manera íntegra, por lo que puede afirmarse que se trata de un sólo tipo de queso

puesto que existen diferencias significativas entre los dos grupos de panelistas. Además, se

puede concluir.que. el'-queso La Joya es organolépticamente; de; color ^blanco: amarillento,

semiduro y salado, moderadamente desmenuzable, poco ahulado -,y gomoso, con contenido

de humedad interna media. :

IV.ESTADISTICAM UL?IVARIADAO iESCRIPTIVA

4.4 Estadísticas Descriptivas Multivariadas.

En principio, las estadísticas descriptivas de cualquier índole deben comenzarse de

manera univariada, seguido de un análisis bivariado y por último el multivariado. Así, se

podría afirmar que la exploración multivariada es simplemente la conjunción de todas las

estadísticas descriptivas univariadas y bivariadas.

Usualmente las estadísticas descriptivas multivariantes se disponen en vectores o

matrices y de ellas, las más comunes y de imjjortancia básica son:

a) La matriz de medias

b) La matriz de varianzas y covarianzas

c) La matriz de correlaciones.

Como puedes darte cuenta, las estadísticas incluidas en estas matrices (con excepción

de las covarianzas) ya las hemos calculado en ejemplos anteriores, lo único que háy que

(48)

IV: ESTADISTICA MULTIVARIADA DESCRIPTIVA

Ejemplo 4.3. ■ - ■ - >

Se. efectuaron 8 determinaciones analíticas características sobre 18 muestras de

Whisky Bourbon para estudiar preíiminarmeníe sus atributos básicos multivariados. Los

resultados del análisis se muestran en ia siguiente tabla:

Edad “Alcohol Extracto Acidos “ Esteres Aldehido Furfural Fusél ö il Color

0 -ro n r 2675 1070 “ “ 18.4 i i 'r; CM d 10079 ' ' ' o.o...

0 1(3470 16T.0 2971 5572 7.9 2.0 ...17173“ “ 0.0

TT 10070 , . . 4,0 T T r 1370 10 -070 7 " 71.3 “ “ “ ' ” 070 .... .

' ‘ 4 “ “ 101 8 “ • ‘99.4 41.1 2876 5.8 1.6 "11071“ .. • 77,1

1 10370“ “ ‘ 19370 Í 557T “559 8.6 7.9 173.4 10.9

1 100.0'. 61.0 24.7 17.2 2.7 0.0 58.0 5.4

- 40272 12578 ‘4570 4070 8.4.

' -1;6 ■ 110.1 . . 8,6

... 2 104.0 214.0 61.7 59.8 ■“ 4270 9.1 197.1 11.8

.. .... 2 --- ' 10070“ ^ “ “8170“ 25.5 2474 _ ...5'.9 . ..J 0.4 86.2 “ “ -6 7 9 “

....- ...4 “ “ “ 10473“ 15179 5874 “53.5 11.0 1.9 1259 10.8

"4 ‘ 10870 “ 724970 Í 750 • 80.6 2270 9.6 237.1 14.8

" 4' 1C0.0. “ ‘ “ 10170 40.0 2872 6.9 " “ 0.8 95.0 . .. £ 6_ _ _

6 107.9 185.1 67.1 64.0 11.9 1.8 , 135.3 43.1

~ n r . 1176.0 ; 28770 81.0 83.9 .......23.3 9.5 240.0 ~ ~ T 7 .5 ~

. - -

--“ --“ ns- " 10270 132.0 53.6 3674 7.7 0.9 . 9871 12.0

6 111.1 210.3 76.4 65.6 4 2 ,9 2.1 14375 14.2

--- ff - - ... - -124 0 326.0 91.4 93.6 i 28.8 10.0 241.8 20.9

8 ~ ... 1020 “ 15270 641 37:7 j 1 L 8 7 ” ’ 1.0 110.0 12.3

Análisis 4.3.

Se creó una base de datos en el paquetes estadístico SYSTAT y se obtuvieron los

promedios para-cada variable (con el comando "stats", menú "statistics"), la matriz de

varianzas y covarianzas (con el comando "stats", menú "corr", submenú "covariance") y por

último la matriz de correlaciones (con el comando "stats", menú "corr", submenú "Pearson").

Las salidas por computadora se presentan a continuación:

Promedios por variable.

Edad “Alcohol Extracto 3.50 105.07 153.39

Acidos Esteres Aldehido 49.96 47.44 10.48

Furfural Fusel Oil Color 3.38 139.06 9.72

(49)

IV: ESTADISTICA MULTIVARIADA DESCRIPTIVA

Varianzas y covarianzas.

Edad °Alcohol Extracto Acidos 8.38

11.71 40.89

157.18 469.69 7373.81

58.26 122.98 1987.11 617.52 40.66 134.79 2026.56 533.77 13.50 43.39 594.37 158.20 2.69 16.74 273.97 64.18 58.49 293.50 4571.32 1070.46 13.97 28.27 434.15 139.14

Coeficientes de Correlación de Pearson.

Esteres Aldehido Furfural Fusel'Oil Color

584.11

167.82 54.57

75.86 23.11 14.42

1308.76 385.63 207.26 3397.68 113.73 . 36.61 14.76 222.87

Edad 1.000

°Alcohol Extracto

0.632 1.000

. 0.632 0.855 1.000 0.810 0.774 0.931 0.581 0.872 0.976 0.631 0.919 0.937 0.245 0.690 0.840 0.347 0.787 0.913 0.825 0.756 0.865

Acidos Esteres Aldehido

1.000

0.889 1.000

0.862 0.940 1.000 0.680 0.827 0.824 0.739 0.929 0.896 0.958 0.805 0.848

Furfural Fusel Oil Color

1.000

0.937 1.000

0.665 0.654 Í.000

Después de una edición sencilla, las matrices correspondientes son las que a

continuación se muestran.

Vector de medias:

x 3.50 105.07 153.39 49.96 47.44 10.48 3.38 139.06 9.72

L J

| © lO B lL S tD '?

: ■—xrr~. •"

V TS íQ íi.i '

m m ? ,

UNlVEftfZ?'

\

Referencias

Documento similar

Así, en primer lugar, se realizó un aná- lisis de textos con objeto de contrastar la primera parte.de la hipótesis; después se pasaron cuestionarios a alumnos: el pri- mero,

La solución que se ha planteado, es que el paso o bien se hiciese exclusivamente por el adarve de la muralla, o que una escalera diese acceso por la RM evitando la estancia (De

Imparte docencia en el Grado en Historia del Arte (Universidad de Málaga) en las asignaturas: Poéticas del arte español de los siglos XX y XXI, Picasso y el arte español del

Que en la reumon de la Comisión de Gestión Interna, Delegada del Consejo Social, celebrada el día 17 de marzo de 2011 , con quórum bastante para deliberar y

Cuando trabaje en una tabla, haga clic donde desee agregar una fila o columna y, a continuación, haga clic en el signo más.La lectura es más fácil, también, en la nueva vista

de se convertir en chaux par la calcination- L a formation de ces pierres nous paroît due, en grande partie , au détritus des coquillages : Tidentité des

Lo más característico es la aparición de feldespatos alcalinos y alcalino térreos de tamaño centimétrico y cristales alotriomorfos de cuarzo, a menudo en agregados policristalinos,

scheme with correction has been proven as accurate as the second order scheme, a double simulation with the standard anisotropic model with