UNIVERSIDAD VERACRUZANA
FACULTAD DE ESTADlSTICA E INFORMATICA
e s p e c ia l iz a c i6
ne n
m e t o d o s
e s t a d is t ic o s
SPSS
TRABAJO RECEPCIONAL
(M O N O G R A F IA )
Q U E COM O REQU ISITO PARCIAL PAR A O BTEN ER EL D IPLO M A D E E ST A E S P E C IA L IZ A C I6n
PRESEN TA:
R oon y Joanathan Q uevedo L op ez
TUTOR:
M. en C. Julia Aurora Montano Rivas
G E N E R A C I6N : 2004 SEDE* Xalapa
TITU LO :
Aplicacion del Analisis Discriminante con SPSS*
AUTOR:
Roony Joanathan Quevedo Lopez
TUTOR:
M. en C. Julia Aurora Montano Rivas
V
-TIPO DE TRABAJO:
Desarrollo
RESU M EN :
En este trabajo se aborda el proceso de ejecucion del Analisis discriminante mediante el paquete estadistico SPSS. Dentro de este eneontrara la metodologia para llevar una correcta aplicacion asi como las interpretaciones a los resultados obtenidos.
Reporte Monografiajo TPE _
V
M E TO D O LO G fA ESTAD fSTIC A :
A) Disefio: Muestreo Experimento
Estudio observacional
B) Analisis Exploratorio Descriptivo basico Inferencia basico
Metodos multivariados Regresion
ANOVAyANCOVA Control de calidad
Metodos no parametricos Modelos especiales
Tecnicas avanzadas Series de tiempo
V
V
V
V
El Comity AcadOmico de la Especialization en Metodos Estadlsticos y el tutor
de este trabajo recepcional, autorizan la impresion y la constitution del jurado
para la defensa.
COMITfi ACADEMICO
COORDINADOR DE LA ESPECIALIZACI6N
Dr. Alma Rosa DIRECTORADE
AGRADECIMIENTOS
Dedico este trabajo con mucho carino para dos personas por que
gracias a ellos he Ilegado a reaiizar una de las metas mas grandee de mi
vida. Mis padres^ Isabel Lopez Rodriguez y Fidel Quevedo San Juan.
A mis tios Elda Lopez y Mario Bonillas, doy gracias por el apoyo,
confianza y responsabilidad infundidos en mi durante mi carrera. De igual
manera a mis tios Paulina Pimentel y Melesio Rodriguez que de alguna
forma estuvieron conmigo en todo momento.
Expreso mi agradecimiento a L.E. Julian Felipe Diaz Camacho, una
de las personas mas importantes durante la Especializacion, ya que gracias
a su apoyo incondicional hice realidad lo hoy es una meta cumplida.
Con gran admiration y respeto a mi asesora M.C. Julia Aurora
Montano Rivas a la cual le agradezco su apoyo, amistad y disponibilidad
para la culmination de este proyecto.
Gracias a cada una de las personas que me han hecho crecer
emocional, espiritual y mentalmente para seguir este camino. Companeros y
amigos (Blanca Lilia Lopez, Claudio Lopez, Juliana Pereda y Lisseth
Valenzuela).
Roony J. Quevedo1
Agosto 2004
PAGINA
I.
INTR0DUCCI6NAL
anAlisis discriminante1.1 Marco contextual... t
1.2 Antecedentes... 3
1.3 Planteamiento del problem a... 6
L4 Justification... 6
1.5 O bjetivos... 7
1.5.1 Objetivo general... 7
1.5.2 Objetivos particulares... 7
1.6 Breve description del contenido... ... ... 7
II. DEFINICIONES Y CONCEPTOS GENERALES II. 1 El concepto de analisis discriminante... 8
II. 2 Descripcion de variables... n 11.3 Propositos del analisis discriminante... 12
n .4 Objetivos del analisis discrim inante... 12
II. 5 Diferencias del analisis discriminante con otras tecnicas... 13
II. 6 Supuestos del analisis discriminante... 14
II. 7 Funcion discriminante... 15
11.8 Funciones discriminantes canonicas... 18
11.9 Funcion de clasificacion... 18
m . RECOMENDACIONES PARAEFECTUAR UN ANAUSIS DISCRTMINANTE
III.l Procedimiento de seleccion hacia atras. . . ... . 21
III. 2 Procedimiento de seleccion hacia delante... 22
III. 3 Procedimiento de seleccion por pasos ... 22
iv . p a s o s a s e g u i r p a r a l a e j e c u c i o n d e l a nAl is is D ISCR IM IN AN T IV. 1 Configuracion de estadisticos... 28
3V.2JEstadisticas descriptivas... ... 29
IV. 3 Configuracion delmetodo de analisis... ... 31
IV.4 Criterios de clasificacion... 34.
IV. 5 Almacenamiento de nuevas variables... 37
V. RESULTADOS DE LA EJECUCION DE ANALISIS V. 1 Prueba de igualdad de m edias... 39
V.2 Prueba de las matrices de varianzas y covarianzas... 39
V.3 Estadlsticas paso a p a so... 40
V.4 Resumen de las funciones discriminantes canonicas... 40
V.5 Estadisticos de discriminacion... 42
CONCLUSIONES... 44
REFERENCIAS... 45
i. in t r o d u c c i6
n a l a nAl i s is
d is c r im in a n t e
LI Marco contextual
En la actualidad el use de las tecnicas estadisticas multivariadas estan
tomando gran relevancia y un desarrollo vertiginoso. Una sucesion de eventos
en la metodologia estadistica ha hecho que este conocimiento sobresalga con la
aplicacion de dichas tecnicas que durante muchos anos no fueron destacadas
como tales, actualmente sus variadas aplicaciones en problemas de la ciencia,
la industria, administracion, medicina, sociales y centros de investigacion han
hecho que se den a conocer con mayor escala.
Durante el siglo XX el descubrimiento y progreso de las tecnicas
estadisticas cobraron gran importancia, cambios drasticos en la investigacion
hicieron que estas llevaran un desarrollo continuo, sin embargo, la presencia
de la computadora y .de paquetes estadisticos jugaron un papel muy
importante en las investigaciones para las cuales se ocupaban dichas tecnicas.
Sin embargo, para quienes acaban de familiarizarse con el fascinante
mundo de la Estadistica, les interese saber que existen tecnicas multivariadas
que logran resolver infinidad de problemas que en la actualidad se presentan
en nuestra vida cotidiana.
Actualmente los procesos de prediction, discrimination e identification
son muy comunes en nuestra sociedad, a tal grado que en ocasiones pasamos
por desapercibido que determinadas situaciones, las cuales pueden ser de gran
utilidad para la aplicacion de la tecnica tales
-□ <^E1 poder predecir con antelacion si un cliente que solicita un prestamo
a un banco va a ser un cliente moroso?
□ ^Saber cuales son los factores que influyen en el desarrollo de un infarto
de miocardio?
□ lEs posible predecir de antemano que un paciente corre un riesgo cierto
de infarto?
□ £Se puede predecir de antemano si un recluso que ha solicitado un
permiso carcelario, huira?
□ £Se puede predecir si una empresa va a entrar en bancarrota?
□ ^Cuales son las razones que llevan a un consumidor a preferir una
determinada marca sobre otras existentes en el mercado?
□ ^Existe discriminacion por razones de sexo o de raza en una empresa o
en un colegio?
Estos solo son algunos de los muchos ejemplos en donde se emplea mas
de un predictor o variables explicativas junto con una variable categorical la
cual no ha sido tan frecuente usarla como variable dependiente. Este es
precisamente el caso del Analisis Discriminante o tambien conocido como
Analisis de ClasificacionJ es una de las tecnicas multivariadas diseiiadas para
resolver el problema de clasificacion y discriminacion, a traves de la generation
de un modelo o fixation discriminante, el cual es usado como una regia para
verificar y reclasificar los individuos del estudio en los grupos previamente
definidos, o para la clasificar individuos nuevos.
La clasificacion se encuentra en cualquier contexto en que se toma una
decision o se realiza una prediction considerando la information disponible en
ese momento. Esta se puede presentar cuando se sabe que existen
determinadas clases previamente definidas, y si ademas el objetivo es
establecer una regia con la que se pueda clasificar una nueva observacion.
-1.2 Antecedentes
El problema de clasificacion es uno de los mas antiguos y fundamentales
de la estadistica, tal es el caso de la investigation en el siglo XVII realizada por
Lineo, donde logro establecer la primera clasificacion cientifica de los reinos
vegetal y animal, con lo que se initio la taxonomia. (Estadistica Aplicada,
2001).
La clasificacion esta presente en la actividad humana, y las aplicaciones
son tan comunes que las podemos identificar desde la diagnosis medica, y
hasta el reconocimiento de falsas obras de artel contemplando dentro de este
intervalo los casos como- los sistemas de concesion de creditos, la
determination de la esperanza de vida de un paciente, la decision de comprar
cierto articulo, la election de un candidato, entre otrosl Estos aspectos se
resuelven con la aplicacion del analisis discriminante, el cual implico su uso en
las ciencias biologicas y medicasl el interes considerable fue estimulado por los
Estadisticos y Metodologistas de distintas areas de estudio.
La primera aplicacion del analisis discriminante consistio en clasificar
los restos de un craneo que fueron descubiertos en una excavation, para ello se
usaron las medidas fisicas de los craneos humanos y los de antropoidesl las
cuales se usaron como medidas patron para poder realizar la clasificacion.
Pearson (1902), uso datos antropometricos proponiendo un coeficiente C,
que mediria la distancia entre dos poblaciones.
Mahalanobis (1925) propone el coeficiente D2, una medida de distancia
generalizada entre dos poblaciones usandolo para discutir la composition de
las mezclas raciales de Bengala.
-Ronald Aylmer Fisher en 1936, introdujo la tecnica estadistica analisis
discriminante, su enfoque no fue medir distancias entre poblaciones, sino
esencialmente clasificar un valor de una muestra en alguna de dos poblaciones
usando la information de dos o mas variables observables. Esta tecnica es
empleada cuando deseamos diferenciar de entre grupos (variable dependiente)
mutuamente excluyentes tomando en cuenta un conjunto de variables
independientes continuas.
La primera solution estadisticamente dada al problema de la
clasificacion a traves del Analisis Discriminante la dio Fisher en el afio de 1936
mediante la formation de Funciones Lineales de los datos. (Estadistica
Aplicada, 2001)
Sus proyectos estadisticos, primero utilizados en biologia, rapidamente
cobraron importancia y fueron apHcados a la experimentation agricola, medica
e industrial. Fisher tambien contribuyo a clarificar las funciones que
desempenan la mutation y la selection natural en la genetica, particularmente
en la poblacion humana.
Beaver (1966) presento el enfoque univariado del analisis discriminante
y Altman (1968) expande este analisis multivariado. En la decada de los 80’s,
el analisis discriminante fue el metodo dominante en prediction! a finales de
los 80’s fue reemplazado por el Analisis Logistico, el cual hasta los ultimos
anos ha sido el metodo mas usado para propositos de prediction (Back y
Laitinen, 1996).
El problema de la discrimination aparece en muchas situaciones en las
que necesitamos clasificar elementos con information incompleta. En
ingenieria el problema de clasificacion se ha estudiado bajo el nombre de
reconotimiento de patrones (pattern recognition), Algunos ejemplos de sus
diversas aplicaciones los podemos encontrar en disciplinas
-4-La cancerologia- Para comprobar si un paciente esta enfermo de cancer o
no, determinar si un anestesico es seguro para una persona que estan
operando del corazon, en donde el anestesiologo necesariamente debera
clasificar al individuo como paciente inseguro o seguro del anestesico; La
Osteologia- Distinguir pavos silvestres de los domesticos mediante la medida
de ciertos huesos; La Mercadotecnia: Clasificar a los individuos como
compradores potenciales y no compradores en el lanzamiento de un nuevo
automovil; La Grafologia: asignar un texto escrito de procedencia desconocida
a uno de varios autores por las frecuencias de utilization de palabrasi Musica y
Pintura: asignar una partitura musical o un cuadro a un artista.
Administration^ una declaration de impuestos como potencialmente
defraudadora o no; Economia^ una empresa en riesgo de quiebra o no;
Education: las ensefianzas de un centro como teoricas o aplicadas;
Manufactura- un nuevo metodo de fabrication como eficaz o no.
De las aplicaciones mas recientes estan las presentadas por Munoz
Salas (1998) fue el de la discrimination entre bancos de altas y bajas
utilidades; Escobar y Briceno (2002) utilizaron el analisis discriminante para
una vez mas determinar los ninos que se recuperaron del Sindrome de Distress
Respiratorio y aquellos que no lo hicieron, entre otros.
Velasquez y Arcos, (2000) en el estudio sobre la discriminacion de
variables neuropsicologicas evaluadas mediante pruebas que miden la
memoria, en la dementia tipo Alzheimer.
Trabajos presentados por Alfaro y Gamez (2002) sobre el procedimiento
mecanico para enviar cartas con base a la lectura automatica de los codigos
postales, la toma de decisiones respecto a las solicitudes de credito de los
individuos de acuerdo a su information financiera. Baldemar (2002) Estudio
las tendencias de cretimiento poblacional en el estado de Veracruz utilizando
information de los censos 1990 y 2000.
-1.3 Planteamiento del problems
Con el fin de ilustrar la aplicacion del analisis discriminante se presenta
todo un proceso de la aplicacion de la tecnica, para ello se propone el uso de
una base de datos o muestra de entrenamiento en la cual los individuos con
base a sus mediciones se observaran si estan clasificados correctamente! esto
se hara mediante el empleo del paquete estadistico SPSS.
1.4 Justificacidn
Debido a la necesidad de tener un trabajo en el cual consultemos con
toda seguridad el como llevar a cabo una correcta aplicacion del Analisis
Discriminante y ademas saber que muchos estudiantes estan limitados a la
exploration de esta tecnica surge la inquietud de realizar un documento de tal
forma que la lectura de este trabajo aportara al lector nociones y conocimientos
necesarios para la aplicacion de la tecnica a traves del uso del paquete
estadistico SPSS, y la interpretation de resultados.
El proposito fundamental es brindar una introduction al Analisis
Discriminante y la visualization de los comandos a traves de las ventanas para
poder desarrollar el analisis; tambien puede servir como un manual para
aquellas personas, las cuales, el manejo de esta tecnica no esta del todo
presente.
-6-1.5 Objetivos
1.5.1 Objetivos general
Elaborar un documento donde se presenta una tecnica de clasificacion
denominada Analisis Discriminante.
1.5.2 Objetivos particulares
1. Describir la tecnica de Analisis discriminante asi como su utilidad
practica.
2. Detallar el uso del paquete estadistico SPSS para la aplicacion concreta
de la tecnica antes mencionada.
3. Determinar cuando aplicar el analisis discriminante.
1.6 Breve descripcion del contenido
En este trabajo busca ensenar cuando y como aplicar el analisis
discriminante)' por lo que el primer capitulo contempla una introduction,
antecedentes y los objetivos) en el segundo capitulo considera la descripcion e
importancia de la tecnica) en el tercero podemos encontrar los procedimientos
para efectuar un analisis discriminante) en el cuarto capitulo podemos ver la
aplicacion con la ayuda del paquete estadistico SPSS y por ultimo en el
capitulo cinco tenemos los principales resultados de la ejecucion del analisis.
-II. DEFINICIONES Y CONCEPTOS GENERALES
II. 1 El concepto de analisis discriminante
El analisis discriminante forma parte del conjunto de tecnicas
estadisticas disenadas para resolver el problema de clasificacion y
discriminacion a traves de la generation de modelos o funciones de
clasificacion que permitan a una persona predecir a que poblacion o grupo
pertenece un individuo con el minimo error de clasificacion, donde los grupos
se forman de individuos, empresas, productos, o cualquier otro objeto.
Igualmente se emplea para discriminar a distintos objetos en grupos o
poblaciones, a partrr de los valores de un conjunto de variables independientes
medidas sobre los mismos individuos. Con dichos modelos se verifica a que
grupo pertenecen los individuos del estudio o se clasifican individuos nuevos.
Esta tecnica forma parte del siguiente conjunto'
Tabla 1. M etodos de clasificacion y discriminacion
| M e t o d o s d e discrim lnacldn y c la sifica cld n |
Analisis Discrim inante
V R e g re s id n - ' :' Logfstica ft. ;
Aigoritm os . :: ^ e n d t b o s ::;
v :A rb 6 le s d e :CI(3siflcacl6n
1 'R e d e s 1 N e u ro n a le s
Como tecnica de dependencia el analisis discriminante pone en marcha
un modelo de causalidad en el que la variable dependiente es no metrica y las
independientes son metricas. En esta tecnica utilizamos el termino grupo o
categona para representar a una poblacion o una muestra de la poblacion.
-Desde el punto de vista estadistico el problema de clasificacion se puede
diferenciar desde dos perspectivas diferentes:
□ En la primera de ellas los grupos estan definidos a priori y se busca
determinar una razon para etiquetar cada objeto como perteneciente a
alguno de los grupos, a partir de los valores de una serie limitada de
parametros.
□ La segunda perspectiva corresponde a aquel en el que no se conoce a que
grupo pertenece una observation y lo que se busca principalmente es
establecer dichos grupos a partir de los datos que poseemos.
Con respecto al punto uno, la tecnica mas utilizada es el Analisis
discriminante, en tanto que para la segunda perspectiva la tecnica estadisticas
mas utilizada se conoce como Analisis Cluster.
Para llevar a cabo el analisis discriminante, se debe tener lo que se
conoce como una muestra de entrenamiento con la cual no debe de haber dudas
a que grupo pertenece cada uno de los individuos. El procedimiento es simple,
se parte de una muestra de N observaciones en los que se han medido p
variables cuantitativas independientes, que son utilizadas para discriminar a
los individuos u objetos de los grupos, generando modelos o funciones que se
usaran para evaluar la informacion de nuevos individuos cada vez que se desea
clasificar.
Esta tecnica al igual que el MANOVA permite detectar las diferencias
entre grupos, a traves de las caracteristicas que particularizan a cada grupo y
lo hacen ser diferente de otro.
-Existen dos objetivos principals en la separacion de grupos:
□ Descripcion de la separacion de un grupo- en el que las funciones
lineales (funciones discriminantes) de las variables son empleadas para
poder describir y/o aclarar las diferencias entre dos o mas grupos dentro
de este objetivo se incluyen la identification de la contribution de las p
variables independientes a que separan mejor los grupos ademas de la
mejor configuration para la formation de los grupos.
□ Prediction o Asignacion- en la cual las funciones lineales o cuadraticas
(funciones de clasificacion) de las variables que se emplean para asignar
una unidad de muestreo individual a uno de los grupos. Los valores
medidos (en el vector de la observation) para un individuo o un objeto
son evaluados a traves del modelo de discrimination para ver a que
grupo pertenece o sera asignado el individuo.
Algunos autores manejan el termino Analisis Discriminante solo en
relation con el primer objetivo, y como Analisis de Clasificacion a todos los
aspectos del segundo objetivo.
En este sentido AEDEMO (1992) menciona que existen tres aspectos: el
descriptivo, el predictivo y el de reclasificacion.
Descriptive\ Encontrar las variables que permiten una mayor
diferenciacion o separacion de los grupos, de manera que se identifiquen las
realmente importantes en la descripcion de dichos grupos. Por ejemplo: que
variables diferencian mas a los grupos de grandes compradores de un
producto, de los compradores habituales y de los compradores esporadicos.
Predictivo. Establecer las reglas para incluir a cualquier nueva
observation, de las cuales se conocen los valores de las variables predictoras,
dentro de uno de los grupos definidos con el minimo error de clasificacion. Es
-elemental cuantiflcar con que precision se clasificara un nuevo objeto ya que de
esa manera se podra medir el error de mala clasificacion.
Reclasificacion. Se intenta reagrupar las observaciones en nuevos
grupos, en caso de que estas no hayan sido clasificadas correctamente.
II.2 Descripci6n de variables
Una variable grupo es un tipo especial de variable dependiente. La cual
puede tomar dos o mas valores, no obstante la situation mas comun es aquella
en la que se emplean dos valores, en este unico caso se le conocera como
variable dicotomica. Cuando existen mas de dos grupos (variable policotomica)
el analisis discriminante cambiara su nombre al de analisis discriminante
multiple y puede tomar nombres tales como: Analisis Factorial Discriminante
o Analisis Discriminante Canonico.
En este caso, una variable dependiente es una caracteristica, cualidad o
rasgo de interes de una unidad que puede adquirir diversos valores. En el
estudio y uso del analisis discriminante (AD) hay fundamentalmente dos tipos
de variables: la variable dependiente (categorica) y la variable independiente
(continuas).
Variable dependiente- tambien conocida como variable de criterio o
cualitativa indica el grupo al cual pertenece una observation y puede ser por
ejemplo un tipo de escuela (primaria, secundaria), un metodo de instruction,
un area geografica, participation de los deportes y residencia (rural, urbana y
suburbana) entre otras.
Variables independientes, explicativas o predoctoras ' son caracteristicas
de escala metrica de las unidades de estudio, mismas que serviran para
identificar a cual clase o categoria pertenece un individuo.
II. 3 Propositos del analisis discriminante
Hay varios propositos para del AD dentro de los que se encuentran:
1. Investigar las diferencias entre grupos.
2. Desechar las variables de poca influencia con las distinciones del grupo *
3. Clasificar nuevos objetos o individuos en grupos.
4. Probar la teoria observando si los casos estan elasificados segun lo
predicho.
II.4 Objetivos del analisis discriminante
El analisis discriminante puede ser la tecnica adecuada cuando se
persigue alguno de los siguientes objetivos* (Montano Rivas, 2004)
1. Identificar cualquier diferencia estadisticamente significativa entre los
perfiles promedios por grupo, es decir, se quiere discriminar entre los
grupos respectivos en base a los datos observados en las variables
independientes.
2. Determinar cual de las variables independientes cuantifica mejor las
diferencias en los perfiles de las puntuaciones medias de dos o mas
grupos.
3. Establecer procedimientos para clasificar (objetos, individuos, empresas,
productos, etc.), dentro de los grupos, en base a sus mediciones sobre un
conjunto de variables independientes.
-12-4. Establecer el numero y la composition de las dimensiones de la
discrimination entre los grupos formados a partir del conjunto de
variables independientes.
5. Analizar si existen diferencias entre los grupos en cuanto a su
comportamiento con respecto a las variables consideradas y averiguar
en quienes causan dichas diferencias.
6. Elaborar procedimientos de clasifLcacion sistematica de individuos de
origen desconocido, en uno de los grupos analizados.
II. 5 Diferencias del an&lisis discriminante con otras t6cnicas
Dentro del camino de la estadistica existen tecnicas que de acuerdo a
algunas de sus caracterxsticas pueden llegar a confundirse con el Analisis
Discriminante; cuando en realidad son diferentes. A continuation se
mencionan algunas de ellas^
Analisis de Varianza (ANOVA). Este analisis se confunde con el analisis
discriminante; porque ambos usan variables categoricas y continuas. El
ANOVA es todo lo contrario al discriminante, ya que la variable dependiente
es metrica o continua y las independientes son no metricas o categoricas.
Analisis Cluster. Esta teenica al igual que el analisis discriminante
clasifica individuos la principal diferencia es que en el analisis discriminante
los grupos se establecen a priori, es decir, que los individuos (u observaciones)
analizados se encuentran ya clasifLcados antes de comenzar el analisis
discriminante y en cluster se realiza una exploration para ver la posible
existencia de grupos. (Calvo, 1993).
En el Analisis de Regresion Multiple, una regia de la prediction es la
que implica desarrollar una combination lineal de los predictores. Una
-combination lineal de predictores tambien se utiliza en el Analisis
Discriminante Predictivo (ADP); sin embargo, la regia consiste en tantas
combinaciones lineales como categorias menos 1 haya.
Esta regia permite al investigador predecir la pertenentia de una nueva
observation en uno de los grupos previamente definidos.
II.6 Supuestos del analisis discriminante9
1. La variable dependiente debe ser verdaderamente categorica. Uno
nunca debe simplemente categorizar una variable continua con el
proposito de aplicar analisis discriminante.
2. Todos los casos deben ser independientes y deben de pertenecer a un
grupo formado por la variable dependiente. Los grupos deben ser
mutuamente excluyentes, con cada caso perteneciente a un solo grupo.
3. Los tamanos de los grupos de la variable dependiente no deben ser tan
diferentes.
4. El maximo numero de variables independientes es de n - 2, donde n es
el tamano de la muestra.
5. Los errores (residuals) son aleatoriamente distribuidos.
6. Los supuestos clave para obtener la funtion discriminante son el de
normalidad multivariada de las variables independientes y el de
matrices de varianzas y covarianzas desconocidas (pero iguales) para los
grupos.
7. Los datos que no llegue a cumplir el supuesto de normalidad
multivariada pueden originar problemas al momento de la estimation de
la funtion discriminante. Para este caso, se propone que se utilice la
regresion loglstica como una tecnica alternativa.
8. Homogeneidad de varianzas' las variables independientes pueden tener
varianzas diferentes una de otra, pero para la misma variable
a Montano Rivas, 2004
-independiente, los grupos definidos por la variable dependiente deben
tener varianzas y mediae similares.
9. Si las matrices de varianzas y covarianzas son distintas, esto puede
afectar desfavorablemente el proceso de clasificacion, aunque la
diferencia entre matrices se puede minimizar si se aumenta el tamano
de muestra en el estudio.
10. El analisis discriminante es altamente sensitivo a los “outliers” o datos
atipicos. La falta de homogeneidad de varianzas puede indicar la
presencia de outliers en uno o mas grupos.
11. Multicolinealidad entre las variables independientes. Esta consiste en
que dos o mas variables independientes estan altamente
correlacionadas, o una variable es una funcion de otra, por lo que una
variable puede venir muy bien explicada por otras variables y por ello
anadir poca capacidad explicativa al conjunto completo.
Un supuesto implicito es que todas las relaciones son lineales. Las
relaciones no lineales no estan reflejadas en la funcion discriminante, a menos
que se realicen transformaciones especificas de la variable para representar los
efectos no lineales.
II.7 Funci6n discriminante
Dada una poblacion, que tenemos dividida en grupos, el analisis
discriminante encuentra una funcion que permite, con un determinado grado
de acierto, explicar esa division en grupos. Una vez obtenida, puede utilizarse
para clasificar a nuevos individuos en alguno de los grupos en que esta
dividida la poblacion. (Uriel, 1997)
La funcion discriminante es una combination lineal de p variables
cuantitativas que mejor separan los grupos. Cuando se tienen k - .2 grupos en
-la variable dependiente, se obtendra una funcion discriminante) pero si k > 2
el numero de fimciones a generarse es de i -1 . (Montano Rivas, 2004)
La nrision del analisis discriminante: es obtener un criterio de
clasrSeaeidn. Es deeir, encontrar una o varias funciones discriminantesb que
sepace lo mejor posible a dos o mas grupos
v /
For ejemplo cuando se tienen tres grupos, puede estimarse^
a) una funcion para diseriminar entre el grupo l y .grupos 2 y 3, y
b) otra funcion para diseriminar entre grupo 2 y grupo 3.
La funcion discriminante se denota
como-ZJ^ S + W lX lg+W2X 2g+W3X ^ . . . + WfyX pft
Donde’
Zjg =Puntuacion discriminante de la funcion j - esima en la poblacion
S = Termino constante
^ “ Ponderacion discriminante o coeficientes discriminantes para la variable
.independiente i, i = .1,-2,
X ig = Variable independiente i para la poblacion g.
En este caso se obtiene una puntuacion Z discriminante para cada
individuo del analisis, posteriormente dentro de cada grupo dichas
puntuaeiones se suman y se dividen entre el numero de individuos con la
finalidad de obtener con ello la media del grupo; esta media es conocida' coma
b
Dependiendo del numero de-grupos
-centroide, el cual indica la situation mas comun de cualquier individuo dentro
de un grupo determinado. De manera que tiene un centroide para cada grupo.
(Huberty, 1994)
Cuarido el analisis engloba dos grupos, existen dos centroides; con tres
. grupos, bay tres centroides, y asi sucesivamente.
La significancia de las diferentes funciones puede verse en las
ponderadones discriminantes de cada variable en las funciones. Cuanto mayor
sean estos, la contribution a la discrimination sera mejor.
Solo aquellas variables que sean estadisticamente significativas deberan
ser usadas para realizar la interpretation, las no significativas deben de ser
ignoradas.
Cuando se lleva a cabo la interpretation de funciones discriminantes
multiples, las cuales surgen debido al analisis de mas de dos grupos y mas de
una variable, se puede iniciar por probar la significancia estadistica de las
funciones y de estas, considerar solo las significativas para las pruebas
posteriores. Despues de esto procederemos a observar los coeficientes W para
las variables de cada funcion significativa. Cuanto mas alto, sean estos la
contribution es mayor a la discriminacion. Ya por ultimo, pueden verse las
medias para las funciones discriminantes significativas para saber entre
cuales grupos discrimina la funcion.
Despues de .que se obtiene la funcion discriminante, el investigador debe
de valorar el nivel de signification: Se cuentan varios criterios estadisticos
para realizar la signification estadistica; algunos son la medida de lambda de
Wilks, la traza de Hotelling y el criteria de Pillai, estas evaluan la significancia
de la funcion discriminante.
-Sin embargo, si se ocupa el metodo por etapas para estimar la funcion
discriminante, son mas adecuadas las medidas D2 de Mahalanobisc y V de Rao,
ambas son medidas de distancia generalizada.
Si el numero de grupos es de tres o mas, el investigador debe decidir no
unicamente si la discriminacion entre el total de los grupos, efectivamente es
significativa, sin© tambien si cada una de las funciones discriminantes lo son.
II.8 Funciones discriminantes canonicas
Fisher introdujo la idea de analisis discriminante canonico y muchos
autores se refieren a el como el m etodo de entre — dentro de Fisher. En el
analisis discriminante canonico se crean nuevas variables al tomar
combinaciones hneales especiales de las variables originales. Las variables
canonicas se crean de modo que contengan toda la informaeion util que se
encuentra en un conjunto de variables originales. Algunas de ellas son
semejantes a las componentes y los factores principales. Sin embargo el calculo
de estas no se realiza.de la misma manera. (Dallas, 2000)
Una de las ventajas de estas funciones, es que con regularidad permite
que un investigador imagine las distancias reales entre las poblaciones que se
estan investigando en un espacio dimensional reducido.
II.9 Funci6n declasificacion
Otro de los propositos de suma importancia en el anahsis discriminante
es el de la funcion de elasificacidn, misma que no debe relacionarse con la
funcion de discriminacion.
c VerAnexo 1
-Habra tantas funciones de clasificacion como grupos y puede ser usada
directamente para clasificar observaciones, cada una de estas funciones
permitira calcularlos puntajes de clasificacion para cada observacion en cada
grtipo, cada observacion se asigna a aquel grupo para el cual obtiene el mayor
puntaje de clasificacion (C,).
C l = + H ' f l . J f , + W , 2 X 2 + ...+ W i j X j
El subindice i denota el grupo, $t es una constante para el i - esimo
grupo, wy es una ponderacion para la j - esima variable en el calculo de
clasificacion para el i - esimo grupo, Xj es el valor observado para-el caso de la
j - esima variable.
II. 10 Tamano de muestra
Con relacion al tamano de la muestra, debemos decir que el Analisis
Discriminante es bastante perceptible al numero de casos de las variables
independientes. La mayoria sugiere 20 observaciones por cada variable
predictora. {Hair, Anderson, Tatham y Black, 1995)
Lo recomendado para el tamano del grupo mas pequeno es que debe ser
mayor al numero de variables independientes. Ademas de se deben analizar
los tamanos de 10s grupos, es decir si existen diferencias grandes de tamano
entre los grupos, el Analisis Discriminante puede verse afectado al
incrementar desproporcionalmente la probabilidad de pertenencia a los grupos
mas grandes.
-h i
.
r e c o m e n d a c iOn e s
p a r a e f e c t u a r u n a nAl i s is
DISCRIMINANTE
Primero debemos contar con un conjunto de variables que seran las
independientes que describan a cada una de los individuos y una variable
dependiente. Dado que la variable dependiente es de tipo nominal y su unica
funcion es la de indicar la pertenencia de una* observacion a un grupo: en
particular, mientras que las independientes deben ser metricas.
Los grupos delas variables dependientes debenser excluyentes; es deeir,
un individuo no puede pertenecer a mas de un grupo. Por otro lado las
variables independientes, deben ser seleccionadas partiendo de estudios
previos que confirmen que pueden ejercer algun tipo de influencia sobre la
pertenencia a los grupos. (Hair, Anderson, Tatham y Black, 1995)
La discriminacion para el caso de dos grupos se determina observando
los valores de los indices, si estos son mayores a -cero entonces el individuo
debe ser asignado a la categoria o grupo uno, de otro modo debe ser asignado al
grupo dos. En este caso se puede decir que se verifica si la observacion es
asignada al grupo que pertenecia o se esta asignando a otro grupo, de manera
que se obtiene, ademas del perfil de cada uno de los grupos, la proporcion
minima de mala clasificacion, por'la que se considers haber encontrada la
funcion optima para propositos de clasificacion.
La clasificacion se aplica cuando se tiene un conjunto de observaciones
que deben ser evaluadas en una funcion discriminante aiitefiormente defiriida,
de manera que las variables medidas deben ser las mismas que se emplearon
para generar la funcion. Esta tecnica es util cuando se tiene^information muy
sensible, es decir, cuando no es posible definir la procedencia del individuo de
acuerdo a lo reportado por las variables independientes.
-Ambos metodos, discriminacion y prediccion, son de valiosa importancia;
ya que determinan las posibles diferencias entre perfiles promedio definidos
por un conjunto de variables independientes, ambos establecen formas para
clasificar individuos dentro de grupos y elaboran procedimientos de
clasificacion sistematica de observaeibnes de origen desconocidp, en uno de los
grupos analizados.
Para realizar la discriminacion entre grupos es necesario como se
-oomentaba tener un conjppto de pasos que hayan sido plenamente
identificados como eomponentes indudabl'es de uno de los grupos.
□ Se calcula el valor de la puntuacion discriminante de todos los
individuos de cada uno de los grupos por ejemplo grupo I (compradbres)
y grupo 2 (no compradores) y se calcula la media de los ZXJL y de los Z2j
de ese grupo.
□ Se asigna un individuo al grupo cuyo centro este mas proximo.
□ Se estima la capacidad explicativa del modelo, calculando el porcentaje
de asignaciones correctas.
Existen tres procedimientos con los cuales el investigador puede escoger
una serie de variables que aporten mayor significancia en la construccion del
modelo de discriminacion.
III.l Procedimiento de seleccidn hacia atras
Backward Stepwise. Els posible incluir primero todas las posibles
variables en el modelo, y luego en cada paso, eliminar la variable que menos
contribuye en la prediccion de la pertenencia a un grupo
Se inicia mediante la inclusion de todas las variables candidatas
posibles como discriminatorias, para, que en pasos suceslvos vaya rechazando
-aquellas variables que tengan menor capacidad discriminante o que sean
aparentemente menos utiles para la discriminacion.
Si todas las variables son estadisticamente significativas en un nival de
significacion eatahleeido, el procedimiento se interrumpeJ pero si. algunas de
las variables no son estadisticamente significativas el procedimiento eliminara
la variable que sea menos significativa.
III.2 Procedimiento de seleccion hacia delante
Foward Stepwise. La idea principal es constituir un modelo paso a paso,
revisando todas las variables y evaluando cual contribuye mas a la
discriminacion entre grupos. Esta variable podra ser incluida en el modelo.
Este procedimiento se inicia con la variable que se cree que sea la mejor
discriminatoria entre todas las que se dispone. Esto suele hacerse al probar
una hipotesis de medias iguales de los grupos para cada posible
discriniinadora. La variable que arroja el valor mas grande F en un ANGVA es
la primera seleccionada siempre que su valor sea estadisticamente
significativo en un nivel especificado de antemano.
Se basa en la introduccion de nuevas variables en la funcion
discriminante, aunque tiene la particularidad de que una vez introducida una
variable en la funcion discriminante nunca puede ser rechazada en un paso
posterior.
IH.3 Procedimiento de seleccion por pasos
Stepwise. Es probablemente la forma mas frecuente de aplicacion se
caracteriza por incluir muchas medidas de estudio, para establecer las que
-22-discriminan entre grupos. Visto de otra manera, se desea construir un modelo
de como se puede lograr pronosticar de la mejor manera a que grupo pertenece
una observation.
Se usa la combination de los procedimientos anteriores, este
procedimiento selections variables para su inclusion dentro de cada paso
exactamente de la misma manera que el de seleecion hacia atras. Este
procedimiento difiere del de seleecion hacia delaiite en que en cada paso, antes
de la eleccibn de una nueva variable que vaya a incluirse, ademas comprueba
si todas las variables seleccionadas con anterioridad siguen siendo
significativas. Algunas veces, una variable puede parecer util al inicio del
proceso de seleecion, pero, despues de que se incluyen variables adicionales,
una seleccionada al inicio puede ya no ser tan util.
Con este procedimiento se eliminaria esa variable, en tanto que en el de
seleecion hacia delante nunca se eliminan variables. El proceso se detiene
cuando ninguna de las otras variables cumple con los criterios para entrar o
cuarido la variable que se va a incluir es una de las que se acaban de eliminar.
Se desarrolla en varias etapas en las cuales se introducen y rechazan las
variables.
A medida que se introducen nuevas variables puede darse la situacion
que se eliminen otras de las variables consideradas anteriormente
discriminantes, estos se debe basicamente a que como las funciones
discriminantes son combinaciones lineales de las variables originales, las
nuevas variables pueden llegar a estar correlacionadas con las anteriores,
restando asi su capacidad discriminante;
Provee directamente las variables que tienen una mayor representacion
discriminante.
-IV. PASOS A SEGUIR PARA LA EJECUCION DEL ANALISIS
DISCRIMINANTE'1.
Este es un elasico ejemplo reportado por Fisher (1936) esta base de
datose consta de tree especies de flores Iris (Setosa, .Versicolor y Virginiea).
Categorias-que conforman la variable dependiente.
Y = Setosa, Versicolor y Virginiea. De cada especie se tienen 50
mediciones para cuatro variables independientes continuas
Tabla 2. Estadisticas descriptivas
Grupo Variable Mediae Desv. Estandar N
Setosa
Longitud de Sepalo 5.0060 .3525 50
Ancho Sepalo 3.4280 .3791 50
Longitud de Fetalo 1.4620 .1737 50
Ancho Petalo .2460 .1054 50
Versicolor
Longitud de Sepalo 5.9360 .5162 50
Ancho Sepalo 2.7700 .3138- 50
Longitud de Petalo 4.2600 .4699. 50
Ancho Petalo L3260 .1978 50
Virginiea
Longitud de Sepalo 6;5880 .6359 50
Ancho Sepalo 2.9740 .3225 50
Longitud de Petalo 5.5520 .5519 50
Ancho Petalo 2,0260 .2747- 50
Total
Longitud de Sepalo 5.8433 .8281 150
Ancho Sepalo 3.0573 .4359 150
Longitud de Petalo 3.7580 1.7653 150
Ancho Petalo 1.1993 .7622 150
Nota: A partir de este momento nos referiremos a variable dependiente con la
* abreviatura VD y a la variable independiente con VI
4 Gondar Nores (2004) e Ver Anexo 3
-24-- -24-- .--- -- ... ._Jei;8!i3
Ffc-ECtt View Oete Tferrfw Ana»«e-iVarfB- Utter Whdofr Heto
(SlHlSl.EJl <M C3I t=l b\ Ml ■ffclffel □M.lIKl <*l<2>i!■“ —* - — • • - • —<•--•••
^1 ucpelert •s5
tep alien ,'sspstwl' . petaden . petalwid.' ' irrsiype Ml w : - wr •• ,W
1 500 3.30 1.40 .20 •150
2 6.401- 2.80 5.60 220 3.00
3 • 6.50 2.00 - 4.60 •1.50 2.00
4 6.70 3.10 5.60 2.40 3.00
5 6.30 2.80 5.10 1.50 3.00
6 4.60 3.40 1.40 .30 1.00
7 690 310 5.10 250 3.00
! e 6.20 2.20 450 1.50 2.00
l ". 9 550 3.?n 4 80 1.80 2.01
•10 ■4.60 •3.60 150 :20 TOO
i ' 11 6:10 300 4£0 1.40 2.00
! 12 6.00 2.70 5.10 1.60 2.00
13 6.50. 3.00 520 200 3XO
: 'u 560 2.50 3.90 1.10 2.00
15 650 3.00 550 1.80 3.00
16 5.80 2.70 5.10 150 3.00
17 6.60 3.20 590 2.30 3.00
18 5:icr 3301. 1.70 50 1.00
•19 ■5.70 2.80 450 •1.30 2.00
' 20 6.20 340 5.40 2.30 3.00
| 21 7,70 .380^ 6.70 2.20 -3-00
333WanVfow X v-irtabtsvtswf. . 1* ' "1 ir.
‘SPSSPretewer fefeody 1. i---1—•
Figura 1. Eetructura de la-base de datos
Analyse Graphs Utilities Window. Help
R ep orts
Descriptive Statistics Compare Means General linear Model Correlate
Regression Loglinear ■ £lassif£ Data Reduction Scale
Nonparemetric Tests •Survival'
Multiple Response
K-Means Cluster... Hierarchical Cluster...
Figura 2. Seleccionar en la barra de menu: Analyze/Classify/Discriminant
-25-<§> sepallen <§> sepafwid <$>pfiteillen
<%> petalwid
Grouping Variable:
Rang i ,
ndependents:
(• Enter independents toother
C Use stepwise method
Select» Statistics:..
OK
^aste
Reset
Caned
Help
j
j Classify... j Save... [Figura 3. Aparece e l cuadro de dialogo Discriminant Analysis.
Grouping Variable (Variable de agrupamiento). En este espacio
incluiremos a Invariable dependiente (VD). Segun el numero de categorias que
se utilicen se definiran mediante el boton Define Range '(Definir Rango) que se
habilita a tal efecto. Seleccionar la variable grupo (iristype) de la lista de
variables y pulsar, el boton
Variable.
para introducirla en el cuadro Grouping
La VD en el cuadro Grouping Variable habilita el boton- £ 2 ^ 5 5 3 , que
permite especificar las categorias. A1 pulsar este boton aparece el cuadro de
dialogo Discriminant Analysis ' D efine Range (AD ’D efinir Rango).
OiscriminantAnalysi^Djefine^a'PS
Minimum: j f p- • * ---; SpTjrtryjfc'
Maximum: j [ Cancel
if Help
Figura 4. Cuadro de Dialogo Discriminant Analysis: D efine Range
-El cuadro de dialogo Discriminant Analysis' D efine Range en esta
ventana se tiene que indicar la minima y la maxima categoria que estan
definidas en la variable dependiente. Pulsar el boton Continue |I, para confirmar
las categorias definidas. De este modo queda configurada .la variable de
agrupamiento o dependiente (VD).
Discriminant Analysis
Se le c t» Statistics...
Grouping Variable: | riistype(1 3)
Independents: •
<£> sepallen
<£> sepafwid '
<§> petaOen . v •
C Enter independents together
(* U se stepwise method
Method... Classify...
O K
Paste
Reset
Cancel
Help
Save... |
Figura 5 : Cuadro de analisis discriminante eom pletado
Independents (Variables independientes). Es imprescindible al menos
una variable para la realization de un AD.
Se va.a realizar un AD sobre los tres grupos definidos por las tres
categorias de la VD grupos. El objetivo es detectar el poder discriminatorio de
las variables independientes sobre la dependiente. Bajo la lista de las variables
independientes . .se presenlap dos opciones . para definir el metodo de
introductions extraction de las variables:
□- E nter Independents Together (Introducir todas las variables
independientes). Se introducen simultaneamente las variables
independientes que satisfacen los criterios de entrada, con el fin de
permitir la discrimination entre las diversas categorias de la VD.
-□ Use Stepwise M ethod (usar metodo paso a paso). Se utiliza para
controlar la introduction y extraction paulatinas de VI. La introduction
se realiza en funcion de la medicion anticipada del nivel de significancia
de la VI.
La activation de la option Use Stepwise Method (usar metodo paso a
paso) trae como consecuentia la habilitacion del bot6n L^2^iI3(Metodo). Este
boton permite acceder a un cuadro de dialogo donde se definen las opciones del
metodo Stepwise.
IV. 1 Configuraci6n de estadisticos
PGrariiuttiEUfl Cmasafr
Grouping Variable:
D is t iim ih a n t A n a l^ is T S t a t is t ic s
Select >:< Statistics...
f-Descriptives---P Means
P Univariate AN O VAs
P Box's M
r Function Coefficients—
P Fhher’s
P Unstandardized
r Matrices
--P Withfevgroups coitelation
P W ithin-groins covariance
P Separate-groups covariance
P Total covariance
Continue 1 Cancel Help
Selection Variable:
n r Value,
Figura 6. Cuadro de estadisticos del andlisis discriminante
Permite solititar estadisticos descriptivos, coeficientes de funciones
discriminantes no estandarizadas o matrices de correlation y de covarianza.
-28-IV. 2 Estadisticas descriptivas
Descriptives (Descriptdvos). Si dentro de este recuadro se selecciona
Means, univariate ANOVA y Box’s M, entonces se obtiene la information
descrita a
continuation-□ Means (Medias). Proporciona medias, desviacion tipica de cada variable
discriminante para el total de los datos y para cada grupo de la VD
(Grouping Variable).
□ Univariate ANOVAs (ANOVAs Univariados). Realiza y muestra un
ANOVA de un criterio de clasificacion para cada una de las variables
discriminantes, en relation con los grupos definidos por las VD. Su
funcion es, contrastar la hipotesis nula (Ho) de que las medias de cada
una de las VI son iguales para todos los grupos.
D Box's M (Test de M de Box). Permite contrastar la hipotesis de igualdad
de Matrices de varianzas y covarianzas Entre*Grupos. Para muestras
suficientemente grandes, un "p - level" no significative indica que hay
sufitiente evidencia de que las matrices son iguales.
Function Coefficients (Coeficientes de Funcion). Permite valorar la fuerza de la
funcion de clasificacion.
□ Fisher's (coeficientes estandarizados de clasificacion de Fisher). Pueden
usarse directamente para la clasificacion. Permite obtener un conjunto
de coeficientes para cada grupo, y se asigna el individuo al grupo que
tiene la mayor puntuacion discriminante.
□ Unstandardized (coeficientes no estandarizados de clasificacion). Estos
coeficientes solo pueden usarse para calcular las puntuationes
discriminantes no estandarizadas.
Si se seleccionan estas opciones, se
-29-Matrices. Muestra information matricial de los coefitientes
discriminantes para las VI. La matriz de correlation dentro de grupos, la
matriz de covarianzas dentro de grupos, la matriz de covarianzas de cada
grupo y la matriz de covarianza de la muestra.
□ Within-groups correlation (Matriz de correlaciones dentro de grupos).
Muestra una matriz conjunta de correlaciones a traves de todos los
grupos. Se obtiene promediando las matrices separadas de covarianzas
de todos los grupos antes de calcular las correlaciones.
□ Within-groups covariance (Matriz • de covarianza dentro grupos).
Muestra una matriz conjunta por todos los grupos, que podrxa diferir de
la matriz total de covarianzas. Se obtiene promediando las matrices
separadas de covarianzas de todos los grupos.
O Separate-groups covariance (Matrices de covarianzas de cada grupo).
Muestra una matriz de covarianzas para cada grupo.
□ Total covariance (Matriz total de covarianzas). Muestra una matriz de
covarianzas para todos los casos de la muestra.
D iscrim inant A n alysis: S tatistics s s
:|P} Fisher's
Untfandarcfeed
p D e sc n p o v e s - - ...— , r? M a t r i c e s r ,rr”. t.
0 M e a n s W ith in -gro u ps coirelation
0 U nivariate A N O V A s W ith in -gro u ps co va ria n ce
| 0 f i o x 's M
jL ... --- 0 $ S p a r a t e - g r o ig ) s co va ria n ce
^ F u n c tio n C o e fficte n tss= s j^ H o t a lc o v a r ia n c e i
Figura 7. Confirmation de las optiones selectionadas
-30-IV.3 Configuraci6n del m6todo de an&lisis
Discrim inant Analysis: Stepw ise Method
* Method-; 0|^ksjambda| I Q Unexplained variance <»O Mahala nobis distance
O Smallest F ratio O B ao's V
jj |Q._ |
j p j Summary of steps
i f Criteria-^ :< S Use £ value
■ £ntry; 3,84 j Removal: |2,71
O Use jjiobabSty of F
(jCEjjj Jfeiiay^L |_Yo jj
Continue ! jrCancel |
I if Help
□ F for pairwise distances
Figura 8. Cuadro de dialogo del znStodo paso a paso
El cuadro Discriminant Analysis* Stepwise M ethod se debe seleccionar
la utilization del metodo "paso a paso" para elegir esta opcion.
Method (M6todo). Permite especificar los criterios para la selection de las VI.
□ Wilks Lambda (Lambda de Wilks). Es la opcion por defecto. ). Por lo
general, este estadistico es usado para indicar la significancia
estadistica del poder discriminatorio del modelo actual. Este valor
estara en un rango de 1.0 (sin poder discriminatorio) a 0.0
(discrimination perfects).
□ Unexplained variance (Varianza no explicada). En cada paso, se
introduce la VI que minimiza la suma de la variation no explicada entre
los grupos.
□ Mahalanobis distance (Distancia de Mahalanobis). En cada paso, se
introduce la VI que maximiza la distancia de Mahalanobis para los
grupos mas cercanos. Ofrece una medida del grado. de diferencia de los
valores de un caso respecto de la media de todos los casos. Una distancia
de Mahalanobis identifies un caso que tenga valores extremos sobre una
o mas VI.
-n Smallest F ratio (Mi-nima Razo-n de F). E-n cada paso} se i-ntroduce la VI
que maximiza la minima razon de F entre cualquier par de grupos. Se
calcula a partir de la distancia de Mahalanobis entre grupos.
□ Rao's V (V de Rao). Tambien llamada Traza de Lawley-Hotelling, mide
las diferencias entre las medias de los grupos. En cada paso, se
introduce la VI que maximiza el incremento de V de Rao. A1 activar esta
opcion se habilita el cuadro V“to-enter (Valor V a introducir) que
especifica el incremento minimo de V para que una VI se introduzca en
el analisis. El valor por defecto es "0".
Dejar activada la opcibn por defecto ■ Wilks'Lambda (Lambda de Wilks).
Criteria (Criterios). Permite especificar los criterios de introduction de VI.
□ Use F value (Utilizar valor de F). Es la opcion por defecto. Se introduce
la VI cuyo valor F sea mayor que el especificado en Entry (Introducir).
Se extrae la VI cuyo F sea menor que el especificado en Removal
(Extraer). El valor Entry debe ser mayor que el Removal.
□ Use probability of F (Utilizar probabilidad de F). No se introducira
ninguna VI, a menos que su probabilidad de entrada sea menor que el
valor de Entry, ni extraida, a menos que su probabilidad sea mayor que
la especificada en Removal.
Nota: Use F value (Utilizar valor de F). Se dejan los valores "3.84" para Entry
y ”2.71" para Removal.
Display (Mostrar). Permite especificar la visualization de la information
adicional del analisis;
□ Summary o f steps (Resumen de pasos). Selectionada por defecto,
proportiona tablas para la Lambda de Wilks, las VI
-introducidas/extraidas, las VI del analisis y las VI fuera del analisis.
Muestra la tolerancia de todas las VI y los estadlsticos utilizados para la
selection de las VI. Se muestran tambien los valores F, niveles de
signification y la tolerancia minima.
□ F for pairwise distances (Fpara distancias emparejadas). Muestra una
matriz de razones de la F emparejadas de cada par de grupos. Son tests
de signification de las distancias Mahalanobis entre grupos.
Seleccionar, ademas de la option seleccionada por defecto • Summary of
steps (Resumen de pasos), la option * F for pairwise distances (F para las
distancias emparejadas).
Pulsar el bot6n
seleccionadas.
(Continuar), para confirmar las opciones
Discrim inant Analysis: Stepw ise Method b i
p M ethod - • ■Br.^aa.-a.-gai
\ 0 W ilks' lambda
| o Unexplained variance
<| O Mahalanobis distance
if Q Smallest F ratio
jiQ B e o 's V
li WV'e&te- 1?... J >
•^Criteria
0 Use £ value
Entry: 13,84 j Removal:
JO Use probability of F
^ ( Continue
2.71 irCanceL
it If He|p
| |Rj Summary of steps_________ R j F?or pairwise distances; ■
Figura 9. Cuadro de dialogo- Metodo paso a paso
-33-IV. 4 Criterios de clasificacidn
Pulsar el boton ' ■
j
(Clasificar). Aparece el cuadro de dialogoDiscriminant Analysis- Classification (AD; Clasificacion).
Discriminant A n alysis: C lassification
p Prior Probabifities— — - rr Use Covariance M a t r i x ^ i
10 ^HNn-groiqjs
j O Separate-groups
i1 Continue 0 p " groups equaj
O Compute from group sizes
,
Cancel
1
Help p riots--- --- i
j O Casewise resets ' j” ) Combined-groups i
! O Urrift- to fir*!-: | | Ip i Separate-groups \
)
[P ] Symmary table Territorial map :
□ Leave-one-out classification 1
C j Replace missing values with mean
Figura 10. Cuadro de dialogo■ clasificacidn
Proporciona el control de los criterios usados en la clasificacidn de casos
y de las salidas ofrecidas a partir de la fase de clasificacidn. Permite controlar
el calculo de probabilidades previas, obtener salidas de resumen de
clasificacidn y controlar la clasificacidn de casos con valores perdidos.
Prior Probabilities (Probabilidades previas). Establece las
probabilidades previas^ Estas se basan en la proporcion muestral de caso de
cada grupo (una vez suprimidos los casos con valores perdidos).
□ A ll groups equal (Todos grupos iguales). Considera iguales las
probabilidades previas de pertenencia al grupo son iguales.
□ Compute from group sizes (Calcular a partir de tamanos de grupos).
Calcula las probabilidades previas a partir de la proporcion muestral de
casos de cada grupo (una vez suprimidos los casos con valores perdidos
-34-para cualquier VI). No utilizar esta option si hubiesen fuertes
diferentias en los tamaiios muestrales.
Dejar activada la option por defecto ■ A ll groups equal (Todos grupos iguales).
Display (Mostrar). Se dispone de las siguientes optiones:
□ Casewise results (Resultados segun casos). Muestra, para cada caso,
codigos del grupo observado, el grupo predicho, las probabilidades
posteriores y las puntuationes discriminantes. A1 activar esta option se
habilitan las siguientes^
S Lim it cases to first (Limitar casos a primeros). Limita la salida
a los primeros n casos. Se puede especificar un numero
personalizado de casos en el cuadro de texto adjunto.
□ Summary table (Tabla resumen). Tambien llamada Matriz de
Confusion, muestra los casos correcta e incorrectamente clasificados
para cada uno de los grupos basados en el AD.
□ Leave-one-out classification (ClasiGcacion dejar-uno-fuera). Tambien
conocido como metodo U, clasifica cada caso por las funciones
discriminantes derivadas de los demas casos.
Seleccionar todas las opciones del cuadro Display (Mostrar), sin limitar
el numero de casos.
Use Covariance Matrix (Utilizar la Matriz de Covarianzas). Permite
usar la matriz de covarianzas en el proceso.
□ Within -groups (Dentro de grupos). Utiliza matriz de covarianzas dentro
de grupos para clasificar casos.
D Separate-groups (Grupos separados). Utiliza las matrices de covarianza
de grupos separados para clasificar los casos. Como la clasificacion se
-35-basa en las funciones discriminantes y no en las variables originates,
esta opcion no es siempre equivalente a la discrimination cuadratica.
Dejar activada la opcion por defecto ■ Within-groups (Dentro de Grupos).
Plots (Graficos). Permite la presentation de los siguientes
graficos-□ Combined-groups (grupos combinados). Presents para todos los grupos
juntos un diagrams de dispersion para los valores de las dos primeras
funciones discriminantes, o un histograms, si solo hay una funcion
discriminante.
□ Separate-groups (grupos separados). Presenta diagramas de dispersion
para cada grupo por separado, para los valores de las dos primeras
funciones discriminantes, o histogramas, si solo hay una funcion.
□ Territorial map (Mapa territorial). Es un grafico de fronteras utilizado
para clasificar casos en grupos basados en los valores de la funcion
discriminante. Ins numeros mostrados corresponden a los valores de los
grupos en los que se intenta clasificar a los casos. La media de cada
grupo se indica mediante un asterisco dentro de sus limites. El mapa no
se muestra si solo hay una funcion discriminante.
Seleccionar las tres opciones del cuadro Plots (Graficos).
□ Replace missing values with mean (Reemplazar valores perdidos con la
media). Permite clasificar casos de variables con valores perdidos,
sustituyendo los valores perdidos por la media de dicha variable.
Seleccionar Replace m issing values with mean (Reemplazar valores perdidos
por la media).
-36-Discrim inant Analysis: C lassification
r- Prior Probabflities ——
} 0 All groups equal
|| Q Compute from group sizes
if Display—-■ ;| 0 Casewise results
j. P J Limit cases to first
^ P ) Summary table . "
|! P J leave-one-out classification
P jjQ ©place missing values with mfeari
rrUse Covariance Matrix^
0 Within-groups
c Segarate-groups
ff Pk>tS,;;- “ --
|P ; Cpmbined-groups
rP j Separate-groups
|pj Janitorial map
m
j Continue !' Cancel
\i Help
Figura 11. Cuadro de dialogo- Clasificadon
IV.5 Almacenamiento de nuevas variables
Pulsar el boton i SjVR" (Guardar). Aparece el cuadro de dialogo
Discriminant Analysis- Save New Variables (AD* Guardar Nuevas Variables).
m
P j (PrecScted jproup member^ijg j Continue"
D discriminant scores
R| PjobabSties erf group membership . ...
j| Help
Figura 12. Cuadro de dialogo- Almacenamiento de nuevas variables Discrim inant Analysis: S a v e New V ariables
El cuadro Discriminant Analysis• Save N ew Variables permite guardar
la information del proceso o de la puntuacion discriminante para cada caso,
como nuevas variables discriminantes.
□ Predicted group membership (Pertenencia al grupo predicho). Crea una
sola variable discriminante, que indica la pertenencia predicha de cada
-caso a uno de los grupos de la VD. Es decir, el grupo con la mayor
probabilidad posterior, en base a las puntuaciones discriminantes.
□ Discriminant scores (Puntuaciones discriminantes). Crea una variable
para cada funcion discriminante. Estas se calculan multiplicando los
coeficientes discriminantes no estandarizados por los valores de las VI,
sumando estos productos y afiadiendo despues la constante. La
puntuacion media entre todos los casos es 0 y la varianza conjunta
dentro de los grupos es 1.
□ Probabilities o f group membership (Probabilidades de pertenencia al
grupo). Crea una variable para cada uno de los grupos de la VD que
indica la probabilidad con la que cada caso ha sido asignado a un grupo
de la VD. Son probabilidades condicionadas. La primera variable
contiene la probabilidad a posteriori de pertenencia al primer grupo, la
segunda, la probabilidad de pertenencia al segundo, etc.
Seleccionar las tres opciones del cuadro Save New Variables (Guardar
Nuevas Variables).
La option Export model information to XML file (Exportar informacion
del modelo a XML) permite enviar la informacion proporcionada por SPSS a
lin fichero de Windows XML.
Discrim inant A n alysis: S a v a
P r edicted group membersh#
Discriminant scores
p ) Probab&ies of group membership
Continue
Cancel
|[ Help
^Export model information to XM L f*e ^ = ^ I
jsalidas •1 ;| Browse
Figura 13. Cuadro de dialogo- Almacenamiento de nuevas variables