• No se han encontrado resultados

Aplicación del análisis discriminante con SPSS

N/A
N/A
Protected

Academic year: 2020

Share "Aplicación del análisis discriminante con SPSS"

Copied!
79
0
0

Texto completo

(1)

UNIVERSIDAD VERACRUZANA

FACULTAD DE ESTADlSTICA E INFORMATICA

e s p e c ia l iz a c i

6

n

e n

m e t o d o s

e s t a d is t ic o s

SPSS

TRABAJO RECEPCIONAL

(M O N O G R A F IA )

Q U E COM O REQU ISITO PARCIAL PAR A O BTEN ER EL D IPLO M A D E E ST A E S P E C IA L IZ A C I6n

PRESEN TA:

R oon y Joanathan Q uevedo L op ez

TUTOR:

M. en C. Julia Aurora Montano Rivas

(2)

G E N E R A C I6N : 2004 SEDE* Xalapa

TITU LO :

Aplicacion del Analisis Discriminante con SPSS*

AUTOR:

Roony Joanathan Quevedo Lopez

TUTOR:

M. en C. Julia Aurora Montano Rivas

V

-TIPO DE TRABAJO:

Desarrollo

RESU M EN :

En este trabajo se aborda el proceso de ejecucion del Analisis discriminante mediante el paquete estadistico SPSS. Dentro de este eneontrara la metodologia para llevar una correcta aplicacion asi como las interpretaciones a los resultados obtenidos.

Reporte Monografiajo TPE _

V

M E TO D O LO G fA ESTAD fSTIC A :

A) Disefio: Muestreo Experimento

Estudio observacional

B) Analisis Exploratorio Descriptivo basico Inferencia basico

Metodos multivariados Regresion

ANOVAyANCOVA Control de calidad

Metodos no parametricos Modelos especiales

Tecnicas avanzadas Series de tiempo

V

V

V

V

(3)

El Comity AcadOmico de la Especialization en Metodos Estadlsticos y el tutor

de este trabajo recepcional, autorizan la impresion y la constitution del jurado

para la defensa.

COMITfi ACADEMICO

COORDINADOR DE LA ESPECIALIZACI6N

Dr. Alma Rosa DIRECTORADE

(4)

AGRADECIMIENTOS

Dedico este trabajo con mucho carino para dos personas por que

gracias a ellos he Ilegado a reaiizar una de las metas mas grandee de mi

vida. Mis padres^ Isabel Lopez Rodriguez y Fidel Quevedo San Juan.

A mis tios Elda Lopez y Mario Bonillas, doy gracias por el apoyo,

confianza y responsabilidad infundidos en mi durante mi carrera. De igual

manera a mis tios Paulina Pimentel y Melesio Rodriguez que de alguna

forma estuvieron conmigo en todo momento.

Expreso mi agradecimiento a L.E. Julian Felipe Diaz Camacho, una

de las personas mas importantes durante la Especializacion, ya que gracias

a su apoyo incondicional hice realidad lo hoy es una meta cumplida.

Con gran admiration y respeto a mi asesora M.C. Julia Aurora

Montano Rivas a la cual le agradezco su apoyo, amistad y disponibilidad

para la culmination de este proyecto.

Gracias a cada una de las personas que me han hecho crecer

emocional, espiritual y mentalmente para seguir este camino. Companeros y

amigos (Blanca Lilia Lopez, Claudio Lopez, Juliana Pereda y Lisseth

Valenzuela).

Roony J. Quevedo1

Agosto 2004

(5)

PAGINA

I.

INTR0DUCCI6NAL

anAlisis discriminante

1.1 Marco contextual... t

1.2 Antecedentes... 3

1.3 Planteamiento del problem a... 6

L4 Justification... 6

1.5 O bjetivos... 7

1.5.1 Objetivo general... 7

1.5.2 Objetivos particulares... 7

1.6 Breve description del contenido... ... ... 7

II. DEFINICIONES Y CONCEPTOS GENERALES II. 1 El concepto de analisis discriminante... 8

II. 2 Descripcion de variables... n 11.3 Propositos del analisis discriminante... 12

n .4 Objetivos del analisis discrim inante... 12

II. 5 Diferencias del analisis discriminante con otras tecnicas... 13

II. 6 Supuestos del analisis discriminante... 14

II. 7 Funcion discriminante... 15

11.8 Funciones discriminantes canonicas... 18

11.9 Funcion de clasificacion... 18

(6)

m . RECOMENDACIONES PARAEFECTUAR UN ANAUSIS DISCRTMINANTE

III.l Procedimiento de seleccion hacia atras. . . ... . 21

III. 2 Procedimiento de seleccion hacia delante... 22

III. 3 Procedimiento de seleccion por pasos ... 22

iv . p a s o s a s e g u i r p a r a l a e j e c u c i o n d e l a nAl is is D ISCR IM IN AN T IV. 1 Configuracion de estadisticos... 28

3V.2JEstadisticas descriptivas... ... 29

IV. 3 Configuracion delmetodo de analisis... ... 31

IV.4 Criterios de clasificacion... 34.

IV. 5 Almacenamiento de nuevas variables... 37

V. RESULTADOS DE LA EJECUCION DE ANALISIS V. 1 Prueba de igualdad de m edias... 39

V.2 Prueba de las matrices de varianzas y covarianzas... 39

V.3 Estadlsticas paso a p a so... 40

V.4 Resumen de las funciones discriminantes canonicas... 40

V.5 Estadisticos de discriminacion... 42

CONCLUSIONES... 44

REFERENCIAS... 45

(7)

i. in t r o d u c c i6

n a l a n

Al i s is

d is c r im in a n t e

LI Marco contextual

En la actualidad el use de las tecnicas estadisticas multivariadas estan

tomando gran relevancia y un desarrollo vertiginoso. Una sucesion de eventos

en la metodologia estadistica ha hecho que este conocimiento sobresalga con la

aplicacion de dichas tecnicas que durante muchos anos no fueron destacadas

como tales, actualmente sus variadas aplicaciones en problemas de la ciencia,

la industria, administracion, medicina, sociales y centros de investigacion han

hecho que se den a conocer con mayor escala.

Durante el siglo XX el descubrimiento y progreso de las tecnicas

estadisticas cobraron gran importancia, cambios drasticos en la investigacion

hicieron que estas llevaran un desarrollo continuo, sin embargo, la presencia

de la computadora y .de paquetes estadisticos jugaron un papel muy

importante en las investigaciones para las cuales se ocupaban dichas tecnicas.

Sin embargo, para quienes acaban de familiarizarse con el fascinante

mundo de la Estadistica, les interese saber que existen tecnicas multivariadas

que logran resolver infinidad de problemas que en la actualidad se presentan

en nuestra vida cotidiana.

Actualmente los procesos de prediction, discrimination e identification

son muy comunes en nuestra sociedad, a tal grado que en ocasiones pasamos

por desapercibido que determinadas situaciones, las cuales pueden ser de gran

utilidad para la aplicacion de la tecnica tales

(8)

-□ <^E1 poder predecir con antelacion si un cliente que solicita un prestamo

a un banco va a ser un cliente moroso?

□ ^Saber cuales son los factores que influyen en el desarrollo de un infarto

de miocardio?

□ lEs posible predecir de antemano que un paciente corre un riesgo cierto

de infarto?

□ £Se puede predecir de antemano si un recluso que ha solicitado un

permiso carcelario, huira?

□ £Se puede predecir si una empresa va a entrar en bancarrota?

□ ^Cuales son las razones que llevan a un consumidor a preferir una

determinada marca sobre otras existentes en el mercado?

□ ^Existe discriminacion por razones de sexo o de raza en una empresa o

en un colegio?

Estos solo son algunos de los muchos ejemplos en donde se emplea mas

de un predictor o variables explicativas junto con una variable categorical la

cual no ha sido tan frecuente usarla como variable dependiente. Este es

precisamente el caso del Analisis Discriminante o tambien conocido como

Analisis de ClasificacionJ es una de las tecnicas multivariadas diseiiadas para

resolver el problema de clasificacion y discriminacion, a traves de la generation

de un modelo o fixation discriminante, el cual es usado como una regia para

verificar y reclasificar los individuos del estudio en los grupos previamente

definidos, o para la clasificar individuos nuevos.

La clasificacion se encuentra en cualquier contexto en que se toma una

decision o se realiza una prediction considerando la information disponible en

ese momento. Esta se puede presentar cuando se sabe que existen

determinadas clases previamente definidas, y si ademas el objetivo es

establecer una regia con la que se pueda clasificar una nueva observacion.

(9)

-1.2 Antecedentes

El problema de clasificacion es uno de los mas antiguos y fundamentales

de la estadistica, tal es el caso de la investigation en el siglo XVII realizada por

Lineo, donde logro establecer la primera clasificacion cientifica de los reinos

vegetal y animal, con lo que se initio la taxonomia. (Estadistica Aplicada,

2001).

La clasificacion esta presente en la actividad humana, y las aplicaciones

son tan comunes que las podemos identificar desde la diagnosis medica, y

hasta el reconocimiento de falsas obras de artel contemplando dentro de este

intervalo los casos como- los sistemas de concesion de creditos, la

determination de la esperanza de vida de un paciente, la decision de comprar

cierto articulo, la election de un candidato, entre otrosl Estos aspectos se

resuelven con la aplicacion del analisis discriminante, el cual implico su uso en

las ciencias biologicas y medicasl el interes considerable fue estimulado por los

Estadisticos y Metodologistas de distintas areas de estudio.

La primera aplicacion del analisis discriminante consistio en clasificar

los restos de un craneo que fueron descubiertos en una excavation, para ello se

usaron las medidas fisicas de los craneos humanos y los de antropoidesl las

cuales se usaron como medidas patron para poder realizar la clasificacion.

Pearson (1902), uso datos antropometricos proponiendo un coeficiente C,

que mediria la distancia entre dos poblaciones.

Mahalanobis (1925) propone el coeficiente D2, una medida de distancia

generalizada entre dos poblaciones usandolo para discutir la composition de

las mezclas raciales de Bengala.

(10)

-Ronald Aylmer Fisher en 1936, introdujo la tecnica estadistica analisis

discriminante, su enfoque no fue medir distancias entre poblaciones, sino

esencialmente clasificar un valor de una muestra en alguna de dos poblaciones

usando la information de dos o mas variables observables. Esta tecnica es

empleada cuando deseamos diferenciar de entre grupos (variable dependiente)

mutuamente excluyentes tomando en cuenta un conjunto de variables

independientes continuas.

La primera solution estadisticamente dada al problema de la

clasificacion a traves del Analisis Discriminante la dio Fisher en el afio de 1936

mediante la formation de Funciones Lineales de los datos. (Estadistica

Aplicada, 2001)

Sus proyectos estadisticos, primero utilizados en biologia, rapidamente

cobraron importancia y fueron apHcados a la experimentation agricola, medica

e industrial. Fisher tambien contribuyo a clarificar las funciones que

desempenan la mutation y la selection natural en la genetica, particularmente

en la poblacion humana.

Beaver (1966) presento el enfoque univariado del analisis discriminante

y Altman (1968) expande este analisis multivariado. En la decada de los 80’s,

el analisis discriminante fue el metodo dominante en prediction! a finales de

los 80’s fue reemplazado por el Analisis Logistico, el cual hasta los ultimos

anos ha sido el metodo mas usado para propositos de prediction (Back y

Laitinen, 1996).

El problema de la discrimination aparece en muchas situaciones en las

que necesitamos clasificar elementos con information incompleta. En

ingenieria el problema de clasificacion se ha estudiado bajo el nombre de

reconotimiento de patrones (pattern recognition), Algunos ejemplos de sus

diversas aplicaciones los podemos encontrar en disciplinas

(11)

-4-La cancerologia- Para comprobar si un paciente esta enfermo de cancer o

no, determinar si un anestesico es seguro para una persona que estan

operando del corazon, en donde el anestesiologo necesariamente debera

clasificar al individuo como paciente inseguro o seguro del anestesico; La

Osteologia- Distinguir pavos silvestres de los domesticos mediante la medida

de ciertos huesos; La Mercadotecnia: Clasificar a los individuos como

compradores potenciales y no compradores en el lanzamiento de un nuevo

automovil; La Grafologia: asignar un texto escrito de procedencia desconocida

a uno de varios autores por las frecuencias de utilization de palabrasi Musica y

Pintura: asignar una partitura musical o un cuadro a un artista.

Administration^ una declaration de impuestos como potencialmente

defraudadora o no; Economia^ una empresa en riesgo de quiebra o no;

Education: las ensefianzas de un centro como teoricas o aplicadas;

Manufactura- un nuevo metodo de fabrication como eficaz o no.

De las aplicaciones mas recientes estan las presentadas por Munoz

Salas (1998) fue el de la discrimination entre bancos de altas y bajas

utilidades; Escobar y Briceno (2002) utilizaron el analisis discriminante para

una vez mas determinar los ninos que se recuperaron del Sindrome de Distress

Respiratorio y aquellos que no lo hicieron, entre otros.

Velasquez y Arcos, (2000) en el estudio sobre la discriminacion de

variables neuropsicologicas evaluadas mediante pruebas que miden la

memoria, en la dementia tipo Alzheimer.

Trabajos presentados por Alfaro y Gamez (2002) sobre el procedimiento

mecanico para enviar cartas con base a la lectura automatica de los codigos

postales, la toma de decisiones respecto a las solicitudes de credito de los

individuos de acuerdo a su information financiera. Baldemar (2002) Estudio

las tendencias de cretimiento poblacional en el estado de Veracruz utilizando

information de los censos 1990 y 2000.

(12)

-1.3 Planteamiento del problems

Con el fin de ilustrar la aplicacion del analisis discriminante se presenta

todo un proceso de la aplicacion de la tecnica, para ello se propone el uso de

una base de datos o muestra de entrenamiento en la cual los individuos con

base a sus mediciones se observaran si estan clasificados correctamente! esto

se hara mediante el empleo del paquete estadistico SPSS.

1.4 Justificacidn

Debido a la necesidad de tener un trabajo en el cual consultemos con

toda seguridad el como llevar a cabo una correcta aplicacion del Analisis

Discriminante y ademas saber que muchos estudiantes estan limitados a la

exploration de esta tecnica surge la inquietud de realizar un documento de tal

forma que la lectura de este trabajo aportara al lector nociones y conocimientos

necesarios para la aplicacion de la tecnica a traves del uso del paquete

estadistico SPSS, y la interpretation de resultados.

El proposito fundamental es brindar una introduction al Analisis

Discriminante y la visualization de los comandos a traves de las ventanas para

poder desarrollar el analisis; tambien puede servir como un manual para

aquellas personas, las cuales, el manejo de esta tecnica no esta del todo

presente.

(13)

-6-1.5 Objetivos

1.5.1 Objetivos general

Elaborar un documento donde se presenta una tecnica de clasificacion

denominada Analisis Discriminante.

1.5.2 Objetivos particulares

1. Describir la tecnica de Analisis discriminante asi como su utilidad

practica.

2. Detallar el uso del paquete estadistico SPSS para la aplicacion concreta

de la tecnica antes mencionada.

3. Determinar cuando aplicar el analisis discriminante.

1.6 Breve descripcion del contenido

En este trabajo busca ensenar cuando y como aplicar el analisis

discriminante)' por lo que el primer capitulo contempla una introduction,

antecedentes y los objetivos) en el segundo capitulo considera la descripcion e

importancia de la tecnica) en el tercero podemos encontrar los procedimientos

para efectuar un analisis discriminante) en el cuarto capitulo podemos ver la

aplicacion con la ayuda del paquete estadistico SPSS y por ultimo en el

capitulo cinco tenemos los principales resultados de la ejecucion del analisis.

(14)

-II. DEFINICIONES Y CONCEPTOS GENERALES

II. 1 El concepto de analisis discriminante

El analisis discriminante forma parte del conjunto de tecnicas

estadisticas disenadas para resolver el problema de clasificacion y

discriminacion a traves de la generation de modelos o funciones de

clasificacion que permitan a una persona predecir a que poblacion o grupo

pertenece un individuo con el minimo error de clasificacion, donde los grupos

se forman de individuos, empresas, productos, o cualquier otro objeto.

Igualmente se emplea para discriminar a distintos objetos en grupos o

poblaciones, a partrr de los valores de un conjunto de variables independientes

medidas sobre los mismos individuos. Con dichos modelos se verifica a que

grupo pertenecen los individuos del estudio o se clasifican individuos nuevos.

Esta tecnica forma parte del siguiente conjunto'

Tabla 1. M etodos de clasificacion y discriminacion

| M e t o d o s d e discrim lnacldn y c la sifica cld n |

Analisis Discrim inante

V R e g re s id n - ' :' Logfstica ft. ;

Aigoritm os . :: ^ e n d t b o s ::;

v :A rb 6 le s d e :CI(3siflcacl6n

1 'R e d e s 1 N e u ro n a le s

Como tecnica de dependencia el analisis discriminante pone en marcha

un modelo de causalidad en el que la variable dependiente es no metrica y las

independientes son metricas. En esta tecnica utilizamos el termino grupo o

categona para representar a una poblacion o una muestra de la poblacion.

(15)

-Desde el punto de vista estadistico el problema de clasificacion se puede

diferenciar desde dos perspectivas diferentes:

□ En la primera de ellas los grupos estan definidos a priori y se busca

determinar una razon para etiquetar cada objeto como perteneciente a

alguno de los grupos, a partir de los valores de una serie limitada de

parametros.

□ La segunda perspectiva corresponde a aquel en el que no se conoce a que

grupo pertenece una observation y lo que se busca principalmente es

establecer dichos grupos a partir de los datos que poseemos.

Con respecto al punto uno, la tecnica mas utilizada es el Analisis

discriminante, en tanto que para la segunda perspectiva la tecnica estadisticas

mas utilizada se conoce como Analisis Cluster.

Para llevar a cabo el analisis discriminante, se debe tener lo que se

conoce como una muestra de entrenamiento con la cual no debe de haber dudas

a que grupo pertenece cada uno de los individuos. El procedimiento es simple,

se parte de una muestra de N observaciones en los que se han medido p

variables cuantitativas independientes, que son utilizadas para discriminar a

los individuos u objetos de los grupos, generando modelos o funciones que se

usaran para evaluar la informacion de nuevos individuos cada vez que se desea

clasificar.

Esta tecnica al igual que el MANOVA permite detectar las diferencias

entre grupos, a traves de las caracteristicas que particularizan a cada grupo y

lo hacen ser diferente de otro.

(16)

-Existen dos objetivos principals en la separacion de grupos:

□ Descripcion de la separacion de un grupo- en el que las funciones

lineales (funciones discriminantes) de las variables son empleadas para

poder describir y/o aclarar las diferencias entre dos o mas grupos dentro

de este objetivo se incluyen la identification de la contribution de las p

variables independientes a que separan mejor los grupos ademas de la

mejor configuration para la formation de los grupos.

□ Prediction o Asignacion- en la cual las funciones lineales o cuadraticas

(funciones de clasificacion) de las variables que se emplean para asignar

una unidad de muestreo individual a uno de los grupos. Los valores

medidos (en el vector de la observation) para un individuo o un objeto

son evaluados a traves del modelo de discrimination para ver a que

grupo pertenece o sera asignado el individuo.

Algunos autores manejan el termino Analisis Discriminante solo en

relation con el primer objetivo, y como Analisis de Clasificacion a todos los

aspectos del segundo objetivo.

En este sentido AEDEMO (1992) menciona que existen tres aspectos: el

descriptivo, el predictivo y el de reclasificacion.

Descriptive\ Encontrar las variables que permiten una mayor

diferenciacion o separacion de los grupos, de manera que se identifiquen las

realmente importantes en la descripcion de dichos grupos. Por ejemplo: que

variables diferencian mas a los grupos de grandes compradores de un

producto, de los compradores habituales y de los compradores esporadicos.

Predictivo. Establecer las reglas para incluir a cualquier nueva

observation, de las cuales se conocen los valores de las variables predictoras,

dentro de uno de los grupos definidos con el minimo error de clasificacion. Es

(17)

-elemental cuantiflcar con que precision se clasificara un nuevo objeto ya que de

esa manera se podra medir el error de mala clasificacion.

Reclasificacion. Se intenta reagrupar las observaciones en nuevos

grupos, en caso de que estas no hayan sido clasificadas correctamente.

II.2 Descripci6n de variables

Una variable grupo es un tipo especial de variable dependiente. La cual

puede tomar dos o mas valores, no obstante la situation mas comun es aquella

en la que se emplean dos valores, en este unico caso se le conocera como

variable dicotomica. Cuando existen mas de dos grupos (variable policotomica)

el analisis discriminante cambiara su nombre al de analisis discriminante

multiple y puede tomar nombres tales como: Analisis Factorial Discriminante

o Analisis Discriminante Canonico.

En este caso, una variable dependiente es una caracteristica, cualidad o

rasgo de interes de una unidad que puede adquirir diversos valores. En el

estudio y uso del analisis discriminante (AD) hay fundamentalmente dos tipos

de variables: la variable dependiente (categorica) y la variable independiente

(continuas).

Variable dependiente- tambien conocida como variable de criterio o

cualitativa indica el grupo al cual pertenece una observation y puede ser por

ejemplo un tipo de escuela (primaria, secundaria), un metodo de instruction,

un area geografica, participation de los deportes y residencia (rural, urbana y

suburbana) entre otras.

(18)

Variables independientes, explicativas o predoctoras ' son caracteristicas

de escala metrica de las unidades de estudio, mismas que serviran para

identificar a cual clase o categoria pertenece un individuo.

II. 3 Propositos del analisis discriminante

Hay varios propositos para del AD dentro de los que se encuentran:

1. Investigar las diferencias entre grupos.

2. Desechar las variables de poca influencia con las distinciones del grupo *

3. Clasificar nuevos objetos o individuos en grupos.

4. Probar la teoria observando si los casos estan elasificados segun lo

predicho.

II.4 Objetivos del analisis discriminante

El analisis discriminante puede ser la tecnica adecuada cuando se

persigue alguno de los siguientes objetivos* (Montano Rivas, 2004)

1. Identificar cualquier diferencia estadisticamente significativa entre los

perfiles promedios por grupo, es decir, se quiere discriminar entre los

grupos respectivos en base a los datos observados en las variables

independientes.

2. Determinar cual de las variables independientes cuantifica mejor las

diferencias en los perfiles de las puntuaciones medias de dos o mas

grupos.

3. Establecer procedimientos para clasificar (objetos, individuos, empresas,

productos, etc.), dentro de los grupos, en base a sus mediciones sobre un

conjunto de variables independientes.

(19)

-12-4. Establecer el numero y la composition de las dimensiones de la

discrimination entre los grupos formados a partir del conjunto de

variables independientes.

5. Analizar si existen diferencias entre los grupos en cuanto a su

comportamiento con respecto a las variables consideradas y averiguar

en quienes causan dichas diferencias.

6. Elaborar procedimientos de clasifLcacion sistematica de individuos de

origen desconocido, en uno de los grupos analizados.

II. 5 Diferencias del an&lisis discriminante con otras t6cnicas

Dentro del camino de la estadistica existen tecnicas que de acuerdo a

algunas de sus caracterxsticas pueden llegar a confundirse con el Analisis

Discriminante; cuando en realidad son diferentes. A continuation se

mencionan algunas de ellas^

Analisis de Varianza (ANOVA). Este analisis se confunde con el analisis

discriminante; porque ambos usan variables categoricas y continuas. El

ANOVA es todo lo contrario al discriminante, ya que la variable dependiente

es metrica o continua y las independientes son no metricas o categoricas.

Analisis Cluster. Esta teenica al igual que el analisis discriminante

clasifica individuos la principal diferencia es que en el analisis discriminante

los grupos se establecen a priori, es decir, que los individuos (u observaciones)

analizados se encuentran ya clasifLcados antes de comenzar el analisis

discriminante y en cluster se realiza una exploration para ver la posible

existencia de grupos. (Calvo, 1993).

En el Analisis de Regresion Multiple, una regia de la prediction es la

que implica desarrollar una combination lineal de los predictores. Una

(20)

-combination lineal de predictores tambien se utiliza en el Analisis

Discriminante Predictivo (ADP); sin embargo, la regia consiste en tantas

combinaciones lineales como categorias menos 1 haya.

Esta regia permite al investigador predecir la pertenentia de una nueva

observation en uno de los grupos previamente definidos.

II.6 Supuestos del analisis discriminante9

1. La variable dependiente debe ser verdaderamente categorica. Uno

nunca debe simplemente categorizar una variable continua con el

proposito de aplicar analisis discriminante.

2. Todos los casos deben ser independientes y deben de pertenecer a un

grupo formado por la variable dependiente. Los grupos deben ser

mutuamente excluyentes, con cada caso perteneciente a un solo grupo.

3. Los tamanos de los grupos de la variable dependiente no deben ser tan

diferentes.

4. El maximo numero de variables independientes es de n - 2, donde n es

el tamano de la muestra.

5. Los errores (residuals) son aleatoriamente distribuidos.

6. Los supuestos clave para obtener la funtion discriminante son el de

normalidad multivariada de las variables independientes y el de

matrices de varianzas y covarianzas desconocidas (pero iguales) para los

grupos.

7. Los datos que no llegue a cumplir el supuesto de normalidad

multivariada pueden originar problemas al momento de la estimation de

la funtion discriminante. Para este caso, se propone que se utilice la

regresion loglstica como una tecnica alternativa.

8. Homogeneidad de varianzas' las variables independientes pueden tener

varianzas diferentes una de otra, pero para la misma variable

a Montano Rivas, 2004

(21)

-independiente, los grupos definidos por la variable dependiente deben

tener varianzas y mediae similares.

9. Si las matrices de varianzas y covarianzas son distintas, esto puede

afectar desfavorablemente el proceso de clasificacion, aunque la

diferencia entre matrices se puede minimizar si se aumenta el tamano

de muestra en el estudio.

10. El analisis discriminante es altamente sensitivo a los “outliers” o datos

atipicos. La falta de homogeneidad de varianzas puede indicar la

presencia de outliers en uno o mas grupos.

11. Multicolinealidad entre las variables independientes. Esta consiste en

que dos o mas variables independientes estan altamente

correlacionadas, o una variable es una funcion de otra, por lo que una

variable puede venir muy bien explicada por otras variables y por ello

anadir poca capacidad explicativa al conjunto completo.

Un supuesto implicito es que todas las relaciones son lineales. Las

relaciones no lineales no estan reflejadas en la funcion discriminante, a menos

que se realicen transformaciones especificas de la variable para representar los

efectos no lineales.

II.7 Funci6n discriminante

Dada una poblacion, que tenemos dividida en grupos, el analisis

discriminante encuentra una funcion que permite, con un determinado grado

de acierto, explicar esa division en grupos. Una vez obtenida, puede utilizarse

para clasificar a nuevos individuos en alguno de los grupos en que esta

dividida la poblacion. (Uriel, 1997)

La funcion discriminante es una combination lineal de p variables

cuantitativas que mejor separan los grupos. Cuando se tienen k - .2 grupos en

(22)

-la variable dependiente, se obtendra una funcion discriminante) pero si k > 2

el numero de fimciones a generarse es de i -1 . (Montano Rivas, 2004)

La nrision del analisis discriminante: es obtener un criterio de

clasrSeaeidn. Es deeir, encontrar una o varias funciones discriminantesb que

sepace lo mejor posible a dos o mas grupos

v /

For ejemplo cuando se tienen tres grupos, puede estimarse^

a) una funcion para diseriminar entre el grupo l y .grupos 2 y 3, y

b) otra funcion para diseriminar entre grupo 2 y grupo 3.

La funcion discriminante se denota

como-ZJ^ S + W lX lg+W2X 2g+W3X ^ . . . + WfyX pft

Donde’

Zjg =Puntuacion discriminante de la funcion j - esima en la poblacion

S = Termino constante

^ “ Ponderacion discriminante o coeficientes discriminantes para la variable

.independiente i, i = .1,-2,

X ig = Variable independiente i para la poblacion g.

En este caso se obtiene una puntuacion Z discriminante para cada

individuo del analisis, posteriormente dentro de cada grupo dichas

puntuaeiones se suman y se dividen entre el numero de individuos con la

finalidad de obtener con ello la media del grupo; esta media es conocida' coma

b

Dependiendo del numero de-grupos

(23)

-centroide, el cual indica la situation mas comun de cualquier individuo dentro

de un grupo determinado. De manera que tiene un centroide para cada grupo.

(Huberty, 1994)

Cuarido el analisis engloba dos grupos, existen dos centroides; con tres

. grupos, bay tres centroides, y asi sucesivamente.

La significancia de las diferentes funciones puede verse en las

ponderadones discriminantes de cada variable en las funciones. Cuanto mayor

sean estos, la contribution a la discrimination sera mejor.

Solo aquellas variables que sean estadisticamente significativas deberan

ser usadas para realizar la interpretation, las no significativas deben de ser

ignoradas.

Cuando se lleva a cabo la interpretation de funciones discriminantes

multiples, las cuales surgen debido al analisis de mas de dos grupos y mas de

una variable, se puede iniciar por probar la significancia estadistica de las

funciones y de estas, considerar solo las significativas para las pruebas

posteriores. Despues de esto procederemos a observar los coeficientes W para

las variables de cada funcion significativa. Cuanto mas alto, sean estos la

contribution es mayor a la discriminacion. Ya por ultimo, pueden verse las

medias para las funciones discriminantes significativas para saber entre

cuales grupos discrimina la funcion.

Despues de .que se obtiene la funcion discriminante, el investigador debe

de valorar el nivel de signification: Se cuentan varios criterios estadisticos

para realizar la signification estadistica; algunos son la medida de lambda de

Wilks, la traza de Hotelling y el criteria de Pillai, estas evaluan la significancia

de la funcion discriminante.

(24)

-Sin embargo, si se ocupa el metodo por etapas para estimar la funcion

discriminante, son mas adecuadas las medidas D2 de Mahalanobisc y V de Rao,

ambas son medidas de distancia generalizada.

Si el numero de grupos es de tres o mas, el investigador debe decidir no

unicamente si la discriminacion entre el total de los grupos, efectivamente es

significativa, sin© tambien si cada una de las funciones discriminantes lo son.

II.8 Funciones discriminantes canonicas

Fisher introdujo la idea de analisis discriminante canonico y muchos

autores se refieren a el como el m etodo de entre — dentro de Fisher. En el

analisis discriminante canonico se crean nuevas variables al tomar

combinaciones hneales especiales de las variables originales. Las variables

canonicas se crean de modo que contengan toda la informaeion util que se

encuentra en un conjunto de variables originales. Algunas de ellas son

semejantes a las componentes y los factores principales. Sin embargo el calculo

de estas no se realiza.de la misma manera. (Dallas, 2000)

Una de las ventajas de estas funciones, es que con regularidad permite

que un investigador imagine las distancias reales entre las poblaciones que se

estan investigando en un espacio dimensional reducido.

II.9 Funci6n declasificacion

Otro de los propositos de suma importancia en el anahsis discriminante

es el de la funcion de elasificacidn, misma que no debe relacionarse con la

funcion de discriminacion.

c VerAnexo 1

(25)

-Habra tantas funciones de clasificacion como grupos y puede ser usada

directamente para clasificar observaciones, cada una de estas funciones

permitira calcularlos puntajes de clasificacion para cada observacion en cada

grtipo, cada observacion se asigna a aquel grupo para el cual obtiene el mayor

puntaje de clasificacion (C,).

C l = + H ' f l . J f , + W , 2 X 2 + ...+ W i j X j

El subindice i denota el grupo, $t es una constante para el i - esimo

grupo, wy es una ponderacion para la j - esima variable en el calculo de

clasificacion para el i - esimo grupo, Xj es el valor observado para-el caso de la

j - esima variable.

II. 10 Tamano de muestra

Con relacion al tamano de la muestra, debemos decir que el Analisis

Discriminante es bastante perceptible al numero de casos de las variables

independientes. La mayoria sugiere 20 observaciones por cada variable

predictora. {Hair, Anderson, Tatham y Black, 1995)

Lo recomendado para el tamano del grupo mas pequeno es que debe ser

mayor al numero de variables independientes. Ademas de se deben analizar

los tamanos de 10s grupos, es decir si existen diferencias grandes de tamano

entre los grupos, el Analisis Discriminante puede verse afectado al

incrementar desproporcionalmente la probabilidad de pertenencia a los grupos

mas grandes.

(26)

-h i

.

r e c o m e n d a c i

On e s

p a r a e f e c t u a r u n a n

Al i s is

DISCRIMINANTE

Primero debemos contar con un conjunto de variables que seran las

independientes que describan a cada una de los individuos y una variable

dependiente. Dado que la variable dependiente es de tipo nominal y su unica

funcion es la de indicar la pertenencia de una* observacion a un grupo: en

particular, mientras que las independientes deben ser metricas.

Los grupos delas variables dependientes debenser excluyentes; es deeir,

un individuo no puede pertenecer a mas de un grupo. Por otro lado las

variables independientes, deben ser seleccionadas partiendo de estudios

previos que confirmen que pueden ejercer algun tipo de influencia sobre la

pertenencia a los grupos. (Hair, Anderson, Tatham y Black, 1995)

La discriminacion para el caso de dos grupos se determina observando

los valores de los indices, si estos son mayores a -cero entonces el individuo

debe ser asignado a la categoria o grupo uno, de otro modo debe ser asignado al

grupo dos. En este caso se puede decir que se verifica si la observacion es

asignada al grupo que pertenecia o se esta asignando a otro grupo, de manera

que se obtiene, ademas del perfil de cada uno de los grupos, la proporcion

minima de mala clasificacion, por'la que se considers haber encontrada la

funcion optima para propositos de clasificacion.

La clasificacion se aplica cuando se tiene un conjunto de observaciones

que deben ser evaluadas en una funcion discriminante aiitefiormente defiriida,

de manera que las variables medidas deben ser las mismas que se emplearon

para generar la funcion. Esta tecnica es util cuando se tiene^information muy

sensible, es decir, cuando no es posible definir la procedencia del individuo de

acuerdo a lo reportado por las variables independientes.

(27)

-Ambos metodos, discriminacion y prediccion, son de valiosa importancia;

ya que determinan las posibles diferencias entre perfiles promedio definidos

por un conjunto de variables independientes, ambos establecen formas para

clasificar individuos dentro de grupos y elaboran procedimientos de

clasificacion sistematica de observaeibnes de origen desconocidp, en uno de los

grupos analizados.

Para realizar la discriminacion entre grupos es necesario como se

-oomentaba tener un conjppto de pasos que hayan sido plenamente

identificados como eomponentes indudabl'es de uno de los grupos.

□ Se calcula el valor de la puntuacion discriminante de todos los

individuos de cada uno de los grupos por ejemplo grupo I (compradbres)

y grupo 2 (no compradores) y se calcula la media de los ZXJL y de los Z2j

de ese grupo.

□ Se asigna un individuo al grupo cuyo centro este mas proximo.

□ Se estima la capacidad explicativa del modelo, calculando el porcentaje

de asignaciones correctas.

Existen tres procedimientos con los cuales el investigador puede escoger

una serie de variables que aporten mayor significancia en la construccion del

modelo de discriminacion.

III.l Procedimiento de seleccidn hacia atras

Backward Stepwise. Els posible incluir primero todas las posibles

variables en el modelo, y luego en cada paso, eliminar la variable que menos

contribuye en la prediccion de la pertenencia a un grupo

Se inicia mediante la inclusion de todas las variables candidatas

posibles como discriminatorias, para, que en pasos suceslvos vaya rechazando

(28)

-aquellas variables que tengan menor capacidad discriminante o que sean

aparentemente menos utiles para la discriminacion.

Si todas las variables son estadisticamente significativas en un nival de

significacion eatahleeido, el procedimiento se interrumpeJ pero si. algunas de

las variables no son estadisticamente significativas el procedimiento eliminara

la variable que sea menos significativa.

III.2 Procedimiento de seleccion hacia delante

Foward Stepwise. La idea principal es constituir un modelo paso a paso,

revisando todas las variables y evaluando cual contribuye mas a la

discriminacion entre grupos. Esta variable podra ser incluida en el modelo.

Este procedimiento se inicia con la variable que se cree que sea la mejor

discriminatoria entre todas las que se dispone. Esto suele hacerse al probar

una hipotesis de medias iguales de los grupos para cada posible

discriniinadora. La variable que arroja el valor mas grande F en un ANGVA es

la primera seleccionada siempre que su valor sea estadisticamente

significativo en un nivel especificado de antemano.

Se basa en la introduccion de nuevas variables en la funcion

discriminante, aunque tiene la particularidad de que una vez introducida una

variable en la funcion discriminante nunca puede ser rechazada en un paso

posterior.

IH.3 Procedimiento de seleccion por pasos

Stepwise. Es probablemente la forma mas frecuente de aplicacion se

caracteriza por incluir muchas medidas de estudio, para establecer las que

(29)

-22-discriminan entre grupos. Visto de otra manera, se desea construir un modelo

de como se puede lograr pronosticar de la mejor manera a que grupo pertenece

una observation.

Se usa la combination de los procedimientos anteriores, este

procedimiento selections variables para su inclusion dentro de cada paso

exactamente de la misma manera que el de seleecion hacia atras. Este

procedimiento difiere del de seleecion hacia delaiite en que en cada paso, antes

de la eleccibn de una nueva variable que vaya a incluirse, ademas comprueba

si todas las variables seleccionadas con anterioridad siguen siendo

significativas. Algunas veces, una variable puede parecer util al inicio del

proceso de seleecion, pero, despues de que se incluyen variables adicionales,

una seleccionada al inicio puede ya no ser tan util.

Con este procedimiento se eliminaria esa variable, en tanto que en el de

seleecion hacia delante nunca se eliminan variables. El proceso se detiene

cuando ninguna de las otras variables cumple con los criterios para entrar o

cuarido la variable que se va a incluir es una de las que se acaban de eliminar.

Se desarrolla en varias etapas en las cuales se introducen y rechazan las

variables.

A medida que se introducen nuevas variables puede darse la situacion

que se eliminen otras de las variables consideradas anteriormente

discriminantes, estos se debe basicamente a que como las funciones

discriminantes son combinaciones lineales de las variables originales, las

nuevas variables pueden llegar a estar correlacionadas con las anteriores,

restando asi su capacidad discriminante;

Provee directamente las variables que tienen una mayor representacion

discriminante.

(30)

-IV. PASOS A SEGUIR PARA LA EJECUCION DEL ANALISIS

DISCRIMINANTE'1.

Este es un elasico ejemplo reportado por Fisher (1936) esta base de

datose consta de tree especies de flores Iris (Setosa, .Versicolor y Virginiea).

Categorias-que conforman la variable dependiente.

Y = Setosa, Versicolor y Virginiea. De cada especie se tienen 50

mediciones para cuatro variables independientes continuas

Tabla 2. Estadisticas descriptivas

Grupo Variable Mediae Desv. Estandar N

Setosa

Longitud de Sepalo 5.0060 .3525 50

Ancho Sepalo 3.4280 .3791 50

Longitud de Fetalo 1.4620 .1737 50

Ancho Petalo .2460 .1054 50

Versicolor

Longitud de Sepalo 5.9360 .5162 50

Ancho Sepalo 2.7700 .3138- 50

Longitud de Petalo 4.2600 .4699. 50

Ancho Petalo L3260 .1978 50

Virginiea

Longitud de Sepalo 6;5880 .6359 50

Ancho Sepalo 2.9740 .3225 50

Longitud de Petalo 5.5520 .5519 50

Ancho Petalo 2,0260 .2747- 50

Total

Longitud de Sepalo 5.8433 .8281 150

Ancho Sepalo 3.0573 .4359 150

Longitud de Petalo 3.7580 1.7653 150

Ancho Petalo 1.1993 .7622 150

Nota: A partir de este momento nos referiremos a variable dependiente con la

* abreviatura VD y a la variable independiente con VI

4 Gondar Nores (2004) e Ver Anexo 3

(31)

-24-- -24-- .--- -- ... ._Jei;8!i3

Ffc-ECtt View Oete Tferrfw Ana»«e-iVarfB- Utter Whdofr Heto

(SlHlSl.EJl <M C3I t=l b\ Ml ■ffclffel □M.lIKl <*l<2>i!■“ —* - — • - •<•--•••

^1 ucpelert •s5

tep alien ,'sspstwl' . petaden . petalwid.' ' irrsiype Ml w : - wr •• ,W

1 500 3.30 1.40 .20 •150

2 6.401- 2.80 5.60 220 3.00

3 • 6.50 2.00 - 4.60 •1.50 2.00

4 6.70 3.10 5.60 2.40 3.00

5 6.30 2.80 5.10 1.50 3.00

6 4.60 3.40 1.40 .30 1.00

7 690 310 5.10 250 3.00

! e 6.20 2.20 450 1.50 2.00

l ". 9 550 3.?n 4 80 1.80 2.01

•10 ■4.60 •3.60 150 :20 TOO

i ' 11 6:10 300 4£0 1.40 2.00

! 12 6.00 2.70 5.10 1.60 2.00

13 6.50. 3.00 520 200 3XO

: 'u 560 2.50 3.90 1.10 2.00

15 650 3.00 550 1.80 3.00

16 5.80 2.70 5.10 150 3.00

17 6.60 3.20 590 2.30 3.00

18 5:icr 3301. 1.70 50 1.00

•19 ■5.70 2.80 450 •1.30 2.00

' 20 6.20 340 5.40 2.30 3.00

| 21 7,70 .380^ 6.70 2.20 -3-00

333WanVfow X v-irtabtsvtswf. . 1* ' "1 ir.

‘SPSSPretewer fefeody 1. i---1—•

Figura 1. Eetructura de la-base de datos

Analyse Graphs Utilities Window. Help

R ep orts

Descriptive Statistics Compare Means General linear Model Correlate

Regression Loglinear ■ £lassif£ Data Reduction Scale

Nonparemetric Tests •Survival'

Multiple Response

K-Means Cluster... Hierarchical Cluster...

Figura 2. Seleccionar en la barra de menu: Analyze/Classify/Discriminant

(32)

-25-<§> sepallen <§> sepafwid <$>pfiteillen

<%> petalwid

Grouping Variable:

Rang i ,

ndependents:

(• Enter independents toother

C Use stepwise method

Select» Statistics:..

OK

^aste

Reset

Caned

Help

j

j Classify... j Save... [

Figura 3. Aparece e l cuadro de dialogo Discriminant Analysis.

Grouping Variable (Variable de agrupamiento). En este espacio

incluiremos a Invariable dependiente (VD). Segun el numero de categorias que

se utilicen se definiran mediante el boton Define Range '(Definir Rango) que se

habilita a tal efecto. Seleccionar la variable grupo (iristype) de la lista de

variables y pulsar, el boton

Variable.

para introducirla en el cuadro Grouping

La VD en el cuadro Grouping Variable habilita el boton- £ 2 ^ 5 5 3 , que

permite especificar las categorias. A1 pulsar este boton aparece el cuadro de

dialogo Discriminant Analysis ' D efine Range (AD ’D efinir Rango).

OiscriminantAnalysi^Djefine^a'PS

Minimum: j f p- • * ---; SpTjrtryjfc'

Maximum: j [ Cancel

if Help

Figura 4. Cuadro de Dialogo Discriminant Analysis: D efine Range

(33)

-El cuadro de dialogo Discriminant Analysis' D efine Range en esta

ventana se tiene que indicar la minima y la maxima categoria que estan

definidas en la variable dependiente. Pulsar el boton Continue |I, para confirmar

las categorias definidas. De este modo queda configurada .la variable de

agrupamiento o dependiente (VD).

Discriminant Analysis

Se le c t» Statistics...

Grouping Variable: | riistype(1 3)

Independents: •

<£> sepallen

<£> sepafwid '

<§> petaOen . v •

C Enter independents together

(* U se stepwise method

Method... Classify...

O K

Paste

Reset

Cancel

Help

Save... |

Figura 5 : Cuadro de analisis discriminante eom pletado

Independents (Variables independientes). Es imprescindible al menos

una variable para la realization de un AD.

Se va.a realizar un AD sobre los tres grupos definidos por las tres

categorias de la VD grupos. El objetivo es detectar el poder discriminatorio de

las variables independientes sobre la dependiente. Bajo la lista de las variables

independientes . .se presenlap dos opciones . para definir el metodo de

introductions extraction de las variables:

□- E nter Independents Together (Introducir todas las variables

independientes). Se introducen simultaneamente las variables

independientes que satisfacen los criterios de entrada, con el fin de

permitir la discrimination entre las diversas categorias de la VD.

(34)

-□ Use Stepwise M ethod (usar metodo paso a paso). Se utiliza para

controlar la introduction y extraction paulatinas de VI. La introduction

se realiza en funcion de la medicion anticipada del nivel de significancia

de la VI.

La activation de la option Use Stepwise Method (usar metodo paso a

paso) trae como consecuentia la habilitacion del bot6n L^2^iI3(Metodo). Este

boton permite acceder a un cuadro de dialogo donde se definen las opciones del

metodo Stepwise.

IV. 1 Configuraci6n de estadisticos

PGrariiuttiEUfl Cmasafr

Grouping Variable:

D is t iim ih a n t A n a l^ is T S t a t is t ic s

Select >:< Statistics...

f-Descriptives---P Means

P Univariate AN O VAs

P Box's M

r Function Coefficients—

P Fhher’s

P Unstandardized

r Matrices

--P Withfevgroups coitelation

P W ithin-groins covariance

P Separate-groups covariance

P Total covariance

Continue 1 Cancel Help

Selection Variable:

n r Value,

Figura 6. Cuadro de estadisticos del andlisis discriminante

Permite solititar estadisticos descriptivos, coeficientes de funciones

discriminantes no estandarizadas o matrices de correlation y de covarianza.

(35)

-28-IV. 2 Estadisticas descriptivas

Descriptives (Descriptdvos). Si dentro de este recuadro se selecciona

Means, univariate ANOVA y Box’s M, entonces se obtiene la information

descrita a

continuation-□ Means (Medias). Proporciona medias, desviacion tipica de cada variable

discriminante para el total de los datos y para cada grupo de la VD

(Grouping Variable).

□ Univariate ANOVAs (ANOVAs Univariados). Realiza y muestra un

ANOVA de un criterio de clasificacion para cada una de las variables

discriminantes, en relation con los grupos definidos por las VD. Su

funcion es, contrastar la hipotesis nula (Ho) de que las medias de cada

una de las VI son iguales para todos los grupos.

D Box's M (Test de M de Box). Permite contrastar la hipotesis de igualdad

de Matrices de varianzas y covarianzas Entre*Grupos. Para muestras

suficientemente grandes, un "p - level" no significative indica que hay

sufitiente evidencia de que las matrices son iguales.

Function Coefficients (Coeficientes de Funcion). Permite valorar la fuerza de la

funcion de clasificacion.

□ Fisher's (coeficientes estandarizados de clasificacion de Fisher). Pueden

usarse directamente para la clasificacion. Permite obtener un conjunto

de coeficientes para cada grupo, y se asigna el individuo al grupo que

tiene la mayor puntuacion discriminante.

□ Unstandardized (coeficientes no estandarizados de clasificacion). Estos

coeficientes solo pueden usarse para calcular las puntuationes

discriminantes no estandarizadas.

Si se seleccionan estas opciones, se

(36)

-29-Matrices. Muestra information matricial de los coefitientes

discriminantes para las VI. La matriz de correlation dentro de grupos, la

matriz de covarianzas dentro de grupos, la matriz de covarianzas de cada

grupo y la matriz de covarianza de la muestra.

□ Within-groups correlation (Matriz de correlaciones dentro de grupos).

Muestra una matriz conjunta de correlaciones a traves de todos los

grupos. Se obtiene promediando las matrices separadas de covarianzas

de todos los grupos antes de calcular las correlaciones.

□ Within-groups covariance (Matriz • de covarianza dentro grupos).

Muestra una matriz conjunta por todos los grupos, que podrxa diferir de

la matriz total de covarianzas. Se obtiene promediando las matrices

separadas de covarianzas de todos los grupos.

O Separate-groups covariance (Matrices de covarianzas de cada grupo).

Muestra una matriz de covarianzas para cada grupo.

□ Total covariance (Matriz total de covarianzas). Muestra una matriz de

covarianzas para todos los casos de la muestra.

D iscrim inant A n alysis: S tatistics s s

:|P} Fisher's

Untfandarcfeed

p D e sc n p o v e s - - ...— , r? M a t r i c e s r ,rr”. t.

0 M e a n s W ith in -gro u ps coirelation

0 U nivariate A N O V A s W ith in -gro u ps co va ria n ce

| 0 f i o x 's M

jL ... --- 0 $ S p a r a t e - g r o ig ) s co va ria n ce

^ F u n c tio n C o e fficte n tss= s j^ H o t a lc o v a r ia n c e i

Figura 7. Confirmation de las optiones selectionadas

(37)

-30-IV.3 Configuraci6n del m6todo de an&lisis

Discrim inant Analysis: Stepw ise Method

* Method-; 0|^ksjambda| I Q Unexplained variance <»O Mahala nobis distance

O Smallest F ratio O B ao's V

jj |Q._ |

j p j Summary of steps

i f Criteria-^ :< S Use £ value

■ £ntry; 3,84 j Removal: |2,71

O Use jjiobabSty of F

(jCEjjj Jfeiiay^L |_Yo jj

Continue ! jrCancel |

I if Help

□ F for pairwise distances

Figura 8. Cuadro de dialogo del znStodo paso a paso

El cuadro Discriminant Analysis* Stepwise M ethod se debe seleccionar

la utilization del metodo "paso a paso" para elegir esta opcion.

Method (M6todo). Permite especificar los criterios para la selection de las VI.

□ Wilks Lambda (Lambda de Wilks). Es la opcion por defecto. ). Por lo

general, este estadistico es usado para indicar la significancia

estadistica del poder discriminatorio del modelo actual. Este valor

estara en un rango de 1.0 (sin poder discriminatorio) a 0.0

(discrimination perfects).

□ Unexplained variance (Varianza no explicada). En cada paso, se

introduce la VI que minimiza la suma de la variation no explicada entre

los grupos.

□ Mahalanobis distance (Distancia de Mahalanobis). En cada paso, se

introduce la VI que maximiza la distancia de Mahalanobis para los

grupos mas cercanos. Ofrece una medida del grado. de diferencia de los

valores de un caso respecto de la media de todos los casos. Una distancia

de Mahalanobis identifies un caso que tenga valores extremos sobre una

o mas VI.

(38)

-n Smallest F ratio (Mi-nima Razo-n de F). E-n cada paso} se i-ntroduce la VI

que maximiza la minima razon de F entre cualquier par de grupos. Se

calcula a partir de la distancia de Mahalanobis entre grupos.

□ Rao's V (V de Rao). Tambien llamada Traza de Lawley-Hotelling, mide

las diferencias entre las medias de los grupos. En cada paso, se

introduce la VI que maximiza el incremento de V de Rao. A1 activar esta

opcion se habilita el cuadro V“to-enter (Valor V a introducir) que

especifica el incremento minimo de V para que una VI se introduzca en

el analisis. El valor por defecto es "0".

Dejar activada la opcibn por defecto ■ Wilks'Lambda (Lambda de Wilks).

Criteria (Criterios). Permite especificar los criterios de introduction de VI.

□ Use F value (Utilizar valor de F). Es la opcion por defecto. Se introduce

la VI cuyo valor F sea mayor que el especificado en Entry (Introducir).

Se extrae la VI cuyo F sea menor que el especificado en Removal

(Extraer). El valor Entry debe ser mayor que el Removal.

□ Use probability of F (Utilizar probabilidad de F). No se introducira

ninguna VI, a menos que su probabilidad de entrada sea menor que el

valor de Entry, ni extraida, a menos que su probabilidad sea mayor que

la especificada en Removal.

Nota: Use F value (Utilizar valor de F). Se dejan los valores "3.84" para Entry

y ”2.71" para Removal.

Display (Mostrar). Permite especificar la visualization de la information

adicional del analisis;

Summary o f steps (Resumen de pasos). Selectionada por defecto,

proportiona tablas para la Lambda de Wilks, las VI

(39)

-introducidas/extraidas, las VI del analisis y las VI fuera del analisis.

Muestra la tolerancia de todas las VI y los estadlsticos utilizados para la

selection de las VI. Se muestran tambien los valores F, niveles de

signification y la tolerancia minima.

F for pairwise distances (Fpara distancias emparejadas). Muestra una

matriz de razones de la F emparejadas de cada par de grupos. Son tests

de signification de las distancias Mahalanobis entre grupos.

Seleccionar, ademas de la option seleccionada por defecto • Summary of

steps (Resumen de pasos), la option * F for pairwise distances (F para las

distancias emparejadas).

Pulsar el bot6n

seleccionadas.

(Continuar), para confirmar las opciones

Discrim inant Analysis: Stepw ise Method b i

p M ethod - • ■Br.^aa.-a.-gai

\ 0 W ilks' lambda

| o Unexplained variance

<| O Mahalanobis distance

if Q Smallest F ratio

jiQ B e o 's V

li WV'e&te- 1?... J >

•^Criteria

0 Use £ value

Entry: 13,84 j Removal:

JO Use probability of F

^ ( Continue

2.71 irCanceL

it If He|p

| |Rj Summary of steps_________ R j F?or pairwise distances; ■

Figura 9. Cuadro de dialogo- Metodo paso a paso

(40)

-33-IV. 4 Criterios de clasificacidn

Pulsar el boton ' ■

j

(Clasificar). Aparece el cuadro de dialogo

Discriminant Analysis- Classification (AD; Clasificacion).

Discriminant A n alysis: C lassification

p Prior Probabifities— — - rr Use Covariance M a t r i x ^ i

10 ^HNn-groiqjs

j O Separate-groups

i1 Continue 0 p " groups equaj

O Compute from group sizes

,

Cancel

1

Help p riots--- --- i

j O Casewise resets ' j” ) Combined-groups i

! O Urrift- to fir*!-: | | Ip i Separate-groups \

)

[P ] Symmary table Territorial map :

□ Leave-one-out classification 1

C j Replace missing values with mean

Figura 10. Cuadro de dialogo■ clasificacidn

Proporciona el control de los criterios usados en la clasificacidn de casos

y de las salidas ofrecidas a partir de la fase de clasificacidn. Permite controlar

el calculo de probabilidades previas, obtener salidas de resumen de

clasificacidn y controlar la clasificacidn de casos con valores perdidos.

Prior Probabilities (Probabilidades previas). Establece las

probabilidades previas^ Estas se basan en la proporcion muestral de caso de

cada grupo (una vez suprimidos los casos con valores perdidos).

A ll groups equal (Todos grupos iguales). Considera iguales las

probabilidades previas de pertenencia al grupo son iguales.

Compute from group sizes (Calcular a partir de tamanos de grupos).

Calcula las probabilidades previas a partir de la proporcion muestral de

casos de cada grupo (una vez suprimidos los casos con valores perdidos

(41)

-34-para cualquier VI). No utilizar esta option si hubiesen fuertes

diferentias en los tamaiios muestrales.

Dejar activada la option por defecto ■ A ll groups equal (Todos grupos iguales).

Display (Mostrar). Se dispone de las siguientes optiones:

Casewise results (Resultados segun casos). Muestra, para cada caso,

codigos del grupo observado, el grupo predicho, las probabilidades

posteriores y las puntuationes discriminantes. A1 activar esta option se

habilitan las siguientes^

S Lim it cases to first (Limitar casos a primeros). Limita la salida

a los primeros n casos. Se puede especificar un numero

personalizado de casos en el cuadro de texto adjunto.

Summary table (Tabla resumen). Tambien llamada Matriz de

Confusion, muestra los casos correcta e incorrectamente clasificados

para cada uno de los grupos basados en el AD.

Leave-one-out classification (ClasiGcacion dejar-uno-fuera). Tambien

conocido como metodo U, clasifica cada caso por las funciones

discriminantes derivadas de los demas casos.

Seleccionar todas las opciones del cuadro Display (Mostrar), sin limitar

el numero de casos.

Use Covariance Matrix (Utilizar la Matriz de Covarianzas). Permite

usar la matriz de covarianzas en el proceso.

Within -groups (Dentro de grupos). Utiliza matriz de covarianzas dentro

de grupos para clasificar casos.

D Separate-groups (Grupos separados). Utiliza las matrices de covarianza

de grupos separados para clasificar los casos. Como la clasificacion se

(42)

-35-basa en las funciones discriminantes y no en las variables originates,

esta opcion no es siempre equivalente a la discrimination cuadratica.

Dejar activada la opcion por defecto ■ Within-groups (Dentro de Grupos).

Plots (Graficos). Permite la presentation de los siguientes

graficos-□ Combined-groups (grupos combinados). Presents para todos los grupos

juntos un diagrams de dispersion para los valores de las dos primeras

funciones discriminantes, o un histograms, si solo hay una funcion

discriminante.

Separate-groups (grupos separados). Presenta diagramas de dispersion

para cada grupo por separado, para los valores de las dos primeras

funciones discriminantes, o histogramas, si solo hay una funcion.

Territorial map (Mapa territorial). Es un grafico de fronteras utilizado

para clasificar casos en grupos basados en los valores de la funcion

discriminante. Ins numeros mostrados corresponden a los valores de los

grupos en los que se intenta clasificar a los casos. La media de cada

grupo se indica mediante un asterisco dentro de sus limites. El mapa no

se muestra si solo hay una funcion discriminante.

Seleccionar las tres opciones del cuadro Plots (Graficos).

□ Replace missing values with mean (Reemplazar valores perdidos con la

media). Permite clasificar casos de variables con valores perdidos,

sustituyendo los valores perdidos por la media de dicha variable.

Seleccionar Replace m issing values with mean (Reemplazar valores perdidos

por la media).

(43)

-36-Discrim inant Analysis: C lassification

r- Prior Probabflities ——

} 0 All groups equal

|| Q Compute from group sizes

if Display—-■ ;| 0 Casewise results

j. P J Limit cases to first

^ P ) Summary table . "

|! P J leave-one-out classification

P jjQ ©place missing values with mfeari

rrUse Covariance Matrix^

0 Within-groups

c Segarate-groups

ff Pk>tS,;;- “ --

|P ; Cpmbined-groups

rP j Separate-groups

|pj Janitorial map

m

j Continue !' Cancel

\i Help

Figura 11. Cuadro de dialogo- Clasificadon

IV.5 Almacenamiento de nuevas variables

Pulsar el boton i SjVR" (Guardar). Aparece el cuadro de dialogo

Discriminant Analysis- Save New Variables (AD* Guardar Nuevas Variables).

m

P j (PrecScted jproup member^ijg j Continue"

D discriminant scores

R| PjobabSties erf group membership . ...

j| Help

Figura 12. Cuadro de dialogo- Almacenamiento de nuevas variables Discrim inant Analysis: S a v e New V ariables

El cuadro Discriminant Analysis• Save N ew Variables permite guardar

la information del proceso o de la puntuacion discriminante para cada caso,

como nuevas variables discriminantes.

Predicted group membership (Pertenencia al grupo predicho). Crea una

sola variable discriminante, que indica la pertenencia predicha de cada

(44)

-caso a uno de los grupos de la VD. Es decir, el grupo con la mayor

probabilidad posterior, en base a las puntuaciones discriminantes.

Discriminant scores (Puntuaciones discriminantes). Crea una variable

para cada funcion discriminante. Estas se calculan multiplicando los

coeficientes discriminantes no estandarizados por los valores de las VI,

sumando estos productos y afiadiendo despues la constante. La

puntuacion media entre todos los casos es 0 y la varianza conjunta

dentro de los grupos es 1.

Probabilities o f group membership (Probabilidades de pertenencia al

grupo). Crea una variable para cada uno de los grupos de la VD que

indica la probabilidad con la que cada caso ha sido asignado a un grupo

de la VD. Son probabilidades condicionadas. La primera variable

contiene la probabilidad a posteriori de pertenencia al primer grupo, la

segunda, la probabilidad de pertenencia al segundo, etc.

Seleccionar las tres opciones del cuadro Save New Variables (Guardar

Nuevas Variables).

La option Export model information to XML file (Exportar informacion

del modelo a XML) permite enviar la informacion proporcionada por SPSS a

lin fichero de Windows XML.

Discrim inant A n alysis: S a v a

P r edicted group membersh#

Discriminant scores

p ) Probab&ies of group membership

Continue

Cancel

|[ Help

^Export model information to XM L f*e ^ = ^ I

jsalidas •1 ;| Browse

Figura 13. Cuadro de dialogo- Almacenamiento de nuevas variables

Referencias

Documento similar

[r]

Con el tiempo los modelos de análisis discriminante dominaron en cuanto a su aplicación, sin embargo sobrevinieron otras técnicas, menos demandadas que se fueron introduciendo

La Normativa de evaluación del rendimiento académico de los estudiantes y de revisión de calificaciones de la Universidad de Santiago de Compostela, aprobada por el Pleno or-

Las religiones no han pasado de moda, aunque así se empezaba a pensar a finales del siglo pasado. A pesar del avance del ateísmo, del agnosticismo y del

- Un curso formativo para los técnicos de laboratorio de la UPV sobre la prevención de los residuos en los laboratorios, que se llevará a cabo los días 23, 24, 25, 26 y 27

[r]

1. LAS GARANTÍAS CONSTITUCIONALES.—2. C) La reforma constitucional de 1994. D) Las tres etapas del amparo argentino. F) Las vías previas al amparo. H) La acción es judicial en

– Regresión Lineal, Análisis Discriminante, Regresión logística, Análisis de Varianza, Análisis Conjunto, Análisis de Supervivencia, Análisis de.. Estructuras de