K. Alertas
1.11. Métodos de análisis estadístico
1.11.2. Análisis multivariante
1.11.2.3. Descripción de algunas técnicas multivariantes
Como puede desprenderse de las cinco formas de clasificar el análisis
multivariante que hemos expuesto (a modo de ejemplo), existen muchas formas de entender el tema, cada una adaptada a los intereses, necesidades o formación de cada autor. Analicemos con un poco más de detalle estas técnicas con el fin de seleccionar y justificar las que vamos a utilizar en el presente estudio.
1.-Regresión(90,147,411): por medio de estas técnicas pretendemos averiguar hasta qué punto el valor que adopta una variable (dependiente, efecto) puede ser predicho conociendo los valores que adoptan otras variables (denominadas también independientes, predictoras, factores de riesgo, causa, factor). Con estos métodos intentamos predecir el comportamiento de ciertas variables a partir de otras. Por ejemplo, la probabilidad de contraer una IN, incluso IN determinadas, según los valores que adopten factores de riesgo como sexo, edad, duración de la intervención, profilaxis antibiótica, ASA, NNIS, cateterismos etc. Esta técnica en su conjunto tiene la ventaja de que las variables predictoras pueden ser cualitativas, cuantitativas o una combinación de ambas. Y la variable dependiente puede ser categórica o cuantitativa. Precisamente según sea la variable dependiente deberemos utilizar distintas técnicas:
a. Regresión Logística Binaria(2,4,90,160,409) (en adelante RLB). Nos permite relacionar una variable respuesta o dependiente dicotómica con variables independientes que pueden ser cuantitativas o categóricas, si bien estas últimas deben ser dicotómicas. En el caso de que sean policotómicas es necesario convertirlas en varias dicotómicas (n – 1, entendiendo que n es el número de categorías). En el caso de utilizar el paquete estadístico SPSS como va a ser el nuestro, el propio programa las convierte en n-1 variables dummy. Más adelante nos extenderemos en la descripción de este método que va a constituir uno de los dos pilares fundamentales de este estudio.
b. Regresión Logística Multinomial o Politómica(90): en el caso de variables dependientes cualitativas de más de dos categorías los datos se deben analizar con este modelo. Las variables independientes deben tener las mismas características que tienen para la RLB.
c. Regresión Logística Ordinal(90): modelo que sirve cuando existe un orden entre las categorías de una variable con más de dos categorías.
~
133~
d. Regresión de Poisson(90,162): para aquellos casos en que la variable dependiente es una variable de tipo recuento que no presente ni sobredispersión ni infradispersión.
e. Si existiese sobredispersión de la variable recuento:
1. Modelo de Poisson con el error estándar corregido. Se basa en corregir los errores estándar, aumentándolos, ya que como la sobredispersión sesga la estimación de los mismos(90).
2. Modelo de regresión binomial negativa o Poisson Gamma: se basa en la distribución binomial negativa que presenta la asimetría típica de las variables de recuento, pero con una distribución más flexible que la de Poisson(90).
3. Modelo de regresión de Poisson con ceros inflados: cuando además de sobredispersión en una variable de recuento aparecen más valores 0 que los esperados(90).
4. Modelo de regresión binomial negativa con ceros inflados: permite modelar la sobredispersión debida tanto a exceso de valores 0 como a otras causa aumentan la variancia en valores distintos de 0(90).
2.-Correlación canónica(41,227)
Es aplicable cuando se analiza un conjunto numeroso de variables y se quieren agrupar en dos grupos: uno con las variables explicativas y otro con las explicadas. Es necesario que, en cada grupo, exista un alto grado de correlación entre las variables estudiadas.
Su objetivo es relacionar simultáneamente varias variables métricas
dependientes e independientes calculando combinaciones lineales de cada conjunto de variables que maximicen la correlación existente entre los dos conjuntos de variables.
La idea es determinar el par de combinaciones lineales que tienen la correlación más alta, luego el segundo par cuya correlación es menor o igual a la primera, y así sucesivamente. A estos pares de combinaciones lineales se los denomina variables canónicas, de ahí el nombre de correlaciones canónicas que miden la fuerza de asociación entre los dos grupos de variables.
~
134~
3.-Análisis discriminante(80,150,405). Con esta técnica podemos encontrar una función discriminante con la que distinguir entre dos o más grupos y, de este modo, tomar decisiones. Proporciona reglas de clasificación óptimas de nuevas
observaciones de las que se desconoce su grupo de procedencia. Para ello utiliza la información contenida en los valores de las variables independientes.
Objetivo: Identificar funciones capaces de separar dos o más grupos de
individuos según sus puntuaciones en una serie de variables, con el fin de localizar las variables que contribuyen en mayor grado a discriminar a los sujetos de los diferentes grupos establecidos a priori en la variable dependiente.
La variable dependiente es cualitativa, categórica.
4.-Análisis multivariante de la varianza(149,464).
Denominado habitualmente MANOVA (Multivariate Analysis of Variance), es una extensión del análisis de la varianza o ANOVA (Analysis of Variance) que se utiliza cuando se analiza el caso de más de una variable dependiente y no puede
simplificarse más el modelo.
Dicho de otra manera, se utiliza cuando la muestra total está dividida en varios grupos basados en una o varias variables independientes no métricas y las variables dependientes analizadas son métricas. Su objetivo es averiguar si hay diferencias significativas entre dichos grupos en cuanto a las variables dependientes se refiere y en qué medida una variable dependiente está influenciada por una o varias variables independientes.
5.-Análisis de Componentes Principales(144,157,369):intenta reducir dimensiones determinando un sistema más pequeño de variables que sinteticen el sistema original. Se utiliza, como el análisis factorial, para analizar interrelaciones entre un número elevado de variables métricas explicando dichas interrelaciones en términos de un número menor de variables denominadas factores (si son inobservables) o
componentes principales (si son observables).
6.-Análisis Cluster o de conglomerados(145,410): clasifica una muestra de entidades (individuos o variables) en un número pequeño de grupos de forma que las observaciones pertenecientes a un grupo sean muy similares entre sí y muy
~
135~
disimilares del resto. Se diferencia del análisis discriminante en que se desconoce el número y la composición de los grupos.
Su objetivo es identificar grupos homogéneos de sujetos u objetos a partir de su puntuación en una serie de variables. Estos grupos, a su vez, deben de ser muy diferentes entre sí: alta homogeneidad interna y elevada heterogeneidad entre los grupos
Condición: Variables medidas en la misma escala
7.-Modelos de Ecuaciones Estructurales o Análisis de Estructuras de Covarianza(25):
Los modelos de ecuaciones estructurales es una técnica estadística
multivariante para probar y estimar relaciones causales a partir de datos estadísticos y asunciones cualitativas sobre la causalidad.
Analizan las relaciones existentes entre un grupo de variables representadas por sistemas de ecuaciones simultáneas en las que se suponen que algunas de ellas (constructos) se miden con error a partir de otras variables observables denominadas indicadores. Podemos distinguir en los modelos dos partes: estructural (especifica las relaciones de dependencia existente entre las constructos latentes) y de medida (especifica cómo los indicadores se relacionan con sus constructos).
Este Modelo de Ecuaciones Estructurales permite comprobar en qué medida un modelo teórico se ajusta a los datos empíricos y trabaja con variables cuantitativas
Modelos Log-Lineales(159): Permite poner a pruebas modelos que postulan distinto tipo de relaciones entre dos o más variables categóricas
8.-Análisis de Supervivencia(88,89,285,287,385,397,458).
Es similar al análisis de regresión pero su diferencia fundamental radica en que la variable independiente es el tiempo de supervivencia de un individuo u objeto.
Su objetivo es predecir o modelizar el tiempo que transcurre hasta que ocurre un evento.
Las variables implicadas son de tres tipos diferentes:
De respuesta: Tiempo de seguimiento (cuantitativa) De censura: Si ha ocurrido o no el evento (dicotómica) Explicativas: cuantitativas y/o cualitativas.
~
136~
9.-Análisis Conjoint (conjunto)(371). (Pérez César. Reducción de la dimensión: análisis conjunto. En: Pérez César. Técnicas Estadísticas Multivariantes SPSS. Ibergaceta Publicaciones, Madrid, 2009) (Ramírez JM. Measuring Preferences: from Conjoint Analysis to Integrated Conjoint Experiments.
Revista de Métodos Cuantitativos para la Economía y la Empresa 2009; 9:28-43.) Es una técnica que analiza el efecto de variables independientes no métricas sobre variables métricas o no métricas. La diferencia con el Análisis de la Varianza radica en dos hechos: las variables dependientes pueden ser no métricas y los valores de las variables
independientes no métricas son fijadas por el analista. En otras disciplinas se conoce con el nombre de Diseño de Experimentos.
Condición: Variable independiente categórica (atributos) y Variable dependiente ordinal.
Muy utilizado en Marketing (diseño de nuevos productos, test de envases, elasticidad del precio, Identificación del producto ideal, segmentación de mercados, simulaciones, etc.)
10.-Análisis Factorial(71,151,369,408).
Se utiliza para analizar interrelaciones entre un número elevado de variables métricas explicando dichas interrelaciones en términos de un número menor de variables denominadas factores (si son inobservables) o componentes principales (si son observables).
Su objetivo: Por un lado la reducción de datos (variables métricas) y por otro, a partir de la relación entre variables observadas identificar un número menor de
variables resumen (factores) o variables latentes que resultan después de eliminar las redundancias existentes entre el conjunto inicial de variables observadas.
Condición: Variables cuantitativas.
11.-Escalas Multidimensionales(19,156)
Su objetivo es transformar juicios de semejanza o preferencia en distancias representadas en un espacio multidimensional. Como consecuencia se construye un mapa en el que se dibujan las posiciones de los objetos comparados de forma que aquéllos percibidos como similares están cercanos unos de otros y alejados de objetos percibidos como distintos.
~
137~
El escalamiento multidimensional pretende utilizar las proximidades entre objetos para realizar una representación espacial de los mismos, identificando las dimensiones subyacentes.
Condición: Gran versatilidad en la recogida de datos (distintos tipos de tareas).
12.-Análisis de Correspondencias(71,146,368) Se aplica a tablas de contingencia multidimensionales y persigue un objetivo similar al de las escalas multidimensionales pero representando simultáneamente las filas y columnas de las tablas de
contingencia.
Su objetivo es la reducción de datos (variables no métricas) y, además, a partir de la relación entre variables observadas identificar dimensiones o variables latentes. Profundiza en las relaciones que se establecen entre dos o más variables categóricas.
Condición: Variables cualitativas. Simple (entre las categorías de dos variables) o Múltiple (más de dos)
13.-Modelos log-lineales(159,351)
Se aplican a tablas de contingencia multidimensionales y modelizan relaciones de dependencia multidimensional de las variables observadas que buscan explicar las frecuencias observadas.
14.-Series temporales(148,364,389)
Secuencia de datos, observaciones o valores, medidos en determinados momentos y ordenados cronológicamente. Los datos pueden estar espaciados a intervalos iguales (la temperatura axilar de un paciente hospitalizado medida todos los días a las 7 de la mañana) o desiguales (la presión arterial de un paciente medida cada vez que acude a consulta).
15.-Métodos robustos(154,155,157).
Son aquellos métodos en los que las inferencias realizadas con ellos, como afirma García Pérez A, "son insensibles a la posible presencia de datos anómalos o a posibles desviaciones en la distribución modelo supuesta". Como son técnicas un poco alejadas de los objetivos y características del presente estudio, vamos a enumerarlas exclusivamente, sin entrar en descripciones detalladas de las mismas.
~
138~
15.1.- Correlación y estimación multivariante: correlación de porcentaje ajustado, winsorizada, media biponderada etc.(153,155)
15.2.- Análisis de Componentes Principales Robusto(144)
.
15.3.- Análisis de Regresión(161): estimadores de regresión tipo Huber, para modelos lineales, regresión media biponderada, regresión
winsorizada, análisis de la covarianza(155).
1.11.2.4.- Etapas de un análisis multivariante