3. EXTRACCI ´ ON DE CARACTER´ISTICAS
4.3. Estad´ıstica No Param´etrica
Los modelos no par´ametricos son procedimientos descriptivos que no presuponen una forma determinada para la funci´on de distribuci´on, es decir, no requieren que la distribuci´on sea expresable como una funci´on conocida. Las variables no tienen por qu´e seguir un modelo dado y pueden analizarse datos num´ericos o categ´oricos. Es com´un referirse a ellas como pruebas de distribuci´on libre. Si se quiere trabajar con estas en forma de agrupaciones o intervalos es necesario hacer un pre-procesamiento para asignar los datos a categor´ıas discretas. Por consiguiente estas m´etricas, t´ecni- cas o modelos son aplicables a cualquier variable.
Tal y como se explica en [16], las pruebas no param´etricas re´unen las siguientes caracter´ısticas:
1. Son m´as f´aciles de utilizar.
2. Son aplicables a datos jerarquizados.
3. Se pueden usar cuando dos series de observaciones provienen de distintas po- blaciones.
4. Son la ´unica alternativa cuando el tama˜no de muestra es peque˜no (menor de 30 muestras).
5. Son ´utiles dentro de un intervalo de significancia previamente especificado. Es importante destacar que existen t´ecnicas de estad´ıstica no param´etrica equiva- lentes a t´ecnicas de estad´ıstica par´ametrica. Por ejemplo, lat-Student anteriormente citada, puede ser sustituida por la prueba deWilcoxon, cuando la poblaci´on muestral tan solo tiene dos conjuntos de observaciones o dicho en otras palabras dos pobla- ciones muestrales. Por otro lado, si el n´umero de poblaciones muestrales es superior a dos, se suele utilizar la prueba U de Mann-Whitney.
4.3.1.
Prueba de Kolmogorov-Smirnov
Existen dos m´etodos para esta prueba. Se puede utilizar para una sola muestra; o por el contrario con dos muestras independientes [16]. En el caso que nos ocupa, utilizaremos esta prueba para comprobar si dos muestras pertenecen a la misma poblaci´on, es decir, la prueba de K-S para dos muestras.
4.3. ESTAD´ISTICA NO PARAM´ETRICA
El m´etodo para dos muestras independientes busca contrastar en su hip´otesis si dos distribuciones siguen o no el mismo patr´on, o dicho de otro modo, proceden de la misma poblaci´on. Para ello, calcula la m´axima diferencia absoluta entre las fun- ciones de distribuci´on acumuladas observadas para ambas muestras. Suele denotarse a este estad´ıstico como Z.
Partiendo del conjunto de datos masculino, m, donde el conjunto de muestras de la poblaci´on perteneciente al estado de congruencia, estado neutro o acuerdo,
a, denotado como Xa y el conjunto de muestras para la poblaci´on relacionada con
el estado de estr´es, incongruencia o desacuerdo, d, denotado como Xd se calculan
las funciones de distribuci´on para ambas poblaciones muestrales, como Fam(Xj) y Fdm(Xj), siendo J el conjunto de 72 par´ametros yj cada uno de ellos.
Para obtener las funciones de distribuci´on para cada grupo, ordenamos de menor a mayor los valores de cada poblaci´on muestral por separado y lo dividimos por el n´umero total de muestras de cada poblaci´on. Para ello, se realiza una asignaci´on de rangos por poblaci´on, en caso de empates se realizar´a el promedio de los rangos de las observaciones. Una vez establecidos los rangos de ambas muestras, la funci´on de distribuci´on para estas se obtiene como: Fajm(Xs) = s/najm y Fdjm(Xs) = s/ndjm,
donde s es cada una de las observaciones del vector de la poblaci´on muestral y n
el n´umero total de observaciones por cada conjunto muestral. Normalmente en la literatura, una de las muestras se considera la te´orica y otra de ellas la emp´ırica. En nuestro caso, diremos queXames la muestra te´orica yXdmser´a la muestra emp´ırica.
Seguidamente se calcula la diferencia entre ambas muestras quedando definida de la siguiente forma:|Djsm|=|Fajm(Xs)−Fdjm(Xs)|. Una vez obtenidas las diferencias,
la hip´otesis se contrasta a partir de la diferencia m´as grande en valor absoluto, como se puede ver en la siguiente ecuaci´on [168], [169]:
Zmj =maxj|Dj|
r n
ajmndjm najm+ndjm
(4.5) Esta prueba al contrario que la de Mann-Whitney-Wilcoxon es sensible a cual- quier caracter´ıstica diferenciadora entre las muestras, tales como simetr´ıa, variabili- dad o tendencia central, entre otras posibilidades. Para el conjunto de datos feme- nino, las relaciones ser´ıan similares a las anteriores, salvo que vendr´ıan identificadas por el sub´ındice f.
4.3.2.
Prueba de Mann-Whitney-Wilcoxon
Esta t´ecnica no param´etrica fue enunciada en 1945 por Frank Wilcoxon para poblaciones muestrales de igual tama˜no o lo que es lo mismonaf =ndf ´onam =ndm
[199]. Sin embargo, fue en 1947 cuando Henry B. Mann y Donald R. Whitney ge- neralizaron el m´etodo para muestras con diferentes tama˜nos [112]. Es por ello que, este m´etodo se puede encontrar descrito de muchas formas diferentes en cuanto a autor´ıa se refiere.
Partiendo del conjunto de datos femenino,f, donde la poblaci´on perteneciente al estado de congruencia (estado neutro, o acuerdo,“a”), denotado como Xaf, con un
tama˜no naf y el conjunto de muestras para la poblaci´on relacionada con el estado
de estr´es o incongruencia (desacuerdo, “d”), denotado como Xdf, donde el cardinal
de las muestras se describe como ndf. Adem´as, cada par´ametro se denota por la
letra,j. Por lo tanto, cada subconjunto quedar´ıa de la siguiente forma Xajf y Xdjf,
respectivamente. Realizamos la suma de ambas poblaciones muestrales, quedando
njf = najf +ndjf observaciones y considerando ambas poblaciones como una sola,
generando una serie de rangos Rjf para lasnjf observaciones, donde se le asigna el
valor 1 a la m´as peque˜na, 2 a la siguiente, 3 a la siguiente y as´ı sucesivamente hasta la m´as grande que se le otorga un valorn. Si existiera alg´un empate, ´este se resuelve realizando el promedio de ambas muestras. Por consiguiente, tendremos Rajf para
losnaf rangos correspondientes a las observaciones de la poblaci´on muestralXaf, y Rdjf para los ndf rangos correspondientes a las observaciones de la poblaci´on mues-
tral Xdf.
Calculamos la suma de los rangos asignados a la poblaci´on muestral, Xaf, y
hacemos exactamente la misma operaci´on con los rangos asignados a la otra pobla- ci´on muestral,Xdf. Ambas sumas se definir´an comoWaf y Wdf, respectivamente. El
estad´ıstico de Mann-Whitney quedar´a de la siguiente forma para cada una de las poblaciones muestrales para cada par´ametroj:
Uajf =najfndjf + najf(najf + 1) 2 −Wajf Udjf =najfndjf + ndjf(ndjf + 1) 2 −Wdjf (4.6)
Esta t´ecnica permite contrastar la hip´otesis de igualdad entre dos medianas po- blacionales donde los conjuntos de datosXaf yXdf son independientes. La hip´otesis
inicial se basa en que ambas poblaciones son aproximadamente iguales si Uajf y Udjf lo son. Si Uajf y Udjf son muy diferentes, se puede concluir que proceden de
poblaciones distintas. Por consiguiente, la hip´otesis nula de que ambos promedios poblaciones son iguales podr´ıa rechazarse si Uajf o Udjf son demasiado grandes o
peque˜nos.
Las f´ormulas para el conjunto de datos masculino, ser´ıan las mismas, cambian- do el sub´ındice f por m. En [51] se ponen de manifiesto algunas de las reglas de decisi´on para escoger el m´etodo par´ametrico (t-Student) o el no par´ametrico (U- Mann-Whitney).
4.3.3.
Distancia de Kullback-Leibler
La entrop´ıa relativa (o tambi´en conocida como la divergencia de Kullback-Leibler [94]), en adelante DKL, es una medida no-sim´etrica de la diferencia entre dos dis- tribuciones de probabilidad Ω1 y Ω2.