Estad´ıstica No Param´etrica - EXTRACCI ´ ON DE CARACTER´ISTICAS

3. EXTRACCI ´ ON DE CARACTER´ISTICAS

4.3. Estad´ıstica No Param´etrica

Los modelos no parámetricos son procedimientos descriptivos que no presuponen una forma determinada para la función de distribución, es decir, no requieren que la distribución sea expresable como una función conocida. Las variables no tienen por qué seguir un modelo dado y pueden analizarse datos numéricos o categóricos. Es común referirse a ellas como pruebas de distribución libre. Si se quiere trabajar con estas en forma de agrupaciones o intervalos es necesario hacer un pre-procesamiento para asignar los datos a categor´ıas discretas. Por consiguiente estas métricas, técni- cas o modelos son aplicables a cualquier variable.

Tal y como se explica en [16], las pruebas no param´etricas re´unen las siguientes caracter´ısticas:

1. Son m´as f´aciles de utilizar.

2. Son aplicables a datos jerarquizados.

3. Se pueden usar cuando dos series de observaciones provienen de distintas poblaciones.

4. Son la única alternativa cuando el tamaño de muestra es pequeño (menor de 30 muestras).

5. Son útiles dentro de un intervalo de significancia previamente especificado. Es importante destacar que existen técnicas de estad´ıstica no paramétrica equiva- lentes a técnicas de estad´ıstica parámetrica. Por ejemplo, lat-Student anteriormente citada, puede ser sustituida por la prueba deWilcoxon, cuando la población muestral tan solo tiene dos conjuntos de observaciones o dicho en otras palabras dos poblaciones muestrales. Por otro lado, si el número de poblaciones muestrales es superior a dos, se suele utilizar la prueba U de Mann-Whitney.

4.3.1. Prueba de Kolmogorov-Smirnov

Existen dos m´etodos para esta prueba. Se puede utilizar para una sola muestra; o por el contrario con dos muestras independientes [16]. En el caso que nos ocupa, utilizaremos esta prueba para comprobar si dos muestras pertenecen a la misma poblaci´on, es decir, la prueba de K-S para dos muestras.

4.3. ESTAD´ISTICA NO PARAM´ETRICA

El método para dos muestras independientes busca contrastar en su hipótesis si dos distribuciones siguen o no el mismo patrón, o dicho de otro modo, proceden de la misma población. Para ello, calcula la máxima diferencia absoluta entre las funciones de distribución acumuladas observadas para ambas muestras. Suele denotarse a este estad´ıstico como Z.

Partiendo del conjunto de datos masculino, m, donde el conjunto de muestras de la poblaci´on perteneciente al estado de congruencia, estado neutro o acuerdo,

a, denotado como Xa y el conjunto de muestras para la poblaci´on relacionada con

el estado de estr´es, incongruencia o desacuerdo, d, denotado como Xd se calculan

las funciones de distribuci´on para ambas poblaciones muestrales, como Fam(Xj) y Fdm(Xj), siendo J el conjunto de 72 par´ametros yj cada uno de ellos.

Para obtener las funciones de distribución para cada grupo, ordenamos de menor a mayor los valores de cada población muestral por separado y lo dividimos por el número total de muestras de cada población. Para ello, se realiza una asignación de rangos por población, en caso de empates se realizará el promedio de los rangos de las observaciones. Una vez establecidos los rangos de ambas muestras, la función de distribución para estas se obtiene como: Fajm(Xs) = s/najm y Fdjm(Xs) = s/ndjm,

donde s es cada una de las observaciones del vector de la poblaci´on muestral y n

el número total de observaciones por cada conjunto muestral. Normalmente en la literatura, una de las muestras se considera la teórica y otra de ellas la emp´ırica. En nuestro caso, diremos queXames la muestra teórica yXdmserá la muestra emp´ırica.

Seguidamente se calcula la diferencia entre ambas muestras quedando definida de la siguiente forma:|Djsm|=|Fajm(Xs)−Fdjm(Xs)|. Una vez obtenidas las diferencias,

la hipótesis se contrasta a partir de la diferencia más grande en valor absoluto, como se puede ver en la siguiente ecuación [168], [169]:

Zmj =maxj|Dj|

r _n

ajmndjm najm+ndjm

(4.5) Esta prueba al contrario que la de Mann-Whitney-Wilcoxon es sensible a cualquier caracter´ıstica diferenciadora entre las muestras, tales como simetr´ıa, variabili- dad o tendencia central, entre otras posibilidades. Para el conjunto de datos femenino, las relaciones ser´ıan similares a las anteriores, salvo que vendr´ıan identificadas por el sub´ındice f.

4.3.2. Prueba de Mann-Whitney-Wilcoxon

Esta técnica no paramétrica fue enunciada en 1945 por Frank Wilcoxon para poblaciones muestrales de igual tamaño o lo que es lo mismonaf =ndf ónam =ndm

[199]. Sin embargo, fue en 1947 cuando Henry B. Mann y Donald R. Whitney ge- neralizaron el método para muestras con diferentes tamaños [112]. Es por ello que, este método se puede encontrar descrito de muchas formas diferentes en cuanto a autor´ıa se refiere.

Partiendo del conjunto de datos femenino,f, donde la poblaci´on perteneciente al estado de congruencia (estado neutro, o acuerdo,“a”), denotado como Xaf, con un

tama˜no naf y el conjunto de muestras para la poblaci´on relacionada con el estado

de estr´es o incongruencia (desacuerdo, “d”), denotado como Xdf, donde el cardinal

de las muestras se describe como ndf. Adem´as, cada par´ametro se denota por la

letra,j. Por lo tanto, cada subconjunto quedar´ıa de la siguiente forma Xajf y Xdjf,

respectivamente. Realizamos la suma de ambas poblaciones muestrales, quedando

njf = najf +ndjf observaciones y considerando ambas poblaciones como una sola,

generando una serie de rangos Rjf para lasnjf observaciones, donde se le asigna el

valor 1 a la más pequeña, 2 a la siguiente, 3 a la siguiente y as´ı sucesivamente hasta la más grande que se le otorga un valorn. Si existiera algún empate, éste se resuelve realizando el promedio de ambas muestras. Por consiguiente, tendremos Rajf para

losnaf rangos correspondientes a las observaciones de la poblaci´on muestralXaf, y Rdjf para los ndf rangos correspondientes a las observaciones de la poblaci´on mues-

tral Xdf.

Calculamos la suma de los rangos asignados a la poblaci´on muestral, Xaf, y

hacemos exactamente la misma operación con los rangos asignados a la otra pobla- ción muestral,Xdf. Ambas sumas se definirán comoWaf y Wdf, respectivamente. El

estad´ıstico de Mann-Whitney quedar´a de la siguiente forma para cada una de las poblaciones muestrales para cada par´ametroj:

Uajf =najfndjf + najf(najf + 1) 2 −Wajf Udjf =najfndjf + ndjf(ndjf + 1) 2 −Wdjf (4.6)

Esta técnica permite contrastar la hipótesis de igualdad entre dos medianas po- blacionales donde los conjuntos de datosXaf yXdf son independientes. La hipótesis

inicial se basa en que ambas poblaciones son aproximadamente iguales si Uajf y Udjf lo son. Si Uajf y Udjf son muy diferentes, se puede concluir que proceden de

poblaciones distintas. Por consiguiente, la hip´otesis nula de que ambos promedios poblaciones son iguales podr´ıa rechazarse si Uajf o Udjf son demasiado grandes o

peque˜nos.

Las fórmulas para el conjunto de datos masculino, ser´ıan las mismas, cambian- do el sub´ındice f por m. En [51] se ponen de manifiesto algunas de las reglas de decisión para escoger el método parámetrico (t-Student) o el no parámetrico (U- Mann-Whitney).

4.3.3. Distancia de Kullback-Leibler

La entrop´ıa relativa (o tambi´en conocida como la divergencia de Kullback-Leibler [94]), en adelante DKL, es una medida no-sim´etrica de la diferencia entre dos distribuciones de probabilidad Ω1 y Ω2.

In document Contribución al estudio de selección de parámetros para identificación de estrés en la voz (página 116-119)