INTEGRANTES: ELIRIANNY SALAZAR

(1)

REPÚBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DE EDUCACIÓN SUPERIOR UNIVERSIDAD “GRAN MARISCAL DE AYACUCHO” FACULTAD DE CIENCIAS SOCIALES Y ECONÓMICAS

ESCUELA DE ADMINISTRACIÓN SEDE EL TIGRE

VARIABLE ALEATORIA

PROFESOR: HAMLET MATA MATA INTEGRANTES:

ELIRIANNY SALAZAR

(2)

INDICE

Contenido : pág.

Introducción 3

Desarrollo 4

Pruebas parametricas (propiedades , ejemplos y usos ) 4

Pruebas no parametricas (propiedades , ejemplos y usos ) 6

Distribuciones de probabilidad (propiedades , ejemplos y usos ) 9

Distribuciones discretas (propiedades , ejemplos y usos ) 11

Variable aleatoria (propiedades , ejemplos y usos ) 17 Distribuciones continuas (propiedades , ejemplos y usos )

Valor esperado (propiedades , ejemplos y usos ) Pruebas de los signos

Prueba de Wilcoxon de los rangos con signos (propiedades , ejemplos y usos ) Prueba de Wilcoxon para contrastar datos pareados signos (propiedades, ej.) Pruebas de Mann- Whitney para muestras independientes (propiedades, ej.) Modelos no paramétrico de Kruskal –Wallis (propiedades , Ej., usos ) Pruebas de corrida (propiedades, ej., y usos )

Pruebas de u Mann –Whitney (propiedades ,ej. y usos ) Correlación (propiedades , ej. y usos )

Coeficientes de correlación de rangos (propiedades ,ej. y uso ) Test de cohen – kappa (propiedades , ejemplos y usos )

Valores de kappa y calificación de la concordancia (propiedades , ej., uso ) Coeficientes de correlación de los rangos de Spearman? Propiedades, ej. Usos. Prueba de kolmogorov-smirnov? Propiedades, ejemplos. Usos.

Conclusión Bibliografía

(3)

INTRODUCCION

En el presente trabajo, se estudia de manera ágil los diversos tipos de distribución probabilística, caracterizaremos cada distribución, la fundamentación matemática de el estudio descriptivo de la distribución de probabilidades discretas. Las decisiones estadísticas basadas en la estadística inferencial son fundamentales en la investigación que son evaluadas en términos de distribución de probabilidades.

Los métodos estadísticos como elementos de apoyo son fundamentales puesto que cuantifican y cualifican objetivamente los resultados de la investigación. Una opción muy poderosa son las técnicas paramétricas, las cuales requieren de un gran número de supuestos que no siempre se satisfacen.

En la práctica, surgen muchas situaciones en las cuales no es posible hacer de forma segura ningún supuesto sobre el valor de un parámetro o sobre la forma de su distribución poblacional. Entonces se deben utilizar otras pruebas que no dependan de un solo tipo de distribución o de valores paramétricos específicos. Estas pruebas son procedimientos estadísticos que pueden utilizarse para contrastar hipótesis cuando no son posibles los supuestos respecto a los parámetros o a las distribuciones poblacionales. Dentro de estas pruebas se encuentran las de Chi-cuadrado (2_{), la del} Signo, de Rachas, de Mann-Whitney

(4)

DESARROLLO

PRUEBAS PARAMETRICAS (PROPIEDADES, EJEMPLOS Y USOS)

Son las pruebas que tienen más potencia para detectar diferencias, pero también las que oponen más obstáculos para su correcta aplicación. Las dos limitaciones que deberemos salvar son: Que los grupos a comparar sigan una distribución normal. Que tengan igualdad de variancias. Este apunte de estadística pretende explicar el porqué de estos dos obstáculos (asunciones) que nos encontramos al querer aplicar correctamente las pruebas para métricas. ¿POR QUÉ SE LLAMAN PRUEBAS PARAMÉTRICAS? Porque comparan los grupos a través de una medida de tendencia central (parámetro): la media aritmética. Como vemos, este valor adquiere una vital importancia. ¿En qué condiciones la media es realmente un valor representativo de una serie de datos? Como sabemos, existen otras medidas de tendencia central que, según la distribución de los datos, pueden llegar a ser más representativas. Cuando los datos siguen una distribución normal la media actúa como una buena medida resumen. Recordemos algunas de las características de esta distribución: Viene determinada por dos parámetros, la media (µ) y la desviación típica (*). Es acampanada y simétrica alrededor de la media.

Ejemplo:

Si se cumplen los supuestos de normalidad: El valor de la µ ± 1* incluirá aproximadamente el 68,3% central de las observaciones. El valor de la µ ± 2* incluirá aproximadamente el 95,3% central de las observaciones. El valor de la µ ± 3* incluirá prácticamente todas las observaciones, el 99,7%. Conocidas la µ y la *, se puede

(5)

reconstruir la distribución de las observaciones. La igualdad de variancias es el otro gran obstáculo que deberemos salvar.

Dos distribuciones pueden tener el mismo valor en el parámetro media, mostrando los primeros valores cercanos a la media (poca dispersión, variancia pequeña) y la segunda valores alejados de dicho parámetro (más dispersión, gran variancia). Como vemos estas dos variables siguen diferentes patrones, aunque tienen en común el mismo valor de la media.

Las pruebas paramétricas asumen que los datos de las variables a comparar se distribuyen de igual forma, pero que entre ellos existe un desplazamiento fijo; es decir, para cada valor de una muestra hay un valor igual pero incrementado en un valor constante (K), al que podríamos llamar desplazamiento. Si este valor constante se acerca al valor 0, no habría diferencias entre los grupos, ya que existiría un solapa-miento entre los valores a comparar. Cuanto más se aleje del valor 0, mayores serán las diferencias.

Un modo frecuente de presentar un problema para su estudio es ordenar las variables en filas (ordenamiento horizontal) y columnas (ordenamiento vertical). Los datos de las variables quedan ordenados en tablas de "contingencia" .

Veamos un ejemplo imaginario utilizando las columnas para anotar pacientes con y sin diabetes; las filas para anotar los pacientes con y sin infarto de miocardio (IAM).

La tabla está presentando un problema que puede ser analizado como diferencia de proporciones. Leámosla como relaciones Odds; como Riesgo, sería contra el total de cada columna respectivamente en cuyo caso el denominador sería inicialmente 120.

(6)

La proporción "Odds" de IAM en pacientes con Diabetes es:

La proporción "Odds" de IAM en pacientes sin Diabetes es:

Para usarlas deben cumplirse supuestos:

 Las variables tienen que ser cuantitativas y estar medidas a escalas de intervalo o razón.

 Los datos siguen una distribución normal.  Las varianzas son iguales

 Muestras grandes (n > 3 )

 A veces se usan sin cumplir los supuestos pero debe usarse con cautela en muestras más pequeñas o con varianzas desiguales, en estos caso se prefiere usar pruebas no parametricas.

PRUEBAS NO PARAMETRICAS (PROPIEDADES, EJEMPLOS Y USOS)

Se denominan pruebas no paramétricas aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también como de distribución libre (distribución free). En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es de fácil comprensión.

Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal.

(7)

En estos casos se emplea como parámetro de centralización la mediana, que es aquel punto para el que el valor de X está el 50% de las veces por debajo y el 50% por encima.

SE DEBEN USAR CON:

 Datos de distribución libre (no necesariamente normal). Si un grupo tiene distribución normal mientras el otro no.

 Si se trata de datos cuantitativos, ordinales o nominales.  Con varianza grande, un grupo con varianza 0 y el otro no.  Al trabajar con muestras pequeñas.

Ejemplo:

A una muestra aleatoria de cien niños se les pidió que comparasen dos nuevos sabores de helados: vainilla y fresa. 56 de los niños prefirieron el sabor a vainilla, 40 prefirieron el sabor a fresa, y a 4 de ellos les daba igual. Se quiere contrastar frente a una alternativa bilateral la hipótesis nula de que no existe en la población una preferencia por un sabor u otro.

Si p es la proporción de niños en la población que prefieren el sabor a vainilla, lo que queremos contrastar es H0: p=0,5 frente a H1: p"0,5.

Como cuatro de los niños no han preferido un sabor a otro, tenemos un tamaño muestral de 96 niños. La proporción de niños que han preferido el sabor a vainilla es: Px = 56 / 96 = 0,583

Para un nivel de significación , la regla de decisión es: Px - 0,5

(8)

Rechazar H0 si --- < -Z /2 "(0,5)(0,5) / n Ó Px - 0,5 --- > -Z /2 "(0,5)(0,5) / n En nuestro caso Px - 0,5 0,583 - 0,5 --- = --- = 1,63 "(0,5)(0,5) / n "(0,5)(0,5) / 96 Vemos, que si Z /2 = 1,63, /2 = 0,0516, de manera que = 0,1032.

Por tanto, la hipótesis nula podrá ser rechazada para todos los niveles de significación superiores al 10,32%. Si la hipótesis nula de que el mismo número de niños prefieren el sabor a vainilla que el sabor a fresa fuese cierta, la probabilidad de observar unos resultados maestrales tan extremos, o más extremos que los actualmente obtenidos, será ligeramente superior a uno sobre diez. En nuestro caso, los datos muestran una modesta evidencia en contra de dicha hipótesis.

La figura muestra las probabilidades de las colas de una distribución normal correspondientes al 5,16% inferior y superior del área total bajo la función de densidad.

(9)

DISTRIBUCION DE PROBABILIDAD (PROPIEDADES, EJEMPLOS Y USOS)

Es una función que asigna a cada evento definido sobre la variable aleatoria una probabilidad. La distribución de probabilidad describe el rango de valores de la variable aleatoria así como la probabilidad de que el valor de la variable aleatoria esté dentro de un subconjunto de dicho rango.

Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

Muestra todos los resultados posibles de un experimento y la probabilidad de cada resultado.

Por las propiedades de la probabilidad se cumplen las siguientes tres condiciones:

1. y

2. Es continua por la derecha. 3. Es monótona no decreciente.

(10)

La función de distribución es la acumulada de la función de densidad de probabilidad f(x). Es decir, se calcula directamente según:

 Si x es una variable aleatoria discreta

 Si x es una variable aleatoria continua

Por las propiedades de la probabilidad se cumplen las siguientes tres condiciones:

1. y

2. Es continua por la derecha. 3. Es monótona no decreciente.

Para dos números reales cualesquiera a y b tal que (a < b), los sucesos y serán mutuamente excluyentes y su unión es el suceso , por lo que tenemos entonces que:

Y finalmente

Por lo tanto una vez conocida la función de distribución F(x) para todos los valores de la variable aleatoria x conoceremos completamente la distribución de probabilidad de la variable.

(11)

Para realizar cálculos es más cómodo conocer la distribución de probabilidad, y sin embargo para ver una representación gráfica de la probabilidad es más práctico el uso de la función de densidad.

Ejemplo:

Se arrojan 3 monedas. Sea X la cantidad probabilística que denota el número de águilas que aparecen. Obtenga la distribución de probabilidades de X.

SOLUCION: Es una binomial.

Si C(a, b) es el número de combinaciones de a elementos tomados de b en b la distribución es: P(X=n)=C(3,n)•(1/2)^n*(1/2)^(n-3) P(X=0)=1/8 P(X=1)=3/8 P(X=2)=3/8 P(X=3) = 1/8

DISTRIBUCIONES DISCRETAS (PROPIEDADES, EJEMPLOS, USOS Y CLASIFICACION)

Se denomina distribución de variable discreta a aquella cuya función de probabilidad sólo toma valores positivos en un conjunto de valores de X finito o infinito numerable. A dicha función se le llama función de masa de probabilidad. En este caso la distribución de probabilidad es el sumatorio de la función de masa, por lo que tenemos entonces que:

Y, tal como corresponde a la definición de distribución de probabilidad, esta expresión representa la suma de todas las probabilidades desde hasta el valor x.

(12)

Indica en una lista todos los resultados posibles de un experimento, junto con la probabilidad correspondiente a cada uno de los resultados.

Distribuciones de variable discreta más importantes  Distribución binomial

 Distribución binomial negativa  Distribución Poisson

 Distribución geométrica  Distribución hipergeométrica  Distribución de Bernoulli

 Distribución Rademacher, que toma el valor 1 con probabilidad 1 / 2 y el valor -1 con probabilidad -1 / 2.

 Distribución uniforme discreta, donde todos los elementos de un conjunto finito son igualmente probables.

Distribución Binomial.

Supongamos que un experimento aleatorio tiene sólo dos resultados posibles mutuamente excluyentes y conjuntamente exhaustivos, “éxito” y “fracaso”, y que p es la probabilidad de obtener éxito en cada repetición.

Si se realizan n repeticiones independientes, la distribución del número de éxitos, X, resultante se denomina distribución binomial. Su función de probabilidad es:

(13)

Media de la distribución binomail: μx = E(X) =n·p Varianza de la distribución binomial: σx2 = E [(X - μx)2 = n·p·(1 - p)

Distribución Geométrica.

Es una serie de ensayos de Bernoulli independientes, con probabilidad constante p de un éxito, sea que la variable aleatoria X denote el número de ensayos hasta el primer éxito.

Entonces X tiene una distribución geométrica con parámetro p.

Donde x = 1, 2, 3, ... Su media: μx = E(X) = 1/p

Su varianza: σx2 = V(X)= (1 - p)/p2 Distribución Binomial Negativa.

Surge de un contexto semejante al que conduce a la distribución geométrica. La distribución que asigna a la variable Y, el número de ensayo en el que ocurre el r-ésimo éxito.

Su función de probabilidad es:

Para y = r, r + 1, r + 2,....

Media de la distribución binomail negativa: μx = E(X) =r/p

(14)

Distribución Hipergeométrica.

Supongamos que se elige una muestra aleatoria de tamaño n de un conjunto de N elementos, S de los cuales son éxitos.

La distribución del número de éxitos, X, en la muestra se denomina distribución hipergeométrica. Su función de probabilidad es:

Donde x puede tomar valores enteros entre el máximo de 0 y [n – (N –S)] y el mínimo de n y S.

Media: μx = E(X) =n·p Su varianza:

Si el tamaño muestral n es muy pequeño en relación al número total de elementos, N, las probabilidades hipergeométricas son muy parecidas a las binomiales, y se puede usar la distribución binomial en vez de la hipergeométrica.

Distribución De Poisson.

Se dice que la variable aleatoria X sigue una distribución de Poisson si tiene la función de probabilidad:

Para x = 0, 1, 2,...

Donde λ es cualquier número tal que λ > 0. La media: μx = E(X) = λ

(15)

La varianza: σx2 = E [(X - μx)2 = λ

Aproximación a Poisson de la Distribución Binomial.

Sea X el número de éxitos resultantes de n ensayos independientes, cada uno con probabilidad de éxito p.

La distribución del número de éxitos X es binomial con media n·p. Sin embargo, si el número de ensayos n es grande y n·p tiene un tamaño moderado (preferiblemente n·p ≤ 7), esta distribución puede aproximarse bien por la distribución de Poisson de media λ = n·p.

La función de distribución aproximada es:

Para x = 0, 1, 2,...

Ejemplo:

Supongamos que queremos conocer el número de caras que se obtienen a lanzar tres veces una moneda al aire (experimento) los posibles resultados son: 0, 1, 2 y 3 caras ¿Cuál es la distribución de probabilidad del numero de caras ¿

Solución:

Hay 8 posibles resultados

En el primer lanzamiento puede caer cruz (t), otra cruz en el segundo y otra en el tercero, o puede caer cruz, cruz y cara (h) en ese orden.

Sigamos con nuestro ejemplo del centro médico de departamento de Ucayali. Nuestra variable de interés seria:

(16)

Supongamos que a la charla asistieron tres mujeres, entonces definimos como variable aleatoria a:

X: Número de mujeres que desearían ser esterilizadas.

Antes de hacerles la pregunta sobre su deseo de ser esterilizadas, puede considerar las posibles respuestas:

X = 0 à Ninguna desearía ser esterilizada X = 1 à Sólo una de las mujeres desearía X = 2 à Dos mujeres desearían

X = 3 à Las tres mujeres desearían

Antes de verificar las respuestas de las 3 mujeres seleccionada; no sabe cuántas estarán de acuerdo en ser esterilizadas, pero si conociera las probabilidades de ocurrencia de cada uno de los posibles valores de la variable podría predecir su ocurrencia con una cierta probabilidad. El conjunto de las probabilidades de ocurrencia de los posibles valores de la variable aleatoria se denomina distribución de probabilidades.

En nuestro ejemplo:

A esto se le llama distribución de probabilidades discreta. Discreta porque la variable X deseo ser esterilizada es discreta.

Ejemplo:

Sea X una variable aleatoria discreta tal que P(X = n)=c.qn-1.p, con 1£ n £ 20; siendo c una constante y p+q = 1. Determine el valor de c para que

(17)

P(X = n) = 1.

¿Qué puede decirse del valor esperado de X?

Ÿ Un inversionista dispone de 100.000, bolívares para una inversión de un año. Él está considerando dos opciones: colocar el dinero en el mercado de valores, lo que le garantiza una ganancia fija del 15% y un plan de inversión cuya ganancia anual puede considerarse como una variable aleatoria cuyos valores dependen de las condiciones económicas que prevalezcan. Con base en historia pasada del segundo plan, un analista muy confiable ha determinado los posibles valores de la ganancia y calculado sus probabilidades, tal como aparecen en la siguiente tabla:

Ganancia (%) Probabilidad 30 0,20 25 0,20 20 0,30 15 0,15 10 0,10 5 0,05

(18)

Dado un experimento aleatorio cualquiera cuyos sucesos elementales posibles pueden identificarse fácilmente mediante un número real, se denomina Variable Aleatoria, X, al conjunto de estos números.

También se le llama variable de azar o variable estocástica, y significa cantidad que puede tomar varios valores imprevistos.

Ejemplo 1.-

Sea el experimento aleatorio de lanzar un dado al aire. Los posibles resultados del experimento (sucesos elementales) son los siguientes: <<que salga 1>>, <<que salga 2>>, <<que salga 3>>, <<que salga 4>>, <<que salga 5>> y <<que salga 6>>. Resulta sencillo asociar a cada suceso elemental el número correspondiente a la cara del dado que haya salido. Por tanto, la variable aleatoria, X, será:

X= 1, 2, 3, 4, 5,6

Por el contrario, si dado un experimento aleatorio cualquiera no resulta inmediata la asociación de un número para cada uno de los posibles sucesos elementales, se establece una correspondencia entre el conjunto de los posibles sucesos elementales y el conjunto de los números reales, de manera que a cada suceso elemental le corresponda un número real arbitrario y que a sucesos elementales distintos les correspondan números distintos.

Se denomina variable aleatoria al conjunto imagen de esta correspondencia, es decir, al conjunto de los números reales que se hayan hecho corresponder a cada uno de los sucesos elementales.

Ejemplo 2.-

Sea el experimento aleatorio de averiguar la marca de tabaco que preferirá un individuo entre las posibles marcas: <<X>>, <<Y>>, <<Z>>.

(19)

En este caso la asociación de un número para cada suceso elemental posible del experimento no es inmediata. En consecuencia, se establece una correspondencia entre el conjunto de los sucesos elementales posibles y el conjunto de los números reales, del modo siguiente:

Al suceso elemental <<preferir la marca X>> se le hace corresponder el número 1; al suceso elemental <<preferir la marca Y>> se le hace corresponder el número 2; al suceso elemental <<preferir la marca Z>> se le hace corresponder el número 3. La variable aleatoria X será: X = (1, 2,3).

El número asociado a cada suceso elemental puede ser cualquiera dentro del conjunto de los números reales, con la condición única de que a sucesos elementales distintos le correspondan números también distintos. Se comprueba fácilmente que la correspondencia así definida entre el conjunto de los posibles sucesos elementales de un experimento aleatorio y el conjunto de los números reales es una aplicación inyectiva.

CARACTERISTICAS DE LA VARIABLE ALEATORIA

 Una variable aleatoria se caracteriza además de las funciones de probabilidad, ó de densidad y distribución por una serie de medidas que ayudan a describir la

(20)

tendencia, dispersión, asimetría y apuntamiento de sus valores, tales pueden ser el valor esperado, la desviación estándar, los cuantiles, coeficientes de variación, asimetría y apuntamiento.

DISTRIBUCIONES CONTINUAS (PROPIEDADES, EJEMPLOS Y USOS)

Para un variable continua hay infinitos valores posibles de la variable y entre cada dos de ellos se pueden definir infinitos valores más. En estas condiciones no es posible deducir la probabilidad de un valor puntual de la variable; como se puede hacer en el caso de va discretas, pero es posible calcular la probabilidad acumulada hasta un cierto valor (función de distribución de probabilidad), y se puede analizar cómo cambia la probabilidad acumulada en cada punto (estos cambios no son probabilidades sino otro concepto: la función de densidad.

En el caso de variable continua la distribución de probabilidad es la integral de la función de densidad, por lo que tenemos entonces que:

Sea X una va continua, una distribución de probabilidad o función de densidad de probabilidad (FDP) de X es una función f(x) tal que, para cualesquiera dos números a y b siendo .

La gráfica de f(x) se conoce a veces como curva de densidad, la probabilidad de que X tome un valor en el intervalo [a,b] es el área bajo la curva de la función de densidad; así, la función mide concentración de probabilidad alrededor de los valores de una variable aleatoria continua.

(21)

Área bajo la curva de f(x) entre a y b

Para que f(x) sea una FDP (FDP = f(x)) sea legítima, debe satisfacer las siguientes dos condiciones:

 f(x) 0 para toda x.



Ya que la probabilidad es siempre un número positivo, la FDP es una función no decreciente que cumple:

 . Es decir, la probabilidad de todo el espacio muestral es 1.

 . Es decir, la probabilidad del suceso nulo es cero.

.

Características:

 Es generada por una variable continua (x).

X Es una variable que puede tomar tanto valores enteros como fraccionarios. X 1.0, 3.7, 4.0, 4.6, 7.9, 8.0, 8.3, 11.5, ...,

 f(x)0 Las probabilidades asociadas a cada uno de los valores que toma x deben ser mayores o iguales a cero. Dicho de otra forma, la función de densidad de probabilidad deberá tomar solo valores mayores o iguales a cero. La función de densidad de probabilidad sólo puede estar definida en los cuadrantes I y II.

(22)

 La sumatoria de las probabilidades asociadas a cada uno de los valores que toma x debe ser igual a 1. El área definida bajo la función de densidad de probabilidad deberá ser de 1.

Ejemplos:

1. Media o valor esperado de x.- Para calcular la media de una distribución de probabilidad continua se utiliza la siguiente fórmula:

x = variable aleatoria continua

F(x) = función de densidad de la distribución de probabilidad

2. Desviación estándar.- La fórmula para determinar la desviación estándar de una distribución continua es;

Luego:

Ejemplos:

1. Para la siguiente función,

Cuando 0 x  3, f(x) = 0 para cualquier otro valor  Diga si esta función nos define una distribución de probabilidad.



    x f(x)dx 



     (x )* f(x)dx 2 2   2   2 9 1 x ) x ( f 

(23)

 Si la función define una distribución de probabilidad, entonces, determine su media y desviación estándar.

 Determine la probabilidad de que 1 x  2. Solución:

Para verificar que la función nos define una distribución de probabilidad, es necesario que cumpla con las características que se habían mencionado.

1. x  sí es una variable continua porque puede tomar cualquier valor entre 0 y 3 2. f(x) 0, lo que se comprueba si damos diferentes valores a x para ver qué valores toma f(x), dándonos cuenta de que efectivamente f(x) solo toma valores mayores o iguales a cero. x f(x) 0 0.0 0.5 0.02778 1.0 0.11111 1.4 0.21778 2.1 0.49 2.7 0.81 3.0 1.0

3. Para comprobar que la sumatoria de las probabilidades que toma cada valor de x es de 1, se integra la función de 0 a 3 como se muestra a continuación:

1

0

27

1

0

3

27

1

2

9

1

9

1

3 3 1 2 2 3 0















   



)

(

)

(

)

x

(

dx

x

dx

)

x

(

f

A

(24)

A= área bajo la función

Con las operaciones anteriores comprobamos que la función sí nos define una distribución de probabilidad continua.

Cálculo de media y desviación estándar. .

Las barras nos indican la evaluación de la integral entre 0 y 3.

2 9 1 x 25 2 36 81 0 81 36 1 0 3 36 1 4 9 1 9 1 9 1 4 4 4 3 3 0 2 3 0 . ) ( ) ( ) x ( dx x dx ) x ( x dx ) x ( f * x           







       

_



_

  dx ) x ( * ) . x ( dx ) x ( f * ) x ( 2 3 0 2 2 2 9 1 25 2         



(x . x . )( x )dx



(x x . x )dx 9 0625 5 2 9 9 1 0625 5 5 4 2 3 3 0 4 2 3 0 2        27 3 0625 5 8 3 45 3 27 0625 5 8 45 3 4 5 3 4 5 ) ( . ) ( ) ( x . x x 3375 0 0625 5 125 10 4 5 27 6875 136 8 81 45 243 . . . . . _ _ _ _    5809 0 3375 0 2 . .      2963 0 27 8 3 8 9 1 3 0 3 2 9 1 3 9 1 9 1 2 1 3 3 3 2 2 1 2 1 . ) ( ) ( ) x ( dx x dx ) x ( f ) x ( p   







     

(25)

La barra nos indica la evaluación de la integral de 1 a 2.

Con las operaciones anteriores nos damos cuenta que para evaluar probabilidades para variables de tipo continuo, es necesario evaluar la función de densidad de probabilidad en el rango de valores que se desea; que vendría siendo el área que se encuentra entre f(x) y el eje de las x y entre el rango de valores definidos por la variable x.

2. Suponga que el error en la temperatura de reacción, en oC, para un experimento controlado de laboratorio es una variable aleatoria continua x, que tiene la función de densidad de probabilidad:

, para -1 x  2 y f(x) = 0 en cualquier otro caso

a) Verifique la tercera condición de la definición de una distribución de probabilidad continua.

b) Determine la media o valor esperado de la distribución de probabilidad. c) Encuentre la probabilidad de que 0 x  1.

Solución:

a) Como la tercera condición es que la sumatoria de las probabilidades asociadas a cada uno de los valores que toma x debe de ser 1, esto se comprueba de la siguiente manera: 3 2 x ) x ( f  1 9 9 9 1 9 8 3 1 3 2 3 1 3 3 1 3 3 3 3 2 1 2         



 ) ( ) x ( dx x A

(26)

b)

c)

VALOR ESPERADO (PROPIEDAES, EJEMPLOS Y USOS)

En estadística el valor esperado o esperanza matemática (o simplemente esperanza) de una variable aleatoria es la suma de la probabilidad de cada suceso multiplicado por su valor. Por ejemplo en un juego de azar el valor esperado es el beneficio medio. Si todos los sucesos son de igual probabilidad la esperanza es la media aritmética. Definición Para una variable aleatoria discreta con valores posibles y sus posibilidades representadas por la función de masa p(xi) la esperanza se calcula con

Para una variable aleatoria continua la esperanza se calcula mediante la integral de todos valores y la función de densidad f(x):

Las esperanzas E [Xk] para k = 0, 1,2… se llaman momentos de orden k. Más importantes son los momentos centrados E[(X − E[X])k]. No todas las variables aleatorias tienen un valor esperado (por ejemplo la distribución de Cauchy). El valor esperado es una función lineal. Por eso E [aX + b] = aE [X] + b

Ejemplos:

El valor esperado cuando tiramos un dado equilibrado de 6 caras es 3,5. Podemos hacer el cálculo      



     ) x ( dx x dx ) x ( x dx ) x ( f * x ) x ( E 4 3 1 3 3 4 2 1 3 2 1 2  25 1 12 15 12 1 12 16 4 1 4 2 3 1 4 4 . ) (       11111 0 9 1 3 1 3 1 3 0 3 1 3 1 3 3 1 3 1 0 3 3 3 1 0 2 . * ) ( ) x ( dx x ) x ( p   



     

(27)

Y cabe destacar que 3,5 no es un valor posible al rodar el dado. En este caso, en el que todos los sucesos son de igual probabilidad, la esperanza es igual a la media aritmética.

Una aplicación común de la esperanza matemática es en las apuestas o los juegos de azar. Por ejemplo, la ruleta americana tiene 38 casillas equiprobables. La ganancia para acertar una apuesta a un solo número paga de 35 a 1 (es decir, cobramos 35 veces lo que hemos apostado y recuperamos la apuesta, así que recibimos 36 veces lo que hemos apostado). Por tanto, considerando los 38 posibles resultados, la esperanza matemática del beneficio para apostar a un solo número es:

Que es -0,0526 aproximadamente. Por lo tanto uno esperaría, en media, perder unos 5 céntimos por cada euro que apuesta, y el valor esperado para apostar 1 euro son 0.9474 euros. En el mundo de las apuestas, un juego donde el beneficio esperado es cero (no ganamos ni perdemos) se llama un "juego justo".

Nota: El primer paréntesis es la "esperanza" de perder tu apuesta de $1, por eso es negativo el valor. El segundo paréntesis es la esperanza matemática de ganar los $35. La esperanza matemática del beneficio es el valor esperado a ganar menos el valor Propiedades.

(28)

Combinando estas propiedades, podemos ver que -

Donde e son variables aleatorias y y dos constantes cualesquiera. Ejemplo:

Partiendo del ejemplo ilustrativo de decisión bajo riesgo, la siguiente tabla muestra el resultado esperado para cada una de las alternativas.

Criterio del valor esperado

Estados de la Naturaleza Alternativas e1 e2 e3 e4 E[R(ai)] a1 11 9 11 8 10.3 8 25 8 11 11.7 a3 8 11 10 11 9.9 Probabilidades 0.2 0.2 0.5 0.1

La alternativa óptima según el criterio del valor esperado sería a2, pues proporciona el máximo de los valores esperados

(29)

PRUEBAS DE LOS SIGNOS

La prueba de los signos puede utilizarse para probar una hipótesis nula referente al valor de la medida de la población. En consecuencia, es el equivalente no paramétrico a la prueba de una hipótesis referente al valor de la medida de la población. Es necesario que los valores de la muestra aleatoria se encuentren al menos en la escala ordinal, aunque no se requiere de supuestos acerca de la forma de la distribución de la población.

Las hipótesis nula y alternativa pueden aludir ya sea a una prueba bilateral o unilateral. Si Med denota la mediana de la población y Med0 designa al valor hipotético, las hipótesis nulas y alternativa para una prueba de dos extremos son:

H0: Med=Med0

H1: Med≠Med0

Se aplica un signo de más a cada valor muestral observado mayor que el valor hipotético de la mediana y un signo de menos a cada valor menor que el valor hipotético de la mediana. Si un valor muestral es exactamente igual a la mediana hipotética, no se le aplica ningún signo, con lo que el tamaño de muestra efectivo se reduce. Si la hipótesis nula sobre el valor de la mediana es cierta, el número de signos de más debería ser aproximadamente igual al número de signos de menos. O, para decirlo de otra manera, la proporción de signos de mas debe ser de alrededor de 0.50. Por consiguiente, la hipótesis nula que se prueba en una prueba bilaterales H0: π=0.50, donde π es la proporción de la población de los signos de mas o de menos. Así, una hipótesis referente al valor de la mediana se prueba en realidad como una hipótesis sobre π. Si la muestra es grande, se puede hacer uso de la distribución normal. Ejemplo:

(30)

Se asigna como n el número de parejas no descartadas y se denota como r el número de veces que se presenta el signo menos frecuente (-/+).

Puede apreciarse que existieron 5 parejas no descartadas, y al ser el signo menos frecuente el positivo, entonces r es cero.

Por lo tanto al comparar r calculado con r tabulado para n= 5 y alfa= 0.10, el r tabulado es cero, para el nivel de significación escogido.

La prueba de los Signos para datos pareados calcula en primer lugar una nueva variable Vardif que es

Igual a la primera variable Var1 menos la segunda variable Var2. Para realizar el contraste:

H0: mediana (Vardif) = mediana0 H1: mediana (Vardif) <> mediana0

Se aplica a esta nueva variable la prueba de los Signos para una muestra, con lo que hay que crear una nueva variable Vardif2 como Vardif menos el valor que se quiera contrastar (en este ejemplo es “cero”).

PRUEBAS DE WILCOXON DE LOS RANGOS CON SIGNOS (PROPIEDADES, EJEMPLOS Y USOS)

Es una prueba no paramétricas, alternativa a la prueba t de Student, que compara la media de dos muestras relacionadas para determinar si existen diferencias entre ellas. La prueba de Wilcoxon se aplica al caso de las distribuciones continuas simétricas. Bajo esta condición, la media es igual a la mediana y el procedimiento puede emplearse en probar la hipótesis nula que U=Uo.

(31)

Esta prueba nos permite comparar nuestros datos con una mediana teórica (por ejemplo un valor publicado en un artículo).

Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros datos, y sea

X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M0, X2-M0, ...,

Xn-M0. Si la hipótesis nula fuera cierta estas diferencias se distribuirían de forma

simétrica en torno a cero.

Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se

ordenan de menor a mayor, asignándoles su rango (número de orden). Si hubiera dos o más diferencias con igual valor (empates), se les asigna el rango medio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la suma de todos los rangos correspondientes a las

diferencias negativas. Si la hipótesis nula es ciertos ambos estadísticos deberán ser parecidos, mientras que si nuestros datos tienen a ser más altos que la mediana M0, se

reflejará en un valor mayor de R+, y al contrario si son más bajos. Se trata de contrastar si la menor de las sumas de rangos es excesivamente pequeña para ser atribuida al azar, o, lo que es equivalente, si la mayor de las dos sumas de rangos es excesivamente grande.

Ejemplos:

Planteamiento

Supongamos que tenemos dos muestras de n pares de observaciones. Sea xi una

observación inicial e yi otra final.

Suposiciones

(32)

1. Cada Zi proviene de una población continua (no tienen por qué ser idénticas) y

simétricas con respecto a una mediana común θ. Método

La hipótesis nula es H0: θ = 0. El estadístico W + es calculado tras ordenar los valores absolutos | Z1 | ,..., | Zn | . El orden de cada | Zi | viene dado por Ri. Representado por

φi = I(Zi > 0) donde I(.) es un indicador de función. El estadístico de la prueba de los

signos de Wilcoxon, W +_{, se define como,}

Se suele usar para comparar las diferencias entre dos muestras de datos tomados antes y después del tratamiento, cuyo valor central se espera que sea cero. Las diferencias iguales a cero son eliminadas y el valor absoluto de las desviaciones con respecto al valor central son ordenadas de menor a mayor. A los datos idénticos se les asigna el lugar medio en la serie. La suma de los rangos se hace por separado para los signos positivos y los negativos. S representa la menor de esas dos sumas. Comparamos S con el valor proporcionado por las tablas estadísticas al efecto para determinar si rechazamos o no la hipótesis nula, según el nivel de significación elegido.

La prueba de Wilcoxon se inicia mediante la transformación de cada instancia de XUn --XB en su valor absoluto, que se logra simplemente mediante la eliminación de todas las señales positivas y negativas. Así, las entradas en la columna 4 de la tabla de abajo se convierten en los de la columna 5. En la mayoría de las aplicaciones del procedimiento de Wilcoxon, los casos en que hay cero diferencia entre XUn yXB son en este momento de considerar, ya que no proporcionan información útil, y las diferencias absolutas restantes se clasifican de menor a mayor, con rangos empatados, cuando procede.

(33)

El resultado de este paso se muestra en la columna 6. Las entradas en la columna 7 se le darán la clave de por qué el procedimiento de Wilcoxon se conoce como la prueba de rango con signo. Aquí puedes ver las mismas entradas que en la columna 6, excepto que ahora hemos re-unidos a cada rango de signo positivo o negativo que fue retirado de la XUn--XB la diferencia en la transición de la columna 4 a la columna 5.

PRUEBAS DE WILCOXON PARA CONSTRASTAR DATOS PAREADOS (PROPIEDADES EJEMPLOS Y USOS)

El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de parejas de valores, por ejemplo antes y después del tratamiento, que podemos denominar (X1, Y1), (X2, Y2),..., (Xn, Yn). De la misma forma, ahora calcularemos las diferencias X1-Y1, X2-Y2,... , Xn-Yn y las ordenaremos en valor absoluto, asignándoles el rango correspondiente. Calculamos R+ la suma de rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-. Ahora la hipótesis nula es que esas diferencias proceden de una distribución simétrica en torno a cero y si fueran ciertos los valores de R+ y R- serán parecidos.

En los datos pareados para cada una de las observaciones de la primera muestra hay una observación en la segunda muestra para el mismo sujeto.

Estudios donde se analiza la misma medida en el mismo individuo en dos instantes diferentes.

Los datos pareados se utilizan para intentar controlar fuentes de variación: si al mismo individuo se le administran dos tratamientos distintos, entonces cierta cantidad de la variabilidad biológica que existe entre individuos es eliminada, y por lo tanto se utilizan para realizar comparaciones más precisas.

(34)

La prueba de los Signos para datos pareados calcula en primer lugar una nueva variable Vardif que es Igual a la primera variable Var1 menos la segunda variable Var2.

Para realizar el contraste:

H0: mediana (Vardif) = mediana0 H1: mediana (Vardif) <> mediana0

Se aplica a esta nueva variable la prueba de los Signos para una muestra, con lo que hay que crear una nueva variable Vardif2 como Vardif menos el valor que se quiera contrastar (en este ejemplo es “cero”).

Ejemplo:

X son los resultados en grupo I, y Y en grupo III. Si X > Y, se asignó +, si X < Y, se asignó - y si X = Y, se descartó la pareja.

Prueba de los Signos al comparar grupo I con grupo III Casos X – Y Resultado 1 2 – 5 - 2 2 – 4 - 3 2 – 4 - 4 3 – 3 Descartada 5 2 – 3 - 6 3 – 3 Descartada 7 3 – 5 -

Escala: 5= Muy bien; 4= Bien; 3= Regular; 2= Suspendido.

Se asigna como n el número de parejas no descartadas y se denota como r el número de veces que se presenta el signo menos frecuente (-/+).

Puede apreciarse que existieron 5 parejas no descartadas, y al ser el signo menos frecuente el positivo, entonces r es cero.

(35)

Por lo tanto al comparar r calculado con r tabulado para n= 5 y alfa= 0.10, el r tabulado es cero, para el nivel de significación escogido.

La hipótesis nula de que los resultados académicos son iguales en los dos grupos de estudiantes antes y después de la aplicación de la hipnosis se rechaza, lo cual implica la reserva del juicio o la aceptación de la hipótesis alternativa, de que los resultados académicos son menores en el grupo de estudiantes sometido a la aplicación de la hipnosis.

PRUEBAS DE MANN-WHITNEY PARA MUESTRAS INDEPENDIENTES (PROPIEDADES Y USOS)

Es una prueba no paramétricas aplicada a dos muestras independientes, cuyos datos han sido medidos al menos en una escala de nivel ordinal.

Esta prueba estadística es útil cuando las mediciones se pueden ordenar en escala ordinal (es decir, cuando los valores tienden a una variable continua, pero no tienen una distribución normal) y resulta aplicable cuando las muestras son independientes. Usos:

Este procedimiento es una buena alternativa cuando no se puede utilizar la prueba t de Student, en razón de no cumplir con los requisitos que esta prueba exige.

La fórmula es la siguiente:

(36)

1. Determinar el tamaño de las muestras (n1 y n2). Si n1 y n2 son menores que 20, se consideran muestras pequeñas, pero si son mayores que 20, se consideran muestras grandes.

2. Arreglar los datos en rangos del menor al mayor valor. En caso de que existan ligas o empates de rangos iguales, se deberán detectar para un ajuste posterior. 3. Calcular los valores de U1 y U2, de modo que se elija el más pequeño para

comparar con los críticos de U Mann-Whitney de la tabla de probabilidades asociadas con valores pequeños como los de U en la prueba de Mann-Whitney. 4. En caso de muestras grandes, calcular el valor Z, pues en estas condiciones se

distribuye normalmente.

5. Decidir si se acepta o rechaza la hipótesis. Ejemplo para muestras pequeñas:

Un experimentador utiliza dos métodos para enseñar a leer a un grupo de 10 niños de 6 años, quienes ingresan por primera vez a la escuela. El experimentador quiere demostrar que el procedimiento ideado por él es más efectivo que el tradicional; para ello, mide el desempeño en la lectura en función de la fluidez, comprensión, análisis y síntesis.

El plan experimental preliminar consiste en elegir al azar tanto una muestra de 10 niños como el método por utilizar. Elección de la prueba estadística. El modelo experimental tiene dos muestras independientes. Las mediciones revelan que no se satisfacen los requisitos para utilizar una media aritmética, en razón de que uno de los valores en cada muestra se aleja demasiado de las demás; por lo tanto, no corresponde a una escala de intervalo, de manera que se decide usar una escala ordinal.

(37)

 Hipótesis alterna (Ha). Las calificaciones de ejecución de lectura, según el método de enseñanza del experimentador son más altas y diferentes que las observadas en el método tradicional.

 Hipótesis nula (Ho). Las diferencias observadas entre las calificaciones de ejecución de lectura mediante los dos métodos se deben al azar. Dos métodos diferentes aplicados en dos grupos de niños.

Aplicación de la prueba estadística. De acuerdo con los paso, las observaciones se deben ordenar en rangos del menor al mayor. Rangos de lectura de la tabla anterior.

Calculamos la U.

De los dos valores de U calculados, se elge el más pequeño (4) y se comparan con los valores críticos de U Mann-Whitney.

En caso de que el valor de U calculado no se localice en las tablas correspondientes, se transformará en la fórmula siguiente:

(38)

En esta fórmula, U' corresponde al valor más alto. Decisión.

A la probabilidad del valor U de Mann-Whitney, calculado anteriormente, corresponde 0.048, el cual es más pequeño que el nivel de significancia; por lo tanto, se acepta Ha y se rechaza Ho.

Interpretación.

Entre las calificaciones de la ejecución de lectura mediante los dos métodos de enseñanza existe una diferencia significativa a un nivel de probabilidad de error menor que 0.05; es decir, aun cuando las muestras son pequeñas, las calificaciones más altas mediante el método diseñado por el experimentador señalan más efectividad, con la probabilidad de equivocarse de 0.048 para aceptarlo.

Ejemplo aplicable cuando la muestra es mayor a 25 y donde n1 y n2 pueden ser iguales o de un tamaño diferente:

El experimentador del ejemplo previo, entusiasmado por las observaciones preliminares, decide aumentar el tamaño de las muestras. En este estudio tiene 10 niños con el método tradicional y 25 mediante el procedimiento ideado por él. Los datos del nuevo estudio se muestran en la tabla más adelante. Elección de la prueba estadística.

Planteamiento de la hipótesis.

 Hipótesis alterna (Ha). Las calificaciones aportadas por el método reciente, ideado por el experimentador, son diferentes y con valores más altos.

 Hipótesis nula (Ho). Las diferencias entre las calificaciones dadas por ambos métodos se deben al azar.

MODELOS NO PARAMETRICOS DE KRUSKAL-WALLIS (PROPIEDADES, EJEMPLOS Y USOS)

(39)

La prueba de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un método no paramétrico para probar si un grupo de datos proviene de la misma población. Intuitivamente, es idéntico al ANOVA con los datos reemplazados por categorías. Es una extensión de la prueba de la U de Mann-Whitney para 3 o más grupos.

Ya que es una prueba no paramétricas, la prueba de Kruskal-Wallis no asume normalidad en los datos, en oposición al tradicional ANOVA. Si asume bajo la hipótesis nula que los datos vienen de la misma distribución. Una forma común en que se viola este supuesto es con datos heterocedásticos.

Uso:

1. Ordenar todos los datos de la muestra de menor a mayor, y asignar al menor un rango de 1, al segundo un 2, y así hasta el n-ésimo. Si existen datos que se repiten, se asigna el rango promedio a cada uno de ellos (si existen cuatro datos idénticos que ocupan los rangos 11, 12, 13 y 14, se les asigna un rango de 12,5 a los cuatro).

2. El estadístico está dado por: , donde:

ng es el número de observaciones en el grupo g

rij es el rango (entre todas las observaciones) de la observación j en el grupo i N es el número total de observaciones entre todos los grupos

,

(40)

Note que el denominador de la expresión para K es exactamente

. Luego .

3. Se puede realizar una corrección para los valores repetidos dividiendo K por

,

4. donde G es el número de grupos de diferentes rangos repetidos, y ti es el número de observaciones repetidas dentro del grupo i que tiene observaciones repetidas para un determinado valor. Esta corrección hace cambiar a K muy poco al menos que existan un gran número de observaciones repetidas.

5. Finalmente, el p-value es aproximado por . Si algún ni es pequeño (< 5) la distribución de K puede ser distinta de la chi-cuadrado.

Ejemplos:

Para la exposición de este contraste, supongamos que tenemos k muestras representadas en una tabla como sigue,

Niveles Observaciones de X

Nivel x11 x12 x1n1

Nivel x21 x22 x2n2

... ...

Nivel xk1 xk2 xknk

(41)

La hipótesis a contrastar es:

El modo de realizar el contraste es el siguiente: .

 Se ordenan las observaciones de menor a mayor, asignando a cada una de ellas su rango (1 para la menor, 2 para la siguiente,..., Npara la mayor).

 Para cada una de las muestras, se calcula Ri, , como la suma de los

rangos de las observaciones que les corresponden. Si H0 es falsa, cabe esperar que esas cantidades sean muy diferentes.

 Se calcula el estadístico:

La regla para decidir si se ha de rechazar o no la hipótesis nula es la siguiente:  Si el número de muestras es k=3 y el número de observaciones en cada una de

ellas no pasa de 5 se rechaza H0 si el valor de Hsupera el valor teórico que encontramos en la tabla de Kruskall-Wallis --tabla número 11.

 En cualquier otro caso, se compara el valor de H con el de la tabla de la

con k-1 grados de libertad. Se rechaza H0 si el valor del estadístico supera el valor

teórico .

(42)

Una corrida se define como un conjunto de números que aparecen ordenados en forma monotonicamente creciente o decreciente: por ejemplo 03, 23, 57, 92, 99 contienen una sola corrida, mientras que 03, 99, 23, 92, 27 contiene (03,99), (223,92), (57) si se utiliza el signo + para identificar que el número que aparece a la derecha de otro es mayor, o - si es menor, se tiene que: 30, 23, 57, 92, 99 +, +, +, +, +, mientras que 03, 99, 23, 92, 57 +, -, +, -

Esta prueba se basa en el supuesto que el número de corridas es una variable aleatoria. Si una secuencia tiene más de 20 números, el número de corridas que es una variable aleatoria distribuida normalmente con media y varianza conocida.

Ejemplo:

En relación con una muestra aleatoria de n = 10 individuos, supongamos que cuando se les clasifica por sexo la secuencia de observaciones es: M, M, M, M, F, F, F, F, M, M. Estos datos contienen tres corridas, o series de elementos semejantes.

Respecto de datos numéricos, un medio para obtener el esquema requerido de dos categorías es clasificar cada observación según si es superior o inferior a la mediana del grupo. En general, mucho menos corridas o mucho más corridas que las que sería de esperar al azar resultarían en el rechazo de la hipótesis nula de que la secuencia de observaciones es una secuencia aleatoria.

El número de corridas de elementos semejantes se determina de acuerdo con los datos muéstrales, con el uso del símbolo R para designar el número de corridas observadas. Si n1 equivale al número de elementos muestreados de un tipo y n2 al número de elementos muestreados del segundo tipo, la media y el error estándar asociados con la distribución de muestreo de la estadística de prueba R cuando la secuencia es aleatoria son

(43)

Sin, n1 > 20 o n2 > 20, la distribución de muestreo de r aproxima la distribución normal. Por lo tanto, en estas circunstancias la estadística R puede convertirse a la estadística de prueba z de la siguiente manera:

Cuando n1  20 y n2  20, en libros de texto especializados en estadística no paramétrica se dispone de tablas de valores críticos de la estadística de prueba R.

PRUEBAS DE U DE MANN-WHITNEY (PROPIEDADES, EJEMPLOS Y USOS)

La prueba U de Mann-Whitney, también llamada de Mann-Whitney-Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney es una prueba no paramétricas aplicada a dos muestras independientes, cuyos datos han sido medidos al menos en una escala de nivel ordinal.

La prueba calcula el llamado estadístico U, cuya distribución para muestras con más de 20 observaciones se aproxima bastante bien a la distribución normal.

El estadístico U viene dado por la siguiente expresión:

Ejemplo:

Dos dependientes, A y B, trabajan en el departamento de niños de una tienda. El gerente de la tienda piensa ampliar su negocio a otros locales desde que leyó un artículo en una revista sobre la creciente popularidad de las tiendas sobre niños. La

(44)

comparación entre las ventas de los 2 dependientes parece ser una buena manera de determinar si uno de ellos puede dirigir la nueva tienda. La hipótesis nula y alternativa son:

13 H0: µ1 - µ2 = 0 14 H1: µ1 - µ2 " 0

15 Si se usa un nivel de significancia de 0,05 , la regla de decisión para esta prueba de hipótesis es: Si el valor Z calculado es menor que -1,96 o mayor que 1,96 se rechaza la hipótesis nula.

16 El gerente registra las ventas semanales de los 2 dependientes para una muestra de varias semanas y quiere saber si ellos pueden considerarse iguales como vendedores. Se usara la prueba U de Mann-Whitney para probar esta hipótesis de que los 2 dependientes son iguales en este sentido, ya que el tamaño de la muestra es pequeño y hay evidencia de que la población de las ventas no es normal. En la siguiente tabla se numeran las ventas de cada dependiente junto con sus rangos.

17 El estadístico U se calcula con la ecuación antes expuesta, en esta ecuación, n1 es igual a 16, n2 igual a 25 y R1 = 241. Este ultimo valor se calculo sumando todos los rangos para el dependiente a , el calculo de U es:

18 n1 (n1 + 1) 16(16+1)

19 U = n1 n2 + --- - R1 = (16)(25)+ --- - 241 = 295 20 2 2

21 TABLA Ventas por rangos para la prueba U de Mann Whitney

DEPENDIENTE A DEPENDIENTE B

VENTAS RANGO VENTAS RANGO

197 1 190 3

(45)

188 4 175 8 185 5 172 10 182 6 167 13 173 9 166 14 169 11 160 17 169 12 157 18

22 TABLA Ventas por Rangos para la prueba U de Mann - Whitney

DEPENDIENTE A DEPENDIENTE B

VENTAS RANGO VENTAS RANGO 164 15 155 19 166 16 150 21 154 20 146 23 149 22 145 24 142 26 143 25 139 28 140 27 137 29 135 30 130 35 135 31 134 32 133 33 131 34 122 36 120 37 118 38 109 39 98 40 95 41

(46)

23 Los parámetros de la distribución muestral normal deben determinarse para ver si el valor U de 295 se puede considerar poco usual. La media y la desviación estándar de la distribución muestral normal se calculan a continuación.

24 n1n2 (16)(25) 25 µu = --- = --- = 200 26 2 2 27 "n1n2 (n1+n2+1) "(16)(25) (16+25+1) 28 u = --- = --- = 37,4 29 "12 "12

30 El valor z del estadístico muestral se calcula: 31 U - µu 295 - 200

32 z = --- = --- = 2,54 33 u 37,4

34 El estadístico muestral (295) esta a los 2,54 desviaciones estándar a la derecha de la media (200) de la curva si la hipótesis nula de poblaciones iguales es cierta. Este es un valor poco probable para esta curva, ya que este valor z cubre 0,4945 del área bajo la curva, dejando solo 0,0055 en la cola superior. Se justifica que el gerente de la tienda rechace la hipótesis nula de que los dos dependientes son iguales en su habilidad para general ventas. El riego de un error tipo I al rechazar es solo 0,011 ( 2 * 0.0055

Uso:

Se usa como alternativa para la prueba t para medias con muestras pequeñas. La prueba U de Mann-Whitney se usa para encontrar si dos muestras independientes proceden de poblaciones simétricas que tienen la misma media o mediana. La prueba se usa cuando no se puede verificar la suposición de 2 poblaciones normales con

(47)

varianzas iguales. Los datos deben estar medidos al menos en una escala ordinal, haciendo que esta prueba sea útil para datos ordinales o categóricos.

El procedimiento da rangos a los datos como si los valores en ambas muestras pertenecieran todos a un solo grupo. El valor más pequeño se asigna al rango 1 , el siguiente valor más pequeño al rango 2 …, sin importar a que muestra pertenece el elemento. Si las medias de dos poblaciones son iguales, los rangos altos y bajos deben tener una distribución bastante pareja en las 2 muestras. Si las medias no son iguales, una muestra tendera a tener rangos más altos o más bajos que la otra. El análisis se concentra en la suma de los rangos de una de las muestras y la compara con la suma que se esperaría si las medias de la población fueran iguales.

Para una muestra combinada de 20 o menos, se usan tablas especiales para probar la hipótesis nula de los dos grupos; estas tablas se encuentran en libros especializados en métodos no parametritos. Si la muestra combinada es mayor que 20, se ha demostrado que la curva normal es una buena aproximación de la distribución muestral. Esta curva normal tiene parámetros que se encuentran en las ecuaciones que se presentaran a continuación. El estadístico U de Mann-Whitney:

N (n1+1)

U = n1 n2 + --- - R1 2

Donde:

U = Estadístico de Mann Whitney

n1 = Numero de elementos en la muestra 1 n2 = Numero de elementos en la muestra 2

(48)

R1 = Suma de rangos en la muestra 1

Si las dos muestras son de diferentes tamaños, la muestra 1 debe respetar la que tiene menor número de observaciones.

Los procedimientos de la curva normal estándar que se emplean para determinar si es razonable si el estadístico U se haya obtenido de una distribución normal con los parámetros específicos. Si así es, la hipótesis nula devenga de esta distribución, la hipótesis nula se rechaza.

CORRELACION (PROPIEDADES, EJEMPLOS Y USOS)

Indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad.

Propiedades del coeficiente de correlación

 El coeficiente de correlación no varía al hacerlo la escala de medición. Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación no varía.

 El signo del coeficiente de correlación es el mismo que el de la covarianza. Si la covarianza es positiva, la correlación es directa.

Si la covarianza es negativa, la correlación es inversa. Si la covarianza es nula, no existe correlación.

(49)

 El coeficiente de correlación lineal es un número real comprendido entre menos −1 y 1.

−1 ≤ r ≤ 1

 Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es f uerte e inversa , y será tanto más fuerte cuanto más se aproxime r a −1.

 Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es f uerte y directa , y será tanto más fuerte cuanto más se aproxime r a 1.

 Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.

 Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependen cia f uncional.

Ejemplos:

Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes: Mate máti cas 2 3 4 4 5 6 6 7 7 8 1 0 1 0 Físic a 1 3 2 4 4 4 6 4 6 7 9 1 0

(50)

xi yi xi ·yi xi2 yi2 2 1 2 4 1 3 3 9 9 9 4 2 8 16 4 4 4 16 16 16 5 4 20 25 16 6 4 24 36 16 6 6 36 36 36 7 4 28 49 16 7 6 42 49 36 8 7 56 64 49 10 9 90 100 81 10 10 100 100 100 72 60 431 504 380 1 º Hallamos las me d i a s a r i t mé t i c a s . 2 º Calculamos la c o v a r i a n z a .

(51)

3 º Calculamos las d e s v i a c i o n e s t í p i c a s .

4 º Aplicamos la fórmula del c o e f i c i e n t e d e c o r r e l a c i ó n l i n e a l

Al ser el c o e f i c i e n t e d e c o r r e l a c i ó n positivo, la correlación es directa. Como c o e f i c i e n t e d e c o r r e l a c i ó n está muy próximo a 1 la correlación es muy fuerte

COEFICIENTES DE CORRELACION DE RANGOS (PROPIEDADES, EJEMPLOS Y USOS)

Este coeficiente es una medida de asociación lineal que utiliza los rangos, números de orden, de cada grupo de sujetos y compara dichos rangos. Existen dos métodos para calcular el coeficiente de correlación de los rangos uno señalado por Spearman y otro por Kendall 8.

Hay varios modos de determinar la magnitud de un coeficiente de correlación. El más sencillo es el coeficiente de correlación por rangos, cuyo símbolo es p, (la letra griega rho).

Ejemplo:

Los datos brutos usados en este ejemplo se ven debajo.

CI Horas de TV a la semana

106 7 86 0

(52)

100 28 100 50 99 28 103 28 97 20 113 12 113 7 110 17

El primer paso es ordenar los datos de la primera columna. Después, se crean dos columnas más. Ambas son para ordenar (establecer un lugar en la lista) de las dos primeras columnas. Después se crea una columna "d" que muestra las diferencias entre las dos columnas de orden. Finalmente, se crea otra columna "d2_{". Esta última} es sólo la columna "d" al cuadrado.

Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente: CI (i) Horas de TV a la semana (t) orden(i) orden(t) d d2 86 0 1 1 0 0

(53)

97 20 2 6 4 16 99 28 3 8 5 25 100 50 4.5 10 5.5 30.25 100 28 4.5 8 3.5 12.25 103 28 6 8 2 4 106 7 7 2.5 4.5 20.25 110 17 8 5 3 9 113 7 9.5 2.5 7 49 113 12 9.5 4 5.5 30.25

Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.

Los valores de la columna d2 pueden ser sumados para averiguar . El valor de n es 10. Así que esos valores pueden ser sustituíos en la fórmula.

(54)

TEST DE COHEN-KAPPA (PROPIEDADES, EJEMPLOS Y USOS)

Kappa de Cohen es una medida de asociación (correlación o fiabilidad) entre dos mediciones de la misma persona, cuando las medidas son categóricas. Kappa es a menudo utilizado para estudiar el acuerdo de dos calificadores, como jueces o médicos. Cada evaluador clasifica cada individuo en una de las categorías K. El test de Kappa estadísticamente significativos indican que debemos rechazar la hipótesis nula de que las puntuaciones son independientes (es decir, kappa = 0) y aceptar la alternativa de que un acuerdo es mejor que lo esperado por el azar.

Cuando hay múltiples estratos, PROC FREQ combina el estrato de estimaciones a nivel de la kappa en una estimación global del valor común de la supuesta kappa. Supongamos que hay capas q, indexado por h = 1,2,..., q, y dejar que

denotan el error estándar al cuadrado de . Entonces, la estimación de la kappa global, de acuerdo con Fleiss (1981), se calcula como

Una estimación de la kappa ponderada global se calcula de manera similar. Ejemplos:

Supongamos que el verdadero valor de kappa es de hecho menos de 0,6. De acuerdo con los criterios establecidos por Landis y Koch (1977) el acuerdo no sería entonces mejor que "moderado".1_{Si usamos nuestros datos para probar esa hipótesis (a nivel} de 5% tradicionales), y es rechazada, entonces tenemos razones de peso para decir que el acuerdo es por lo menos "sustancial".2_{Tenga en cuenta que hay una opinión de} que los valores de kappa de "0,75 o por lo que" puede significar una concordancia

(55)

excelente (Fleiss, 1981, utilizado por Whyte & Findlay, 1985). Para los números típicos de los datos de este valor de kappa es cercana al valor que resulte en el rechazo de la hipótesis de la prueba. Sin embargo, un solo corte-off de valor, como 0,75 no permite la mayor seguridad que tiende a venir con un mayor conjunto de datos, mientras que el procedimiento de pruebas de esta calculadora hace. Para más detalles, véase McBride, G.B. (2005). Uso de Métodos Estadísticos para la Gestión de la Calidad del Agua: temas, problemas y soluciones. Wiley, Nueva York.

Acuerdo de medición de pares de calificadores N

Un Rater Rater B

presente PNP Npa ausente Siesta Naa

NPP = número de presentes / valoraciones presentes Npa = número de presentes o ausentes puntuaciones PNA = número de ausentes / presentes puntuaciones Naa = número de ausentes / valoraciones ausentes da N = CN npa + + NAP + Naa

Kappa máximo posible = 1 (cuando npa = siesta = 0), que significa un acuerdo perfecto.

Kappa mínima posible es de entre 0 y -1 (cuando Naa NPP = = 0), lo que significa que el acuerdo es menos de lo que puede atribuirse a la casualidad. Kappa = 0 significa que el acuerdo es enteramente atribuible a la casualidad.

VALORES DE KAPPA Y LA CALIFICACION DE LA CONCORDANCIA (PROPIEDADES Y USOS)