• No se han encontrado resultados

09- Pruebas de Frecuencia

N/A
N/A
Protected

Academic year: 2020

Share "09- Pruebas de Frecuencia"

Copied!
6
0
0

Texto completo

(1)Facultad de Ciencias Naturales, UNSa Área de Estadística Material de apoyo didáctico elaborado por Silvia Sühring. ANÁLISIS DE DATOS CATEGÓRICOS. Muchas veces los datos referidos a una variable de interés pueden asignarse a diferentes categorías o clases definidas para esa variable y, entonces, se puede construir una distribución de frecuencias. Esta distribución de frecuencias absolutas para Los datos de una muestra ocurre en varias casillas de una tabla de clasificación que puede ser simple o múltiple. A partir de los conocimientos referidos al proceso natural estudiado podemos anticipar cómo esperaríamos que fuera esa distribución. Así, el interés del investigador estaría enfocado en probar si la distribución de frecuencias observadas se ajusta o no a una distribución de frecuencias esperada. Las pruebas de hipótesis que nos permiten decidir si la distribución propuesta en la hipótesis nula es válida con base en los datos registrados se denominan pruebas para frecuencias, también llamadas pruebas de chi cuadrado. Estas pruebas se incluyen entre las denominadas pruebas no paramétricas, ya que las hipótesis nulas planteadas no se refieren a un parámetro. En general, el procedimiento es: 1. Se formulan las hipótesis. La hipótesis nula determina cual es la distribución de frecuencias de las categorías de la variable en función de una determinada teoría. 2. Se establece el nivel de significación. 3. Se establece el estadístico de prueba, en todos los casos será:. (oi − ei ) 2 χ =∑ ≈ χ δ2 ei i =1 k. 2. donde k es el número de categorías. Los grados de libertad (δ) para las diferentes pruebas para frecuencia que son: • test de bondad de ajuste a proporciones teóricas δ = (k -1) • test de independencia δ = (c -1).(f - 1) • test de homogeneidad δ = (c -1).(f - 1) Donde c: nº de columnas y f: nº de filas de la tabla de contingencia 4. Se establece el criterio de decisión: En todos los casos se plantea una prueba de cola derecha, ya que sólo es lógico rechazar la Ho cuando los valores de frecuencia absoluta observada se desvíen mucho de lo esperado según el planteo de la Ho. En ese caso el valor de X2c será grande y se ubicará en el extremo derecho de la distribución. Entonces el criterio de decisión será. 0.24. Chi cuadrado(3): p(evento)=0.0500. 0.18. Rechazo la Ho si y sólo si. X2c >. X. 2. α. 0.12 0.06 0.00 0.00. Pruebas para frecuencias - 2017. 2.50. 5.00. 7.50. 10.00. 12.50. 15.00. 1.

(2) 5. Se realizan los cálculos del estadístico de prueba. Primero se establecen las frecuencias observadas (oi) de cada categoría, con base en los datos de una muestra o de los resultados de un experimento. Por otro lado se calculan las frecuencias esperadas (ei) bajo el supuesto de que la Ho es verdadera. ei = pi x n ei : frecuencia esperada de la i – ésima categoría pi : probabilidad de ocurrencia esperada para la i-ésima categoría n : tamaño de la muestra Luego se calcula el estadístico de prueba. 6. Decisión. y. 7. Conclusión.. Consideraciones para la aplicación del estadístico 1) Las frecuencias esperadas y observadas de cada categoría deben ser absolutas. Nunca se debe trabajar con frecuencias relativas ni con frecuencias acumuladas. 2) La suma de frecuencias esperadas calculadas según la Ho, debe ser igual a la suma de frecuencias observadas, es decir al tamaño de la muestra (n). ∑ oi = ∑ ei = n 3) Para lograr que la prueba sea robusta, la frecuencia esperada para cada categoría deben ser mayor o igual a 5 (ei ≥ 5). Cuando esto no se cumple en una determinada categoría, se debe agrupar esa categoría con alguna categoría adyacente. Como consecuencia, se generan dos problemas: por un lado, se pierden grados de libertad al quedar menos categorías; por otro, se pierde la información que brindaría cada categoría por separado. Para evitar que se presente esta situación hay que aumentar el tamaño de la muestra. 4) Si δ = 1, y especialmente si además la muestra es < 50, conviene aplicar un factor de corrección por continuidad (Corrección de Yates), al calcular el estadístico de prueba:. χ = 2. k. o i − e i − 0.5. i =1. ei. ∑. 2. Cuando oi - ei  < 0.5, el término [oi - ei - 0.5] será negativo, entonces se toma = 0 Esta corrección tiene el efecto de hacer más pequeño el valor de X2, por lo tanto la Ho no se rechaza con tanta frecuencia. Esto implica un menor riesgo de cometer un error de tipo I.. Prueba de bondad de ajuste a proporciones teóricas Propósito: probar si la distribución de frecuencias de una muestra se ajusta a una proporción teórica definida. Datos: corresponden a los registros de una variable categórica que se presenta en dos o más modalidades, a partir de los cuales se construye una tabla simple. Ejemplo En un experimento genético sobre un cruce entre dos variedades de poroto (Phaseolus vulgaris), se obtuvieron los siguientes resultados: 93 porotos pardos; 28 rojos; 33 Pruebas para frecuencias - 2017. 2.

(3) morados y 12 blancos. Se esperaba que la descendencia siguiera la proporción 9:3:3:1 respectivamente para esos colores de semilla. ¿Puede afirmarse con un 95% de confianza que la proporción obtenida concuerda con la esperada? Solución 1) Ho: La descendencia sigue la proporción teórica 9P:3R:3M:1B H1: La descendencia no sigue esa proporción teórica 2) P (eΙ) = α = 0.05 3) Estadístico de prueba:. (oi − ei ) 2 χ =∑ ≈ χ δ2 ei i =1 k. 2. 4) Criterios de decisión: Rechazo la Ho si y solo si el X2c > X2(k-1); 0,05 (k– 1) = 4 – 1 = 3 VC = X23; 0,05 = 7,81. Chi cuadrado(3): p(evento)=0.0500. 0.24 0.18 0.12 0.06 0.00 0.00. 2.50. 5.00. 7.50. 10.00. 12.50. 15.00. 5) Cálculos De la proporción teórica se deducen los valores de pi. En la Ho decimos que se esperaba que la descendencia siguiera la proporción 9:3:3:1, es decir, en un total de 16 porotos se espera que 9 sean de color pardo, 3 sean de color rojo, 3 de color morado y 1 de color blanco. Así se deduce que la probabilidad de ser pardo es 9/16, la probabilidad de ser rojo es 3/16 y de la misma manera el resto de las proporciones. Categoría Pardos Rojos Morados Blancos Total. oi. pi. ei = pi x n. (oi - ei)2/ei. 93 28 33 12 166 (n). 9 / 16 = 0,5625 3 / 16 = 0,1875 3 / 16 = 0,1875 1 / 16 = 0,0625 1. 0.5625x166 = 93,375 0.1875x166 = 31,125 0.1875x166 = 31,125 0.0625x166 = 10,375 166. 0,0015 0,3138 0,1130 0,2545 0,6827 (X2c). X2c = 0,6827. Debe ser = 1. Debe ser = n. 4) Decisión: Como X2c es menor que 7,81, no existen evidencias suficientes para rechazar Ho ⇒ La descendencia sigue la proporción teórica propuesta.. Prueba de independencia Propósito: probar si dos variables categóricas son independientes entre sí. Los datos se obtienen al registrar los valores de dos variables cualitativas en una única muestra seleccionada al azar. Esos datos se agrupan en una tabla de contingencia, de la cual el investigador sólo conoce de antemano el total general (n).. Pruebas para frecuencias - 2017. 3.

(4) Ejemplo Un investigador está interesado en probar que el estado fitosanitario de los cedros está relacionado con el tamaño de su tronco (expresado mediante el diámtero). Tomó una muestra de 100 árboles y registró ambas variables. El diámetro se categorizó (menor o mayor a 40 cm). La información se resume en la tabla. ¿Qué conclusión puede extraer? Diámetro / Estado Mayor a 40 cm Menor a 40 cm total. bueno 12 16. malo 22 50 28. 72. Total 34 66 100. Solución Como los datos provienen de una única muestra de árboles, y para cada árbol se registraron las dos variables: estado fitosanitario (bueno o malo) y tamaño (mayor o menor de 40 cm de diámetro), corresponde realizar una prueba de independencia. 1) Ho: El estado fitosanitario es independiente del tamaño del árbol H1: El estado fitosanitario depende del tamaño del árbol 2) P (eΙ) = α = 0,05 3) Estadístico de prueba:. (oi − ei ) 2 χ =∑ ≈ χ δ2 ei i =1 k. 2. 0.24 0.18 0.12. 4) Criterios de decisión: Rechazo la Ho si y solo si el X2c > X2(c-1).(f-1); 0,05 0.06 0.00 VC = X21; 0,05 = 3.84 0.00 2.50 5.00 7.50 10.00 12.50 15.00 5) Cálculos Para cada combinación de categorías se calcula la frecuencia esperada (indicada entre paréntesis en cada celda de la tabla) usando la fórmula: ei = Total de fila x Total de columna / Gran Total = TF x TC / GT TF: total de la fila a la que corresponde esa frecuencia esperada TC: total de la columna a la que corresponde esa frecuencia esperada GT: gran total o total general de la tabla, es decir, n. Ejemplo: para la celda que corresponde a estado bueno y diámetro mayor a 40 cm: ei = 34 x 28/100 = 9,52 Las frecuencias esperadas se presentan entre paréntesis en cada celda de la tabla: Diámetro / Estado Mayor a 40 cm Menor a 40 cm. bueno 12 (9,52) 16 (18,48). malo 22 (24,48) 50 (47,52). X2c = (12 – 9,52)2 / 9,52 + (22 – 24,48)2 / 24,48 + (16 – 18,48)2 / 18,48 + (50 – 47,52)2 / 47,52 = = 0,646 + 0,251 + 0,333 + 0,129 = 1,359 6) Decisión: Como X2c es menor que 3,.84, no existen evidencias suficientes para rechazar Ho. 7) Conclusión: El estado fitosanitario es independiente del tamaño del árbol. Pruebas para frecuencias - 2017. 4.

(5) Prueba de homogeneidad Propósito: probar si dos o más muestras son homogéneas con respecto a la distribución de una variable categórica. Los datos se obtienen de registrar los valores de una variable cualitativa en cada individuo seleccionado para cada una de las t muestras. Se dispone de dos o más muestras independientes con tamaños n1, n2, n3,…, nt. tomadas al azar. Esos datos se agrupan en una tabla de contingencia, de la cual el investigador conoce de antemano los totales marginales (correspondientes a n1, n2, n3,…, nt) y el total general (n). Ejemplo Se deseaba evaluar si la distribución por sexo de mojarras es la misma en distintos sectores de un río. Para ello se tomó una muestra al azar de 100 peces en cada sector y se determinó el sexo de cada individuo. Los datos se resumieron en la tabla presentada más abajo. ¿Puede afirmar que la proporción de machos es la misma en todos los sectores? Sectores Machos Hembras total. A 32 68 100. B 59 41 100. C 92 8 100. total 183 117 300. Solución Los datos corresponden a tres muestras independientes (una para cada sector del río), de 100 peces cada una. Para cada individuo se registró una sola variable, el sexo. Por esta razón aplicamos la prueba de homogeneidad, que nos dirá si las muestras (sectores) son homogéneas en cuanto a la distribución de la variable (sexo). El investigador conoce de antemano los totales marginales de columnas (n1= n2 = n3 = 100) y el total general (n = 300). 1) Ho: Los sectores del río son homogéneos en cuanto a la distribución de sexos de las mojarras. Esto implica que los tres sectores son iguales en cuanto a la proporción de machos. H1: los sectores del río no son homogéneos. Es decir que la proporción de machos no es la misma en los diferentes sectores del río. 2) P (eΙ) = α = 0.05 3) Estadístico de prueba:. (oi − ei ) 2 χ =∑ ≈ χ δ2 ei i =1 k. 2. 0.24. 4) Criterios de decisión: Rechazo la Ho si y solo si el X2c > X2(c-1).(f-1); 0,05 X22; 0,05 = 5,99. 0.18 0.12 0.06 0.00 0.00. 2.50. 5.00. 7.50. 10.00. 12.50. 15.00. 5) Cálculos Para cada categoría se calcula la frecuencia esperada con la fórmula: ei = Total de fila x Total de columna / Gran Total = TF x TC / GT Pruebas para frecuencias - 2017. 5.

(6) Ejemplo: para la celda que corresponde a sector A y macho: ei = 183 x 100 / 300 = 61 Sectores A Macho 32 (61) Hembra 68 (39). B 59 (61) 41(39). C 92 (61) 8 (39). X2c = (32 - 61)2 / 61+ (59 - 61)2 / 61 + (92 - 61)2 / 61 + (68 - 39)2 / 39 + (41 -39)2 / 39 + + (8 - 39)2 / 39 = = 13.79 + 0.07 + 15.75 + 21.56 + 0.10 + 24.64 = = 75,91 6) Decisión: Como X2c es mayor que 5,99, rechazo Ho ⇒ Los sectores no son homogéneos respecto de la distribución de sexos ⇒ algún sector del río tiene una proporción de machos diferente.. Pruebas para frecuencias - 2017. 6.

(7)

Referencias

Documento similar

Así como cuando en una función de una variable determinamos el máximo volumen de una caja abierta o el mínimo de material a utilizar en un envase de hojalata para una.. soda

Debido al riesgo de producir malformaciones congénitas graves, en la Unión Europea se han establecido una serie de requisitos para su prescripción y dispensación con un Plan

Como medida de precaución, puesto que talidomida se encuentra en el semen, todos los pacientes varones deben usar preservativos durante el tratamiento, durante la interrupción

Abstract: This paper reviews the dialogue and controversies between the paratexts of a corpus of collections of short novels –and romances– publi- shed from 1624 to 1637:

Después de una descripción muy rápida de la optimización así como los problemas en los sistemas de fabricación, se presenta la integración de dos herramientas existentes

16 de octubre de 1981, sobre una carta comunitaria de las lenguas y culturas regionales y sobre una carta de los derechos de las minorías étnicas (14); 11 de febrero de 1983, sobre

[r]

Luis Miguel Utrera Navarrete ha presentado la relación de Bienes y Actividades siguientes para la legislatura de 2015-2019, según constan inscritos en el