• No se han encontrado resultados

Estadística General

N/A
N/A
Protected

Academic year: 2022

Share "Estadística General"

Copied!
24
0
0

Texto completo

(1)

1

Estadística General

Clase 14

Análisis de datos categóricos

(2)

Introducción

Muchos estudios resultan en datos que son categóricos o cualitativos antes que cuantitativos y que admiten

más de dos resultados posibles:

•Ganado clasificado según peso (ternero, vaquillona, vaca)

•Muestras de agua clasificadas según su nivel de contaminación (aptas, levemente tóxicas, tóxicas)

•Individuos clasificados según estadio (larva, pupa, imago)

•Votantes clasificados según intención de voto

Estos datos tienen las características de un experimento multinomial

(3)

3

Ejemplo: grupos sanguíneos

La distribución en Buenos Aires de los grupos

sanguíneos es de un 35%, 10%, 6% y un 49% para los grupos A, B, AB y O respectivamente.

Se desea saber si la distribución de los grupos

sanguíneos en la provincia de Formosa difiere de la de Buenos Aires

(4)

El experimento multinomial

El experimento consiste de n ensayos idénticos

El resultado de cada repetición es una de k categorías

La probabilidad de que el resultado sea una determinada categoría i se denomina i y permanece constante de

ensayo en ensayo

La suma de las k probabilidades,  1+ 2+.. + k = 1

Los ensayos son independientes

El experimento binomial es un caso especial del experimento multinomial con k = 2

(5)

5

Pruebas de bondad de ajuste

La más simple de las aplicaciones

Se mide una única variable categórica, por lo

tanto cada elemento de la población se asigna a una y sólo una de varias categorías k

Para cada categoría se posee un valor preconcebido o supuesto o histórico de  i y usamos información muestral para determinar si dichos valores son

correctos

(6)

Para determinar saber si la distribución de los grupos sanguíneos en Formosa difiere de la de Buenos Aires se extrajo una muestra aleatoria de 200 formoseños y se les determinó el grupo sanguíneo.

Los resultados fueron:

En este caso, la población es multinomial: cada

formoseño se clasifica según su grupo sanguíneo en 4 categorías (k= 4)

Grupo A Grupo B Grupo AB Grupo 0

80 25 7 88

frecuencias observadas FO

(7)

7

Dado que se cuenta solo con una muestra y se desea inferir sobre toda la población, la pregunta se resuelve mediante una prueba de hipótesis

Las hipótesis puestas a prueba son:

Ho:

H1:

¿Cómo se resuelve?

Se contrastan frecuencias observadas FOi en la muestra con las frecuencias que se esperaría observar FEi si las preferencias no cambiasen (es decir si Ho fuera verdadera)

¿La distribución difiere?

(8)

Se calculan las frecuencias esperadas:

¿Las diferencias son lo suficientemente grandes como para afirmar que las preferencias en la población han

cambiado? ( = 0.05)

i

i

n

FE  

Grupo A Grupo B Grupo AB Grupo 0 TOTAL

FOi 80 25 7 88 200

π

i 0.35 0.10 0.06 0.49 1

FEi

(9)

9

Estadístico chi-cuadrado

Para cuantificar las diferencias en un único número se utiliza el estadístico

Cuando Ho es verdadera, las diferencias entre FOi y FEi serán pequeñas, pero cuando Ho es falsa, serán grandes

Para determinar si la discrepancia entre FO y FE es lo

suficientemente grande, se utiliza la distribución chi-cuadrado con cierta cantidad de grados de libertad

Sin embrago este estadístico tiene una distribución que se aproxima a la chi-cuadrado

 

i i i

m uestral

FE FE

FO

2

2

(10)

10

Distribución chi-cuadrado (  2 )

Es una distribución asimétrica positiva

Solo toma valores positivos, es decir que 2 0

No se trata de una única curva, sino de infinitas curvas, cada una caracterizada por grados de libertad (GL)

A medida que aumentan los GL la distribución

tiende a hacerse simétrica

En pruebas de bondad de ajuste los GL se calculan como el número de

categorías k -1

0 5 10 15 20

0,00 0,05 0,10 0,15 0,20 0,25

Densidad

GL=3

GL=5

GL=10

(11)

11

En el ejemplo:

Conclusión:

Grupo

A Grupo

B Grupo

AB Grupo

0 TOTAL

FOi 80 25 7 88 200

FEi 70 20 12 98 200

 

78 , 5

FE FE FO

i

2 i 2 i

1 k

0 5 10 15 20

X2

0,00 0,05 0,10 0,15 0,20

función de densidad

(12)

Comentarios

Para que las conclusiones sean válidas:

La muestra debe ser aleatoria y su tamaño n debe ser 50

Las observaciones deben ser independientes

Las FEi deben ser  0. Y se admite solo un 20% de casillas con FEi < 5. Si esto no se cumple, puede solucionarse agrupando categorías.

la Ho indica que existe buen ajuste a un modelo o a ciertas proporciones supuestas:

Ho: el modelo es correcto, hay buen ajuste a las proporciones supuestas

H1: el modelo no es correcto, hay mal ajuste

(13)

13

Otra aplicación:

Tablas de contingencia

El investigador mide dos variables cualitativas, de manera tal que los eventos son clasificados según dos criterios:

Presencia de ataque por roya y variedad de trigo

Personas clasificadas según intención de voto y nivel socioeconómico

Niveles de arsénico en el agua de consumo (bajos, medios, altos) y presencia arsenicismo crónico (HACRE, hidroarsenicismo

crónico regional endémico)

Los datos son resumidos en tablas de doble entrada (o de contingencia), donde en cada cruce se indican las

frecuencias

(14)

Ejemplo: ¿la prevalencia de leptospirosis en población canina depende de los hábitos?

La leptospirosis es una enfermedad infecciosa que afecta a diversos animales. El hombre puede ser huésped accidental. La principal

fuente de contagio son las ratas, aunque se están estudiando otros animales domésticos, como los perros, como vectores.

Se desea identificar el efecto de los hábitos de salida de los perros sobre la prevalencia de leptospirosis

Se eligen al azar 278 perros en hogares de Florencio Varela y se clasifican según:

No sale 1 salida

diaria Más de 1

salida diaria TOTAL

Positivo 12 47 99 158

Negativo 21 35 64 120

TOTAL 33 82 163 278

(15)

15

La tabla de doble entrada

posee F filas y C columnas (FxC)

Se estudia la relación entre las dos variables: ¿es un método de clasificación dependiente del otro?

O dicho de otra manera: ¿la distribución de los casos en las categorías de una variable dependen o cambian según la categoría de la otra variable que está siendo observada? Si la respuesta es no, entonces las

variables son independientes

158 99

47 12

Positivo

163 64 Más de 1 salida diaria

120 35

21 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

158 99

47 12

Positivo

163 64 Más de 1 salida diaria

120 35

21 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

(16)

¿la presencia de leptospirosis en perros en hogares depende de los hábitos de salida?

Las hipótesis puestas a prueba son:

Ho:

H1:

¿Cómo se resuelve?

Se contrastan frecuencias observadas en la muestra con las frecuencias que se esperaría observar si la prevalencia fuese la misma, independientemente de los hábitos de los perros

Prueba de independencia

(17)

17

Se calculan las frecuencias esperadas:

salidas) no

y P(positivo ntes

independie son

sucesos los

Si

salidas) no

P

positivo P

 (

) (

salidas) no

y positivo FE(

frecuencias observadas FO

frecuencias esperadas FE

158 99

47 12

Positivo

163 64

Más de 1 salida diaria

120 35

21 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

158 99

47 12

Positivo

163 64

Más de 1 salida diaria

120 35

21 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

i

i

np

E

158 92,64

46,60 18,76

Positivo

163 70,36 Más de 1 salida diaria

120 35,40

14,24 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

158 92,64

46,60 18,76

Positivo

163 70,36 Más de 1 salida diaria

120 35,40

14,24 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

(18)

Estadístico chi-cuadrado

Para cuantificar las diferencias en un único número se utiliza el mismo estadístico que en el ejemplo anterior

Cuando Ho es verdadera, las diferencias entre Oi y Ei serán pequeñas, pero cuando Ho es falsa, serán grandes

Para determinar si la discrepancia entre O y E es lo

suficientemente grande, se utiliza la distribución chi-cuadrado con GL = (F-1)(C-1)

 

i i i

m uestral

FE FE

FO

2

2

(19)

19

En el ejemplo:

FO FE

 

i

2 i 2 i

) 1 c )(

1 F

(

FE

FE

FO

Conclusión:

0 5 X210 15 20

0,00 0,05 0,10 0,15 0,20

función de densidad

= 6,66

158 99

47 12

Positivo

163 64 Más de 1 salida diaria

120 35

21 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

158 99

47 12

Positivo

163 64 Más de 1 salida diaria

120 35

21 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

158 92,64

46,60 18,76

Positivo

163 70,36 Más de 1 salida diaria

120 35,40

14,24 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

158 92,64

46,60 18,76

Positivo

163 70,36 Más de 1 salida diaria

120 35,40

14,24 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

(20)

En Infostat:

Estadísticas >

Datos categorizados>

Tablas de contingencia

(21)

21

Explorando los resultados

cuando la prueba dio significativa

Se puede estimar la prevalencia general de leptospirosis canina

Se puede estimar la prevalencia según hábitos

(22)

Comentarios

Si existiesen diferencias, podrían explorarse los datos para concluir acerca de la naturaleza de las mismas

Al igual que en el caso anterior, para que las

conclusiones sean válidas existen ciertos supuestos que deben cumplirse:

La muestra debe ser aleatoria y su tamaño n debe ser 50

Las observaciones deben ser independientes

Las FEi deben ser  0. Y se admite solo un 20% de casillas con FEi < 5. Si esto no se cumple, puede solucionarse agrupando categorías.

(23)

23

Otras aplicaciones

En las tablas de doble entrada se observan generalmente dos situaciones:

Que ninguno de los totales está predeterminado

Que uno de los totales esté fijado de antemano

En el primer caso, se trata de una prueba de independencia

Ho: la variable X es independiente de la variable Y

Es posible estimar proporciones usando los marginales

En el segundo, de una prueba de homogeneidad

Ho: las i categorías (totales fijos) son homogéneas con respecto a…

o bien la k proporciones son iguales (1 =  2 = … =  k)

No tiene sentido estimar proporciones con respecto a los marginales, ya que no varían libremente

158 99

47 12

Positivo

163 64 Más de 1 salida diaria

120 35

21 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

158 99

47 12

Positivo

163 64 Más de 1 salida diaria

120 35

21 Negativo

TOTAL 33 82 278

TOTAL 1 salida

diaria No sale

(24)

¿Independencia u homogeneidad?

Para determinar si un método de inseminación

artificial es más efectivo que otro actualmente en uso se inseminaron 50 hembras con cada método y se

determinó la cantidad de hembras preñadas en cada grupo

Ho:

En una encuesta preelectoral, se tomó una muestra de 500 individuos que fueron clasificados según su intención de voto y su nivel educativo

Ho:

Referencias

Documento similar

You may wish to take a note of your Organisation ID, which, in addition to the organisation name, can be used to search for an organisation you will need to affiliate with when you

Where possible, the EU IG and more specifically the data fields and associated business rules present in Chapter 2 –Data elements for the electronic submission of information

The 'On-boarding of users to Substance, Product, Organisation and Referentials (SPOR) data services' document must be considered the reference guidance, as this document includes the

In medicinal products containing more than one manufactured item (e.g., contraceptive having different strengths and fixed dose combination as part of the same medicinal

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)

Package Item (Container) Type : Vial (100000073563) Quantity Operator: equal to (100000000049) Package Item (Container) Quantity : 1 Material : Glass type I (200000003204)