• No se han encontrado resultados

estadistico pdf muestreo

N/A
N/A
Protected

Academic year: 2020

Share "estadistico pdf muestreo"

Copied!
8
0
0

Texto completo

(1)

Muestreo Estadístico

En esta tema sentaremos las bases del muestreo estadístico y estudiaremos las distribuciones de algunos estadísticos a partir de una muestra.

6.1.

Conceptos básicos

Aunque en el capítulo de Estadística Descriptiva ya vimos algunos de los conceptos básicos sobre muestras, no está de más que los repitamos y ampliemos a continuación:

Población: Conjunto de individuos con una característica observable común. Muestra: Subconjunto de la población del que se espera que la represente.

El objetivo de laestadística inferencial es obtener información sobre el conjunto de la población a partir de un subconjunto representativo de ella llamado muestra.

En la práctica lo más común es conocer sólo una parte de la población y lo que queremos es averiguar por ejemplo qué esperanza o qué varianza o . . . tiene determinada población.

Inferir información de una muestra es contestar preguntas sobre el total de la población a partir del estudio de una muestra representativa de la misma.

Pasos en un estudio con muestreo

a) ¿Qué información se necesita?

b) ¿Cuál es la información relevante? ¿Se dispone de acceso a todos los individuos de la población? c) ¿Cómo seleccionamos los individuos de la muestra?

d) ¿Qué método emplearemos para obtener la información de los individuos de la muestra? e) ¿Qué herramientas utilizaremos para hacer inferencias?

f) ¿Qué conclusiones podemos obtener?

g) Si las conclusiones son fiables y suficientes redactar informe, en caso contrario ir a (a).

6.1.1.

Tipos de muestreo

Muestreo Aleatorio Simple (es el que estudiaremos en este tema)

Muestro Estratificado (por sexos, edades, nivel estudios,. . . variables de perfil) Muestreo por Conglomerados (por ejemplo por provincias, barrios,. . . )

Muestreo Polietápico. Muestreo no probabilístico. Y otros . . .

(2)

Muestreo aleatorio simple

Queremos seleccionar una muestra de tamaño n (es decir formada por n individuos) de una población de tamaño N. Obtendremos una muestra aleatoria simple (m.a.s.) cuando todas las muestras posibles de n

individuos tengan la misma probabilidad de ser elegidas.

El tener una m.a.s de una población junto con un tamaño muestral adecuado nos asegurará la representati-vidad suficiente de la muestra.

Observaciones

El proceso mismo del muestreo aleatorio simple es complejo.

Una forma sencilla es numerar, si es posible a todos los individuos de la población y sortearlos eligiendo números como si se tratase de una lotería (por ejemplo con una tabla de números aleatorios1

o con un generador de números aleatorios).

En ocasiones esto es impracticable o muy caro:

a) Población mundial de seres humanos.

b) Población de llamadas a una centralita telefónica.

c) Población de votantes en las próximas elecciones locales y autonómicas.

En algunos de estos casos será luego impracticable localizar a los individuos seleccionados y convencerlos de que respondan, muchos no querrán.

6.2.

Inferencias

Nuestro interés es estudiar la distribución de probabilidad de la muestra o de alguna función de la muestra y de esta inferir resultados de la distribución de probabilidad de la población.

Estadísticos y distribuciones muestrales

Tenemos una m.a.s. de una población y deseamos obtener información sobre la media o la varianza pobla-cionales. Estas inferencias las basaremos en un estadístico, que estudiaremos en más profundidad en los temas siguientes y que no es más que una función que depende de la muestra. p e: media aritmética, proporción muestral. . .

6.2.1.

Distribución muestral de un estadístico

Ladistribución muestral o distribución en el muestreode un estadístico es la distribución de probabilidad de los valores que puede tomar el estadístico en todas las posibles muestras, es decir la distribución de la variable aleatoria que define el estadístico.

Ejemplo 107 Supongamos que queremos estimar cuál es número medio de discos de ordenador defectuosos en las cajas de 10 discos de una determinada marca. Para ello tomamos una m.a.s de cuatro cajasX1,X2X3, X4 y obtenemos los siguientes resultados:

primera caja : 1 defectuoso segunda caja : 2 defectuosos tercera caja : 0 defectuoso cuarta caja : 1 defectuosos

Definimos el estadístico media aritmética como:

X =T(X1, X2, X3, X4) =X1+X2+X3+X4

4

En este casoX = 1.

Supongamos que tomamos repetidas muestras de tamaño 4 y los resultados son:

1

(3)

M. M. M. M. M. M. M. M. M. M.

1 2 3 4 5 6 7 8 9 10

0 1 3 0 0 1 0 0 0 1

1 1 1 0 1 1 1 0 0 2

0 1 2 1 0 0 1 2 0 1

1 1 2 2 1 3 0 0 1 1

M. M. M. M. M. M. M. M. M. M.

11 12 13 14 15 16 17 18 19 20

0 0 1 2 0 2 1 2 1 1

1 0 1 0 1 1 2 0 0 1

1 0 2 0 1 1 0 1 1 0

3 3 1 0 0 2 1 0 1 1

Las medias aritméticas de cada muestra son:

0.50 1.00 2.00 0.75 0.50 1.25 0.50 0.50 0.25 1.25 1.25 0.75 1.25 0.50 0.50 1.50 1.00 0.75 0.75 0.75

Entonces:

PX(0.25)) =P(X = 0.25) = 1

20 = 0.05

PX(0.50)) =P(X = 0.50) = 6

20 = 0.30

PX(0.75)) =P(X = 0.75) = 5

20 = 0.25

PX(1)) =P(X = 1) = 2 2= 0.10

PX(1.25)) =P(X = 1.25) = 4

20 = 0.20

PX(1.50)) =P(X = 1.5) = 1

20 = 0.05

PX(2)) =P(X = 2) = 1

20 = 0.05

Esta sería una aproximación a la distribución muestral del estadístico X a partir de los datos de varias muestras.

6.2.2.

Distribución en el muestreo de la media muestral

La distribcuión del estadístico puede seguir un modelo preestablecido si se cumplen varias condiciones. Por ejemplo, supongamos que hemos tomado una m.a.s. de n observaciones de una v.a. X en una población de mediaµX y desviación típicaσX.

Representemos porX1, X2, . . . , Xn los elementos de nobservaciones independientes que forman una m.a.s.

de ésta población. Cada una de las observaciones de la población son así mismo v.a. con la misma esperanza y varianza que la población.

Llamaremosmedia aritméticade la muestra (media muestral)X1, . . . , Xn a

X =

Pn i=1Xi

n Observaciones:Notemos que:

a) E(X) = 1

nE(X1+X2+· · ·+Xn) =

1

n(µX+µX+· · ·+µX) =µX

(4)

Pero que el valor esperado seaµX no quiere decir que X sea exactamenteµX. Estudiemos la varianza de

X. ComoX1, . . . , Xn son independientes tenemos que:

a) V ar(X) = 1

n2V ar(X1+X2+· · ·+Xn) =n12(V ar(X1) +V ar(X2) +· · ·+V ar(Xn)) = n12nσX2 =nX2

b) Luego sines suficientemente grande ( o cuandon→ ∞) la varianza tenderá a estar muy próxima a cero.

Ejemplo 108 No siempre tendremos independencia entreX1, . . . , Xn. Por ejemplo supongamos que queremos

averiguar cuántos votos afirmativos hay en una urna con10votos. Tenemos dos opciones para realizar la m.a.s.:

a) Tomar un voto al azar anotar su resultado y devolverlo a la urna, repetir el proceso3veces más. (muestreo con reemplazamiento).

b) Tomar sucesivamente4votos de la urna sin reemplazarlos. (muestreo sin reemplazamiento).

En ambos casos la muestra obtenida es una m.a.s. pues todos los subconjuntos de individuos tienen igual probabilidad de ser elegidos.

Pero en el primer caso tenemos independencia entre cada una de las observaciones mientras que en el segundo esto no es así.

En la práctica se elige siempre el muestreo consistente en observar n individuos distintos. Sines pequeño con respecto aN podemos suponer que las variables son prácticamente independientes. Si no, tenemos que corregir la varianza multiplicándola por lo que se llamafactor de población finita y tendremos que

σ2X=V ar(X) = 1 nσ

2

X

N−n N1

Que recuerda la varianza de una Hipergeométrica.

Frecuentemente utilizaremos la expresión tipificada de la media muestral:

Z =X−µX

σX =

XµX σX √

n

Además si aplicamos el T.L.C. para tamaños muestrales grandes la distribución deZes una normal estándar. Resultado importantísimo puessea cual sea la distribución de X la distribución de X será conocida sin es suficientemente grande.

Distribución muestral de X

Sea X la v.a. de interés de una cierta población con E(X) = µX y V ar(X) = σ2X y sea X1, . . . , Xn una

muestra aleatoria simple de dicha población:

a) µX =E(X) =µX

b) σ2

X =

1

2

X y la desviación típica deX esσX = σX

n que también recibe el nombre de error estándar de X.

c) En el caso en que el tamaño muestral n no sea pequeño en relación al tamaño de la población entonces tenemos que aplicar el factor de corrección de población finita en el cálculo del error estándar deX:

σX2 = 1 nσ

2

X

N−n N1

y el error estándar seráσX =σX

n

q

N−n N−1

d) Si la distribución de la población (X) es normal entonces la variable aleatoria:

Z=X−σXµX

n

(5)

e) Si la distribución de la población no es normal pero el tamaño muestral es suficientemente grande entones por el T.L.C. la distribución deZtambién se aproxima a una normal estándar y por lo tantoX se aproxima a una normal con mediaµX y desviación típicaσX

Ejemplo 109 El precio medio por m2 de venta de casas nuevas durante el último año en una determinada ciudad fue de 115000 pts. La desviación típica de la población fue de 25000 pts. Se toma una muestra aleatoria de 100 casas nuevas de esta ciudad.

a) ¿Cuál es la probabilidad de que la media muestral de los precios de venta sea menor que 110000 pts?

b) ¿Cuál es la probabilidad de que la media muestral de los precios de venta esté entre 113000 pts y 117000 pts?

c) ¿Cuál es la probabilidad de que la media muestral de los precios de venta esté entre 114000 pts y 116000 pts?

d) Sin hacer cálculos, razonar en cuál de los siguientes rangos resulta más probable que se encuentre la media muestral de los precios de venta:

113000 pts.- 115000 pts. 114000 pts.- 116000 pts. 115000 pts.- 117000 pts. 116000 pts.- 118000 pts.

Supongamos que el número de casas de la ciudad sea muy grande en relación al tamaño muestraln= 100. Entones siX es la v.a. precio de una casa de la ciudad el enunciado nos dice queµX =E(X) = 115000. yσX=

25000. Tomamos una m.a.s.X1, . . . , X100de precios entonces FµX=µX = 115000yσX= σX

n = 25000

100 = 2500 AdemásZ= X−µX

σX

n =

X−115000

2500 sigue aproximadamente una distribución normal estándar.

Solución:

a)P(X 110000) =

P(Z 1100002500−115000) =P(Z ≤ −2) =FZ(−2) = 1−FZ(2) = 1−0.9772 = 0.0228

b)P(113000≤X ≤117000) = P(1130002500−115000 ≤Z ≤117000−115000

2500 ) =FZ(0.8)−FZ(−0.8) = 2FZ(0.8)−1 = 2(0.7881)−1 = 0.5762 c)P(114000X 116000) =

P(114000−115000 2500 ≤Z ≤

116000−115000

2500 ) =FZ(0.4)−FZ(−0.4) = 2FZ(0.8)−1 = 2(0.6554)−1 = 0.3108

d) La media aritmética de los preciosX sigue aproximadamente una distribución normal entonces gráfi-camente el intervalo de mayor probabilidad será el que mayor área cubra bajo la curva normal (centrada en 115000) y ese intervalo es 116000 pts.-118000 pts.

6.2.3.

Distribución en el muestro de una proporción muestral

La proporción muestral de un evento en una población vendrá generalmente asociada a una variable binomial (si la población es pequeña será Hipergeométrica).

Por ejemplo si tomamos una muestra de tamañon, determinar el porcentaje de votos que recibirá el Partido P.X. en las próximas elecciones es lo mismo que determinar el parámetropdeX=Pni Xinúmero de votantes

de P.X. en la muestra de tamañon, que esB(n, p)y donde cadaXi es unaBer(p)independiente de forma que

Xi= 1si el iésimo individuo y cero en caso contrario, así que la proporción muetral es la media aritmética de

observacionesBer(p).

¿Será realmente binomial? notemos que en la muestra no preguntaremos dos veces al mismo individuo, luego las observaciones no son exactamente independientes, pero si el tamaño de la población es grande respecto a la muestra podemos considerarlas así, ya que la probabilidad de repuesta afirmativa no cambia (es despreciable el cambio).

Definición 110 SeaX el número de éxitos en una muestra binomial denobservaciones, con probabilidad de éxito p. Entonces la proporción de éxitos en la muestra es:

ˆ

(6)

Distribución en el muestreo de pˆX

SeapˆX la proporción de éxitos en una muestra aleatoria denobservaciones. Entonces:

a) E(ˆpX) =E(Xn) = E(nX) = npn =p

b) La distribución muestral de pˆX tiene varianzaσp2ˆX =V ar(

X n) =

V ar(X)

n2 =

np(1−p)

n2 =

p(1−p)

n y por lo tanto

su desviación típica esσpˆX =

q

p(1−p)

n

que recibe también el nombre de error estándar de la proporción muestral

c) Si n es pequeño en relación al tamaño de la población N tenemos que aplicar el factor de corrección de población finita y entonces el error estándar depˆX es

σpˆX =

q

p(1−p)

p

q

N−n N−1

d) Si el tamaño muestral es grande (por ejemplo n >30o mejor n >40) entonces

Z= pˆX−p

σpXˆ

se distribuye aproximadamente como una normal estándar o lo que es lo mismopˆX se distribuye

aproxima-damente como una normal con esperanzapX y varianzaσpˆX.

e) Cuando no se verifiquen las condiciones de aproximación utilizaremos la distribucióntde Student que veremos el el siguiente tema.

ObservaciónNotemos que si ncrece el error estándar disminuye y entonces pˆestará más cerca del valor realp.

Ejemplo 111 El dueño de una tienda de discos ha comprobado que el 20 % de los clientes que entran en su tienda realizan una compra. Cierta mañana entraron en esa tienda 180 personas, que pueden ser consideradas como una muestra aleatoria de todos sus clientes.

a) ¿Cuál será la media de la proporción muestral de clientes que realizaron alguna compra?

b) ¿Cuál es la varianza de la proporción muestral?

c) ¿Cuál es el error estándar de la proporción muestral?

d) ¿Cuál es la probabilidad de que la proporción muestral sea mayor que 0.15?

Solución:El tamaño de la muestra es pequeño en relación al número total de clientes. Tenemos quep= 0.2

(probabilidad de éxito en la venta). Sea X= número de clientes que compran entre los 180, entonces:

a) pˆX =p= 0.2

b) σp2ˆX =

p(1−p)

n =

0.2(1−0.2)

180 = 0.0009

c) σpˆX =

q

p(1−p)

n =

0.0009 = 0.03

d) Como n es grande entoncesZ =pˆσX−ˆ p

pX = ˆ

pX−0.2

0.03 sigue aproximadamente una distribución normal estándar, entonces:

P(ˆpX>0.15) = 1−P(ˆpX ≤0.15) = 1−P(Z≤ 0.150.030.2) = 1−FZ(−1.67) =FZ(1.6) = 0.9452

6.2.4.

Distribución muestral de la varianza muestral

Definición 112 SeaX1, . . . , Xn una m.a.s. de una población (X) conE(X) =µX y V ar(X) =σX2.

Llamare-mos varianza muestrala :

˜ S2

X=

Pn

i=1(Xi−X) 2

n−1

˜ SX= +

p

S2

X recibe el nombre de desviación típica muestral.

Denotaremos porS2

(7)

Proposición 113 1. S2

X=

Pn

i=1(Xi−X) 2

n =

Pn i=1X

2

i

n −X

2 2. E(S2

X) =n−n1σ

2

X

3. S˜2

X= n−n1

Pn i=1X

2

i

n −X

2 4. E( ˜S2

X) =σX2

Demostración: Se deja como ejercicio (recomendado).

6.2.5.

Distribución en el muestreo de

S

˜

2 X

Con las notaciones anteriores tenemos que:

a) E( ˜S2

X) =σX2

b) Si la distribución de la población es normal entonces la variable (n−1) ˜S2

X

σ2

X se distribuye según una leyχ 2

n−1

9.4.2. La distribuciónχ2

n (chi-cuadrado con n g.l.)

SiX1, X2, . . . , Xn son n v.a. independientes yXi≡N(0,1)entonces:

X =X12+X22+. . .+Xn2

es una v.a. que diremos que se distribuye chi-cuadrado con n grados de libertad y lo notaremos porχ2n

La función de densidad de unaχ2n es :

f(x) = 1 2n/2Γ(n/2)x

(n/2)−1e−x/2

conx0yΓ(n/2) =R0+∞u(n/2)−1e−udu la llamada función gamma.

Gráfica de la función de densidad de una χ2

Su función de distribución se puede calcular pero por nuestra comodidad está tabulada.

Ejemplo 114 Las rentabilidades mensuales de cierto tipo de acciones son independientes unas de otras, y siguen una distribución normal con desviación típica 1.7. Se toma una muestra de 12 meses.

a) Hallar la probabilidad de que la desviación típica muestral sea menor que 2.5.

(8)

SoluciónSea X= rentabilidad de las acciones. Sabemos queσ2

X = (1.7)2 además como la distribución de

la población es normal yn= 12tenemos que (n−1) ˜SX2

σ2

X sigue una distribución

χ211.

a)P( ˜SX <2.5) =P( ˜SX2 <(2.5)2) =P(

(12−1) ˜S2

X (1.7)2 <

(12−1)(2.5)2

(1.7)2 ) =P(χ211 <23.7889)≈P(χ211<24.725) =

0.99.

b) P( ˜SX > 1) = P( ˜SX2 > 1) = P(

(12−1) ˜S2

X 1.72 >

(12−1)1

1.72 ) = P(χ211 > 3.80623) =≈ 1−P(χ211 > 3.816) =

Referencias

Documento similar

Los métodos estadísticos de Inferencia paramétrica suelen emplear la media aritmética; pero la media de una distribución asimétrica no es un buen índice del conjunto de datos.

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

Fuente de emisión secundaria que afecta a la estación: Combustión en sector residencial y comercial Distancia a la primera vía de tráfico: 3 metros (15 m de ancho)..

De todos modos al existir la manipulacidn .'e los comu- nicadores de masas del sistema que prefieren la cantidad sobre - la calidad esa mezcla de cultura superior,

Edad Media: periodo histórico que abarca desde el siglo V (caída del Imperio Romano) hasta el siglo XV que se considera la transición al

Cancioneiro de Madrid. 1 Nunca espeiei de amor contentamiento. 5v) 2 Es en todo tan corta esta jornada. 6v) 3 Aquel camino larguo de mis daños. 8v) 5 El tiempo en toda cosa

Products Management Services (PMS) - Implementation of International Organization for Standardization (ISO) standards for the identification of medicinal products (IDMP) in

This section provides guidance with examples on encoding medicinal product packaging information, together with the relationship between Pack Size, Package Item (container)