Estimación semiparamétrica en el análisis de encuestas complejas.

(1)

INSTITUCI ´

ON DE ENSE ˜

NANZA E INVESTIGACI ´

ON

EN CIENCIAS AGR´ICOLAS

CAMPUS MONTECILLO

POSTGRADO EN SOCIOECONOM´IA-ESTAD´ISTICA E

INFORM ´

ATICA-ESTAD´ISTICA

Estimaci´

on Semiparam´

etrica en el An´

alisis de

encuestas complejas

Luis Fernando Contreras Cruz

T E S I S

PRESENTADA COMO REQUISITO PARCIAL PARA

OBTENER EL GRADO DE:

DOCTOR EN CIENCIAS

MONTECILLO,TEXCOCO, EDO. DE M´

EXICO

(2)

(3)

Luis Fernando Contreras Cruz

Colegio de Postgraduados, 2013

En la primera parte de este trabajo se muestra que no hay p´erdida significativa en la

precisi´on del estimador del total poblacional si calculamos el par´ametro de suavizamiento

del modelo de splines penalizados con informaci´on de la muestra en vez de utilizar toda

la información de la población. El parámetro de suavizamiento es obtenido fijando los

grados de libertad y resolviendo una ecuaci´on basada ´

unicamente en datos de la muestra.

Se discuten los resultados de un estudio de simulación de la determinación del parámetro

de suavizamiento. Además, se evaluó el efecto de la propuesta de determinación del

parámetro de suavizamiento en la estimación del total poblacional usando una población

real. Para esta población, los experimentos de simulación muestran que la determinación

del par´ametro de suavizamiento, ya sea con datos de la muestra o con los datos de toda la

poblaci´on, produce errores relativos similares en la estimaci´on del total poblacional. En

la segunda parte, se presenta y desarrolla un método semiparamétrico de estimación del

total poblacional para mejorar la precisi´on de los estimadores mediante la incorporaci´on

de informaci´on auxiliar multivariada. El modelo de superpoblaci´on utilizado es un modelo

de coeficientes variantes, que ha demostrado ser una herramienta semiparam´etrica simple

y eficiente en la regresi´on multivariada. En condiciones de dise˜

no est´andar, los estimadores

propuestos son asint´oticamente insesgados, consistente y asint´oticamente normales. Para

ilustrar el modelo y la metodolog´ıa de estimaci´on propuesta, se estudian dos poblaciones,

una poblaci´on real y otra simulada, que han proporcionado fuerte evidencia que corrobora

la teor´ıa asint´otica.

(4)

Semiparametric estimation in complex survey analysis

Luis Fernando Contreras Cruz

Colegio de Postgraduados, 2013

In the first part of this work, the aim is to show that there is no significant loss in

ac-curacy of the estimator of the population total if we calculate the smoothing parameter

of penalized spline model with sample information rather than using all the population

information. The smoothing parameter is obtained by fixing the degrees of freedom and

solving an equation based only on sample data. Results of a simulation study of the

determination of smoothing parameter are presented. In addition, the effect of the

pro-posed determination of smoothing parameter on the estimation of the population total

is evaluated using a real population. For this population, simulation experiments show

that determining the smoothing parameter with either sample data or with data from

the entire population, produces similar relative errors on the estimate of the

popula-tion total. In the second part, a model-assisted semiparametric method of estimating

finite-population totals is investigated to improve the precision of survey estimators by

incorporating multivariate auxiliary information. The proposed superpopulation model

is a varying-coefficient model which has proven to be a simple and efficient

semipara-metric tool in multivariate regression. Under standard design conditions, the proposed

estimators are asymptotically design-unbiased, consistent and asymptotically normal.

Both simulated and real data examples are given to illustrate the model and the

pro-posed estimation methodology, which have provided strong evidence that corroborates

with the asymptotic theory.

(5)

Al Consejo Nacional de Ciencia y Tecnolog´ıa (CONACYT) por el apoyo econ´omico

brindado durante la realizaci´on de mis estudios.

Al Colegio de Postgraduados, por haberme brindado la oportunidad de seguir mi

forma-ci´on acad´emica en sus aulas.

A los integrantes de mi Consejo Particular:

Al Dr. Jos´e El´ıas Rodr´ıguez Mu˜

noz mi m´as sincero agradecimiento por ser un excelente

gu´ıa y amigo, por sus atinadas indicaciones y consejos, as´ı como su calidad humana,

mismos que me fueron de gran utilidad en la realizaci´on del presente trabajo de tesis.

Al Dr. Jos´e A. Villase˜

nor Alva, por ser un gu´ıa durante mis estudios y por sus consejos

tan atinados y por dedicar parte de su tiempo en la revisi´on de este trabajo de tesis.

A los doctores: Javier Suárez Espinosa, Gilberto Rendón Sánchez e Ignacio Méndez

Ram´ırez por sus colaboraciones desinteresada en el presente trabajo.

Un agradecimiento muy especial al Dr. F. Jay Breidt, del Departamento de Estad´ıstica de

la Universidad Estatal de Colorado E.U.A., por permitirme trabajar con ´el y por dedicar

parte de su tiempo en la discusi´on y desarrollo de algunos temas de este trabajo.

A la familia C´ardenas Ram´ırez y en especial a la Familia Gaona C´ardenas por el apoyo

recibido durante mi estancia en Estados Unidos.

A mis compa˜

neros de clase: Ra´

ul A. Pérez Agámez, Juan Diego Hernández Jarqu´ın y

Jaime Dionisio Cuevas Dom´ınguez, por los momentos de discusi´on de algunos temas en

estad´ıstica.

(6)

DEDICATORIA

A mis padres: Fernando Contreras Avalos y B´elgica Cruz L´opez, que me han ense˜

nado

que la ´

unica forma de concluir satisfactoriamente una meta es trabajar d´ıa a d´ıa.

A mis hermanos: Carlos Arturo Contreras Cruz y Marcos Contreras Cruz.

A mis abuelos: Ana Mar´ıa Avalos Jes´

us

†

_{, Rosal´ıo Contreras Garc´ıa}

†

_{, Catalina L´opez}

Dam´ıan

†

_{y Antonio Cruz G´omez}

†

_.

(7)

1. Introducci´

on

1 2. Objetivos

5 2.1. Objetivos Generales

. . . .

5 2.2. Objetivos Particulares

. . . .

5 3. Muestreo de poblaciones finitas

6 3.1. Poblaci´on, muestra y selecci´on de muestras

. . . .

6 3.2. Dise˜

no de muestreo

. . . .

7 3.3. Probabilidades de inclusi´on

. . . .

8 3.4. Par´ametros poblacionales y sus estimadores

. . . .

11 3.5. Distribuci´on aproximada de un estimador

. . . .

12 3.6. Teor´ıa asint´otica en muestreo de poblaciones finitas

. . . .

13 3.7. Estimador de Horvitz-Thompson

. . . .

16 3.8. Muestreo para unidades poblacionales

. . . .

17 3.8.1. Muestreo Bernoulli

. . . .

17 3.8.2. Muestreo aleatorio simple sin reemplazo

. . . .

19

(8)

´

_Indice

3.8.4. Muestreo estratificado

. . . .

24 3.8.5. Muestreo de conglomerados en una sola etapa

. . . .

26 3.9. Muestreo de poblaciones finitas asistido por modelos

. . . .

31 3.9.1. Estimaci´on en la poblaci´on finita

. . . .

32 3.9.2. Estimaci´on en la muestra

. . . .

32 3.9.3. Estimador de regresi´on general

. . . .

33 4. Regresi´

on semiparam´

etrica en muestreo de poblaciones finitas

37 4.1. Introducci´on

. . . .

37 4.2. Regresi´on local polinomial

. . . .

38 4.3. Regresi´on por Splines Penalizados

. . . .

41 4.4. Estudio de Simulaci´on

. . . .

43 4.5. Conclusiones

. . . .

45 5. El efecto sobre la estimaci´

on del total poblacional de la estimaci´

on

basada en la muestra del par´

ametro de suavizamiento de regresi´

on por

spline penalizado en muestreo de poblaciones finitas

47 5.1. Introducci´on

. . . .

47 5.2. Selecci´on del par´ametro de suavizamiento basada en la muestra

. . . . .

49 5.3. Estudio de simulaci´on

. . . .

51 5.3.1. Algoritmo

. . . .

51 5.3.2. Resultados emp´ıricos

. . . .

53 5.4. Aplicaci´on a datos reales

. . . .

55

(9)

6. Modelo de coeficientes variantes en muestreo de poblaciones finitas

59 6.1. Modelo de coeficientes variantes en muestreo de poblaciones finitas

. . . .

60 6.2. Selecci´on de los par´ametros de suavizamiento

. . . .

63 6.3. Propiedades del estimador del total poblacional

. . . .

66 6.4. Estudio de simulaci´on

. . . .

67 6.5. Aplicaci´on a datos reales

. . . .

71 6.6. Conclusiones

. . . .

72 7. Conclusiones y trabajos futuros

73 Referencias

74 Anexos

79 Anexo A: C´odigos de Programas en R usados en el Cap´ıtulo 4

. . . .

79 Anexo B: C´odigos de Programas en R usados en el Cap´ıtulo 5

. . . .

83 Anexo C: C´odigos de Programas en R usados en el Cap´ıtulo 6

. . . .

94 Anexo D: Demostraci´on del Teorema 1 del Cap´ıtulo 6

. . . 133

Anexo E: Demostraci´on del Teorema 2 del Cap´ıtulo 6

. . . 135

(10)

´

_{Indice de tablas}

4.1. Raz´on de ECM relativo al estimador de spline penalizado, basado en 1000

r´eplicas de tama˜

nos de muestra

n

= 50 de una poblaci´on fija de tama˜

no

N

= 1000.

. . . .

46

5.1. q

d

RM SE(λ

s

) para los 16 experimentos.

. . . .

54

5.2. q

d

RM SE(ℓ

s

) para los 16 experimentos.

. . . .

55

5.3. √

RM SE

de los estimadores.

. . . .

56 5.4. Errores Relativos de Estimaci´on(ERE).

. . . .

57

6.1. q

RM SE(b

t

y,V C

) y %RB(b

t

y,V C

).

. . . .

69 6.2. Modelos de Coeficientes Variantes: %RB

V

b

bλopt,i

(11)

5.1. Diagramas de dispersi´on de las estimaciones del total. Las estimaciones

del total usando ˆ

λ

s

est´an sobre el eje horizontal y las estimaciones usando

λ

U

est´an sobre el eje vertical. Las l´ıneas horizontales y verticales indican

(12)

Cap´ıtulo 1

Introducci´

on

Los recursos econ´omicos para realizar censos de poblaci´on y vivienda se tornan cada

vez m´as dif´ıciles de obtener. Sin embargo, las necesidades de informaci´on estad´ıstica

contin´

uan creciendo en varios sentidos. Se demanda:

1. Mayor frecuencia;

2. Mayor cobertura tem´atica;

3. Mayor capacidad para el estudio de relaciones entre temas;

4. Mayor desagregaci´on geogr´afica;

5. M´ınima disminución en la precisión de la información producida.

Pa´ıses con infraestructura adecuada han basado la producci´on de informaci´on sobre la

totalidad de sus poblaciones y subpoblaciones, en los registros administrativos. Para otro

conjunto de pa´ıses, sus particulares condiciones pol´ıticas, econ´omicas y sociales hacen

que este enfoque no sea viable. Aunque algunos consideran que este es el camino a seguir

en el futuro y ya trabajan para alcanzarlo, otros consideran impensable el disponer alg´

un

d´ıa de por lo menos un registro de poblaci´on en el cu´al basar tal enfoque.

Lo anterior ha conducido a algunas oficinas nacionales de estad´ıstica a explorar y, en

algunos casos, a iniciar ya la instrumentaci´on del uso combinado o alternativo de las

fuentes para la generación de información estad´ıstica que recibirá el mismo uso que la

censal. En particular, se tiene informaci´on de:

(13)

3. Registros administrativos y censos (Espa˜

na);

4. Encuestas rotatorias (Francia).

En nuestro pa´ıs el INEGI ha estado analizando e instrumentando algunas de las anteriores

opciones. Fue as´ı como se decidi´o que el censo mexicano del a˜

no 2000 utilizara un

esque-ma combinado: un cuestionario b´asico, aplicado a la totalidad de la poblaci´on (el censo

propiamente dicho), y durante el mismo operativo censal una muestra de la poblaci´on

recibi´o una ampliaci´on al anterior cuestionario (encuesta). Lo anterior puede ser ejemplo

de lo se˜

nalado para lo referente a Estados Unidos, aunque ´este incluye adem´as a las

en-cuestas intercensales. En principio, para el censo del 2010 tambi´en se hizo un cuestionario

b´asico y al menos uno ampliado.

En este mismo sentido, parece que aquellos esquemas que recurren al uso de

encues-tas por muestreo suponen grandes tama˜

nos de muestra para conseguir

representativi-dad”(precisi´on adecuada) a niveles peque˜

nos de desagregaci´on geogr´afica, con lo que no

se atiende a la reducci´on de costos, como en la encuesta levantada simult´aneamente con

el Censo 2000.

Adicionalmente, parece que el aspecto de reducci´on de costos puede ser atendido al

relacionar los resultados de las encuestas con los de las otras dos fuentes: la censal y la

registral (registros administrativos); tomando en cuenta las experiencias internacionales,

as´ı como los ejemplos de aplicaci´on basados en informaci´on mexicana que pueden ser a´

un

mejorados. En caso de contar con metodolog´ıas que permitiesen lo anterior, se podr´ıa

concebir un esquema de generaci´on de informaci´on en el que se integran el censo y tanto

sus encuestas simult´aneas como las levantadas durante el per´ıodo intercensal para:

1. Lograr una reducci´on en los tama˜

nos de muestra que implicar´ıa ahorros sustanciales,

si no para el ejercicio censal propiamente dicho, s´ı para los muestrales;

2. Contar con informaci´on geogr´aficamente desagregada con mayor frecuencia;

3. Mantener la precisi´on alcanzada en los ejercicios muestrales.

(14)

1. Introducci´

on

Para el caso de estimaci´on semiparam´etrica en muestreo de poblaciones finitas, se han

hecho algunos avances. En el trabajo de (Breidt y Opsomer,

2000) se ha desarrollado

el estimador del total por regresi´on localmente polinomial. Adem´as en (Breidt

et al

.,

2005) se propone un estimador para encuestas complejas utilizando splines penalizados.

El concepto de encuestas complejas se refiere a la complejidad del dise˜

no de muestreo

utilizado. Este tipo de dise˜

nos son estratificados, en dos o m´as etapas y en la ´

ultima

etapa, las unidades de muestreo pueden ser conglomerados de unidades poblacionales.

Este tipo de dise˜

nos de muestreo son utilizados, por ejemplo, en las encuestas peri´odicas

del INEGI.

Para el caso de regresi´on localmente polinomial, (Breidt y Opsomer,

2000) proponen el

estimador del total poblacional y su respectiva varianza, para una muestra observada

denotada por

s

y un ancho de banda

h

N

:

e

t

0_y

=

X

i∈s

y

i

−

m

b

0i

π

i

+

X

i∈UN

b

m

0_i

,

donde

π

i

=

P

(

i

∈

s

)

,

e

T₁

= (1

,

0 , . . . ,

0)

,

b

m

0_i

=

e

T₁

X

_siT

W

si

X

si

−1

X

_siT

W

si

y

s

,

X

si

= [1

,

(

x

j

−

x

i)

, . . . ,

(

x

j

−

x

i)p

]

_j_∈_s

,

W

si

=

diag

1 π

j

h

N

K

x

j

−

x

i

h

N

j∈s

.

Un estimador de la varianza de

e

t

0

y

es:

\

V ar

e

t

0

y

=

X

i,j∈s

π

ij

−

π

i

π

j

π

ij

y

i

−

m

b

0i

π

i

y

j

−

m

b

0j

π

j

,

donde

π

ij

=

P

(

{

i, j

} ⊂

s

).

Para el caso de regresi´on por splines penalizados, (Breidt

et al

.,

2005) proponen el

esti-mador del total poblacional y su respectiva varianza, para una muestra observada

s

y un

par´ametro de suavizamiento

λ

:

b

t

y,spl

=

X

i∈UN

b

(15)

donde

b

m

i

=

X

iT

X

_sT

Πs

X

s

+

A

λ

−1

X

_sT

Πs

y

s

,

X

_iT

=

1 , x

i

, . . . , x

pi

,

(

x

i

−

K

1

)

p₊

, . . . ,

(

x

i

−

K

J

)

p₊

i∈UN

,

Πs

=

diag

1 π

i

i∈s

,

A

λ

=

diag

{

0 , . . . ,

0 , λ, . . . , λ

}

.

Un estimador de la varianza del estimador es:

\

V ar

b

t

y,spl

=

X

i,j∈s

π

ij

−

π

i

π

j

π

ij

y

i

−

m

b

i

π

i

y

j

−

m

b

j

π

j

.

Los métodos de estimación semiparamétrica en muestreo antes citados están orientados

principalmente para aplicarse al caso de una sola variable auxiliar. Cuando se tienen

dos o m´as variables, es necesario buscar otras alternativas. Una de estas alternativas

puede ser la estimaci´on por regresi´on con coeficientes variantes. Dicha metodolog´ıa ha

sido propuesta en los trabajos de (Cai

et al

.,

2000b) y (Cao

et al

.,

2010) en el contexto del

análisis de series de tiempo. Además parece ser factible la adaptación de esta metodolog´ıa

de estimación semiparamétrica al caso del análisis de encuestas complejas.

Por otro lado, en los trabajos de (Breidt y Opsomer,

2000) y (Breidt

et al

.,

2005), el

estimador de la varianza del estimador semiparam´etrico del total est´a basado en el

con-cepto de estimador por diferencia (ver Secci´on 6.3 de (Sarndal

et al

.,

1992)). Este tipo

de estimadores tiende a subestimar la varianza, por lo tanto es necesario explorar otras

formas de proponer estimadores de dicha varianza.

(16)

Cap´ıtulo 2

Objetivos

2.1. Objetivos Generales

Desarrollar y adaptar un método de estimación semiparamétrica en el análisis de

encues-tas complejas.

2.2. Objetivos Particulares

Desarrollar el modelo de coeficientes variantes para solucionar problemas de estimaci´on

de par´ametros poblacionales utilizando informaci´on multivariada de encuestas complejas.

Proponer un estimador del total poblacional y estudiar algunas de sus propiedades

es-tad´ısticas.

Proponer una forma de seleccionar los par´ametros de suavizamiento en el contexto de

muestreo de poblaciones finitas.

Realizar un estudio de simulaci´on para estudiar de manera empir´ıca la metodolog´ıa

prop-uesta.

(17)

Muestreo de poblaciones finitas

En ocasiones en

Estad´ıstica

queremos estudiar una poblaci´on finita de inter´es. Cuando la

poblaci´on es demasiado grande, es imposible estudiar las caracter´ısticas individuales de

los elementos de la poblaci´on debido a tiempo y aspectos econ´omicos. Entonces se recurre

a estudiar solamente una

muestra

de esa

poblaci´

on

; donde la muestra seleccionada debe

reflejar las caracter´ısticas de inter´es de la poblaci´on. A partir de la muestra, se realizan

inferencias para conocer a toda la poblaci´on.

3.1. Poblaci´

on, muestra y selecci´

on de muestras

Consideremos una poblaci´on constituida de

N

elementos etiquetados como

k

= 1

,

2 , . . . , N

.

Denotaremos a la poblaci´on finita como

U

=

{

1 , . . . , k, . . . , N

}

, asumiendo que

N

no es

necesariamente conocido. La caracter´ıstica de inter´es para cada elemento de la poblaci´on

se representar´a por

y

U

=

{

y

1

, y

2

, . . . , y

N

}

. Para el objetivo del presente cap´ıtulo,

y

j

∈

R

,

j

= 1

,

2 , . . . , N

. En ocasiones es conveniente modelar la caracter´ıstica de inter´es con el

conjunto de variables aleatorias

Y

U

=

{

Y

1

, Y

2

, . . . , Y

N

}

, es decir, el valor de la

caracter´ısti-ca

y

U

se concept´

ua como un posible valor de la variable aleatoria

Y

U.

El espacio de probabilidad sobre el cual est´a definido el conjunto de variables aleatorias

Y

U

o la funci´on de distribuci´on conjunta del mismo, se denomina

modelo

de las caracter´ısticas

de inter´es.

Una

muestra

es cualquier subconjunto

s

de

U

. Por ejemplo una muestra

s

de tama˜

no

n

es

de la forma

s

=

_{

k

1

, . . . , k

n

}

, donde

k

j

representa al

k

j

−

esimo

´

elemento de la poblaci´on

U

.

(18)

3.2. Dise˜

no de muestreo

de selecci´

on

. Un procedimiento de selecci´on es un conjunto de experimentos cuyo objetivo

es seleccionar elementos de la poblaci´on para integrar la muestra.

3.2. Dise˜

no de muestreo

Si

S

es un conjunto de muestras de

U

, entonces un

dise˜

no de muestreo

es la probabilidad

P

de obtener cada una de las muestras en

S

, siempre que

P

_s_∈_S

P

(

{

s

}

) = 1. Usualmente,

P

es la funci´on de probabilidad resultante del

procedimiento de selecci´

on

de la muestra.

Un conjunto de utilidad pr´actica de muestras

S

es el conjunto

_{

s

_∈

U

:

P

(

_{

s

_}

)

>

0 _}

.

Si

S

tiene esta ´

ultima propiedad, a este conjunto se le denomina el

conjunto de posibles

muestras

de

U

bajo el dise˜

no de muestreo

P

. Con un conjunto de muestras

S

de este tipo

y con el dise˜

no de muestreo

P

es posible formar el espacio de probabilidad (

S,

2

S

_{, P}

_{). M´as}

adelante se mostrar´a que este espacio de probabilidad es el usado para hacer inferencia,

siempre que dicha inferencia utilice ´

unicamente la aleatoriedad descrita por tal espacio.

Varios procedimientos de selecci´on de la muestra pueden producir un mismo dise˜

no de

muestreo

P

. Dado un dise˜

no de muestreo

P

, el conjunto de experimentos del

proced-imiento de selecci´on debe ser tal que la probabilidad resultante de seleccionar la muestra

coincida con el dise˜

no de muestreo

P

.

En ocasiones un dise˜

no de muestreo se conoce por su procedimiento de selecci´on y no

por su probabilidad de seleccionar una muestra, por ejemplo, en el “

muestreo aleatorio

simple sin reemplazo

”(MSR).

Ahora veamos dos procedimientos de selecci´on para el

MSR

.

Procedimiento 1 de selecci´

on.

1. Seleccionar con la misma probabilidad, 1

/N

, un primer elemento de los

N

elementos

de la poblaci´on y no regresarlo;

2. Seleccionar con la misma probabilidad, 1

/

(

N

₋

1), un segundo elemento de los

N

₋

1 elementos restantes y no regresarlo;

...

(19)

Este procedimiento de selecci´on produce muestras

s

de tama˜

no

n

. Adem´as, la

probabili-dad de obtener cada muestra

s

es

P

(

_{

s

_}

) =

_N

1

n

.

El conjunto de posibles muestras es

S

=

{

s

⊂

U

:

s

tiene

n

elementos distintos

}

. Otro

procedimiento de selecci´on en un MSR es el siguiente.

Procedimiento 2 de selecci´

on.

1. Para cada elemento de la poblaci´on generar un valor de una distribuci´on

unif orme

(0

,

1);

2. Ordenar en forma ascendente los elementos de acuerdo a los n´

umeros generados;

3. Seleccionar los primeros

n

elementos para integrar la muestra.

Observese que los dos procedimientos de selecci´on descritos anteriormente producen el

mismo dise˜

no de muestreo, ver (Sarndal

et al

.,

1992).

3.3. Probabilidades de inclusi´

on

Por la estructura del espacio de probabilidad asociada a un dise˜

no, cualquier funci´on del

conjunto de muestras

S

a los n´

umeros reales

R

es una variable aleatoria. En especial las

funciones

λ

k(

s

) =

α

si

k

_∈

s

,

α

₆

= 0

0 si

k /

∈

s

,

para todo

k

_∈

U

y toda

s

_∈

S

, son variables aleatorias.

La importancia de ´este conjunto de variables aleatorias en la teor´ıa de muestreo se muestra

con el siguiente ejemplo.

Ejemplo 1

Variables Indicadoras

. Sea

I

k

la variable aleatoria que nos indica si la unidad

k

est´a en la muestra

s

. Esta variable se define como

I

k(

s

) =

(20)

3.3. Probabilidades de inclusi´

on

Ahora tenemos las propiedades de las variables indicadoras. Notemos que cada variable

indicadora

I

k

es una variable aleatoria Bernoulli con probabilidad de ´exito

P

(

I

k

= 1) =

P

(

{

s

∈

S

:

s

∋

k

}

) =

X

s∋k

P

(

{

s

}

) :=

π

k

.

A

π

k

se le conoce como la

probabilidad de inclusi´

on de primer orden

del elemento

k

.

A 1

/π

k

se le denomina

factor de expansi´

on

y se utiliza en la estimaci´on de par´ametros

poblacionales.

Dado que

I

k

es una variable aleatoria Bernoulli, entonces

E

(

I

k) =

π

k,

y

V ar

(

I

k) =

π

k(1

−

π

k),

k

= 1

, . . . , N

.

Ahora veamos como calcular la probabilidad de que la muestra contenga dos elementos,

es decir,

P

(

_{

j, k

_{} ⊂}

s

) =

P

(

I

j

I

k

= 1)

=

P

(

_{

s

_∈

S

:

s

_{⊃ {}

j, k

_}}

)

=

X

s⊃{j,k}

P

(

{

s

}

) :=

π

jk

.

A

π

jk

se le conoce como la

probabilidad de inclusi´

on de segundo orden

de los elementos

j

y

k

. Tambi´en es posible mostrar que

E

(

I

j

I

k

= 1) =

π

jk

,

Cov

(

I

j

, I

k) =

π

jk

−

π

j

π

k

:= ∆jk

.

Veamos un ejemplo en donde apliquemos los conceptos de probabilidades de inclusi´on

dados anteriormente, cuando utilizamos MSR para la selecci´on de las muestras.

Ejemplo 2

El conjunto de posibles muestras para el

MSR

es de la forma

S

M SR

=

{

s

⊂

U

:

s

tiene

n

elementos distintos

}

,

y la probabilidad de seleccionar cada muestra, es decir, el dise˜

no de muestreo, es

P

M SR(

{

s

}

) =

_N

1

n

,

(21)

De esta forma la probabilidad de inclusi´on de primer orden para cada elemento

k

es

π

k

=

X

s∋k

P

(

_{

s

_}

) =

X

s∋k

1

N n

=

N−1

n−1

N n

=

n

N

,

ya que existen

N_n₋−₁1

muestras de tama˜

no

n

que contienen al elemento

k

.

De forma similar se obtiene que la probabilidad de inclusi´on de segundo orden de los

elementos

j

y

k

es

π

jk

=

X

s⊃{j,k}

P

(

_{

s

_}

) =

X

s⊃{j,k}

1

N n

=

N−2

n−2

N n

=

n

(

n

−

1)

N

(

N

−

1)

.

Cuando las muestras son de tama˜

no variable es ´

util tener la siguiente variable aleatoria,

que nos proporciona el tama˜

no de la muestra. Esta variable se expresa como

n

=

X

k∈U

I

k

.

Entonces para una muestra

s

seleccionada, su tama˜

no de muestra es

n(

s

) =

X

k∈U

I

k(

s

) =

X

k∈s

1 ,

n(

s

) es el n´

umero de elementos diferentes en

s

. Tambi´en se tienen algunas propiedades

de

n,

E

(n) =

X

k∈U

E

(

I

k) =

X

k∈U

π

k;

es decir, la suma de las probabilidades de inclusi´on de primer orden proporciona el tama˜

no

de muestra esperado. La expresi´on de la varianza del tama˜

no de la muestra es

V ar

(

n

) =

X

k∈U

V ar

(

I

k) +

X X

k6=j∈U

Cov

(

I

j

, I

k) =

X

k∈U

π

k(1

−

π

k) +

X X

k6=j∈U

(

π

jk

−

π

j

π

k)

.

Si la muestra

s

es de tama˜

no fijo

n

, entonces

n

_≡

n

con probabilidad 1 y

n

=

X

(22)

3.4. Par´

ametros poblacionales y sus estimadores

3.4. Par´

ametros poblacionales y sus estimadores

En la primera secci´on denotamos a la caracter´ıstica de inter´es de cada elemento de la

poblaci´on por

y

U

=

{

y

1

, y

2

, . . . , y

N

}

. Cualquier funci´on de

y

U

se le denomina

par´

ametro

poblacional

. Si la caracter´ıstica de inter´es se modela con las variables aleatorias

Y

U

=

{

Y

1

, Y

2

, . . . , Y

N

}

cuya funci´on de distribuci´on conjunta es

G

θ, entonces a

θ

se le denomina

par´

ametro del modelo

.

Las siguientes cantidades son ejemplos de par´ametros poblacionales:

Total poblacional:

t

y

=

X

k∈U

y

k

,

Media poblacional:

µ

y

=

1 N

X

k∈U

y

k

,

Varianza poblacional:

σ

_y2

=

1 N

₋

1 X

k∈U

(

y

k

−

µ

y

)

2

.

Si para cada elemento de la poblaci´on se estudian dos caracter´ısticas, digamos

{

(

x

1

, y

1

)

,

(

x

2

, y

2

)

, . . . ,

(

x

N

, y

N

)

}

,

un par´ametro poblacional puede ser

θ

=

P

k∈U

y

k

P

k∈U

x

k

.

Sea

t

_∈

R

. Otro parámetro poblacional es la función de distribución poblacional evaluada

en

t

. Esta funci´on se define por:

G

U(

t

) =

#(

y

k

≤

t

)

N

.

El anterior par´ametro poblacional se puede interpretar como la fracci´on de individuos en

la poblaci´on cuyo valor de la caracter´ıstica de inter´es es menor o igual a

t

.

En general un estimador del par´ametro poblacional

θ

es de la forma

b

(23)

En particular es funci´on de la forma

θ

b

(

y

1

, y

2

, . . . , y

N

, I

1

, I

2

, . . . , I

N

). Si el estimador del

par´ametro poblacional

θ

es de la forma

b

θ

(

y

1

, y

2

, . . . , y

N

, λ

1

, λ

2

, . . . , λ

N

)

,

la inferencia se dice basada en dise˜

nos, es decir, las propiedades estad´ısticas de

θ

b

se

calculan con base al dise˜

no de muestreo

P

. Si el estimador fuera de la forma

b

θ

(

Y

1

, Y

2

, . . . , Y

N

, λ

1

, λ

2

, . . . , λ

N

)

y sus propiedades estad´ısticas se calculan con base al modelo

G

θ

unicamente, entonces

´

la inferencia se dice basada en modelos. Adem´as si la caracter´ıstica de inter´es se modela

con las variables aleatorias

Y

U

=

{

Y

1

, Y

2

, . . . , Y

N

}

, entonces el par´ametro poblacional

θ

(

Y

1

, Y

2

, . . . , Y

N

), antes visto como

θ

(

y

1

, y

2

, . . . , y

N

)

,

es formalmente un estad´ıstico y

b

θ

(

Y

1

, Y

2

, . . . , Y

N

, λ

1

, λ

2

, . . . , λ

N

)

es formalmente un predictor de este estad´ıstico.

Ejemplo 3

Si utilizamos

MSR

, un posible estimador del total poblacional

t

y

es

b

t

y

=

N

n

X

k∈U

y

k

I

k

.

Para una muestra

s

seleccionada, la estimaci´on de

t

y

es

b

t

y

(

s

) =

N

n

X

k∈s

y

k

=

N y

s

.

Un parámetro poblacional toma un sólo valor y éste puede ser desconocido. Por lo

tan-to, un estimador tendr´ıa que proporcionar este ´

unico elemento, el valor del par´ametro.

Pedir lo anterior ser´ıa equivalente a pedir que cualquier muestra y cualquier m´etodo de

estimación nos proporcionaran el valor del parámetro de interés. Lo cual es poco factible.

Aqu´ı un estimador nos proporcionar´a una variedad de valores para el par´ametro de

in-ter´es aunque este conjunto de valores no quede bien determinado. Lo deseable es que el

rango de valores que contenga al par´ametro poblacional fuera corto con una probabilidad

grande.

3.5. Distribuci´

on aproximada de un estimador

(24)

3.6. Teor´ıa asint´

otica en muestreo de poblaciones finitas

Para cierto tipo de estimadores y dise˜

nos de muestreo es posible obtener que

ˆ

θ

−

θ

q

\

V ar

(ˆ

θ

)

tiene una distribuci´on

Normal est´

andar

, para m´as detalle ver el Cap´ıtulo 3 de (Thompson,

1997). Esto es, cuando el tama˜

no de la poblaci´on

N

_{→ ∞}

y el tama˜

no de la muestra

n

_{→ ∞}

, entonces la distribuci´on del cociente anterior tiende a una normal est´andar.

Con base a lo anterior, podemos construir intervalos de confianza para

θ

de la forma

ˆ

θ

_±

z

1−α

2

q

\

V ar

(ˆ

θ

)

,

donde

z

1−α₂

es el cuantil de orden 1

−

α₂

de una normal est´andar. En otras palabras, dado

el comportamiento de la distribuci´on de ˆ

θ

, se espera que aproximadamente 100(1

−

α

) %

de los intervalos as´ı construidos contengan al valor del par´ametro poblacional

θ

(tengan

una cobertura aproximada de 100(1

₋

α

) %).

3.6. Teor´ıa asint´

otica en muestreo de poblaciones

fini-tas

En esta secci´on se presentan definiciones y resultados que son de utilidad en el Cap´ıtulo

6. En un contexto general de probabilidad y estad´ıstica, la notaci´on

o

p(1) (o peque˜

na

p

-uno) es para una sucesi´on de vectores aleatorios que convergen a cero en probabilidad. La

expresi´on

O

p(1) (o grande

p

-uno) denota una sucesi´on que es acotada en probabilidad.

En general, para una sucesi´on dada de variables aleatorias

R

n,

X

n

=

o

p(

R

n)

⇔

X

n

=

Y

n

R

n

, Y

n p

→

0 .

X

n

=

O

p

(

R

n

)

⇔

X

n

=

Y

n

R

n

, Y

n

=

O

p

(1)

.

Para formalizar los t´erminos de orden estoc´astico mencionados anteriormente, sean

_{

a

n

}

∞_n₌₁

y

{

b

n

}

∞n=1

sucesiones de n´

umeros reales, sean

{

f

n

}

∞n=1

y

{

g

n

}

∞n=1

sucesiones de n´

umeros

reales positivos, y sean

_{

X

n

}

∞n=1

,

{

Y

n

}

∞n=1

sucesiones de variables aleatorias.

Definici´

on

Decimos que

a

n

es de orden m´as peque˜

no que

g

n

y se escribe

a

n

=

o

(

g

n

) si

l´ım

n→∞

a

n

g

n

(25)

Definici´

on

Decimos que

a

n

es a lo m´as de orden

g

n

y se escribe

a

n

=

O

(

g

n

) si existe un

n´

umero real

M

tal que

g

−_n1

|

a

n

| ≤

M

∀

n.

Definici´

on

La sucesi´on de variables aleatorias

_{

X

n

}

converge en probabilidad a la v.a.

X

, denotado como plim

X

n

=

X

, si para cualquier

ǫ >

0 l´ım

n→∞

P

{|

X

n

−

X

|

> ǫ

}

= 0

.

Definici´

on

Decimos que

X

n

es de orden m´as peque˜

no en probabilidad que

g

n

, denotado

como

X

n

=

o

p

(

g

n) si

plim

g

_n−1

X

n

= 0

.

Definici´

on

Decimos que

X

n

es a lo m´as de orden

g

n

en probabilidad (o acotado en

probabilidad por

g

n), denotado como

X

n

=

O

p

(

g

n) si para cualquier

ǫ >

0 existe un

n´

umero real positivo

M

ǫ

tal que

P

[

_|

X

n

| ≥

M

ǫ

g

n]

≤

ǫ,

∀

n.

Usando las definiciones anteriores y las propiedades de l´ımites, se puede probar:

1. Si

X

n

=

o

p(

f

n) y

Y

n

=

o

p(

g

n),

X

n

Y

n

=

o

p(

f

n

g

n)

,

X

n

+

Y

n

=

o

p(m´ax

{

f

n

, g

n

}

)

,

|

X

n

|

s

=

o

p(

f

ns

)

, s >

0 .

2. Si

X

n

=

O

p

(

f

n

) y

Y

n

=

O

p

(

g

n

),

X

n

Y

n

=

O

p(

f

n

g

n)

,

X

n

+

Y

n

=

O

p(m´ax

{

f

n

, g

n

}

)

,

|

X

n

|

s

=

O

p(

f

ns

)

, s >

0 .

3. Si

X

n

=

o

p(

f

n) y

Y

n

=

O

p(

g

n),

X

n

Y

n

=

o

p(

f

n

g

n)

.

(26)

3.6. Teor´ıa asint´

otica en muestreo de poblaciones finitas

1980). En (Fuller,

2009) hay una excelente revisi´on de teor´ıa asint´otica en el contexto de

muestreo.

En la siguiente parte de esta Secci´on se explica y describe la consistencia e insesgadez

asint´otica en el contexto de muestreo de poblaciones finitas.

Supongamos que

b

θ

n

es un estimador de

θ

basado en una muestra de tama˜

no

n

de una

poblaci´on finita dada de tama˜

no

N

, entonces no podemos decir que

n

_{→ ∞}

, ya que

n

_≤

N

, adem´as

N

es fijo y finito. En este contexto, los resultados asint´oticos requieren

una maquinar´ıa m´as compleja con una sucesi´on de poblaciones crecientes tal que

n

y

N

tiendan a infinito.

Empezamos con la idea de una sucesi´on infinita de elementos, etiquetado como

k

=

1 ,

2 , ...

, y una sucesi´on infinita asociada de valores de

y

, denotada por

y

1

, y

2

, ...

, donde

y

k

est´a ligada al

k

-´esimo elemento.

Consideremos una sucesi´on de poblaciones

U

1

, U

2

, U

3

, ...

, donde

U

ν

consiste de los primeros

N

ν

elementos de la sucesi´on infinita de elementos mencionados anteriormente, esto es,

U

ν

=

{

1 ,

2 , ..., N

ν

}

. Se asume que

U

1

⊂

U

2

⊂

U

3

⊂ · · ·

y por lo tanto

N

1

< N

2

< N

3

<

· · ·

. Sea

θ

ν

los valores de cierto par´ametro en la poblaci´on

U

ν, es decir,

θ

ν

es una funci´on

de los valores

y

1

, y

2

, ..., y

Nν

.

Para cada poblaci´on

U

ν

, considere un dise˜

no de muestreo

p

ν

(

· ) que asigna una cierta

probabilidad

p

ν

(

s

ν

) a cada muestra posible

s

ν

de elementos de

U

ν

. Sean

π

νk

y

π

νkl

(

k, l

= 1

,

2 , ..., N

ν

) las probabilidades de inclusi´on determinadas por el dise˜

no

p

ν

(

· ). Por

simplicidad, se asume que el tama˜

no de muestra es fijo y se denota por

n

ν

. De igual forma,

se asume que

n

1

< n

2

< n

3

<

· · ·

. Se puede observar,

ν

→ ∞

significa que

n

ν

→ ∞

y

N

ν

→ ∞

. Sea ˆ

θ

ν

un estimador de

θ

ν

, basado en los valores observados

y

k

, tales que

k

_∈

s

ν

.

Por ejemplo, el par´ametro

θ

ν

puede ser la media poblacional

θ

ν

=

y

Uν

=

X

k∈Uν

y

k

N

ν

y ˆ

θ

ν

puede ser el estimador de Horvitz-Thompson (se revisa en la Secci´on siguiente)

ˆ

θ

ν

=

X

k∈sν

y

k

N

ν

π

νk

.

(3.1)

(27)

Definici´

on

Un estimador ˆ

θ

ν

es asint´oticamente insesgado para

θ

ν

, si

l´ım

ν→∞

h

E

pν

ˆ

θ

ν

−

θ

ν

i

= 0

.

Definici´

on

Un estimador ˆ

θ

ν

es consistente para

θ

ν

, si para cualquier

ǫ >

0 fijo,

l´ım

ν→∞

P

h

_θ

ˆ

_ν

₋

_θ

_ν

_{> ǫ}

i

_{= 0}

_.

En el trabajo de (Isaki y Fuller,

1982) se dan condiciones para la consistencia del

esti-mador (3.1) y el estiesti-mador de regresi´on.

3.7. Estimador de Horvitz-Thompson

Definici´

on

Supóngase que el parámetro poblacional de interés es el total poblacional

t

y

. El

estimador de Horvitz-Thompson

(HT) (Horvitz y Thompson,

1952)

b

t

yπ

del total

poblacional

t

y

es de la forma

b

t

yπ

=

X

k∈U

y

k

I

k

π

k

,

siempre que

π

k

>

0 para todo

k

∈

U

. Para una muestra

s

seleccionada, la estimaci´on del

total poblacional

t

y

es

b

t

yπ(

s

) =

X

k∈s

y

k

π

k

.

(3.2)

Tenemos las siguientes propiedades del estimador de Horvitz-Thompson descritas en la

Proposici´

on 1

a

. El estimador

b

t

yπ

es insesgado, es decir,

E

(

b

t

yπ

) =

t

y

.

b

. Su varianza (un par´ametro poblacional) es

V ar

(

b

t

yπ) =

X

k∈U

y

2

k

π

k

+

X

j∈U

X

k6=j∈U

π

jk

π

j

π

k

(28)

3.8. Muestreo para unidades poblacionales

c

. Un estimador insesgado de su varianza es

\

V ar

(

b

t

yπ

) =

X

k∈U

1 π

k

−

1 y

_k2

I

k

π

k

+

X

j∈U

X

k6=j∈U

(

π

jk

−

π

j

π

k

)

y

j

y

k

π

j

π

k

I

j

I

k

π

jk

,

suponiendo que

π

jk

>

0 para todo

k

6 =

j

∈

U

. Para una muestra

s

seleccionada, la

estimaci´on de

V ar

(

b

t

yπ) es

\

V ar

(

b

t

yπ)(

s

) =

X

k∈s

1 π

k

−

1 y

2

k

π

k

+

X

j∈s

X

k6=j∈s

1 π

j

π

k

−

1 π

jk

y

j

y

k

.

d

. Si el tama˜

no de muestra es fijo, entonces la varianza en la Parte

b

se puede expresar

como

V ar

(

b

t

yπ) =

X

i∈U

X

i>j∈U

(

π

i

π

j

−

π

ij

)

y

i

π

i

−

y

j

π

j

2

.

(3.4)

Esta cantidad se conoce como

la expresi´

on de Sen-Yates-Grundy

de la varianza del

es-timador de

HT, para m´as detalle de esta varianza, ver (Sen,

1953) y (Yates y Grundy,

1953). Adem´as, un estimador insesgado de la anterior cantidad es

\

V ar

(

b

t

yπ) =

X

i∈U

X

i>j∈U

(

π

i

π

j

−

π

ij

)

y

i

π

i

−

y

j

π

j

2

I

i

I

j

π

ij

.

(3.5)

Para una muestra

s

seleccionada, la estimaci´on correspondiente es

\

V ar

(

b

t

yπ

)(

s

) =

X

i∈s

X

i>j∈s

(

π

i

π

j

−

π

ij

)

y

i

π

i

−

y

j

π

j

2

1 π

ij

.

(3.6)

Demostraci´

on:

Ver (Sarndal

et al

.,

1992).

3.8. Muestreo para unidades poblacionales

A continuaci´on se muestran algunos procedimientos de selecci´on de muestras. Estos

pro-cedimientos son com´

unmente utilizados en la pr´actica.

3.8.1. Muestreo Bernoulli

(29)

Bernoulli

independientes y con probabilidad de ´exito

π

. Si el

i

₋

´

esimo

experimento es

un ´exito, entonces el individuo

i

de la poblaci´on es seleccionado en la muestra.

Este dise˜

no tiene un valor did´actico y sirve para ilustrar un dise˜

no de muestreo que

produce muestras de tama˜

no variable. Tambi´en, este dise˜

no se puede utilizar para modelar

el n´

umero de individuos que s´ı responden a uno o varios objetos de un cuestionario.

Las muestras son desde tama˜

no cero hasta el tama˜

no de la poblaci´on. Si

π

es la

probabil-idad de ´exito de los experimentos Bernoulli con los cuales se seleccionan a los individuos

en la muestra, entonces el dise˜

no de muestreo es

P

(

_{

s

_}

) =

π

n(s)

₍₁

₋

_π

₎

N−n(s)

_,

donde

n

representa a la variable aleatoria tama˜

no de la muestra. Es posible mostrar que

las variables indicadoras

I

1

, . . . , I

N

son variables aleatorias independientes Bernoulli(

π

).

Entonces la variable aleatoria

n

se distribuye como una distribuci´on

Binomial

(

N, π

).

De acuerdo a lo comentado arriba tenemos que las probabilidades de inclusi´on de primer

y segundo orden son

π

j

=

E

(

I

j

) =

π

;

para todo

j

∈

U

, y

π

ij

=

E

(

I

i

I

j) =

π

2

;

para todos

i

₆

=

j

_∈

U

.

Por consiguiente, el estimador de

HT

del total poblacional

t

y

es:

b

t

yπB

=

1 π

X

j∈U

y

j

I

j

.

Para una muestra

s

seleccionada la estimaci´on resultante es:

b

t

yπB

(

s

) =

1 π

X

j∈s

y

j

.

Ahora, la varianza del estimador de

HT

del total poblacional

t

y

es

V ar

(

b

t

yπB) =

1 π

−

1 X

j∈U

y

j2

,

ya que de la ecuaci´on (3.3), tenemos que

V ar

(

b

t

yπB) =

X

k∈U

y

2

k

π

+

X

j∈U

X

k6=j∈U

π

2

ππ

y

j

y

k

−

X

k∈U

y

k

!

2

=

1 π

−

1 X

(30)

3.8. Muestreo para unidades poblacionales

Un estimador de la varianza es

\

V ar

(

b

t

yπB) =

1 π

−

1 X

j∈U

y

_j2

I

j

π

.

Para una muestra

s

seleccionada la estimaci´on resultante es:

\

V ar

(

b

t

yπB

)(

s

) =

1 π

−

1

1 π

X

j∈s

y

_j2

.

3.8.2. Muestreo aleatorio simple sin reemplazo

El

muestreo aleatorio simple sin reemplazo

,

MSR

, es uno de los dise˜

nos de muestreo

m´as conocidos. Este dise˜

no produce muestras de tama˜

no

n

fijo. Tambi´en este dise˜

no

fu´e mencionado en la Secci´on

3.2 y se recomienda utilizarlo cuando la poblaci´on es

homog´enea con respecto a la caracter´ıstica que se desea estudiar o no conocemos nada

acerca de la población con respecto a la caracter´ıstica de interés. Además este dise˜

no

presupone que se tiene una lista de los individuos de la poblaci´on y la cual se utilizar´a en

la etapa de selecci´on de la muestra. En ocasiones

MSR

se utiliza por conveniencia, cuando

no se tiene informaci´on que permita la elecci´on de un dise˜

no alternativo.

La probabilidad de seleccionar una muestra por

MSR

es

P

(

{

s

}

) =

_N

1

n

,

para toda muestra

s

de tama˜

no fijo

n

. Ya vimos en el ejemplo 2 de la Secci´on

3.3 que

las probabilidades de inclusi´on de primer y segundo orden son

π

j

=

n

N

,

para todo

j

∈

U

y

π

jk

=

n

(

n

₋

1)

N

(

N

−

1)

,

para cualesquiera

{

j, k

} ⊂

U

.

Entonces el estimador de

HT

del total poblacional

t

y

queda de la siguiente manera

b

t

yπM SR

=

N

n

X

(31)

Para una muestra

s

seleccionada, la estimaci´on resultante es:

b

t

yπM SR(

s

) =

N

n

X

j∈s

y

j

.

La varianza del estimador de

HT

es de la manera siguiente:

V ar

(

b

t

yπM SR) =

N

2

1 n

−

1 N

σ

2_y

,

(3.7)

antes de desarrollar la deducci´on de (3.7), observese que en este caso tenemos muestras de

tama˜

no fijo

n

, por tanto la ecuaci´on (3.3) se reduce a la ecuaci´on (3.4). Por consiguiente

V ar

(

b

t

yπM SR) =

X

i∈U

X

i>j∈U

(

π

i

π

j

−

π

ij

)

y

i

π

i

−

y

j

π

j

2

=

N

−

n

(

N

₋

1)

X

i∈U

X

i>j∈U

(

y

i

−

y

j)2

=

N

−

n

2 n

(

N

₋

1)

{

X

i∈U

X

j∈U

(

y

i

−

y

j)2

−

X

i∈U

(

y

i

−

y

i)2

}

=

N

−

n

2 n

(

N

₋

1)

{

2 X

i∈U

X

j∈U

y

_i2

−

2 X

i∈U

X

j∈U

y

i

y

j

}

=

N

−

n

(

N

₋

1)

{

X

i∈U

N y

2_i

₋

N

2

µ

2_y

_}

=

N

(

N

−

n

)

n

(

N

−

1)

X

i∈U

(

y

i

−

µ

y

)

2

=

N

(

N

−

n

)

n

σ

2

=

N

2

1 n

−

1 N

σ

_y2

.

Un estimador de la varianza anterior es:

\

V ar

(

b

t

yπM SR) =

1 n

−

1 N

N

−

1 X

j∈U

X

j<k∈U

(

y

j

−

y

k)2

I

j

I

k

π

jk

,

observese que la ecuación anterior es fácil de obtener de la ecuación (3.5). Para una

muestra

s

seleccionada, la estimaci´on resultante es:

\

V ar

(

b

t

yπM SR)(

s

) =

N

2

1 n

−

1 N

(32)

3.8. Muestreo para unidades poblacionales

donde

σ

_s2

=

1 n

₋

1 X

j∈s

(

y

j

−

µ

s)2

y

µ

s

=

1 n

X

j∈s

y

j

.

La expresi´on (3.8) se obtiene de forma similar a como se obtuvo la ecuaci´on (3.7).

3.8.3. Muestreo con probabilidad proporcional al tama˜

no

En ocasiones se conoce el valor de una variable auxiliar para cada uno de los individuos

de la poblaci´on, denotemos estos valores por

_{

x

1

, . . . , x

N

}

. Tambi´en en ocasiones, estos

valores son tales que

x

k

∝

y

k

(aproximadamente) para todo

k

∈

U

. Si este es el caso, se

acostumbra a denotar a

x

k

como el tama˜

no de la

k

−

´

esima

unidad poblacional.

Con lo anterior, el t´ermino

muestreo con probabilidad proporcional al tama˜

no

,

PPT

, sirve

para denotar a cualquier dise˜

no de muestreo donde las probabilidades de inclusi´on de

primer orden son proporcionales al tama˜

no de la unidad poblacional, donde

π

k

∝

x

k.

Observese que si se utiliza un dise˜

no que produce muestras de tama˜

no fijo y si se utiliza el

estimador de HT para estimar el total, entonces la varianza de dicho estimador se puede

expresar como (ver la ecuaci´on

3.4):

V ar

(

b

t

yπ) =

X

i∈U

X

i>j∈U

(

π

i

π

j

−

π

ij

)

y

i

π

i

−

y

j

π

j

2

.

De aqu´ı, si

π

k

es aproximadamente proporcional a

x

k, y por tanto a

y

k, entonces el

estimador tendr´a una varianza peque˜

na. Es posible obtener esta propiedad sobre la

pre-cisi´on del estimador cuando se tienen muestras de tama˜

no variable, ver el Cap´ıtulo 13

de (Huskova

et al

.,

1998). De lo anterior se desprende, que la combinaci´on de un dise˜

no

con probabilidad proporcional al tama˜

no y el estimador de HT del total, producen

esti-maciones con una alta precisi´on.

Por lo tanto, es conveniente utilizar el muestreo PPT cuando se tiene la informaci´on

disponible sobre lo que se ha denominado tama˜

no de la unidad poblacional.

Dise˜

no de muestreo

(33)

Procedimiento de selecci´on:

1 .

Ordenar a los individuos de la poblaci´on en forma descendente con respecto a su valor

del tama˜

no de la unidad;

2 .

Para el elemento

k

= 1, generar un n´

umero aleatorio

ε

1

de una distribuci´on

Uniforme

(0

,

1).

Si

ε

1

≤

nx

1

t

x

,

entonces seleccionar al elemento

k

= 1 en la muestra, en caso contario no. Aqu´ı

t

x

=

P

j∈U

x

j;

3 .

Para

k

= 2

,

3 , . . . ,

generar un n´

umero aleatorio

ε

k

de una

Uniforme

(0

,

1). Si

ε

k

≤

(

n

₋

n

k)

x

k

t

xk

,

entonces seleccionar al elemento

k

en la muestra, en caso contrario no. Aqu´ı

n

k

es el

n´

umero de elementos seleccionados en la muestra hasta el momento

k

−

1 y

t

xk

=

x

k

+

x

k+1

+

· · ·

+

x

N

.

4 .

El proceso descrito en los pasos 1 al 3 termina cuando

n

k

=

n

o

k

=

k

∗

, lo que ocurra

primero, donde

k

∗

_{= m´ın}

_{

_k

0

, N

−

n

+ 1

}

y

k

0

es el m´ınimo

k

para el cual

nx_t_xkk

>

1;

5 .

Si

n

k∗

< n

, el proceso de selecci´on descrito en los pasos 1 al 3 no produjo una muestra

del tama˜

no deseado. Los

n

₋

n

k∗

elementos faltantes en la muestra son seleccionados de

los restantes

N

₋

k

∗