• No se han encontrado resultados

Teorema central del límite

In document BIOESTADÍSTICA - GESDoc (página 62-65)

PRINCIPIOS DE MUESTREO Y ESTIMACIÓN

4.3 ESTIMACIÓN EN EL MUESTREO ALEATORIO SIMPLE

4.3.3 Teorema central del límite

En los apartados anteriores se ha probado que, para cualquier variable aleatoria, el valor esperado y la varianza de la distribución de las medias muestrales son μ y σ 2/n,

respectivamente. No se ha analizado, sin embargo, el aspecto global de la distribución y la varianza muestral

20 Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una muestra aleatoria simple de tamaño n = 10, cuyos valores de colesterol HDL son 1,45, 1,32, 1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media muestral es

10

63 , 0 ...

32 ,1 45 , 1 10

1 10

1

+ +

= +

=

= i

xi

x = 1,13 mmol/l

y la varianza muestral

. (mmol/l) 12

, 9 0

) 13 ,1 63 , 0 ( ...

) 13 , 1 45 , 1 (

) 1 (

1

2 2 2

1

2 2

− = +

+

= −

− −

=

= n

i xi x

s n

Por tanto, la estimación puntual de la media poblacional del colesterol HDL es x

= 1,13 mmol/l y su error estándar es SE(x) =

10 35 ,

=0 n

s = 0,11 mmol/l.

Notar que, en este ejemplo ilustrativo, el error de la estimación muestral es exactamente x - μ = 1,13 - 1,09 = 0,04 mmol/l. En la práctica, sin embargo, el error exacto no puede calcularse ya que μ es desconocido y, en consecuencia, se emplea SE(x) como estimación del error promedio que cabría esperar en

similares circunstancias (esto es, en todas las posibles muestras del mismo tamaño obtenidas de la población de referencia).

4.3.3 Teorema central del límite

En los apartados anteriores se ha probado que, para cualquier variable aleatoria, el valor esperado y la varianza de la distribución de las medias muestrales son μ y σ 2/n,

respectivamente. No se ha analizado, sin embargo, el aspecto global de la distribución

53 Estimación en el muestreo aleatorio simple

Pastor-Barriuso R.

Por tanto, la estimación puntual de la media poblacional del colesterol HDL es

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n n n

i i

+ +

= +

=

=

1 1 2 ...

1

.

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

= 1,13 mmol/l y su error estándar es

20 Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una muestra aleatoria simple de tamaño n = 10, cuyos valores de colesterol HDL son 1,45, 1,32, 1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media muestral es

10

63 , 0 ...

32 ,1 45 , 1 10

1 10

1

+ +

= +

=

i=

xi

x = 1,13 mmol/l

y la varianza muestral

. (mmol/l) 12

, 9 0

) 13 ,1 63 , 0 ( ...

) 13 , 1 45 , 1 (

) 1 (

1

2 2 2

1

2 2

− = +

+

= −

− −

=

= n

i xi x

s n

Por tanto, la estimación puntual de la media poblacional del colesterol HDL es x

= 1,13 mmol/l y su error estándar es SE(x) =

10 35 ,

= 0 n

s = 0,11 mmol/l.

Notar que, en este ejemplo ilustrativo, el error de la estimación muestral es exactamente x - μ = 1,13 - 1,09 = 0,04 mmol/l. En la práctica, sin embargo, el error exacto no puede calcularse ya que μ es desconocido y, en consecuencia, se emplea SE(x) como estimación del error promedio que cabría esperar en

similares circunstancias (esto es, en todas las posibles muestras del mismo tamaño obtenidas de la población de referencia).

4.3.3 Teorema central del límite

En los apartados anteriores se ha probado que, para cualquier variable aleatoria, el valor esperado y la varianza de la distribución de las medias muestrales son μ y σ 2/n,

respectivamente. No se ha analizado, sin embargo, el aspecto global de la distribución

Notar que, en este ejemplo ilustrativo, el error de la estimación muestral es exactamente

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n n n

i i

+ +

= +

=

=

1 1 2 ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

μ = 1,13 – 1,09 = 0,04 mmol/l. En la práctica, sin embargo, el error exacto no puede calcularse ya que μ es desconocido y, en consecuencia, se emplea SE(

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n n n

i i

+ +

= +

=

=

1 1 2 ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

) como estimación del error promedio que cabría esperar en similares circunstancias (esto es, en todas las posibles muestras del mismo tamaño obtenidas de la población de referencia).

4.3.3 Teorema central del límite

En los apartados anteriores se ha probado que, para cualquier variable aleatoria, el valor esperado y la varianza de la distribución de las medias muestrales son μ y σ2/n, respectivamente. No se ha analizado, sin embargo, el aspecto global de la distribución muestral de

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n n n

i i

+ +

= +

=

=

1 1 2 ...

1

.

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

. Retomando el ejemplo de la distribución muestral de las medias de colesterol HDL (Figura 4.2), puede observarse que la forma de esta distribución tiende a aproximarse a una distribución normal conforme aumenta el tamaño muestral. Esta característica puede resultar intuitivamente lógica, ya que la distribución subyacente del colesterol HDL en la población presenta un aspecto aproximadamente normal (ver Figura 1.2 del Tema 1). Dado que muchas de las variables utilizadas en la práctica no presentan una distribución poblacional normal, cabría preguntarse si esta tendencia a la normalidad de la distribución muestral de

1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n n n

i i

+ +

= +

=

=

...

1 1 2

1

.

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

se mantiene para cualquier tipo de variable aleatoria.

Ejemplo 4.11 En la Figura 4.3 se muestra la distribución de los niveles de b-caroteno en tejido adiposo en el grupo control del estudio EURAMIC, que presenta una distribución marcadamente asimétrica con una media de μ = 0,37 mg/g. Las Figuras 4.4(a), (b) y (c)

Figura 4.3

0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2

0 50 100 150 200 250

Frecuencia absoluta

β-caroteno (μg/g)

Figura 4.3 Distribución de frecuencias del nivel de β-caroteno en el grupo control del estudio EURAMIC.

54

Principios de muestreo y estimación

Pastor-Barriuso R.

Figura 4.4

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

0 10 20 30

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

0 10 20 30

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

0 10 20 30

Frecuencia relativa (%)

(a)

(b)

(c)

Media de β-caroteno (μg/g) en muestras de tamaño 10

Media de β-caroteno (μg/g) en muestras de tamaño 25

Media de β-caroteno (μg/g) en muestras de tamaño 100

Figura 4.4 Distribución muestral de la media de β-caroteno en 1000 muestras aleatorias simples de tamaño n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La línea vertical en trazo discontinuo corresponde a la media poblacional μ = 0,37 μg/g de β-caroteno.

representan las medias de b-caroteno en 1000 muestras aleatorias simples de tamaño n = 10, 25 y 100, respectivamente, obtenidas a partir de los controles del estudio EURAMIC.

En estas gráficas puede observarse, de forma empírica, las siguientes propiedades:

— Ausencia de sesgo: para cualquier tamaño muestral, el promedio de las medias muestrales es similar a la media poblacional.

— Disminución del error estándar: al aumentar el tamaño muestral, disminuye la variabilidad en la distribución de las medias.

— Aproximación a la distribución normal: al aumentar el tamaño muestral, la distribución de las medias se aproxima a una distribución normal centrada en la media poblacional.

En los ejemplos anteriores, se ha comprobado de forma empírica que, independientemente de la forma de la variable aleatoria en la población, la distribución de las medias muestrales tiende a

55 Estimación en el muestreo aleatorio simple

Pastor-Barriuso R.

seguir una distribución normal, particularmente cuando aumenta el tamaño de la muestra. Uno de los principales resultados en estadística, conocido como teorema central del límite, formaliza esta intuición: para cualquier variable aleatoria X con media μ y varianza σ 2, la distribución de las medias en muestras aleatorias simples de tamaño n se aproxima, al aumentar el tamaño muestral, a una distribución normal con media μ y varianza σ 2/n; es decir, al aumentar n,

22 [Figura 4.4 aproximadamente aquí]

En los ejemplos anteriores, se ha comprobado de forma empírica que,

independientemente de la forma de la variable aleatoria en la población, la distribución de las medias muestrales tiende a seguir una distribución normal, particularmente cuando aumenta el tamaño de la muestra. Uno de los principales resultados en

estadística, conocido como teorema central del límite, formaliza esta intuición: para cualquier variable aleatoria X con media μ y varianza σ 2, la distribución de las medias en muestras aleatorias simples de tamaño n se aproxima, al aumentar el tamaño

muestral, a una distribución normal con media μ y varianza σ 2/n; es decir, al aumentar n,



 

→  N n

x ~ μ, σ2 ,

donde el símbolo →~ significa “distribuirse aproximadamente como”. Así, aun cuando la distribución de una variable en la población diste mucho de ser normal, el teorema central del límite permite utilizar la distribución normal como aproximación a la distribución de x si el tamaño muestral es suficientemente grande. Aunque el tamaño muestral necesario variará en función de la variable objeto de estudio, esta

aproximación será razonablemente precisa siempre que n sea superior a 50.

Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del estudio EURAMIC son μ = 1,09 mmol/l y σ 2 = 0,086 (mmol/l)2. Por el teorema central del límite, la distribución de las medias en muestras de tamaño n = 100 será aproximadamente normal con media μ = 1,09 mmol/l y varianza σ 2/n = 0,086/100 = 0,00086 (mmol/l)2,

donde el símbolo

22 [Figura 4.4 aproximadamente aquí]

En los ejemplos anteriores, se ha comprobado de forma empírica que,

independientemente de la forma de la variable aleatoria en la población, la distribución de las medias muestrales tiende a seguir una distribución normal, particularmente cuando aumenta el tamaño de la muestra. Uno de los principales resultados en

estadística, conocido como teorema central del límite, formaliza esta intuición: para cualquier variable aleatoria X con media μ y varianza σ 2, la distribución de las medias en muestras aleatorias simples de tamaño n se aproxima, al aumentar el tamaño

muestral, a una distribución normal con media μ y varianza σ 2/n; es decir, al aumentar n,



 

→  N n

x ~ μ,σ2 ,

donde el símbolo →~ significa “distribuirse aproximadamente como”. Así, aun cuando la distribución de una variable en la población diste mucho de ser normal, el teorema central del límite permite utilizar la distribución normal como aproximación a la distribución de x si el tamaño muestral es suficientemente grande. Aunque el tamaño muestral necesario variará en función de la variable objeto de estudio, esta

aproximación será razonablemente precisa siempre que n sea superior a 50.

Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del estudio EURAMIC son μ = 1,09 mmol/l y σ 2 = 0,086 (mmol/l)2. Por el teorema central del límite, la distribución de las medias en muestras de tamaño n = 100 será aproximadamente normal con media μ = 1,09 mmol/l y varianza σ 2/n = 0,086/100 = 0,00086 (mmol/l)2,

significa “distribuirse aproximadamente como”. Así, aun cuando la distribución de una variable en la población diste mucho de ser normal, el teorema central del límite permite utilizar la distribución normal como aproximación a la distribución de

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n n n

i i

+ +

= +

=

=

1 1 2 ...

1

.

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

si el tamaño muestral es suficientemente grande. Aunque el tamaño muestral necesario variará en función de la variable objeto de estudio, esta aproximación será razonablemente precisa siempre que n sea superior a 50.

Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del estudio EURAMIC son μ = 1,09 mmol/l y σ 2 = 0,086 (mmol/l)2. Por el teorema central del límite, la distribución de las medias en muestras de tamaño n = 100 será aproximadamente normal con media μ = 1,09 mmol/l y varianza σ 2/n = 0,086/100 = 0,00086 (mmol/l)2,

x →~ N(1,09, 0,00086).

Así, por ejemplo, la probabilidad de que la media de colesterol HDL en una muestra de tamaño n = 100 esté comprendida entre 1,03 y 1,15 mmol/l puede calcularse como

P(1,03 ≤ x ≤ 1,15) = 

 

 − ≤ − ≤ −

029 , 0

09 ,1 15 ,1 029 , 0

09 ,1 029

, 0

09 ,1 03

,1 x

P

= P(-2,05 ≤ Z ≤ 2,05)

= 2 Φ(2,05) - 1 = 0,9596.

En el Ejemplo 4.9 se comprobó empíricamente que la proporción de muestras de tamaño n = 100 con un nivel medio de colesterol HDL entre 1,03 y 1,15 mmol/l es del 95,4%, que coincide casi perfectamente con el resultado obtenido bajo la aproximación normal.

Como se mostrará en los siguientes temas, el teorema central del límite constituye la base fundamental del proceso de inferencia estadística, dado que posibilita tanto la construcción de intervalos de confianza como el contraste de hipótesis acerca de la media poblacional μ.

In document BIOESTADÍSTICA - GESDoc (página 62-65)