Comparación de medias en distribuciones con igual varianza

INFERENCIA SOBRE MEDIAS

6.3 COMPARACIÓN DE MEDIAS EN DOS MUESTRAS INDEPENDIENTES

6.3.1 Comparación de medias en distribuciones con igual varianza

Si se asume que las varianzas poblacionales son iguales σ₁² = σ₂², resulta natural estimar una única varianza combinada a partir de la información disponible en ambas muestras. Así, se obtendrá un estimador más estable de la varianza poblacional, lo que redundará en una mayor precisión de la estimación de la diferencia de medias y en una mayor potencia del contraste.

La media de las varianzas muestrales s1² y s²2 podría utilizarse como estimador combinado de la varianza. Esta media es, sin embargo, ineficiente ya que otorga el mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada a partir de una muestra mayor sea más fiable. Para dar más peso a los resultados obtenidos con mayor tamaño muestral, la estimación combinada de la varianza se obtiene como la media de s₁² y s₂² ponderada por sus correspondientes grados de libertad

6.3.1 Comparación de medias en distribuciones con igual varianza

Si se asume que las varianzas poblaciones son iguales σ1² = σ2², resulta natural estimar una única varianza combinada a partir de la información disponible en ambas muestras.

Así, se obtendrá un estimador más estable de la varianza poblacional, lo que redundará en una mayor precisión de la estimación de la diferencia de medias y en una mayor potencia del contraste.

La media de las varianzas muestrales s1² y s2² podría utilizarse como estimador combinado de la varianza. Esta media es, sin embargo, ineficiente ya que otorga el mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada a partir de una muestra mayor sea más fiable. Para dar más peso a los resultados obtenidos con mayor tamaño muestral, la estimación combinada de la varianza se obtiene como la media de s1² y s2² ponderada por sus correspondientes grados de libertad

2 .

) (

2 ) 1 ( ) 1 (

2 1

2 2 1

1 2 2 1

22 2 2

1 2 1

2 1

− +

−

− +

= −



= =

n n

x x x

x n n

s n s s n

n j

j n

i i

El numerador de s² es simplemente la suma de las desviaciones al cuadrado respecto de la media de cada grupo, y el denominador corresponde al número de grados de libertad para el cálculo de este estimador: n1 – 1 grados de libertad en la primera muestra y n2 – 1 en la segunda, (n1 – 1) + (n2 – 1) = n1 + n2 – 2.

En la distribución muestral de la diferencia de medias, las varianzas desconocidas

σ y σ2² pueden entonces sustituirse por la estimación combinada de la varianza s². Sin embargo, como esta estimación s² está sujeta al error del muestreo, la distribución El numerador de s² es simplemente la suma de las desviaciones al cuadrado respecto de la media de cada grupo, y el denominador corresponde al número de grados de libertad para el cálculo de este estimador: n₁ – 1 grados de libertad en la primera muestra y n₂ – 1 en la segunda, (n₁ – 1) + (n₂ – 1) = n₁ + n₂ – 2.

Inferencia sobre medias

Pastor-Barriuso R.

En la distribución muestral de la diferencia de medias, las varianzas desconocidas σ₁² y σ₂² pueden entonces sustituirse por la estimación combinada de la varianza s². Sin embargo, como esta estimación s² está sujeta al error del muestreo, la distribución de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una distribución t de Student con n₁ + n₂ – 2 grados de libertad,

12 de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una distribución t de Student con n1 + n2 – 2 grados de libertad,

2 1

2 1 2 1

~ 1

1 1

)

( → + −

−

− tn n

n s n

x μ μ .

A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una media (Apartado 5.3.2), puede derivarse un intervalo de confianza al 100(1 - α)% para la diferencia de medias poblacionales μ1 - μ2 como

2 1 2 / 1 , 2 2

1 1 1

1 s n n

t x

x − ± n+n − −α + ,

que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de su error estándar SE(x1 - x2) = s 1/n1 +1/n2 . Notar que este intervalo es una generalización bastante natural del intervalo para la media de una poblacional.

Ejemplo 6.7 En el estudio EURAMIC, la media y la desviación típica del colesterol HDL entre los nca = 462 casos de infarto de miocardio fueron xca = 0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron xco = 1,09 y sco = 0,29 mmol/l. De estos datos se deduce que la estimación puntual de la diferencia en el nivel medio de colesterol HDL es xca - xco = 0,98 - 1,09 = -0,11 mmol/l. Si asumimos una misma variabilidad del colesterol HDL en casos y controles, la varianza combinada de ambas muestras vendría determinado por

; 074 , 2 0

539 462

29 , 0 ) 1 539 ( 25 , 0 ) 1 462 (

2 ) 1 ( ) 1 (

2 2

co ca

co2 2 co

ca 2 ca

− = +

− +

= −

− +

= −

n n

s n

s s n

A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una media (Apartado 5.3.2), puede derivarse un intervalo de confianza al 100(1 – α)% para la diferencia de medias poblacionales μ₁– μ₂ como

12 de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una distribución t de Student con n1 + n2 – 2 grados de libertad,

2 1

2 1 2 1

~ 1

1 1

)

( → + −

−

− tn n

n s n

x μ μ _.

2 1 2 / 1 , 2 2

1 1 1

1 s n n

t x

x − ± n+n − −α + ,

; 074 , 2 0

539 462

29 , 0 ) 1 539 ( 25 , 0 ) 1 462 (

2 ) 1 ( ) 1 (

2 2

co ca

co2 2 co

ca 2 ca

− = +

− +

= −

− +

= −

n n

s n s s n

que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de su error estándar

12 de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una distribución t de Student con n1 + n2 – 2 grados de libertad,

2 1

2 1 2 1

~ 1

1 1

)

( → + −

−

− tn n

n s n

x μ μ _.

2 1 2 / 1 , 2 2

1 1 1

1 s n n

t x

x − ± n+n − −α + ,

que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de su error estándar SE(x1 x2) = s 1/n1 +1/n2 . Notar que este intervalo es una generalización bastante natural del intervalo para la media de una poblacional.

; 074 , 2 0

539 462

29 , 0 ) 1 539 ( 25 , 0 ) 1 462 (

2 ) 1 ( ) 1 (

2 2

co ca

co2 2 co

ca 2 ca

− = +

− +

= −

− +

= −

n n

s n

s s n

− Notar que este intervalo es una generalización bastante natural del intervalo para la media de una población.

Ejemplo 6.7 En el estudio EURAMIC, la media y la desviación típica del colesterol HDL entre los n_ca = 462 casos de infarto de miocardio fueron

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n ⁿ ⁿ

i i

+ +

= +



1 1 2 ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

ca = 0,98 y s_ca = 0,25 mmol/l, y entre los n_co = 539 controles fueron

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

1.2.1 Media aritmética

n x x

x x

x n ⁿ ⁿ

i i

+ +

= +



1 1 2 ...

La media es la medida de tendencia central más utilizada y de más fácil

co = 1,09 y s_co = 0,29 mmol/l. De estos datos se deduce que la estimación puntual de la diferencia en el nivel medio de colesterol HDL es

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

1.2.1 Media aritmética

n x x

x x

x n ⁿ ⁿ

i i

+ +

= +



1 ₁ ₂ ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

ca –

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

1.2.1 Media aritmética

n x x

x x

x n ⁿ ⁿ

i i

+ +

= +



1 ₁ ₂ ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

co = 0,98 – 1,09 = – 0,11 mmol/l. Si asumimos una misma variabilidad del colesterol HDL en casos y controles, la varianza combinada de ambas muestras vendría determinado por

12 de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una distribución t de Student con n1 + n2 – 2 grados de libertad,

2 1

2 1 2 1

~ 1

1 1

)

( → + −

−

− tn n

n s n

x μ μ _.

2 1 2 / 1 , 2 2

1 1 1

1 s n n

t x

x − ± n+n − −α + ,

que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de su error estándar SE(x1 - x2) = s 1/n1+1/n2 . Notar que este intervalo es una generalización bastante natural del intervalo para la media de una poblacional.

; 074 , 2 0

539 462

29 , 0 ) 1 539 ( 25 , 0 ) 1 462 (

2 ) 1 ( ) 1 (

2 2

co ca

co2 2 co

ca 2 ca

− = +

− +

= −

− +

= −

n n

s n

s s n

es decir, la desviación típica combinada es

13 es decir, la desviación típica combinada es s = 0,074 = 0,272 mmol/l, cuyo valor está más próxima a la desviación típica observada en los controles que en los casos (mayor tamaño muestral de los primeros). Así, el error estándar de la diferencia de medias puede calcularse como

SE(xca - xco) =

539 1 462 272 1 , 1 0 1

co ca

= +n

s n = 0,017.

A partir de la diferencia de medias muestrales y de su error estándar, y teniendo en cuenta que la distribución t de Student con nca + nco – 2 = 999 grados de libertad es virtualmente idéntica a una distribución normal estandarizada, el IC al 95% para μca - μco viene dado por

xca - xco ± t999;0,975 SE(xca - xco)

= -0,11 ± 1,96⋅0,017 = (-0,14; -0,08).

De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los sujetos libres de la enfermedad, estando esta diferencia comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.

En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de dos muestras independientes de igual varianza, se emplea el siguiente test estadístico

2 1

2 1 2

1 2 1

1 ) 1

(

n s n

x x x

x SE

x t x

= −

−

= − ,

cuyo valor está más próximo a la desviación típica observada en los controles que en los casos (mayor tamaño muestral de los primeros). Así, el error estándar de la diferencia de medias puede calcularse como

SE(xca xco) =

539 1 462 272 1 , 1 0 1

ca + = +

s n = 0,017.

xca - xco ± t999;0,975 SE(xca - xco)

= -0,11 ± 1,96⋅0,017 = (-0,14; -0,08).

2 1

2 1 2

1 2 1

1 ) 1

(

n s n

x x x

x SE

x t x

= −

−

= − ,

−

A partir de la diferencia de medias muestrales y de su error estándar, y teniendo en cuenta que la distribución t de Student con n_ca + n_co – 2 = 999 grados de libertad es virtualmente idéntica a una distribución normal estandarizada, el IC al 95% para μ_ca – μ_co viene dado por

SE(xca - xco) =

539 1 462 272 1 , 1 0 1

ca + = +

s n = 0,017.

xca xco ± t999;0,975 SE(xca xco)

= 0,11 ± 1,96⋅0,017 = ( 0,14; 0,08).

2 1

2 1 2

1 2 1

1 ) 1

(

n s n

x x x

x SE

x t x

= −

−

= − ,

− −

− − −

87 Comparación de medias en dos muestras independientes

Pastor-Barriuso R.

En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta hipótesis nula H₀: μ₁ = μ₂ frente a la hipótesis alternativa bilateral H₁: μ₁ ≠ μ₂ a partir de dos muestras independientes de igual varianza, se emplea el siguiente test estadístico

SE(xca - xco) =

539 1 462 272 1 , 1 0 1

ca + = +

s n = 0,017.

xca - xco ± t999;0,975 SE(xca - xco)

= -0,11 ± 1,96⋅0,017 = (-0,14; -0,08).

2 1

2 1 2

1 2 1

1 ) 1

(

n s n

x x x

x SE

x t x

= −

−

= − ,

que sigue aproximadamente una distribución t de Student con n₁ + n₂ – 2 grados de libertad si la hipótesis nula H₀: μ₁ = μ₂ es cierta. Por tanto, el valor P se obtiene como el área bajo la distribución

que sigue aproximadamente una distribución t de Student con n1 + n2 - 2 grados de libertad si la hipótesis nula H0: μ1 = μ2 es cierta. Por tanto, el valor P se obtiene como el área bajo la distribución tn1+n2−2 para valores más extremos que el valor observado de t.

Esta prueba de hipótesis se conoce genéricamente como el test de la t de Student para muestras independientes con igual varianza.

Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente más bajo en los casos de infarto que en los sujetos libres de enfermedad sería compatible con la hipótesis de que el colesterol HDL es un factor protector en el infarto de miocardio. En este ejemplo, se pretende contrastar esta hipótesis a partir de los niveles de colesterol HDL observados en los casos y controles del estudio EURAMIC. El resultado de este contraste, junto con la estimación puntual y por intervalo obtenida en el ejemplo anterior, permiten evaluar no sólo la

significación estadística sino también la relevancia clínica y de salud pública del hallazgo.

Asumiendo igualdad de varianzas poblacionales, el contraste bilateral de la hipótesis nula H0: μca = μco se realiza mediante el estadístico

t = 0,017

0,11 - ) ( ca co

ca =

−

− x x SE

x = -6,35.

Si ambas medias poblacionales fueran iguales, la distribución de este estadístico sería t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene entonces como el doble de la probabilidad a la izquierda de -6,35 en la

distribución normal estandarizada, que corresponde a P < 0,001. Así, puede concluirse que existen diferencias muy significativas en el nivel medio de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta

para valores más extremos que el valor observado de t. Esta prueba de hipótesis se conoce genéricamente como el test de la t de Student para muestras independientes con igual varianza.

Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente más bajo en los casos de infarto que en los sujetos libres de enfermedad sería compatible con la hipótesis de que el colesterol HDL es un factor protector para el infarto de miocardio. En este ejemplo, se pretende contrastar esta hipótesis a partir de los niveles de colesterol HDL observados en los casos y controles del estudio EURAMIC. El resultado de este contraste, junto con la estimación puntual y por intervalo obtenidas en el ejemplo anterior, permiten evaluar no sólo la significación estadística sino también la relevancia clínica y de salud pública del hallazgo.

Asumiendo igualdad de varianzas poblacionales, el contraste bilateral de la hipótesis nula H₀: μ_ca = μ_co se realiza mediante el estadístico

14 que sigue aproximadamente una distribución t de Student con n1 + n2 - 2 grados de libertad si la hipótesis nula H0: μ1 = μ2 es cierta. Por tanto, el valor P se obtiene como el área bajo la distribución tn1+n2−2 para valores más extremos que el valor observado de t.

Esta prueba de hipótesis se conoce genéricamente como el test de la t de Student para muestras independientes con igual varianza.

significación estadística sino también la relevancia clínica y de salud pública del hallazgo.

Asumiendo igualdad de varianzas poblacionales, el contraste bilateral de la hipótesis nula H0: μca = μco se realiza mediante el estadístico

t = 0,017

0,11 )

( ca co co

ca =

−

− x x SE

x = 6,35.

− −

Si ambas medias poblacionales fueran iguales, la distribución de este estadístico sería t₉₉₉ o aproximadamente normal estandarizada. El valor P bilateral se obtiene entonces como el doble de la probabilidad a la izquierda de – 6,35 en la distribución normal estandarizada, que corresponde a P < 0,001. Así, puede concluirse que existen diferencias muy significativas en el nivel medio de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta diferencia significativa es perfectamente consistente con el intervalo de confianza calculado en el ejemplo anterior, puesto que éste no contenía al cero (valor nulo para la diferencia de medias).

Los métodos descritos en este apartado pueden extenderse a la comparación de tres o más medias poblacionales. Las técnicas para comparar medias en múltiples muestras independientes se conocen con el nombre de análisis de la varianza de una vía y pueden consultarse en los libros referenciados al final del tema. Aunque estos procedimientos no se tratan explícitamente en este texto, la comparación de múltiples medias a partir de datos independientes también puede abordarse mediante los modelos de regresión lineal que se presentarán más adelante (Temas 10 y 11).

In document BIOESTADÍSTICA - GESDoc (página 95-98)