• No se han encontrado resultados

Comparación de medias en distribuciones con igual varianza

In document BIOESTADÍSTICA - GESDoc (página 95-98)

INFERENCIA SOBRE MEDIAS

6.3 COMPARACIÓN DE MEDIAS EN DOS MUESTRAS INDEPENDIENTES

6.3.1 Comparación de medias en distribuciones con igual varianza

Si se asume que las varianzas poblacionales son iguales σ12 = σ22, resulta natural estimar una única varianza combinada a partir de la información disponible en ambas muestras. Así, se obtendrá un estimador más estable de la varianza poblacional, lo que redundará en una mayor precisión de la estimación de la diferencia de medias y en una mayor potencia del contraste.

La media de las varianzas muestrales s12 y s22 podría utilizarse como estimador combinado de la varianza. Esta media es, sin embargo, ineficiente ya que otorga el mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada a partir de una muestra mayor sea más fiable. Para dar más peso a los resultados obtenidos con mayor tamaño muestral, la estimación combinada de la varianza se obtiene como la media de s12 y s22 ponderada por sus correspondientes grados de libertad

6.3.1 Comparación de medias en distribuciones con igual varianza

Si se asume que las varianzas poblaciones son iguales σ12 = σ22, resulta natural estimar una única varianza combinada a partir de la información disponible en ambas muestras.

Así, se obtendrá un estimador más estable de la varianza poblacional, lo que redundará en una mayor precisión de la estimación de la diferencia de medias y en una mayor potencia del contraste.

La media de las varianzas muestrales s12 y s22 podría utilizarse como estimador combinado de la varianza. Esta media es, sin embargo, ineficiente ya que otorga el mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada a partir de una muestra mayor sea más fiable. Para dar más peso a los resultados obtenidos con mayor tamaño muestral, la estimación combinada de la varianza se obtiene como la media de s12 y s22 ponderada por sus correspondientes grados de libertad

2 .

) (

) (

2 ) 1 ( ) 1 (

2 1

1

2 2 1

1 2 2 1

22 2 2

1 2 1

2 1

− +

− +

=

− +

− +

= −

= =

n n

x x x

x n n

s n s s n

n j

j n

i i

El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de la media de cada grupo, y el denominador corresponde al número de grados de libertad para el cálculo de este estimador: n1 – 1 grados de libertad en la primera muestra y n2 – 1 en la segunda, (n1 – 1) + (n2 – 1) = n1 + n2 – 2.

En la distribución muestral de la diferencia de medias, las varianzas desconocidas

12

σ y σ22 pueden entonces sustituirse por la estimación combinada de la varianza s2. Sin embargo, como esta estimación s2 está sujeta al error del muestreo, la distribución El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de la media de cada grupo, y el denominador corresponde al número de grados de libertad para el cálculo de este estimador: n1 – 1 grados de libertad en la primera muestra y n2 – 1 en la segunda, (n1 – 1) + (n2 – 1) = n1 + n2 – 2.

86

Inferencia sobre medias

Pastor-Barriuso R.

En la distribución muestral de la diferencia de medias, las varianzas desconocidas σ12 y σ22 pueden entonces sustituirse por la estimación combinada de la varianza s2. Sin embargo, como esta estimación s2 está sujeta al error del muestreo, la distribución de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una distribución t de Student con n1 + n2 – 2 grados de libertad,

12 de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una distribución t de Student con n1 + n2 – 2 grados de libertad,

2

2 1

2 1 2 1

2

~ 1

1 1

)

( → +

+

tn n

n s n

x

x μ μ .

A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una media (Apartado 5.3.2), puede derivarse un intervalo de confianza al 100(1 - α)% para la diferencia de medias poblacionales μ1 - μ2 como

2 1 2 / 1 , 2 2

1 1 1

2

1 s n n

t x

x − ± n+n α + ,

que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de su error estándar SE(x1 - x2) = s 1/n1 +1/n2 . Notar que este intervalo es una generalización bastante natural del intervalo para la media de una poblacional.

Ejemplo 6.7 En el estudio EURAMIC, la media y la desviación típica del colesterol HDL entre los nca = 462 casos de infarto de miocardio fueron xca = 0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron xco = 1,09 y sco = 0,29 mmol/l. De estos datos se deduce que la estimación puntual de la diferencia en el nivel medio de colesterol HDL es xca - xco = 0,98 - 1,09 = -0,11 mmol/l. Si asumimos una misma variabilidad del colesterol HDL en casos y controles, la varianza combinada de ambas muestras vendría determinado por

; 074 , 2 0

539 462

29 , 0 ) 1 539 ( 25 , 0 ) 1 462 (

2 ) 1 ( ) 1 (

2 2

co ca

co2 2 co

ca 2 ca

− = +

− +

= −

− +

− +

= −

n n

s n

s s n

A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una media (Apartado 5.3.2), puede derivarse un intervalo de confianza al 100(1 – α)% para la diferencia de medias poblacionales μ1 μ2 como

12 de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una distribución t de Student con n1 + n2 – 2 grados de libertad,

2

2 1

2 1 2 1

2

~ 1

1 1

)

( → +

+

tn n

n s n

x

x μ μ .

A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una media (Apartado 5.3.2), puede derivarse un intervalo de confianza al 100(1 - α)% para la diferencia de medias poblacionales μ1 - μ2 como

2 1 2 / 1 , 2 2

1 1 1

2

1 s n n

t x

x − ± n+n α + ,

que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de su error estándar SE(x1 - x2) = s 1/n1 +1/n2 . Notar que este intervalo es una generalización bastante natural del intervalo para la media de una poblacional.

Ejemplo 6.7 En el estudio EURAMIC, la media y la desviación típica del colesterol HDL entre los nca = 462 casos de infarto de miocardio fueron xca = 0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron xco = 1,09 y sco = 0,29 mmol/l. De estos datos se deduce que la estimación puntual de la diferencia en el nivel medio de colesterol HDL es xca - xco = 0,98 - 1,09 = -0,11 mmol/l. Si asumimos una misma variabilidad del colesterol HDL en casos y controles, la varianza combinada de ambas muestras vendría determinado por

; 074 , 2 0

539 462

29 , 0 ) 1 539 ( 25 , 0 ) 1 462 (

2 ) 1 ( ) 1 (

2 2

co ca

co2 2 co

ca 2 ca

− = +

− +

= −

− +

− +

= −

n n

s n s s n

que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de su error estándar

12 de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una distribución t de Student con n1 + n2 – 2 grados de libertad,

2

2 1

2 1 2 1

2

~ 1

1 1

)

( → +

+

tn n

n s n

x

x μ μ .

A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una media (Apartado 5.3.2), puede derivarse un intervalo de confianza al 100(1 - α)% para la diferencia de medias poblacionales μ1 - μ2 como

2 1 2 / 1 , 2 2

1 1 1

2

1 s n n

t x

x − ± n+n α + ,

que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de su error estándar SE(x1 x2) = s 1/n1 +1/n2 . Notar que este intervalo es una generalización bastante natural del intervalo para la media de una poblacional.

Ejemplo 6.7 En el estudio EURAMIC, la media y la desviación típica del colesterol HDL entre los nca = 462 casos de infarto de miocardio fueron xca = 0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron xco = 1,09 y sco = 0,29 mmol/l. De estos datos se deduce que la estimación puntual de la diferencia en el nivel medio de colesterol HDL es xca - xco = 0,98 - 1,09 = -0,11 mmol/l. Si asumimos una misma variabilidad del colesterol HDL en casos y controles, la varianza combinada de ambas muestras vendría determinado por

; 074 , 2 0

539 462

29 , 0 ) 1 539 ( 25 , 0 ) 1 462 (

2 ) 1 ( ) 1 (

2 2

co ca

co2 2 co

ca 2 ca

− = +

− +

= −

− +

− +

= −

n n

s n

s s n

Notar que este intervalo es una generalización bastante natural del intervalo para la media de una población.

Ejemplo 6.7 En el estudio EURAMIC, la media y la desviación típica del colesterol HDL entre los nca = 462 casos de infarto de miocardio fueron

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n n n

i i

+ +

= +

=

=

1 1 2 ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

ca = 0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n n n

i i

+ +

= +

=

=

1 1 2 ...

1

.

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

co = 1,09 y sco = 0,29 mmol/l. De estos datos se deduce que la estimación puntual de la diferencia en el nivel medio de colesterol HDL es

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n n n

i i

+ +

= +

=

=

1 1 2 ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

ca

5 1.2 MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parámetros poblacionales correspondientes. A continuación se describen los principales estimadores de la tendencia central de una variable.

1.2.1 Media aritmética

La media aritmética, denotada por x, se define como la suma de cada uno de los valores muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, la media vendría dada por

n x x

x x

x n n n

i i

+ +

= +

=

=

1 1 2 ...

1 .

La media es la medida de tendencia central más utilizada y de más fácil

interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la tendencia central de la distribución.

Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los

co = 0,98 – 1,09 = – 0,11 mmol/l. Si asumimos una misma variabilidad del colesterol HDL en casos y controles, la varianza combinada de ambas muestras vendría determinado por

12 de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una distribución t de Student con n1 + n2 – 2 grados de libertad,

2

2 1

2 1 2 1

2

~ 1

1 1

)

( → +

+

tn n

n s n

x

x μ μ .

A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una media (Apartado 5.3.2), puede derivarse un intervalo de confianza al 100(1 - α)% para la diferencia de medias poblacionales μ1 - μ2 como

2 1 2 / 1 , 2 2

1 1 1

2

1 s n n

t x

x − ± n+n α + ,

que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de su error estándar SE(x1 - x2) = s 1/n1+1/n2 . Notar que este intervalo es una generalización bastante natural del intervalo para la media de una poblacional.

Ejemplo 6.7 En el estudio EURAMIC, la media y la desviación típica del colesterol HDL entre los nca = 462 casos de infarto de miocardio fueron xca = 0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron xco = 1,09 y sco = 0,29 mmol/l. De estos datos se deduce que la estimación puntual de la diferencia en el nivel medio de colesterol HDL es xca - xco = 0,98 - 1,09 = -0,11 mmol/l. Si asumimos una misma variabilidad del colesterol HDL en casos y controles, la varianza combinada de ambas muestras vendría determinado por

; 074 , 2 0

539 462

29 , 0 ) 1 539 ( 25 , 0 ) 1 462 (

2 ) 1 ( ) 1 (

2 2

co ca

co2 2 co

ca 2 ca

− = +

− +

= −

− +

− +

= −

n n

s n

s s n

es decir, la desviación típica combinada es

13 es decir, la desviación típica combinada es s = 0,074 = 0,272 mmol/l, cuyo valor está más próxima a la desviación típica observada en los controles que en los casos (mayor tamaño muestral de los primeros). Así, el error estándar de la diferencia de medias puede calcularse como

SE(xca - xco) =

539 1 462 272 1 , 1 0 1

co ca

+

= +n

s n = 0,017.

A partir de la diferencia de medias muestrales y de su error estándar, y teniendo en cuenta que la distribución t de Student con nca + nco – 2 = 999 grados de libertad es virtualmente idéntica a una distribución normal estandarizada, el IC al 95% para μca - μco viene dado por

xca - xco ± t999;0,975 SE(xca - xco)

= -0,11 ± 1,96⋅0,017 = (-0,14; -0,08).

De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los sujetos libres de la enfermedad, estando esta diferencia comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.

En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de dos muestras independientes de igual varianza, se emplea el siguiente test estadístico

2 1

2 1 2

1 2 1

1 ) 1

(

n s n

x x x

x SE

x t x

+

= −

= − ,

cuyo valor está más próximo a la desviación típica observada en los controles que en los casos (mayor tamaño muestral de los primeros). Así, el error estándar de la diferencia de medias puede calcularse como

13 es decir, la desviación típica combinada es s = 0,074 = 0,272 mmol/l, cuyo valor está más próxima a la desviación típica observada en los controles que en los casos (mayor tamaño muestral de los primeros). Así, el error estándar de la diferencia de medias puede calcularse como

SE(xca xco) =

539 1 462 272 1 , 1 0 1

co

ca + = +

n

s n = 0,017.

A partir de la diferencia de medias muestrales y de su error estándar, y teniendo en cuenta que la distribución t de Student con nca + nco – 2 = 999 grados de libertad es virtualmente idéntica a una distribución normal estandarizada, el IC al 95% para μca - μco viene dado por

xca - xco ± t999;0,975 SE(xca - xco)

= -0,11 ± 1,96⋅0,017 = (-0,14; -0,08).

De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los sujetos libres de la enfermedad, estando esta diferencia comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.

En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de dos muestras independientes de igual varianza, se emplea el siguiente test estadístico

2 1

2 1 2

1 2 1

1 ) 1

(

n s n

x x x

x SE

x t x

+

= −

= − ,

A partir de la diferencia de medias muestrales y de su error estándar, y teniendo en cuenta que la distribución t de Student con nca + nco – 2 = 999 grados de libertad es virtualmente idéntica a una distribución normal estandarizada, el IC al 95% para μcaμco viene dado por

13 es decir, la desviación típica combinada es s = 0,074 = 0,272 mmol/l, cuyo valor está más próxima a la desviación típica observada en los controles que en los casos (mayor tamaño muestral de los primeros). Así, el error estándar de la diferencia de medias puede calcularse como

SE(xca - xco) =

539 1 462 272 1 , 1 0 1

co

ca + = +

n

s n = 0,017.

A partir de la diferencia de medias muestrales y de su error estándar, y teniendo en cuenta que la distribución t de Student con nca + nco – 2 = 999 grados de libertad es virtualmente idéntica a una distribución normal estandarizada, el IC al 95% para μca - μco viene dado por

xca xco ± t999;0,975 SE(xca xco)

= 0,11 ± 1,96⋅0,017 = ( 0,14; 0,08).

De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los sujetos libres de la enfermedad, estando esta diferencia comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.

En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de dos muestras independientes de igual varianza, se emplea el siguiente test estadístico

2 1

2 1 2

1 2 1

1 ) 1

(

n s n

x x x

x SE

x t x

+

= −

= − ,

− −

− − −

87 Comparación de medias en dos muestras independientes

Pastor-Barriuso R.

De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los sujetos libres de la enfermedad, estando esta diferencia comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.

En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1μ2 a partir de dos muestras independientes de igual varianza, se emplea el siguiente test estadístico

13 es decir, la desviación típica combinada es s = 0,074 = 0,272 mmol/l, cuyo valor está más próxima a la desviación típica observada en los controles que en los casos (mayor tamaño muestral de los primeros). Así, el error estándar de la diferencia de medias puede calcularse como

SE(xca - xco) =

539 1 462 272 1 , 1 0 1

co

ca + = +

n

s n = 0,017.

A partir de la diferencia de medias muestrales y de su error estándar, y teniendo en cuenta que la distribución t de Student con nca + nco – 2 = 999 grados de libertad es virtualmente idéntica a una distribución normal estandarizada, el IC al 95% para μca - μco viene dado por

xca - xco ± t999;0,975 SE(xca - xco)

= -0,11 ± 1,96⋅0,017 = (-0,14; -0,08).

De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los sujetos libres de la enfermedad, estando esta diferencia comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.

En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de dos muestras independientes de igual varianza, se emplea el siguiente test estadístico

2 1

2 1 2

1 2 1

1 ) 1

(

n s n

x x x

x SE

x t x

+

= −

= − ,

que sigue aproximadamente una distribución t de Student con n1 + n2 – 2 grados de libertad si la hipótesis nula H0: μ1 = μ2 es cierta. Por tanto, el valor P se obtiene como el área bajo la distribución

que sigue aproximadamente una distribución t de Student con n1 + n2 - 2 grados de libertad si la hipótesis nula H0: μ1 = μ2 es cierta. Por tanto, el valor P se obtiene como el área bajo la distribución tn1+n22 para valores más extremos que el valor observado de t.

Esta prueba de hipótesis se conoce genéricamente como el test de la t de Student para muestras independientes con igual varianza.

Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente más bajo en los casos de infarto que en los sujetos libres de enfermedad sería compatible con la hipótesis de que el colesterol HDL es un factor protector en el infarto de miocardio. En este ejemplo, se pretende contrastar esta hipótesis a partir de los niveles de colesterol HDL observados en los casos y controles del estudio EURAMIC. El resultado de este contraste, junto con la estimación puntual y por intervalo obtenida en el ejemplo anterior, permiten evaluar no sólo la

significación estadística sino también la relevancia clínica y de salud pública del hallazgo.

Asumiendo igualdad de varianzas poblacionales, el contraste bilateral de la hipótesis nula H0: μca = μco se realiza mediante el estadístico

t = 0,017

0,11 - ) ( ca co

co

ca =

x x SE

x

x = -6,35.

Si ambas medias poblacionales fueran iguales, la distribución de este estadístico sería t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene entonces como el doble de la probabilidad a la izquierda de -6,35 en la

distribución normal estandarizada, que corresponde a P < 0,001. Así, puede concluirse que existen diferencias muy significativas en el nivel medio de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta

para valores más extremos que el valor observado de t. Esta prueba de hipótesis se conoce genéricamente como el test de la t de Student para muestras independientes con igual varianza.

Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente más bajo en los casos de infarto que en los sujetos libres de enfermedad sería compatible con la hipótesis de que el colesterol HDL es un factor protector para el infarto de miocardio. En este ejemplo, se pretende contrastar esta hipótesis a partir de los niveles de colesterol HDL observados en los casos y controles del estudio EURAMIC. El resultado de este contraste, junto con la estimación puntual y por intervalo obtenidas en el ejemplo anterior, permiten evaluar no sólo la significación estadística sino también la relevancia clínica y de salud pública del hallazgo.

Asumiendo igualdad de varianzas poblacionales, el contraste bilateral de la hipótesis nula H0: μca = μco se realiza mediante el estadístico

14 que sigue aproximadamente una distribución t de Student con n1 + n2 - 2 grados de libertad si la hipótesis nula H0: μ1 = μ2 es cierta. Por tanto, el valor P se obtiene como el área bajo la distribución tn1+n22 para valores más extremos que el valor observado de t.

Esta prueba de hipótesis se conoce genéricamente como el test de la t de Student para muestras independientes con igual varianza.

Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente más bajo en los casos de infarto que en los sujetos libres de enfermedad sería compatible con la hipótesis de que el colesterol HDL es un factor protector en el infarto de miocardio. En este ejemplo, se pretende contrastar esta hipótesis a partir de los niveles de colesterol HDL observados en los casos y controles del estudio EURAMIC. El resultado de este contraste, junto con la estimación puntual y por intervalo obtenida en el ejemplo anterior, permiten evaluar no sólo la

significación estadística sino también la relevancia clínica y de salud pública del hallazgo.

Asumiendo igualdad de varianzas poblacionales, el contraste bilateral de la hipótesis nula H0: μca = μco se realiza mediante el estadístico

t = 0,017

0,11 )

( ca co co

ca =

x x SE

x

x = 6,35.

Si ambas medias poblacionales fueran iguales, la distribución de este estadístico sería t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene entonces como el doble de la probabilidad a la izquierda de -6,35 en la

distribución normal estandarizada, que corresponde a P < 0,001. Así, puede concluirse que existen diferencias muy significativas en el nivel medio de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta

− −

Si ambas medias poblacionales fueran iguales, la distribución de este estadístico sería t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene entonces como el doble de la probabilidad a la izquierda de – 6,35 en la distribución normal estandarizada, que corresponde a P < 0,001. Así, puede concluirse que existen diferencias muy significativas en el nivel medio de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta diferencia significativa es perfectamente consistente con el intervalo de confianza calculado en el ejemplo anterior, puesto que éste no contenía al cero (valor nulo para la diferencia de medias).

Los métodos descritos en este apartado pueden extenderse a la comparación de tres o más medias poblacionales. Las técnicas para comparar medias en múltiples muestras independientes se conocen con el nombre de análisis de la varianza de una vía y pueden consultarse en los libros referenciados al final del tema. Aunque estos procedimientos no se tratan explícitamente en este texto, la comparación de múltiples medias a partir de datos independientes también puede abordarse mediante los modelos de regresión lineal que se presentarán más adelante (Temas 10 y 11).

In document BIOESTADÍSTICA - GESDoc (página 95-98)