Hidrología Estadistica

(1)

INDICE

2.1

2.1 POBLACION

2.2 MUESTRA

2.3 HISTOGRAMAS Y POLIGONOS DE FRECUENCIA

2.4 MEDIANA

2.5 MEDIA

2.6 MODA

2.7 DESVIACION MEDIA

2.8 DESVIACION ESTANDAR

2.9 COVARIANZA

2.10 COEFICIENTE DE CORRELACION

2.11 COEFICIENTE DE VARIACION

2.12 COEFICIENTE DE ASIMETRIA

2.13 COEFICIENTE DE CURTOSIS

2.14 DESVIACION ESTANDAR MUESTRAL

2.15 SESGO

III.- MATERIALES

IV.- METODOLOGIA

4.1 DISTRIBUCION DE FRECUENCIAS

4.2 CUADRO DE DISTRIBUCION DE FRECUENCIAS

4.3 CALCULO DE MEDIDAS DESCRIPTIVAS

4.4 CALCULO DE MEDIA POBLACIONAL

V.-

CALCULOS Y RESULTADOS

VI.- DISCUSIÓN E INTERPRETACION

VII.- CONCLUSIONES

VIII.- RECOMENDACIONES

IX.- BIBLIOGRAFIA

(2)

II.- MARCO TEÓRICO.

2.1. DESVIACIÓN ESTÁNDAR MUESTRAL.

La varianza muestral está medida en el cuadrado de las unidades observadas al hacer las mediciones contenidas en la muestra. Para devolverse a una estadística que use las mismas unidades que las observaciones, es necesario calcular su raíz cuadrada.

Lo anterior conduce a la definición de la estadística denominada 'desviación estándar muestral', que no es otra cosa que la raíz cuadrada de la varianza.

Para una muestra de tamaño n, x1, ..., xn, se tiene que:

El uso de esta estadística es recomendado en aquellos conjuntos de datos que ofrecen cierto grado de simetría respecto de su centro. En estos casos, habitualmente tiene sentido medir discrepancias de un valor con el centro de los datos usando múltiplos de la desviación estándar.

A modo de ejemplo, se puede decir que un valor está bastante alejado del centro de los datos si su distancia de él supera dos desviaciones estándar. Apoyándose en la idea anterior, la desviación estándar puede ser usada para determinar valores que se encuentran 'cerca' del centro. Este uso va más allá de la simple descripción, en otros ámbitos de Estadística es usada para tomar decisiones respecto de la población de la que fue extraída la muestra.

2.2. SESGO

Según el diccionario un sesgo es "una inclinación parcial de la mente". En nuestro ámbito, la palabra sesgo sirve para definir la tendencia sistemática de ciertos diseños de ensayos clínicos para producir de forma consistente resultados mejores o peores que otros diseños.

(3)

Skewness o sesgo: Medida estadística que describe la simetría de la distribución alrededor de un promedio. Si el sesgo es igual a cero, la distribución es simétrica; si el sesgo es positivo la distribución una tendrá una cola asimétrica extendida hacia los valores positivos. Un sesgo negativo indica una distribución con una cola asimétrica extendida hacia los valores negativos.

DISTRIBUCIÓN NORMAL o campana de Gauss-Laplace

Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución.

Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana.

En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo valor de p y valores de n cada vez mayores, se ve que sus polígonos de frecuencias se aproximan a una curva en "forma de campana".

En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal

• Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, p.ejm. tallas, pesos, envergaduras, diámetros, perímetros,...

• Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono.

• Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen.

• Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,...

• Errores cometidos al medir ciertas magnitudes.

• Valores estadísticos muestrales, por ejemplo : la media.

• Otras distribuciones como la binomial o la de Poisson son aproximaciones normales, ... Y en general cualquier característica que se obtenga como suma de muchos factores.

(4)

Empleando cálculos bastante laboriosos, puede demostrarse que el modelo de la función de

densidad que corresponde a tales distribuciones viene dado por la fórmula

Representación gráfica de esta función de densidad

La distribución normal queda definida por dos parámetros, su media y su desviación típica y la representamos así

(5)

FUNCIÓN DE DISTRIBUCIÓN

• Puede tomar cualquier valor (-∞, + ∞)

• Son más probables los valores cercanos a uno central que llamamos media  µ.

• Conforme nos separamos de ese valor µ, la probabilidad va decreciendo de igual forma a derecha e izquierda (es simétrica).

• Conforme nos separamos de ese valor µ , la probabilidad va decreciendo de forma más o menos rápida dependiendo de un parámetro σ , que es la desviación típica.

F(x) es el área sombreada de esta gráfica

(6)

Por tanto su función de densidad es

y su función de distribución es

siendo la representación gráfica de esta función

a la variable Z se la denomina variable tipificada de X, y a la curva de su función de densidad curva normal tipificada.

Característica de la distribución normal tipificada (reducida, estándar) • No depende de ningún parámetro

• Su media es 0, su varianza es 1 y su desviación típica es 1.

• La curva f(x) es simétrica respecto del eje OY

• Tiene un máximo en este eje

• Tiene dos puntos de inflexión en z =1 y z = -1

Aproximación de la Binomial por la Normal (Teorema de De Moivre) :

Demostró que bajo determinadas condiciones (para n grande y tanto p como q no estén próximos a cero) la distribución Binomial B(n, p) se puede aproximar mediante una distribución normal

(7)

Debemos tener en cuenta que cuanto mayor sea el valor de n, y cuanto más próximo sea p a 0.5, tanto mejor será la aproximación realizada. Es decir, basta con que se verifique

gracias a esta aproximación es fácil hallar probabilidades binomiales, que para valores grandes de n resulten muy laboriosos de calcular.

Hay que tener en cuenta que para realizar correctamente esta transformación de una variable discreta (binomial) en una variable continua (normal) es necesario hacer una corrección de continuidad.

(8)

(9)

Aplicaciones de la distribución Normal

La mayoria de las variables aleatorias que se presentan en los estudios relacionados con las ciencias sociales, físicas y biológicas, por ejemplo, el peso de niños recién nacidos, talla de jóvenes de 18 años en una determinada región, son continuas y se distribuyen según una función de

densidad , que tiene la siguiente expresión analítica :

Donde μ es la media de la variable aleatoria y σ es su desviación típica. Este tipo de variables se dice que se distribuye normalmente. El área bajo la función de densidad es 1. La función de densidad, en el caso de la distribución Normal, tiene forma de campana:

Para una variable aleatoria X, que se distribuye normalmente con media : μ y desviación típica :

σ, la probabilidad de que la variable X esté comprendida entre los valores a y b es el área teñida

de rojo en la siguiente figura :

(10)

Como el cálculo de esta integral es laborioso, para calcular el área se realiza el siguiente cambio de variable:

Cambio que origina una distribución normal stándar de media μ = 0 y desviación típica σ = 1 cuya función de densidad es :

Y cuyos valores se tabulan:

(11)

La Inferencia Estadística comprende los métodos que son usados para sacar conclusiones de la población en base a una muestra tomada de ella. Incluye los métodos de estimación de parámetros y las pruebas de hipótesis.

La Estimación de parámetros comprende a su vez la Estimación Puntual, en donde se estudian los diversos métodos de encontrar estimadores y las propiedades óptimas que deben tener éstos, y la Estimación por Intervalos de Confianza, en donde se estima un parámetro usando un intervalo centrado en un estimado del parámetro y de longitud igual a dos veces el error de estimación. El Error de estimación depende del nivel de confianza deseado, usualmente, 90, 95 ó 99 por ciento.

Una Hipótesis Estadística es una afirmación que se hace acerca de un parámetro poblacional. Por ejemplo, el tiempo de vida promedio para una persona diagnosticada con cáncer de pulmón es 180 dias. El porcentaje de personas que favorecen a un candidato a la presidencia es 60%.

La afirmación que está establecida y que se espera sea rechazada después de aplicar una prueba estadística es llamada la hipótesis nula y se representa por Ho.

La afirmación que se espera sea aceptada después de aplicar una prueba

estadística es llamada la hipótesis alterna y se representa por Ha. Una hipótesis alterna puede ser de una o de dos lados. Por ejemplo, el tiempo de vida promedio para una persona diagnosticada con cáncer de pulmón es distinto 180 dias. El porcentaje de personas que favorecen a un candidato a la presidencia es menor del 60%.

En problemas de expresión genética cuando se hacen prueba de hipótesis acerca de la media del nivel de expresión genética de un gen. Si la hipótesis alterna es de la forma “>” entonces se está probando si el gen está sobre regulado con repecto a la condición normal y si es de la forma “<” entonces se dice que el gen está sub-regulado con respecto a la condición normal

Una prueba estadística es una fórmula, basada en la distribución del estimador del parámetro que aparece en la hipótesis y que va a permitir tomar una decisión acerca de aceptar o rechazar una hipótesis nula .

Al igual que una prueba de laboratorio para detectar cierta enfermedad, una prueba estadística no es ciento por ciento segura y puede llevar a una conclusión errónea. Hay dos tipos de errores que pueden ocurrir. El error tipo I, que se comete cuando se rechaza una hipótesis nula que realmente es cierta y el error tipo II que se comete cuando se acepta una hipótesis nula que realmente es falsa.

La prueba rechaza la

hipótesis nula La prueba acepta la hipótesis nula La hipótesis nula

realmente es cierta Error tipo I(FALSO POSITIVO) No hay error La hipótesis nula

realmente es falsa

No hay error Error tipo II

(12)

El nivel de significación, representada por α, es la probabilidad de cometer error tipo I, y por lo general se asume que tiene un valor de .05 ó .01. También puede ser interpretado como el área de la región que contiene todos los valores posibles donde la hipótesis nula es rechazada.

La probabilidad de cometer error tipo II, se representa por β y al valor 1-β se le llama la potencia de la prueba. El error tipo II no es directamente controlado por el usuario. Una buena prueba estadística es aquella que tiene una potencia alta, pero hay que tener en cuenta que si el nivel de significación se toma más pequeño entonces la potencia de la prueba también disminuye.

7.1 Inferencias acerca de la Media Poblacional (varianza conocida).

Supongamos que de una población normal con media desconocida µ. y varianza conocida σ2 _{se extrae una muestra de tamaño n, entonces de la distribución de la media} muestral x se obtiene que:

Se distribuye como una normal estándar. Luego,P(−za/2 <z<za/2)=1−α

Donde Zα/2 es un valor de la normal estándar tal que el área a la derecha de dicho valor es α/2, como se muestra en la siguiente figura:

Figura 7.1. Relación de α/2 y Zα/2 en la curva normal estándar

Sustituyendo la fórmula de z se obtiene: n x z σ−µ = α σµ α α < − < = − − ) 1 ( /2 z /2 n x z P 1−α α/2 α/2 -Z Z α/2 α/2

(13)

Haciendo un despeje algebráico, se obtiene

P(x- Zα/2 σ/ n <µ <x+ Zα/2 σ/ n)=1-α

De lo anterior se puede concluir que un Intervalo de Confianza del 100(1-α)% para la media poblacional µ,. es de la forma:

x - Zα/2 σ/ n, x + Zα/2σ/ n

Usualmente α=.1, .05 ó .01, que corresponden a intervalos de confianza del 90, 95 y 99 por ciento respectivamente. La siguiente tabla muestra los Zα/2 más usados.

Nivel de Confianza Zα/2 90 1.645 95 1.96 99 2.58

En la práctica si la media poblacional es desconocida entonces, es bien probable que la varianza también lo sea puesto que en el cálculo de σ2 _interviene_µ_{. Si ésta es la} situación, y si el tamaño de muestra es grande ( n>30, parece ser lo más usado), entonces σ2 _{es estimada por la varianza muestral s}2_{y se puede usar la siguiente} fórmula para el intervalo de confianza de la media poblacional:

x - Zα/2 s/ n , x + Zα/2 s/ n

Existen dos métodos de hacer la prueba de hipótesis: el método clásico y el método del "P-value".

En el método clásico, se evalúa la prueba estadística de Z y al valor obtenido se le llama Z calculado (Zcalc). Por otro lado el nivel de significación α dado determina una región de rechazo y una de aceptación. Si Zcalc cae en la región de rechazo, entonces se concluye que hay suficiente evidencia estadística para rechazar la hipótesis nula basada en los resultados de la muestra tomada.

Las fórmulas están resumidas en la siguiente tabla:

Caso I Caso II Caso III

Ho : µ=µ0 Ho : µ=µ0 Ho : µ=µ0 Ha : µ<µ0 Ha : µ≠µ0 Ha : µ>µ0 Prueba Estadística: n x Z o σµ − =

(14)

Decisión:

Si Zcal < -Zαentonces Si |Zcal |>Zα/2 entonces Si Zcal >Zαentonces se rechaza Ho se rechaza Ho se rechaza Ho

Aquí Zα es el valor de la normal estándar tal que el área a la derecha de dicho valor es α. Recordar también que σ puede ser sustituído por s, cuando la muestra es relativamente grande (n>30). Los valores de α más usados son 0.01 y 0.05. Si se rechaza la hipótesis nula al .01 se dice que la hipótesis alterna es altamente significativa y al .05 que es significativa.

Trabajar sólo con esos dos valores de α simplificaba mucho el aspecto computacional, pero por otro lado creaba restricciones. En la manera moderna de probar hipótesis se usa una cantidad llamada “P-value”.

El “P-value” llamado el nivel de significación observado, es el valor de α al cual se rechazaría la hipotesis nula si se usa el valor calculado de la prueba estadística. En la práctica un “P-value” cercano a 0 indica un rechazo de la hipótesis nula. Así un “P-value” menor que .05 indicará que se rechaza la prueba estadística.

Fórmulas para calcular “P-value”:

i) Si Ho: µ>µo, entonces P-value=Prob(Z>Zcalc). ii) Si Ho: µ<µo, entonces P-value=Prob(Z<Zcalc). iii) Si Ho: µ≠µo, entonces P-value=2Prob(Z>|Zcalc||).

Los principales programas estadísticos dan los “P-values” para la mayoría de las pruebas estadisticas.

A través de todo el texto usamos el método del "P-value" para probar hipótesis.

7.2 Inferencias acerca de la Media Poblacional (Varianza Desconocida)

Supongamos que la población es normal con media y varianza desconocida y que se desea hacer inferencias acerca de µ, basada en una muestra pequeña (n<30) tomada de la población. En este caso la distribución de la media muestral x ya no es normal, sino que sigue la distribución t de Student.

(15)

La distribución t de Student es bastante similar a la Normal Estándar, con la diferencia que se aproxima más lentamente al eje horizontal. El parámetro de esta distribución es llamado grados de libertad, y se puede notar que a medida que los grados de libertad aumentan, la curva de la t y la curva normal estándar se asemejan cada vez más. Los grados de libertad guardan relación con el número de datos que se usan para calcular la expresión y el número de estimaciones de parámetros que aparecen en la misma. Por cada estimación de parámetro que aparece en la fórmula se pierde un grado de libertad.

Figura 7.6. Relación entre la curva normal estándar y una curva t

Propiedad: Si de una población Normal con media µ y desviación estándar σ se extrae una muestra de tamaño n, entonces el estadístico:

n s x t= −µ

se distribuye como una t de Student con n-1 grados de libertad. Esta expresión es la base para hacer inferencia estadística para la media de una población Normal cuando la varianza no es conocida.

Un intervalo de confianza del 100(1-α)% para µ. es de la forma: ( x - t(n-1,α/2) s/ n, x + t(n-1,α/2) s/ n )

donde s es la desviación estándar muestral. Aquí t(n-1,α/2) es un valor de t con n-1 grados de libertad y tal que el área a la derecha de dicho valor es α/2.

También se puede hacer las siguientes pruebas de hipótesis:

-4 -3 -2 -1 0 1 2 3 4 0.0 0.1 0.2 0.3 0.4 x C 2

Curva Normal Estandar y T con 5 grados de libertad

Hecho por Edgar Acuna

Curva Normal Estandar

(16)

Caso I Caso II Caso III Ho : µ=µ0 Ho : µ=µ0 Ho : µ=µ0 Ha : µ<µ0 Ha : µ≠ µ0 Ha : µ>µ0 Prueba Estadística T= n s x−µo es una t con n-1 g.l. Decisión