• No se han encontrado resultados

PRÁCTICA 5. LA DISTRIBUCIÓN NORMAL

N/A
N/A
Protected

Academic year: 2021

Share "PRÁCTICA 5. LA DISTRIBUCIÓN NORMAL"

Copied!
15
0
0

Texto completo

(1)

PRÁCTICA 5. LA DISTRIBUCIÓN NORMAL

Objetivo

El objetivo de la presente práctica informática es aplicar los conceptos vistos en clase sobre la distribución Normal. Comprobar sus propiedades y compararla con otras distribuciones, utilizando para ello representaciones gráficas y parámetros, algunos de los cuales ya se introdujeron en la Unidad Didáctica 2.

1. Características de la distribución Normal

a) Observa la forma de la función de densidad f(x) que caracteriza a la distribución

Normal de la variable aleatoria DUREZA DE LOS ASIENTOS utilizada en el Ejercicio 16 de la UD4-Parte 3.

Opciones: Graficar Distribuciones de Probabilidad (Normal)

(2)

Respuesta:

En la ventana superior derecha aparece el gráfico de la función de densidad de la Normal de media 185 y desviación típica 12. Tiene forma simétrica y encierra un área con forma de campana centrada en el valor 185.

b) Calcula un intervalo de valores de DUREZA que contenga el 95% de TODOS los

asientos fabricados (Población). Compara el resultado con las propiedades enunciadas en el apartado 1.5.2 de la UD4-Parte 3.

Opciones: Tablas y Gráficos (icono en la parte superior izquierda) Distribuciones Acumuladas Inversas

Media,Desv. Est. 185,12 Normal 120 150 180 210 240 270 x 0 0,01 0,02 0,03 0,04 d e n s id a d

(3)

Y con la tecla derecha del ratón abrir la ventana para seleccionar Opciones de Ventana y en FDA poner 0,025 y 0,975

Respuesta:

Se estudió en las propiedades de la distribución normal que P(m-2σ<N(m,σ)<m+2σ)≈0,95

Por tanto la probabilidad acumulada por debajo de m-2σ es aproximadamente 0,025 y por debajo de m+2σ es aproximadamente 0,975. Al haber indicado esas dos probabilidades en FDA el programa nos dará los valores 161,48 y 208,52 que están muy próximos a 185-2.12=161 y 185+2.12=208 calculados aplicando las propiedades de la distribución normal.

2. Comparación de la distribución Normal con otras distribuciones

Se ha tomado una muestra de 100 asientos y se ha medido su dureza (los valores se recogen en la variable DUREZA). Asimismo, se ha tomado una muestra de 100 pantallas LCD (Ejercicio 12 de la UD4-Parte 2) y se ha medido el tiempo (horas) hasta que dejan de funcionar correctamente (los valores se recogen en la variable TIEMPO). Los datos de las variables DUREZA y TIEMPO se encuentran en el fichero PRACT5-GII.SF3 disponible en PoliformaT. Descargar el fichero de Recursos..practicas….ficheros de

datos. Abrirlo con Archivo…Abrir…Abrir datos (Archivo de Datos STATGRAPHICS)

En buscar poner el subdirectorio en el que se haya descargado el fichero.

a) Construye para cada una de las muestras un histograma, el diagrama Box&Whisker,

representa los valores en Papel Probabilístico Normal y compáralos. ¿Qué puedes decir respecto de las distribuciones de las cuales provienen?

Opciones: Describir…Datos Numéricos…Análisis de Una Variable. Primero ponemos en Datos la variable DUREZA. Para obtener el Histograma y la representación en Papel Probabilístico Normal seleccionar en Tablas y Gráficos Histograma y Gráfico de

Probabilidad. Repetir la operación con la variable TIEMPO. Respuesta:

Los tres gráficos para la variable DUREZA son:

FDA Inversa Distribución: Normal

FDA Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5

0,025 161,4803872

0,975 208,5196128

0,5 185

0,9 200,3786523 0,99 212,9162261

(4)

En el histograma cambiar con Opciones de Ventana el número de clases a 10 (raíz cuadrada de N=100 número de datos) y poner como límites el inferior 156 y el superior 211 (valores cercanos al mínimo y máximo de la muestra):

Gráfico de Caja y Bigotes

150 170 190 210 230 DUREZA Histograma 150 170 190 210 230 DUREZA 0 4 8 12 16 20 fr e c u e n c ia

(5)

Se observa en el diagrama Box&Whisker que la distribución es simétrica. En el histograma la distribución de frecuencias tiene forma aproximada de campana. En el papel probabilístico normal recordad que se representan en el eje Y los porcentajes acumulados y en el eje X los valores ordenados de la muestra. La escala del eje Y es especial para la distribución Normal, de forma que si los datos siguen esta distribución al hacer la representación aparecen cercanos a una línea recta. Esto es lo que se observa para la variable DUREZA. Por tanto la conclusión es que la DUREZA sigue distribución Normal.

Para la variable TIEMPO los tres gráficos son:

Gráfico de Probabilidad Normal

150 170 190 210 230 DUREZA 0,1 1 5 20 50 80 95 99 99,9 p o rc e n ta je n:100 Media:185,2 Sigma:11,3074 W:0,981363 P:0,5995

(6)

En el histograma cambiar con Opciones de Ventana el número de clases a 10 (raíz cuadrada del número de datos N=100) y los límites inferior y superior a inferior=1,3 y superior=241, valores cercanos al mínimo y máximo de la muestra.

Gráfico de Caja y Bigotes

0 50 100 150 200 250 TIEMPO Histograma 0 50 100 150 200 250 TIEMPO 0 10 20 30 40 50 fr e c u e n c ia

(7)

Se observa en el diagrama Box&Whisker de TIEMPO que la variable es asimétrica positiva (la distancia entre mínimo y mediana es menor que la distancia entre mediana y máximo). El histograma confirma con la distribución de frecuencias esa distribución. Finalmente la representación en papel probabilístico normal es una curva. Por tanto el TIEMPO no sigue una distribución normal.

b) Obtener la media, la mediana, la desviación típica y los parámetros estándar de

asimetría y curtosis para las variables TIEMPO y DUREZA. ¿Qué se observa entre la media y la mediana de cada variable? ¿Qué puedes decir respecto de la asimetría y curtosis?

Para obtener estos parámetros muestrales desde la misma opción Describir…Datos

Numericos…Análisis de Una Variable hay que mirar la ventana que tiene como título Resumen Estadístico y con la tecla derecha del ratón abrir una ventana en la que

seleccionados Opciones de Ventana y en ella marcamos Promedio Mediana

Desviación Estándar Sesgo Estd. y Curtosis Estd. Lo hacemos para cada una de las

variables.

Respuesta:

Los parámetros pedidos para DUREZA son:

Se observa que media y mediana son muy parecidas como ocurre con datos normales (simétricos), La asimetría estandarizada (Sesgo Estandarizado) es un valor que está en el intervalo (-2,2) como pasa con datos simétricos. La curtosis estandarizada está dentro del intervalo (-2,2) por lo que son datos normales o mesocúrticos.

Gráfico de Probabilidad Normal

0 50 100 150 200 250 TIEMPO 0,1 1 5 20 50 80 95 99 99,9 p o rc e n ta je n:100 Media:39,8454 Sigma:41,156 W:0,783759 P:0,0000

Resumen Estadístico para DUREZA

Recuento 100 Promedio 185,2 Mediana 185,484 Desviación Estándar 11,3074 Sesgo Estandarizado -0,442787 Curtosis Estandarizada -0,655697

(8)

Sin embargo para la variable TIEMPO se observa que la media 39,84 es mayor que la mediana 26,78 como ocurre con datos con asimetría positiva. La asimetría estandarizada 8,92 está claramente por encima de 2, lo que confirma la asimetría positiva. La curtosis estandarizada 12,48 es mayor que 2 por lo que son datos leptocúrticos y no siguen distribución normal.

c) ¿Cómo podrías calcular aproximadamente sobre el Papel Probabilístico Normal la

media y la desviación típica de las distribuciones DUREZA y TIEMPO?

Respuesta:

Se puede calcular la media y desviación típica de DUREZA sobre el papel probabilístico normal porque hay una recta que ajusta a los puntos. Para la variable TIEMPO no se puede calcular la media y la desviación típica con el papel probabilístico normal porque como se aprecia en el gráfico siguen una curva y no se puede ajustar una recta al no tener distribución normal.

Para calcular la media m y la desviación típica σ de DUREZA de forma aproximada se utilizarán las propiedades de la distribución normal. La media m en esa distribución coincide con la mediana, que es el percentil 50 es decir el valor que deja por debajo una probabilidad acumulada del 50%. Por tanto sobre el gráfico de papel probabilístico normal (Gráfico de Probabilidad Normal) hacer doble click con la techa izquierda del ratón para maximizar la ventana. Después con la tecla derecha del ratón abrir una ventana en la que estará activado Localizar, seleccionarlo y a continuación mover las líneas auxiliares que aparecen de forma que la horizontal esté en Y:50% y mover la vertical hasta que corte la recta de los datos y la línea vertical. La coordenada X del punto de corte es aproximadamente la media. La figura siguiente muestra un posible resultado de esta operación:

Resumen Estadístico para TIEMPO

Recuento 100 Promedio 39,8454 Mediana 26,7829 Desviación Estándar 41,156 Sesgo Estandarizado 8,91972 Curtosis Estandarizada 12,4844

(9)

Como se observa para Y:50% se lee X m≈185,04.

Para estimar aproximadamente la desviación típica σ a partir del papel probabilístico normal se puede utilizar la propiedad de la normal P(m-2σ<N(m,σ)<m+2σ)≈0,95. Así la probabilidad acumulada por debajo de m+2σ es aproximadamente 97,5% (m+2σ es el percentil 97,5%). Nos vamos al gráfico de papel probabilístico normal y con Localizar colocamos la línea horizontal en Y cerca de 97,5 y la vertical que corte con ella y la línea de los datos. La coordenada X del punto de corte será aproximadamente m+2σ. Por ejemplo puede resultar:

(10)

RECUERDA. La media (m) y la desviación típica () obtenidas son las de la población (UD4). La media y desviación típica muestrales (X̅ y S) se calcularían a partir de los datos (UD2).

3. Aproximaciones normales

Construye la función de probabilidad P(x) de 3 variables de Poisson, una con =1, otra con =2 y una tercera con =10. ¿Qué se observa?

Para construir las tres funciones de probabilidad ir a la opción Graficar…Distribuciones

de Probabilidad y en la lista de distribuciones que aparece seleccionar Poisson.

Una vez seleccionada poner en Media los tres valores del parámetro λ de las tres distribuciones: 1, 2 y 10 cada uno en una casilla. Tras pulsar Ok aparecerá en el gráfico de la parte superior derecha las tres funciones de probabilidad.

(11)

Se observa que cuando λ es mayor que 9 la función de probabilidad se aproxima a la distribución normal de campana de Gauss.

4. Teorema Central del Límite

a) Observa la forma de la función de densidad f(x) que caracteriza a la distribución

Uniforme de la variable aleatoria TIEMPO DE ACCESO A UN FICHERO del Ejercicio 11 de la UD4-Parte 3.

Opciones: Graficar Distribuciones de Probabilidad (Uniforme)

Indicar a continuación: Límite Inferior=0,1 Límite Superior=0,5.

Media 1 2 10 Poisson 0 5 10 15 20 25 30 x 0 0,1 0,2 0,3 0,4 p ro b a b il id a d

(12)

Seleccionar en Tablas y Gráficos Números Aleatorios.

Resultado:

En la ventana superior derecha aparece la función de densidad de la U(0,1, 0,5):

Se observa que es una línea recta horizontal y que encierra un área igual a un rectángulo.

b) ¿Cuál será el tiempo medio de acceso a un fichero? ¿Y la varianza? RECUERDA. La media (m) y varianza (2) obtenidas son las relativas a la población (UD4).

Resultado:

Para calcular la media y la varianza del tiempo de acceso a un fichero, como sigue distribución uniforme U(0,1,0,5), se utilizan las fórmulas de esta distribución.

Media de la uniforme m=𝑎+𝑏 2 = 0,1+0,5 2 =0,3 s Varianza de la uniforme σ2=(𝑏−𝑎)2 12 = (0,5−0,1)2 12 =0,013 s 2

c) Obtener 10 muestras de la variable TIEMPO DE ACCESO A UN FICHERO de 100

datos cada una. Cada muestra puede obtenerse a partir de la generación de 100 datos aleatorios de una variable que fluctúa uniformemente entre 0,1 y 0,5 segundos.

Ir a la venta Números Aleatorios. Después seleccionar en la parte superior izquierda el icono Guardar Resultados. En la ventana que se abre seleccionar la variable a guardar y darle de nombre X1. Hacer click en OK.

Límite Inferior,Límite Superior 0,1,0,5 Uniforme 0 0,1 0,2 0,3 0,4 0,5 x 0 0,5 1 1,5 2 2,5 d e n s id a d

(13)

Repetir este paso diez veces cambiando cada vez el nombre de la variable a X2, X3, X4, X5, X6, X7, X8, X9, X10. Se generaran así 10 muestras con 100 datos cada una de la U(0,1, 0,5) y se guardan el editor de datos (en el B). A cada uno se le generarán unos valores distintos porque son al azar y el programa utiliza un método que parte de una semilla de generación de números al azar que será distinta en cada ordenador.

d) Compara las medias (X̅i) y varianzas muestrales (Si2) de las 10 variables generadas

con las obtenidas en al apartado b)

Opciones: Describir Datos Numéricos Análisis Multivariado…

En Datos poner las 10 variables generadas. Pulsar OK. Darle a Aceptar en Sólo Casos

Completos. En la ventana Resumen Estadístico pulsar la tecla derecha del ratón para

acceder a Opciones de Ventana y de los parámetros que aparecen seleccionar la media

Promedio y la Varianza.

Observad que las 10 medias muestrales están cercanas a la teórica de la distribución calculada en el apartado b) m=0,3. Las 10 varianzas muestrales estarán próximas a la teórica de la distribución calculada en el apartado b) σ2=0,013.

e) Construye un histograma con una de las variables uniformes generadas.

Con la opción Graficar…Gráficos Exploratorios…Histograma

En Datos poner el nombre de una de las 10 variables generadas. En Tipo de Datos seleccionar Continuo. Cambiar con Opciones de Ventana el número de clases a 10 (raíz cuadrada de N=100 número de datos) y los límites inferior y superior a 0,1 y 0,5.

Resultado:

Por ejemplo a mi me ha dado un histograma para una de las variables con esta forma: Guardar

(14)

Se aprecia que no se parece en nada a la normal. Se parece más a un rectángulo que es la forma característica de los datos uniformes.

f) Genera una nueva variable X como suma de las 10 variables uniformes generadas,

construye un histograma y compáralo con el obtenido en el apartado anterior. ¿Qué se observa?

Volved a entrar en la opción Graficar…Gráficos Exploratorios...Histograma pero ahora en Datos poner X1+X2+X3+X4+X5+X6+X7+X8+X9+X10. Histograma 0 0,1 0,2 0,3 0,4 0,5 X1 0 3 6 9 12 15 fr e c u e n c ia

(15)

Resultado:

El histograma que me sale a mi, después de cambiar con Opciones de Ventana el número de clases a 10 (raíz cuadrada de N=100 número de datos), y los límites inferior y superior a valores cercanos al mínimo y máximo de la suma, para la suma con la generación que ha hecho mi ordenador de los números aleatorios es:

La suma de 10 uniformes independientes se aproxima a la distribución normal. El resultado teórico que justifica este resultado es el Teorema Central del Límite estudiado en clase de teoría, según el cual la suma de un número elevado de variables independientes se aproxima a la distribución normal.

Histograma 2 2,4 2,8 3,2 3,6 4 X1+X2+X3+X4+X5+X6+X7+X8+X9+X10 0 4 8 12 16 20 24 fr e c u e n c ia

Referencias

Documento similar

El rasgo especial de este modelo es su enfoque sobre la distinción entre factores móviles y factores específicos, así como las simplificaciones que surgen del supuesto que cada

We discuss various examples and the application of this new linear classifier in two situations under which standard rules may fail: When there is a fraction of outliers in the

The idea of associating a vector bundle on the complex projective plane P 2 C to the three ltrations which form a mixed Hodge structure has a a dou- ble origin: Simpson's

Para ello, trabajaremos con una colección de cartas redactadas desde allí, impresa en Évora en 1598 y otros documentos jesuitas: el Sumario de las cosas de Japón (1583),

Hasta en los moros de Granada habríamos de suponer conocimiento de los vaticinios del adivino céltico, si hubiéramos de tener por auténtica la «carta que el moro de Granada sabidor

Entre nosotros anda un escritor de cosas de filología, paisano de Costa, que no deja de tener ingenio y garbo; pero cuyas obras tienen de todo menos de ciencia, y aun

Sanz (Universidad Carlos III-IUNE): &#34;El papel de las fuentes de datos en los ranking nacionales de universidades&#34;.. Reuniones científicas 75 Los días 12 y 13 de noviembre

(Banco de España) Mancebo, Pascual (U. de Alicante) Marco, Mariluz (U. de València) Marhuenda, Francisco (U. de Alicante) Marhuenda, Joaquín (U. de Alicante) Marquerie,