Fundamentos de Estadística y Simulación Básica

(1)

Fundamentos de Estadística y

Simulación Básica

(2)

TEMA 4

Distribución de Probabilidades

(3)

Distribución de Probabilidades

• Distribución de Probabilidades

• Variables Aleatorias: Discreta y Continua

• Función Densidad de Probabilidad

• Distribuciones Discretas:

• Distribución Binomial o de Bernoulli

• Distribución de Poisson

• Distribuciones Continuas:

• Distribución Normal

• Pruebas de Hipótesis

• Regresión Lineal

(4)

• El azar, en el lenguaje normal, se considera como la característica de un suceso imprevisible. En estadística esta definición se modifica añadiendo una propiedad adicional: El azar es la característica de un experimento que produce resultados diversos, impredecibles en cada situación concreta, pero cuyas frecuencias, a la larga, tienden a estabilizarse hacia un valor "límite" en el infinito.

• Los sucesos aleatorios son los resultados de un experimento cuya variación (la de los resultados) es debida al azar.

• La probabilidad de un suceso sólo se define para el caso de sucesos aleatorios.

Distribución de Probabilidades

Definiciones

(5)

Definición

Una distribución de probabilidad indica toda la gama de valores que pueden representarse como resultado de un experimento si éste se llevase a cabo.

Es decir, describe la probabilidad de que un evento se realice en el futuro, constituye una herramienta fundamental para la prospectiva, puesto que se puede diseñar un escenario de acontecimientos futuros considerando las tendencias actuales de diversos fenómenos naturales.

Distribución de Probabilidades

(6)

Una variable aleatoria es una función cuyos valores son números reales determinados por los elementos del espacio muestral, es decir, una variable aleatoria es una variable matemática cuyos valores posibles son las descripciones numéricas de todos los resultados posibles de un experimento estadístico. A los valores posibles de la variable aleatoria se les asigna una probabilidad que es la frecuencia del resultado al que corresponden. Toda distribución de probabilidad es generada por una variable (porque puede tomar diferentes valores) aleatoria x (porque el valor tomado es totalmente al azar), y puede ser de dos tipos:

1. Variable Aleatoria Discreta 2. Variable Aleatoria Continua

Variables Aleatorias (Definición)

(7)

Variable Aleatoria Discreta (Definición)

Aquella que se define sobre un espacio muestral numerable, finito o infinito. Solo puede tomar valores enteros.

Por ejemplo: x  Variable que define el número de alumnos aprobados en la materia de probabilidad en un grupo de 40 alumnos (1, 2 ,3…ó los 40).

Propiedades de una variable aleatoria discreta (x):

1. 0 ≤ p(x_i)  1 Las probabilidades asociadas a cada uno de los valores que toma x deben ser mayores o

iguales a cero y menores o iguales a 1

2. p(x_i) = 1 La sumatoria de las probabilidades

asociadas a cada uno de los valores que toma x debe ser igual a 1.

(8)

Variable Aleatoria Discreta ^(Ejemplo)

Se tiene una moneda que al lanzarla puede dar sólo dos resultados:

o cara (50%), o cruz (50%). La siguiente tabla muestra los posibles resultados de lanzar dos veces una moneda:

Al realizar la tabla de distribución del número posible de caras que resulta de lanzar una moneda dos veces, se obtiene:

NOTA: Esta tabla no representa el resultado real de lanzar una moneda dos veces sino la del resultado teórico es decir representa la forma en que se espera se comporte el experimento de lanzar dos veces una moneda.

(9)

Variable Aleatoria Discreta

(Ejemplos)

• El número de alumnos que asisten diariamente durante un semestre.

• El número de accidentes automovilísticos en una ciudad por día.

• El número de piezas defectuosas por lote.

• El número de alumnos aprobados por grupo en un examen.

(10)

Variable Aleatoria Continua (Definición)

Es aquella que se define sobre un espacio asimilable al conjunto de los números reales, es decir, un espacio no numerable. Variable que puede tomar tanto valores enteros como fraccionarios y un número infinito de ellos dentro de un mismo intervalo.

Por ejemplo: x  Variable que define la concentración en gramos de plata de algunas muestras de mineral (14.8 gr., 12.1, 42.3, 15.0, 18.4, 19.0, 21.0, 20.8, …, )

Propiedades de una variable aleatoria continua (x):

1. p(x)0 Las probabilidades asociadas a cada uno de los valores que toma x deben ser mayores o iguales a cero. Dicho de otra forma, la función de densidad de probabilidad deberá tomar solo valores mayores o iguales a cero.

2. El área definida bajo la función de densidad de probabilidad deberá ser de 1.

(11)

Variable Aleatoria Continua

En las distribuciones de probabilidad continuas, la distribución de probabilidad es la integral de la función de densidad, por lo que tenemos entonces que:

Sea X una va continua, una distribución de probabilidad o función de densidad de probabilidad (FDP) de X es una función f(x) tal que, para cualesquiera dos números a y b siendo a <= b.

La gráfica de f(x) se conoce a veces como curva de densidad, la probabilidad de que X tome un valor en el intervalo [a,b] es el área bajo la curva de la función de densidad; así, la función mide concentración de probabilidad alrededor de los valores de una variable aleatoria continua.

Para que f(x) sea una FDP (FDP = f(x)) sea legítima, debe satisfacer las siguientes dos condiciones:

1. f(x) >= 0 para toda x.

2. FDP

(12)

Variable Aleatoria Continua ^(Ejemplos)

• Al arrojar dos dados, sabemos que la suma X de los puntos que caen hacia arriba debe ser un número entero entre 2 y 12, pero no podemos predecir que valor de X aparecerá en el siguiente ensayo, por lo que decimos que X depende del azar, por lo tanto es una variable aleatoria que toma valores entre 2 y 12.

• El tiempo de vida de un foco que se extrae aleatoriamente de un lote de focos depende también del azar, este constituye otro ejemplo de una variable aleatoria que varía entre el tiempo 0 y un valor indeterminado, ya que no sabemos exactamente cuanto tiempo va durar.

• El número de varones de una familia con 5 hijos también es una variable aleatoria que varía de 0 a 5, ya que en una familia de cinco hijos puede que no haya ningún varón, uno, dos, tres, cuatro o cinco varones.

• Son ejemplos de vac: la estatura, el peso, la edad, el volumen, el pH, entre otros.

(13)

Función Densidad de Probabilidad ^(Ejemplo)

Ejemplo: Una encuesta halla la siguiente distribución de las probabilidades para le edad de un automóvil rentado:

El histograma de la distribución de probabilidad se muestra en la figura más abajo a la izquierda.

La curva a la derecha es la gráfica de cualquier función f, que se llama una función de densidad de probabilidad.

Edad (Años) 0-1 1-2 2-3 3-4 4-5 5-6 6-7

Probabilidad .10 .26 .28 .20 .11 .04 .01

(14)

Variables Aleatorias

Regla de Oro

En general, la regla de oro es que todas las

variables que proceden de experimentos en los que

se cuenta son discretas y todas las variables que

proceden de experimentos en los que se mide son

continuas.

(15)

Distribuciones

E

(16)

Distribución Binomial o de Bernoulli

La distribución Binomial es un caso particular de probabilidad de variable aleatoria discreta, y por sus aplicaciones, es posiblemente la más importante. Esta distribución corresponde a la realización de un experimento aleatorio que cumple con las siguientes condiciones:

• Al realizar el experimento sólo son posible dos resultados: el suceso A, llamado éxito, o su contrario A’, llamado fracaso.

• Al repetir el experimento, el resultado obtenido es independiente de los resultados obtenidos anteriormente.

• La probabilidad del suceso A es constante, es decir, no varía de una prueba del experimento a otra.

• Si llamamos p a la probabilidad de A, p(A) = P, entonces p(A’) = 1 – p = q

• En cada experimento se realizan n pruebas idénticas.

(17)

Distribución Binomial ^(cont.)

En general, si se tienen n ensayos Bernoulli con probabilidad de éxito p y de fracaso q, entonces la distribución de probabilidad que la modela es la distribución de probabilidad binomial y su regla de correspondencia es:

Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido tablas para algunos valores de n y p que facilitan el trabajo. Calculo de la distribución de probabilidad binomial por tres métodos:

a) Paquete de software b) Utilización de la fórmula

c) Utilización de las tablas binomiales

(18)

Distribución Binomial ^(cont.)

Fórmula Binomial

Dónde:

• P(X) es la probabilidad de ocurrencia del evento

• p es la probabilidad de éxito del evento (en un intento)

• q es la probabilidad de fracaso del evento (en un intento) y se define como q=1– p

• X = ocurrencia del evento o éxitos deseados (para efectos de la tabla binomial tómese como r)

• n = número de intentos

(19)

Distribución Binomial ^(cont.)

Ejemplo

¿Cuál es la probabilidad de obtener exactamente 2 caras al lanzar una misma moneda 6 veces?

X= 2 caras

p = 0.5 (50%) y q = 1-p = 1-0.5 = 0.5 (50%) n = 6 intentos

Al sustituir los valores en la fórmula se obtiene:

Resolviendo:

P(2 caras) = 0.234375

(20)

Distribución Binomial (cont.)

Tabla Binomial

• Para una combinación de n y p, la entrada indica una probabilidad de obtener un valor específico de r (ocurrencia del evento).

• Para localizar la entrada, cuando p≤0.50, localizar el valor de p a lo largo del encabezado de la tabla, y en la columna correspondiente localizar n y r en el margen izquierdo.

• Para localizar la entrada, cuando p≥0.50, localizar el valor de p en la parte inferior de la tabla, y n y r arriba, en el margen derecho.

Resolviendo el mismo ejemplo pero utilizando las tablas binomiales se tiene que:

p = 0.50, n = 6 y r = 2

P(2 caras) = 0.2344

(21)

Distribución Binomial (cont.)

(22)

Distribución de Poisson

Es un caso particular de probabilidad de variable aleatoria discreta, el cual debe su nombre a Siméon Denis Poisson (1781-1840). Hay que hacer notar que en esta distribución el número de éxitos que ocurren por unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de tiempo es independiente de otro intervalo dado, así como cada área es independiente de otra área dada y cada producto es independiente de otro producto dado.

Ejemplos:

• # de defectos de una tela por m2 o # de bacterias por cm2 de cultivo

• # de aviones que aterrizan en un aeropuerto por día, hora, minuto.

• # de llamadas telefónicas a un conmutador por hora, minuto, entre otros.

• # de llegadas de embarcaciones a un puerto por día, mes, entre otros.

Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo, área, o producto, la fórmula a utilizar es:

Donde:

p(X) = probabilidad de que ocurran x éxitos, cuando el número promedio de ocurrencia de ellos es Lambda.

Lambda = media o promedio de éxitos por unidad de tiempo, área o producto e = 2.718 (base de logaritmo neperiano o natural)

X = variable que nos denota el número de éxitos que se desea que ocurra

(23)

Distribución Normal

La distribución normal es también un caso particular de probabilidad de variable aleatoria continua, fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777- 1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se le conozca, más comúnmente, como la "campana de Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su media (µ) y su desviación estándar (σ).

Con esta notación, la densidad de la normal viene dada por la ecuación:

(24)

Pruebas de Hipótesis ⁽¹⁾

Partes de una hipótesis 1-La hipótesis nula “Ho”

2-La hipótesis alternativa “H1”

3-El estadístico de prueba 4-Errores tipo I y II

5-La región de rechazo (crítica)

6-La toma de decisión

(25)

Pruebas de Hipótesis ⁽²⁾

Estadísticamente una prueba de hipótesis es cualquier afirmación acerca de una población y/o sus parámetros. Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en favor de la otra. Una hipótesis estadística se denota por “H” y son dos:

- Ho: hipótesis nula es lo contrario de lo que sospechamos que va a ocurrir (suele llevar los signos igual, mayor o igual y menor o igual)

- H1: hipótesis alternativa se llama hipótesis alternativa y es lo que

sospechamos que va a ser cierto (suele llevar los signos distinto, mayor y

menor)

(26)

Pruebas de Hipótesis ⁽³⁾

Los contrastes de hipótesis pueden ser de dos tipos:

Bilateral: En la hipótesis alternativa aparece el signo distinto.

Unilateral: En la hipótesis alternativa aparece o el signo > o el signo <.

Podemos aceptar una hipótesis cuando en realidad no es cierta, entonces cometeremos unos errores, que podrán ser de dos tipos:

Error de tipo I: Consiste en aceptar la hipótesis alternativa cuando la cierta es la nula.

Error de tipo II: Consiste en aceptar la hipótesis nula cuando la cierta es la alternativa.

Estos errores los aceptaremos si no son muy grandes o si no nos importa que sean muy grandes.

alfa: Es la probabilidad de cometer un error de tipo I.

beta: Es la probabilidad de cometer un error de tipo II.

(27)

Pruebas de Hipótesis ⁽⁴⁾

De los dos, el más importante es alfa que llamaremos nivel de significación y nos informa de la probabilidad que tenemos de estar equivocados si aceptamos la hipótesis alternativa.

Debido a que los dos errores anteriores a la vez son imposibles de controlar, vamos a fijarnos solamente en el nivel de significación, este es el que nos interesa ya que la hipótesis alternativa que estamos interesados en probar y no queremos aceptarla si en realidad no es cierta, es decir, si aceptamos la hipótesis alternativa queremos equivocarnos con un margen de error muy pequeño.

El nivel de significación lo marcamos nosotros. Si es grande es más fácil aceptar la hipótesis alternativa cuando en realidad es falsa. El valor del nivel de significación suele ser un 5%, lo que significa que 5 de cada 100 veces aceptamos la hipótesis alternativa cuando la cierta es la nula.

(28)

Pruebas de Hipótesis ⁽⁵⁾

(29)

Modelo de Regresión Lineal ⁽¹⁾

El objeto de un análisis de regresión es investigar la relación estadística que existe entre una variable dependiente (Y) y una o más variables independientes (X1,X2,X3, ... ). Para poder realizar esta investigación, se debe postular una relación funcional entre las variables. Debido a su simplicidad analítica, la forma funcional que más se utiliza en la práctica es la relación lineal. Cuando solo existe una variable independiente, esto se reduce a una línea recta:

donde los coeficientes b0 y b1 son parámetros que definen la posición e inclinación de la recta.

(30)

Modelo de Regresión Lineal ⁽²⁾

La importancia de las distribuciones bidimensionales radica en investigar como influye una variable sobre la otra. Esta puede ser una dependencia causa efecto, por ejemplo, la cantidad de lluvia (causa), da lugar a un aumento de la producción agrícola (efecto). O bien, el aumento del precio de un bien, da lugar a una disminución de la cantidad demandada del mismo.

Si utilizamos un sistema de coordenadas cartesianas para representar la distribución bidimensional, obtendremos un conjunto de puntos conocido con el diagrama de dispersión, cuyo análisis permite estudiar cualitativamente, la relación entre ambas variables. El siguiente paso, es la determinación de la dependencia funcional entre las dos variables x e y que mejor ajusta a la distribución bidimensional. Se denomina regresión lineal cuando la función es lineal, es decir, requiere la determinación de dos parámetros: la pendiente y la ordenada en el origen de la recta de regresión,

**y = a + b * x**

(31)

Fundamentos de Estadística y Simulación Básica