Repaso para el segundo parcial

Texto completo

(1)

Repaso para el segundo parcial

Dr. Pastore, Juan Ignacio

Profesor Adjunto.

(2)

Algunas Distribuciones Estadísticas Teóricas

Distribución Continuas:

a) Distribución Uniforme

b) Distribución de Exponencial

c) Relación entre la Distribuciones de Poisson y Exponencial.

d) Distribución Normal

(3)

Distribución Uniforme

Se dice que la variable aleatoria X se distribuye uniformemente en el intervalo [a,b] si su función de densidad de probabilidades (f.d.p) está dada por:

 Esperanza

Varianza

 

2 b a E X  

   

2

12 V X b a

  

  



1

( ) -

0

si a x b f x b a

en otro caso

f(x)

1 b a

fdp

a b x

(4)

  

  

  



0 si x < a

F(x)= si a x b

1 si x > b x a

b a

Distribución Uniforme

Si X es una variable aleatoria distribuida uniformemente en el intervalo [a,b] su función de distribución acumulativa (FDA) está dada por:

x

FDA

a b

(5)

f(x)

1 b a

fdp

x x

F(x)

FDA

1

a b

a b

Distribución Uniforme

(6)

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0

0 1 2 3 4 5 6 7 8

  2.0

Se dice que X, que toma todos los valores no negativos, tiene una distribución exponencial, con parámetro , si su fdp está dada por:   0

 

  

-

si x 0 f(x) 0 si x < 0

e

x

(en la distribución de Poisson)

  

  1.0

  0.5

Distribución Exponencial

(7)

Esta distribución: suele ser el modelo de aquellos fenómenos aleatorios que miden el tiempo que transcurre entre la ocurrencia de dos sucesos.

Demostrar las características numéricas de la función exponencial:

 

 1 1

2

( ) V(x)=

E x

Distribución Exponencial

(8)

La FDA está dada por:

  

  

1 si x 0

F(x) 0 si x<0 e

x

F(x) 1

x

Distribución Exponencial

Sea X una v.a distribuida exponencialmente, con parámetro , su función de distribución acumulativa (FDA) está dada por:

  0

(9)

La probabilidad de que el elemento falle en una hora (o en un día, o en segundo) no depende del tiempo que lleve funcionando.

( ) ( ) ( )

( / )

( ) 1 ( )

P s x s t F s t F s P x s t x s

P x s F s

    

     

 

( )

1 1 ( 1)

1 (1 )

s t s as t s s t

s s s

e e e e e e e

e e e

      

   

 

1 e

t

F t ( ) P x ( t )

    

Propiedad fundamental de la Distribuciones Exponencial

La distribución exponencial no tiene memoria :

P( x< s + t / x> s ) = P( x< t )

(10)

Relación entre la Distribuciones de Poisson y Exponencial

La v.a X que es igual a la distancia entre conteos sucesivos de un proceso de Poisson con media tiene una distribución exponencial con parámetro :

  0

  0

Sea X una variable de Poisson que mide el número de ocurrencias de un determinado suceso en un período t. Entonces:

La probabilidad de que no haya ocurrencias en el período de tiempo t está dado por:

La variable T : tiempo transcurrido hasta la primera ocurrencia de Poisson en el período t es una variable exponencial de parámetro λ. Entonces la probabilidad de que la variable aleatoria T exceda el tiempo t está dada por

   

0

0 0!

t

e t

t

P X e

  

 

t

0

P T   t e

P X

(11)

 

: º 1min

( ) .

!

30.1 0.5 ( 2)01 ( 2) 1 ( 0) ( 1

60

1 0,91 0,09

k

X n de partìculas en P X k e

k

P X P X P X P X

 

           

  

Sea X el número de partículas emitidas por una fuente radioactiva. Si se sabe que el número esperado de demisiones en una hora es de 30 partículas: ¿Cuál es la probabilidad de que sean emitidas al menos 2 partículas en un lapso de 1 minuto?

Solución/

Relación entre la Distribuciones de Poisson y Exponencial

(12)

Sea X el número de partículas emitidas por una fuente radioactiva. Si se sabe que el número esperado de demisiones en una hora es de 30 partículas: Cuál es la probabilidad de que el tiempo entre emisiones sucesivas sea mayor a 3 minutos?

Solución/

0 1.5

: (min) ,

: 3min, 30.3 1.5

60 (1.5) .

( 3) ( 0) 0.22

0!

T tiempo hasta que ocurre la prox emision Y partìculas emitidas en

P T P Y e

 

    

Relación entre la Distribuciones de Poisson y Exponencial

(13)

Sin duda la distribución de probabilidad continua más importante, por la frecuencia con que se encuentra y por sus aplicaciones teóricas, es la distribución normal, gaussiana o de Laplace - Gauss. Fue publicada por primera vez en 1733 por De Moivre.

A la misma llegaron, de forma independiente, Laplace (1812) y Gauss (1809), en relación con la teoría de los errores de observación astronómica y física .

Pierre Simon de Laplace (1749-1827)

Karl F. Gauss (1777-1855)

Distribución Normal

(14)

Se dice que X que toma todos los valores reales, tiene una distribución normal, si su fdp está dada por:

 

 

  

1 2

1

2

f(x) con - < x <

2

x

e

Distribución Normal

 

  2

( ) ( )

E x y V x

La función depende de únicamente de dos parámetros, μ y σ, su media y

desviación estándar, respectivamente. Una vez que se especifican μ y σ, la

curva normal queda determinada por completo.

(15)

Distribución Normal: Principales Características:

1.La función tiene un máximo en x = .

2.La curva es simétrica alrededor del eje vertical x=μ, donde coinciden la mediana (Me) y la moda (Mo ).

3.Los puntos de inflexión tienen como abscisas los valores en x=μ ± σ, es cóncava hacia abajo si μ-σ<X< μ+σ, y es cóncava hacia arriba en cualquier otro punto.

4.La curva normal se aproxima al eje horizontal de manera asintótica conforme nos alejamos de la media en cualquier dirección, es decir Para x tendiendo a  , el límite f(x) =0.

5.El área total bajo la curva y sobre el eje horizontal es igual a 1.

6.Los parámetros μ y σ son realmente la media y la desviación estándar de

la distribución normal.

(16)

 

 

+ 

 - 

+

Puntos de inflexión

=Mo=Me

Distribución Normal: Principales Características:

(17)

Distribución normal con  =0 para varios valores 

0 0.4 0.8 1.2 1.6

-2.50 -1.50 -0.50 0.50 1.50 2.50

0.25

0.5

1

p(x)

(18)

20 30 40 50 60 70 80 90 100 110 120

  5   5

 10

Distribución normal con distintas medias y dispersión

(19)

N(μ, σ):

Interpretación geométrica

• La media se puede

interpretar como un factor de traslación.

• Y la desviación típica como

un factor de escala, grado

de dispersión,…

(20)

Estandarización de la Distribución Normal

Dada la dificultad que se encuentra al resolver las integrales de una funciones densidades de probabilidades asociada a una v.a. normal, es necesario contar con una tabulación de las áreas de la curva normal para una referencia rápida. Sin embargo, sería una tarea difícil intentar establecer tablas separadas para cada valor de μ y σ.

Afortunadamente, podemos transformar todas las observaciones de cualquier v.a. normal X a un nuevo conjunto de observaciones de una variable normal Z con media 0 y desviación estándar 1.

 

2

 

Si X N , Z= x , Z N 0,1

(21)

   

    



2

1

2

2

z t

P Z z z e dt

Sea X una v.a su función de distribución acumulativa (FDA) está dada por: X N   0,1

P(Z<z)

Estandarización de la Distribución Normal

(22)

 

 

P P a x b

a x b

   

   

   

     

            

     

P a b b a

Z

 

2

 

Si X N , y Z= x N 0,1 Z

Estandarización de la Distribución Normal

(23)

 

 

 

        

              Si X N ,

2

P x P x P x

         

     

 

    

           

                                   1      

  2        1

Cálculo de la probabilidad de desviación prefijada.

P x

 

(24)

Regla de las tres sigmas

Es un caso particular de desviación prefijada.

   

                        

Si = 3 P x 3 P 3 x 3 P 3 x 3

   

     

 

    

   

             

   

3 3

3 3

     

  3     1 3    2. 3   1 0,9974

Esto significa que el suceso

x    3 

Es prácticamente un suceso cierto, o que el suceso contrario es poco probable y puede considerarse prácticamente imposible.

(25)

 

    

 3  0,9974

P x

Regla de las tres sigmas: Su esencia.

Si una variable aleatoria está distribuida normalmente, entonces la desviación respecto de la esperanza matemática, en valor absoluto, no es mayor que el triple de la dispersión.

(26)

Para ilustrar el uso de las Tablas, calculemos la probabilidad de que Z sea menor que 1.64. Primero localizamos un valor de z igual a 1.6 en la primera columna (izquierda), después nos “movemos” a lo largo de la fila hasta encontrar la columna correspondiente a 0.04, donde leemos 0.9594. Por lo tanto P(Z<1.64)=0.9495.

(27)

Para encontrar un valor de z que corresponda a una probabilidad dada, el proceso se invierte. Po ejemplo, el valor de z que deja un área de 0.9 bajo la curva a la izquierda de z es de 1.28.

(28)

LEY DE LOS GRANDES NÚMEROS

Cuando el número de repeticiones de un experimento aleatorio aumenta, la frecuencia relativa del suceso A converge en sentido probabilístico a la probabilidad teórica.

Ley de los grandes números

 ( ) para  

f A P A n

(29)

Desigualdad de Tchebyshev

Esta desigualdad brinda un medio para entender cómo la varianza mide la variabilidad alrededor de la esperanza matemática de la variable.

Si la esperanza y la varianza de la variable X son finitas, para cualquier número positivo k, la probabilidad de que la variable aleatoria X esté en el intervalo

k   ; k  es mayor o igual que 1- 1

2

es decir k

2

1- 1

P X k

k

(30)

Teorema de Bernoulli Generalizado

En toda sucesión de pruebas de Bernoulli, la frecuencia relativa converge en sentido probabilístico a p.



       1   0 lím

A

n

P f p



      

  0 0

lim

A

n

P f p

(31)

Población y Muestra

Una variable aleatoria X con E(x) = µ y V(x) =σ

2

puede pensarse como cualquier característica medible de los individuos de una población. El conjunto de todas las mediciones de dicha variable es la Población o Universo.

1

, , ,...

2 3 N

x x x x

Muestra es un subconjunto de la población al que tenemos acceso y sobre el

que realmente hacemos las mediciones

(32)

Estas variables forman una muestra aleatoria de tamaño n si:

•Las X

i

son variables aleatorias independientes.

•Cada variable X

i

tiene la misma distribución de probabilidad que la distribución de la población con su misma esperanza µ y varianza

σ2.,

es decir E(x

i

) = µ y V(x

i

) =

σ2

Población y Muestra

(33)

Teorema de Bernoulli Generalizado

Dada una m.a.s., es decir: una sucesión

1

,

2

,

3

,...

n

x x x x

dos a dos independientes, con una misma distribución de probabilidad y con esperanza y varianza entonces

  0

El límite, en probabilidad, de la media muestral para n  

es igual a la media de la población de la que se extrajo la muestra

   

 

         

  1   0

n n

P x ó P x

lím lím

 

2

(34)

Suma de Variables Aleatorias

El teorema afirma que, con ciertas restricciones leves, la distribución de la suma de un gran número de variables aleatorias, tiene aproximadamente una distribución normal.

El valor de este teorema es que no requiere condiciones para las distribuciones de las variables aleatorias individuales que se suman para n tendiendo a infinito.

(35)

Suma de Variables Aleatorias

entonces, bajo ciertas condiciones, la función de densidad de probabilidad de la variable aleatoria X se distribuye aproximadamente en forma norma, para n tendiendo a infinito .

 

1

( )

n

i i

E X

 

2

1

( )

n i i

X

Observación:Esta generalización es válida cuando las variables aleatorias individuales sólo hacen una contribución relativamente pequeña a la suma total

 

1 2 1

~ 0,1

n i i n

i i

X

z N

1 n

i i

X x

 

1

,

2

,

3

,...

n

x x x x

Si X es la suma de un gran número de variables aleatorias independientes

Es decir,

entonces

donde

(36)

En particular, si las xi están idénticamente distribuidas, es decir, tienen la misma media y la misma varianza de la población de la que fueron extraídas

 

 

 

    

   

1 1

( ) .

i

n n

i i

i i

E x

E X E x E x n

 

 

 

    

   

2

2

1 1

( ) .

i

n n

i i

i i

V x

V X V x V x n

Entonces el teorema afirma que la fdp de la variable S se distribuye normalmente Luego

  

  ~ 0,1

. X n

z N

n

Suma de Variables Aleatorias

(37)

Parámetro: Es una cantidad numérica calculada sobre la población.

Estimación: Es el valor numérico que toma un estimador.

Estadístico o estimador : Es cualquier operación que se hace con la muestra. Por eso es una función de las observaciones contenidas en una muestra.

Ejemplos: la media muestral, la proporción muestral y la varianza muestral.

Los estimadores son variables aleatorias, por lo tanto tienen su distribución de probabilidades que se conocen como distribuciones de muestreo.

Parámetros y Estimadores

(38)

Estimación puntual: Es un número calculado con los datos de la muestra, del cual se espera que estime un parámetro poblacional.

Si X es una variable aleatoria con distribución de probabilidades f(x), caracterizada por el parámetro desconocido y si es una muestra aleatoria de tamaño n, entonces

x x

1

,

2

,..., x

n

ˆ h x x ( ,

1 2

,... x

n

)

Es un estimador puntual de

Estimación de Parámetros

(39)

• Propiedad de insesgadura:

• Propiedad de eficiencia

• Propiedad de suficiencia: Un estimador es suficiente si utiliza toda la información de la muestra.

Propiedades de los Estimadores

(40)

Debemos hallar los estadísticos L y U tales que

 

   

( ) 1

P L U

Coeficiente de confianza

Intervalo de confianza para la media poblacional conociendo la

2

/2

 

/2

 

( ) 1

P z Z z

 

 

 

 

2

,

X N

n

  

x 0,1

z N

n

Estimación por intervalo

Dada una m.a.s., extraída de una población con distribución normal.

X N

 , 2

  

/2

  

/2

x z x z

n n

(41)

Nivel de confianza y precisión de la estimación

Cuanto más alto es el nivel de confianza, mayor amplitud tiene el intervalo y menor es la precisión de la estimación.

Elección del tamaño de la muestra

La precisión del intervalo de confianza es el radio del intervalo

 

2

z n

Esto significa que al usar la media muestral para estimar la media poblacional , el error que se comete es:

      

2

x z

n

(42)

Sean variables aleatorias distribuidas normal e independientemente con media 0 y varianza 1. Entonces la variable aleatoria:

2

x

12

x

22

x

32

 ...  x

n2

Tiene distribución Ji-Cuadrado con n grados de libertad. Con media y varianza

  n

2

 2 n

Distribución Ji-cuadrado

1

,

2

,

3

,...

n

x x x x

(43)

 

   

 

2

2

2 1 2

2

Función de densidadde

( ) 1 . . 0

2 .2

v x

f x

v

x e x

v

Es no negativa y asimétrica hacia la derecha. Si n aumenta, se aproxima a la normal

Distribución Ji-cuadrado

(44)

Los puntos porcentuales de la distribución se dan en la tabla correspondiente

 

n2

2,n

2,n 2

 

P f x dx

Distribución Ji-cuadrado

(45)

 

 

 

2

2 2

2 1

1

n

n S

S

2

Si es la varianza de una muestra aleatoria de tamaño n tomada de una población normal que tiene una varianza

2

Entonces la variable aleatoria definida por

Se distribuye como

n21

Distribución muestral de la varianza

(46)

Extremos del intervalo para la varianza poblacional

   

21

/2; n1

2

2

/2; n1

  1

P

   

 

 

  

  

   

 

 

 

2

2 2

1 /2; 1 2 /2; 1

1 1

n n

n S

P

 

 

 

   

     

 

 

2 2

2

2 2

/ 2; 1 1 / 2; 1

1 1

1

n n

n S n S

P

 

 

 

 

 

 

 

2 2

2

2 2

/2; 1 1 /2; 1

1 1

n n

n S n S

(47)

Si Z es una variable aleatoria con distribución N(0,1), V una variable aleatoria con distribución Ji-Cuadrado con n grados de libertad y además Z y V son variables aleatorias independientes, entonces la variable aleatoria definida por:

Z

T V

n

Tiene una distribución t de Student con n gradis de libertad con la siguiente fdp:

Los puntos porcentuales están dados por la tabla correspondiente

 

 

 

     

    

    

2 1 /2

1 / 2 1

( ) .

/ 1

. 2

n

f t n t

n t n

n

Distribución t de Student

(48)

 

 

,

;

n

n t

P T t f t dt

Distribución de la media muestral con varianza poblacional desconocida

•Si n >30, podemos utilizar la distribución normal y S en reemplazo de

•Si n<30 y proviene de una distribución normal, entonces

1

/ n

T x t

S n

Distribución t de Student

Los puntos porcentuales están dados por la tabla correspondiente

(49)

Intervalo de confianza para la media con varianza poblacional desconocida y n<30

Si la población base es normal, la varianza es desconocida y el tamaño de la muestra menor que 30, la media muestral tiene distribución T con n-1 grados de libertad

 

 

/2, 1

 

/2, 1

 

(

n n

) 1

P t T t

/ 2, 1

 

/ 2, 1

 

(

n

x

n

) 1

P t t

S n

/2, 1

  

/2, 1

 

(

n

S

n

S ) 1

P x t x t

n n

/2,n 1

S   

/2,n 1

S

x t x t

n n

(50)

Intervalo de confianza sobre una proporción

Si se ha tomado una muestra aleatoria de tamaño n de una gran población (posiblemente infinita), donde X observaciones en esta muestra pertenecen a la clase de interés.

 ˆ X p n

Es el estimador puntual de la proporción poblacional.

X una v.a. binomial, de parámetros n y p

La distribución de muestreo de es aproximadamente normal con esperanza p y varianza con p no cerca de 0 y 1.

1

ˆp

p p

n

(51)

Una prueba de hipótesis es una técnica de Inferencia Estadística que permite comprobar si la información que proporciona una muestra observada concuerda (o no) con la hipótesis estadística formulada y, por lo tanto, decidir si se debe rechazar o no rechazar dicha hipótesis.

Prueba de Hipótesis

(52)

Hipótesis Estadística

es cualquier afirmación o conjetura sobre una o varias características de interés de la población.

Paramétrica No Paramétrica

:

Es una afirmación sobre alguna característica

estadística de la población en estudio.

Por ejemplo, las observaciones son independientes, la

distribución de la variable en estudio es normal, la

distribución es simétrica, etc.

Es una afirmación sobre los valores de los parámetros poblacionales

desconocidos.

Simple la hipótesis asigna valores únicos a los parámetros

Compuesta la hipótesis

asigna un rango de valores a los parámetros

(53)

Identificación de las Hipótesis Estadísticas Paramétricas

Hipótesis nula H

o

– Se plantea con el parámetro de interés usando alguno de los

símbolos

– La probabilidad de rechazar Ho es muy baja, y se llama nivel de

significación porque Ho es la hipótesis que se considera

cierta.

Hipótesis Alternativa H

1

– Es contraria a la hipótesis nula.

(Niega a H

0

). Se plantea usando

según el caso respectivo al planteo de Ho.

– Está muy relacionada con la hipótesis de investigación, es

coherente con los resultados obtenidos en la muestra.

, ,

    , >,<

(54)

• Cualquier decisión estará basada sobre información parcial de una población, contenida en una muestra, por lo que habrá siempre una posibilidad de una decisión incorrecta.

• La siguiente tabla resume cuatro posibles situaciones que pueden surgir en un test de hipótesis.

Verdadero estado de la población

Decisión posible H0 es cierta H1 es cierta

Se rechazo H0 Error de tipo I Decisión correcta No se rechaza

H0

Decisión correcta Error de tipo II

Tipos de error

(55)

Esquema para realizar una prueba de hipótesis

Etapas:

1) Enunciado de la hipótesis nula y alternativa

2) Selección del estadístico de prueba (Considerar el parámetro poblacional utilizado en 1) y los datos del problema).

3)Gráfico de la distribución del estadístico de prueba para la

determinación de la región crítica con el alfa dado y la búsqueda en tabla del valor crítico.

4) Cálculo del valor observado a partir del estadístico.

5) Comparación de valores.

6) Exposición de las conclusiones

(56)

La posición de la región crítica depende de la hipótesis alternativa

Unilateral Unilateral

Bilateral

H1: <20 H1: >20

H1: 20

20

20 20

Prueba de hipótesis: unilateral y bilateral

(57)

Prueba para la media poblacional

no se conoce la dispersión poblacional

Si la muestra proviene de una población normal Cuando se desconoce σ, se observa el tamaño de la muestra n

Si n <30 Si n ≥30

La media muestral se distribuye normalmente, porque S es una

mejor estimación de

σ

  ~ 1

/ n

T x t

S n

x

z S

n La media muestral tiene

distribución T, porque S no es una buena estimación de σ

(58)

Prueba para la comparación de medias

Cuando se conocen las varianzas, La diferencia de medias muestrales se distribuye normalmente. Se usa el estadístico Z

Cuando se desconocen las varianzas pero son iguales, se observa el tamaño de cada muestra indep, que provienen de poblaciones normales

Si n

1

+n

2

-2 <30 Si n

1

+n

2

-2 ≥30

La diferencia de medias muestrales se distribuye normalmente

.

Se usa el estadístico Z

 

1 2 1 2

2 2

1 2

1 2

ob

x x

z

n n

 

   

 

1 2 1 2

2 2

1 1 2 2

1 2 1 2

1 1 1 1

2

ob

x x t

n S n S

n n n n

La diferencia de medias muestrales se distribuye según T

.

Se usa el estadístico T

1 2 1 2

2 2

1 2

1 2

ob

x x

z

S S

n n

(59)

Análisis de Regresión y Correlación Lineal

Si se trata de predecir o explicar el comportamiento de una variable Y, a la que se denomina dependiente o variable respuesta, en función de otra variable X denominada independiente o regresora, Y =f(X), estamos frente a un problema de análisis de regresión simple; pero si deseamos investigar el grado de asociación entre las variables X e Y estamos frente a un problema de análisis de correlación.

Es decir, Nos va a interesar estudiar la relación que existen entre ellas y de qué forma se asocian. Para esto analizaremos dos técnicas: la de regresión y la de correlación.

Frecuentemente se nos formulan las siguientes preguntas:

¿El peso de las personas está relacionado con la estatura?

¿El peso y la presión arterial se relacionan?

¿La presión de una masa de gas depende de su volumen y de su temperatura?, etc.

(60)

Tipos de relación entre variables

Dos variables pueden estar relacionadas por una dependencia funcional, por una dependencia estadística o pueden ser independientes.

Raramente se determina una dependencia funcional rigurosa ya que ambas variables o una de ellas, están expuestas a factores aleatorios, surge entonces una dependencia estadística.

La dependencia se llama estadística cuando la variación de una de las variables da lugar a la alteración de la distribución de la otra. La dependencia estadística se manifiesta en que, al variar una de las variables se altera el valor medio de la otra, en este caso se llama dependencia de correlación.

Estadísticamente nos interesa analizar la relación entre dos o más variables, siempre que se tenga un indicio de que entre ellas existe por lo menos cierto grado de dependencia o asociación. Lo importante es medir y expresar funcionalmente esta relación mediante una función o modelo matemático.

(61)

Análisis de regresión simple entre dos variables X e Y

Consideremos el problema de tratar de hallar la relación funcional existente entre dos variables aleatorias X e Y. Supongamos que en n experimentos las variables asumieron pares de valores {(xi,yi):i=1,…,n}, podemos inicialmente observar su comportamiento graficando dichos pares de valores sobre un sistema de coordenadas ortogonales. Dicho gráfico, llamado diagrama de dispersión a menudo permite discernir si existe alguna tendencia hacia algún tipo de interrelación entre ambas variables, y, si es posible, la naturaleza de dicho tipo de interrelación.

(62)

X Yxxxxyyyy1312n32n

Correlación positiva Correlación negativa

No hay correlación

X X

X X

Y Y

Y Y

Diagrama de Dispersión

Observación: Solo nos ocuparemos del caso lineal en esta unidad.

(63)

Ajuste de una función de regresión: Método de mínimos cuadrados

Ajustar una función de regresión significa encontrar, la función que exprese con mayor precisión la relación entre las variables X e Y. Gráficamente será aquella función que mejor se adecue a la nube de puntos. En este sentido, es recomendable como primer paso construir el diagrama de dispersión o diagrama de nube de puntos para, luego de analizar su forma, decidir por el tipo de función matemática (modelo) o la ecuación de regresión que exprese la relación entre las variables X e Y. Luego, se estiman los parámetros del modelo, para lo cual existen varios métodos, siendo el más usado el método de mínimos cuadrados.

El problema queda ahora reducido a encontrar los coeficientes de un tipo de curva C que hagan mínimo el valor D. Una vez determinados estos valores, a la curva correspondiente se la llamará curva de regresión de Y sobre X.

2 2 2 2

1 2 n 1 n

Ddd   d

d

(64)

Análisis de regresión lineal simple

Es frecuente suponer que existe entre las variables observadas una relación proximadamente lineal:

i i

yaxb

La recta y=ax+bxes una recta de regresión. El parámetro a es la pendiente de la recta e indica cómo cambia la variable respuesta o dependiente cuando el incremento de x es una unidad.

El parámetro b es el término independiente de la recta e indica el valor de Y cuando X = 0.

Problema estadístico: Estimar los parámetros a y b a partir de los datos , de una muestra.

(65)

Determinación de las rectas de regresión por el método e mínimos cuadrados

yax ba  

yx

donde

*i i

2

i

D

y y

*i i

2

yx i i

2

i i

D

y y

x  b y

 

 

1

2

1

2 0

0

2 0

0

n

yx i i i

i i i

n

i i yx i yx i

yx i i

i

D D

X b y x

y bn x

x y x x

D D

X b y b b

 



 

 

  

  

1 1 1

2 2

1 1

n n n

i i i i

i i i

xy n n

i i

i i

n x y x y

n x x

 

  

 

1 1

n n

i i

i i

yx

y x

b

n

n Resolviendo el sistema obtenemos:

,

Ecuación muestral de regresión de Y en X

x yx

y x b

(66)

INFERENCIA EN REGRESION

La recta de regresión nos permite, basándonos en los datos de la muestra, estimar un valor de la variable Y, correspondiente a un valor dado xi de la variable X. Para ello es suficiente reemplazar el valor de xi en la recta de regresión y encontrar el correspondiente valor estimado.

La obtención de los coeficientes de la recta de regresión muestral puede considerarse también como un proceso de estimación puntual de los coeficientes poblacionales.

(67)

X: representa el tiempo de recalentamiento Y: los espesores de óxido de cierta pieza

X (min)

20 30 40 60 70 90 100 120 150 180

Y

(Ang)

3,5 7,4 7,1 15,6 11,1 14,9 23,5 27,1 22,1 32,9

x y

i i

18469 x

i

860 y

i

165,2

x

i2

98800

yx

0,17 a 1,76 y

x

0,17 x 1,76

Ejemplo: Determinar la recta de regresión lineal

yx

y

x

  x b

1 1 12

2

1 1

n n n

i i i i

i i i

xy n n

i i

i i

n x y x y

n x x

 

  

 

1 1

n n

i i

i i

y x

b

n

n

(68)

Coeficiente de correlación de Pearson LA COVARIANZA COMO MEDIDA DE ASOCIACIÓN LINEAL

Definiremos como covarianza de dos variables X e Y, y denotaremos por SXY, el estadístico que nos permite analizar la variación conjunta de dos variables. Viene dado por la siguiente expresión:

Esto nos lleva a utilizar la covarianza como una medida de la asociación lineal entre las variables, de modo que si ésta es positiva, nos indica una relación directa entre ellas y si es negativa, nos indica una relación inversa. Si las variables son independientes, entonces la covarianza es aproximadamente 0.

    

,

XY i i

x x y y Cov X Y S

n

 

  

(69)

EL COEFICIENTE DE CORRELACIÓN LINEAL

Algunas veces es deseable tener un indicador del grado de intensidad o fuerza de la relación lineal entre dos variables X e Y que sea independiente de sus respectivas escalas de medición.

A este indicador se le denomina coeficiente de correlación lineal entre X e Y. El estadígrafo comúnmente utilizado se llama coeficiente de correlación del producto momento de Pearson.

Definición. Sea (X, Y) una variable aleatoria bidimensional, definimos r el coeficiente de correlación muestral entre X e Y como sigue:

  

   

 

2 2 2 2

,

i i

X Y

i i

x x y y Cov X Y

r

x x y y  

 

 

 

 

 

xy

x

y

r

Notar que si

σ

x=

σ

y

xy

r

(70)

INTERPRETACIÓN

El coeficiente de correlación lineal de Pearson (r):

-Está acotado entre -1 y 1.

-Un valor positivo se interpreta como indicador de una relación directa: A medida que aumentan los valores de una variable aumentan los valores de la otra.

-Un valor negativo se interpreta como indicador de una relación inversa : A medida que aumentan los valores de una variable disminuyen los valores de la otra.

-El valor absoluto se interpreta como el grado de relación lineal existente entre las variables, que será mayor cuanto más cercano sea a 1.

-Si el valor del coeficiente de correlación muestral, en valor absoluto, es mayor de 0,93 se considera buena la estimación que se realiza con la recta de regresión.

(71)

INTERPRETACIÓN

(72)

Figure

Actualización...

Referencias

Actualización...

Related subjects :