10_APENDICE.pdf

(1)

116

APÊNDICE

1) Propriedades da Esperança

Notações: E(X), (X), _X, ,

 

1 n

i i

i

x p x





1º) E[k] = k.

E[k] =

 

1 n

i i

k p x





= k

 

1 n

i i

p x 



= k . 1 = k.

2º) E[kX]k.E[X], k .

E[kX] =

 

1 n

i i i

k x p x





= k

 

1 n

i i i

x p x





= k .E[X]

3º) E[X Y] = E[X]  E[Y]

Utilizar probabilidade conjunta: p(X=xi , Y=yj) = p(xi , yj)

E[X Y] =

,

, 1

( ) ( , )

n m

i j i j

i j

x y p x y 





=

, ,

, 1 , 1

( , ) ( , )

n m n m

i i j j i j

i j i j

x p x y y p x y

 





=

1 1 1 1

( , ) ( , )

n m n m

i i j j i j

i j i j

x p x y y p x y

   



 

=

1 1

( ) ( )

n m

i i j j

i j

x p x y p y

 





=

= E[X]  E[Y].

4º) E[mX  n] = m E[X]  n, m,n .

E[mX  n] = E[mX]  E[n] = m E[X]  n.

5º) E[X] = 0

E[X] =

 

1

( )

n

i X i

i

x  p x

 



=

 

1 1

n n

i i X i

i i

x p x  p x

 





=E[X] 

 

1 n

X i

i

p x

 



=

= E[X] X.1= E[X] X = E[X]  E[X] = 0.

2) Propriedades da Variância

Notações: VAR(X), V(X), 2(X), _X2, 2 e

VAR(X)= E[(X  )2] = 2

 

1

( )

n

i i

i

x  p x

 



(2)

117

VAR(X) = E[(X  )2] =E[X2 2X + 2] = E[X2]  2E[X] + 2 =

= E[X2_]₂2₊2_{= E[X}2_] 2₌

= E[X2]  (E[X])2.

2º) VAR(k) = 0, k .

VAR(k) = E[(k _K)2] = E[(kk)2] = E[0] = 0

3º) VAR (kX) = k2 VAR(X), k .

VAR (kX) = E[(kX E[kX])2 ] = E[(kX  k E[X])2] = E[k2 (X – E(X))2] =

= k2.E[(X – E(X))2] = k2.E[(X – )2] = = k2. VAR(X).

4º) VAR(X  Y) = VAR(X) + VAR(Y) 2 COV(X,Y)

VAR(X  Y) = E [( (XY) – E[(XY) )2 ] = E [( XY – E[X]  E[Y] )2 ] =

= E [((X – E[X])  (Y – E[Y]) )2 ] =

= E [(X – E[X])2 + (Y – E[Y])2  2 (X – E[X]) (Y – E[Y]) =

= E [(X–E[X])2] + E [(Y– E[Y])2] 2 E [(X– E[X])(Y– E[Y])]=

= VAR(X) + VAR(Y)  2 COV(X, Y).

Observação: COV(X, Y) mede o grau de dependência entre X e Y. COV(X, Y) = E [(X – E[X])(Y – E[Y])] =

= E [XY] – E[X] E[Y].

Provar que COV(X, Y) = E [XY] – E[X] E[Y].

COV(X, Y) = E [(X – E[X])(Y – E[Y])] =

= E [XY – X E[Y] – YE[X] + E[X] E[Y] = = E [XY – X _Y – Y _X + _X _Y] = = E[XY] – E[X] _Y – E[Y] _X + _X _Y =

= E[XY] – _X _Y – _Y _X + _Y _X = E[XY] – _X _Y = E[XY] – E[X] E[Y] .

5º) VAR(mX + n) = m2 VAR(X)

VAR(mX + n) = E [

(

(mX + n) – E[(mX + n)]

)

2_{] =}

= E [(mX + n – m E[X] – n )2_{] =}

= E [ (mX – m E[X] )2 ] = E [ m2 (X –E[X])2 ] = = m2 E [ (X – E[X])2 ] = m2 E [(X – X)

2_{] =}

(3)

118

3) Média e Variância de médias amostrais

X =

1

1 n

i i

x n





1º) E[ ]X = .

E[ ]X = E

[

1

1 n

i i

x n





]

= 1 n E

[

1

n i i

x





]

= 1

n 1 E[ ] n i i x 



= 1

n 1 E[ ] n i X 



= 1

n 1 n i  



= 1

n. n = .

2º) VAR(X ) =

2

n 

VAR(X ) = VAR(1

n 1 n i i x 



) = 1₂

n VAR( 1

n i i

x





) = 1₂

n 1 VAR( ) n i i x 



=

= 1₂

n 1 VAR( ) n i X 



= 1₂

n 2 1 n i  



= 1₂ n .

2

n =

2

n 

.

3º) X

X

n

  

4) Estimadores não viciados ( não viesado)

Seja  = estimador (da amostra de tamanho n) e  = parâmetro (da população)

Devemos ter E( ) = .

Exemplos:

1º) E[ ]X = , sendo X =

1

1 n

i i

x n





E[ ]X = E

[

1

1 n

i i

x n





]

= 1

n E

[

1 n

i i

x





]

= 1

n 1 E[ ] n i i x 



= 1

n 1 n

i  



= 1

n. n = .

2º) E[S2] = 2, sendo S2 = 2

1 1 ( ) 1 n i i x X n   



E[S2] = E

[

2

1 1 ( ) 1 n i i x X n   



]

= 1 1 n E

[

2 1 ( ) n i i x X  



]

= = 1 1

n E

[

2 2

1

( 2 )

n

i i

i

x x X X



 



]

= 1

1

n E

[

2 2

1 1 1

( 2 )

n n n

i i

i i i

x X x X

  

 



 

=

= 1

1 n E

[

2 2

1 1 1

( 2 1)

n n n

i i

i i i

x X x X

  

 



=

= 1 1

n E

[

2 1 2

1

( 2 )

n i n i i i x

x nX nX

n

 









= 1

1

n E

[

2 2 2

1

( 2 )

n i i

x nX nX



 

(4)

119 = 1

1 n E

[

2 2

1

( )

n i i

x nX

 



= 1

1 n

2 2

1

( E[ ] E[ ])

n i i

x n X







=

= 1

1 n

2 2

1

( E[ ] E[ ])

n

i

X n X







Observação:

a) VAR(X) = E[X2] – (E[X])2  2 E[X ]2 2  E[X ]2 2 2

b) VAR(X ) = E[X 2] – (E[X ])2 

2

2 2

E[X ]

n

 _ __ _ 2

2 2

E[X ]

n

 _

 

Substituindo (a) e (b) em (2º), segue

E[S2] = 1

1 n

2

2 2 2

1

( ( ) ( ) )

n

i

n n

   



  



= 1

1 n

2

2 2 2

( (n ) n( ) )

n



    =

= 1

1 n

2 2 2 2

(n n ) n ) )= 1

1 n

2 2

(n  ) = 1

1 n

2

(n 1)

  = 2.

4) Estimador viciado (viesado)

Devemos ter E( )  .

Exemplo:

2 2

1

( )

n i i

S x X

n 





 é estimador viciado de 2.

Vejamos:

Aproveitando os cálculos apresentados acima temos E[S2] =1

n 2

(n 1)

  =n 1 2

n  

.

Portanto, E[S2_]2

.

5) Método dos mínimos quadrados para explicar Regressão linear

Devemos, inicialmente, recordar como se obtém, caso existam, os pontos críticos (máximos, mínimos e sela) de funções reais diferenciáveis de duas variáveis reais.

Seja f D:  , D 2, z f x y( , ), onde f_x e f_y são as derivadas parciais de

primeira ordem em relação a x e a y, respectivamente.

a) Obter a solução do sistema:

( , ) 0

x

y

f x y f x y

 

 _

  S = {( ,x yi i) /i0,1, 2,..., }n

(5)

120

Obtêm-se as derivadas parciais de segunda ordem fxxem relação a x, fyyem

relação a y e f_xy em relação a x e y em cada ponto de S.

( , ) A

( , ) B, 0,1, 2,...

( , ) C

xx i i yy i i xy i i

f x y

f x y para cada i n

f x y

 _



 



 _



Obter o Hessiano de cada um dos pontos de S:

H =A C

C B = AB – C

2

i) Se H > 0 e A > 0, então (x yk, k, (f x yk, k)) é ponto mínimo local do gráfico de f.

ii) Se H > 0 e A < 0, então (x yk, k, (f x yk, k)) é ponto máximo local do gráfico de f.

iii) Se H < 0 , então (x yk, k, (f x yk, k)) é ponto sela do gráfico de f.

iv) Se H = 0 , então não se pode concluir se (x yk, k, (f x yk, k)) é ponto mínimo local

do gráfico de f.

APROXIMAÇÃO DAS FUNÇÕES PELO MÉTODO DOS MÍNIMOS QUADRADOS

Trataremos apenas de funções que possuem domínio discreto: funções dadas por uma tabela.

O problema consiste em aproximar uma função por uma combinação de funções gj

j = 0,1,2,3, ..., m, previamente escolhidas.

f(x)g(x) = a0g0(x)+a1g1(x)+ a2g2(x)+ ... + amgm(x) , onde aj , j = 0,1,2,3, ..., m.

Exemplo: A tabela abaixo se refere ao valor de y (em reais) da poupança de famílias com

número x de filhos.

x 1 2 3 4 5

y 1000 800 500 400 100

Vamos considerar a função f que relaciona os valores de x com os respectivos y da tabela. Queremos aproximar f por uma função afim, isto é,

f(x)g(x) = a0g0(x)+a1g1(x),

onde a0 e a1 são números reais e g0(x)= 1 e g1(x) = x.

Deste modo, teremos: g(x) = a0 +a1x , com coeficientes a0 e a1 para serem

determinados.

Observações:

1) Se tivéssemos escolhido outro tipo de aproximação de f (não a afim), então

usaríamos outras funções gj , j = 0,1,2,3, ..., m.

(6)

121 Regressão Linear

Vamos aproximar uma função f pelo binômio ( a0 +a1x ) e, mostrar com isto,

como se desenvolve o método dos mínimos quadrados.

Suponhamos que o gráfico abaixo seja o de uma função tabelada com n pontos e

que g(x) = a0 +a1x é a equação da reta que pretendemos encontrar.

Chamamos de resido r(xi) a diferença entre a coordenada yi do ponto (xi, yi),

tabelado e o valor gi(x) da função afim.

r(xi) = ri = [yi  gi(x)] = [yi  (a0 +a1x)] = [yi  a0  a1x], i = 1,2,3, ..., n.

Interessa-nos determinar a0 e a1 de modo que minimize a função de duas

variáveis:

L(a0, a1) = 2

1

n i i

r





= 2

0 1 1

[ a a ]

n

i i

i

y x



 



O estudo das funções reais de duas variáveis reais e diferenciável diz que nos pontos de Máximos ou Mínimos locais as derivadas parciais de primeira ordem em relação a cada uma das variáveis são iguais a zeros.

Por isto, façamos:

La0 (a0 , a1) = 0 e La1 (a0 , a1) = 0

Isto é,

La0 (a0 , a1) = 2 ₀ ₁

 

1

[ a a ] 1

n

i i

i

y x



  



= 0

La1 (a0 , a1) = 2 ₀ ₁

 

1

[ a a ]

n

i i i

i

y x x



  



= 0

Portanto,

g(x) = a0 +a1x

ym ...

yi ... r(xi)

y2 ...

y1 ... gi(x)

(7)

122

 

0 1 1

[ a a ] 1

n

i i

i

y x



  



= 0  a0

1

n

i



+ a1

1

n i i

x





=

1

n i i

y





( I )

 

0 1 1

[ a a ]

n

i i i

i

y x x



  



= 0  a0

1

n i i

x





+ a1 2

1

n i i

x





=

1

n i i i

x y





( II )

As equações ( I ) e ( II ) formam um sistema linear. Tomemos este sistema na forma

matricial:

0

1 1 1

2

1

1 1 1

1 a

. a

n n n

i i

i i i

n n n

i i i i

i i i

x y

x x x y

  

   

     

  _{  }  

     

   _{ }  

   

   



O determinante da matriz dos coeficientes das incógnitas a0 e a1 é

2 2 1 1

n . ( )

n n

i i

x x

 

 







positivo.

******************* Provemos a afirmação acima:

São dadas as abscissas x1 , x2 , x3 , .... , xn dos pontos da tabela e seja h .

Temos que:

2 2 2 1 1

n n 2 2 1 i=1 i=1

n

2 2 ´

1 i=1

( h) ( 2h h )

2h h 1

2h h .n 0 , pois e soma de quadrados

n n

i i i

i i

n

i i

i n

i i

i

x x x

x x

 



    

   

   



A função quadrática Q(h) = n.h2_{+ 2}

1

( ).h

n i i

x





+ 2

1

( )

n i i

x





, que tem a forma da

inequação acima, possui discriminante D negativo, visto que Q(h) > 0,  h , e, também,

o coeficiente n, do termo quadrático, positivo ( n é o número de pontos dados).

Logo, D = 4. 2

1

( )

n i i

x





 4.n. 2

1

( )

n i i

x





< 0

Multiplicando a inequação acima por -1/4, temos 2 2

1 1

= n . ( ) 0

n n

i i

x x

 









 .

*******************

(8)

123

2 0

1 1 1

1 1 1 a 1 . a _n

n n n

i i i

n n

i i i

i i

x x y

x x y

                      _ _{ } _   _{ }        _ _{ } _    

 



Logo, 2 0

1 1 1 1 2 2

1

1 1 1 1 1

a

1

a n . ( ) n

n n n n

i i i i i

i i i i

n n n n n

i i i i i i

i i i i i

x y x x y

x x x y x y

                     _ _       _ _ _   _ _  

   



 



Assim,

a0 =

2

1 1 1 1 2 2 1 1

n . ( )

n n n n

i i i i i

i i i i

n n

i i

x y x x y

x x        

   



e a1 =

1 1 1 2 2 1 1

n

n . ( )

n n n

i i i i

i i i

n n

i i

x y x y

x x       



 



Devemos mostrar que La0 (a0 , a1) > 0 e que o Hessiano é positivo para garantir

que a0 e a1 são as coordenadas do ponto de mínimo da função L.

Partindo das derivadas de primeira ordem obtidas acima:

La0 (a0 , a1) = 2 ₀ ₁

1

[ a a ]

n i i i y x   



= 2. [

1 n i i y 



 a0

1

n

i



 a1

1 n i i x 



]

La1 (a0 , a1) = 2 ₀ ₁ 2

1

[ a a ]

n

i i i i

i

x y x x



 



= 2. 2

0 1 1 1 1

[ a a ]

n n n

i i i i

i i i

x y x x

  

 



Teremos as derivadas de segunda ordem:

A = La0a0 (a0 , a1) = 2 1

[ 1]

n

i





= 2 [1] = 2n, (que é positiva).

B = La1a1 (a0 , a1) = 2 2 1 [ ] n i i x 





= 2 2

1 n i i x 



e

C = La0a1 (a0 , a1) = 2 1 [ ] n i i x 





= 2

1 n i i x 



As derivadas de segunda ordem não dependem de a0 e a1. Elas têm valores

constantes, pois xi são as abscissas dos pontos dados.

(9)

124

Hessiano = A C

C B =

1

2

1 1

2 2

n i i

n n

i i

n x

x x



 



 

= 4. [ n.

2

1 n

i i

x 



 2

1

( )

n i i

x





] = 4.

Logo, o Hessiano é positivo, visto que  0.

O fato de o Hessiano e La0a0 (a0 , a1) serem positivos segue que (a0 , a1, L(a0 , a1))

é mínimo local.

---

Voltando ao caso do exemplo inicial, da poupança das famílias, temos:

xi yi xi2 xiyi

1 1000 1 1000

2 800 4 1600

3 500 9 1500

4 400 16 1600

5 100 25 500

15 2800 55 6200

a0 = ₂ (55).(2800) (15).(6200) 5.(55) (15)   = 61000 50 = 1220 a1 = ₂ 5.(6200) (15).(2800) 5(55) (15)   = 11000 50  =  220 Portanto, g(x) =  220 x + 1220 é a equação da reta que melhor se aproxima dos pontos da tabela. n = 5 pontos



y 1220

1000

800

g(x) = 220x + 1220 600

400

200

x