• No se han encontrado resultados

ESTADÍSTICA FACULTAT D INFORMÀTICA

N/A
N/A
Protected

Academic year: 2022

Share "ESTADÍSTICA FACULTAT D INFORMÀTICA"

Copied!
71
0
0

Texto completo

(1)

FACULTAT D’INFORMÀTICA

APUNTS DE CLASSE PROF. LÍDIA MONTERO:

TEMA 5: ESTIMACIÓ I INFERÈNCIA

AUTORA:

Lídia Montero Mercadé Departament d’Estadística i Investigació Operativa Versió 1.0 Setembre del 2.004

(2)

Prof. Lídia Montero © Pàg. 5-2 Curs 2.004-2.005

TABLA DE CONTENIDOS

5-1. INTRODUCCIÓ A LA INFERÈNCIA ESTADÍSTICA_________________________________________________________________________________3 5-1.1 ASPECTES A TRACTAR EN AQUEST TEMA_____________________________________________________________________________________________4 5-2. INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ DE PARÀMETRES POBLACIONALS ______________________________________________________6 5-3. INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS_______________________________________________________________________16 5-3.1 METODOLOGIA GENERAL DEL CÀLCUL D’ESTIMACIONS PER INTERVAL _________________________________________________________________19 5-3.2 MITJANA DUNA POBLACIÓ INFINITA DE CARACTERÍSTICA X DISTRIBUÏDA N

( µ

,

σ

2

)

_____________________________________________________20 5-3.3 MITJANA DUNA POBLACIÓ INFINITA DE CARACTERÍSTICA X- N

( µ

,

σ

2

)

.VARIANÇA DESCONEGUDA________________________________________25 5-3.4 LLEIS TÈCNIQUES DE LA INFERÈNCIA: T D’STUDENT,

χ

ν2,F DE FISHER__________________________________________________________________29 5-3.5 VARIANÇA DUNA POBLACIÓ INFINITA DE CARACTERÍSTICA X-N

(

µ,σ2

)

I PARÀMETRES DESCONEGUTS______________________________________31 5-4. INFERÈNCIA ESTADÍSTICA: MOSTREIG D’UNA POBLACIÓ BERNOULLI _________________________________________________________34 5-4.1 PROPORCIÓ DUNA POBLACIÓ INFINITA DE CARACTERÍSTICA X- Bernoulli

( ) π

. ________________________________________________________35 5-4.2 PROPORCIÓ DUNA POBLACIÓ INFINITA DE CARACTERÍSTICA X-

Bernoulli ( ) π

.APROX.NORMAL_________________________________________36 5-5. INFERÈNCIA ESTADÍSTICA: MOSTREIG D’UNA POBLACIÓ EXPONENCIAL_______________________________________________________40 5-5.1 PARÀMETRE DUNA POBLACIÓ INFINITA DE CARACTERÍSTICA X-

Exp ( ) λ

._____________________________________________________________40 5-5.2 PARÀMETRE DUNA POBLACIÓ INFINITA DE CARACTERÍSTICA Y-

℘ ( ) λ

. _______________________________________________________________41 5-6. INFERÈNCIA ESTADÍSTICA: CONTRAST D’HIPÒTESIS __________________________________________________________________________42 5-6.1 TIPOLOGIA DELS ERRORS:I I II ___________________________________________________________________________________________________43 5-6.2 METODOLOGIA GENERAL DEL CONTRAST DHIPÒTESIS________________________________________________________________________________47 5-6.3 CONTRAST DE LA MITJANA DUNA CARACTERÍSTICA X- N

(

µ,σ2

)

.VARIANÇA CONEGUDA ________________________________________________48 5-6.4 CONTRAST DE LA MITJANA DUNA CARACTERÍSTICA X- N

(

µ,σ2

)

.VARIANÇA DESCONEGUDA_____________________________________________52 5-6.5 PROPORCIÓ DUNA POBLACIÓ INFINITA DE CARACTERÍSTICA X-

Bernoulli ( ) π

. ______________________________________________________56 5-6.6 CONTRASTOS RELATIUS A 2 MITJANES DE POBLACIONS NORMALS, INDEPENDENTS I VARIANCES CONEGUDES ___________________________________59 5-6.7 CONTRASTOS RELATIUS A 2 MITJANES POBLACIONALS NORMALS I VARIANCES DESCONEGUDES______________________________________________62 5-6.8 CONTRASTOS RELATIUS A LA VARIANÇA DUNA POBLACIÓ NORMAL AMB MITJANA DESCONEGUDA____________________________________________64 5-6.9 CONTRASTOS RELATIUS A 2 VARIANCES DE POBLACIONS NORMALS I INDEPENDENTS_______________________________________________________67 5-6.10 GOODNESS OF FIT:CONTRASTOS_________________________________________________________________________________________________69 5-6.11 INFERÈNCIA ESTADÍSTICA:CONTRAST D’HIPÒTESIS:MÉS PROBLEMES_________________________________________________________________71

(3)

El temes anteriors de VAD i VAC ens permeten calcular probabilitats d’events, donat el coneixement de la seva distribució de referència.

·

Investigar a partir de característiques d’un subconjunt (no arbitrari) com inferir característiques del conjunt.

·

La població és tot el conjunt. Una mostra és un subconjunt de la població.

·

Aspectes rellevants: a mesura que la mostra s’incrementa de tamany, les inferències de valors poblacionals són més propers a la realitat (consistència). En la tria d’una mostra, sigui quin sigui el tamany, la mostra ha de ser representativa de la població (condueix a estimador no biaixats)(no sesgados).

· Terminologia:

si es diu que una població té distribució F(x), vol dir que la característica X dels elements de la població és una v.a. amb funció de distribució F(x). Sovint, interessa un paràmetre relatiu a la v.a. X i s’’aproxima ’ a partir de la mostra mitjançant un estimador. Un estimador es calcula a partir d’una funció de les dades mostrals que s’anomena estadístic.

·

Exemple: Eleccions Generals :

1. Població: espanyols majors de 18 anys i amb dret a vot. Suposem tamany N.

2. Mostra: un subconjunt n << N. Com es pot triar? Idea de consistència i representativitat. Ex. Casos no representatius (telèfons particulars de 9 a 12h). Ex. Tots els jubilats del país.

3. Objectiu d’estudi: incidència de vots dels diferents a partits. Llavors pregunto: a quin partit votarà ? (No confondre amb l’assignació d’escons al Congrés de Diputats). X és una variable qualitativa politòmica.

4. Estadístic d’interès: funció de probabilitat. Estimador: freqüència relativa.

(4)

Prof. Lídia Montero © Pàg. 5-4 Curs 2.004-2.005

INTRODUCCIÓ A LA INFERÈNCIA ESTADÍSTICA

5-1.1 Aspectes a tractar en aquest tema

·

Diferents mostres de la mateixa població donen lloc a diferents estimadors. Els estimadors són v.a. i tenen el seu propi model probabilista, relacionat òbviament amb la distribució de X i amb l’estratègia de selecció de les mostres (mostreig).

·

Sota determinats esquemes de mostreig i coneguda la distribució de X, llavors paràmetres de la població poden determinar-se amb un cert nivell d’incertesa. Parlarem d’estimadors per interval o intervals de confiança.

·

Sota determinats esquemes de mostreig i coneguda la distribució de X, llavors es pot contrastar una hipòtesi relacionada amb estadístics lligats a X i s’anomena contrast d’hipòtesis. S’estudiaran diferents errors que apareixen en el procés.

·

Si la distribució de X és desconeguda, aleshores es presentaran tests de goodness of fit (bondat de l’ajust) per donar resposta a la pregunta de si un cert model probabilista pot ser la distribució de X.

Restringirem la noció de mostreig al mostreig aleatori simple, és a dir, a la selecció totalment aleatòria d’un subconjunt d’individus d’una població (selecció de mostra aleatòria). Si la població és finita, és assimilable a un procediment de selecció aleatori amb reposició.

Idea: els individus de la població tenen tots la mateixa probabilitat de ser triats per la mostra (n/N).

Idea: qualsevol mostra de tamany n té la mateixa probabilitat conjunta: (N-n)!/N!.

(5)

1. Algorisme A d’ordenació: interessa el paràmetre mediana del temps d’execució per instàncies de vectors de tamany r. Construcció aleatòria de n vectors de tamany r (mostra, en aquest cas la població és infinita).

S’executa sobre les n instàncies, s’estima la mediana poblacional del temps d’execució a partir de l’estadístic mediana mostral.

2. Avaluació d’un servidor de venda d’entrades. Les proves indiquen les peticions que poden ser ateses per minut

λ

(hora,

60 λ

) . NO tenen dades sobre el nombre de peticions per hora. Es pot suposar distribució exponencial dels temps entre arribades amb paràmetre

α

desconegut. Mostra de temps entre arribades de n peticions. Un ús de la mostra seria per estimar

α

amb un cert interval de confiança. Un altre ús per determinar si el sistema es sobrecarregarà o no, és a dir per contrastar la hipòtesi nula

α ≤ λ

, contra la hipòtesi alternativa de sobrecàrrega

α > λ

. Un altre ús: potser volem contrastar si realment els temps entre peticions segueixen un model probabilista exponencial.

·

Objectiu: usar apropiadament en situacions d’estudi semblants a les anteriors la terminologia de població, mostra, tamany mostral, paràmetre, estimador i estadístic.

o Per exemple i fora de context intenteu usar la terminologia presentada per inferir quina és la despesa diària promig en el bar de la FIB, amb un risc d’equivocar-se del 10%, entre els estudiants d’EST-FIB.

(6)

Prof. Lídia Montero © Pàg. 5-6 Curs 2.004-2.005

5-2. INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ DE PARÀMETRES POBLACIONALS

Es disposa d’una mostra aleatòria de tamany n d’una població gran (N>>n). Interessa estudiar la característica X que té una distribució poblacional coneguda amb excepció d’un paràmetre

θ

.

Exemple 1: La durada d’una bombeta halògena. Si es sap que la v.a. X durada té una distribució normal de mitjana 1000 hores, però no es coneix la seva variança, per tant, el paràmetre desconegut és

θ = V [ ] X

.

Exemple 2: La durada d’una bombeta halògena. Si es sap que la v.a. X durada té una distribució normal de mitjana DESCONEGUDA, però SI es coneix la seva variança, per tant, el paràmetre desconegut és

θ = E [ ] X

.

·

Siguin els resultats de la mostra aleatòria

x

1

, K , x

n , és a dir la mostra aleatòria són n v.a. i.i.d

X

n

X

1

, K ,

.

La informació obtinguda en la mostra cal resumir-la en general en indicadors numèrics.

Definició d’estadístic: Qualsevol funció matemàtica de la mostra aleatòria

T ( X

1

, K , X

n

)

.

Per exemple, el màxim

T ( X

1

, K , X

n

) = max { X

1

, K , X

n

}

.

Per exemple, la mitjana geomètrica

( )

n i n

i i

n

X

X X

T

=

=

=

1

1

,K ,

o la mitjana aritmètica

( )

n X X

X T

n

i i

n

= ∑

=1

1

,K ,

(7)

estimador de

θ

, prové de substituir les observacions concretes de la mostra en la funció estadístic, és a dir

( x

1

, , x

n

) θ ˆ

T K

, i es sol notar com el paràmetre amb un barret

θ ˆ

.

Els estadístics no tenen perquè donar bones estimacions del paràmetre

θ

per qualsevol mostra, en general, es proposen estadístics que a la llarga o en promig donen bons resultats. D’aquí que calgui imposar-los condicions.

Definició d’estimador no biaixat: És un estadístic que

E [ T ( X

1

, K , X

n

) ] = θ

, és a dir que en promig encerta el valor del paràmetre.

Exemple 1: la mitjana aritmètica és un estimador no biaixat del paràmetre mitjana poblacional d’una característica X v.a. d’esperança

µ

i variança

σ

2, és a dir el paràmetre desconegut d’interès és

θ = E [ ] X = µ

, esperança matemàtica de X. Veiem-ho:

( ) [ ( ) ] = [ ] = [ ] = µ = µ

 

 

= 

= ∑ ∑ ∑ ∑ ∑

=

=

=

=

= n

i n

i n

i i

n

i i

n n

i i

n

E X n

X n n E

n E X

X X

T n E

X X X

T

1 1 1 1

1

1

1

1

1

1

, , ,

, K K

Val a dir que l’estadístic mitjana aritmètica té una notació que ja coneixem

( ) X n

X X X

T

n

i i

n

= ∑

=1

1

,K ,

(8)

Prof. Lídia Montero © Pàg. 5-8 Curs 2.004-2.005

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ DE PARÀMETRES POBLACIONALS

·

Un estadístic és una funció de n variables aleatòries i.i.d. i per tant, és una nova v.a., per tant té sentit parlar de la seva esperança, variança, distribució, moments, etc.

·

L’estadístic mitjana aritmètica, és un estimador no biaixat de la mitjana poblacional, donat que l’esperança matemàtica de l’estadístic coincideix amb l’esperança matemàtica de X (mitjana poblacional).

·

A la pràctica, abusem del llenguatge i molt sovint confonem estadístic amb estimador: l’estadístic defineix una v.a., en canvi l’estimador és un valor concret de la v.a. definida per l’estadístic.

I per tant, també té sentit de parlar de la variança de la v.a. mitjana aritmètica. És a dir, la variança de l’estadístic mitjana aritmètica.

( )

[ ] [ ] [ ] [ ]

n X n

n V X

n V n

V X X

V X

X T n V

X X

in i in in

n

i i

n n

i i 2

1 2 1 2

1 2 2

1 1

1

1 1 1

,

, = = = σ = σ

 

 

= 

=

= ∑ ∑ ∑ ∑ ∑

=

=

=

=

=

K

El que implica, que la precisió de la mitjana aritmètica per estimar la mitjana poblacional creix a mesura que la mostra aleatòria creix (donat que la variança de l’estadístic decreix).

(9)

mitjana aritmètica de la mostra no té l’anterior fòrmula

[ ]

 

 −

 

  −

= 1 1

2

N N N

n X n

V σ

. En canvi l’esperança matemàtica de l’estadístic coincideix amb la mitjana poblacional, és a dir, és no biaixat.

( )

[ , , ] [ ] 1

2

[

1

] ??

1 1

1

= =

 

 

= 

=

 →

= ∑ ∑ ∑

=

=

= n

i i

n

i i

n finita

mostra n

i i

X n V

n V X

X V X

X T n V

X X K

La variança de la suma de v.a. NO INDEPENDENTS no es pot posar com la suma de variances !!!!! (intervenen les covariances 2 a 2).

( )

[ ] [ ] = [ ] = [ ] = µ

 

 

= 

=

 →

= ∑ ∑ ∑ ∑

=

=

=

= n

i n

i i

n

i i

n finita

mostra n

i i

X n E

X n E

n E X

X E X

X T n E

X

1

X

1 1

1

1

1

1

,K ,

·

Estudiem ara un estadístic per estimar el paràmetre variança d’una característica X, com sempre X v.a. i suposem a més a més que el paràmetre mitjana poblacional ÉS DESCONEGUT i la població infinita.

( ) ( ) [ ( ) ]

1

( )

2 2

1 1

2

1

, , , , 1 σ

= −

 =

 

 −

=

− →

= ∑

=

=

n n n

X E X

X X

T n E

X X X

X T

n

i i

n n

i i

n

K K

K

(10)

Prof. Lídia Montero © Pàg. 5-10 Curs 2.004-2.005

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ DE PARÀMETRES POBLACIONALS

Demostre-m’ho:

( ) [ ( ) ] ( [ ] [ ] [ ] )

[ ] [ ] [ ]

( ) ( [ ] [ ( ) ] [ ] )

[ ] [ ] [ ]

( ) ( ( [ ] ) [ ] ) ( ( [ ] [ ] ) ( [ ] [ ] ) )

[ ]

=

(

+

)

=

(

)

=

 

 + − −

=

+

− +

=

= +

=

= +

= +

=

= +

= +

 =



 −

∑ ∑

=

=

=

=

=

=

=

=

=

=

=

=

=

=

2 2 2

2 2 1

2 2 2

1 2 1

1

2 2 1

2 2

2 2

1 2

2 1

2 2

1 1

2

1 2 1

1 2 1

2 2

1

2

1 1

1

1 2 1

1

1 2 1 2

1 2 1 2

σ σ µ

σ µ σ

σ µ

µ n

n n n n

n n n X

n V

X E X V n X

E X

n V X

nE X

n E X

nE X

nE X

n E

X nE X

n X E X

n E X

n E X

X E X

n E

X E

X X E

X n E

X X X X

n E n

X E X

n i n

i n

i i

n

i i i

n

i i

n

i i

n

i i

n

i i

n

i i

n i n

i i

n

i i

n

i i i

n

i i

1

2

n σ n

=

Per tant, un estadístic que resultarà un estimador no biaixat del paràmetre variança poblacional és:

( ) ( ) [ ]

2 2

1

2 1

2

1 , 1

, − → = σ

= −

= ∑

=

S E X

n X X

X T

S

n

i

i

K

n

Només vàlid per poblacions infinites (o molt grans)

(11)

dependents i a la pràctica l’estadístic S sobreestima la variança poblacional:

( ) ( ) [ ]

2 2

1

2 1

2

1 , 1

, − → ≥ σ

= −

= ∑

=

S E X

n X X

X T

S

n

i

i

K

n

S’haurà d’emprar un altre estadístic, que sol notar-se en alguns textes S’:

( ) ( )

[ ]

2 2

1 2

2

1

2

1 '

1 1 ,

,

'  → = σ

 

  −

− =

 

 

  −

=

= ∑

=

S E S

N n n

X X

N X n

X T S

n

i

i

K

n

Estadístic per l’estimació de la variança en poblacions finites (també val per infinites)

·

L’eficiència d’un estadístic per l’estimació d’un paràmetre

θ

(poblacional) està lligada a la seva variança, recordem que un estimador és una v.a. i per tant té els seus moments. El no biaix indica que l’estimador

apunta bé

cap el paràmetre

θ

en terme mig, l’eficiència està lligada a una variança el més baixa possible.

Dos estadístics per l’estimació d’un paràmetre

θ

es poden comparar en termes d’eficiència:

( )

( ) [ ]

[ ] [ ] [ ]

1 2 1 2

2 1 1

2 2

1 1 1

, ,

,

, V T V T T més eficient que T

T E

T E X

X T T

X X

T T

n

n

→ ≥ ⇒

=

=

=

=

θ θ K

K

(12)

Prof. Lídia Montero © Pàg. 5-12 Curs 2.004-2.005

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ DE PARÀMETRES POBLACIONALS

·

En Estadística Matemàtica, es demostra que hi ha una cota inferior a la variança dels estadístics per estimar un paràmetre

θ

i un estimador és eficient si és no biaix i té mínima variança (la cota de Cramer-Rao).

Nosaltres només volem valorar la precisió dels valors de l’estimador i res més.

·

Una altra característica desitjable dels estadístics per estimar un paràmetre

θ

és que a mesura que la mostra es fa gran, aleshores les estimacions siguin més precises, és a dir que la variança de l’estadístic per l’estimació d’un paràmetre

θ

decreixi a mesura que augmenta el tamany de la mostra. Aquesta característica es pot formular matemàticament, cosa que no farem i rep el nom de consistència. En el cas límit, si la mostra tingués el tamany de la població, aleshores la variança de l’estimador (abús de llenguatge per dir, l’estadístic que s’usa per l’estimació d’un paràmetre

θ

) seria 0.

( X X ) E [ ] T V [ ] T Si T consistent

T

T

n

=

1

, K ,

n

n

= θ →

n

n

 →

0

·

Hi ha mètodes generals per l’estimació de paràmetres, que s’estudien en Estadística Matemàtica, el mètode dels moments, el mètode de la maximització de la versemblança, etc. Un mètode important en temes de regressió i anàlisi de la variança és el mètode dels mínims quadrats, que sota certa distribució de probabilitat de la variable d’interès, els seus estimadors són equivalents als estimadors màxim versemblants i per tant, esdevé un cas particular.

(13)

·

Els estadístics mitjana aritmètica mostral

( )

n X X

X T

X =

n

=

i=1 i

1

,K ,

i variança mostral

( ) ∑ ( )

=

− −

=

=

n

i

i

n

X X

X n X

U S

1

2 1

2

1 , 1

,K

són respectivament, estimadors no biaixats dels paràmetres

mitjana i variança poblacionals, si la població és infinita o molt gran.

·

A més, i a partir d’ara, relaxant una mica la notació, es pot demostrar que la mitjana

n X X

n

i i

=

=

1 i la

variança

( )

=

− −

=

n

i

i

X

n X S

1 2 2

1

1

mostrals, sota condicions teòriques febles, són els estimadors de mínima

variança, és a dir, que són eficients i per tant, a la pràctica són els estimadors que usarem per

µ i σ

2 .

·

Fixant la nostra atenció en l’estadístic mitjana mostral, ja sabem que

E [ ] X = µ

i que en poblacions molt grans o infinites,

[ ]

X n V

σ

2

=

, és a dir la variança de la distribució de probabilitat de l’estimador mitjana mostral decreix a mesura que el tamany de la mostra, n, creix. Podríem veure-ho gràficament mitjançant algun applet docent que es troba per internet. Per exemple, un que ja us és familiar:

http://www.stat.vt.edu/~sundar/java/applets/, de la pàgina de Sundar Dorai-Raj.

(14)

Prof. Lídia Montero © Pàg. 5-14 Curs 2.004-2.005

·

(15)
(16)

Prof. Lídia Montero © Pàg. 5-16 Curs 2.004-2.005

5-3. INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

·

Fins ara s’ha estudiat l’ús d’un estadístic per l’estimació puntual a partir d’una mostra concreta d´un paràmetre poblacional

θ

. Els valors dels estimadors no solen coincidir ni de lluny amb els veritables (i desconeguts) valors dels paràmetres, però donat que els estadístics usats per estimació (estimadors) són v.a.

a les que se’ls pot calcular els seus moments, aleshores té sentit de construir intervals d’estimació, que s’anomenen intervals de confiança, donat que tenim una certa confiança de que contindrà el veritable valor del paràmetre

θ

:

( θ ˆ ε

1

< θ < θ ˆ + ε

2

) = 1 α

( θ ε θ P θ ε ) α ( ε θ θ ε ) ( θ θ ε ) α

ε ε

ε = = → ˆ − < < ˆ + = 1 − → − < − ˆ < + = − ˆ < = 1 −

2

1

P P P

Si

o bé

P ( θ − ˆ θ > ε ) = α

.

·

El coeficient de confiança o nivell de confiança habitual és

α = 0 . 05

i quasi sempre l’interval es dona simètric respecte el veritable valor del paràmetre

θ

, és a dir,

ε

1

= ε

2

= ε

i es sól llegir interval de confiança pel paràmetre

θ

al

100 ⋅ ( 1 − α ) %

o

IC ( ) θ = ( θ ˆ ε , θ ˆ + ε )

al

100 ⋅ ( 1 − α ) %

. Si

α = 0 . 05

llavors

( ) θ = ( θ ˆ ε , θ ˆ + ε )

IC

al 95%.

(17)

repetís infinites vegades, la fracció de les vegades en que el paràmetre

θ

estaria contingut a

IC ( ) θ

seria

( 1 − α )

.

·

Usarem un applet de http://www.stat.vt.edu/~sundar/java/applets/Confidence Intervals , de la pàgina de Sundar Dorai-Raj, per fer més entenedora la qüestió:

1.

Suposem l’experiència aleatòria de llençar n=50 vegades una moneda equilibrada, per tant la probabilitat de classe A (cara) és

θ

=0.5, determinem el nombre de cares i la freqüència relativa de la classe A (

θ ˆ

=nb.cares/50). Veiem els resultats de la simulació MonteCarlo m=25 vegades al requadre esquerra amunt. Per cada simulació es calcula

θ ˆ

i

IC ( ) θ = ( θ ˆ ε , θ ˆ + ε )

al 95%.

2.

Suposem l’experiència aleatòria de llençar n=500 vegades una moneda equilibrada, determinem el nombre de cares i la freqüència relativa de la classe A (nb.cares/500). Veiem els resultats de la simulació MonteCarlo m=25 vegades al requadre dreta amunt. Es calculen

θ ˆ

i

( ) θ = ( θ ˆ ε , θ ˆ + ε )

IC

al 95%.

3.

IDEM QUE 1, però per cada simulació es calcula

θ ˆ

i

IC ( ) θ = ( θ ˆ ε , θ ˆ + ε )

al 80%.

4.

IDEM QUE 2, però per cada simulació es calcula

θ ˆ

i

IC ( ) θ = ( θ ˆ ε , θ ˆ + ε )

al 99%.

(18)

Prof. Lídia Montero © Pàg. 5-18 Curs 2.004-2.005

(19)

5-3.1 Metodologia General del Càlcul d’Estimacions per Interval

Sigui una població on la característica X té el paràmetre

θ

desconegut i es vol donar una estimació per interval del seu valor a partir d’una mostra aleatòria. Abús de llenguatge: donar un interval de confiança per

θ

.

1. Obtenir una mostra aleatòria de

X

1

, K , X

n , sigui

x

1

, K , x

n (les

X

1

, K , X

n són v.a. i.i.d. de paràmetre

θ

).

2. Determinar

la distribució de probabilitat

d’un estadístic per estimar

θ

, és a dir, una v.a. que es funció de la mostra

T = T ( X

1

, K , X

n

)

i no biaixat

E [ ] T = θ

i consistent

V [ ] T

n

 →

0

i eficient (mínima variança).

3. Fixar un nivell de confiança

α

.

4. Determinar els nombres a i b tals que

P ( a < T < b ) = 1 α

.

5. Per la mostra concreta calcular

T = T ( x

1

, K , x

n

) = θ ˆ

i determinar el rang de valors que

θ

pot prendre mantenint la condició

a < θ ˆ < b

. Aquest rang de valors és l’interval de confiança al

100 ( 1 α ) %

pel paràmetre

θ

.

·

Clau: cal disposar de la distribució de probabilitat de

T = T ( X

1

, K , X

n

)

i això només es pot fer si es coneix la distribució de probabilitat de X o bé es pot aplicar d’alguna manera el TCL.

(20)

Prof. Lídia Montero © Pàg. 5-20 Curs 2.004-2.005

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

5-3.2 Mitjana d’una població infinita de característica X distribuïda N ( µ , σ

2

)

Suposem que la variança de X és coneguda i l’esperança és desconeguda. Apliquem els passos anteriors:

1. Obtenir una mostra aleatòria de

X

1

, K , X

n , sigui

x

1

, K , x

n (les

X

1

, K , X

n són v.a. normals de mitjana

µ

,

N ( µ , σ

2

)

).

2. Determinar

la distribució de probabilitat

d’un estadístic per estimar

µ

, és a dir, una v.a. que es funció de

la mostra

( )

n X X

X T X

n

i i

n =

=

= 1,K, 1 , la mitjana mostral sabem que és no biaixada i consistent, també

eficient i com que són i.i.d. té distribució normal amb

E [ ] X = µ

i

[ ]

X n V

σ2

= , és a dir,



 

≈  N n X

2

, σ µ

3. Fixar un nivell de confiança

α

. El clàssic,

α = 0 . 05

.

4. Determinar els nombres a i b tals que

P ( a < X < b ) = 1 α

. Com que la distribució és simètrica aleshores busco c a l’entorn de l’esperança (desconeguda) t.q.

( )  =

 

 − < <

 =

 

 − − < < + −

= +

<

<

n

Z c n

P c n

Z c n

P c c

X c

P σ σ σ

µ µ

σ

µ µ µ

µ 0 . 95

(21)

 −

 

 <

 =

 

 

 

 <

 −

 

 <

 =

 

 −

<

 −

 

 <

= 1 2 1

n Z c

n P Z c

n P Z c

n P Z c

n P Z c

P σ σ σ σ σ

( )

c n

n c n

Z c n P

Z c P

N

taulesZ

σ

σ σ

σ 1 0 . 95 0 . 975 1 . 96 1 . 96

2

1 , 0

=

=

 →

 =

 

 <

=

 −

 

 <

n b

n

a = µ − 1 . 96 σ = µ + 1 . 96 σ

5. Per la mostra concreta calcular

X = T ( x

1

, K , x

n

) = x

i determinar el rang de valors que

µ

pot

prendre mantenint la condició

a < x < b

. Aquest rang de valors és l’interval de confiança al

( 1 ) %

100 ⋅ − α

pel paràmetre

µ

.

( ) ( x n x n )

IC µ = − 1 . 96 σ , + 1 . 96 σ

al 95%

(22)

Prof. Lídia Montero © Pàg. 5-22 Curs 2.004-2.005

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

·

En el cas de la normal, simètrica i de voler construir un IC simètric entorn de

µ

, aleshores cal buscar a les taules de la normal estàndard el valor t.q. dona una probabilitat acumulada de

( )

( ) 1 2

2 1

1 1

2

2 2

1 , 0

α σ α

σ α  =

α

<

α

=

 

 <

=

 −

 

 <

z Z P tq n z

Z c n P

Z c P

N taulesZ

α 2

z

és el valor de la normal estàndard que deixa una cua de probabilitat per la dreta de magnitut

α

2 .

·

I l’interval de confiança al

100 ⋅ ( 1 − α ) %

pel paràmetre

µ

és en general,

( ) ( x z n x z n )

IC µ = −

α 2

⋅ σ , +

α 2

⋅ σ

al

100 ( 1 α ) %

·

Els valors habituals usats com nivells de confiança i

z

α 2 respectius en intervals simètrics són:

( 1 − α )

0.90 0.95 0.99

α 2

z

1.645 1.96 2.576

(23)

de confiança pel paràmetre

µ

amb una precisió (amplada de l’interval no superior) a E?

( ) ( )

 

 

 

 

 ⋅

=

⋅ +

=

2 2

2

2

, 2

E n z

n z

x n z

x

IC σ

σ σ

µ

α α α

·

Exercici 2 : Un programa té un working-set promig de paginació distribuït normalment amb variança 81 (pàgines al quadrat). El programa s’executa n=36 vegades en situacions independents. Es recull el working- set promig per cada execució. La mitjana mostral resulta ser 100 pàgines. Doneu un interval de confiança al 95% pel working-set promig requerit pel programa.

( )

=

(

x 1.96 n , x +1.96 n

) (

1001.969 36 , x+1.969 36

)

(

97.06,102.94

)

IC

µ σ σ

al 95%

·

Exercici 3: Es vol conèixer el temps de CPU requerit per un programa en un entorn multiusuari amb un nivell de confiança del 99% i amb una precissió de mig segon amunt o avall del veritable temps d’execució.

L’experiència anterior valida una variança del temps d’execució de 2.25 segons quadrat. Quin és el nombre d’execucions que s’han d’efectuar per poder determinar l’interval de confiança amb els anteriors requeriments?

( ) (

2 , 2

)

0.005

( )

0.5 2.576

(

2.25

)

0.5 2.5760.52.25 2 =60









 ⋅

=

=

=

⋅ +

= x z n x z n z n n n

IC

µ

α

σ

α

σ σ

(24)

Prof. Lídia Montero © Pàg. 5-24 Curs 2.004-2.005

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

INCONVENIENTS DEL MÈTODE PRESENTAT:

·

S’ha suposat que la distribució de probabilitat de la població (de la característica d’interès X en la població, s’hauria de dir) és NORMAL.

·

S’ha suposat que la variança poblacional de X era coneguda. En la majoria dels casos no és cert.

Solucions:

·

Si el paràmetre d’interès és la mitjana poblacional de X, malgrat no ser normal la distribució de la característica X de la població, en virtud del teorema central del límit, en poblacions infinites (o molt grans) i en mostres aleatòries de gran tamany, l’estadístic mitjana mostral tindrà una distribució normal sigui quina sigui la distribució de referència de X. En terminologia estadística, la mitjana mostral és assimptòticament normal.

·

Si la variança poblacional de X és desconeguda i interessa estimar la mitjana poblacional (també desconeguda), aleshores es pot usar una estimació de la variança. Si la mostra n és gran reemplaçar la variança poblacional desconeguda per l’estadístic variança mostral anirà bé:

( ) ( x z n x z n ) IC ( ) ( x z s n x z s n )

IC

a desconegud

⋅ +

=

 →

⋅ +

=

α 2

σ ,

α 2

σ

σ

µ

α 2

,

α 2

µ

Si la mostra n és petita, aleshores haurem de desenvolupar una distribució de referència per l’estadístic per l’estimació de la variança. Això si, sense sortir-nos del supòsit de distribució de referència normal de X.

(25)

5-3.3 Mitjana d’una població infinita de característica X - N ( µ , σ ) . Variança desconeguda

Suposem que la variança de X és desconeguda i l’esperança és desconeguda. Apliquem els passos generals:

1. Obtenir una mostra aleatòria de

X

1

, K , X

n , sigui

x

1

, K , x

n (les

X

1

, K , X

n són v.a. normals

( µ , σ

2

)

N

).

2. Determinar

la distribució de probabilitat

d’un estadístic per estimar

µ

, és a dir, una v.a. que es funció de la mostra

( )

n X X

X T X

n

i i

n =

=

= 1,K, 1 , la mitjana mostral sabem que és no biaixada i consistent,

també eficient i com que són i.i.d. ,

− ≈

1

t

n

n S X µ

té distribució t d’Student amb n-1 graus de llibertat amb

= 0

 

 

 − n S E X µ

i 3

1

= −





 −

n n n S V X µ

. Assimptòticament, una t d’Student amb r g.ll. convergeix a una normal estandard quan r es fa gran (superior a 30 ja és bona l’aproximació).

3. Fixar un nivell de confiança

α

. El clàssic,

α = 0 . 05

.

4. Determinar els nombres a i b tals que

P ( a < X < b ) = 1 α

. Com que cal tipificar (centrar i reduir) i desconec

σ

la distribució de

n S

X µ la t d’Student simètrica aleshores busco c a l’entorn de l’esperança 0 per les taules de la t d’Student:

(26)

Prof. Lídia Montero © Pàg. 5-26 Curs 2.004-2.005

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

( ) 2 ( ) 1 0 . 95 ( ) 0 . 975

95 .

0 → − <

1

< =

1

< − = →

1

< =

 =

 

 − < − < c P c t

c P t

c P t

c

n S c X

P µ

n n n

(

1

) 0 . 975

1, 2 1, 2 1, 2

0 . 95

1

 =

 

 − < − <

 →

=

<

α α

α

µ

n n

n ttaules

n

t

n S t X

P t

c c

t P

n

n s t

b n

s t

a = µ −

n1,α 2

= µ +

n1,α 2

5. Per la mostra concreta calcular

X = T ( x

1

, K , x

n

) = x

i determinar el rang de valors que

µ

pot

prendre mantenint la condició

a < x < b

. Aquest rang de valors és l’interval de confiança al

( 1 ) %

100 ⋅ − α

pel paràmetre

µ

.

( ) ( x t s n x t s n )

IC µ = −

n1,α 2

, +

n1,α 2 al

100 ( 1 α ) %

%

· t

n1,α 2 es defineix de manera que l’àrea a la dreta de

t

n1,α 2en la distribució d’Student amb n-1 g.ll.

es igual a

α

2 .

(27)
(28)

Prof. Lídia Montero © Pàg. 5-28 Curs 2.004-2.005

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

Exemples:

Es vol estimar el temps mig d’execució d’un programa en entorn multiusuari. S’executa 6 vegades amb jocs de dades i hores triades aleatòriament. El temps mig d’execució resultant i la desviació estàndard és de

s S

i ms

x = 230 = 30

. Determineu un interval de confiança al 98% pel temps mig d’execució.

,

365 . 3 01

. 0

2 = taules → tn1,α 2t5,0.01 =

α

d’on

( ) = ( xt

1, 2

s n , x + t

1, 2

s n ) ( → 2303 . 36530 6 , 230 + 3 . 36530 6 ) → ( 210 . 767 , 249 . 233 )

IC µ

n α n α

(29)

5-3.4 Lleis Tècniques de la Inferència: t d’Student, χ , F de Fisher

ν

Per ara hem estat treballant l’estimació de la mitjana per punt i per interval quan la característica d’interès té una distribució normal (relaxable via TCL). Seguim en el contexte normal, ara estudiant l’estimació per interval de la variança poblacional.

·

Sigui una mostra aleatòria de tamany n,

X

1

, K , X

n i.i.d, procedent d’una població normal

( ,

2

) = ( = 0 ,

2

= 1 )

≈ µ σ

σ σ µ

µ X N

Z N

X

i i i . Sigui 2 1

1

2

=

= ∑

n n

i

i

Y

Z

Y χ

, Y segueix una shi-quadrat

amb n-1 graus de llibertat.

·

La llei de shi-quadrat gaudeix de la propietat de la reproductivitat, és a dir, la suma de v.a.

independents de llei shi-quadrat és una shi- quadrat amb paràmetre graus de llibertat, addició dels g.ll. de les lleis que la defineixen. Val a dir que és una llei tècnica amb

[ ] χ

ν2

= ν i V [ ] χ

n21

= 2 ν

E

.

Referencias

Documento similar

Cedulario se inicia a mediados del siglo XVIL, por sus propias cédulas puede advertirse que no estaba totalmente conquistada la Nueva Gali- cia, ya que a fines del siglo xvn y en

En estos últimos años, he tenido el privilegio, durante varias prolongadas visitas al extranjero, de hacer investigaciones sobre el teatro, y muchas veces he tenido la ocasión

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

Para ello, trabajaremos con una colección de cartas redactadas desde allí, impresa en Évora en 1598 y otros documentos jesuitas: el Sumario de las cosas de Japón (1583),

E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi

Sanz (Universidad Carlos III-IUNE): &#34;El papel de las fuentes de datos en los ranking nacionales de universidades&#34;.. Reuniones científicas 75 Los días 12 y 13 de noviembre

(Banco de España) Mancebo, Pascual (U. de Alicante) Marco, Mariluz (U. de València) Marhuenda, Francisco (U. de Alicante) Marhuenda, Joaquín (U. de Alicante) Marquerie,

Dada la endogeneidad de la respuesta de la política monetaria a la evolución prevista para la economía, esta evolución de las cotizaciones bancarias ante sorpresas monetarias puede