MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES

Texto completo

(1)

MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MASTER D’ESTADÍSTICA I INVESTIGACIÓ OPERATIVA

APUNTS DE CLASSE PROF. LÍDIA MONTERO:

TEMA 2: INTRODUCCIÓ A L’ANÀLISI DE DADES.

INFERÈNCIA ESTADÍSTICA COMPUTACIONAL.

REPÀS INFERÈNCIA CLÀSSICA

AUTORA:

Lídia Montero Mercadé

Departament d’Estadística i Investigació Operativa

Versió 1.2

Setembre del 2.011

(2)

Prof. Lídia Montero © Pàg. 2.2-2 Curs 2.011-2.012

2.2-1.1 A SPECTES A TRACTAR EN AQUEST TEMA ___________________________________________________________________________________________ 5 2.2-2. INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ DE PARÀMETRES POBLACIONALS ____________________________________________________ 7 2.2-3. INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS _____________________________________________________________________ 17

2.2-3.1 M ETODOLOGIA G ENERAL DEL C ÀLCUL D ’E STIMACIONS PER I NTERVAL ________________________________________________________________ 20 2.2-3.2 M ITJANA D UNA POBLACIÓ INFINITA DE CARACTERÍSTICA X DISTRIBUÏDA N , 2 __________________________________________________ 21 2.2-3.3 M ITJANA D UNA POBLACIÓ INFINITA DE CARACTERÍSTICA X - N , 2. V(X) DESCONEGUDA __________________________________________ 26 2.2-3.4 L LEIS T ÈCNIQUES DE LA I NFERÈNCIA : T D ’S TUDENT , 2 , F DE F ISHER ________________________________________________________________ 30 2.2-3.5 V ARIANÇA D UNA POBLACIÓ INFINITA DE CARACTERÍSTICA X - N , 2 I PARÀMETRES DESCONEGUTS __________________________________ 32 2.2-4. INFERÈNCIA ESTADÍSTICA: MOSTREIG D’UNA POBLACIÓ BERNOULLI ________________________________________________________ 35

2.2-4.1 P ROPORCIÓ D UNA POBLACIÓ INFINITA DE CARACTERÍSTICA X - Bernoulli   . _____________________________________________________ 36 2.2-4.2 P ROPORCIÓ D UNA POBLACIÓ INFINITA DE CARACTERÍSTICA X - Bernoulli    . A PROX . N ORMAL ______________________________________ 37 2.2-5. INFERÈNCIA ESTADÍSTICA: MOSTREIG DE POBLACIÓ EXPONENCIAL _________________________________________________________ 41

2.2-5.1 P ARÀMETRE D UNA POBLACIÓ INFINITA DE CARACTERÍSTICA X - Exp    . ___________________________________________________________ 41

(3)

Prof. Lídia Montero © Pàg. 2.2-3 Curs 2.011-2.012

TABLA DE CONTENIDOS

2.2-5.2 P ARÀMETRE D UNA POBLACIÓ INFINITA DE CARACTERÍSTICA Y -    . ______________________________________________________________ 42 2.2-6. INFERÈNCIA ESTADÍSTICA: CONTRAST D’HIPÒTESIS _________________________________________________________________________ 43

2.2-6.1 T IPOLOGIA DELS E RRORS : I I II _________________________________________________________________________________________________ 44

2.2-6.2 M ETODOLOGIA GENERAL DEL CONTRAST D HIPÒTESIS ______________________________________________________________________________ 48

2.2-6.3 C ONTRAST DE LA M ITJANA D UNA CARACTERÍSTICA X - N , 2. V ARIANÇA C ONEGUDA _____________________________________________ 49

2.2-6.4 C ONTRAST DE LA M ITJANA D UNA CARACTERÍSTICA X - N , 2. V ARIANÇA D ESCONEGUDA _________________________________________ 53

2.2-6.5 P ROPORCIÓ D UNA POBLACIÓ INFINITA DE CARACTERÍSTICA X - Bernoulli    . _____________________________________________________ 57

2.2-6.6 C ONTRASTOS RELATIUS A 2 MITJANES DE POBLACIONS NORMALS , INDEPENDENTS I VARIANCES CONEGUDES __________________________________ 60

2.2-6.7 C ONTRASTOS RELATIUS A 2 MITJANES POBLACIONALS NORMALS I VARIANCES DESCONEGUDES _____________________________________________ 63

2.2-6.8 C ONTRASTOS RELATIUS A LA VARIANÇA D UNA POBLACIÓ NORMAL AMB MITJANA DESCONEGUDA __________________________________________ 65

2.2-6.9 C ONTRASTOS RELATIUS A 2 VARIANCES DE POBLACIONS NORMALS I INDEPENDENTS _____________________________________________________ 68

2.2-6.10 G OODNESS OF F IT : C ONTRASTOS _______________________________________________________________________________________________ 70

2.2-6.11 I NFERÈNCIA E STADÍSTICA : C ONTRAST D ’H IPÒTESIS : M ÉS P ROBLEMES _______________________________________________________________ 72

(4)

Prof. Lídia Montero © Pàg. 2.2-4 Curs 2.011-2.012

El temes anteriors de VAD i VAC ens permeten calcular probabilitats d’ events , donat el coneixement de la seva distribució de referència.

Investigar a partir de característiques d’un subconjunt (no arbitrari) com inferir característiques del conjunt.

La població és tot el conjunt. Una mostra és un subconjunt de la població.

Aspectes rellevants: a mesura que la mostra s’incrementa de tamany, les inferències de valors poblacionals són més propers a la realitat (consistència). En la tria d’una mostra, sigui quin sigui el tamany, la mostra ha de ser representativa de la població (condueix a estimador no biaixats)(no sesgados).

Terminologia: si es diu que una població té distribució F(x), vol dir que la característica X dels elements de la població és una v.a. amb funció de distribució F(x). Sovint, interessa un paràmetre relatiu a la v.a. X i s’’ aproxima ’ a partir de la mostra mitjançant un estimador. Un estimador es calcula a partir d’una funció de les dades mostrals que s’anomena estadístic.

Exemple: Eleccions Generals :

1. Població: espanyols majors de 18 anys i amb dret a vot. Suposem tamany N.

2. Mostra: un subconjunt n << N. Com es pot triar? Idea de consistència i representativitat. Ex. Casos no representatius (telèfons particulars de 9 a 12h). Ex. Tots els jubilats del país.

3. Objectiu d’estudi: incidència de vots dels diferents a partits. Llavors pregunto: a quin partit votarà ? (No confondre amb l’assignació d’escons al Congrés de Diputats). X és una variable qualitativa politòmica.

4. Estadístic d’interès: funció de probabilitat. Estimador: freqüència relativa.

(5)

Prof. Lídia Montero © Pàg. 2.2-5 Curs 2.011-2.012

INTRODUCCIÓ A LA INFERÈNCIA ESTADÍSTICA

2.2-1.1 Aspectes a tractar en aquest tema

Diferents mostres de la mateixa població donen lloc a diferents estimadors. Els estimadors són v.a. i tenen el seu propi model probabilista, relacionat òbviament amb la distribució de X i amb l’estratègia de selecció de les mostres ( mostreig ).

Sota determinats esquemes de mostreig i coneguda la distribució de X, llavors paràmetres de la població poden determinar-se amb un cert nivell d’incertesa. Parlarem d’estimadors per interval o intervals de confiança.

Sota determinats esquemes de mostreig i coneguda la distribució de X, llavors es pot contrastar una hipòtesi relacionada amb estadístics lligats a X i s’anomena contrast d’hipòtesis. S’estudiaran diferents errors que apareixen en el procés.

Si la distribució de X és desconeguda, aleshores es presentaran tests de goodness of fit (bondat de l’ajust) per donar resposta a la pregunta de si un cert model probabilista pot ser la distribució de X.

Restringirem la noció de mostreig al mostreig aleatori simple, és a dir, a la selecció totalment aleatòria d’un subconjunt d’individus d’una població (selecció de mostra aleatòria). Si la població és finita, és assimilable a un procediment de selecció aleatori amb reposició.

Idea: els individus de la població tenen tots la mateixa probabilitat de ser triats per la mostra (n/N).

Idea: qualsevol mostra de tamany n té la mateixa probabilitat conjunta: (N-n)!/N!.

(6)

Prof. Lídia Montero © Pàg. 2.2-6 Curs 2.011-2.012

1. Algorisme A d’ordenació: interessa el paràmetre mediana del temps d’execució per instàncies de vectors de tamany r. Construcció aleatòria de n vectors de tamany r (mostra, en aquest cas la població és infinita).

S’executa sobre les n instàncies, s’estima la mediana poblacional del temps d’execució a partir de l’estadístic mediana mostral.

2. Avaluació d’un servidor de venda d’entrades. Les proves indiquen les peticions que poden ser ateses per minut  (hora, 60  ) . NO tenen dades sobre el nombre de peticions per hora. Es pot suposar distribució exponencial dels temps entre arribades amb paràmetre  desconegut. Mostra de temps entre arribades de n peticions. Un ús de la mostra seria per estimar  amb un cert interval de confiança. Un altre ús per determinar si el sistema es sobrecarregarà o no, és a dir per contrastar la hipòtesi nula    , contra la hipòtesi alternativa de sobrecàrrega    . Un altre ús: potser volem contrastar si realment els temps entre peticions segueixen un model probabilista exponencial.

Objectiu: usar apropiadament en situacions d’estudi semblants a les anteriors la terminologia de població, mostra, tamany mostral, paràmetre, estimador i estadístic.

o Per exemple i fora de context intenteu usar la terminologia presentada per inferir quina és la despesa

diària promig en el bar de la FIB, amb un risc d’equivocar-se del 10%, entre els estudiants d’EST-FIB.

(7)

Prof. Lídia Montero © Pàg. 2.2-7 Curs 2.011-2.012

2.2-2. INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PARÀMETRES POBLACIONALS

Es disposa d’una mostra aleatòria de tamany n d’una població gran (N>>n). Interessa estudiar la característica X que té una distribució poblacional coneguda amb excepció d’un paràmetre  .

Exemple 1: La durada d’una bombeta halògena. Si es sap que la v.a. X durada té una distribució normal de mitjana 1000 hores, però no es coneix la seva variança, per tant, el paràmetre desconegut és  V   X .

Exemple 2: La durada d’una bombeta halògena. Si es sap que la v.a. X durada té una distribució normal de mitjana DESCONEGUDA, però SI es coneix la seva variança, per tant, el paràmetre desconegut és  E   X .

Siguin els resultats de la mostra aleatòria , és a dir la mostra aleatòria són n v.a. i.i.d

X n

X 1 ,  , .

La informació obtinguda en la mostra cal resumir-la en general en indicadors numèrics.

Definició d’estadístic: Qualsevol funció matemàtica de la mostra aleatòria TX 1 , , X n.

Per exemple, el màxim TX 1 , , X n maxX 1 , , X n.

Per exemple, la mitjana geomètrica   n i n

i i

n X

X X

T

1

1 ,  , o la mitjana aritmètica  

n X X

X T

n

i i

n

 

1

1 ,  ,

x n

x 1 ,  ,

(8)

Prof. Lídia Montero © Pàg. 2.2-8 Curs 2.011-2.012

estimador de  , prové de substituir les observacions concretes de la mostra en la funció estadístic, és a dir

x 1 , , x n ˆ

T  , i es sol notar com el paràmetre amb un barret  ˆ .

Els estadístics no tenen perquè donar bones estimacions del paràmetre  per qualsevol mostra, en general, es proposen estadístics que a la llarga o en promig donen bons resultats. D’aquí que calgui imposar-los condicions.

Definició d’estimador no biaixat: És un estadístic que ETX 1 , , X n   , és a dir que en promig encerta el valor del paràmetre.

Exemple 1: la mitjana aritmètica és un estimador no biaixat del paràmetre mitjana poblacional d’una característica X v.a. d’esperança  i variança  2 , és a dir el paràmetre desconegut d’interès és   E   X   , esperança matemàtica de X. Veiem-ho:

            

 

 

 

     

n

i n

i n

i i

n

i i

n n

i i

n E X n

X n n E

n E X

X X

T n E

X X X

T 1 1 1

1 1

1 1

1 1

, 1 , ,

,  

Val a dir que l’estadístic mitjana aritmètica té una notació que ja coneixem   X

n X X

X T

n

i i

n   1 

1 ,  ,

(9)

Prof. Lídia Montero © Pàg. 2.2-9 Curs 2.011-2.012

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ DE PARÀMETRES POBLACIONALS

Un estadístic és una funció de n variables aleatòries i.i.d. i per tant, és una nova v.a., per tant té sentit parlar de la seva esperança, variança, distribució, moments, etc.

L’estadístic mitjana aritmètica, és un estimador no biaixat de la mitjana poblacional, donat que l’esperança matemàtica de l’estadístic coincideix amb l’esperança matemàtica de X (mitjana poblacional).

A la pràctica, abusem del llenguatge i molt sovint confonem estadístic amb estimador: l’estadístic defineix una v.a., en canvi l’estimador és un valor concret de la v.a. definida per l’estadístic.

I per tant, també té sentit de parlar de la variança de la v.a. mitjana aritmètica. És a dir, la variança de l’estadístic mitjana aritmètica.

 

       

n n X

n V X

n V n

V X X

V X

X T n V

X X n

i n

i n

i i

n

i i

n n

i i 2

1 2 1 2

1 2 2

1 1

1 1 1 1

,

,      

 

 

 

     

 

El que implica, que la precisió de la mitjana aritmètica per estimar la mitjana poblacional creix a mesura que la

mostra aleatòria creix (donat que la variança de l’estadístic decreix).

(10)

Prof. Lídia Montero © Pàg. 2.2-10 Curs 2.011-2.012

mitjana aritmètica de la mostra no té l’anterior fòrmula   

 

 

 

  

 1 1

2

N N N

n X n

V

. En canvi l’esperança matemàtica de l’estadístic coincideix amb la mitjana poblacional, és a dir, és no biaixat.

 

, ,    1 2  1??

1 1

1  

 

 

 

 

   

n

i i

n

i i

n finita

mostra n

i i

X n V

n V X

X V X

X T n V

X X

La variança de la suma de v.a. NO INDEPENDENTS no es pot posar com la suma de variances !!!!! (intervenen les covariances 2 a 2).

 

       

 

 

 

 

    

n

i n

i i

n

i i

n finita

mostra n

i i

X n E

X n E

n E X

X E X

X T n E

X X

1 1

1 1

1 1 1

, , 

Estudiem ara un estadístic per estimar el paràmetre variança d’una característica X, com sempre X v.a. i suposem a més a més que el paràmetre mitjana poblacional ÉS DESCONEGUT i la població infinita.

    1   2 2

1 1

2

1 , , , , 1 

 

 

 

 

 

    

n n n

X E X

X X

T n E

X X X

X T

n

i i

n n

i i

n  

(11)

Prof. Lídia Montero © Pàg. 2.2-11 Curs 2.011-2.012

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ DE PARÀMETRES POBLACIONALS

Demostrem-ho:

             

     

        

     

                     

  

 

   

 

 

 

 

2 2 2

2 2 1

2 2

2

1 2 1

1

2 2 1

2 2

2 2

1 2

2 1

2 2

1 1

2

1 2 1

1 2 1

2 2

1

2

1 1

1

1 2 1

1

1 2 1 2

1 2 1 2

 

n

n n n n

n n n X

n V

X E X V n X

E X

n V X

nE X

n E X

nE X

nE X

n E

X nE X

n X E X

n E X

n E X

X E X

n E

X E

X X E

X n E

X X X X

n E n

X E X

n i n

i n

i i

n

i i i

n

i i

n

i i

n

i i

n

i i

n

i i

n i n

i i

n

i i

n

i i i

n

i i

1  2

n n

Per tant, un estadístic que resultarà un estimador no biaixat del paràmetre variança poblacional és:

      2 2

1

2 1

2

1 , 1

,    

 

 

S E X

n X X

X T S

n

i

i

n

Només vàlid per poblacions infinites (o molt grans)

(12)

Prof. Lídia Montero © Pàg. 2.2-12 Curs 2.011-2.012

dependents i a la pràctica l’estadístic S sobreestima la variança poblacional:

      2 2

1

2 1

2

1 , 1

,    

 

 

S E X

n X X

X T S

n

i

i

n

S’haurà d’emprar un altre estadístic, que sol notar-se en alguns textes S’:

   

  2 2

1 2

2

1

2 1 '

1 1 ,

,

'    

 

  

 

 

 

  

 

S E S

N n n

X X

N X n

X T S

n

i

i

n

Estadístic per l’estimació de la variança en poblacions finites (també val per infinites)

L’eficiència d’un estadístic per l’estimació d’un paràmetre  (poblacional) està lligada a la seva variança, recordem que un estimador és una v.a. i per tant té els seus moments. El no biaix indica que l’estimador apunta bé cap el paràmetre  en terme mig, l’eficiència està lligada a una variança el més baixa possible.

Dos estadístics per l’estimació d’un paràmetre  es poden comparar en termes d’eficiència:

 

   

      1 2 1 2

2 1 1

2 2

1 1 1

, ,

,

, V T V T T més eficient que T

T E

T E X

X T T

X X

T T

n

n   

(13)

Prof. Lídia Montero © Pàg. 2.2-13 Curs 2.011-2.012

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ DE PARÀMETRES POBLACIONALS

En Estadística Matemàtica, es demostra que hi ha una cota inferior a la variança dels estadístics per estimar un paràmetre  i un estimador és eficient si és no biaix i té mínima variança (la cota de Cramer-Rao).

Nosaltres només volem valorar la precisió dels valors de l’estimador i res més.

Una altra característica desitjable dels estadístics per estimar un paràmetre  és que a mesura que la mostra es fa gran, aleshores les estimacions siguin més precises, és a dir que la variança de l’estadístic per l’estimació d’un paràmetre  decreixi a mesura que augmenta el tamany de la mostra. Aquesta característica es pot formular matemàticament, cosa que no farem i rep el nom de consistència. En el cas límit, si la mostra tingués el tamany de la població, aleshores la variança de l’estimador (abús de llenguatge per dir, l’estadístic que s’usa per l’estimació d’un paràmetre  ) seria 0.

X XE   T V   T Si T consistent

T

T n1 , , nn    nn   0

Hi ha mètodes generals per l’estimació de paràmetres, que s’estudien en Estadística Matemàtica, el mètode

dels moments, el mètode de la maximització de la versemblança, etc. Un mètode important en temes de

regressió i anàlisi de la variança és el mètode dels mínims quadrats, que sota certa distribució de probabilitat

de la variable d’interès, els seus estimadors són equivalents als estimadors màxim versemblants i per tant,

esdevé un cas particular.

(14)

Prof. Lídia Montero © Pàg. 2.2-14 Curs 2.011-2.012

Els estadístics mitjana aritmètica mostral  

n X X

X T

X1 ,  , n   i1 i i variança mostral

    

 

n

i

i

n X X

X n X

U S

1

2 1

2

1 , 1

,  són respectivament, estimadors no biaixats dels paràmetres mitjana i variança poblacionals, si la població és infinita o molt gran.

A més, i a partir d’ara, relaxant una mica la notació, es pot demostrar que la mitjana n X X

n

i i

 

1 i la

variança  

 

n

i

i X

n X S

1 2 2

1

1 mostrals, sota condicions teòriques febles, són els estimadors de mínima

variança, és a dir, que són eficients i per tant, a la pràctica són els estimadors que usarem per  i2 .

Fixant la nostra atenció en l’estadístic mitjana mostral, ja sabem que E   X i que en poblacions molt grans o infinites,  

X n V

 2

 , és a dir la variança de la distribució de probabilitat de l’estimador mitjana mostral decreix a mesura que el tamany de la mostra, n, creix. Podríem veure-ho gràficament mitjançant algun applet docent que es troba per internet. Per exemple, un que ja us és familiar:

http://www.stat.vt.edu/~sundar/java/applets/, de la pàgina de Sundar Dorai-Raj.

(15)

Prof. Lídia Montero © Pàg. 2.2-15 Curs 2.011-2.012

(16)

Prof. Lídia Montero © Pàg. 2.2-16 Curs 2.011-2.012

(17)

Prof. Lídia Montero © Pàg. 2.2-17 Curs 2.011-2.012

2.2-3. INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

Fins ara s’ha estudiat l’ús d’un estadístic per l’estimació puntual a partir d’una mostra concreta d´un paràmetre poblacional  . Els valors dels estimadors no solen coincidir ni de lluny amb els veritables (i desconeguts) valors dels paràmetres, però donat que els estadístics usats per estimació (estimadors) són v.a.

a les que se’ls pot calcular els seus moments, aleshores té sentit de construir intervals d’estimació, que s’anomenen intervals de confiança, donat que tenim una certa confiança de que contindrà el veritable valor del paràmetre  :

ˆ 1 ˆ 2  1

P  

    ˆ    ˆ   1      ˆ     ˆ   1 

2

1 P P P

Si

o bé P  ˆ .

El coeficient de confiança o nivell de confiança habitual és   0 . 05 i quasi sempre l’interval es dona simètric respecte el veritable valor del paràmetre  , és a dir,  1   2   i es sól llegir interval de confiança pel paràmetre  al 100   1    % o IC   ˆ , ˆ  al 100   1    % . Si   0 . 05 llavors

  ˆ , ˆ

IC al 95%.

(18)

Prof. Lídia Montero © Pàg. 2.2-18 Curs 2.011-2.012

Interpretació freqüentista: un interval de confiança al implica que si procés de mostreig es repetís infinites vegades, la fracció de les vegades en que el paràmetre  estaria contingut a IC   seria

 1    .

Usarem un applet de http://www.stat.vt.edu/~sundar/java/applets/Confidence Intervals , de la pàgina de Sundar Dorai-Raj, per fer més entenedora la qüestió:

1. Suposem l’experiència aleatòria de llençar n=50 vegades una moneda equilibrada, per tant la probabilitat de classe A (cara) és  =0.5, determinem el nombre de cares i la freqüència relativa de la classe A (  ˆ =nb.cares/50). Veiem els resultats de la simulació MonteCarlo m=25 vegades al requadre esquerra amunt. Per cada simulació es calcula  ˆ i IC   ˆ , ˆ  al 95%.

2. Suposem l’experiència aleatòria de llençar n=500 vegades una moneda equilibrada, determinem el nombre de cares i la freqüència relativa de la classe A (nb.cares/500). Veiem els resultats de la simulació MonteCarlo m=25 vegades al requadre dreta amunt. Es calculen  ˆ i

  ˆ , ˆ

IC al 95%.

3. IDEM QUE 1, però per cada simulació es calcula  ˆ i IC   ˆ , ˆ  al 80%.

4. IDEM QUE 2, però per cada simulació es calcula  ˆ i IC   ˆ , ˆ  al 99%.

(19)

Prof. Lídia Montero © Pàg. 2.2-19 Curs 2.011-2.012

(20)

Prof. Lídia Montero © Pàg. 2.2-20 Curs 2.011-2.012

2.2-3.1 Metodologia General del Càlcul d’Estimacions per Interval

Sigui una població on la característica X té el paràmetre  desconegut i es vol donar una estimació per interval del seu valor a partir d’una mostra aleatòria. Abús de llenguatge: donar un interval de confiança per  .

1. Obtenir una mostra aleatòria de X 1 ,  , X n , sigui x 1 ,  , x n (les X 1 ,  , X n són v.a. i.i.d. de paràmetre

).

2. Determinar la distribució de probabilitat d’un estadístic per estimar  , és a dir, una v.a. que es funció de la mostra T TX 1 , , X n  i no biaixat E   T i consistent V   T   n 0 i eficient (mínima variança).

3. Fixar un nivell de confiança  .

4. Determinar els nombres a i b tals que Pa T b 1 .

5. Per la mostra concreta calcular T Tx 1 , , x n ˆ i determinar el rang de valors que  pot prendre mantenint la condició a   ˆb . Aquest rang de valors és l’interval de confiança al 100   1    % pel

paràmetre  .

Clau: cal disposar de la distribució de probabilitat de T TX 1 , , X n  i això només es pot fer si es

coneix la distribució de probabilitat de X o bé es pot aplicar d’alguna manera el TCL.

(21)

Prof. Lídia Montero © Pàg. 2.2-21 Curs 2.011-2.012

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

2.2-3.2 Mitjana d’una població infinita de característica X distribuïda N , 2

Suposem que la variança de X és coneguda i l’esperança és desconeguda. Apliquem els passos anteriors:

1. Obtenir una mostra aleatòria de X 1 ,  , X n , sigui x 1 ,  , x n (les X 1 ,  , X n són v.a. normals de mitjana

, N , 2  ).

2. Determinar la distribució de probabilitat d’un estadístic per estimar  , és a dir, una v.a. que es funció de

la mostra  

n X X

X T X

n

i i

n

 

1 ,  , 1 , la mitjana mostral sabem que és no biaixada i consistent, també

eficient i com que són i.i.d. té distribució normal amb E   X i  

X n V

 2

 , és a dir, 

 

  N n X

2

, 

3. Fixar un nivell de confiança  . El clàssic,   0 . 05 .

4. Determinar els nombres a i b tals que Pa X b 1 . Com que la distribució és simètrica aleshores busco c a l’entorn de l’esperança (desconeguda) t.q.

  

 

   

 

 

      

n

Z c n

P c n

Z c n

P c c

X c

P   

 

 0 . 95

(22)

Prof. Lídia Montero © Pàg. 2.2-22 Curs 2.011-2.012

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 1 2 1

n Z c

n P Z c

n P Z c

n P Z c

n P Z c

P     

  c n

n c n

Z c P n

Z c P

N Z

taules

1 0 . 95 0 . 975 1 . 96 1 . 96

2

1 , 0

 

 

 

 

 

 

 

n b

n

a    1 . 96     1 . 96 

5. Per la mostra concreta calcular X Tx 1 , , x n x i determinar el rang de valors que  pot

prendre mantenint la condició axb . Aquest rang de valors és l’interval de confiança al

1%

100    pel paràmetre  .

   x n x n

IC    1 . 96  ,  1 . 96  al 95%

(23)

Prof. Lídia Montero © Pàg. 2.2-23 Curs 2.011-2.012

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

En el cas de la normal, simètrica i de voler construir un IC simètric entorn de  , aleshores cal buscar a les taules de la normal estàndard el valor t.q. dona una probabilitat acumulada de

    1 2

2 1

1 1

2 2 2

1 , 0

 

  

 

 

 

 

 

z Z P tq n z

Z c n P

Z c P

N Z taules

 2

z és el valor de la normal estàndard que deixa una cua de probabilitat per la dreta de magnitut  2 .

I l’interval de confiança al 100 1 % pel paràmetre  és en general,

   x z n x z n

IC    2   ,  2   al 100   1    %

Els valors habituals usats com nivells de confiança i z  2 respectius en intervals simètrics són:

1 0.90 0.95 0.99

 2

z 1.645 1.96 2.576

(24)

Prof. Lídia Montero © Pàg. 2.2-24 Curs 2.011-2.012

de confiança pel paràmetre  amb una precisió (amplada de l’interval no superior) a E?

   

 

 

 

 

 

2 2

2

2 , 2

E n z

n z

x n z

x

IC

Exercici 2 : Un programa té un working-set promig de paginació distribuït normalment amb variança 81 (pàgines al quadrat). El programa s’executa n=36 vegades en situacions independents. Es recull el working- set promig per cada execució. La mitjana mostral resulta ser 100 pàgines. Doneu un interval de confiança al 95% pel working-set promig requerit pel programa.

  x 1 . 96 n , x 1 . 96 n   100 1 . 96 9 36 , x 1 . 96 9 36 97 . 06 , 102 . 94

IC    al 95%

Exercici 3: Es vol conèixer el temps de CPU requerit per un programa en un entorn multiusuari amb un nivell de confiança del 99% i amb una precissió de mig segon amunt o avall del veritable temps d’execució.

L’experiència anterior valida una variança del temps d’execució de 2.25 segons quadrat. Quin és el nombre d’execucions que s’han d’efectuar per poder determinar l’interval de confiança amb els anteriors requeriments?

        60

5 . 0

25 . 2 576 . 5 2

. 0 25

. 2 576 . 2 5 . 0 ,

2

005 . 0 2

2 

 

 

 

 

 

x z n x z n z n n n

IC  

(25)

Prof. Lídia Montero © Pàg. 2.2-25 Curs 2.011-2.012

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

INCONVENIENTS DEL MÈTODE PRESENTAT:

S’ha suposat que la distribució de probabilitat de la població (de la característica d’interès X en la població, s’hauria de dir) és NORMAL.

S’ha suposat que la variança poblacional de X era coneguda. En la majoria dels casos no és cert.

Solucions:

Si el paràmetre d’interès és la mitjana poblacional de X, malgrat no ser normal la distribució de la característica X de la població, en virtud del teorema central del límit, en poblacions infinites (o molt grans) i en mostres aleatòries de gran tamany, l’estadístic mitjana mostral tindrà una distribució normal sigui quina sigui la distribució de referència de X. En terminologia estadística, la mitjana mostral és assimptòticament normal.

Si la variança poblacional de X és desconeguda i interessa estimar la mitjana poblacional (també desconeguda), aleshores es pot usar una estimació de la variança. Si la mostra n és gran reemplaçar la variança poblacional desconeguda per l’estadístic variança mostral anirà bé:

   x z n x z nIC  x z s n x z s n

IC

a desconegud

 

2  , 2 2 , 2

Si la mostra n és petita, aleshores haurem de desenvolupar una distribució de referència per l’estadístic per

l’estimació de la variança. Això si, sense sortir-nos del supòsit de distribució de referència normal de X.

(26)

Prof. Lídia Montero © Pàg. 2.2-26 Curs 2.011-2.012

2.2-3.3 Mitjana d’una població infinita de característica X -   . V(X) desconeguda

Suposem que la variança de X és desconeguda i l’esperança és desconeguda. Apliquem els passos generals:

1. Obtenir una mostra aleatòria de X 1 ,  , X n , sigui x 1 ,  , x n (les X 1 ,  , X n són v.a. normals

, 2

N ).

2. Determinar la distribució de probabilitat d’un estadístic per estimar  , és a dir, una v.a. que es funció

de la mostra  

n X X

X T X

n

i i

n

 

1 ,  , 1 , la mitjana mostral sabem que és no biaixada i consistent,

també eficient i com que són i.i.d. ,   1 t n

n S X

té distribució t d’Student amb n-1 graus de llibertat amb

 0

 

 

  n S E X

i 3

1

 

 

 

 

n n n S V X

. Assimptòticament, una t d’Student amb r g.ll. convergeix a una normal estandard quan r es fa gran (superior a 30 ja és bona l’aproximació).

3. Fixar un nivell de confiança  . El clàssic,   0 . 05 .

4. Determinar els nombres a i b tals que Pa X b 1 . Com que cal tipificar (centrar i reduir) i desconec  la distribució de

n S

X   la t d’Student simètrica aleshores busco c a l’entorn de l’esperança 0

per les taules de la t d’Student:

(27)

Prof. Lídia Montero © Pàg. 2.2-27 Curs 2.011-2.012

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

  2   1 0 . 95   0 . 975

95 .

0    1   1     1  

 

 

     c P c t c P t c P t c

n S c X

Pn n n

10 . 975 1 , 2 1 , 2 1 , 2 0 . 95

1

 

 

  

 

n n

n t

taules

n t

n S t X

P t

c c

t P

n

n s t

b n

s t

a    n 1 , 2    n 1 , 2

5. Per la mostra concreta calcular X Tx 1 , , x n x i determinar el rang de valors que  pot

prendre mantenint la condició axb . Aquest rang de valors és l’interval de confiança al

1%

100    pel paràmetre  .

   x t s n x t s n

IC    n 1 , 2 ,  n 1 , 2 al 100   1    % %

t n 1 , 2 es defineix de manera que l’àrea a la dreta de t n  1 ,  2 en la distribució d’Student amb n-1 g.ll.

es igual a  2 .

(28)

Prof. Lídia Montero © Pàg. 2.2-28 Curs 2.011-2.012

(29)

Prof. Lídia Montero © Pàg. 2.2-29 Curs 2.011-2.012

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

Exemples:

Es vol estimar el temps mig d’execució d’un programa en entorn multiusuari. S’executa 6 vegades amb jocs de dades i hores triades aleatòriament. El temps mig d’execució resultant i la desviació estàndard és de

s S

i ms

x  230  30 . Determineu un interval de confiança al 98% pel temps mig d’execució.

, 365

. 3 01

. 0

2      t 1 , 2  t 5 , 0 . 01 

taules n

d’on

    xt 1 , 2 s n , xt 1 , 2 s n    2303 . 36530 6 , 2303 . 36530 6   210 . 767 , 249 . 233

ICn n

(30)

Prof. Lídia Montero © Pàg. 2.2-30 Curs 2.011-2.012

2.2-3.4 Lleis Tècniques de la Inferència: t d’Student,  , F de Fisher

Per ara hem estat treballant l’estimació de la mitjana per punt i per interval quan la característica d’interès té una distribució normal (relaxable via TCL). Seguim en el contexte normal, ara estudiant l’estimació per interval de la variança poblacional.

Sigui una mostra aleatòria de tamany n, X 1 ,  , X n i.i.d, procedent d’una població normal

, 2 0 , 2 1

  

 

X N

Z N

X i i i . Sigui 2 1

1

2 

  n n

i

i Y

Z

Y  , Y segueix una shi-quadrat

amb n-1 graus de llibertat.

La llei de shi-quadrat gaudeix de la propietat de la reproductivitat, és a dir, la suma de v.a.

independents de llei shi-quadrat és una shi- quadrat amb paràmetre graus de llibertat, addició dels g.ll. de les lleis que la defineixen. Val a dir que és una llei tècnica amb

  2 i V   n 2 1  2

E .

(31)

Prof. Lídia Montero © Pàg. 2.2-31 Curs 2.011-2.012

INFERÈNCIA ESTADÍSTICA: ESTIMACIÓ PER INTERVALS

La darrera llei de probabilitat tècnica a presentar és la llei de Fisher. Aquesta llei té dos paràmetres que són els graus de llibertat del numerador i del denominador, la raó és que es defineix a partir d’un quocient de 2 shi- quadrats independents:

Siguin 2 v.a. ind. Tq.

1 2 1

,

2

2 2

1 2 1

2 2

1 ,

 

F

Y W Y Y

Y      segueix una llei de Fisher-Snedecor de ‘nu 1’ i ‘nu 2’ graus de llibertat.

Val a dir que els moments bàsics són    

 2   4  4

2 2

2 1 2 2 2 2

2 1 2 2 2

2 ,

2

1

 

 

 

W i V W

F

W .

Ara es pot donar una definició formal de la llei T d’Student. Si Z i Y són independents tals que,

  0 , 1 ,  2     1

 

t

Y T Z

Y N

Z .

Es pot demostrar que l’estadístic  

 

n

i

i X

n X S

1 2 2

1

1 està relacionat amb una llei de shi-quadrat,

      2

2 1 2

1 1

2 2 2

2 2 2

1

2 2 1

1 1

1 1

 

 

 

 

 

 

 

 

   nn

i

n

i

i i

n

i

i

S n X

X n

X X

X n n X

S

Figure

Actualización...

Referencias

Actualización...