MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT (UPC). CURS Q1 EXAMEN FINAL 1 Mètodes de Captació, Anàlisi i Interpretació de Dades.

(1)

MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT (UPC).

CURS 10 -11 Q1 – EXAMEN FINAL 1

Mètodes de Captació, Anàlisi i Interpretació de Dades ^.

(Data: 19/1/2011 16:00-19:00 h Lloc: Aula H-4.4) Nom de l’alumne:

Professor responsable: Lídia Montero Mercadé Localització:

Edifici C5 D217

Normativa de l’examen: ES PERMÉS DE DUR ELS APUNTS de TEORIA sense NOTES

SI TAULES ESTADÍSTIQUES

ES POT DUR CALCULADORA I FORMULARI OFICIAL

Durada: 3h 00 min

Sortida de notes: Abans 24 /1/11 al WEB de l’assignatura.

Revisió: El 24 /1/11 a les 14:30 hores (C5-217).

Problema 1. Modelaje estadístico (4 puntos, responder sólo a 8 de los 14 apartados)

Se va a estudiar el salario en dólares por semana a partir de las variables explicativas descritas a continuación.

Description

Cross-section data originating from the March 1988 Current Population Survey by the US Census Bureau.

Format

A data frame containing 28,155 observations on 7 variables.

wage

Wage (in dollars per week).

education

Number of years of education.

experience

Number of years of potential work experience.

ethnicity

Factor with levels "cauc" and "afam" (African-American).

smsa

Factor. Does the individual reside in a Standard Metropolitan Statistical Area (SMSA)?

region

Factor with levels "northeast", "midwest", "south", "west".

parttime

Factor. Does the individual work part-time?

Details

A sample of men aged 18 to 70 with positive annual income greater than USD 50 in 1992, who are not self-employed nor working without pay. Wages are deflated by the deflator of Personal Consumption Expenditure for 1992.

La variable que se quiere modelar es el sueldo semanal (wage). Se dispone de un modelo avanzado donde el sueldo viene explicado por la experiencia, los años de educación y la raza.

> dim(CPS1988);summary(CPS1988) [1] 28155 7

wage education experience ethnicity smsa Min. : 50.05 Min. : 0.00 Min. :-4.0 cauc:25923 no : 7223 1st Qu.: 308.64 1st Qu.:12.00 1st Qu.: 8.0 afam: 2232 yes:20932

(2)

Median : 522.32 Median :12.00 Median :16.0 Mean : 603.73 Mean :13.07 Mean :18.2 3rd Qu.: 783.48 3rd Qu.:15.00 3rd Qu.:27.0 Max. :18777.20 Max. :18.00 Max. :63.0 region parttime

northeast:6441 no :25631 midwest :6863 yes: 2524 south :8760 west :6091

> cor(data.frame(wage,experience,education), use="pairwise.complete.obs") wage experience education

wage 1.0000000 0.1942204 0.3016440 experience 0.1942204 1.0000000 -0.2867064 education 0.3016440 -0.2867064 1.0000000

>par(mfrow=c(1,2)) plot(density(wage))

curve(dnorm(x,mean(x),sd(x)),col=2,add=T) hist(wage,freq=F,add=T)

boxplot(wage~ethnicity,main="wage~ethnicity") library(MASS)

boxcox(wage~1)

> summary(m1)

Call: lm(formula = wage ~ I(experience - 16) + I((experience - 16)^2) + I(education - 12) + ethnicity, data = CPS1988)

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 613.37695 3.43115 178.77 <2e-16 ***

I(experience - 16) 17.04257 0.24467 69.66 <2e-16 ***

I((experience - 16)^2) -0.53957 0.01294 -41.70 <2e-16 ***

I(education - 12) 54.26492 0.86702 62.59 <2e-16 ***

ethnicityafam -128.42173 8.80396 -14.59 <2e-16 ***

---

Residual standard error: 398 on 28150 degrees of freedom Multiple R-squared: 0.2302, Adjusted R-squared: 0.2301

0 5000 15000

0.00000.00020.00040.00060.00080.00100.0012

density.default(x = wage)

N = 28155 Bandwidth = 41.09

Density

-2 -1 0 1 2

-370000-360000-350000-340000-330000-320000-310000



log-Likelihood

95%

(3)

F-statistic: 2104 on 4 and 28150 DF, p-value: < 2.2e-16

> summary(m1)

Call:

lm(formula = log(wage) ~ I(experience - 16) + I((experience - 16)^2) + I(education - 12) + ethnicity, data = CPS1988)

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 6.252e+00 5.035e-03 1241.84 <2e-16 ***

I(experience - 16) 3.536e-02 3.590e-04 98.49 <2e-16 ***

I((experience - 16)^2) -1.316e-03 1.899e-05 -69.31 <2e-16 ***

I(education - 12) 8.567e-02 1.272e-03 67.34 <2e-16 ***

ethnicityafam -2.434e-01 1.292e-02 -18.84 <2e-16 ***

---

Residual standard error: 0.5839 on 28150 degrees of freedom Multiple R-squared: 0.3347, Adjusted R-squared: 0.3346 F-statistic: 3541 on 4 and 28150 DF, p-value: < 2.2e-16

> summary(m2)

Call:

lm(formula = log(wage) ~ I(experience - 16) + I((experience - 16)^2) + I(education - 12) * ethnicity, data = CPS1988)

(4)

Coefficients:

I(experience - 16) 3.535e-02 3.590e-04 98.455 <2e-16 ***

I((experience - 16)^2) -1.318e-03 1.901e-05 -69.339 <2e-16 ***

I(education - 12) 8.631e-02 1.309e-03 65.944 <2e-16 ***

I(education - 12):ethnicityafam -9.648e-03 4.651e-03 -2.074 0.0380 *

> summary(m3)

Call:

lm(formula = log(wage) ~ I(experience - 16) + I((experience -

16)^2) + I(education - 12) * ethnicity + region, data = CPS1988)

Coefficients:

I(experience - 16) 3.531e-02 3.578e-04 98.676 <2e-16 ***

I((experience - 16)^2) -1.325e-03 1.896e-05 -69.880 <2e-16 ***

I(education - 12) 8.530e-02 1.307e-03 65.251 <2e-16 ***

regionmidwest -8.804e-02 1.010e-02 -8.716 <2e-16 ***

regionsouth -1.319e-01 9.642e-03 -13.683 <2e-16 ***

regionwest -9.122e-02 1.043e-02 -8.749 <2e-16 ***

I(education - 12):ethnicityafam -9.503e-03 4.636e-03 -2.050 0.0404 * ---

Residual standard error: 0.582 on 28146 degrees of freedom Multiple R-squared: 0.3393, Adjusted R-squared: 0.3392 F-statistic: 1807 on 8 and 28146 DF, p-value: < 2.2e-16

> anova(m1);anova(m2) Analysis of Variance Table

Response: log(wage)

Df Sum Sq Mean Sq F value Pr(>F) I(experience - 16) 1 839.5 839.52 2462.06 < 2.2e-16 ***

I((experience - 16)^2) 1 2249.5 2249.49 6597.10 < 2.2e-16 ***

I(education - 12) 1 1619.7 1619.69 4750.07 < 2.2e-16 ***

ethnicity 1 121.0 121.02 354.91 < 2.2e-16 ***

Residuals 28150 9598.6 0.34 ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Analysis of Variance Table

Response: log(wage)

Df Sum Sq Mean Sq F value Pr(>F) I(experience - 16) 1 839.5 839.52 2462.3505 < 2e-16 ***

I((experience - 16)^2) 1 2249.5 2249.49 6597.8755 < 2e-16 ***

I(education - 12) 1 1619.7 1619.69 4750.6318 < 2e-16 ***

ethnicity 1 121.0 121.02 354.9488 < 2e-16 ***

I(education - 12):ethnicity 1 1.5 1.47 4.3033 0.03805 * Residuals 28149 9597.2 0.34 ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

>anova(m3)

Analysis of Variance Table

Response: log(wage)

Df Sum Sq Mean Sq F value Pr(>F) I(experience - 16) 1 839.5 839.52 2478.8692 < 2e-16 ***

I((experience - 16)^2) 1 2249.5 2249.49 6642.1373 < 2e-16 ***

I(education - 12) 1 1619.7 1619.69 4782.5013 < 2e-16 ***

ethnicity 1 121.0 121.02 357.3300 < 2e-16 ***

(5)

region 3 65.0 21.67 63.9894 < 2e-16 ***

I(education - 12):ethnicity 1 1.4 1.42 4.2012 0.04041 * Residuals 28146 9532.2 0.34

> summary(m4)

Call: lm(formula = log(wage) ~ (I(experience - 16) + I((experience - 16)^2) + I(education - 12) * ethnicity) + region + smsa + parttime)

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 6.196e+00 9.555e-03 648.452 < 2e-16 ***

I(experience - 16) 2.796e-02 3.399e-04 82.276 < 2e-16 ***

I((experience - 16)^2) -8.686e-04 1.828e-05 -47.529 < 2e-16 ***

I(education - 12) 8.486e-02 1.189e-03 71.399 < 2e-16 ***

ethnicityafam -2.199e-01 1.198e-02 -18.356 < 2e-16 ***

regionmidwest -4.705e-02 9.222e-03 -5.102 3.38e-07 ***

regionsouth -9.850e-02 8.795e-03 -11.200 < 2e-16 ***

regionwest -4.142e-02 9.497e-03 -4.362 1.30e-05 ***

smsayes 1.651e-01 7.305e-03 22.598 < 2e-16 ***

parttimeyes -8.806e-01 1.177e-02 -74.815 < 2e-16 ***

I(education - 12):ethnicityafam -9.395e-03 4.203e-03 -2.235 0.0254 * ---

Residual standard error: 0.5275 on 28144 degrees of freedom Multiple R-squared: 0.4573, Adjusted R-squared: 0.4571

> summary(hatvalues(m4))

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.0001591 0.0002188 0.0002808 0.0003907 0.0004035 0.0108600

> quantile(hatvalues(m4),seq(0.9,1,by=0.01))

90% 91% 92% 93% 94% 95%

0.0006781513 0.0007000164 0.0007367758 0.0007727589 0.0008179242 0.0008791812 96% 97% 98% 99% 100%

0.0009763965 0.0011062511 0.0013543100 0.0017964113 0.0108632976

> pairwise.t.test(log(wage),region,pool.sd=F,p.adj = "BY")

Pairwise comparisons using t tests with non-pooled SD data: log(wage) and region

northeast midwest south midwest 1.1e-14 - - south < 2e-16 3.0e-15 - west 1.5e-14 1 3.1e-13 P value adjustment method: BY

>

(6)

1. Indicad la variable explicativa numérica (X) más asociada con la variable de respuesta (Y) y cual sería el coeficiente de determinación del modelo de regresión lineal simple Y ~X.

Com indica el coeficient de correlació lineal entre la resposta wage i les variables numériques, l’educació és la correlació (positiva) de més intensitat, malgrat no gaire satisfactòria (0.30). El coeficient de determinació del model RLS seria el quadrat de 0.3, és a dir 0.09 aproximadament.

2. Indicad cual sería el valor del estimador de la constante en el modelo nulo (Y ~1).

Seria la mitjana mostral de la resposta, és a dir, segons el resultat de summary(CPS1988) mostrat 603.73 dolars/set.

3. Argumentad si la distribución de la variable de respuesta puede considerarse aceptablemente normal.

Òbviament no, és una distribució molt assimètrica degut als valors atípics (salaris molt, molt elevats), sembla difícil però titllar els outliers a partir d’un llindar.

4. Interpretad el modelo (M1), indicando la expresión concreta de la relación entre el salario y las variables explicativas cuantitativas para cada grupo étnico.

Etnia caucàssica:

613.37695 + 17.04257 * I(experience - 16) -0.53957 * I((experience - 16)^2) + 54.26492 *(education - 12)

Etnia Afroamericana:

ethnicityafam (613.37695-128.42173) + 17.04257 * I(experience - 16) - 0.53957 * I((experience - 16)^2) + 54.26492 *(education - 12)

5. Según el modelo (M1), cuál sería el salario semanal esperado para un individuo afroamericano con experiencia y educación en la mediana muestral?

0.000 0.002 0.004 0.006 0.008 0.010

-50510

Leverage

Standardized residuals

lm(log(wage) ~ (I(experience - 16) + I((experience - 16)^2) + I(education - ...

Cook's distance

Residuals vs Leverage

15387

26099

9415

(M4)

(7)

La mediana de l’experiència és 16 anys i la mediana de l’educació són 12 anys, per tant, només cal considerar el terme independent de la superficie interpretada pels afroamericans.

ethnicityafam (613.37695-128.42173) + 17.04257 * I(16 - 16) -0.53957 * I((16 - 16)^2) + 54.26492 *(12 - 12) = (613.37695-128.42173)= 484.9552 $/set

6. A la vista de los resultados del método boxcox, pensaís que es necesaria alguna transformación para mejorar las propiedades del modelo de regresión, cuál?

Claríssimament, per tal de simetritzar la distribució de la resposta caldria fer una transformació que segons BoxCox hauria d’estar al voltant de la potencia 0.25 (arrel quarta) ara bé com el 0 està proper i pràcticament té el mateix valor de la funció de versemblança, la logarítmica pot ser adecuada al trobar-se el màxim estimat pel paràmetre lambda de Box-Cox pràcticament a 0. El resultat tampoc sembla que sigui satisfactòriament normal, però sens dubte ha millorat.

Se decide aplicar una transformación logarítmica a la variable de respuesta y se pasa a recalcular el modelo de regresión con las variables experiencia, educación y el factor étnico.

7. Según el nuevo modelo (M1), cuál sería el salario semanal esperado para un individuo afroamericano con experiencia y educación en la mediana muestral?

Model amb log(wage) per afam (afroamericans):

6.252e+00-2.434e-01 + 3.536e-02 * I(experience – 16) -1.316e-03 * I((experience - 16)^2)+ 8.567e-02 * I(education - 12)

En la media de les covariants el log(wage) predit és: 6.252e+00-2.434e- 01=6.0086 i per tant exp(6.0086)= 406.9132 $/set seria la predicció puntual sol.licitada, vora 80 $ per sota que la predicció facilitada pel model sense transformar.

8. Pensáis que la relación entre el salario y la educación depende de la etnia del individuo después

de controlar por los años de experiencia? Contruir manualmente en base a los resultados

disponibles el contraste por varianza incremental de la hipótesis nula formulada.

(8)

Es demana per la interacció entre l’educació i el log(wage) després de controlar per l’experiència laboral. Cal mirar els resultats del model additiu en educación i etnia (i amb els termes lineals i quadràtic de l’experiència) i el mateix model amb addicionalment la interacció educación i etnia.

Es comparem per variança incremental formulant la hipòtesi nula que tots 2 models són equivalents i valorant el p valor de la hipòtesi nula a partir de la distribució de Fisher de l’estadístic calculat (comparar models M2 vs M1). La interacció consumeix 1 grau de llibertat i també es pot resoldre la qüestió valorant la taula de la regressió on s’indiquen els p valors de les hipótesis nul.les individuals sobre els paràmetres coeficient igual a zero. Segons aquesta darrera opció, el p valor associat al contrast de la hipòtesi nul.la paràmetre de la interacció igual a zero té un p valor inferior al 5% (0.0380), per tant, hi ha evidencia per rebutjar la hipòtesi nul.la i per tant, la relació entre el salari setmanal i l’educació depèn de l’ètnia de l’individu.

9. Interpretad las curvas resultantes del modelo ANCOVA con interacciones de educación e indicador de étnia para explicar la respuesta salario semanal.

Model amb log(wage) per cauc(caucàssics):

(6.252e+00) +3.535e-02 * I(experience - 16)-1.318e-03 * I((experience - 16)^2)+(8.631e-02) * I(education – 12)

Model amb log(wage) per afam (afroamericans):

(6.252e+00- 2.397e-01) +3.535e-02 * I(experience - 16)-1.318e-03 * I((experience - 16)^2)+(8.631e-02 -9.648e-03) * I(education – 12)=

6.0123 + 3.535e-02 * I(experience - 16)-1.318e-03 * I((experience - 16)^2)+0.076662* I(education – 12)

10. Se decide trabajar con las variables explicativas numéricas educación y experiencia y considerar la transformación logarítmica de la respuesta. Después de controlar por las variables numéricas y etnia, pensáis que la respuesta transformada depende de la región del país de donde residan los individuos?

Cal comparar per variança incremental el model amb i sense regió, només es disposa dels resultats de la inclussió de la regió amb efecte principal. Es presenten els resultats del model (M2) sense regió i del model (M3) amb regió. Aquest cop no es poden mirar els contrastos individuals dels coeficients associats a les variables dummies emprades per incloure el factor politòmic en el predictor lineal. Teniu les dades per construir manualment el contrast VI.

> anova(m2,m3)

Analysis of Variance Table

Model 1: log(wage) ~ I(experience - 16) + I((experience - 16)^2) + I(education -

12) * ethnicity

Model 2: log(wage) ~ I(experience - 16) + I((experience - 16)^2) + I(education -

12) * ethnicity + region

Res.Df RSS Df Sum of Sq F Pr(>F) 1 28149 9597.2 2 28146 9532.2 3 64.969 63.946 < 2.2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

11. Elegid el mejor modelo disponible en la salida de datos del presente ejercicio.

A la vista del model (M4) on s’afegeixen sobre (M3) els factors dicotòmics SMSA i PARTTIME,

que són estadísticament significatius (en forma additiva, l’única disponible). Aquest sembla el

millor models entre els disponibles en el llistat.

(9)

12. Pensáis que la diagnosis del modelo (M4) es satisfactoria a partir del análisis de los residuos del modelo.

Només hi ha un gràfic de diagnosi on es veu en ordenades els residus estandaritzats i en abscisses el factor d’anclatge. S’observen residus estandaritzats que superem per molt el límit de +3, valor que aproximadament pot considerar-se de referencia a la distribució quasi normal que haurien de tenir aquests residus. Per tant, no són ni de lluny satisfactoris. L’explicabilitat del model només és del 46%. Hi ha un problema seriós d’observacions influents i sobretot de valors atípics en la resposta (salaris molt elevats).

13. Indicad cual es el umbral máximo del factor de anclaje a partir del cual una observación es sospechosa a priori de condicionar los estimadores de los coeficientes del modelo?

El factor d’anclatge té una cota superior de 2 o 3 vegades el promig dels valors propis de la matriu de projecció que aparaeix en el mètode dels mínims quadrats, és a dir, 3p/n donat que la mostra és molt gran, hi ha més d’un 1 per cent d’observacions que superen aquest llindar.

> length(coef(m4))*3/dim(CPS1988)[1]

[1] 0.001172083

> quantile(hatvalues(m4),seq(0.9,1,by=0.01))

90% 91% 92% 93% 94% 95%

0.0006781513 0.0007000164 0.0007367758 0.0007727589 0.0008179242 0.0008791812 96% 97% 98% 99% 100%

0.0009763965 0.0011062511 0.0013543100 0.0017964113 0.0108632976

>

14. A la vista de los resultados comparativos de las medias dos a dos entre la respuesta transformada y la región del país, pensaís que podría recodificarse la región en un número menor de categorías?

Si, sembla que l’efecte sobre brut sobre la resposta no és significativament diferent en els estats del west i midwest, per tant, es podría intentar una agrupació d’aquests dos nivells, recalcular el millor model disponible i comparar-lo amb l’actual per variança incremental (són models encaixats). No es disposa de sortides de resultats com per treure cap conclusió més.

Problema 2. Incidencia de la pena capital en EEUU (1946-1950) (3 puntos)

Los datos MurderRates del paquete AER de R son un juego de datos trabajado por Maddala (2001) que contienen indicación de las características de las ejecuciones por pena capital para 44 de los estados de EEUU según datos de 1950. Para cada estado se dispone de: la mediana del tiempo de reclusión (time), la mediana familiar de ingresos (income), la tasa de población activa (en porcentaje, lfp), la proporción de población no caucásica (noncauc) y un indicador dicotómico de estado del sur (southern). La siguiente tabla muestra los datos agregados referentes a la incidencia de ejecuciones por pena capital según el indicador de región del Sur de EEUU o no.

Southern Con Ejecuciones (respuesta positiva)

Sin Ejecuciones m

No (ref) 20 9 29

Yes 15 0 15

35 9 44

> anova(m1)

Analysis of Deviance Table

Model: binomial, link: logit

Response: I(dfex$executions > 0)

(10)

Terms added sequentially (first to last)

Df Deviance Resid. Df Resid. Dev NULL 43 44.584 southern 1 8.6605 42 35.924

>

1. Calcular el modelo nulo según la transformación logit.

Manualment logodd marginal:

log(35/9)= 1.358123

> summary(m0)

Call:

glm(formula = I(dfex$executions > 0) ~ 1, family = binomial, data = dfex)

Coefficients:

Estimate Std. Error z value Pr(>|z|) (Intercept) 1.3581 0.3737 3.634 0.000279 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 44.584 on 43 degrees of freedom Residual deviance: 44.584 on 43 degrees of freedom AIC: 46.584

Number of Fisher Scoring iterations: 4

2. Estimar manualmente el modelo de regresión logística para modelar la probabilidad de ejecuciones capitales en un estado según sea o no un estado del Sur de EEUU.

Manualment logodd referencia (southern = No):

log(20/9)= 0.7985

> log(15.0000001/0.0000001);log(15.5/0.5);log(15.005/0.005) [1] 18.82615

[1] 3.433987 [1] 8.006701

logodd i=2, souther = Yes ->

log(15/0)=Inf

Per tant, l’estimador del coeficient de la dummy per l’efecte additiu en l’escala del predictor de estat sudista és infinit, tècnicament no convergeix el mètode dels scores per l’estimació MV.

3. La probabilidad que se produjeran ejecuciones es estadísticamente independiente de si el estado es o no es del sur? Formular la hipótesis nula y calcular manualmente algún estadístico adecuado de bondad del ajuste y cálculo del pvalor de la hipótesis nula.

Sigui com sigui el model M1 amb el factor SOUTHERN és un model saturat i per tant, de

deviança nula. Es pot calcular manualment la deviança o l’estadístic de Pearson pel model (M0) i

valorar el goodness of fit contrastant aquests estadístics amb una Chi quadrat de 1 grau de

(11)

llibertat o bé directament usar el resultat on indica que la diferencia de deviances entre el model (M0) nul i el model (M1) amb el factor és de 8.87 unitats i per tant P(X2(2)>8.87)=0.003 inferior al llindar del 5% habitual i per tant, hi ha evidencia per rebutjar l’equivalència entre els 2 models i efectivament l’indicador d’estat sudista és un factor estadísticament significatiu.

4. Calcular el modelo probit nulo.

> qnorm(35/(35+9)) [1] 0.8254945

> summary(m0) Call:

glm(formula = I(dfex$executions > 0) ~ 1, family = binomial(link = probit),

data = dfex) Coefficients:

Estimate Std. Error z value Pr(>|z|) (Intercept) 0.8255 0.2143 3.852 0.000117 ***

5. Calcular en el modelo probit de la pena capital el estimador del coeficiente asociado a la variable indicadora de estado sudista.

> qnorm(20/(20+9));qnorm(15/(15));qnorm(15/(15))-qnorm(20/(20+9)) [1] 0.4948732

[1] Inf [1] Inf

> summary(m1)

Call:glm(formula = I(dfex$executions > 0) ~ southern, family = binomial(link = probit), data = dfex)

Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.4949 0.2434 2.033 0.042 * southernyes 5.2551 404.9882 0.013 0.990

6. Pensaís que los estimadores de los parámetros muestran algún tipo de patología? Qué os lo hace sospechar?

Clarament la classificació com estat sudista porta automàticament a una resposta positiva del 100%, és a dir, en tots ells hi ha hagut execucions, per tant, els estimadors no convergeixen per la dummy, però la deviança residual pot seguir-se emprant.

Problema 3. Sondeo sobre Percepción de Tarifas Urbanas (3 puntos, responder sólo a 6 de los 9 apartados)

Se desarrolla un sondeo de opinión para recoger información sobre la proporción de usuarios del transporte urbano del Area Metropolitana de Barcelona que recuerdan el precio de la tarifa individual de un billete sencillo no integrado y posteriormente se les pregunta cuál es ese precio por selección de uno entre seis intérvalos posibles presentados.

Se obtiene un porcentaje de viajeros que responden afirmativamente a la pregunta de si recuerdan la tarifa individual del 40% (llamémoslos viajeros atentos).

1. Si la extracción es MASCR y el tamaño muestras fuera de 100

usuarios, determinar el intérvalo de confianza del 95% para el

verdadero porcentaje de viajeros atentos en la población de usuarios?

(12)

L’error absolut al nivel de confíança del 95% per una proporció en mostreig ASCR seria amb

4

. ˆ 0

p

, n=100, N  

       

097 . 4 0 . 0 1 4 . 96 0 . ˆ 1 ˆ 1 96 . 1 1 ' 1

ˆ ₀_.₉₇₅  ²     



 

 



 n-1 99

p S p

n N z n

p EA y

EA

.

L’interval de confiança al 95% pel veritable valor de la proporció d’usuaris atents a la població d’usuaris seria de 0.4±0.097.

2. Si la extracción es MASSR y el tamaño muestras fuera de 100 usuarios, determinar el intérvalo de confianza del 95% para el verdadero porcentaje de viajeros atentos en la población de usuarios, si la dimensión del universo fuera de N=5000 usuarios?

L’error absolut al nivel de confíança del 95% per una proporció en mostreig ASSR seria amb

4

. ˆ 0

p

, n=100, N  1500000

       

0955 . 4 0 . 0 1 4 . 1 0

96 . ˆ 1 ˆ1 1 96 . 1 1 '

ˆ ₀_.₉₇₅ 1 ²  



 

 

 



 

 

 



 

 



 5000 99

100 1

- n

p p N S n

n N z n

p EA y

EA

.

L’interval de confiança al 95% pel veritable valor de la proporció d’usuaris atents a la població d’usuaris seria de 0.4±0.0955.

3. Si la extracción es MASSR y el tamaño muestras fuera de 100 usuarios, determinar el intérvalo de confianza del 95% para el verdadero porcentaje de viajeros atentos en la población de usuarios, si la dimensión del universo se considera infinito?

Una población infinita equival a emprar el formulari d’un MASCR en comptes del MASSR, per tant, els resultats seran els mateixos que en l’apartat 1, l’interval de confiança al 95% pel veritable valor de la proporció d’usuaris atents a la població d’usuaris seria de 0.4±0.097.

4. Si la extracción es ASCR, cuántas personas han de ser interrogadas para poder decir con un nivel de confianza del 95% que el verdadero porcentaje de viajeros atentos en la población no se desvía más de 5 puntos del estimador puntual?

L’error absolut al nivel de confíança del 95% per una proporció en mostreig ASCR seria amb

4

. ˆ 0

p

i N  

    ^ ^ ^ ^

0.05

_

369.8

_

370

1 96 . 0 4 . 0 1 4 . 96 0 . ˆ 1 ˆ1 96 . 1 1 '

ˆ ₀_.₉₇₅ 1 ²    

 



 

 



 n

1 n - n 1

- n

p S p

n N z n

p EA y EA

.

5. Si la extracción es ASSR, cuántas personas han de ser interrogadas para poder decir con un nivel de confianza del 95% que el verdadero porcentaje de viajeros atentos en la población no se desvía más de 5 puntos del indicador muestral (N=3.500.000) .

L’error absolut al nivel de confíança del 95% per una proporció en mostreig ASSR seria amb

4

. ˆ 0

p

i N  3500000

    ^ ^ ^ ^

0.05 369.8

1 96 . 0 1

6 . 0 1 4 . 96 0 . 1 1 ˆ 1 96 ˆ . 1 1 '

ˆ ₀_.₉₇₅ 1 ²   

 



 



 



 

 



 _

 



n n n

n p S p

n N z n

p EA y

EA

. I

d’aquí

 ¹  ^ ¹ ³⁶⁹

3500000

^. ⁸ ^ ^ ³⁶⁹ ^. ⁸ ^ ³⁷⁰

8

.

369

 

 



 N n

n n

6. Si la extracción es ASSR, cuántas personas tendrían que ser interrogadas para poder decir con un

nivel de confianza del 90% que el verdadero porcentaje de viajeros atentos en la población no se

desvía más de 5 puntos del indicador si la población tuviera un tamaño de N=1.500.000

habitantes.

(13)

L’error absolut al nivel de confíança del 90% per una proporció en mostreig ASSR seria amb

4

. ˆ 0

p

i N  1500000

    ^ ^ ^ ^

0.05 262.15

1 808 . 0 1

4 . 0 1 4 . 65 0 . 1 1

ˆ 1 65 ˆ . 1 1 '

ˆ ₀_.₉₅ 1 ²   

 



 



 



 

 



 _

 



n n n

n p S p

n N z n

p EA y

EA

.

I d’aquí

 1   ¹ ²⁶²

_1500000²⁶²

^. ¹⁵

^.¹⁵

  ^ ²⁶² ^. ¹⁵ ^  ²⁶³

 



 N n

n n

7. Calcular el error relativo que se obtendría de una muestra 500 individuos en una población de N=3.500.000 habitantes para la proporción de viajeros atentos si se obtiene un valor muestral del 40%, al 95% de confianza.

L’error relatiu al nivel de confíança del 95% per una proporció en mostreig ASSR seria amb

4

. ˆ 0

p

i N  3500000

    ^ ^  ^ _{ } ^ ^ ^



 

  

 

 

 

  



 p n - 1

p N

z n 1 p

- n

p p N z n

p p EA p

ER ˆ

1 ˆ ˆ 1

1 ˆ 1 ˆ

ˆ ˆ

ˆ

₀_.₉₇₅ ₀_.₉₇₅

 

   

  ⁰ ^. ¹⁰⁸ ¹¹ ^%

4 . 0

4 . 0 1 1

96 . ˆ 1

1 ˆ

975

1

.

0

  

 

 

  

 

 

 

  

 3500000 500 - 1

500 1

- n p

p N

z n

Error relatiu

8. A los viajeros que responden afirmativamente a la pregunta de si conocen la tarifa de un billete simple, se les pide que indiquen en qué rango de los mostrados se encuentra el verdadero valor de esa tarifa. Los rangos muestrados son 0.5€ a 0.74€, 0.75€ a 0.89€, 0.9 a 1.14€, 1.15 a 1.34 €, 1.35€ a 1.75€ y más de 1.75€. Sólo un 60% define el rango correcto para el verdadero valor de la tarifa individual para 1 corona (el verdadero valor se sitúa en 1,0€ para el billete sencillo en 2002). Cuál es el error relativo para la proporción de viajeros que perciben correctamente la tarifa si el tamaño muestral es de 500 observaciones (suponer una población infinita)?

L’error relatiu al nivel de confíança del 95% per una proporció en mostreig ASSR seria amb

24

. 0 6 . 0 4 . 0

ˆ   

p

i N  3500000

(o infinit directament)

    ^ ^ ^ _{ }  ^ 

 

 

  

 

 

 

  



 p n - 1

p N

z n 1 p

- n

p p N z n

p p EA p

ER ˆ

1 ˆ ˆ 1

1 ˆ 1 ˆ

ˆ ˆ

ˆ

₀_.₉₇₅ ₀_.₉₇₅

 

   

  ⁰ ^. ¹⁵⁶ ¹⁶ ^%

24 . 0

76 . 96 0

. ˆ 1

1 ˆ

975

1

.

0

   

 

 

  

 p n - 1 500 - 1

p N

z n

Error relatiu

9. Cuál debería ser el tamaño muestral para conseguir un error relativo inferior al 5% en la estimación del rango de la verdadera tarifa a nivel de confianza del 95%, si el coeficiente de variación de la proporción de individuos conocedores de la tarifa sencilla toma por valor 3.

MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT (UPC). CURS Q1 EXAMEN FINAL 1 Mètodes de Captació, Anàlisi i Interpretació de Dades.