2018 Estadistica Inferencial Facil

(1)

(2)

ESTADISTICA INFERENCIAL FACIL

(3)

INDICE

CONTENIDO...2

CAPITULO 1 INTRODUCCION PRUEBAS DE HIPOTESIS...3

2.1 Pruebas de hipótesis...4

2.2 Requisitos para realizar pruebas paramétricas...4

2.3 Contrastes de normalidad...4

2.4 Regla de decisión para la evaluación de Hipótesis...8

CAPITULO 2 INTERVALOS DE CONFIANZA...13

2.1 Intervalo de confianza y prueba de hipótesis para media poblacional..13

2.2 Prueba de Hipótesis de igualdad de medias de dos poblaciones...16

2.2.1 Prueba de Hipótesis diferencia de medias, independientes…….16

2.2.2 Prueba de Hipótesis diferencia de medias, relacionadas……….18

CAPITULO 3 ANALISIS DE REGRESION Y CORRELACION...22

3.1 Coeficiente de Correlación de Pearson (r)...23

3.2 Coeficiente de Determinación (r

2

_)...24

3.3 Análisis de Regresión...25

3.4 Regresión Lineal MULTIPLE...27

ANEXOS...30

(4)

CAPITULO Nº 1

1 CAPITULO 1 INTRODUCCION PRUEBAS DE HIPOTESIS

Objetivos:

 Realizar procedimientos para los diferentes tipos de pruebas de hipótesis  Obtener e interpretar Intervalos de confianza

(5)

1.1 Pruebas de hipótesis

Las pruebas de hipótesis o contrastes; se realizan para la evaluación de los parámetros, que son medidas de la población. El programa SPSS, muestra en el mismo procedimiento, resultados para pruebas de hipótesis y para intervalos de confianza.

De acuerdo con Hernández Sampiere (2006), en los análisis de estadística inferencial se pueden cometer errores, a pesar que se trabaje con altos niveles de confianza; así se describen los errores posibles al realizar pruebas de hipótesis

1. Aceptar una hipótesis verdadera (decisión correcta) 2. Rechazar una hipótesis falsa (decisión correcta) 3. Aceptar una hipótesis falsa (error Tipo II o error beta) 4. Rechazar una hipótesis verdadera (error Tipo I o error alfa)

Continúa describiendo el autor que estos errores se pueden reducir: 1. Usando muestras representativas probabilísticas

2. Realizando una inspección cuidadosa de los datos 3. Seleccionando las pruebas estadísticas apropiadas 4. Con mayor conocimiento de la población

1.2 Requisitos para realizar pruebas paramétricas

Los procedimientos estadísticos para pruebas paramétricas requieren esencialmente que los datos a evaluar cumplan la condición de normalidad; es decir que la distribución poblacional de la variable a analizar sea normal. Las pruebas de normalidad se realizan para variables cuantitativas

1.3 Contrastes de normalidad

Según el Teorema Central del Límite se puede asegurar que cuando la muestra es de tamaño grande; la distribución del estadístico media muestral, es aproximadamente normal.

Este teorema permite realizar las pruebas paramétricas tanto en poblaciones normales como en poblaciones no normales con un tamaño muestral suficientemente grande. Cuando no se especifique la distribución de la población es posible contrastar la hipótesis de normalidad de las poblaciones en estudio antes de realizar la prueba de hipótesis.

(6)

Ejercicio

Usando el archivo de datos Mundo 95.sav; realizar un estudio de normalidad de la variable

población

PROCESO

Analizar -Estadísticos descriptivos-Explorar

1. Seleccionar la variable población, ubicarla en la ventana Dependientes: 2. En el grupo Visualización elegir la opción Ambos.

3. En el botón Gráficos elegir la opción Ninguna en el grupo Diagrama de caja, y marcar

Histograma en el grupo Descriptivos.

4. Marcar la opción Gráficos con pruebas de normalidad. Aceptar.

Las opciones de este proceso se muestran en la Figura Nº 26

Figura N° : Explorar

Las tablas de resultados muestran primero la tabla de Resumen del procesamiento de los casos, donde se muestra el recuento del número de casos válidos y perdidos.

Resumen del procesamiento de los casos

Casos

Válidos Perdidos Total

N Porcentaje N Porcentaje N Porcentaje

población 109 97,3% 3 2,7% 112 100,0%

(7)

Descriptivos

Estadístico Error típ.

poblacion Media 47723,88 14053,837

Intervalo de confianza para la media al 95%

Límite inferior 19866,74

Límite superior 75581,02

Media recortada al 5% 24432,96

Mediana 10400,00

Varianza 2,153E10

Desv. típ. 146726,364

Mínimo 256

Máximo 1205200

Rango 1204944

Amplitud intercuartil 32100

Asimetría 6,592 ,231

Curtosis 46,651 ,459

En la tabla Pruebas de normalidad, se muestran los resultados de dos contrastes de hipótesis sobre la normalidad de la población de la que proceden los datos. El programa SPSS usa los contrastes de Kolmogorov-Smirnov y de Shapiro-Wilks (es válido para muestras hasta con 50 datos).

Pruebas de normalidad

Kolmogorov-Smirnova _Shapiro-Wilk

Estadístico Gl Sig. Estadístico Gl Sig.

Población ,373 109 ,000 ,288 109 ,000

a. Corrección de la significación de Lilliefors

HIPOTESIS A EVALUAR

Ho: Los datos siguen una Distribución Normal

H1: Los datos NO siguen una Distribución Normal

En la tabla de resultados se puede observar que el valor p (Sig.) es 0.000 en ambos casos; usando como regla general de decisión p< α  Se Rechaza Ho; este valor (0.000) lleva a rechazar la hipótesis de que la muestra procede de una población normal. En conclusión, los datos no siguen una distribución normal

Los gráficos generados ayudan a sustentar la prueba de normalidad:

 Si la forma del histograma, sugiere una curva con forma de campana, ayuda en la hipótesis de normalidad de la variable.

(8)

 Para el grafico Q-Qnormal sin tendencia; para comprobar la normalidad los puntos del grafico deben estar cercanos a cero (línea horizontal); además de presentar un comportamiento aleatorio

(9)

1.4 Regla de decisión para la evaluación de Hipótesis

En todo programa o software, la evaluación de hipótesis se realiza mediante el Valor P o también denominado como “p value”. Este valor determina si es adecuado rechazar la hipótesis nula. Los valores p fluctúan entre 0 y 1. Se necesita determinar el nivel de significancia (). Un valor comúnmente utilizado es 0.05. Si el valor p es menor que su nivel de significancia, rechace la hipótesis nula.

El valor p se calcula a partir de la muestra observada y representa la probabilidad de rechazar incorrectamente la hipótesis nula, cuando en realidad es verdadera (error de tipo I). En otras palabras, es la probabilidad de obtener una diferencia que sea, como mínimo, tan grande como la diferencia entre el valor observado y el valor hipotético a través del error aleatorio solamente.

Regla general

p value < alfa  Se Rechaza Ho

En SPSS p value se etiqueta como Sig (bilateral). Sig. < α  Se Rechaza Ho

Se debe recordar que 1-α es el Nivel de confianza y α: Nivel de significancia; el nivel de confianza es determinado por el investigador, el valor por defecto es 95%, el mismo que se muestra predeterminado en SPSS. Otro valor que se puede usar es 99%; la elección de este valor está influenciado por el tipo de variable que se va a evaluar.

En los procesos de investigación se cuentan con 3 tipos de pruebas

Bilateral: Cuando la H1 es DIFERENTE (ejemplo µ ≠ 0), se puede apreciar en la Figura Nº

27, que las zonas marcadas corresponden al área de rechazo, al ser bilaterial se cuenta con 2 colas como zonas de rechazo de la Hipótesis nula

Figura N° : Tipo Bilateral

0,4 0,3 0,2 0,1 0,0 X D en si da d -1,960 0,025 1,960 0,025 0

Gráfica de distribución Normal; Media=0; Desv.Est.=1

Unilateral cola izquierda: Cuando la Hipótesis a evaluar o contrastar (H1) es MENOR

(10)

Figura N° : Tipo Unilateral Izquierda 0,4 0,3 0,2 0,1 0,0 X D en si da d -1,645 0,05 0

Gráfica de distribución

Normal; Media=0; Desv.Est.=1

Unilateral cola derecha: Cuando la Hipótesis a evaluar (H1) es MAYOR (ejemplo µ > 0); es

posible observar en la Figura Nº 29 que la zona de rechazo está determinada por la cola derecha de la gráfica de distribución

Figura N° : Tipo Unilateral Derecha

0,4 0,3 0,2 0,1 0,0 X D en si da d 1,645 0,05 0

Gráfica de distribución

Normal; Media=0; Desv.Est.=1

Luego de realizar el procedimiento correspondiente a la prueba de hipótesis, el siguiente paso es decidir si se Rechaza o No se Rechaza la Hipótesis Nula (Ho)

Regla para pruebas Bilaterales y Unilaterales

Hipótesis Alterna Valor t

Una Población Dos Poblaciones t<0 t>0

µ ≠ 0 µ1-µ2 ≠ 0 P p

µ < 0 µ1-µ2 < 0 p/2 1- (p/2)

µ > 0 µ1-µ2 > 0 1- (p/2) p/2

Un intervalo de confianza es un rango de valores (valor mínimo, valor máximo), donde se estima que se encuentra el valor del parámetro (medida de la población) y la prueba de hipótesis consiste en probar estadísticamente una afirmación respecto a un parámetro. SPSS lleva a cabo simultáneamente ambos procedimientos. Se muestra en la Figura Nº 30.

PROCESO

Analizar -Comparar medias

(11)

Douglas, William y Samuel (2012) sostienen que, la estimación por intervalo es un enfoque que arroja más información que un estimador puntual, que es un solo valor, y este presenta un intervalo de valores dentro de los cuales se espera que se encuentre el parámetro buscado.

Se puede afirmar que la estimación del intervalo de confianza es el primer acercamiento respecto al comportamiento inferencial de una variable. El programa SPSS cuenta con diferentes opciones, que se eligen de acuerdo al tipo de pruebas de hipótesis que se necesite realizar.

Ejercicio:

Encontrar un intervalo de confianza para la variable HrsInternet.

PROCESO

1. Analizar - Comparar medias - Prueba T para una muestra 2. Elegir la variable HrsInternet

3. En valor de prueba; mantener el valor en cero

(12)

Estadísticas de muestra única

N Media

Desviación estándar

Media de error estándar

Horas Semanales 400 17,86 10,174 ,509

Prueba de muestra única

Valor de prueba = 0

t gl

Sig. (bilateral)

Diferencia de medias

95% de intervalo de confianza de la diferencia

Inferior Superior Horas

Semanales 35,106 399 ,000 17,858 16,86 18,86

(13)

CAPITULO Nº 2

2 CAPITULO 2 INTERVALOS DE CONFIANZA

2.1 Intervalo de confianza y prueba de hipótesis para la media de

una población

El objetivo es plantear un contraste de la forma:

El programa SPSS considera que la varianza poblacional es desconocida; situación realista dado que se trata de un parámetro; por lo que se usa la media muestral; asumiendo que sigue una distribución t de Student

Ejercicio

Usando el archivo Encuesta.sav Hallar un intervalo de confianza para el salario medio, además probar que el sueldo promedio es igual a 1500; considerar un nivel de 90% de confianza. El ejemplo se muestra en la Figura Nº 32.

PROCESO

1. Analizar -Comparar medias -Prueba T para una muestra...

2. En el botón Opciones, en nivel de confianza escribir 90%, por lo que α=0.10 (alfa =nivel de significancia)

(14)

Prueba para una muestra

Valor de prueba = 1500

t gl Sig. (bilateral)

99% Intervalo de confianza para la diferencia

Inferior Superior

Sueldo Promedio ,775 399 ,439 22,92750 -53,6037 99,4587

Como el intervalo de confianza que proporciona SPSS [-53.6037, 99.4587], corresponde al parámetro u=1500, el intervalo para el parámetro userá:

[1500- 53.6037;1500 + 99.4587] obteniendo [1446,3963, 1599,4587]

HIPOTESIS A EVALUAR Ho: El sueldo es IGUAL a 1500

H1: El sueldo es DIFERENTE a 1500

REGLA DE DECISION

Valor p <alfa  Se RECHAZA Ho

En cuanto a la prueba de hipótesis, el valor p (Sig. Bilateral) = 0.439 nos conduce a la decisión de no rechazar la hipótesis nula

Conclusión: El sueldo es IGUAL a 1500

Ejercicio

Usando el archivo Encuesta.sav se puede decir que el salario medio de los profesionales de Ingeniería es igual a 1400; considerar un nivel de 90% de confianza

En este ejercicio se necesita usar la opción de segmentación de archivos; se muestra en la Figura Nº 33

Datos- Segmentar archivos

Figura N° : Segmentar Archivo

(15)

análisis estadísticos a realizar, se efectuará tomando en cuenta cada uno de los segmentos

en que está dividido el archivo.

PROCESO

1. Analizar - Comparar medias - Prueba T para una muestra 2. Elegir la variable Sueldo

3. En valor de prueba escribir el valor a contrastar: 1400 4. En el botón Opciones, cambiar el nivel de confianza a 90%

Se debe obtener las pruebas de hipótesis para todas las profesiones; La siguiente tabla muestra el resultado para el caso de los Ingenieros

Profesión = ingeniero

Estadísticas de muestra únicaa

N Media

Desviación estándar

Media de error estándar

Sueldo Promedio 109 1557,3211 592,45618 56,74701

a. Profesión = ingeniero

Prueba de muestra únicaa

Valor de prueba = 1400

t gl Sig. (bilateral)

90% de intervalo de confianza de la diferencia

Inferior Superior

Sueldo Promedio 2,772 108 ,007 157,32110 63,1730 251,4692

a. Profesión = ingeniero

HIPOTESIS A EVALUAR Ho: El sueldo es IGUAL a 1400

H1: El sueldo es DIFERENTE a 1400

Valor p <alfa  Se RECHAZA Ho 0.007<0.1 Se RECHAZA Ho

El valor p (sig. bilateral en SPSS) es muy inferior a alfa y nos lleva a rechazar la hipótesis de que el salario medio de los Ingenieros es de 1400

(16)

2.2 Prueba de Hipótesis o Contraste de igualdad de medias de dos

poblaciones

En el programa SPSS, las pruebas de hipótesis o los contrastes respecto a la diferencia de las medias de dos poblaciones, se realiza tomando siempre como valor de prueba µ = 0, es decir, sólo prueba igualdad de medias, con lo cual la prueba de hipótesis se plantea de la siguiente forma:

Existen 2 casos que se pueden evaluar; si las muestras provienen de poblaciones independientes o poblaciones relacionadas (pareadas).

2.2.1

Prueba de Hipótesis para diferencia de medias, muestras independientes

El programa SPSS supone por defecto que las varianzas de las poblaciones son desconocidas, que es una situación común. Lo que no decide es si las varianzas pueden considerarse iguales o distintas, motivo por el que realiza al mismo tiempo dos contrastes

sobre la diferencia de medias, uno suponiendo varianzas iguales y otro suponiendo

varianzas diferentes, dejando la decisión final al investigador.

Ejercicio

Usando el archivo Datos de empleados.sav realizar un contraste sobre la igualdad de medias de la variable salario (Salario actual) según la categoría laboral a la que pertenecen (“Administrativo" y "Seguridad"), a un nivel de significación de α =0.01 o un Nivel de Confianza de 99%

PROCESO

1. Analizar -Comparar medias -Prueba T para muestras independientes... 2. Elegir la variable salario

3. En variable de agrupación elegir catlab

(17)

4. Seleccionar Definir grupos, la codificación de la variable catlab (Categoria Laboral) está determinado por 1 “Administrativo” y 2 “Seguridad”, escribir en Grupo1: 1 y en Grupo2: 2

5. En Opciones escribir en porcentaje del intervalo de confianza 99%

El proceso se muestra en la Figura Nº 34

Los resultados obtenidos se muestran en la tabla Prueba de muestras independientes

Ho: El salariode Administrativos es IGUAL al salariode Seguridad

H1: El salariode Administrativos es DIFERENTE al salariode Seguridad

En este caso primero se debe evaluar la igualdad de varianzas, se usa la prueba de Levene

Ho: Las varianzas son IGUALES H1: Las varianzas son DIFERENTES

(18)

Se observa en la tabla anterior que el valor p es 0.00 (Sig. en la columna que corresponde a la prueba de Levene)

0.00<0.005 Se RECHAZA Ho; por lo que se concluye que Las varianzas son

DIFERENTES

Finalmente, para la hipótesis inicial se debe tomar en cuenta el valor correspondiente a la fila que indica No se han asumido varianzas iguales. Para este test, se puede observar que el valor p obtenido es 0.00; usando la regla de decisión

Valor p <alfa  Se RECHAZA Ho 0.00<0.005 Se RECHAZA Ho

Por lo que se debe rechazar la hipótesis de igualdad de salarios medios entre las dos categorías laborales.

Se concluye: Existe evidencia significativa para AFIRMAR que los salarios medios entre Administrativos y Seguridad son DIFERENTES

2.2.2

Prueba de Hipótesis para diferencia de medias, muestras relacionadas

Cuando se cuenta con 2 poblaciones cuyos resultados de evaluación están relacionados, como en el caso que se aplica un fármaco a un grupo de pacientes y se necesita evaluar su influencia, se trata de un caso de muestras relacionadas o pareadas.

Ejercicio

Se desea comparar la calidad de dos nuevas clases de trigo. Para ello, se toman 10 parcelas al azar situadas en diferentes distritos, y se siembra en cada una de ellas las dos clases de trigo. La producción en las 10 parcelas fue la siguiente:

Clase A: 57 49 60 55 57 48 50 61 52 56

Clase B: 55 48 58 56 54 48 52 56 50 58

¿Se puede aceptar que la producción es la misma para ambas clases de trigo a un nivel de significación α = 0:05?

PROCESO

1. Generar las variables ClaseA y ClaseB, luego introducir los datos

2. Analizar -Comparar medias -Prueba T para muestras relacionadas 3. Se selecciona las 2 variables, como se muestra en la figura N 32

4. Con el botón Opciones… se define el nivel de confianza de 95%

(19)

Figura N° : Prueba t para muestras relacionadas

Los resultados obtenidos se muestran en la tabla Prueba de muestras relacionadas

Prueba de muestras relacionadas

Diferencias relacionadas t gl Sig. (bilateral) Media Desviación típ. Error típ. de la media

95% Intervalo de confianza para la

diferencia Inferior Superior Par 1 ClaseA - ClaseB 1,0000 0

2,26078 ,71492 -,61726 2,61726 1,399 9 ,195

Ho: La producción de trigo de la clase A es IGUAL a la producción de trigo de la clase B

H1: La producción de trigo de la clase A es DIFERENTE a la producción de trigo de la clase B

Se puede observar que el valor p (Sig bilateral) es 0.195 que resulta mayor que el nivel de significación 0.05

0.195<0.05 NO se Rechaza Ho

Por lo que se puede afirmar que La producción de trigo de la clase A es IGUAL a la producción de trigo de la clase B

También se puede observar que el intervalo de confianza del 95% para la diferencia de medias, [- 0.61726 , 2.61726] contiene al cero, lo que corrobora la conclusión de no rechazar que las medias son iguales.

(20)

Con el análisis de la varianza (ANOVA) es posible comparar 2 o más medias. Esta técnica fundamenta su análisis en la medición de la varianza; conociendo este valor de las medias se puede saber si estás son iguales o no.

Hipótesis nula (H0):

Las k medias proceden de k poblaciones caracterizadas por la misma media Ho: 𝜇1 = 𝜇2 = 𝜇3 …….= 𝜇𝑘

Hipótesis alternativa (H1):

Las k medias proceden de k poblaciones no todas caracterizadas por la misma media H1: 𝜇1 ≠ 𝜇2 ≠ 𝜇3 …….≠ 𝜇𝑘

Ejercicio

Usando el archivo Datos de Empleados.sav Realizar un contraste sobre la igualdad de medias de la variable salario para los 3 tipos de trabajadores Directivo, Administrativo y Seguridad

PROCESO

1. Analizar -Comparar medias –Anova de un factor...

2. Elegir la variable salario en Lista de dependientes y en factor catlab; tal como se observa en la Figura Nº 36

Figura N° : Anova

Los resultados obtenidos se muestran en la tabla ANOVA

ANOVA

Salario actual

Suma de

cuadrados gl Media cuadrática F Sig.

Entre grupos 89438483925,943 2 44719241962,971 434,481 ,000

Dentro de grupos 48478011510,397 471 102925714,459

Total 137916495436,34

(21)

HIPOTESIS A CONTRASTAR

Ho: 𝜇1 = 𝜇2 = 𝜇3 H1: 𝜇1 ≠ 𝜇2 ≠ 𝜇3

RESULTADO

0.000<0.05 Se Rechaza Ho

Se puede afirmar que los sueldos son diferentes en cada categoría laboral

Recordar la condición de normalidad, se debe realizar el contraste respectivo; en el caso de no cumplirse el supuesto de normalidad para el ANOVA se aplica la prueba no paramétrica de Kruskal Wallis

ANOVA DETALLADO

Es posible realizar un análisis más profundo, se debe seleccionar el botón opciones, se muestra en la Figura Nº 39.

(22)

Los resultados obtenidos se muestran en la tabla Salario actual

Salario actual

N Media

Desviación

estándar Error estándar

95% del intervalo de confianza

para la media

Mínimo Máximo Límite inferior

Límite

superior

Administrativo ₃₆₃ _$27,838.54 _$7,567.995 _$397.217 _$27,057.40 _$28,619.68 _$15,750 _$80,000 Seguridad ₂₇ _$30,938.89 _$2,114.616 _$406.958 _$30,102.37 _$31,775.40 _$24,300 _$35,250 Directivo ₈₄ _$63,977.80 _$18,244.776 _$1,990.668 _$60,018.44 _$67,937.16 _$34,410 _$135,000 Total ₄₇₄ _$34,419.57 _$17,075.661 _$784.311 _$32,878.40 _$35,960.73 _$15,750 _$135,000

Al observar los intervalos de confianza se puede afirmar que los sueldos de las 3 categorías

son diferentes

Prueba de homogeneidad de varianzas

Salario actual

Estadístico de

Levene df1 df2 Sig.

59,733 2 471 ,000

No se cumple el requisito de igualdad de varianzas

ANOVA

Salario actual

Suma de

cuadrados gl Media cuadrática F Sig.

Entre grupos 89438483925,943 2 44719241962,971 434,481 ,000 Dentro de grupos 48478011510,397 471 102925714,459

Total 137916495436,34

0 473

Pruebas sólidas de igualdad de medias

Salario actual

Estadísticoa _df1 _df2 _Sig.

Welch 162,200 2 117,312 ,000

(23)

Se puede observar que los directivos tienen los salarios mas altos

PROCESO

Analizar-Pruebas No parametricas-Cuadros de dialogos antiguos - K muestras independientes. El proceso se puede ver en la Figura Nº 38.

Figura N° : Anova No Paramétrica

Se puede observar los siguientes resultados en la tabla Rangos y Estadísticos de prueba

Rangos

(24)

Directivo 84 427,85

Total 474

Estadísticos de pruebaa,b

Salario actual

Chi-cuadrado 207,679

gl 2

Sig. asintótica ,000

a. Prueba de Kruskal Wallis b. Variable de agrupación: Categoría laboral

(25)

La Prueba de Hipótesis para la comparación de dos proporciones es un caso particular del contraste de homogeneidad de dos muestras de variable cualitativa cuando presentan dos niveles o valores. Esta prueba se puede realizar usando el estadístico X2_{(chi cuadrado) que}

se encuentra en las opciones de las tablas cruzadas

Ejercicio

Usando el archivo Datos de empleados.sav realizar un contraste sobre la relación entre las variables sexo y minorías

PROCESO

1. Analizar - Estadísticos descriptivos - Tablas cruzadas...

2. Seleccionar las variables dicotómicas a contrastar, para el ejemplo las variables Sexo en filay Minorias en columna

3. Elegir el botón Casillas, marcar Observado en Recuentos y Fila en Porcentajes, la Figura Nº 39 muestra estas opciones

Figura N° : Anova Opciones

Seleccionar el botón Estadísticos... seleccionar Chi-cuadrado

(26)

Sexo*Clasificación de minorías tabulación cruzada

Clasificación de minorías

Total

No Sí

Sexo Hombre Recuento ₁₉₄ ₆₄ ₂₅₈

% dentro de Sexo _75,2% _24,8% _100,0%

Mujer Recuento ₁₇₆ ₄₀ ₂₁₆

% dentro de Sexo _81,5% _18,5% _100,0%

Total Recuento ₃₇₀ ₁₀₄ ₄₇₄

% dentro de Sexo _78,1% _21,9% _100,0%

Pruebas de chi-cuadrado

Valor Gl

Sig. asintótica (2 caras)

Significación exacta (2 caras)

Significación exacta (1 cara)

Chi-cuadrado de Pearson 2,714a ₁ _,099

Corrección de continuidadb _2,359 ₁ _,125

Razón de verosimilitud 2,738 1 ,098

Prueba exacta de Fisher ,119 ,062

N de casos válidos 474

a. 0 casillas (0,0%) han esperado un recuento menor que 5. El recuento mínimo esperado es 47,39. b. Sólo se ha calculado para una tabla 2x2

Ho: La proporción de minorías en Hombres es IGUAL a la proporción de minorías en Mujeres

H1: La proporción de minorías en Hombres es DIFERENTE a la proporción de minorías en Mujeres

o

Ho: Las variables sexo y minoría son INDEPENDIENTES (no están relacionadas)

H1: Las variables sexo y minoría son DEPENDIENTES (están relacionadas)

Cuando se trata de muestras grandes se elige el estadístico Corrección por continuidad; calculado con la corrección por continuidad de Yates. Para el ejemplo, el valor es 2,359

Valor p <alfa  Se RECHAZA Ho 0.125<0.05  NO se RECHAZA Ho

(27)

CAPITULO Nº 3

3 CAPITULO 3 ANALISIS DE REGRESION Y CORRELACION

Objetivos

(28)

INTRODUCCION

La importancia del estudio del análisis de regresión, radica en conocer la existencia de algún tipo de relación entre 2 variables denominadas variable independiente y variable dependiente

Se puede clarificar estos conceptos de variable con los siguientes ejemplos, en forma de pregunta

 ¿A mayor publicidad mayores ventas?

 ¿A más horas de estudio, se obtienen notas más altas?

 ¿La producción de un trabajador disminuye a medida que avanza la jornada laboral?

Todo análisis debe iniciar con un diagrama de puntos o “nube de puntos”, el mismo que permite realizar un análisis exploratorio de las variables; es posible encontrarse con por lo menos 3 escenarios

Grafica de Tipos de Nube de puntos

Fuente:http://168.176.239.58/cursos/ciencias/2001091/html/un7/cont_704_61.html

Lind Douglas (2010), menciona que el estudio de la relación de las variables, inicia con la medición de la fuerza de relación con el análisis de correlación, para continuar con el análisis de regresión, donde se desarrolla una ecuación matemática que permite estimar el valor de una variable con base en el valor de la otra

3.1 Coeficiente de Correlación de Pearson (r)

Coeficiente de Correlación de Pearson (r): prueba estadística que permite realizar un análisis de relación lineal entre 2 variables cuantitativas. Mide el grado de asociación entre las variables

H1: La variable ventas está relacionada con la variable publicidad

o

H1: A mayor publicidad, mayores ventas

(29)

Los valores del coeficiente de correlación pueden estar entre -1 y + 1; de acuerdo a Hernandez Sampieri (2006) este valor representa el nivel de relación entre las variables, así menciona los siguientes valores; se muestran solo los valores positivos

r= 1: Correlación perfecta r=0.90: Correlación fuerte

r=0.75: Correlación considerable r=0.50: Correlación media r=0.25: Correlación débil r=0.10: Correlación muy débil r=0.00: NO existe Correlación

3.2 Coeficiente de Determinación (r

2

)

Coeficiente de Determinación (r2_):_{permite analizar cuanto explica o determina una}

variable la variación de la otra. Un ejemplo permite aclarar este valor, cuando se analiza la relación entre ventas y publicidad, con un valor obtenido para r2_{=0.85, se puede afirmar que}

“La publicidad” explica el 85% de “las ventas”

EJEMPLO

Usando el archivo Datos de Empleados.sav, encontrar la relación entre salario inicial y salario actual

PROCESO

Analizar – Correlaciones – Bivariadas Elegir las variables a analizar

Este proceso se muestra en la Figura Nº 42

Figura N° : Correlaciones Bivariadas

(30)

Salario actual Correlación de Pearson 1 ,880**

Sig. (bilateral) ,000

N 474 474

Salario inicial Correlación de Pearson ,880** ₁

Sig. (bilateral) ,000

N 474 474

**. La correlación es significativa en el nivel 0,01 (2 colas).

Con el valor r =0.88 obtenido, se podría afirmar que existe una relación positiva fuerte

3.3 Análisis de Regresión

La regresión lineal permite cuantificar la relación, observada al graficar un diagrama de puntos correspondientes a dos variables, se puede describir la ecuación de mejor ajuste mediante

y = a + b x PROCESO

1. Analizar-Regresión-Lineales

2. Se selecciona la variable SalarioActual en el cuadro de Dependientes

3. Se selecciona la variable SalarioInicial en el cuadro de Independientes, la Figura Nº 43 muestra este proceso.

Figura N° : Regresión Lineal

Los resultados que se muestran, en las tablas Resumen del modelo y ANOVA que son las tablas que se usan con mayor frecuencia para el análisis de regresión

Resumen del modelo

(31)

1 _,880a _,775 _,774 _8,115.356

a. Predictores: (Constante), Salario inicial

ANOVAa

Modelo Suma de cuadrados gl Media cuadrática F Sig. 1 Regresión 106831048750,124 1 106831048750,124 1622,118 ,000b

Residuo 31085446686,216 472 65858997,217 Total 137916495436,340 473

a. Variable dependiente: Salario actual b. Predictores: (Constante), Salario inicial

Las hipótesis que se pueden formular para la tabla ANOVA son del tipo siguiente

Ho: No Existe una relación lineal entre Y y X.

H1: Existe una relación lineal entre Y y X.

Con respecto a la tabla ANOVA; el p-value, es 0.000, menor que el nivel de significación α = 0.05, lo que conduce a rechazar la hipótesis nula, es decir existe una relación lineal significativa entre Y y X. Esto indica que es válido el modelo de regresión considerado, en este caso el modelo lineal simple. Los resultados se muestran en la tabla Coeficientes.

Coeficientesa

Modelo

Coeficientes no estandarizados

Coeficientes estandarizados

t Sig.

B Error estándar Beta

1 (Constante) 1928,206 888,680 2,170 ,031

Salario inicial 1,909 ,047 ,880 40,276 ,000

a. Variable dependiente: Salario actual

De la tabla coeficientes, se puede obtener la ecuación de regresión; para el ejemplo seria

(32)

Recta de regresión

La recta de regresión se puede obtener mediante el proceso de generación de gráficos

PROCESO

1. Gráficos - Cuadros de dialogo antiguos - Dispersión/Puntos…. 2. Elegir el modelo Dispersión Simple

3. Elegir la variable SalActual en Eje Y 4. Elegir la variable SalInicial en Eje X

5. EDITAR el grafico de Dispersión (doble clic al gráfico) 6. En el menú Elementos Elegir Linea de ajuste total

3.4 Regresión Lineal MULTIPLE

Y = β0 + β 1 X1+ β 2 X2 +…+ β k X k +ε

PROCESO

1. Analizar-Regresión-Lineales

2. Se selecciona la variable SalarioActual en el cuadro de Dependientes

(33)

Los resultados muestran un resumen del modelo y la tabla de coeficientes

Resumen del modelo

Modelo R R cuadrado

R cuadrado

ajustado

Error estándar de

la estimación

1 ,897a _,804 _,803 _$7,586.187

a. Predictores: (Constante), Experiencia previa (meses), Meses desde el contrato,

Salario inicial

Se puede observar que el valor R2_{=0.804, lo que permite indicar que el SalarioActual queda}

explicado en un 80.4% por las variables según el modelo elegido

Coeficientesa

Modelo

Coeficientes no estandarizados

Coeficientes

estandarizados

t Sig. B Error estándar Beta

1 (Constante) -10266,629 2959,838 -3,469 ,001

Salario inicial 1,927 ,044 ,888 43,435 ,000

Meses desde el contrato 173,203 34,677 ,102 4,995 ,000

Experiencia previa (meses) -22,509 3,339 -,138 -6,742 ,000

a. Variable dependiente: Salario actual

(34)

(35)